ConQueR: Contextualized Query Reduction using Search Logs
06 Jul 2023
본 문서에서는 SIGIR 2023에 게재될 “ConQueR: Contextualized Query Reduction using Search Logs” 논문을 소개합니다. 논문의 상세 정보는 아래와 같습니다.
Title: ConQueR: Contextualized Query Reduction using Search Logs
Authors: Hye-young Kim*, Minjin Choi*, Sunkyung Lee, Eunseong Choi, Young-In Song, Jongwuk Lee (* : equal contribution)
Conference: ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2023, short paper)
Query reduction
정보 검색에서 질의 재구성(Query reformulation)은 언어적 간극을 완화하는 핵심 방법입니다. 가령 네이버나 구글과 같은 검색 엔진에서 검색을 할 때, 우리는 종종 입력한 질의로부터 원하는 검색 결과를 얻지 못하는 문제를 마주합니다. 이를 해결하기 위해 우리는 기존에 입력했던 질의를 적절히 수정하여, 의도에 맞는 검색 결과를 얻을 수 있습니다. 이처럼 원하는 검색 결과를 얻지 못했던 기존 질의를 의도에 맞게 수정하는 방법을 질의 재구성(Query refinement)이라고 합니다.
질의 재구성 방법은 크게 세가지로 나누어 집니다. 1) 불필요한 단어를 제거하는 질의 축약(Query reduction), 2) 새로운 단어를 추가하는 질의 확장(Query expansion), 그리고 3) 기존 질의 단어를 수정하는 질의 정제(Query refinement). 그 중에서도 본 논문이 다루고 있는 질의 축약(Query reduction)은 검색 범위를 줄임으로써 특히 긴 질의들에서 사용자의 의도를 더 잘 반영할 수 있다는 장점이 있습니다. 실제로 한 이커머스 사이트에서 원하는 검색 결과를 얻지 못했던 질의들 중 27%는 하나의 불필요한 단어의 제거만으로도 원하는 검색 결과를 얻을 수 있었습니다. 이처럼 질의 축약(Query reduction)은 간단하면서도 효과적으로 사용자의 검색 의도를 반영하는 질의 재구성 방법입니다. 아래 그림 1은 질의 축약(Query reduction)의 예시를 나타냅니다.
<그림 1> 질의 축약 (Query reduction) 예시
Proposed model
본 논문에서는 긴 질의를 효과적으로 줄이기 위해, 단어와 문장 단계의 두 가지 관점으로 사전 학습된 언어모델을 활용해 질의 표현을 얻는 Contextualized Query Reduction (ConQueR)를 제안합니다. 제안 모델의 핵심은 아래와 같습니다.
Core term extraction 모델은 단어 관점에서, 질의 내부의 각 단어가 필수적인지를 판단하고 사용자의 의도를 나타내기에 적절한 단어만을 추출합니다.
Sub-query selection 모델은 문장 관점에서, 원래 질의로 부터 생성될 수 있는 하위 질의의 집합 중 가장 적절한 축약 하위 질의가 무엇인지 판단합니다.
최종적으로 성능에서의 시너지를 얻기 위해 두가지 모듈을 통합하여 적절한 축약을 얻어냅니다.
두 모델은 검색 로그 데이터에 들어있는 noisy sample에도 모델이 강건하게 학습할 수 있도록 truncated loss 전략을 활용합니다.
Core term extraction 모델의 구조는 그림2와 같습니다. 어떠한 질의가 주어졌을 때, 해당 질의를 구성하는 각 단어들의 중요도를 결정하고, 중요한 단어를 남긴 채 불필요한 단어들을 제거합니다. Core term extraction에서 활용하는 사전 학습 언어 모델의 입력 값은 토큰들로 이루어진 하나의 문장이고 출력 값은 각 토큰들에 대한 확률 값입니다. 이 확률 값을 통해 우리는 각 단어들이 문장 내부에서 중요한지, 또는 중요하지 않은지를 판단합니다. 일정 확률 값 이하를 가지는 단어들을 사용자의 실질적 검색 의도를 담지 않은 것으로 판단하고 이를 제거하여 질의를 축약합니다.
<그림 2> Core term extraction 구조
Sub-query selection 모델의 구조는 그림 3와 같습니다. 어떠한 질의가 주어졌을 때, 우리는 해당 질의의 부분 집합인 여러 하위 질의들을 생성할 수 있습니다. 이런 여러 하위 질의들은 기존 질의의 여러 축약들로 볼 수 있고, Sub-query selection은 그 중 가장 적절한 축약의 형태를 선택합니다. 사전 학습 언어 모델의 입력 값은 원래 질의와 후보 하위 질의 두 개의 문장으로 구성되고 출력 값은 특수 토큰인 CLS 토큰의 확률 값입니다. 이 CLS 토큰의 확률 값을 후보 하위 질의가 원래 질의의 올바른 축약일 확률로 생각하여, 해당 값이 가장 높은 하위 질의를 올바른 축약으로 선택합니다.
<그림 3> Sub-query selection 구조
위의 두 가지 모델들은 각각 다른 관점(단어 또는 문장)에서 기존 질의의 문맥 정보를 포착하고 적절한 축약을 얻습니다. 단어 관점에서의 축약과 문장 관점에서의 축약의 장점을 모두 얻을 수 있도록 ConQueR는 최종적으로 두 가지 방법을 통합하여 가장 적절한 축약을 얻습니다. 먼저, 그림 2의 core term extraction 예시에서 우리는 “weather in Taipei”라는 한 하위 질의의 확률 값이 아닌 “weather”, ”in”, “Taipei” 각 단어들의 확률 값을 얻게 됩니다. 하지만 그림 3의 sub-query selection 예시에서 우리는 “weather in Taipei”라는 한 하위 질의의 확률 값을 얻게 됩니다. 따라서 우리는 core term extraction에서 얻은 각 단어들의 확률 값의 평균을 통해 한 하위 질의의 확률 값을 얻습니다. 그리고 이를 sub-query selection의 확률 값에 가중합하여 최종 하위 질의 확률 값을 얻어 가장 높은 확률 값의 하위 질의를 최종 축약으로 선택합니다.
마지막으로, 본 논문에서는 실제 검색 엔진의 사용자 로그 데이터를 활용하여 질의 축약을 수행합니다. 따라서 검색 로그 데이터의 noise에도 모델을 강건하게 학습하도록 손실 기반의 noise제거 학습 방법인 truncated loss 기법을 두 가지 방법론에 활용하였습니다. Truncated loss 기법은 학습 과정에서 큰 손실을 가지는 샘플을 noise라고 가정하고 이를 동적으로 제거함으로써 강건한 모델 학습을 수행합니다.
Experiments
본 논문은 7가지 baseline들과 질의 축약 성능을 비교합니다. 표 1의 첫번째 그룹은 규칙 기반 방법론들의 성능을 나타내고, 두번째 그룹은 신경망 기반 모델들의 성능을 나타내며, 마지막 그룹은 제안 모델들의 성능을 나타냅니다. 모든 제안 모델들은 일관적으로 다른 baseline 대비 성능 향상을 보였으며, 최종 통합 제안 모델인 ConQueR_agg 모델은 가장 강력한 비교 모델인 SEQUER 대비 Exact Match(EM)기준 8.45%의 성능 향상을 얻었습니다. 또한 단일 제안 모델인 ConQueR_core와 ConQueR_sub 대비 통합 모델인 ConQueR_agg의 정확도가 가장 높았고, 이는 두 가지 특성을 통합함으로써 더 나은 질의 축약 성능을 얻을 수 있음을 나타냅니다.
<표 1> 전체 성능
마지막으로, 우리는 질의 축약의 정성적 평가도 함께 진행하였습니다. 총 88명의 사용자들에게 원본 질의와 익명 처리된 각 모델들로부터 얻은 축약들을 함께 제시하고, 해당 축약들 중 가장 적절한 축약을 고르도록 요청하였습니다. 전체 질의들에 대한 설문에서 ConQueR_agg가 가장 좋은 평가를 받았으며 평균적으로 약 35%의 사용자가 ConQueR_agg의 축약을 가장 좋은 축약으로 선택하였습니다. 또한 각 질의를 단어 개수를 기준으로 긴 질의 또는 짧은 질의로 나누었을 때, ConQueR_core와 ConQueR_sub가 각각의 그룹에서 가장 좋은 평가를 얻었습니다. 이를 통해 ConQueR_core는 여러 단어의 축약에 더 효과적임을 알 수 있고, ConQueR_sub은 한 단어의 축약에 더 효과적인 모델임을 알 수 있습니다.
<그림 4> 질의 축약 정성 평가
Conclusion
본 문서에서는 SIGIR 2023에 게재될 “ConQueR: Contextualized Query Reduction using Search Logs” 논문을 소개하였습니다. 제안 모델인 Contextualized Query Reduction (ConQueR)는 사전 학습 언어 모델을 활용하여 두 가지 관점에서 질의 축약(Query reduction)을 수행하였습니다. Core term extraction은 원본 질의에서 중요한 단어만을 남겨 축약을 생성하고, Sub-query selection은 여러 하위 질의들 중 가장 적절한 축약 질의를 선택합니다. 또한 단어와 문장 관점의 축약을 모두 고려하기 위해 최종적으로 두 가지 방법론을 통합하여 가장 적절한 축약을 얻었습니다. 결과적으로 실험을 통해 제안 모델이 기존 모델들 대비 실제 검색 로그 데이터 셋에 대해 정량적으로 좋은 성능을 보임을 확인하였으며, 만족도 조사를 통한 정성적 평가에서도 다른 모델 대비 좋은 결과를 얻었습니다. 본 논문은 다음 링크에서 확인할 수 있습니다.(ConQueR)