김혜영 석사과정, 최민진 석박통합과정, 이선경 박사과정, 최은성 석박통합과정 SIGIR 2023 국제 학술대회 논문 채택
05 Apr 2023
DIAL 연구실 소속 인공지능학과 김혜영(석사과정, 공동1저자) 학생, 소프트웨어학과 최민진(석·박통합과정, 공동1저자) 학생, 인공지능학과 이선경(박사과정, 제3저자) 학생, 최은성(석·박통합과정, 제4저자) 학생, 송영인(네이버, 제5저자) 박사, 이종욱(교신저자) 교수가 참여한 "ConQueR: Contextualized Query Reduction using Search Logs" 논문이 ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2023, short paper)에 최종 게재가 승인되었으며 오는 7월에 발표될 예정입니다.
본 연구는 사전학습된 언어 모델(Pre-trained language model)을 활용한 질의 축약 모델을 제안합니다. 질의 축약이란 사용자가 너무 긴 질의(검색어)를 입력하여 사용자의 의도에 맞는 적절한 결과를 얻지 못하였을 때, 질의에서 불필요한 단어를 제거하여 원하는 검색 결과를 찾는 방법을 의미합니다. 제안 모델인 ConQueR는 (i)핵심 용어 추출과 (ii) 하위 질의 선택의 두 가지 관점에서 이를 해결합니다. 핵심 용어 추출 방법은 단어 수준에서 기존 질의의 핵심 용어를 추출하고 하위 질의 선택 방법은 주어진 하위 질의가 기존 질의의 올바른 축약인지 문장 수준에서 결정합니다. 두가지 관점은 서로 다른 레벨에서 작동하여 상호보완적인 관계를 가졌기 때문에 제안 모델인 ConQueR는 최종적으로 이를 결합하여 올바른 축약을 얻습니다. 더불어 검색 로그에서 빈번하게 발생할 수 있는 잘못된 샘플을 처리하기 위해 truncated loss 학습 방식을 도입하여 학습이 원활히 이루어지도록 설계하였습니다. 실제 검색 엔진에서 수집한 검색 로그 데이터에 대한 성능 실험과 만족도 조사를 통해, 제안 모델이 효과적으로 질의 축약을 수행하였음을 입증하였습니다.
This study proposes a query reduction model utilizing a pre-trained language model. Query reduction refers to a method of finding desired search results by removing unnecessary words from a query when a user enters a query (search term) that is too long and does not yield appropriate results that meet the user's intent. Our proposed model, ConQueR, addresses this from two perspectives: (i) core term extraction and (ii) sub-query selection. The core term extraction method extracts the key terms of the existing query at the term-level, while the sub-query selection method determines at the sequence-level whether a given sub-query is a correct reduction of the existing query. Since the two perspectives operate at different levels and have a complementary relationship, the proposed model, ConQueR, finally combines them to obtain the correct reduction. In addition, a truncated loss learning strategy is introduced to handle the noisy samples that may occur frequently in the search logs. Through performance experiments and user satisfaction survey on search log data collected from real-world search engines, we demonstrate that the proposed model effectively performs query reduction.