이선경 박사과정, 최민진 석박통합과정 EMNLP 2023 국제 학술대회 논문 채택

08 Oct 2023

DIAL 연구실 소속 인공지능학과 이선경(박사과정, 공동1저자) 학생, 최민진(석·박통합과정, 공동1저자) 학생, 이종욱(교신저자) 교수가 참여한 “GLEN: Generative Retrieval via Lexical Index Learning” 논문이 자연어처리 분야 최우수 국제 학술대회인 The 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP)에 최종 게재가 승인되었으며 오는 12월에 발표될 예정입니다.


본 연구는 어휘 색인 학습을 통한 새로운 생성 검색 모델 GLEN (Generative retrieval model via LExical INdex Learning)을 제안합니다. 생성 검색(Generative retrieval)은 문서 검색의 새로운 패러다임으로, 질의에 대한 관련 문서의 식별자를 직접 생성하는 것을 목표로 합니다. 그러나, 기존 생성 검색 연구들은 두 가지 주요한 한계를 가집니다. 첫 번째는 문서의 식별자 생성이 기존의 자연어 생성과 의미적으로 많이 다르지만 이를 고려하지 않는다는 점입니다. 두 번째는 학습 시 식별자 생성만을 집중하지만, 추론 시 비슷한 문서 간의 순위를 매겨야 함으로 인해 발생하는 학습-추론 불일치입니다. 이를 극복하기 위해, 본 연구는 어휘 색인(lexical index)을 동적으로 학습하는 새로운 생성 검색 방법론을 제안합니다. 제안 방법론은 2단계 인덱스 학습 전략(two-phase lexical index learning)을 통해 (i) 키워드 기반의 고정된 문서 식별자를 생성하는 추가 사전 학습 단계를 수행하며, (ii) 동적 문서 식별자를 질의 및 문서 간의 관련성을 통해 학습하도록 합니다. 실험 결과, 제안 모델 GLEN이 NQ320k, MS MARCO, BEIR 등 다양한 벤치마크 데이터셋에서 기존의 생성 검색 모델 또는 전통적인 검색 모델 대비 최상 또는 경쟁력 있는 성능을 달성한다는 것을 증명하였습니다. 코드는 https://github.com/skleee/GLEN 에서 확인할 수 있습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. https://dial.skku.edu/blog/2023_glen 


Generative retrieval shed light on a new paradigm of document retrieval, aiming to directly generate the identifier of a relevant document for a query. While it takes advantage of bypassing the construction of auxiliary index structures, existing studies face two significant challenges: (i) the discrepancy between the knowledge of pre-trained language models and identifiers and (ii) the gap between training and inference that poses difficulty in learning to rank. To overcome these challenges, we propose a novel generative retrieval method, namely Generative retrieval via LExical iNdex learning (GLEN). For training, GLEN effectively exploits a dynamic lexical identifier using a two-phase index learning strategy, enabling it to learn meaningful lexical identifiers and relevance signals between queries and documents. For inference, GLEN utilizes collision-free inference, using identifier weights to rank documents without additional overhead. Experimental results prove that GLEN achieves state-of-the-art or competitive performance against existing generative retrieval methods on various benchmark datasets, e.g., NQ320k, MS MARCO, and BEIR. The code is available at https://github.com/skleee/GLEN.