GLEN: Generative Retrieval via Lexical Index Learning

18 Oct 2023 

 본 문서에서는 EMNLP 2023에 게재될 논문 “GLEN: Generative Retrieval via Lexical Index Learning”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.


Generative Retrieval

생성 검색(Generative retrieval)은 문서 검색의 새로운 패러다임으로, 질의에 대한 관련 문서의 식별자(identifier)를 직접 생성하는 것을 목표로 합니다.  예를 들어 <그림 1>에서, "Olympic Games host city list"라는 질의에 대해 "2-4-6"이라는 문서 식별자(identifier)를 생성하며, 이때 "2-4-6"은 "List of Olympic Games host cities. This is a list of host cities of the Olympic Games ... (후략)" 이라는 문서를 나타내게 됩니다. 

기존의 전통적인 검색 모델이 문서를 저장하기 위해 역색인 (inverted index) 등의 추가적인 인덱스 구조를 활용하는 것과 달리, 생성 검색은 인덱스 구조 없이 모델의 파라미터(parameter) 내에 문서의 정보를 저장하여 하나의 모델로 검색의 전 과정을 처리합니다. 따라서, End-to-End 최적화가 가능하며 문서 색인에 필요한 메모리와 계산 비용을 절감할 수 있다는 장점이 있습니다.

<그림 1> Generative Document Retrieval 모식도

Existing Methods 

생성 검색의 가장 대표적인 연구는 "Transformer Memory as a Differentiable Search Index (DSI) [1]" 입니다. DSI는 단일 트랜스포머 모델(transformer model)을 통해 검색의 전 과정을 수행한 초창기 연구 중 하나입니다. DSI는 문서를 입력으로 식별자를 예측하는 색인 작업(indexing task)과 질의를 입력으로 식별자를 예측하는 검색 작업(retrieval task)의 두 가지 작업을 학습하도록 설계되었습니다.

색인 작업을 통해 각 문서와 식별자 간의 매핑(mapping)을 수행하고, 검색 작업을 통해 질의가 관련 문서의 식별자를 생성하도록 학습하였으므로, 추론 시 임의의 새로운 질의 입력되더라도 해당 질의와 관련 있는 문서의 식별자를 생성할 것이라 기대할 수 있습니다.

<그림 2> DSI의 학습 방식 모식도

Motivation 

생성 검색 모델은 여러 장점이 있지만, 기존 생성 검색 연구들은 두 가지 주요한 한계를 가집니다. 

첫 번째는 생성 과업 간의 불일치입니다. 즉, 문서의 식별자를 생성하는 것과 기존의 자연어를 생성하는 것의 특성이 많이 다름에도 불구하고 이것이 중요하게 고려되지 않는다는 점입니다. 대부분의 생성 검색 모델은 T5 [2] 와 같은 사전 학습된 언어 모델을 활용합니다. 사전 학습 시, T5는 다양한 말뭉치(corpus)를 생성하도록 학습되지만, 이는 대부분 자연어 형식입니다. 하지만, 생성 검색을 위해서는 숫자의 나열 혹은 단어의 나열로 이루어지는 식별자를 생성해야 하므로 이 사이의 괴리가 발생하게 됩니다.

두 번째는 학습과 추론 간의 불일치입니다. 즉, 학습 시에는 식별자를 생성하는 것에만 집중하지만, 추론 시에는 주어진 질의에 대해 관련 문서를 찾기 위해 문서 간의 순위를 매겨야 하기 때문에 발생하는 불일치입니다. 기존의 생성 모델은 질의로부터 관련 문서의 식별자를 생성하는 학습만 수행합니다. 그러나, 추론 시 관련 문서의 식별자뿐 아니라, 비관련 문서의 식별자도 생성될 수 있으며, 이들 간의 순위 구분 또한 학습 시 고려되어야 할 부분입니다.

이와 같은 한계를 극복하기 위해, 본 연구에서는 <그림 3>과 같이 어휘 색인(lexical index)을 동적으로 학습하는 2단계 학습 전략을 활용합니다. (1) 먼저, 고정된 문서 식별자를 생성하는 추가 사전 학습 단계를 수행하여 자연어 생성과 식별자 생성 간의 괴리를 완화하고, (2) 이후 질의 및 문서 간의 관련성을 학습하여 학습-추론 불일치 문제를 해결합니다. 이를 통해, <그림 3>에서 "Olympic-medal-sports"가 학습이 진행됨에 따라 "Olympic-games-list"로 개선된 것과 같이, 질의 및 문서 간의 관련성 학습을 학습함으로써 식별자는 문서 검색에 더 적합한 형태로 개선되게 됩니다.

<그림 3> 기존 연구와 제안 방법 간의 차이

Proposed Method: GLEN

본 연구에서는 어휘 색인(lexical index)을 동적으로 학습하는 새로운 생성 검색 방법론인  Generative Retrieval via LExical INdex Learning(GLEN)을 제안합니다. 제안 방법론은 앞서 언급한 2단계 학습 전략(two-phase lexical index learning)을 통해 학습합니다. 추론의 경우, 학습을 통해 식별자를 생성하기 때문에 발생하는 문제를 해결하기 위한 충돌 방지 추론 기법(collision-free inference)을 통해 문서가 검색됩니다. 충돌 방지 추론에 관한 자세한 설명은 논문을 참고해주시기 바랍니다.

2단계 학습의 첫 번째 단계에서 모델은 문서로부터 대표적인 키워드를 생성하도록 훈련됩니다. 식별자는 간결하고 정보 집약적인 단어의 나열이므로, 자연어 문장과는 그 특성이 상당히 다릅니다. 해당 단계는 식별자의 고유한 특성을 학습하기 위한 일종의 사전 학습이라고 생각할 수 있습니다. 이를 통해 자연어 문장을 생성하도록 학습된 언어 모델의 지식을 식별자를 생성하는 지식으로 잘 변환할 수 있습니다.

두 번째 단계에서는 질의와 문서 간의 관련성을 고려하여 식별자를 동적으로 학습합니다. 즉, 질의를 관련성이 높은 문서의 식별자에 더 가깝게, 관련성이 낮은 문서의 식별자로부터 더 멀게 하도록 학습됩니다. 학습 이후의 추론 단계에서 생성 검색의 주된 과업은 식별자 생성을 넘어서 질의와 문서의 관련성에 따라 문서의 순위를 매기는 것입니다. 그리고 해당 단계를 통해 모델은 학습 중에 이러한 문서 순위 및 관련성을 반영하여 식별자를 동적으로 학습할 수 있습니다. 

<그림 4> 제안 방법 GLEN의 overview

Experiments

실험 결과, 제안 모델 GLEN은 NQ320K [3] , MS MARCO [4] , BEIR [5] 등 다양한 벤치마크 데이터셋에서 기존의 생성 검색 모델 또는 전통적인 검색 모델 대비 최고의 성능을 보이거나 그에 준하는 성능을 보입니다.

<표 1>은 생성 검색의 대표적인 벤치마크 데이터셋 Natural Questions 데이터셋에 대한 비교 모델 및 제안 모델의 성능을 보여줍니다. Natural Questions 320K에서 GLEN은 전통적인 검색 모델 및 최근의 생성 검색 모델과 비교하여 최고에 준하는 성능을 달성했습니다.

<표 1> NQ320K에서의 성능 비교

또한, <표 2>에서 보이는 바와 같이, 대규모 문서로 구성된 데이터 셋 MS MARCO Passage Ranking에서 GLEN은 다른 생성 검색 모델 대비 우수한 성능을 보였습니다. <표 3>은 새로운 문서에 대해 검색을 수행해야 하는 제로 샷 설정(zero-shot setting)의  BEIR 데이터셋에 대한 성능을 보여줍니다. GLEN은 BEIR에서 생성 검색 모델을 능가하는 성능을 보였으며, 동적으로 어휘 식별자를 학습하는 것이 새로운 문서에 대한 검색에서도 잘 작동함을 입증했습니다.

<표 2> MS MARCO Passage Ranking set에서의 성능 비교

<표 3> BEIR에서의 성능 비교

Conclusion

본 연구는 동적 어휘 식별자를 활용하는 새로운 생성 검색 모델인 GLEN: Generative Retrieval via Lexical Index Learning을 제안합니다. 쿼리-문서 연관성을 반영하기 위해 2단계 어휘 색인 학습을 고안하였으며, 식별자 충돌 문제를 해결하기 위해 충돌 없는 추론을 도입했습니다. GLEN은 기존 생성 검색 모델과 비교하여 벤치마크 데이터 셋인 NQ320k, MS MARCO Passage Ranking, BEIR에서 최고 또는 유사한 성능을 달성했습니다. 코드는 이 곳에서 확인할 수 있습니다.

Reference

[1] Yi Tay, Vinh Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Prakash Gupta, Tal Schuster, William W. Cohen, Donald Metzler. Transformer Memory as a Differentiable Search Index. NeurIPS 2022
[2] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. J. Mach. Learn. Res. 21: 140:1-140:67 (2020)
[3] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur P. Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei Chang, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov. Natural Questions: a Benchmark for Question Answering Research. Trans. Assoc. Comput. Linguistics 7: 452-466 (2019)
[4] Tri Nguyen, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, Li Deng. MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. CoCo@NIPS 2016
[5] Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, Iryna Gurevych. BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models. NeurIPS Datasets and Benchmarks 2021