Multi-granularity Guided Fusion-in-Decoder

05 July 2024

 본 문서에서는 NAACL Findings 2024 게재된 논문 “Multi-granularity Guided Fusion-in-Decoder”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.


<그림 1> Open-domain Question Answering

Task: Open-domain Question Answering (ODQA)

Open-domain Question Answering 과업은 질문에 대한 답을 추출하거나 생성하는 것을 목표로 합니다. 기계 독해(Machine Reading Comprehension) 과업과의 차이점은, ODQA는 참고할 수 있는 문서가 주어지지 않고 대량의 문서(Corpus, 예: Wikipedia)를 참고하여 답변해야 한다는 점입니다. 대량의 문서를 모두 확인하는 것은 비현실적인 비용이 소모되기 때문에, ODQA 과업에서는 관련 문서 검색을 먼저 수행한 후 일부 문서만을 참고하는 Retrieve-Then-Read 파이프라인을 널리 채택하고 있습니다. 

<그림 2> Fusion-in-Decoder 구조

Existing Methods - Fusion-in-Decoder (FiD)

Fusion-in-Decoder (FiD)는 Retrieve-then-Read 파이프라인에서 Read 과정에 해당하는 대표적인 모델입니다. Encoder-Decoder (예: Google T5)로 이루어진 FiD는 여러 개의 질문과 문서 쌍을 인코딩한 후, 이를 연결하여 디코더의 Key-Value 매트릭스로 활용합니다. 이러한 FiD의 장점은 여러 문서를 한 번에 참조할 수 있고, 그 과정에서 여러 문서에 포함된 근거를 종합하여 답을 생성할 수 있다는 점입니다. 우리 논문에서는 여러 문서를 읽는 FiD와 같은 형식을 Multi-document Reader라고 지칭합니다. 

<그림 3> Challenges in Multi-document Reader

Challenges

FiD와 같은 Multi-document Reader는 여러 문서를 동시에 참고할 수 있다는 장점을 가지지만, 두 가지 도전 과제가 존재합니다. 첫째, 여러 문서 중 관련 문서를 잘 찾아내야 합니다. FiD에 입력되는 여러 문서는 검색 모델(e.g., DPR, BM25)이 검색한 결과로서 질문과 관계없는 문서가 포함될 수 있으며, 심지어 관련 문서가 한 개도 존재하지 않을 수 있습니다. FiD가 보다 관련 문서를 정확하게 참조할 수 있도록 기존 연구(RFiD)는 답 포함 여부로 문서에 대한 Silver-label을 설정하고, 이를 구별하는 과업을 추가하여 Multi-task Learning을 수행하였습니다. 하지만 답 포함 여부는 <그림 3>의 왼쪽 예시와 같이 실제로는 질문과 관련 없는 문서도 긍정 문서로 설정될 수 있습니다. 둘째, 정답이 포함되고 실제로 질문과 관련된 문서에도 여전히 답 생성을 방해하는 distractor가 포함될 수 있습니다. <그림 3>의 오른쪽 예시는 기존 FiD가 오답을 생성한 경우를 보여줍니다. 생성된 오답은 관련 문서(supportive passage)에 포함되어 FiD가 관련 문서를 찾는 데에는 성공했지만 정답 span을 정확히 선택하는 데에는 실패하여, 더 세밀한 수준에서 근거성을 분별해야 할 필요성을 시사합니다. 

<그림 4> MGFiD framework

Proposed Method: Multi-granularity Guided Fusion-in-Decoder (MGFiD)

두 도전점을 다루기 위해 제안 모델인 MGFiD는 다양한 수준의 근거성을 학습하고 활용합니다. 

MGFiD는 문서 수준의 근거성을 학습하기 위해 먼저 대형 언어 모델로 레이블 필터링을 수행합니다. 이는 검색 문서 중 질문에 대한 답이 포함된 문서만을 대상으로 효율적으로 수행할 수 있습니다. 이후 질의 응답 과업과 관련 문서 재순위화 과업에 대한 Multi-task Learning을 수행합니다. 세밀한 근거성 수준으로 MGFiD는 문장 수준을 선택합니다. 질의 응답, 문서 재순위화 과업과 각 문서에 포함된 모든 문장에 대한 분류 학습을 수행합니다. 이때 문장 수준의 레이블은 답 포함 여부이지만, 이미 문서 수준에서 질문과의 관련성이 평가되었으므로 문장 수준에서의 정답 포함 여부가 신뢰성 있는 레이블로 활용될 수 있습니다. 

두 수준으로 학습된 근거성은 디코딩 과정의 효율성과 효과성을 향상시키기 위해 사용됩니다. FiD 구조의 한 가지 단점은 연결된 인코더 출력이 야기하는 비용입니다. 모델의 최대 시퀀스 길이를 200, 은닉 차원을 768이라고 한다면, 100개의 문서를 활용할 때 연결된 인코더 출력은 20,000 X 768 차원으로 이루어진 거대한 행렬이 됩니다. 디코더에서 발생하는 방대한 계산량을 줄이기 위해 MGFiD는 문서 점수를 활용하여 임계값 기반의 가지치기를 수행합니다. 또한, Multi-task Learning으로 학습한 근거성을 디코딩 과정에 반영하기 위한 Anchor vector를 제안합니다. Anchor vector는 문장 분류에서 긍정으로 예측된 문장 임베딩의 Max-pooling으로 형성됩니다. MGFiD는 디코더의 첫 번째 [BOS] 토큰 임베딩에 Anchor vector를 더하여 학습한 근거성이 디코딩 과정에 반영될 수 있도록 합니다. 

<그림 5> (위) Passage re-ranking 점수를 활용한 임계값 기반 문서 가지치기
(아래) 긍정으로 예측된 문장을 활용한 anchor vector 형성

Experiments

제안 방법 검증을 위해 ODQA에서 널리 사용되는 Natural Questions (NQ)와 TriviaQA (TQA)에서 여러 Baseline들과 비교를 수행했습니다. 실험 결과, MGFiD는 동일하게 20문서만 사용할 때 기존 SOTA 모델인 RFiD를 두 데이터셋 모두에서 상회하였습니다. 특히 MGFiD가 얻은 수치는 Baseline 모델이 100 문서를 사용한 것과 comparable하여, 제안된 Multi-granularity Evidence가 정답을 생성하는 데에 효과적이라는 것을 보여줍니다. 마지막으로, Pruned MGFiD는 재순위화된 문서 점수를 활용하여 임계값 기반의 가지치기를 수행합니다. 실험 결과 디코딩에 NQ와 TQA에서 각각 평균적으로 76%, 61.5% 적은 문서를 활용하면서도 성능을 크게 해치지 않았습니다. 

<표 1> Natural Questions & TriviaQA에서의 성능 비교

<표 2>는 MGFiD의 Ablation Study 결과를 보여줍니다. 두 Coarse- 및 Fine-grained 근거를 모두 사용하는 것이 효과적이었으며, Anchor vector는 데이터셋에 따라 상이한 성능 변화를 보여줍니다. 구체적으로, Natural Questions (NQ)에서는 근거를 학습하는 것이 큰 도움이 되었지만, TQA에서는 개선폭이 미미합니다. 본 연구진은 이를 TQA가 NQ 대비 가지는 후보 정답이 매우 많고, 그만큼 근거성을 가지는 문단, 문장이 후보 문단에 많이 존재하기 때문이라고 해석합니다. 정확하게 근거가 되는 부분을 포착하는 것이 중요한 NQ 데이터셋 대비 TQA는 상대적으로 정답의 허용 범위가 넓고, 그만큼 질의응답 학습만으로도 다양한 근거성을 학습할 수 있기 때문입니다. 

<표 2> Ablation study

Conclusion

본 연구에서 저희는 질의응답 과업을 위해 Multi-granularity Evidence를 다루는 MGFiD를 제안합니다. MGFiD는 노이즈가 많은 문단과 문장의 문제를 해결하기 위해 Coarse-grained 문단 재순위화와 Fine-grained 문장 분류를 결합합니다. 더 나아가 중요한 증거로 디코더를 유도하는 앵커 벡터를 구성하고, 효율성을 높이기 위한 가지치기를 활용하여 Multi-granularity Evidence를 최대한 활용합니다. 널리 사용되는 두 데이터셋, NQ 및 TQA,에서의 실험을 통해 MGFiD가 Baseline 대비 상당한 성능 향상을 보이는 것을 검증하였습니다. 

Reference

[1] Gautier Izacard, Edouard Grave. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. EACL 2021
[2] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. J. Mach. Learn. Res. 21: 140:1-140:67 (2020)
[3] Cunxiang Wang, Haofei Yu, Yue Zhang. RFiD: Towards Rational Fusion-in-Decoder for Open-Domain Question Answering. ACL 2023 Findings

[4] Sebastian Hofstätter, Jiecao Chen, Karthik Raman, Hamed Zamani. FiD-Light: Efficient and Effective Retrieval-Augmented Text Generation. SIGIR 2023