From Reading to Compressing: Exploring the Multi-document Reader for Prompt Compression
20 Dec 2024
본 문서에서는 EMNLP Findings 2024에 게재된 논문 “From Reading to Compressing: Exploring the Multi-document Reader for Prompt Compression”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.
Prompt Compression
최근 Retrieval-Augmented Generation(RAG), Chain-of-Thought(CoT), In-Context Learning(ICL) 등의 다양한 프롬프트 활용 기법이 등장하면서, LLM은 광범위한 과업에서 우수한 성능을 발휘하고 있습니다. 그러나 LLM의 컨텍스트 길이가 확장되더라도, 긴 맥락 속 핵심 정보가 묻히는 lost-in-the-middle 문제와 같은 한계가 여전히 존재합니다. Prompt Compression은 이 문제를 해결하기 위한 접근으로, 긴 프롬프트를 효율적으로 압축하여 정보 손실을 최소화하고 모델의 성능 저하를 최소화하면서, LLM이 중요한 정보에 집중할 수 있도록 하는 연구 분야입니다.
Existing Methods
Prompt Compression 분야의 대표적인 방법론으로 LongLLMLingua와 LLMLingua-2가 있습니다.
LongLLMLingua는 문맥과 질문 사이의 관계를 파악하기 위해 perplexity 기반 지표를 활용하여, 질문과 연관성이 높은 정보만을 남기며 프롬프트를 압축합니다. 이러한 방법론은 별도의 학습없이 기존 model의 사전지식을 이용하여 불필요한 정보를 제거합니다.
LLMLingua-2는 GPT-4와 같은 높은 성능의 LLM을 사용하여 데이터 증류를 수행하고, 프롬프트 압축을 위한 데이터셋을 구축합니다. 프롬프트 압축 문제를 토큰 분류 문제로 정의하여 중요한 토큰만을 분류하여 프롬프트를 압축합니다.
<그림 1> LongLLMLingua
<그림 2> LLMLingua-2
Motivation
기존 Prompt Compression의 방법론은 두 가지 주요한 한계가 존재합니다.
Lack of Global Context
Prompt Compression은 최종 답변을 생성할 target LLM에 비해 비교적 작은 모델을 사용하여 효율성을 극대화시킵니다. 압축 모델의 입력의 한계가 존재하기 때문에 매우 긴 프롬프트의 경우 여러 부분으로 나누어 처리합니다. 하지만 이러한 접근은 프롬프트의 각 부분을 독립적으로 압축하기 때문에 프롬프트의 전체 맥락을 반영하지 못하며, 중요한 정보 간의 관계를 간과하는 문제가 발생합니다.
Training without Reliable Ground Truth
Prompt Compression의 정확한 정답 레이블(Ground-label)이 존재하지 않습니다. 기존 방법론에서는 GPT-4와 같은 높은 성능의 LLM을 사용하여 Pseudo-label을 생성하여 학습 데이터로 사용합니다. 하지만 이러한 방식은 비용이 많이 들고, GPT-4 자체가 Prompt Compression에서 완벽하지 않다는 점이 지적되면서 성능에 한계가 있습니다.
Proposed Method
기존 방법론의 한계를 다루기 위해 Reading-to-Compression(R2C)을 제안합니다.
Capturing the Global Context
기존 방법들이 프롬프트를 여러 부분으로 나누어 독립적으로 처리하면서 전체 맥락을 반영하지 못했던 한계를 해결하기 위해, R2C는 디코더의 cross-attention score를 활용합니다. 입력이 여러 부분으로 나누어져 인코더에 전달되더라도, cross-attention을 통해 디코딩 시점에서는 전체 입력을 고려한 attention score가 계산되므로, 전체 문맥(global context)이 고려된 중요도를 포착할 수 있습니다. 이는 프롬프트의 길이가 아무리 길어도 핵심 정보를 유지하며, 전체 맥락을 반영한 압축이 가능하게 됩니다. 또한, R2C는 글로벌 컨텍스트를 기반으로 계층적 압축(hierarchical compression)을 수행합니다. 먼저 문서 수준에서 전체 맥락을 고려해 중요한 부분을 선별한 후, 문장 수준으로 세분화하여 더욱 정교하게 핵심 정보를 압축합니다. 이러한 계층적 접근은 텍스트의 일관성과 문법적 구조를 최대한 보존하면서 프롬프트 길이를 효과적으로 단축할 수 있게 합니다.
Effective Training Without Reliable Ground Truth
R2C는 질의응답(QA) 학습을 기반으로 하며, QA 과정 자체가 문서 속에서 중요한 정보를 파악하고 가져오는 작업이기 때문에 자연스럽게 핵심 정보를 학습합니다. 이를 통해 전체 맥락을 이해하면서도 중요한 정보를 정확히 추출하도록 모델이 훈련됩니다. 별도의 Pseudo-label 생성 과정이 필요 없고, QA 학습만으로도 학습 효율성과 정확도를 동시에 확보할 수 있습니다.
<그림 3> R2C framework
Experiments
제안 모델 R2C는 다양한 task로 이루어진 LongBench 데이터셋에서 뛰어난 성능과 효율성을 보여주었습니다.
<표 1>은 NQ 데이터셋에 대한 실험 결과를 보여줍니다. ChatGPT에 입력되는 토큰 수를 R2C를 통하여 6배 줄이면서도 성능 하락은 0.03%에 불과했습니다. 이는 기존 최고 성능 압축 모델 대비 5.6% 높은 성능을 기록한 결과입니다.
<표 1> Natural Questions에서의 성능 비교
<표 2>는한 과업으로 이루어진 LongBench 데이터셋에서도 R2C는 기존 모델 대비 최대 14.5배 빠른 속도를 보이면서도 최고 평균 성능을 10% 이상 개선하는 성과를 달성했습니다. LongBench는 QA, Summarization, Few-shot Learning, Code Generation 등 다양한 과업으로 구성된 데이터셋입니다. 위 실험 결과는 QA 학습 과정이 문서 속에서 중요한 정보를 포착하는 능력을 학습하도록 설계되었기 때문에, 이러한 능력이 다양한 작업으로 일반화될 수 있음을 보여줍니다.
<표 2> LongBench에서의 성능 비교
Conclusion
본 연구는 Cross-attention score를 활용하여 효율적인 프롬프트 압축 방법인 R2C를 제안합니다. R2C는 질의응답(QA) 학습을 기반으로 별도의 정답 레이블 없이도 핵심 정보를 자연스럽게 학습하며, 이를 통해 글로벌 컨텍스트를 유지하면서도 프롬프트 압축을 효과적으로 수행하도록 설계되었습니다. 실험 결과, QA 데이터셋인 Natural Questions뿐만 아니라 다양한 과업으로 구성된 LongBench 데이터셋에서도 R2C는 기존 baseline 대비 뛰어난 성능을 보였습니다. 이를 통해 R2C가 프롬프트 압축에 있어 효율적이고 효과적인 접근법임을 입증하였습니다.
Reference
[1] Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang. Lost in the Middle: How Language Models Use Long Contexts.TACL 2023
[2] Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu. LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression. ACL 2024
[3] Zhuoshi Pan, Qianhui Wu, Huiqiang Jiang, Menglin Xia, Xufang Luo, Jue Zhang, Qingwei Lin, Victor Rühle, Yuqing Yang, Chin-Yew Lin, H. Vicky Zhao, Lili Qiu, Dongmei Zhang. LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression. ACL 2024
[4] Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li.LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding.ACL 2024