Conflict-Aware Soft Prompting for Retrieval-Augmented Generation

26 Nov 2025

본 문서에서는 EMNLP 2025 에 게재된 “Conflict-Aware Soft Prompting for Retrieval-Augmented Generation”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.

Title: Conflict-Aware Soft Prompting for Retrieval-Augmented Generation
Authors: Eunseong Choi, June Park, Hyeri Lee, Jongwuk Lee
The 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP)

Knowledge Conflicts

RAG (Retrieval-Augmented Generation)는 LLM의 환각 및 최신 정보 결여를 보완하는 주요 방법론으로 평가받습니다. 하지만 검색 결과를 프롬프트에 포함하는 RAG 기법이 항상 도움이 되지는 않습니다. 검색된 정보는 검색 모델이 키워드 혹은 벡터 유사도를 통해 질의와 가장 적합한 후보 문서를 출력한 것일 뿐이고, 질의와 실제 관련있는 문서를 보장하지는 않습니다. 특히, 이러한 문제는 LLM이 기존에 정확히 알고 있는 지식임에도 불구하고 RAG로 인해 성능 하락이 발생할 때 더 치명적입니다.

외부 컨텍스트와 LLM 내부 지식의 충돌을 context–memory conflict 라고 부릅니다. 예를 들어, Closed-book으로 LLM을 활용하면 정답을 잘 맞추던 문제도 잘못된 컨텍스트가 함께 들어오면, 그 컨텍스트에 끌려가 오답을 내는 현상입니다.

Figure 1에서 , 여러 최신 LLM들에 원래는 맞추던 질문에 의도적으로 잘못된 문서를 붙여주면 성능이 25.1–49.1%까지 떨어지는 것을 볼 수 있습니다. 즉, 틀린 문서와 자신감 있게 말하는 LLM의 조합이 매우 위험하다는 걸 보여줍니다.

<그림 1> Even SOTA LLMs struggle to resolve context-memory conflicts.

Motivation

그렇다면 context-memory conflict를 어떻게 해결할 수 있을까요? 크게 세 가지 축으로 기존 연구를 나눌 수 있습니다.

1) Adaptive Retrieval

질문에 대해 "검색을 할지 말지”를 결정하는 방식입니다.
예를 들어, LLM의 불확실성을 프롬프트로 물어보거나, hidden state의 confidence를 추정하거나, 별도 classifier 모듈을 활용할 수 있습니다.
한계점: LLM은 지식 경계를 정확하게 인식하지 못하며, retrieval을 안 하기로 결정하면, 그 뒤에는 외부 정보를 전혀 쓰지 못합니다. (hard decision)

2) Decoding Strategy

Closed-book과 RAG 방식으로 프롬프를 두 번 입력하고 출력 분포를 섞는 방식입니다.
즉, 둘 사이의 분포 차이를 조절해서 컨텍스트를 얼마나 신뢰할지를 가중합으로 결정합니다.
한계점: 이미 LLM 내부에서 컨텍스트와 메모리의 충돌이 반영된 분포를 가지고 온 것이므로, 충돌을 인식한 결과를 출력하기 어렵습니다.

3) Robust Training

LLM을 직접 파인튜닝하여 문서의 적합성을 판단하도록 합니다.
예를 들어, 부정 문서를 섞어주면서 모순을 감지하도록 적대적인 학습을 수행하면 부정 문서에 강건해 질 수 있습니다.
한계점: LLM을 특정 데이터셋에 튜닝하면, catastrophic forgetting이 발생합니다.

<그림 2>와 같이 robust training을 수행한 모델이 다른 작업(예: fact-checking)에서 망가지는 현상을 확인할 수 있습니다.

따라서 저희의 질문은 매우 명확했습니다.

LLM을 직접 학습하지 않고도, 충돌을 인식하여 생성할 수는 없을까?

<그림 2> (a) Vanilla RAG fails with negative context despite having the correct information in parametric knowledge. (b) Robust training can cause the LLM to disregard instructions and suffer from catastrophic forgetting, particularly when transitioning between tasks like question answering and fact verification.

이를 위해 저희는 soft prompting 기법에 주목했습니다. Soft prompting은 일종의 프롬프트 압축 방식으로, 긴 문서를 그대로 토큰 시퀀스로 넣는 대신, 그 내용을 소수의 연속 벡터(continous vector) 안에 압축해 LLM에 입력하는 방법입니다. 많은 텍스트 토큰을 쓰는 대신, 학습 가능한 임베딩 몇 개로 이를 대체하는 것입니다.

중요한 점은, soft prompt를 학습하는 동안 base LLM 파라미터는 고정한 채, 외부 컨텍스트를 어떻게 해석하고 얼마나 신뢰할지만 조정할 수 있다는 것입니다. CARE에서는 이 soft prompting 아이디어를 가져와, 단순히 내용을 요약하는 수준을 넘어 문서의 신뢰성까지 함께 인코딩하는 모듈로 확장합니다.

Proposed Method: CARE

컨텍스트 기반 생성에서 RAG가 가진 핵심 한계는, 검색된 문서의 품질이 좋지 않을 경우 LLM이 스스로 알고 있던 정답까지 잃어버리는 Context–Memory Conflict입니다. 이를 해결하기 위해 본 연구에서는 CARE(Conflict-Aware Retrieval-Augmented Generation)을 제안합니다. CARE는 (1) Reconstruction Pre-training, (2) Conflict-aware Fine-tuning의 두 학습 전략을 통해, 검색 컨텍스트의 신뢰도를 학습하고 상황에 따라 유연하게 반영하는 구조입니다.

CARE의 핵심 아이디어는 다음과 같습니다.
기존 LLM은 그대로 유지하고, 앞단에 Context Assessor 모듈을 연결하여, 검색 문서를 그대로 넣는 대신 신뢰성이 평가된 continuous vector(soft prompt)로 압축해 답변 생성을 조향한다는 것입니다. Context Assessor는 원래 LLM에 LoRA 어댑터를 추가한 형태로 구성되며, 이를 통해 문서의 내용뿐 아니라 얼마나 믿을 만한지까지 판단하여 임베딩으로 변환할 수 있습니다.

<그림 5> Overall framework of CARE

(a) Reconstruction Pre-training

첫 번째 단계는, 검색 문서를 소수의 메모리 토큰 벡터로 효율적으로 압축하는 능력을 학습하는 과정입니다. 질의와 검색 문서를 Context Assessor에 입력한 뒤, 마지막 레이어에서 메모리 토큰 위치의 hidden state만 추출하여 문서 임베딩을 구성합니다.

(b) Conflict-aware Fine-tuning

두 번째 단계는, 검색 문서를 언제 신뢰하고 언제 무시해야 하는지를 학습시키는 과정입니다. 이를 위해 CARE는 closed-book LLM의 정답 여부를 기준으로 두 유형의 학습 시나리오를 구성합니다.

Grounded Soft Prompting: LLM이 클로즈드북에서는 틀렸지만, 검색 문서에는 정답이 포함된 경우
→ 문서 임베딩이 답변 생성에 적극적으로 기여하도록 유도
→ 검색 컨텍스트를 신뢰해야 하는 상황을 학습
Adversarial Soft Prompting: LLM이 클로즈드북에서 이미 정답을 알고 있지만, 검색 컨텍스트는 오히려 혼란을 주는 경우
→ 문서 임베딩이 영향력을 약하게 만들도록 조정
→ 검색 컨텍스트의 신뢰도를 낮게 평가하고, parametric knowledge로 LLM을 유도

이 두 과정을 통해 CARE는 알 때는 내부 지식을 따르고, 모를 때는 검색을 활용하는 균형 잡힌 행동 전략을 학습합니다. 또한 Fine-tuning 과정에서 Language Modeling Loss와 Knowledge Distillation Loss를 함께 사용하여, 정보 압축 능력과 신뢰도 조절 능력이 동시에 향상되도록 설계했습니다.

Experiments

CARE는 세 가지 대표적인 벤치마크(Open-domain QA, Long-form QA, Fact Checking)에서 기존 RAG 방식과 최신 방법들을 비교 평가했습니다. 실험 결과, CARE는 Mistral-7B, LLaMA-3-8B, Qwen3-8B 환경에서 평균 5–6% 이상의 성능 향상을 달성했습니다. 특히 closed-book 성능이 원래 강한 설정에서도 컨텍스트에 과도하게 의존하지 않아 안정적인 성능을 유지했습니다.

또한 원래 맞추던 문항(Resilience)과 검색 문서로 인해 새로 맞추는 문항(Boost)을 별도로 평가한 결과, CARE는 두 지표 모두에서 높은 성능을 보이며, 단순 RAG나 Adaptive Retrieval, 디코딩 기반 Contrastive 전략(AdaCAD) 대비 가장 안정적인 증가 폭을 보였습니다.

Conclusion

본 연구에서는 RAG 기반 생성 과정에서 발생하는 핵심 문제인 Context–Memory Conflict, 즉 부정확한 검색 컨텍스트가 LLM의 기존 지식을 오히려 방해하는 현상에 주목했습니다. 이를 해결하기 위해 CARE(Conflict-Aware Retrieval-Augmented Generation)을 제안하였습니다. CARE는 검색 문서를 그대로 입력하는 기존 방식과 달리, Context Assessor를 통해 문서의 신뢰도를 판단하고 이를 continuous soft prompt 형태로 압축하여 LLM을 조향하는 새로운 접근을 취합니다.

CARE는 Reconstruction Pre-training을 통해 문서 내용을 효율적으로 벡터로 압축하는 능력을 학습하고, Conflict-aware Fine-tuning을 통해 상황에 따라 검색 컨텍스트를 활용하거나 무시해야 하는 판단 기준을 익힙니다. 그 결과, CARE는 검색 정보에 과도하게 의존하지 않으면서도 필요한 경우에는 검색을 통해 정확도를 높일 수 있는 균형 잡힌 행동 전략을 갖추게 됩니다.

다양한 QA 및 Fact-checking 벤치마크 실험을 통해 CARE는 Mistral, LLaMA-3, Qwen 등 여러 LLM 설정에서 기존 RAG 및 최신 기법 대비 지속적인 성능 향상을 보였습니다. 특히 원래 맞추던 문제를 유지하는 Resilience와 검색 덕분에 새로 맞추게 되는 Boost 두 측면에서 모두 뛰어난 안정성을 확인할 수 있었습니다. 이는 CARE가 단순한 성능 개선을 넘어, 신뢰할 수 없는 컨텍스트 환경에서도 robust하게 작동하는 RAG 설계 방향을 제시한다는 점에서 의미가 있습니다.

본 연구가 검색 활용의 정도를 상황에 따라 조절하는 RAG framework로 나아가는 중요한 기반이 되기를 기대합니다. 앞으로는 긴 문서 처리, multi-hop reasoning, 다양한 retrieval 환경에서의 확장 가능성도 남아 있는 과제로서 의미가 있을 것입니다.

코드는 github 에서 확인할 수 있습니다. 전체 논문은 이 곳에서 확인해주세요.

Page updated

Google Sites

Report abuse