왕구아니다

[논문 리뷰] The Role of Parametric Injection-A Systematic Study of Parametric Retrieval-Augmented Generation 본문

Paper Review/RAG

[논문 리뷰] The Role of Parametric Injection-A Systematic Study of Parametric Retrieval-Augmented Generation

Psalms 12:6-7 2026. 1. 6. 17:25
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.
내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~

Preview
- 기존 P-RAG 실험 설계의 문제점을 이야기하고 다시 실험 진행 (평가 Metrics와 프롬프트 수정)
- 위 실험을 바탕으로 두 가지 가설을 세우고 구체적으로 가설을 뒷받침하는 실험 진행
   - 1) 파라미터 표현이 문서의 사실 정보를 완전히 담지 못할 수 있다
   - 2) 파라미터 주입이 주어진 문맥에 대한 모델의 이해를 향상시킬 수 있다

Link
- 논문 : https://arxiv.org/abs/2510.12668
 

The Role of Parametric Injection-A Systematic Study of Parametric Retrieval-Augmented Generation

Retrieval-augmented generation (RAG) enhances large language models (LLMs) by retrieving external documents. As an emerging form of RAG, parametric retrieval-augmented generation (PRAG) encodes documents as model parameters (i.e., LoRA modules) and injects

arxiv.org

 

 

‼️ 본 논문은 "Parametric Retrieval-Augmented Generation"이라는 논문을 심층적으로 분석한 논문이므로 해당 논문을 먼저 읽고 아래 포스팅된 내용들을 읽어보시는 것을 추천드립니다~

https://wanggyuuu.tistory.com/13

 

[논문 리뷰] Parametric Retrieval Augmented Generation

본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~Preview- 문서를 입

wanggyuuu.tistory.com


📍0. Abstract

  • RAG의 새로운 형태로서, P-RAG는 문서를 모델 파라미터(즉, LoRA 모듈)로 인코딩하고 이를 추론 시 모델에 주입함으로써, LLM과 문서 간의 파라미터 수준 상호작용을 가능하게 함
  • P-RAG가 점점 더 많은 주목을 받고 있음에도 불구하고, 파라미터 주입의 근본적인 메커니즘은 여전히 잘 이해되지 않고 있음
  • 본 연구에서는 P-RAG에 대한 체계적인 분석을 제시하여 파라미터 주입의 역할을 규명하고, 파라미터화된 문서는 문서의 의미 정보를 부분적으로만 포착하며, 이것만 단독으로 사용할 경우 텍스트 수준 상호작용보다 성능이 떨어진다는 것을 보임
  • 문서 파라미터 형식은 문서 지식을 완전히 저장하지는 못하지만, 고수준 의미 정보를 잘 파악하기 때문에 파라미터화된 문서와 텍스트 문서를 함께 사용할 경우, 모델은 관련 정보를 더 효과적으로 활용하고 노이즈 입력에 더 강건해지며, 어느 한 쪽만 사용할 때보다 더 나은 성능을 달성함

📍1. Introduction

  • 사용자의 질문과 관련 외부 문서를 검색하여 모델의 내부 지식을 보완하는 RAG의 핵심 요소 중 하나는 당연히 검색된 문서와 LLM이 어떻게 상호작용하느냐
  • 최근 연구들은 이러한 상호작용을 위한 다양한 전략을 탐구해 왔으며, 이는 크게 세 가지 범주로 나눌 수 있음
    • 1) 토큰 수준 증강 : 검색된 문서를 입력 컨텍스트에 직접 삽입하여, 모델이 self-attention을 통해 문서를 참조하도록 함(일반적인 RAG)
      • 이 방식은 단순하고 기존 LLM과 호환되지만, 컨텍스트 길이를 크게 증가시켜 추론 비용이 높아지고, 고정된 컨텍스트에서 접근 가능한 내용이 제한됨
      • 또한 모델은 attention을 통해서만 문서와 상호작용하므로, 상호작용이 얕아 문서를 충분히 이해하지 못할 수 있음
    • 2) 임베딩 수준 결합 : 긴 컨텍스트로 인한 추론 비용을 줄이기 위해, 문서를 오프라인에서 인코딩하고 추론 시 cross-attention을 통해 문서 임베딩을 LLM에 주입
      • 그러나 이러한 방법들은 추가 학습이 필요하며, 정적인 임베딩에 의존하기 때문에 상호작용이 더욱 제한되는 경우가 많음
      • embedding은 "정보 압축 + 고정" → 문맥에 따라 유연하게 해석되기 어려움
    • 3) 파라미터 수준 적응 : Su et al.은 문서를 모델 파라미터(즉, LoRA 모듈)로 인코딩하고, 추론 시 이러한 파라미터로 LLM을 업데이트하는 P-RAG를 제안함
      • P-RAG는 컨텍스트 길이를 늘릴 필요가 없고 문서와의 깊은 상호작용을 가능하게 할 잠재력이 있기 때문에 큰 주목을 받아왔음
  • 그러나 기존의 P-RAG 연구들은 주로 오프라인 저장 비용을 최적화하거나 RAG 성능을 향상시키는 데 초점을 맞추어 왔음
    • 주입된 파라미터가 실제로 문서 지식을 저장하는지, 아니면 단지 모델의 기존 질문 응답 능력을 활성화하는 것인지는 불분명함 
  • ❗️따라서 본 연구에서는 파라미터 기반 지식 주입의 근본적인 메커니즘을 밝히기 위해 P-RAG에 대한 체계적인 분석을 수행
    • 먼저 설정 상의 여러 혼동 요인을 제거하여 기존 P-RAG 논문을 재구성
    • 그 결과
      • (1) P-RAG는 기본 LLM(검색 없이 직접 답변)보다는 성능이 좋지만, 표준 RAG(문서를 입력 프롬프트에 직접 추가)보다는 성능이 낮았음
        • 이는 파라미터화된 문서가 완전한 사실 정보를 인코딩하지 못할 수 있음을 시사함
      • (2) 파라미터 지식과 텍스트 문서를 함께 사용하는 하이브리드 방식인 P-RAG Combine이 가장 높은 성능을 달성함
        • 위 결과를 분석하기 위해 텍스트 문서에는 이미 모든 세부적인 사실이 포함되어 있으므로, 저자들은 파라미터화된 문서가 텍스트 정보에 대한 모델의 이해를 향상시키는 고수준 정보를 인코딩하고 있다고 가정함
        • 파라미터화된 문서가 원본 텍스트 정보에 대해 모델의 이해도를 향상시키게 되면 관련 문서의 더 효과적인 활용과 노이즈 문서에 대한 더 높은 강건성이라는 두 가지 이점을 가져올 수 있음
    • 1) 먼저 주입된 파라미터에 문서 정보가 얼마나 인코딩되어 있는지를 분석
      • 모델이 정답을 맞히기 위해 반드시 문서에 의존하도록 하기 위해, LLM의 지식 컷오프 이후의 사실들로 구성된 새로운 데이터셋을 구축하고, 모델 내부 상태 분석을 함께 수행
        • 실험 결과, 파라미터 표현은 문서로부터 의미 정보를 인코딩하고 있기는 하지만, 그 인코딩은 불완전하며 세밀한 사실 정보가 충분히 포함되어 있지는 않음
        • 그럼에도 불구하고 이러한 표현들은 입력 컨텍스트 내 문서에 대한 모델의 이해를 향상시킬 수 있는 고수준 문서 정보를 포함하고 있음 = "P-RAG는 기억 장치가 아니라 이해 보조 장치"
    • 2) 더 나아가 이러한 고수준 정보가 문서 이해를 어떻게 향상시키는지, 즉 어떻게 관련 문서를 더 잘 활용하게 만드는지 또는 노이즈 문서에 더 강건하게 만드는지를 추가로 분석
      • 정답 문서를 제공한 상태에서 수행한 어려운 Multi-hop QA Task 실험 결과, 파라미터 주입은 모델이 주어진 컨텍스트를 더 효과적으로 해석하고 활용하도록 돕는 것으로 나타남
    • 3) 마지막으로, 검색 노이즈에 대한 강건성을 평가하기 위해 검색된 문서에 인위적인 방해 문서를 삽입
      • 파라미터 주입이 적용된 모델은 그렇지 않은 모델보다 성능 저하가 훨씬 적으며, 모든 문서가 노이즈로 대체된 경우에도 더 높은 성능을 유지
  • 파라미터 주입은 문서 이해를 향상시켜 관련 문서를 더 잘 활용하고 노이즈에 강건하게 만들 수 있지만, 파라미터화된 문서만에 의존하는 방식은 문서의 일부 내용만을 담기 때문에 성능에 한계가 있음
    • P-RAG + 기본 RAG 사용을 권장
    • 그러나 이러한 방식은 문서를 컨텍스트에 직접 주입하는 방식과 비교했을 때 효율성 측면에서 이점을 제공하지는 않음
    • 결국 파라미터 표현이 세밀한 문서 정보를 인코딩하는 능력을 강화하는 것이 P-RAG를 최적화하는 핵심

📍2. Prelimiary

Standard RAG와 P-RAG의 추론 파이프라인을 구조화해 살펴보고, P-RAG가 문서를 모델 파라미터로 인코딩하여 지식을 주입하는 방식도 살펴보자!

Standard RAG

  • 질의 𝑞와 검색기 𝑅를 사용해 대규모 말뭉치 𝐶로부터 검색된 상위 k개의 관련 문서 {𝑑₁, 𝑑₂, …, 𝑑ₖ}가 주어지면, 검색된 문서들과 질의를 연결(concatenate)하여 확장된 입력(x)을 구성
    • x = concat(𝑑₁, 𝑑₂, …, 𝑑ₖ,𝑞)
  • 그 다음, 파라미터 𝜃를 가진 LLM은 이 확장된 입력에 조건부로 출력 시퀀스를 생성

  • 문서는 오직 입력 토큰으로만 작용하며, 모델 파라미터 자체에는 영향을 주지 않음
  • 따라서 문서와 모델의 상호작용은 self-attention에 국한되며, 이는 이 논문이 지적하는 '얕은 상호작용(shallow interaction)'의 구조적 원인

Parametric RAG

  • 검색된 문서를 입력 컨텍스트에 삽입하는 대신 각 문서를 모델 파라미터로 표현
    • inference 과정에서 각 문서의 파라미터가 기존 LLM 가중치와 결합하여 입력 context의 길이 증가 없이 파라미터 수준에서 LLM이 문서와 상호작용을 할 수 있음
  • 말뭉치 𝐶에 속한 각 문서 𝑑ᵢ는 사전에 파라미터 표현 Δ𝜃ᵢ = 𝐹(𝑑ᵢ)로 인코딩됨
    • 여기서 매핑 함수 𝐹는 P-RAG에서 문서별로 증강된 데이터로 LoRA 모듈을 학습하는 방식으로 구현
  • inference 과정에서 검색된 top-k 문서들 각각의 LoRA 파라미터들은 merge되어 LLM에 주입됨

  • 출력은 질의 𝑞에만 조건부로 생성되지만, 모델 파라미터는 검색된 지식에 맞게 조정된 상태(업데이트된 상태)

  • 추가적으로 P-RAG는 Standard RAG와 결합될 수 있으며, 이를 P-RAG Combine이라고 함
    • inference 과정에서 P-RAG 방식대로 LLM 가중치 업데이트하고 input으로는 Standard RAG처럼 검색된 문서 + 질문 같이 들어옴

 

Document Parameterization

  • 각 문서 𝑑ᵢ의 개별 LoRA 파라미터(Δ𝜃𝑖)를 만드는 과정
  • P-RAG에서는 원시 문서 텍스트만을 사용해 다음 토큰 예측 방식으로 학습하는 것은 사실 지식을 효과적으로 내재화하지 못하는 경우가 많이 때문에 문서 증강을 수행
    • 1) 원본 문서 𝑑ᵢ 재작성 {𝑑¹ᵢ, 𝑑²ᵢ, … , 𝑑ⁿᵢ}
    • 2) 문서 𝑑ᵢ에 기반한 질문–답변(QA) 쌍을 생성 {(𝑞¹ᵢ, 𝑎¹ᵢ), (𝑞²ᵢ, 𝑎²ᵢ), … , (𝑞ᵐᵢ, 𝑎ᵐᵢ)}
    • 결국 LoRA 파라미터 학습에 사용한 데이터(Di)는 아래처럼 (원본 문서 재작성 + 질문 + 답변) 세 개를 concat해서 만듦

  • 그 후 LoRA 파라미터 Δθᵢ는 증강된 시퀀스(Di)에 포함된 모든 토큰에 대해 음의 로그우도(negative log-likelihood)를 최소화하도록 최적화

📍3. Reproduction of PRAG

이번 절에서는 기존 P-RAG 연구(Su et al.)의 실험 설정에는 '파라미터 주입(Parametric Injection)' 자체의 순수한 효과를 분석하기 어렵게 만드는, 다소 혼란스러운 요소(confounding settings)들이 섞여 있었다고 저자들은 말하고 문서가 파라미터(LoRA) 형태로 변환되어 모델에 들어갔을 때 실제로 모델의 행동에 어떤 영향을 미치는지를 명확하게 파악하기 위해, 기존 실험의 설정을 변경해 다시 수행함!

3.1 Experimental Setup

3.1.1 Evaluation Metric

  • 기존 P-RAG 논문에서는 평가 지표로 F1 Score을 사용함
  • 그러나 F1 Score은 답변 형식에 민감하고 오답에 후하기 때문에 본 논문에서는 LLM-as-a-Judge를 사용함
    • 형식에 민감함 : 모델이 정답을 맞혔더라도 "이것은 ~입니다"라고 친절하게 설명을 덧붙이면, 정답 외의 불필요한 단어가 섞였다고 점수가 깎일 수 있음
    • 오답에 후함 : 정답이 "University of Chicago"인데 모델이 "University of Washington"이라고 오답을 내놔도, "University"와 "of"라는 단어가 겹치기 때문에 F1 점수는 꽤 높게 나옴
  • Qwen2.5-32B-Instruct을 Judge로 사용
    • Judge 모델에게 [질문, 정답, 모델의 예측값]을 다 보여주고 채점하게 한 뒤, "정답"이라고 인정한 비율(Accuracy)을 결과로 사용

3.1.2 Parameterization Settings

  • 기존 연구(Su et al.)에서는 모델을 훈련시키거나 테스트할 때, 문제와 정답의 Few-shot 프롬프트 사용
  • 그러나 이렇게 하게 되면 모델이 진짜 파라미터로 주입된 지식을 바탕으로 답을 하는건지 아니면 예시에 따라 특정 task 패턴에 따라 답을 하는건지 알 수 없음
  • 이 논문의 목표는 '파라미터에 진짜 지식이 주입되었는지'만 따로 떼어내서 보는 것이기 때문에 훈련할 때나 추론(테스트)할 때 모든 예시를 다 제거함 (Zero-shot)
  • 나머지 설정(데이터 증강 방식, LoRA 랭크 크기, 학습률 등)은 기존 연구와 똑같음

3.1.3 Datasets

  • 공정한 비교를 위해 기존 P-RAG 연구에서 썼던 4가지 벤치마크 데이터셋을 똑같이 사용
    • 2WikiMultihopQA
    • HotpotQA
    • ComplexWebQuestions (CWQ)
    • PopQA
  • 동일하게 각 데이터셋의 첫 300개 질문만 뽑아서 테스트
  • 결과 표에서 'Total'은 전체 데이터셋의 앞쪽 300개를 말하고, 세부 카테고리(Sub-task)별 점수는 해당 카테고리에 속하는 질문들 중 앞쪽 300개를 모아서 낸 점수
  • 질문에 대한 답변을 찾기 위해 참고할 문서는 위키피디아 데이터 덤프에서 BM25를 사용하여, 질문과 가장 관련성이 높은 상위 3개(Top-3) 문서를 뽑음

3.1.4 Methods and Models

  • Vanilla (기본 모델), RAG (표준 RAG), P-RAG, PRAG-Combine 총 4개 비교
  • LLM은 LLaMA3.2-1B-Instruct, Qwen2.5-1.5B-Instruct, Qwen2.5-7B-Instruct 3개 사용
  • 모든 답변 생성 시 Greedy Decoding 방식 사용

3.2 Reproduction Results

LLM judgments 기반 재구성 실험 결과

  • Table 1 결과를 바탕으로 파라미터 주입(Parametric Injection)에 대한 두 가지 중요한 가설을 제시
  • 1) 문서를 파라미터(LoRA)로 바꿔서 심는 방식(Parametric representations)은 문서의 사실적 내용(Factual content)을 100% 완벽하게 담아내지 못한다
    • P-RAG가 Vanilla보다는 확실히 좋지만 Standard RAG보다는 대체로 낮게 나옴
    • 위 결과를 문서를 파라미터로 압축하는 과정에서 아주 미세한 디테일이나 문서의 뉘앙스가 날아간다고 해석할 수 있음
    • 그래서 P-RAG 하나만 쓰기에는 사용자 질문에 답하기에 정보가 좀 부실하다는 결론이 나옴
  • 그럼 기존 연구(Su et al.)는 왜 P-RAG가 RAG보다 낫다고 했을까요?

F1 score 기반 재구성 실험 결과
F1 score은 말은 번지르르하지만 사실 관계가 틀린 답변에도 후한 점수를 줌

  • Table 3와 Figure 8을 보면 F1 score은 말은 번지르르하지만 사실 관계가 틀린 답변에도 후한 점수를 줌
  • 특히 P-RAG 방식으로 훈련하면 모델이 "정답은 A입니다" 같은 정형화된 템플릿 답변(template-like responses)을 기계적으로 잘 뱉어내는데, 이게 내용은 틀려도 형식이 맞아서 F1 점수가 높음. 즉, 기존 P-RAG 논문에서의 성능 결과가 뻥튀기(inflating) 됨
  • 2) 파라미터 주입이 지식 저장용으로는 좀 부족할지 몰라도, 모델의 문맥 이해력(Comprehension)을 높여주는 효과가 있다
    • 근거로는 RAG + P-RAG를 합친 하이브리드 모델(P-RAG combine)은 그냥 RAG보다 항상 점수가 더 높게 나옴
    • 프롬프트에 문서 내용을 100% 보여주는 RAG에다가 파라미터를 추가했더니 성능이 올랐다는 것은 파라미터는 정보를 단순히 복사해서 모델에 더해주는 게 아니라, 눈앞에 있는 텍스트를 모델이 '더 잘 해석'하게 도와주는 역할을 한다는 결론을 낼 수 있음
    • '해석 능력 향상'은 구체적으로 두 가지로 생각 할 수 있음
      • i) 핵심 정보 흡수력 : 필요한 내용을 더 잘 알아듣고 활용함
      • ii) 노이즈 면역력 : 쓸모없거나 방해되는 정보가 섞여 있어도 헷갈리지 않고 잘 무시함

📍4. How Much Knowledge is Encoded in Parametric Representations

앞선 실험 결과를 바탕으로 세운 첫 번째 가설 "문서를 파라미터(LoRA)로 바꿔서 심는 방식(Parametric representations)은 문서의 사실적 내용(Factual content)을 100% 완벽하게 담아내지 못한다"를 검증한 실험을 살펴보자!

4.1 Experimental Setup

  • 일단 파라미터라에 지식이 얼마나 담기는지 측정하는 목표를 달성하기 위해 모델이 훈련 과정에서 이미 배워버린 내부 지식의 간섭을 완전히 차단해야함
  • 그래서 저자들은 모델의 학습 시점(Cut-off)보다 훨씬 뒤인 2025년에 발행된 뉴스 기사 300개를 수집
  • 그리고 Qwen2.5-32B-Instruct을 이용해 각 뉴스 기사마다
    • 단순 사실(Factual QA : 기사 내용 중 팩트 하나를 묻는 문제), 복합 추론(Multihop QA : 기사 속 여러 정보를 조합해야 풀 수 있는 어려운 문제)를 생성함
  • Inference 시에는 외부 문서 검색해오는 과정 생략
    • 대신 RAG 모델에서는 질문과 함께, 그 질문의 정답이 들어있는 정답 문서(Gold Passage)를 줌
    • P-RAG에서는 정답 문서의 파라미터를 주입시켜줌
  • 나머지 방식들(문서 파라미터화, LLM 모델, 평가 지표)은 3.1 Experimental Setup과 동일

4.2 Experimental Results

  • Figure 1 결과를 통해 3가지를 발견함
  • 1) 파라미터가 진짜로 지식을 담고 있다
    • P-RAG는 단순 문제든 복잡한 문제든 항상 Vanilla보다 정확도 높음
    • Vanilla는 미래 지식을 전혀 모르니까 점수가 바닥인데, P-RAG는 점수를 냈다는 것 자체가 "새로운 정보가 모델 뇌 속에 성공적으로 주입되었다"는 증거 (아래 Figure 2 참고)

Vanilla는 Hallucination. 하지만 P-RAG는 정답 생성
추가 예시

  • 2) 파라미터로 진짜 지식이 들어갔지만, 100% 들어가진 못함
    • P-RAG의 점수를 RAG(오픈북)와 비교해보면 현저하게 낮음
    • 다시 말해, "공부를 하긴 했지만 시험을 만점 받을 만큼 확실하게 외우진 못했다"는 것
    • 새로운 지식에 대해 질문하면 P-RAG 하나만으로는 믿음직스럽게 답하기 충분치 않음
  • 3) Parametric representations 세부 내용 보단 전체 맥락(High-level Semantics)를 인코딩 한다
    • RAG + P-RAG를 합친 P-RAG Combine이 여기서도 1등
    • 저자들의 추측 : 파라미터가 아주 디테일한 팩트(fine-grained factual detail)는 좀 흘렸을지 몰라도, 글의 전체적인 흐름이나 정보 간의 관계 같은 고차원적인 의미 구조(High-level semantic structures)는 제대로 파악하고 있다. 그래서 텍스트(RAG)를 읽을 때 이 파라미터가 '문맥 가이드' 역할을 해줘서 정답률이 올라갔다 (4.3.2에서 더 자세히)

4.3 Further Analysis

좀더 자세히 파라미터(모수) 관점에서, 정말 파라미터화된 문서 표현이 단지 문서 정보의 일부만 담고 있는지, 또는 모델이 문서를 더 잘 이해하도록 돕는 고수준(high-level) 정보를 얼마나 포함하고 있는지 살펴보자!

4.3.1 Similarity Between Parametric Representations

  • 파라미터화된 표현이 문서 지식 전체가 아니라 일부만을 담고 있다는 가설을 검증하기 위해, 서로 다른 문서들 간의 파라미터 표현 유사도를 분석
  • 구체적으로, LoRA 가중치 행렬을 1차원으로 펼친 뒤, 같은 문서에서 나온 단락 쌍과 서로 다른 문서에서 나온 단락 쌍 사이의 코사인 유사도 계산
    • 만약 파라미터가 개별 문서 고유의 의미 정보를 실제로 담고 있다면, 같은 문서에서 나온 단락들의 파라미터는 서로 다른 문서 단락들보다 더 높은 유사도를 보일 것

  • [Figure 3](Qwen2.5-1.5B-Instruct 기준)를 보면 실제로 같은 문서에서 나온 단락 쌍이 평균적으로 더 높은 유사도를 보이며, 파라미터 표현이 일부 공통된 의미 또는 사실 정보를 인코딩하고 있음을 의미
  • 하지만 그 차이는 크지 않으며, 심지어 서로 다른 문서에서 나온 단락들조차 평균 유사도가 약 0.65로 상당히 높게 나타남
  • 이는 파라미터 표현이 문서 고유 정보만을 완전히 분리해 저장하지 못하고 있으며, 결과적으로 문서 지식이 부분적으로만 인코딩되어 있음을 뒷받침

Qwen2.5-1B 이외에 다른 모델에도 위와 똑같은 결과 나옴

4.3.2 Qantifying Parametric Knowledge in the Residual

  • 파라미터 표현이 단순한 표면적 사실 정보가 아니라 관계 구조나 담화 수준의 고수준 의미 정보를 담고 있는지를 확인하기 위해, 저자들은 PKS(parametric knowledge score)를 사용해 각 FFN 레이어가 residual stream에 얼마나 많은 지식을 기여하는지 분석
    • FFN 레이어가 자신이 가지고 있는 지식을 얼마나 강하게 Residual Stream(정답 생성 과정)에 주입하고 있는가?

  • 구체적으로, 생성된 응답의 각 토큰과 각 레이어에 대해
    • 1) FFN 블록 전후의 어휘 분포 변화를 LogitLens로 추출하고
      • LogitLens(x) : 중간 층에 있는 Residual Stream의 벡터(x)를 강제로 마지막 출력층의 언어 변환기(Unembedding Matrix, Wu)에 통과시켜 보는 기법 
        • 결국 벡터(x)를 정규화하고, 단어 사전(Wu)에 매핑하여 각 단어의 확률 분포를 얻음
        • 여기서 Logit은 Softmax 함수를 통과하기 직전의 값을 의미. 즉, Unembedding Wu을 거쳐서 나온 결과값
      • q(x) = softmax(LogitLens(x))
    • 2) 이 두 분포 간의 Jensen–Shannon divergence(JSD)를 계산
      • FFN을 통과하기 직전과 직후의 상태를 비교
      • 각각 LogitLens을 통해 두 개의 서로 다른 단어 확률 분포 구함
      • JSD : 두 확률 분포(P, Q) 간의 차이를 측정하는 방법(KL-Divergence의 대칭적이고 안정적인 버전)
      • JSD 값이 작다 (0에 가까움) : FFN 전후로 단어 예측 확률이 거의 변하지 않음. 이 FFN 레이어는 별로 한 일이 없다(지식 기여도 낮음)
      • JSD 값이 크다 : FFN을 거치면서 단어 예측 확률이 급격하게 변함.  이 FFN 레이어가 결정적인 지식을 제공해서 모델의 생각을 바꾸었다(지식 기여도 높음/PKS 높음)
❗️KL Divergence(KLD)와 Jensen-Shannon Divergence(JSD)는 모두 "두 확률 분포가 얼마나 다른가?"를 측정하는 통계적 척도

1) KL Divergence (Kullback-Leibler Divergence)
- A의 관점에서 봤을 때, B는 얼마나 이상한가? (정보 엔트로피 관점)
- 두 확률 분포 P와 Q가 있을 때, Q를 사용하여 P를 설명할 때 발생하는 정보 손실량을 측정
수식

- 특징 (1) 비대칭성
   - D_KL(P||Q) ≒ D_KL(Q||P)이므로 '거리' 개념으로 쓰기에는 부적절

- 특징 (2) 무한대 발산
   - 만약 P(x)는 0이 아닌데 Q(x)가 0이라면 분모가 0이 되어 값이 무한대로 터져버림
   - 딥러닝에서는 확률이 0에 가까운 경우가 많아 계산이 불안정해질 수 있음

2) Jensen-Shannon Divergence (JSD)
- KL Divergence의 약점(비대칭, 무한대)을 해결한 안정적인 거리 척도
- JSD는 KL Divergence를 기반으로 하지만, 두 분포를 직접 비교하는 대신 평균 분포(M)를 만들어서 비교
작동 원리
- 특징 (1) 대칭성
   - JSD(P||Q) = JSD(Q||P)이고 순서를 바꿔도 값이 똑같음. 따라서 진정한 의미의 '거리'로 사용 가능

- 특징 (2) 값이 갇혀 있음 
   - 결과값은 항상 0에서 1 사이 (로그 밑이 2일 때) 또는 0에서 log 2 사이 (자연로그일 때)로 나옴. 값이 무한대로 튀지 않아
     딥러닝 학습이나 분석 지표로 쓰기에 매우 안정적

- 특징 (3) 0에 강함
   - 어느 한쪽 확률이 0이어도, 평균 분포 M덕분에 분모가 0이 되지 않아 계산이 가능
  • 특정 레이어의 PKS 값은 응답에 포함된 모든 토큰에 대해 계산된 JSD를 평균내어 산출

  • 파라미터 주입이 있는 경우와 없는 경우(P-RAG vs Vanilla, P-RAG Combine vs RAG) 사이에서 레이어별 PKS 차이 확인 가능
  • 초기 레이어에서는 변화 양상이 일정하지 않지만, 마지막 몇 개의 깊은 레이어에서는 모든 LLM에서 일관되게 PKS가 크게 증가하며, 이는 파라미터 지식이 주로 후반부 레이어에서 강하게 작용함을 의미
    • 기존 연구들에 따르면, Transformer의 깊은 레이어들은 토큰 간 정보 통합, 지시어 해소, 사건 구조 형성 등 고수준 의미 처리를 주로 담당
  • PKS 증가가 이러한 깊은 레이어에 집중되어 있다는 점은, 파라미터 표현이 단순한 사실 암기가 아니라 고수준 의미 지식을 담고 있으며, 이를 통해 모델이 입력 문맥을 더 깊이 이해하도록 돕고 있음을 시사

📍5. Does Parametric Injection Enhance Utilization of Relevant Passages

  • 지금까지의 분석을 통해, 파라미터 표현은 단순한 일부 사실 지식뿐만 아니라 고수준 의미 지식까지 함께 인코딩하고 있음이 확인하였다
  • 그렇다면 이제 3.2절에서 세운 두 번째 가설 "파라미터 주입이 모델의 문맥 이해 능력을 향상시킨다"를 구체적으로 살펴보자
    • 3.2절에서 가정했듯이, 이러한 이해력 향상은 (1) 관련 문서를 더 잘 활용하거나, 또는 (2) 관련 없는·노이즈 문서에 더 강건해지는 방식으로 나타날 수 있음
    • 본 절에서는 이 두 가지 중 첫 번째 메커니즘, 즉 파라미터 표현에 담긴 고수준 지식이 실제로 관련 문서를 더 잘 활용하게 만드는지를 실험적으로 검증

5.1 Experimental Setup

  • 파라미터 주입이 모델의 관련 문서 활용 능력을 실제로 향상시키는지를 엄밀하게 평가하기 위해, gold passage(정답 문서)와 복잡한 질문을 사용하는 실험을 설계
  • 검색 단계를 완전히 제거함으로써, 성능 차이가 검색 품질이 아니라, 주어진 문서를 이해하고 통합하는 모델 자체의 능력을 반영하도록 함
  • 기존 P-RAG의 문서 파라미터화가 문서–질문–답변 형태의 QA 데이터로 학습되었기 때문에, 문서 활용 성능의 향상이 문서 이해력 증가가 아니라 QA 태스크 패턴에 더 잘 적응한 결과일 가능성이 존재함
  • 이러한 대안적 설명을 배제하기 위해, 저자들은 (1) 파라미터 표현에 QA 태스크 특화 요소가 있는지 분석하고, (2) 파라미터 지식 주입이 QA가 아닌 태스크로도 일반화되는지를 검증하는 두 가지 보완 실험을 수행

Gold-Passages Evaluation

  • HotpotQA와 2WikiMultihopQA 데이터셋을 사용하는데 각각 첫 300개 질문 사용
  • 모든 질문마다 gold passages를 같이 input으로 주고, 추가적으로 gold passages에 해당하는 LoRA 파라미터도 주입(검색 대신 gold passages 바로 주입)
  • 나머지 세팅은 3.1과 동일

Probing for QA-Specific Task Knowledge

  • QA-specific Adaptation이 실제로 존재하는지를 직접 확인하기 위해, 앞서 사용한 데이터셋에서 200개 질문의 gold passage만을 사용해 QA 전용 LoRA를 학습시킴
  • 이때 3.1절과 동일한 QA 기반 데이터 증강 및 학습 절차를 적용
  • 이후 이 QA 전용 LoRA가 모델 성능에 얼마나 기여하는지를 분석하여, 지금까지 관측된 성능 향상이 QA 태스크 적응 때문인지 여부를 평가

Cross-Task Generalization Test

  • 파라미터에 인코딩된 지식이 일반적인 지식인지, 아니면 QA 전용인지를 판단하기 위해, 저자들은 QA가 아닌 두 가지 태스크—FEVER 데이터셋의 팩트체킹(정확도 기준)과 Zero-Shot-RE의 슬롯 필링(F1 기준)—에서 파라미터 주입을 평가
  • 각 입력에 대해 상위 3개의 문서를 검색한 뒤, 파라미터화 과정은 동일한 QA 기반 프로토콜을 사용하되, 추론 단계에서는 각 태스크에 맞는 프롬프트를 적용

5.2 Experimental Results

gold passage 환경에서, 모든 방법과 그 변형들에 QA 전용 LoRA를 추가했을 때의 성능을 제시

  • 실험 결과는 다음과 같은 세 가지 핵심 사실을 보여줌
  • 1) 파라미터 주입은 모델이 관련 문서를 활용하는 능력을 분명히 향상시킨다 (Table 2)
    • P-RAG Combine은 특히 복잡한 멀티홉 질문에서 RAG를 지속적으로 큰 차이로 능가하며, 이는 파라미터 표현에 인코딩된 고수준 지식이 문맥을 더 효과적으로 활용하도록 적극적으로 기여함을 보여줌
  • 2) 파라미터 표현에 담긴 고수준 지식에는 본질적으로 QA 태스크 특화 패턴이 이미 포함되어 있다 (Table 2)
    • P-RAG 또는 P-RAG Combine에 별도로 학습한 QA 전용 LoRA를 추가해도 성능 향상이 거의 없다는 점은, 해당 QA LoRA가 제공하는 태스크 적응 신호가 이미 문서 파라미터화 LoRA 안에 포함되어 있음을 의미
  • 3) 파라미터 주입은 단순한 태스크 특화 신호를 넘어, 문서 전반에 대한 일반적인 이해 능력을 인코딩한다 
    • Vanilla 모델과 RAG 역시 QA 전용 LoRA로부터 일정 부분 이득을 보지만, 파라미터 주입 모델들(PRAG 계열)의 성능에는 여전히 미치지 못한다
    • 더 나아가 이러한 장점은 QA 태스크를 넘어 일반화되며, [Figure 5]에서 보이듯 비-QA 태스크에서도 P-RAG와 P-RAG Combine이 동일한 성능 우위를 유지
  • 종합하면, 이 결과들은 파라미터 표현이 표면적 사실이나 QA 태스크 패턴을 넘어, 문서의 일반적인 의미적·구조적 지식을 인코딩하며, 그 결과 다양한 태스크에서 강건한 문맥 이해를 가능하게 함을 확인시켜줌

5.3 Further Analysis on Context Faithfulness

  • 파라미터 주입이 모델의 문서 활용 능력을 향상시킨다는 점을 고려할 때, 저자들은 이것이 모델의 내부 지식과 충돌하더라도 주어진 문맥에 근거해 답변하려는 성향, 즉 context faithfulness 역시 증가시킬 것으로 기대
  • 이를 검증하기 위해, 질문과 반사실(counterfactual) 문서가 쌍을 이루는 ConFiQA 데이터셋을 사용해 평가

다양한 방법과 모델에 대해 출력 답변 유형의 분포

  • 이 반사실 문서들은 원래의 gold passage에서 핵심 개체를 동일한 타입의 그럴듯한 대체 개체로 교체함으로써 생성되며, 주제 일관성은 유지하되 사실적으로는 틀리도록 설계됨
  • 실험에서는 처음 900개 질문을 샘플링하고, 해당 반사실 문서를 입력 문맥으로도 사용하고 문서 파라미터화에도 동일하게 활용
  • faithfulness는 모델의 출력 중 반사실 문맥에 부합하는 답변(counterfactual answer)의 비율로 측정
  • [Figure 6] 결과 P-RAG Combine은 RAG보다 일관되게 더 많은 반사실 답변을 생성하며, 이는 파라미터 주입이 문맥 충성도를 강화함을 의미
  • 또한 P-RAG는 Vanilla 모델보다 반사실 답변은 더 많이, 기존 사실 기반 답변은 더 적게 생성하는 경향을 보이며, 이는 파라미터 주입이 모델의 내부 지식을 일정 수준까지 수정할 수 있음을 시사 = 내부 지식보다 주어진 문맥을 더 신뢰하게 만든다

📍6. Does Parametric Injection Improve Robustness to Noise Passages

  • 앞절(5절)에서 지식 파라미터화를 통해 모델의 이해력이 향상되고 그것이 (1) input으로 들어오는 질문과 관련된 문서를 더 잘 활용할 수 있음을 살펴보았다
  • 이번 절에서는 이해력 향상이 (2) 관련 없는·노이즈 문서에 더 강건해지는 방식으로 어떻게 나타나는지 살펴보자

6.1 Experimental Setup

  • 파라미터 주입이 검색 노이즈에 대한 강건성을 향상시키는지를 평가하기 위해, 검색된 문서에 인위적 노이즈 삽입
  • 구체적으로, 각 질문에 대해 BM25로 검색한 상위 3개 문서를 기준으로 삼고, 이 중 일부를 무작위의 관련 없는 문서로 교체하여 4가지의 입력 경우의 수를 둠
    • BM25 Top3 : BM25가 검색한 원래의 상위 3개 문서를 그대로 사용하는 경우로, 노이즈를 전혀 주입하지 않은 기준 조건
    • Replace Last : 가장 관련성이 낮은 문서(3위)를 무작위 노이즈 문서로 교체한 경우
    • Replace First : 가장 관련성이 높은 문서(1위)를 무작위 노이즈 문서로 교체한 경우
    • Replace All : 상위 3개 문서 모두를 무작위 노이즈 문서로 교체한 경우
  • 모든 방법은 3.1절에서 사용한 것과 동일한 네 개의 데이터셋, 동일한 문서 파라미터화 방식, 동일한 모델 설정과 평가 지표를 사용해 평가

6.2 Experimental Results

검색 노이즈 수준을 단계적으로 증가시켰을 때, 모든 방법의 성능 변화

  • 1) 파라미터 주입은 검색 노이즈에 대한 강건성을 향상시킨다
    • 예상대로, 노이즈가 증가할수록 모든 방법의 성능은 전반적으로 하락함
    • 그럼에도 불구하고 P-RAG Combine은 모든 노이즈 조건에서 RAG를 일관되게 능가하며, 심지어 검색된 문서가 전부 무관한 경우에도 성능 우위를 유지하는데, 이는 파라미터 주입이 노이즈 문맥의 부정적 영향을 효과적으로 완화함을 보여줌
  • 2) LLM은 파라미터 표현에 인코딩된 무관한 지식을 인식할 수 있다
    • P-RAG의 성능은 검색 문서가 점점 더 오염될수록 점진적으로 하락하며, 모든 문서가 노이즈인 경우에는 Vanilla 모델의 성능 수준으로 수렴함
    • 이는 주입된 파라미터가 실제로 문서에 특화된 정보를 인코딩하고 있음을 알 수 있음
    • 결정적으로, 주입된 파라미터가 오직 무관한 내용만을 담고 있는 완전 노이즈 상황에서도, P-RAG는 파라미터를 주입하지 않은 모델보다 성능이 떨어지지 않음
    • 이는 모델이 무관한 파라미터 지식을 감지하고, 그로 인해 잘못된 방향으로 오도되지 않도록 스스로 회피할 수 있음을 시사함

📍 7. Conclusion and Discussion

  • 본 논문에서는 parametric RAG의 작동 원리, 즉 파라미터 기반 지식 주입이 실제로 어떻게 작동하는지를 규명하기 위해 체계적인 분석을 수행함
  • 1) 파라미터 표현이 문서의 사실 정보를 완전히 담지 못할 수 있고, 2) 파라미터 주입이 주어진 문맥에 대한 모델의 이해를 향상시킬 수 있다는 두 가지 핵심 가설에 기반해, 일련의 통제된 실험과 내부 분석을 설계
  • 결론은 파라미터 표현은 고수준 의미 지식을 포함한 문서 관련 지식을 실제로 인코딩하고 있지만, 세밀한 사실 정보가 부족해 지식 인코딩은 불완전함
    • 이러한 고수준 지식은 모델이 주어진 문맥을 더 잘 해석하도록 도와, 관련 문서를 더 효과적으로 활용하게 만들고, 동시에 무관하거나 노이즈가 섞인 문서에 대한 강건성을 향상시킴
  • 본 분석으로 봤을 때, 현재의 parametric RAG 접근법이 가지는 근본적인 한계를 드러내는데, 주입된 파라미터만으로는 질의응답을 수행할 만큼 충분한 사실 지식을 담지 못한다는 점
    • 결국 P-RAG는 기존의 표준 RAG를 완전히 대체할 수는 없다
  • 문맥 정보에 고수준 지식을 결합하는 P-RAG Combine은 높은 성능을 달성하지만, 그 대가로 P-RAG의 본래 효율성 목표(토큰 단위 문맥 확장 회피)를 포기하게 되며, 문서 파라미터화를 위한 추가적인 계산 및 저장 비용이 발생 (P-RAG 원래 Motivation인 'in-context learning 없애자'를 달성하진 못함)
  • P-RAG로 RAG를 대체하기 위한 가장 시급한 과제는 파라미터 표현에 담기는 정보량을 늘리는 것
    • 즉, 더 풍부하고 완전한 사실 지식을 인코딩하는 것이며, 이를 위해 정교하게 설계된 파라미터화 전략이 필요

💬 7. Takeaway

Parametric RAG 논문을 읽으며 궁금했던 것들을 대신 실험해줘서 재미있게 읽었던 것 같다. 그러나 Parametric Knowledge 자체가 의미하는 바는 이제 알았으나 문서를 LoRA 파라미터로 변형시키는 과정을 어떻게 저비용 고효율을 낼지 고민이 필요한 것 같다. 또 어떻게 생각해보면 문서로 LoRA를 학습시킨다는게 모델 튜닝이랑 뭐가 다른것인가...RAG라는 큰 틀안에서 결국 다시 모델 튜닝인것인가...의문이든다. Parametric RAG의 Offline 과정을 다르게 구성할 방법을 생각해보자..😢