[논문 리뷰] The Role of Parametric Injection-A Systematic Study of Parametric Retrieval-Augmented Generation
Psalms 12:6-7
2026. 1. 6. 17:25
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다. 내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~
Preview - 기존 P-RAG 실험 설계의 문제점을 이야기하고 다시 실험 진행 (평가 Metrics와 프롬프트 수정) - 위 실험을 바탕으로 두 가지 가설을 세우고 구체적으로 가설을 뒷받침하는 실험 진행 - 1) 파라미터 표현이 문서의 사실 정보를 완전히 담지 못할 수 있다 - 2) 파라미터 주입이 주어진 문맥에 대한 모델의 이해를 향상시킬 수 있다
RAG의 새로운 형태로서, P-RAG는 문서를 모델 파라미터(즉, LoRA 모듈)로 인코딩하고 이를 추론 시 모델에 주입함으로써, LLM과 문서 간의 파라미터 수준 상호작용을 가능하게 함
P-RAG가 점점 더 많은 주목을 받고 있음에도 불구하고, 파라미터 주입의 근본적인 메커니즘은 여전히 잘 이해되지 않고 있음
본 연구에서는 P-RAG에 대한 체계적인 분석을 제시하여 파라미터 주입의 역할을 규명하고, 파라미터화된 문서는 문서의 의미 정보를 부분적으로만 포착하며, 이것만 단독으로 사용할 경우 텍스트 수준 상호작용보다 성능이 떨어진다는 것을 보임
문서 파라미터 형식은 문서 지식을 완전히 저장하지는 못하지만, 고수준 의미 정보를 잘 파악하기 때문에 파라미터화된 문서와 텍스트 문서를 함께 사용할 경우, 모델은 관련 정보를 더 효과적으로 활용하고 노이즈 입력에 더 강건해지며, 어느 한 쪽만 사용할 때보다 더 나은 성능을 달성함
📍1. Introduction
사용자의 질문과 관련 외부 문서를 검색하여 모델의 내부 지식을 보완하는 RAG의 핵심 요소 중 하나는 당연히 검색된 문서와 LLM이 어떻게 상호작용하느냐
최근 연구들은 이러한 상호작용을 위한 다양한 전략을 탐구해 왔으며, 이는 크게 세 가지 범주로 나눌 수 있음
1) 토큰 수준 증강 : 검색된 문서를 입력 컨텍스트에 직접 삽입하여, 모델이 self-attention을 통해 문서를 참조하도록 함(일반적인 RAG)
이 방식은 단순하고 기존 LLM과 호환되지만, 컨텍스트 길이를 크게 증가시켜 추론 비용이 높아지고, 고정된 컨텍스트에서 접근 가능한 내용이 제한됨
또한 모델은 attention을 통해서만 문서와 상호작용하므로, 상호작용이 얕아 문서를 충분히 이해하지 못할 수 있음
2) 임베딩 수준 결합 : 긴 컨텍스트로 인한 추론 비용을 줄이기 위해, 문서를 오프라인에서 인코딩하고 추론 시 cross-attention을 통해 문서 임베딩을 LLM에 주입
그러나 이러한 방법들은 추가 학습이 필요하며, 정적인 임베딩에 의존하기 때문에 상호작용이 더욱 제한되는 경우가 많음
embedding은 "정보 압축 + 고정" → 문맥에 따라 유연하게 해석되기 어려움
3) 파라미터 수준 적응 : Su et al.은 문서를 모델 파라미터(즉, LoRA 모듈)로 인코딩하고, 추론 시 이러한 파라미터로 LLM을 업데이트하는 P-RAG를 제안함
P-RAG는 컨텍스트 길이를 늘릴 필요가 없고 문서와의 깊은 상호작용을 가능하게 할 잠재력이 있기 때문에 큰 주목을 받아왔음
그러나 기존의 P-RAG 연구들은 주로 오프라인 저장 비용을 최적화하거나 RAG 성능을 향상시키는 데 초점을 맞추어 왔음
주입된 파라미터가 실제로 문서 지식을 저장하는지, 아니면 단지 모델의 기존 질문 응답 능력을 활성화하는 것인지는 불분명함
❗️따라서 본 연구에서는 파라미터 기반 지식 주입의 근본적인 메커니즘을 밝히기 위해 P-RAG에 대한 체계적인 분석을 수행
먼저 설정 상의 여러 혼동 요인을 제거하여 기존 P-RAG 논문을 재구성
그 결과
(1) P-RAG는 기본 LLM(검색 없이 직접 답변)보다는 성능이 좋지만, 표준 RAG(문서를 입력 프롬프트에 직접 추가)보다는 성능이 낮았음
이는 파라미터화된 문서가 완전한 사실 정보를 인코딩하지 못할 수 있음을 시사함
(2) 파라미터 지식과 텍스트 문서를 함께 사용하는 하이브리드 방식인 P-RAG Combine이 가장 높은 성능을 달성함
위 결과를 분석하기 위해 텍스트 문서에는 이미 모든 세부적인 사실이 포함되어 있으므로, 저자들은 파라미터화된 문서가 텍스트 정보에 대한 모델의 이해를 향상시키는 고수준 정보를 인코딩하고 있다고 가정함
파라미터화된 문서가 원본 텍스트 정보에 대해 모델의 이해도를 향상시키게 되면 관련 문서의 더 효과적인 활용과 노이즈 문서에 대한 더 높은 강건성이라는 두 가지 이점을 가져올 수 있음
1) 먼저 주입된 파라미터에 문서 정보가 얼마나 인코딩되어 있는지를 분석
모델이 정답을 맞히기 위해 반드시 문서에 의존하도록 하기 위해, LLM의 지식 컷오프 이후의 사실들로 구성된 새로운 데이터셋을 구축하고, 모델 내부 상태 분석을 함께 수행
실험 결과, 파라미터 표현은 문서로부터 의미 정보를 인코딩하고 있기는 하지만, 그 인코딩은 불완전하며 세밀한 사실 정보가 충분히 포함되어 있지는 않음
그럼에도 불구하고 이러한 표현들은 입력 컨텍스트 내 문서에 대한 모델의 이해를 향상시킬 수 있는 고수준 문서 정보를 포함하고 있음 = "P-RAG는 기억 장치가 아니라 이해 보조 장치"
2) 더 나아가 이러한 고수준 정보가 문서 이해를 어떻게 향상시키는지, 즉 어떻게 관련 문서를 더 잘 활용하게 만드는지 또는 노이즈 문서에 더 강건하게 만드는지를 추가로 분석
정답 문서를 제공한 상태에서 수행한 어려운 Multi-hop QA Task 실험 결과, 파라미터 주입은 모델이 주어진 컨텍스트를 더 효과적으로 해석하고 활용하도록 돕는 것으로 나타남
3) 마지막으로, 검색 노이즈에 대한 강건성을 평가하기 위해 검색된 문서에 인위적인 방해 문서를 삽입
파라미터 주입이 적용된 모델은 그렇지 않은 모델보다 성능 저하가 훨씬 적으며, 모든 문서가 노이즈로 대체된 경우에도 더 높은 성능을 유지
파라미터 주입은 문서 이해를 향상시켜 관련 문서를 더 잘 활용하고 노이즈에 강건하게 만들 수 있지만, 파라미터화된 문서만에 의존하는 방식은 문서의 일부 내용만을 담기 때문에 성능에 한계가 있음
P-RAG + 기본 RAG 사용을 권장
그러나 이러한 방식은 문서를 컨텍스트에 직접 주입하는 방식과 비교했을 때 효율성 측면에서 이점을 제공하지는 않음
결국 파라미터 표현이 세밀한 문서 정보를 인코딩하는 능력을 강화하는 것이 P-RAG를 최적화하는 핵심
📍2. Prelimiary
Standard RAG와 P-RAG의 추론 파이프라인을 구조화해 살펴보고, P-RAG가 문서를 모델 파라미터로 인코딩하여 지식을 주입하는 방식도 살펴보자!
Standard RAG
질의 𝑞와 검색기 𝑅를 사용해 대규모 말뭉치 𝐶로부터 검색된 상위 k개의 관련 문서 {𝑑₁, 𝑑₂, …, 𝑑ₖ}가 주어지면, 검색된 문서들과 질의를 연결(concatenate)하여 확장된 입력(x)을 구성
x = concat(𝑑₁, 𝑑₂, …, 𝑑ₖ,𝑞)
그 다음, 파라미터 𝜃를 가진 LLM은 이 확장된 입력에 조건부로 출력 시퀀스를 생성
문서는 오직 입력 토큰으로만 작용하며, 모델 파라미터 자체에는 영향을 주지 않음
따라서 문서와 모델의 상호작용은 self-attention에 국한되며, 이는 이 논문이 지적하는 '얕은 상호작용(shallow interaction)'의 구조적 원인
Parametric RAG
검색된 문서를 입력 컨텍스트에 삽입하는 대신 각 문서를 모델 파라미터로 표현
inference 과정에서 각 문서의 파라미터가 기존 LLM 가중치와 결합하여 입력 context의 길이 증가 없이 파라미터 수준에서 LLM이 문서와 상호작용을 할 수 있음
말뭉치 𝐶에 속한 각 문서 𝑑ᵢ는 사전에 파라미터 표현 Δ𝜃ᵢ = 𝐹(𝑑ᵢ)로 인코딩됨
여기서 매핑 함수 𝐹는 P-RAG에서 문서별로 증강된 데이터로 LoRA 모듈을 학습하는 방식으로 구현
inference 과정에서 검색된 top-k 문서들 각각의 LoRA 파라미터들은 merge되어 LLM에 주입됨
출력은 질의 𝑞에만 조건부로 생성되지만, 모델 파라미터는 검색된 지식에 맞게 조정된 상태(업데이트된 상태)
추가적으로 P-RAG는 Standard RAG와 결합될 수 있으며, 이를 P-RAG Combine이라고 함
inference 과정에서 P-RAG 방식대로 LLM 가중치 업데이트하고 input으로는 Standard RAG처럼 검색된 문서 + 질문 같이 들어옴
Document Parameterization
각 문서 𝑑ᵢ의 개별 LoRA 파라미터(Δ𝜃𝑖)를 만드는 과정
P-RAG에서는 원시 문서 텍스트만을 사용해 다음 토큰 예측 방식으로 학습하는 것은 사실 지식을 효과적으로 내재화하지 못하는 경우가 많이 때문에 문서 증강을 수행
1) 원본 문서 𝑑ᵢ 재작성 {𝑑¹ᵢ, 𝑑²ᵢ, … , 𝑑ⁿᵢ}
2) 문서 𝑑ᵢ에 기반한 질문–답변(QA) 쌍을 생성 {(𝑞¹ᵢ, 𝑎¹ᵢ), (𝑞²ᵢ, 𝑎²ᵢ), … , (𝑞ᵐᵢ, 𝑎ᵐᵢ)}
결국 LoRA 파라미터 학습에 사용한 데이터(Di)는 아래처럼 (원본 문서 재작성 + 질문 + 답변) 세 개를 concat해서 만듦
그 후 LoRA 파라미터 Δθᵢ는 증강된 시퀀스(Di)에 포함된 모든 토큰에 대해 음의 로그우도(negative log-likelihood)를 최소화하도록 최적화
📍3. Reproduction of PRAG
이번 절에서는 기존 P-RAG 연구(Su et al.)의 실험 설정에는 '파라미터 주입(Parametric Injection)' 자체의 순수한 효과를 분석하기 어렵게 만드는, 다소 혼란스러운 요소(confounding settings)들이 섞여 있었다고 저자들은 말하고 문서가 파라미터(LoRA) 형태로 변환되어 모델에 들어갔을 때 실제로 모델의 행동에 어떤 영향을 미치는지를 명확하게 파악하기 위해, 기존 실험의 설정을 변경해 다시 수행함!
3.1 Experimental Setup
3.1.1 Evaluation Metric
기존 P-RAG 논문에서는 평가 지표로 F1 Score을 사용함
그러나 F1 Score은 답변 형식에 민감하고 오답에 후하기 때문에 본 논문에서는 LLM-as-a-Judge를 사용함
형식에 민감함 : 모델이 정답을 맞혔더라도 "이것은 ~입니다"라고 친절하게 설명을 덧붙이면, 정답 외의 불필요한 단어가 섞였다고 점수가 깎일 수 있음
오답에 후함 : 정답이 "University of Chicago"인데 모델이 "University of Washington"이라고 오답을 내놔도, "University"와 "of"라는 단어가 겹치기 때문에 F1 점수는 꽤 높게 나옴
Qwen2.5-32B-Instruct을 Judge로 사용
Judge 모델에게 [질문, 정답, 모델의 예측값]을 다 보여주고 채점하게 한 뒤, "정답"이라고 인정한 비율(Accuracy)을 결과로 사용
3.1.2 Parameterization Settings
기존 연구(Su et al.)에서는 모델을 훈련시키거나 테스트할 때, 문제와 정답의 Few-shot 프롬프트 사용
그러나 이렇게 하게 되면 모델이 진짜 파라미터로 주입된 지식을 바탕으로 답을 하는건지 아니면 예시에 따라 특정 task 패턴에 따라 답을 하는건지 알 수 없음
이 논문의 목표는 '파라미터에 진짜 지식이 주입되었는지'만 따로 떼어내서 보는 것이기 때문에 훈련할 때나 추론(테스트)할 때 모든 예시를 다 제거함 (Zero-shot)
나머지 설정(데이터 증강 방식, LoRA 랭크 크기, 학습률 등)은 기존 연구와 똑같음
3.1.3 Datasets
공정한 비교를 위해 기존 P-RAG 연구에서 썼던 4가지 벤치마크 데이터셋을 똑같이 사용
2WikiMultihopQA
HotpotQA
ComplexWebQuestions (CWQ)
PopQA
동일하게 각 데이터셋의 첫 300개 질문만 뽑아서 테스트
결과 표에서 'Total'은 전체 데이터셋의 앞쪽 300개를 말하고, 세부 카테고리(Sub-task)별 점수는 해당 카테고리에 속하는 질문들 중 앞쪽 300개를 모아서 낸 점수
질문에 대한 답변을 찾기 위해 참고할 문서는 위키피디아 데이터 덤프에서 BM25를 사용하여, 질문과 가장 관련성이 높은 상위 3개(Top-3) 문서를 뽑음
3.1.4 Methods and Models
Vanilla (기본 모델), RAG (표준 RAG), P-RAG, PRAG-Combine 총 4개 비교
LLM은 LLaMA3.2-1B-Instruct, Qwen2.5-1.5B-Instruct, Qwen2.5-7B-Instruct 3개 사용
모든 답변 생성 시 Greedy Decoding 방식 사용
3.2 Reproduction Results
LLM judgments 기반 재구성 실험 결과
Table 1 결과를 바탕으로 파라미터 주입(Parametric Injection)에 대한 두 가지 중요한 가설을 제시
1) 문서를 파라미터(LoRA)로 바꿔서 심는 방식(Parametric representations)은 문서의 사실적 내용(Factual content)을 100% 완벽하게 담아내지 못한다
P-RAG가 Vanilla보다는 확실히 좋지만 Standard RAG보다는 대체로 낮게 나옴
위 결과를 문서를 파라미터로 압축하는 과정에서 아주 미세한 디테일이나 문서의 뉘앙스가 날아간다고 해석할 수 있음
그래서 P-RAG 하나만 쓰기에는 사용자 질문에 답하기에 정보가 좀 부실하다는 결론이 나옴
그럼 기존 연구(Su et al.)는 왜 P-RAG가 RAG보다 낫다고 했을까요?
F1 score 기반 재구성 실험 결과F1 score은 말은 번지르르하지만 사실 관계가 틀린 답변에도 후한 점수를 줌
Table 3와 Figure 8을 보면 F1 score은 말은 번지르르하지만 사실 관계가 틀린 답변에도 후한 점수를 줌
특히 P-RAG 방식으로 훈련하면 모델이 "정답은 A입니다" 같은 정형화된 템플릿 답변(template-like responses)을 기계적으로 잘 뱉어내는데, 이게 내용은 틀려도 형식이 맞아서 F1 점수가 높음. 즉, 기존 P-RAG 논문에서의 성능 결과가 뻥튀기(inflating) 됨
2) 파라미터 주입이 지식 저장용으로는 좀 부족할지 몰라도, 모델의 문맥 이해력(Comprehension)을 높여주는 효과가 있다
근거로는 RAG + P-RAG를 합친 하이브리드 모델(P-RAG combine)은 그냥 RAG보다 항상 점수가 더 높게 나옴
프롬프트에 문서 내용을 100% 보여주는 RAG에다가 파라미터를 추가했더니 성능이 올랐다는 것은 파라미터는 정보를 단순히 복사해서 모델에 더해주는 게 아니라, 눈앞에 있는 텍스트를 모델이 '더 잘 해석'하게 도와주는 역할을 한다는 결론을 낼 수 있음
'해석 능력 향상'은 구체적으로 두 가지로 생각 할 수 있음
i) 핵심 정보 흡수력 : 필요한 내용을 더 잘 알아듣고 활용함
ii) 노이즈 면역력 : 쓸모없거나 방해되는 정보가 섞여 있어도 헷갈리지 않고 잘 무시함
📍4. How Much Knowledge is Encoded in Parametric Representations
앞선 실험 결과를 바탕으로 세운 첫 번째 가설 "문서를 파라미터(LoRA)로 바꿔서 심는 방식(Parametric representations)은 문서의 사실적 내용(Factual content)을 100% 완벽하게 담아내지 못한다"를 검증한 실험을 살펴보자!
4.1 Experimental Setup
일단 파라미터라에 지식이 얼마나 담기는지 측정하는 목표를 달성하기 위해 모델이 훈련 과정에서 이미 배워버린 내부 지식의 간섭을 완전히 차단해야함
그래서 저자들은 모델의 학습 시점(Cut-off)보다 훨씬 뒤인 2025년에 발행된 뉴스 기사 300개를 수집
그리고 Qwen2.5-32B-Instruct을 이용해 각 뉴스 기사마다
단순 사실(Factual QA : 기사 내용 중 팩트 하나를 묻는 문제), 복합 추론(Multihop QA : 기사 속 여러 정보를 조합해야 풀 수 있는 어려운 문제)를 생성함
Inference 시에는 외부 문서 검색해오는 과정 생략
대신 RAG 모델에서는 질문과 함께, 그 질문의 정답이 들어있는 정답 문서(Gold Passage)를 줌
P-RAG에서는 정답 문서의 파라미터를 주입시켜줌
나머지 방식들(문서 파라미터화, LLM 모델, 평가 지표)은 3.1 Experimental Setup과 동일
4.2 Experimental Results
Figure 1 결과를 통해 3가지를 발견함
1) 파라미터가 진짜로 지식을 담고 있다
P-RAG는 단순 문제든 복잡한 문제든 항상 Vanilla보다 정확도 높음
Vanilla는 미래 지식을 전혀 모르니까 점수가 바닥인데, P-RAG는 점수를 냈다는 것 자체가 "새로운 정보가 모델 뇌 속에 성공적으로 주입되었다"는 증거 (아래 Figure 2 참고)
Vanilla는 Hallucination. 하지만 P-RAG는 정답 생성추가 예시
2) 파라미터로 진짜 지식이 들어갔지만, 100% 들어가진 못함
P-RAG의 점수를 RAG(오픈북)와 비교해보면 현저하게 낮음
다시 말해, "공부를 하긴 했지만 시험을 만점 받을 만큼 확실하게 외우진 못했다"는 것
새로운 지식에 대해 질문하면 P-RAG 하나만으로는 믿음직스럽게 답하기 충분치 않음
3) Parametric representations 세부 내용 보단 전체 맥락(High-level Semantics)를 인코딩 한다
RAG + P-RAG를 합친 P-RAG Combine이 여기서도 1등
저자들의 추측 : 파라미터가 아주 디테일한 팩트(fine-grained factual detail)는 좀 흘렸을지 몰라도, 글의 전체적인 흐름이나 정보 간의 관계 같은 고차원적인 의미 구조(High-level semantic structures)는 제대로 파악하고 있다. 그래서 텍스트(RAG)를 읽을 때 이 파라미터가 '문맥 가이드' 역할을 해줘서 정답률이 올라갔다 (4.3.2에서 더 자세히)
4.3 Further Analysis
좀더 자세히 파라미터(모수) 관점에서, 정말 파라미터화된 문서 표현이 단지 문서 정보의 일부만 담고 있는지, 또는 모델이 문서를 더 잘 이해하도록 돕는 고수준(high-level) 정보를 얼마나 포함하고 있는지 살펴보자!
4.3.1 Similarity Between Parametric Representations
파라미터화된 표현이 문서 지식 전체가 아니라 일부만을 담고 있다는 가설을 검증하기 위해, 서로 다른 문서들 간의 파라미터 표현 유사도를 분석
구체적으로, LoRA 가중치 행렬을 1차원으로 펼친 뒤, 같은 문서에서 나온 단락 쌍과 서로 다른 문서에서 나온 단락 쌍 사이의 코사인 유사도 계산
만약 파라미터가 개별 문서 고유의 의미 정보를 실제로 담고 있다면, 같은 문서에서 나온 단락들의 파라미터는 서로 다른 문서 단락들보다 더 높은 유사도를 보일 것
[Figure 3](Qwen2.5-1.5B-Instruct 기준)를 보면 실제로 같은 문서에서 나온 단락 쌍이 평균적으로 더 높은 유사도를 보이며, 파라미터 표현이 일부 공통된 의미 또는 사실 정보를 인코딩하고 있음을 의미
하지만 그 차이는 크지 않으며, 심지어 서로 다른 문서에서 나온 단락들조차 평균 유사도가 약 0.65로 상당히 높게 나타남
이는 파라미터 표현이 문서 고유 정보만을 완전히 분리해 저장하지 못하고 있으며, 결과적으로 문서 지식이 부분적으로만 인코딩되어 있음을 뒷받침
Qwen2.5-1B 이외에 다른 모델에도 위와 똑같은 결과 나옴
4.3.2 Qantifying Parametric Knowledge in the Residual
파라미터 표현이 단순한 표면적 사실 정보가 아니라 관계 구조나 담화 수준의 고수준 의미 정보를 담고 있는지를 확인하기 위해, 저자들은 PKS(parametric knowledge score)를 사용해 각 FFN 레이어가 residual stream에 얼마나 많은 지식을 기여하는지 분석
FFN 레이어가 자신이 가지고 있는 지식을 얼마나 강하게 Residual Stream(정답 생성 과정)에 주입하고 있는가?
구체적으로, 생성된 응답의 각 토큰과 각 레이어에 대해
1) FFN 블록 전후의 어휘 분포 변화를 LogitLens로 추출하고
LogitLens(x) :중간 층에 있는 Residual Stream의 벡터(x)를 강제로 마지막 출력층의 언어 변환기(Unembedding Matrix,Wu)에 통과시켜 보는 기법
결국 벡터(x)를 정규화하고, 단어 사전(Wu)에 매핑하여 각 단어의 확률 분포를 얻음
여기서 Logit은 Softmax 함수를 통과하기 직전의 값을 의미. 즉, Unembedding Wu을 거쳐서 나온 결과값
q(x) = softmax(LogitLens(x))
2) 이 두 분포 간의 Jensen–Shannon divergence(JSD)를 계산
FFN을 통과하기 직전과 직후의 상태를 비교
각각 LogitLens을 통해 두 개의 서로 다른 단어 확률 분포 구함
JSD : 두 확률 분포(P, Q) 간의 차이를 측정하는 방법(KL-Divergence의 대칭적이고 안정적인 버전)
JSD 값이 작다 (0에 가까움) : FFN 전후로 단어 예측 확률이 거의 변하지 않음. 이 FFN 레이어는 별로 한 일이 없다(지식 기여도 낮음)
JSD 값이 크다 : FFN을 거치면서 단어 예측 확률이 급격하게 변함. 이 FFN 레이어가 결정적인 지식을 제공해서 모델의 생각을 바꾸었다(지식 기여도 높음/PKS 높음)
❗️KL Divergence(KLD)와 Jensen-Shannon Divergence(JSD)는 모두 "두 확률 분포가 얼마나 다른가?"를 측정하는 통계적 척도
1) KL Divergence (Kullback-Leibler Divergence) - A의 관점에서 봤을 때, B는 얼마나 이상한가? (정보 엔트로피 관점) - 두 확률 분포 P와 Q가 있을 때, Q를 사용하여 P를 설명할 때 발생하는 정보 손실량을 측정 수식
- 특징 (1) 비대칭성 - D_KL(P||Q) ≒ D_KL(Q||P)이므로 '거리' 개념으로 쓰기에는 부적절
- 특징 (2) 무한대 발산 - 만약 P(x)는 0이 아닌데 Q(x)가 0이라면 분모가 0이 되어 값이 무한대로 터져버림 - 딥러닝에서는 확률이 0에 가까운 경우가 많아 계산이 불안정해질 수 있음
2) Jensen-Shannon Divergence (JSD) - KL Divergence의 약점(비대칭, 무한대)을 해결한 안정적인 거리 척도 - JSD는 KL Divergence를 기반으로 하지만, 두 분포를 직접 비교하는 대신 평균 분포(M)를 만들어서 비교 작동 원리- 특징 (1) 대칭성 - JSD(P||Q) = JSD(Q||P)이고 순서를 바꿔도 값이 똑같음. 따라서 진정한 의미의 '거리'로 사용 가능
- 특징 (2) 값이 갇혀 있음 - 결과값은 항상 0에서 1 사이 (로그 밑이 2일 때) 또는 0에서 log 2 사이 (자연로그일 때)로 나옴. 값이 무한대로 튀지 않아 딥러닝 학습이나 분석 지표로 쓰기에 매우 안정적
- 특징 (3) 0에 강함 - 어느 한쪽 확률이 0이어도, 평균 분포 M덕분에 분모가 0이 되지 않아 계산이 가능
특정 레이어의 PKS 값은 응답에 포함된 모든 토큰에 대해 계산된 JSD를 평균내어 산출
파라미터 주입이 있는 경우와 없는 경우(P-RAG vs Vanilla, P-RAG Combine vs RAG) 사이에서 레이어별 PKS 차이 확인 가능
초기 레이어에서는 변화 양상이 일정하지 않지만, 마지막 몇 개의 깊은 레이어에서는 모든 LLM에서 일관되게 PKS가 크게 증가하며, 이는 파라미터 지식이 주로 후반부 레이어에서 강하게 작용함을 의미
기존 연구들에 따르면, Transformer의 깊은 레이어들은 토큰 간 정보 통합, 지시어 해소, 사건 구조 형성 등 고수준 의미 처리를 주로 담당
PKS 증가가 이러한 깊은 레이어에 집중되어 있다는 점은, 파라미터 표현이 단순한 사실 암기가 아니라 고수준 의미 지식을 담고 있으며, 이를 통해 모델이 입력 문맥을 더 깊이 이해하도록 돕고 있음을 시사
📍5. Does Parametric Injection Enhance Utilization of Relevant Passages
지금까지의 분석을 통해, 파라미터 표현은 단순한 일부 사실 지식뿐만 아니라 고수준 의미 지식까지 함께 인코딩하고 있음이 확인하였다
그렇다면 이제 3.2절에서 세운 두 번째 가설 "파라미터 주입이 모델의 문맥 이해 능력을 향상시킨다"를 구체적으로 살펴보자
3.2절에서 가정했듯이, 이러한 이해력 향상은 (1) 관련 문서를 더 잘 활용하거나, 또는 (2) 관련 없는·노이즈 문서에 더 강건해지는 방식으로 나타날 수 있음
본 절에서는 이 두 가지 중 첫 번째 메커니즘, 즉 파라미터 표현에 담긴 고수준 지식이 실제로 관련 문서를 더 잘 활용하게 만드는지를 실험적으로 검증
5.1 Experimental Setup
파라미터 주입이 모델의 관련 문서 활용 능력을 실제로 향상시키는지를 엄밀하게 평가하기 위해, gold passage(정답 문서)와 복잡한 질문을 사용하는 실험을 설계
검색 단계를 완전히 제거함으로써, 성능 차이가 검색 품질이 아니라, 주어진 문서를 이해하고 통합하는 모델 자체의 능력을 반영하도록 함
기존 P-RAG의 문서 파라미터화가 문서–질문–답변 형태의 QA 데이터로 학습되었기 때문에, 문서 활용 성능의 향상이 문서 이해력 증가가 아니라 QA 태스크 패턴에 더 잘 적응한 결과일 가능성이 존재함
이러한 대안적 설명을 배제하기 위해, 저자들은 (1) 파라미터 표현에 QA 태스크 특화 요소가 있는지 분석하고, (2) 파라미터 지식 주입이 QA가 아닌 태스크로도 일반화되는지를 검증하는 두 가지 보완 실험을 수행
Gold-Passages Evaluation
HotpotQA와 2WikiMultihopQA 데이터셋을 사용하는데 각각 첫 300개 질문 사용
모든 질문마다 gold passages를 같이 input으로 주고, 추가적으로 gold passages에 해당하는 LoRA 파라미터도 주입(검색 대신 gold passages 바로 주입)
나머지 세팅은 3.1과 동일
Probing for QA-Specific Task Knowledge
QA-specific Adaptation이 실제로 존재하는지를 직접 확인하기 위해, 앞서 사용한 데이터셋에서 200개 질문의 gold passage만을 사용해 QA 전용 LoRA를 학습시킴
이때 3.1절과 동일한 QA 기반 데이터 증강 및 학습 절차를 적용
이후 이 QA 전용 LoRA가 모델 성능에 얼마나 기여하는지를 분석하여, 지금까지 관측된 성능 향상이 QA 태스크 적응 때문인지 여부를 평가
Cross-Task Generalization Test
파라미터에 인코딩된 지식이 일반적인 지식인지, 아니면 QA 전용인지를 판단하기 위해, 저자들은 QA가 아닌 두 가지 태스크—FEVER 데이터셋의 팩트체킹(정확도 기준)과 Zero-Shot-RE의 슬롯 필링(F1 기준)—에서 파라미터 주입을 평가
각 입력에 대해 상위 3개의 문서를 검색한 뒤, 파라미터화 과정은 동일한 QA 기반 프로토콜을 사용하되, 추론 단계에서는 각 태스크에 맞는 프롬프트를 적용
5.2 Experimental Results
gold passage 환경에서, 모든 방법과 그 변형들에 QA 전용 LoRA를 추가했을 때의 성능을 제시
실험 결과는 다음과 같은 세 가지 핵심 사실을 보여줌
1) 파라미터 주입은 모델이 관련 문서를 활용하는 능력을 분명히 향상시킨다 (Table 2)
P-RAG Combine은 특히 복잡한 멀티홉 질문에서 RAG를 지속적으로 큰 차이로 능가하며, 이는 파라미터 표현에 인코딩된 고수준 지식이 문맥을 더 효과적으로 활용하도록 적극적으로 기여함을 보여줌
2) 파라미터 표현에 담긴 고수준 지식에는 본질적으로 QA 태스크 특화 패턴이 이미 포함되어 있다 (Table 2)
P-RAG 또는 P-RAG Combine에 별도로 학습한 QA 전용 LoRA를 추가해도 성능 향상이 거의 없다는 점은, 해당 QA LoRA가 제공하는 태스크 적응 신호가 이미 문서 파라미터화 LoRA 안에 포함되어 있음을 의미
3) 파라미터 주입은 단순한 태스크 특화 신호를 넘어, 문서 전반에 대한 일반적인 이해 능력을 인코딩한다
Vanilla 모델과 RAG 역시 QA 전용 LoRA로부터 일정 부분 이득을 보지만, 파라미터 주입 모델들(PRAG 계열)의 성능에는 여전히 미치지 못한다
더 나아가 이러한 장점은 QA 태스크를 넘어 일반화되며, [Figure 5]에서 보이듯 비-QA 태스크에서도 P-RAG와 P-RAG Combine이 동일한 성능 우위를 유지
종합하면, 이 결과들은 파라미터 표현이 표면적 사실이나 QA 태스크 패턴을 넘어, 문서의 일반적인 의미적·구조적 지식을 인코딩하며, 그 결과 다양한 태스크에서 강건한 문맥 이해를 가능하게 함을 확인시켜줌
5.3 Further Analysis on Context Faithfulness
파라미터 주입이 모델의 문서 활용 능력을 향상시킨다는 점을 고려할 때, 저자들은 이것이 모델의 내부 지식과 충돌하더라도 주어진 문맥에 근거해 답변하려는 성향, 즉 context faithfulness 역시 증가시킬 것으로 기대
이를 검증하기 위해, 질문과 반사실(counterfactual) 문서가 쌍을 이루는 ConFiQA 데이터셋을 사용해 평가
다양한 방법과 모델에 대해 출력 답변 유형의 분포
이 반사실 문서들은 원래의 gold passage에서 핵심 개체를 동일한 타입의 그럴듯한 대체 개체로 교체함으로써 생성되며, 주제 일관성은 유지하되 사실적으로는 틀리도록 설계됨
실험에서는 처음 900개 질문을 샘플링하고, 해당 반사실 문서를 입력 문맥으로도 사용하고 문서 파라미터화에도 동일하게 활용
faithfulness는 모델의 출력 중 반사실 문맥에 부합하는 답변(counterfactual answer)의 비율로 측정
[Figure 6] 결과 P-RAG Combine은 RAG보다 일관되게 더 많은 반사실 답변을 생성하며, 이는 파라미터 주입이 문맥 충성도를 강화함을 의미
또한 P-RAG는 Vanilla 모델보다 반사실 답변은 더 많이, 기존 사실 기반 답변은 더 적게 생성하는 경향을 보이며, 이는 파라미터 주입이 모델의 내부 지식을 일정 수준까지 수정할 수 있음을 시사 = 내부 지식보다 주어진 문맥을 더 신뢰하게 만든다
📍6. Does Parametric Injection Improve Robustness to Noise Passages
앞절(5절)에서 지식 파라미터화를 통해 모델의 이해력이 향상되고 그것이 (1) input으로 들어오는 질문과 관련된 문서를 더 잘 활용할 수 있음을 살펴보았다
이번 절에서는 이해력 향상이 (2) 관련 없는·노이즈 문서에 더 강건해지는 방식으로 어떻게 나타나는지 살펴보자
6.1 Experimental Setup
파라미터 주입이 검색 노이즈에 대한 강건성을 향상시키는지를 평가하기 위해, 검색된 문서에 인위적 노이즈 삽입
구체적으로, 각 질문에 대해 BM25로 검색한 상위 3개 문서를 기준으로 삼고, 이 중 일부를 무작위의 관련 없는 문서로 교체하여 4가지의 입력 경우의 수를 둠
BM25 Top3 : BM25가 검색한 원래의 상위 3개 문서를 그대로 사용하는 경우로, 노이즈를 전혀 주입하지 않은 기준 조건
Replace Last : 가장 관련성이 낮은 문서(3위)를 무작위 노이즈 문서로 교체한 경우
Replace First : 가장 관련성이 높은 문서(1위)를 무작위 노이즈 문서로 교체한 경우
Replace All : 상위 3개 문서 모두를 무작위 노이즈 문서로 교체한 경우
모든 방법은 3.1절에서 사용한 것과 동일한 네 개의 데이터셋, 동일한 문서 파라미터화 방식, 동일한 모델 설정과 평가 지표를 사용해 평가
6.2 Experimental Results
검색 노이즈 수준을 단계적으로 증가시켰을 때, 모든 방법의 성능 변화
1) 파라미터 주입은 검색 노이즈에 대한 강건성을 향상시킨다
예상대로, 노이즈가 증가할수록 모든 방법의 성능은 전반적으로 하락함
그럼에도 불구하고 P-RAG Combine은 모든 노이즈 조건에서 RAG를 일관되게 능가하며, 심지어 검색된 문서가 전부 무관한 경우에도 성능 우위를 유지하는데, 이는 파라미터 주입이 노이즈 문맥의 부정적 영향을 효과적으로 완화함을 보여줌
2) LLM은 파라미터 표현에 인코딩된 무관한 지식을 인식할 수 있다
P-RAG의 성능은 검색 문서가 점점 더 오염될수록 점진적으로 하락하며, 모든 문서가 노이즈인 경우에는 Vanilla 모델의 성능 수준으로 수렴함
이는 주입된 파라미터가 실제로 문서에 특화된 정보를 인코딩하고 있음을 알 수 있음
결정적으로, 주입된 파라미터가 오직 무관한 내용만을 담고 있는 완전 노이즈 상황에서도, P-RAG는 파라미터를 주입하지 않은 모델보다 성능이 떨어지지 않음
이는 모델이 무관한 파라미터 지식을 감지하고, 그로 인해 잘못된 방향으로 오도되지 않도록 스스로 회피할 수 있음을 시사함
📍 7. Conclusion and Discussion
본 논문에서는 parametric RAG의 작동 원리, 즉 파라미터 기반 지식 주입이 실제로 어떻게 작동하는지를 규명하기 위해 체계적인 분석을 수행함
1) 파라미터 표현이 문서의 사실 정보를 완전히 담지 못할 수 있고, 2) 파라미터 주입이 주어진 문맥에 대한 모델의 이해를 향상시킬 수 있다는 두 가지 핵심 가설에 기반해, 일련의 통제된 실험과 내부 분석을 설계
결론은 파라미터 표현은 고수준 의미 지식을 포함한 문서 관련 지식을 실제로 인코딩하고 있지만, 세밀한 사실 정보가 부족해 지식 인코딩은 불완전함
이러한 고수준 지식은 모델이 주어진 문맥을 더 잘 해석하도록 도와, 관련 문서를 더 효과적으로 활용하게 만들고, 동시에 무관하거나 노이즈가 섞인 문서에 대한 강건성을 향상시킴
본 분석으로 봤을 때, 현재의 parametric RAG 접근법이 가지는 근본적인 한계를 드러내는데, 주입된 파라미터만으로는 질의응답을 수행할 만큼 충분한 사실 지식을 담지 못한다는 점
결국 P-RAG는 기존의 표준 RAG를 완전히 대체할 수는 없다
문맥 정보에 고수준 지식을 결합하는 P-RAG Combine은 높은 성능을 달성하지만, 그 대가로 P-RAG의 본래 효율성 목표(토큰 단위 문맥 확장 회피)를 포기하게 되며, 문서 파라미터화를 위한 추가적인 계산 및 저장 비용이 발생 (P-RAG 원래 Motivation인 'in-context learning 없애자'를 달성하진 못함)
P-RAG로 RAG를 대체하기 위한 가장 시급한 과제는 파라미터 표현에 담기는 정보량을 늘리는 것
즉, 더 풍부하고 완전한 사실 지식을 인코딩하는 것이며, 이를 위해 정교하게 설계된 파라미터화 전략이 필요
💬 7. Takeaway
Parametric RAG 논문을 읽으며 궁금했던 것들을 대신 실험해줘서 재미있게 읽었던 것 같다. 그러나 Parametric Knowledge 자체가 의미하는 바는 이제 알았으나 문서를 LoRA 파라미터로 변형시키는 과정을 어떻게 저비용 고효율을 낼지 고민이 필요한 것 같다. 또 어떻게 생각해보면 문서로 LoRA를 학습시킨다는게 모델 튜닝이랑 뭐가 다른것인가...RAG라는 큰 틀안에서 결국 다시 모델 튜닝인것인가...의문이든다. Parametric RAG의 Offline 과정을 다르게 구성할 방법을 생각해보자..😢