[논문 리뷰] FACTGUARD : DETECTING UNANSWERABLE QUESTIONS IN LONG-CONTEXT TEXTS FOR RELIABLE LLM RESPONSES

Notice

Recent Posts

Recent Comments

Link

Github

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

왕구아니다

[논문 리뷰] FACTGUARD : DETECTING UNANSWERABLE QUESTIONS IN LONG-CONTEXT TEXTS FOR RELIABLE LLM RESPONSES 본문

Paper Review/Synthetic Dataset

[논문 리뷰] FACTGUARD : DETECTING UNANSWERABLE QUESTIONS IN LONG-CONTEXT TEXTS FOR RELIABLE LLM RESPONSES

Psalms 12:6-7 2026. 2. 24. 00:22

본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.
내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~

Preview
- FactGuard는 장문 문맥(Long-context) 환경에서 LLM이 답할 수 없는 질문에 대해 환각을 생성하는 문제를 해결하기 위해, answerable과 현실적인 unanswerable 질문을 자동으로 생성하는 협업적 다중 작업 프레임워크를 제안
- 이를 통해 구축된 FactGuard-Bench(25,220개 예시)는 4K~128K 길이의 문맥에서 모델이 “답할 수 없음”을 추론 기반으로 설명하며 거부하는 능력을 평가하도록 설계되었으며, 실험 결과 기존 LLM들은 answerable과 unanswerable 사이에 큰 성능 격차를 보이고 문맥이 길어질수록 성능이 감소함
- 그러나 FactGuard-Bench로 fine-tuning할 경우 다양한 모델 규모에서 unanswerable 처리 및 추론 기반 거부 능력이 크게 향상되었고, 다른 벤치마크(SQuAD 2.0)에서도 일반화 성능을 보이며 LLM 신뢰성 향상에 효과적인 전략임을 입증함

Link
- 논문 : https://openreview.net/forum?id=c4nZkkyl6E

FactGuard: Detecting Unanswerable Questions in Long-Context Texts...

Large language models (LLMs) have demonstrated significant advances in reading comprehension. However, a persistent challenge lies in ensuring these models maintain high accuracy in answering...

openreview.net

📍0. Abstract

대형 언어 모델(LLM)은 독해 능력(reading comprehension)에서 상당한 발전을 보여주었음에도 불구하고 질문에 대해 높은 정확도를 유지하면서 동시에 답할 수 없는 질문(unanswerable queries)을 신뢰성 있게 인식하도록 보장하는 것은 여전히 지속적인 과제이다.
이 문제를 해결하기 위해, FactGuard라는 협업적 다중 작업 워크플로우를 제안하며, 이는 근거 기반의 질문-답변 쌍을 자동 생성하고 체계적으로 답할 수 없는 질문을 구성한다.

📍1. Introduction

이전 Unanswerable 관련 데이터셋
- SelfAware(Yin et al., 2023)는 LLM이 답할 수 없는 질문을 탐지하고, “The answer is unknown”과 같은 사전 정의된 응답을 사용하도록 유도하는 단순한 접근 방식을 사용한다.
- KUQ(Amayuelas et al., 2024)는 독해 기반 질문이 아니라, 개방형 질의응답 시나리오에서 Known-Unknown 질문을 다룬다.
- Self-Aligned 방법(Deng et al., 2024)은 주로 답할 수 없는 질문에 대한 추론 응답에 초점을 맞추며, 장문 문맥을 고려하지 않고, 수동으로 라벨링된 질문을 시드 데이터로 요구한다.
위의 한계를 극복하기 위해, 자동 데이터 증강을 가능하게 하는 협업적 다중 작업 워크플로우 프레임워크를 사용하는 새로운 접근법을 제안한다.
따라서 FactGuard-Bench를 소개하며, 이는 25,220개의 질문(8,829개는 답 가능, 16,391개는 답 불가능)으로 구성된 독해 데이터셋으로, 문맥 길이는 4K에서 128K까지이며 협업적 다중 작업 워크플로우 프레임워크를 통해 구축되었다.

📍2. FACTGUARD METHODOLOGY

FactGUARD는 3단계로 구성되어 있다.
- Preparation Stage
- Answerable QA Generation Stage
- Unanswerable QA Generation Stage

2.1 PREPARATION STAGE

원본의 긴 문서를 여러 개의 짧은 텍스트 조각(fragment)으로 분할한다.
윈도우 크기는 500~1000 토큰으로 유지하며, 분할은 문단 단위로 수행된다.
이후의 하위 단계들을 위해 Fragment X를 무작위로 선택한다. (모든 fragment를 다 쓰는 게 아니라 랜덤 샘플링을 통해 다양성 확보)
Quality Scoring
- LLM을 사용하여 Fragment X를 유창성(fluency), 일관성(coherence), 논리성(logicality) 측면에서 평가하고, 1~5점 척도의 품질 점수를 부여한다.
  - Fluency → 문장이 자연스러운가?
  - Coherence → 문맥이 연결되어 있는가?
  - Logicality → 논리적으로 말이 되는가?
- 점수가 4점 미만인 fragment는 높은 품질을 보장하기 위해 폐기한다.
Topic Labeling
- 이후 LLM을 사용하여 Fragment X로부터 구조화된 정보(예: 시간 표현, 수치 값, 개체, 장소, 조직, 사건 등)를 추출하여 주제 라벨로 활용한다.
- 명확한 구조화 정보가 없는 fragment는 폐기한다.
  - 구조 정보(structured information)가 없으면 질문 만들기 어려움, evidence 명확하지 않음, entity substitution 불가능, impossible condition 삽입 불가능
Preparation 단계 이후, 원본 장문 문서로부터 명확한 구조 정보를 갖춘 고품질 fragment들을 확보하게 된다.

2.2 ANSWERABLE QA GENERATION STAGE

Answerable QA 생성 단계에서는 Preparation 단계에서 확보한 고품질 fragment를 기반으로 질문, 답변, 그리고 근거(evidence)를 생성한다.
여기서 evidence는 답변을 뒷받침하는 fragment 내의 특정 텍스트 구간으로 구성된다. (반드시 원문 fragment의 일부)
LLM 생성 결과에는 유창하지 않은 질문이나, evidence가 fragment에서 나오지 않는 등의 저품질 결과가 존재하므로, answerable QA 생성 이후 품질 판단을 통해 이를 필터링한다.
QA 생성 단계를 거치면, 원본 텍스트로부터 파생된 답 가능한 질문, 답변, 그리고 근거를 얻을 수 있다.

2.3 UNANSWERABLE QA GENERATION STAGE

Unanswerable QA 생성 단계에서는, 이전 QA 생성 단계에서 이미 생성된 answerable 질문을 기반으로 답할 수 없는 질문과 그에 대응하는 답변을 생성한다.
- Answerable QA를 출발점으로 삼는다. (완전히 무작위로 unanswerable 생성하는 게 아니라 원래는 답이 있었던 질문을 변형)
Unanswerable questions of lacking evidence
- 단순히 fragment에서 evidence를 제거하여, 정보 부족으로 인해 질문이 답할 수 없도록 만든다.
  - 즉, context에서 답을 뒷받침하는 핵심 문장만 제거. 그러면 질문은 여전히 문맥과 관련 있어 보이지만 실제로는 답을 찾을 수 없음. 이게 “Lack of Evidence” 타입
- 거부 응답의 경우, LLM에게 질문을 반영한 합리적인 거부 응답을 생성하도록 요청하며, 이후 문서의 주요 내용을 언급하여 해당 답이 텍스트에서 찾을 수 없음을 증명하도록 한다.
  - 단순히 “The answer is unknown.”가 아닌 왜 없는지 설명 & 문서 내용과 연결해서 설명
Unanswerable questions of misleading evidence
- LLM을 사용하여 질문을 개체 치환(entity substitution)이나 불가능한 조건 삽입(impossible condition insertion)을 통해 재작성하여 오도된 질문을 만든다.
- 질문을 개체 치환으로 재작성할 때, LLM이 생성하는 거부 응답에서 문서에 등장하는 내용이 치환 이전의 개체와 관련이 있음을 명시하고, 치환 이후 개체와는 관련이 없음을 분명히 하도록 요구한다.
- 질문을 불가능한 조건 삽입을 통해 재작성할 경우, LLM이 먼저 해당 조건이 원문에 존재하지 않음을 설명하고, 이후 원래 질문에 대한 답을 제공하도록 요구한다.

[Table 1 참고] 앞서 말한 것처럼, 근거 부족형 unanswerable 질문의 경우, 원래 fragment에서 evidence를 제거한다. 오도된 근거형 unanswerable 질문의 경우, fragment는 그대로 유지하고 질문만 개체 치환 또는 불가능한 조건 삽입으로 재작성한다.
- 여기서 중요한 건 완전히 unrelated 질문이 아니라 여전히 문서와 관련된 질문
답 가능한 질문과 답 불가능한 질문의 품질을 보장하기 위해, 생성된 데이터를 검토하는 과정에서 RAG 기법을 활용한다.
- 이 접근 방식은 긴 문서에서 상위 N개의 관련 문단을 추출하여 짧은 독해 형태로 검토할 수 있게 하며, 서로 충돌하는 답변을 포함하는 데이터를 걸러낼 수 있도록 한다.
- 즉, “한 fragment만 보고 QA를 만들었는데, 문서 다른 부분에 다른 답이 있으면 어떻게 할 것인가?”
- LLM이 fragment 단위로 QA를 생성하면 → 문서 전체 문맥(global context)와 충돌할 수 있음. RAG 검증은 이 global consistency를 보장하는 장치
또한 상식적 지식을 필터링하기 위해 웹(World Wide Web)을 활용하며, 이를 통해 문맥 충실성(context-faithfulness)과 상식 정확성(common-sense accuracy) 사이의 본질적인 충돌을 효과적으로 회피한다.
- 예를 들어, 문서에 “The Earth has two moons.” 라고 적혀 있다면?
- 문맥 기준으로는 답은 two moons (context-faithful)
- 하지만 상식적으로는 틀림 (지구는 1개)
- LLM은 여기서 딜레마에 빠진다. 문맥을 따를 것인가? 상식을 따를 것인가?
- 따라서 외부 웹 검증을 통해 명백히 상식적으로 틀린 경우 제거. 즉, synthetic data가 상식적으로 말이 안 되는 경우 필터링

📍3. BENCHMARK CONSTRUCTIONS

FactGuard는 다중 작업 협업 과정을 활용하여 답 가능한 질문과 답 불가능한 질문을 동적으로 생성한다.
전체 과정의 기반이 되는 LLM은 Qwen2.5-72B-Instruct이다.
프로세스의 초기 입력으로 오픈소스 커뮤니티에서 원시(raw) 장문 텍스트를 수집한다.
이 텍스트들은 중국어와 영어를 모두 포함하며, 법률과 서적 등 다양한 도메인을 아우른다.
구체적으로, 데이터셋에는 Pile of Law, Tiger Law와 같은 법률 데이터셋, Gutenberg 서적 데이터셋, 공개 저작권 중국어 서적 등이 포함된다.

3.1 CHARACTERISTICS

FactGuard 프레임워크를 사용하여 장문 문맥(long context) 기반의 대규모 데이터셋 FactGuard-Bench를 구축하였다.
FactGuard-Bench는 16,742개의 텍스트로부터 생성된 25,220개의 데이터 예시를 포함한다.

3.2 MANUAL REVIEW

합성 데이터의 품질을 검증하기 위해, 480개의 예시를 무작위로 샘플링하여 수동 검토를 수행하였다.
각 예시는 세 명의 주석자가 독립적으로 평가하였으며, 인간 평가 가이드라인에 따라 해당 예시를 적합(qualified) 또는 부적합(unqualified)으로 분류하였다.

Fleiss의 Kappa로 측정한 평가자 간 일치도는 κ = 0.64로 상당한 수준이었으며, 이는 인간 판단이 신뢰할 만함을 의미한다.
- FactGuard-Bench의 전체 품질은 93.96%

📍4. EXPERIMENTS

4.1 IMPLEMENTATION DETAILS

FactGuard-Bench에서 LLM의 성능을 평가하기 위해, Supervised Fine-Tuning(SFT)과 Reinforcement Learning from Human Feedback(RLHF)을 통해 instruction-tuned된 여러 오픈소스 모델을 포함하여 실험을 수행하였다.
- Mistral-Large-Instruct-2411 (123B), DeepSeek-V3-0324 (685B), Llama3.3-70B-Instruct, 그리고 Qwen2.5 시리즈 모델
한 여러 상용(proprietary) 모델에 대해 API 호출을 통해 평가 결과를 얻었다.
- 여기에는 OpenAI의 GPT-4o와 Gemini1.5 Pro가 포함된다.
FactGuard-Bench의 효과를 검증하기 위해, Qwen2.5 시리즈 모델에 대해 전체 파라미터를 업데이트하는 SFT 학습을 수행하였다.
AdamW 옵티마이저를 사용하였으며, 학습률은 2 × 10⁻⁵로 설정하고 2 epoch 동안 full-parameter SFT를 수행하였다. warm-up 비율을 0.1로 설정하고, weight decay는 0.1로 설정하였다.

4.2 EVALUATION SETTINGS AND METRICS

모델의 예측 답변과 정답 간의 일관성(consistency)을 평가함으로써 모델의 능력을 측정하며, 임계값 조정이 필요한 Exact Match(EM)나 F1과 같은 지표에 의존하지 않는다.
LLM-as-Judge 접근법의 판별 능력을 활용하여, answerable 질문과 unanswerable 질문을 구분하여 평가한다.
Answerable 질문의 경우, 예측 답변이 정답의 올바른 정보 조각을 포함하면 1점을 부여하고, 그렇지 않으면 0점을 부여한다.
Unanswerable 질문의 경우, 응답이 질문이 답할 수 없음을 적절히 인식하면(예: 거부 응답), 1점을 부여하고, 환각 내용을 생성하면 0점을 부여한다.
실험에서 판별 모델(discriminant model)로 Qwen2.5-72B-Instruct를 선택하였다.
- LLM 기반 평가의 정확도는 인간 평가 이후 약 94% 수준

4.3 EXPERIMENTAL RESULTS

4.3.1 ANSWER CONSISTENCY EVALUATION

“answer consistency”는 Answerable → 정답 정보 포함 여부, Unanswerable → 적절한 거부 여부
Table 3에서 상용 모델과 오픈소스 모델 모두 answerable 질문과 unanswerable 질문 사이에 상당한 성능 격차가 있음을 명확히 확인할 수 있다.
예를 들어, GPT-4o는 중국어 answerable 질문에서 87.89% 정확도를 달성하지만, lack of evidence 유형의 unanswerable에서는 37.06%, misleading evidence에서는 30.3%에 불과하다.
이러한 경향은 현재 LLM이 unanswerable 질문을 처리하는 데 한계를 가지고 있음을 보여준다.

4.3.2 SCALING COMPARISON EVALUATION

Qwen 시리즈 모델에 대해 SFT 실험을 수행하였으며, 그 결과는 Table 4
- 결과는 다양한 규모의 모델들이 SFT 이후에 성능이 크게 향상되었음을 보여준다.
- 예를 들어, Qwen2.5-3B-Instruct는 SFT 이후 전체 정확도가 45.39%에서 78.94%로 상승하였다.
주목할 점은, 모델 규모가 증가함에 따라 전체 정확도가 향상되며, 모든 규모의 모델이 unanswerable 질문에서 상당한 개선을 달성했다는 것이다.
또한, SFT 실험은 FactGuard-Bench로 fine-tuning할 때 내재된(trade-off) 성능 상충 관계가 존재함을 보여준다.
이는 Qwen2.5-14B-Instruct의 중국어 성능에서 확인할 수 있는데, unanswerable 질문에 대한 능력은 향상되었지만 answerable 질문에서는 약간의 성능 감소가 발생하였다.

Figure 3에서는 다양한 규모의 Qwen 시리즈 모델이 영어 unanswerable 질문에서 보이는 예측 정확도를 제시한다.
모델 규모가 증가함에 따라 Qwen 모델이 unanswerable 질문에서 점진적으로 더 강한 성능을 보인다는 것을 명확히 확인할 수 있으며, 특히 lack of evidence 유형에서 그 경향이 두드러진다.
또한 FactGuard-Bench로 SFT 이후, 다양한 규모의 모델들이 일관되게 unanswerable 질문에서 강한 성능을 달성하였다.

4.3.3 DIFFERENT LENGTH INTERVALS EVALUATION

Figure 4는 다양한 길이 구간에서 unanswerable 질문에 대한 예측 정확도를 제시한다.
Figure 4a에서 모든 모델이 짧은 텍스트(0–4K)에서 가장 높은 성능을 보이며, 텍스트 길이가 증가함에 따라 성능이 눈에 띄게 감소하는 것을 명확히 확인할 수 있다.
Figure 4b에서는 Qwen2.5 시리즈 모델에 대한 SFT 결과를 제시한다.
결과는 모든 길이 구간에서 unanswerable 질문에 대해 상당한 성능 향상이 나타났으며, baseline 시스템보다 일관되게 더 우수한 성능을 보였다.
이러한 결과는 FactGuard-Bench가 모델의 강건성(robustness)을 향상시키는 데 가치가 있음을 강조하며, unanswerable 질문을 처리하는 모델의 평가 및 개발을 촉진하는 벤치마크로서의 효과를 확인해준다.

4.3.4 REASONING ABILITY EVALUATION FOR UNANSWERABLE QUESTIONS

모델이 답할 수 없는 질문을 거부하는 능력과, 환각(hallucination) 내용을 생성하지 않는 능력을 평가한다.
구체적으로, LLM을 사용하여 unanswerable 질문에 대한 응답을 세 가지 유형으로 분류한다.
- (1) 잘못된 답변
- (2) 직접적인 거부 응답
- (3) 추론을 포함한 올바른 응답
Figure 5a의 결과는 baseline 모델들이 거부하거나 추론 기반 응답을 제공하기보다, 잘못된 답변을 생성하는 경향이 지배적임을 보여준다.
주목할 점은 SFT 적용 이후 응답 정확도가 향상되었을 뿐 아니라, 추론 기반 응답의 비율도 크게 증가했다는 것이다.
또한 Qwen2.5-7B-Instruct의 SFT에서 answerable 대 unanswerable 데이터 비율을 변화시켰을 때 추론 능력이 어떻게 변하는지를 분석하였으며, 이는 Figure 5b에 제시되어 있다.
결과는 8:1과 같은 비교적 낮은 비율에서도 추론 성능이 크게 향상됨을 보여준다.
이러한 결과는 FactGuard-Bench가 unanswerable 질문에 대한 추론 능력을 효과적으로 향상시킬 수 있음을 보여주며, 이는 질문에 명확한 답이 없는 이유를 선제적으로 설명하고 사용자가 질문을 수정하거나 기대를 조정하도록 돕는 데 중요하다.

4.3.5 CROSS-BENCHMARK GENERATION ABILITY EVALUATION

일반화 가능성을 평가하고 합성 데이터에 과적합(overfit)되지 않았음을 확인하기 위해, FactGuard-Bench로 fine-tuning된 Qwen2.5 시리즈 모델을 SQuAD 2.0 데이터셋(완전한 인간 주석 기반 answerable 및 unanswerable 질문 포함)에서 교차 벤치마크 검증을 수행하였다.
“자동 생성 데이터로 학습했는데, 진짜 사람 데이터에서도 통할까?”
Table 5에서 보이듯이, FactGuard-Bench로 학습된 모델은 SQuAD 2.0의 dev 세트에서 평가되었으며, 전체 지표에서 개선을 보였고 특히 unanswerable 질문 처리에서 향상이 나타났다.
또한 unanswerable 질문 처리 능력은 향상되었지만, answerable 질문에서는 성능 감소가 발생함을 확인할 수 있다.
- Catastrophic Forgetting : 기존 QA 능력 손실 문제
- Data Concentration Effects : Unanswerable 데이터 비율이 너무 높을 경우, 모델이 한 방향으로 치우침
- LoRA Mitigation : Full-SFT 대신 LoRA 사용하면 기존 능력 보존 가능성
그리고 모델 규모가 증가할수록 fine-tuning을 통해 개선할 수 있는 여지는 점점 줄어든다.

📍5. Conclusion

본 논문에서는 문맥적으로 높은 관련성을 유지하면서 answerable 질문과 현실적인 unanswerable 질문을 동적으로 생성하는 협업적 다중 작업 워크플로우 프레임워크인 FactGuard를 제시하였다.
또한 장문 독해 환경에서 LLM이 answerable 및 unanswerable 질문을 처리하는 성능을 평가하기 위해 정교하게 구축된 벤치마크 FactGuard-Bench를 제공하였다.
실험 결과, LLM은 answerable 질문과 unanswerable 질문 사이에서 상당한 성능 격차를 보였으며, 짧은 텍스트에서 가장 높은 성능을 보이고 텍스트 길이가 증가할수록 성능이 눈에 띄게 감소하였다.
FactGuard-Bench로 학습하면 모델의 unanswerable 질문 처리 능력이 추론 기반 응답과 함께 향상되며, 다양한 길이 구간에서도 성능이 개선된다.

'Paper Review > Synthetic Dataset' 카테고리의 다른 글

[논문 리뷰] Wrong Answers Can Also Be Useful: PlausibleQA — A Large-Scale QA Dataset with Answer Plausibility Scores (0)	2025.06.29

'Paper Review/Synthetic Dataset' Related Articles

[논문 리뷰] Wrong Answers Can Also Be Useful: PlausibleQA — A Large-Scale QA Dataset with Answer Plausibility Scores 2025.06.29

왕구아니다

[논문 리뷰] FACTGUARD : DETECTING UNANSWERABLE QUESTIONS IN LONG-CONTEXT TEXTS FOR RELIABLE LLM RESPONSES 본문

[논문 리뷰] FACTGUARD : DETECTING UNANSWERABLE QUESTIONS IN LONG-CONTEXT TEXTS FOR RELIABLE LLM RESPONSES

📍0. Abstract

📍1. Introduction

📍2. FACTGUARD METHODOLOGY

2.1 PREPARATION STAGE

2.2 ANSWERABLE QA GENERATION STAGE

2.3 UNANSWERABLE QA GENERATION STAGE

📍3. BENCHMARK CONSTRUCTIONS

3.1 CHARACTERISTICS

3.2 MANUAL REVIEW

📍4. EXPERIMENTS

4.1 IMPLEMENTATION DETAILS

4.2 EVALUATION SETTINGS AND METRICS

4.3 EXPERIMENTAL RESULTS

4.3.1 ANSWER CONSISTENCY EVALUATION

4.3.2 SCALING COMPARISON EVALUATION

4.3.3 DIFFERENT LENGTH INTERVALS EVALUATION

4.3.4 REASONING ABILITY EVALUATION FOR UNANSWERABLE QUESTIONS

4.3.5 CROSS-BENCHMARK GENERATION ABILITY EVALUATION

📍5. Conclusion

'Paper Review > Synthetic Dataset' 카테고리의 다른 글

티스토리툴바