| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- Noise Robustness
- qwen
- retrieval
- Statistics
- Baekjoon
- 파인튜닝
- reranking
- Parametric RAG
- Retriever
- RAG
- fine-tuning
- DPO
- Hallucination
- DyPRAG
- Python
- COT
- Embedding
- GPT
- Document Augmentation
- lora
- NLP
- Do it
- LLM
- odds
- Algorithm
- Noise
- SFT
- moe
- Transformer
- coding test
- Today
- Total
왕구아니다
[통계] Confusion Matrix 본문
🫨 더 이상 까먹지 않기 위해 정리하는 Confusion Matrix!!
데이터 사이언스를 공부하다 보면 가장 먼저 마주치는 평가 지표는 '정확도(Accuracy)'입니다. 하지만 불균형한 데이터를 다루거나, 해결하고자 하는 비즈니스 문제의 성격에 따라 정확도는 무의미한 숫자가 되기도 합니다.
Confusion Matrix를 정리하고, 머신러닝(ML)과 딥러닝, 더 나아가 LLM분야에서는 이 지표들이 어떻게 변주되어 사용되는지 정리해 보려고 합니다.
1. 기초
모든 지표의 시작은 Confusion Matrix(오차 행렬)입니다. 이를 통계학의 가설 검정(Hypothesis Testing) 관점에서 바라보면, 우리가 흔히 말하는 '에러'가 사실은 성격이 완전히 다른 두 가지 종류의 오류로 나뉜다는 것을 알 수 있습니다.

통계학적 관점: 1종 오류 vs 2종 오류
통계적 가설 검정에서 우리는 보통 입증하고자 하는 바(이벤트 발생, 차이 있음)를 대립가설(H1)로, 반대되는 상황(변화 없음, 효과 없음, 정상)을 귀무가설(H0)로 둡니다. 이때 판단 과정에서 두 가지 오류가 발생할 수 있습니다.
- 제1종 오류 (Type I Error, a): "거짓 경보 (False Alarm)"
- 개념: 귀무가설(H0)이 참인데 기각하는 오류입니다. 즉, "없는데(Negative) 있다고(Positive) 하는 것"입니다.
- 예시: 암이 없는 환자에게 암이라고 오진하는 경우, 죄가 없는 피고인에게 유죄를 선고하는 경우.
- 머신러닝 연결: FP (False Positive)
- 제2종 오류 (Type II Error, B): "놓침 (Miss)"
- 개념: 대립가설(H1)이 참인데 귀무가설(H0)을 채택하는 오류입니다. 즉, "있는데(Positive) 없다고(Negative) 하는 것"입니다.
- 예시: 암 환자를 정상으로 오진하여 치료 시기를 놓치는 경우, 범죄자를 증거 불충분으로 풀어주는 경우.
- 머신러닝 연결: FN (False Negative)
- 검정력 (Power, 1-B):
- 대립가설(H1)이 참일 때, 올바르게 H1을 채택할 확률입니다.
- 머신러닝 연결: Recall (Sensitivity)
2. 핵심 지표 : Precision, Recall, F1 Score
(1) Precision (정밀도)
- 정의: 모델이 Positive라고 예측한 것 중 실제 Positive의 비율
- 수식: {TP}/{TP + FP}
- 통계학 용어: PPV (Positive Predictive Value)
- 언제 중요한가? 1종 오류(FP)를 줄이는 것이 치명적일 때 = “아닌데 맞다고 하면 큰일”
- 예: 스팸 메일 필터링 (정상 메일을 스팸으로 분류하면 안 됨), 추천 시스템 (유저에게 싫어할 물건을 추천하면 신뢰도 하락)
(2) Recall (재현율)
- 정의: 실제 Positive인 것 중 모델이 Positive라고 맞춘 비율
- 수식: {TP}/{TP + FN}
- 통계학 용어: Sensitivity (민감도), Power (검정력)
- 언제 중요한가? 2종 오류(FN)를 줄이는 것이 치명적일 때 = “맞는데 아니라고 하면 큰일”
- 예: 암 진단 (암 환자를 정상으로 분류하면 생명이 위험), 금융 사기 탐지 (사기 거래를 놓치면 손실 발생)
(3) F1 Score
- 정의: Precision과 Recall의 조화 평균 (Harmonic Mean)
- 수식: 2 * {(precision * recall) / (precision + recall)}
- 왜 조화 평균인가? 산술 평균과 달리, 두 지표 중 하나가 매우 낮을 때 점수를 더 크게 깎아버리기 때문입니다. (둘 다 균형 있게 높아야 높은 점수)
3. 분야별 적용 사례
A. 통계학 및 의학 (Diagnostic Test)
통계나 의학 통계에서는 Precision/Recall이라는 용어보다 Sensitivity(민감도)와 Specificity(특이도)를 쌍으로 많이 사용합니다.
- Sensitivity (Recall): 질병이 있는 사람을 양성으로 판별하는 능력.
- Specificity (TNR, True Negative Rate): 질병이 없는 사람을 음성으로 판별하는 능력

- 이 둘의 Trade-off를 시각화한 것이 바로 ROC Curve입니다.
B. 머신러닝 & 컴퓨터 비전 (Object Detection)
Object Detection(객체 탐지) 분야에서는 단순한 TP/FP 카운팅이 어렵습니다. "위치(Box)"도 맞춰야 하기 때문입니다.
- IoU (Intersection over Union): 예측 박스와 실제 박스의 겹치는 비율.
- 보통 IoU >= 0.5인 경우를 TP로 간주합니다.
- mAP (mean Average Precision): 각 클래스별 Precision-Recall 곡선 아래의 면적을 평균 낸 값으로 모델 성능을 평가합니다.
C. 자연어 처리 (NLP) 및 LLM
LLM 분야에서 이 지표들은 토큰(Token) 또는 n-gram 단위로 확장되어 사용됩니다.
1. 정보 추출 (NER: Named Entity Recognition)
문장 내에서 '인명', '지명' 등을 추출하는 태스크입니다.
- 토큰 단위 평가: 모델이 "Apple"을 기관명(ORG)으로 예측했는지 토큰별로 Precision/Recall을 계산합니다.
- 엄격한 기준(Strict): 엔티티의 시작과 끝, 타입이 모두 맞아야 TP.
2. 텍스트 생성 (Translation, Summarization)
생성형 모델은 정답이 하나가 아닙니다. 따라서 "얼마나 겹치는가"를 봅니다.
- BLEU Score (Precision 지향):
- 기계가 생성한 문장에 있는 n-gram이 실제 정답 문장(Reference)에 얼마나 포함되어 있는가?
- 모델이 생성한 단어/구절 중에서 정답에 실제로 존재하는 것이 얼마나 되나?”
- 번역이 너무 장황하게 헛소리를 하는 것(FP)을 방지
- 예)
- 정답 : the cat is on the mat
- 생성본 : the cat is on mat mat mat
- 생성본에는 말을 엄청 많이 했고(mat 반복), 정답에는 없는 말도 많다면 ➡️ “생성한 것 중 정답에 있는 것만 보면” precision이 떨어짐
- BLEU는 이런 쓸데없는 생성(장황함, 헛소리)을 벌점 주는 데 강함
- 또한 너무 짧게 생성하면 precision만 높게 나오는 걸 막기 위한 패널티도 존재(Brevity Penalty)
- ROUGE Score (Recall 지향):
- 실제 정답 문장의 n-gram을 기계가 얼마나 많이 복원(생성)해냈는가?
- 문서 요약에서 중요한 내용을 빠뜨리지 않았는지(FN 방지) 확인
3. RAG (Retrieval-Augmented Generation)
최근 LLM 애플리케이션의 핵심인 검색 증강 생성에서는 두 단계로 나뉩니다.
- Retrieval (검색) 단계: 사용자의 질문에 맞는 문서를 잘 찾아왔는가? (Recall이 중요, 관련 문서를 놓치면 안 됨)
- Generation (생성) 단계: 가져온 문서를 바탕으로 거짓 없이 답변했는가? (Precision/Hallucination 방지가 중요)
4. 결론
통계학에서 1종 오류와 2종 오류의 심각성이 상황에 따라 다르듯, AI 모델링에서도 "우리가 무엇을 더 두려워하는가?"에 따라 평가지표의 우선순위가 결정됩니다.
- 암을 놓치는 것이 두렵다면 Recall(검정력)을,
- 무고한 사람을 범인으로 지목하는 것이 두렵다면 Precision을,
- 데이터가 불균형한 상황에서 전반적인 성능을 보고 싶다면 F1 Score를 선택해야 합니다.
'Long-term Memory > Statistics' 카테고리의 다른 글
| [통계] 가설검정 (1) | 2026.01.17 |
|---|---|
| [통계] 범주형자료분석 2 (1) | 2026.01.15 |
| [통계] 범주형자료분석 1 (0) | 2026.01.14 |
