| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- qwen
- SFT
- LLM
- retrieval
- Retriever
- DPO
- Parametric RAG
- NLP
- reranking
- lora
- moe
- Hallucination
- GPT
- Noise Robustness
- Do it
- Embedding
- Baekjoon
- RAG
- DyPRAG
- Transformer
- 파인튜닝
- Statistics
- Algorithm
- Python
- Noise
- COT
- odds
- Document Augmentation
- coding test
- fine-tuning
- Today
- Total
왕구아니다
[통계] 범주형자료분석 1 본문
📝 "Alan Agresti의 <범주형 자료분석 개론>"을 기반으로 공부한 내용을 정리한 포스팅입니다!
1️⃣ 범주형 자료와 추론의 기초
1. 반응변수의 척도 (Scale)
분석 방법을 결정하는 가장 첫 단계는 자료의 형태를 파악하는 것입니다.
- 명목형 (Nominal): 순서가 없는 범주 (예: 혈액형, 선호하는 정당)
- 순서형 (Ordinal): 순서가 있는 범주 (예: 환자의 회복 정도, 설문조사의 만족도)
- Tip: 순서형 자료를 명목형처럼 분석하면 검정력이 떨어지므로 주의해야 합니다.

2. 확률 분포 (Probability Distributions)
범주형 자료분석의 핵심 분포는 두 가지입니다.
- 이항 분포 (Binomial Distribution): 범주가 2개(성공/실패)일 때 사용합니다. n번의 시행 중 성공 횟수의 분포입니다.

- 다항 분포 (Multinomial Distribution): 범주가 3개 이상일 때 사용합니다. (예: 정당 지지도 A/B/C)

3. 최대가능도추정(MLE)과 추론
범주형 자료분석에서 모수 추정의 핵심은 최대가능도추정(Maximum Likelihood Estimation, MLE)입니다.
(1) 가능도함수(Likelihood Function)란?
1.1 기본 개념 및 정의
우리가 흔히 접하는 확률(Probability)은 '모수(파라미터)가 주어졌을 때, 특정한 데이터가 관측될 확률'을 의미합니다. 반면, 가능도(Likelihood)는 '데이터가 주어졌을 때, 이 데이터가 특정 모수로부터 나왔을 가능성'을 나타냅니다.
- 확률 밀도 함수 (pdf):
- 𝜃가 고정되어 있고, x가 변수일 때 (데이터의 분포를 설명)
- 가능도 함수:
- x가 고정(관측된 데이터)되어 있고, 𝜃가 변수일 때 (모수에 대한 함수)
데이터 집합 X = {x_1, x_2, ..., x_n}이 서로 독립이고 동일한 분포(i.i.d.)를 따른다고 가정할 때, 가능도함수는 결합확률밀도함수(joint pdf)와 같은 형태를 가지지만, 관점만 다릅니다.

직관적 예시: 동전을 던져서 앞면이 나올 확률이 p라고 합시다.
- 확률: p=0.5라고 정해졌을 때, 동전을 10번 던져 앞면이 7번 나올 확률은 얼마인가?
- 가능도: 동전을 10번 던졌더니 앞면이 7번 나왔다. 그렇다면 이 동전의 앞면 확률(p)이 0.5일 가능성은 얼마인가? 아니면 0.7일 가능성이 더 높은가?
(2) 로그 가능도 함수 (Log-Likelihood)
가능도함수 L(𝜃)는 확률들의 곱 형태로 정의되기 때문에, 데이터의 개수(n)가 많아지면 값이 0에 매우 가깝게 작아져서 계산이 어렵거나 컴퓨터에서 언더플로우(Underflow)가 발생할 수 있습니다.
따라서 계산의 편의성을 위해 양변에 자연로그(ln)를 취한 로그 가능도 함수를 주로 사용합니다.

- 로그 함수는 단조 증가 함수(Monotonically Increasing Function)이므로, L(𝜃)를 최대화하는 𝜃값과 l(𝜃)를 최대화하는 𝜃값은 동일합니다.
- 곱셈이 덧셈(∑)으로 바뀌어 미분 계산이 훨씬 수월해집니다.
(3) 최대가능도추정 (Maximum Likelihood Estimation, MLE)
3.1 정의
최대가능도추정법은 "관측된 데이터가 등장할 확률(가능도)을 최대화하는 모수 𝜃^를 찾는 방법"입니다. 즉, 현재의 데이터가 나올 가능성이 가장 높은 파라미터를 추정값으로 채택하는 것입니다.

3.2 계산 방법
일반적으로 로그 가능도 함수 l(𝜃)를 모수 𝜃에 대해 편미분한 뒤, 그 값이 0이 되는 지점을 찾습니다.

(4) 예제 (Examples)
예제 1: 베르누이 분포 (동전 던지기)
동전을 n번 던져서 앞면(x=1)이 k번 나오고, 뒷면(x=0)이 n-k번 나왔을 때, 앞면이 나올 확률 p를 추정해 봅시다.

결론: MLE로 추정한 확률은 우리가 직관적으로 생각하는 표본 비율(앞면 횟수/전체 횟수)과 일치합니다.
(5) 최대가능도추정량의 성질
데이터 샘플의 크기(n)가 커질수록 MLE는 다음과 같은 좋은 성질을 가집니다.
- 일치성 (Consistency): n → ∞ 일 때, 𝜃^MLE는 참값 𝜃로 수렴합니다.
- 점근적 정규성 (Asymptotic Normality): n이 충분히 크면, 𝜃^MLE의 분포는 정규분포에 근사합니다.
- 불변성 (Invariance Property): 𝜃^가 𝜃의 MLE라면, 함수 g(𝜃)의 MLE는 g(𝜃^)입니다.
(6) 세 가지 검정법
MLE의 성질을 이용하여 모수에 대한 가설을 검정하는 세 가지 방법이 있습니다.
1) 왈드 검정 (Wald Test):
- 직관: 수평축에서의 거리(추정값 B^)와 귀무가설 값(B0)의 차이를 봅니다.
- 단점: 표본이 작으면 표준오차 추정이 부정확하여 검정력이 낮을 수 있습니다.

2) 가능도비 검정 (Likelihood Ratio Test, LRT):
- 직관: 수직축에서의 거리(귀무가설과 대립가설 하에서의 로그-가능도 높이 차이)를 봅니다.
- 장점: 가장 강력하고 신뢰할 수 있으며, 범주형 자료분석의 표준 검정법입니다.

3) 스코어 검정 (Score Test):
- 직관: 귀무가설(B0) 위치에서의 접선의 기울기(Score)를 봅니다.
- 특징: MLE B^를 구할 필요 없이 귀무가설 하에서만 계산하면 되므로 계산이 간단합니다. (예: 피어슨 카이제곱 검정)


(7) 수치해석적 방법: 뉴턴-랩슨(Newton-Raphson)
로지스틱 회귀처럼 B가 닫힌 해(Closed-form)로 구해지지 않는 경우, 컴퓨터는 반복적(Iterative) 방법을 사용해 가능도함수의 꼭대기(최댓값)를 찾아갑니다.
- 스코어 함수(Score Function): 로그-가능도함수의 1차 도함수 (기울기)
- 정보 행렬(Information Matrix): 로그-가능도함수의 2차 도함수의 음수값 (곡률, 뾰족한 정도)
- 곡률이 클수록(그래프가 뾰족할수록) 분산이 작아져 추정의 정확도가 높다는 것을 의미합니다.
2️⃣ 분할표 분석
두 범주형 변수 X와 Y 사이의 관계를 파악할 때 가장 먼저 그리는 것이 분할표입니다.
1. 오즈(Odds)와 오즈비
- 오즈 (Odds): 성공 확률을 실패 확률로 나눈 값입니다.

- 오즈비 (Odds Ratio): 두 그룹 간 오즈의 비율입니다.

- 𝜃 = 1: 두 변수는 독립입니다. (X가 Y에 영향을 주지 않음)
- 𝜃 > 1: 1번 그룹의 성공 가능성이 더 높습니다.
- 특징: 2 X 2표에서 행과 열을 바꿔도 값은 유지되며, 표본 크기에 의존하지 않는 척도입니다.
2. 제3의 변수와 오즈비: 조건부 vs 주변 (Conditional vs Marginal)
현실 데이터에서는 두 변수(X, Y)의 관계를 분석할 때, 결과에 영향을 미치는 제3의 변수(Z, 층화변수 또는 혼란변수)가 존재하는 경우가 많습니다. 이때 데이터를 어떻게 보느냐에 따라 두 가지 오즈비가 도출됩니다.
(1) 부분표와 조건부 오즈비

제3의 변수 Z의 수준(level)을 고정한 상태에서 X와 Y의 관계를 보는 것입니다.
- 부분표: Z의 각 수준 k마다 만들어진 X와 Y의 분할표 (2 X 2 X k 구조).
- 조건부 오즈비 (𝜃XY(k)): Z=k인 층(layer) 내에서의 오즈비.

- 의미: "Z의 효과를 통제(Control)했을 때의 X와 Y의 순수한 연관성"입니다.
- 만약 모든 k에 대해 𝜃XY(k) = 1이라면, X와 Y는 조건부 독립입니다
(2) 주변표와 주변 오즈비
제3의 변수 Z를 무시하고(모든 k에 대해 합산하여), 전체 X와 Y만으로 만든 표입니다.
- 주변표: Z에 상관없이 전체 데이터를 합친 2X2 표.
- 주변 오즈비 (𝜃XY): 주변표에서 계산한 오즈비.
- 의미: "Z를 고려하지 않았을 때" X와 Y의 전반적인 연관성입니다.
(3) 심슨의 역설 (Simpson's Paradox)
매우 중요한 현상으로, 조건부 오즈비와 주변 오즈비의 방향이 정반대로 나타나는 경우를 말합니다.
- 예: 병원 A가 병원 B보다 전체 수술 성공률은 낮지만(주변 오즈비 < 1), 환자의 상태(중증/경증)를 나누어 보면 각 상태별로는 병원 A의 성공률이 더 높은 경우(조건부 오즈비 > 1).
- 교훈: 혼란변수(Z)가 존재할 때는 주변 오즈비만 보고 결론을 내리면 위험하며, 반드시 조건부 오즈비를 확인해야 합니다.
3. 독립성 검정
"두 변수가 서로 관계가 있는가?"를 검정할 때 사용합니다.
- 피어슨 카이제곱 검정 (X^2): 관측빈도와 기대빈도의 차이를 이용합니다. (스코어 검정의 일종)
- 가능도비 검정 (G^2): 이탈도(Deviance) 분석의 기초가 됩니다.
- 두 검정 모두 귀무가설 하에서 자유도가 (I-1)(J-1)인 카이제곱 분포를 따릅니다.
3️⃣ 일반화 선형모형(GLM)과 로지스틱 회귀
드디어 핵심입니다. 일반적인 선형 회귀(Y = BX + E)는 Y가 정규분포일 때만 적합합니다. Y가 0 또는 1인 이항분포를 따를 때는 일반화 선형모형(GLM) 프레임워크를 사용해야 합니다.
1. GLM의 3요소
- 확률 요소 (Random Component): 반응변수 Y의 분포 (여기서는 이항분포)
- 체계적 요소 (Systematic Component): 설명변수들의 선형 결합 (a + b1x1 + b2x2....)
- 연결 함수 (Link Function): Y의 기댓값 u와 선형 예측식을 연결하는 함수

2. 로지스틱 회귀모형의 식
성공 확률을 (ㅠ:pi)라고 할 때, 확률 자체는 0 ≤ ㅠ < 1 범위에 갇혀 있지만, 이를 로짓 변환하면 (-∞, ∞) 범위를 가지므로 선형 회귀식을 적용할 수 있습니다.

이를 확률에 대해 정리하면 S자 곡선(Sigmoid) 형태가 나옵니다.

3. 파라미터 B의 해석
- 부호의 의미:
- B > 0: x가 증가할수록 성공 확률이 증가합니다 (S자 곡선 상승).
- B < 0: x가 증가할수록 성공 확률이 감소합니다 (S자 곡선 하강).
- 승수 효과 (Multiplicative Effect)와 오즈비: 식의 양변에 지수(exp)를 취하면 해석이 명확해집니다.

- 핵심 해석: "x가 1단위 증가할 때, 성공의 오즈(Odds)는 e^B배 증가한다." = "로그 오즈가 B만큼 증가한다"
- 예를 들어 B = 0.7이라면, e^{0.7}는 대략 2.0이므로, x가 1 늘어날 때 성공할 오즈(가능성)이 2배 높아진다는 뜻입니다.
4. 로지스틱 회귀 추론
- 적합도 검정: 모형이 데이터를 얼마나 잘 설명하는지 보기 위해 G^2(이탈도)를 사용합니다. 포화모형(Saturated Model)과 비교하여 검정합니다.
- 유의성 검정: 특정 변수 x가 효과가 있는지 보려면 H0: B = 0을 검정합니다 (왈드 검정 또는 가능도비 검정 사용)
📍 요약
- 범주형 자료분석은 이항분포를 기초로 하며 최대가능도추정(MLE)을 통해 모수를 추정한다.
- 가능도함수를 최대화하기 위해 뉴턴-랩슨 같은 반복 알고리즘이 사용된다.
- 분할표 분석에서 가장 중요한 척도는 오즈비(Odds Ratio)이며, 이는 변수 간의 연관성을 나타낸다.
- B는 로그 오즈비를 의미하며, e^B는 x가 1단위 증가할 때 오즈의 증가 배수이다.
'Long-term Memory > Statistics' 카테고리의 다른 글
| [통계] 가설검정 (1) | 2026.01.17 |
|---|---|
| [통계] Confusion Matrix (0) | 2026.01.15 |
| [통계] 범주형자료분석 2 (1) | 2026.01.15 |
