[통계] 범주형자료분석 1

Notice

Recent Posts

Recent Comments

Link

Github

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

왕구아니다

[통계] 범주형자료분석 1 본문

Long-term Memory/Statistics

[통계] 범주형자료분석 1

Psalms 12:6-7 2026. 1. 14. 15:43

📝 "Alan Agresti의 <범주형 자료분석 개론>"을 기반으로 공부한 내용을 정리한 포스팅입니다!

1️⃣ 범주형 자료와 추론의 기초

1. 반응변수의 척도 (Scale)

분석 방법을 결정하는 가장 첫 단계는 자료의 형태를 파악하는 것입니다.

명목형 (Nominal): 순서가 없는 범주 (예: 혈액형, 선호하는 정당)
순서형 (Ordinal): 순서가 있는 범주 (예: 환자의 회복 정도, 설문조사의 만족도)
- Tip: 순서형 자료를 명목형처럼 분석하면 검정력이 떨어지므로 주의해야 합니다.

2. 확률 분포 (Probability Distributions)

범주형 자료분석의 핵심 분포는 두 가지입니다.

이항 분포 (Binomial Distribution): 범주가 2개(성공/실패)일 때 사용합니다. n번의 시행 중 성공 횟수의 분포입니다.

다항 분포 (Multinomial Distribution): 범주가 3개 이상일 때 사용합니다. (예: 정당 지지도 A/B/C)

3. 최대가능도추정(MLE)과 추론

범주형 자료분석에서 모수 추정의 핵심은 최대가능도추정(Maximum Likelihood Estimation, MLE)입니다.

(1) 가능도함수(Likelihood Function)란?

1.1 기본 개념 및 정의

우리가 흔히 접하는 확률(Probability)은 '모수(파라미터)가 주어졌을 때, 특정한 데이터가 관측될 확률'을 의미합니다. 반면, 가능도(Likelihood)는 '데이터가 주어졌을 때, 이 데이터가 특정 모수로부터 나왔을 가능성'을 나타냅니다.

확률 밀도 함수 (pdf):
- 𝜃가 고정되어 있고, x가 변수일 때 (데이터의 분포를 설명)
가능도 함수:
- x가 고정(관측된 데이터)되어 있고, 𝜃가 변수일 때 (모수에 대한 함수)

데이터 집합 X = {x_1, x_2, ..., x_n}이 서로 독립이고 동일한 분포(i.i.d.)를 따른다고 가정할 때, 가능도함수는 결합확률밀도함수(joint pdf)와 같은 형태를 가지지만, 관점만 다릅니다.

직관적 예시: 동전을 던져서 앞면이 나올 확률이 p라고 합시다.

확률: p=0.5라고 정해졌을 때, 동전을 10번 던져 앞면이 7번 나올 확률은 얼마인가?

가능도: 동전을 10번 던졌더니 앞면이 7번 나왔다. 그렇다면 이 동전의 앞면 확률(p)이 0.5일 가능성은 얼마인가? 아니면 0.7일 가능성이 더 높은가?

(2) 로그 가능도 함수 (Log-Likelihood)

가능도함수 L(𝜃)는 확률들의 곱 형태로 정의되기 때문에, 데이터의 개수(n)가 많아지면 값이 0에 매우 가깝게 작아져서 계산이 어렵거나 컴퓨터에서 언더플로우(Underflow)가 발생할 수 있습니다.

따라서 계산의 편의성을 위해 양변에 자연로그(ln)를 취한 로그 가능도 함수를 주로 사용합니다.

로그 함수는 단조 증가 함수(Monotonically Increasing Function)이므로, L(𝜃)를 최대화하는 𝜃값과 l(𝜃)를 최대화하는 𝜃값은 동일합니다.
곱셈이 덧셈(∑)으로 바뀌어 미분 계산이 훨씬 수월해집니다.

(3) 최대가능도추정 (Maximum Likelihood Estimation, MLE)

3.1 정의

최대가능도추정법은 "관측된 데이터가 등장할 확률(가능도)을 최대화하는 모수 𝜃^를 찾는 방법"입니다. 즉, 현재의 데이터가 나올 가능성이 가장 높은 파라미터를 추정값으로 채택하는 것입니다.

3.2 계산 방법

일반적으로 로그 가능도 함수 l(𝜃)를 모수 𝜃에 대해 편미분한 뒤, 그 값이 0이 되는 지점을 찾습니다.

(4) 예제 (Examples)

예제 1: 베르누이 분포 (동전 던지기)

동전을 n번 던져서 앞면(x=1)이 k번 나오고, 뒷면(x=0)이 n-k번 나왔을 때, 앞면이 나올 확률 p를 추정해 봅시다.

결론: MLE로 추정한 확률은 우리가 직관적으로 생각하는 표본 비율(앞면 횟수/전체 횟수)과 일치합니다.

(5) 최대가능도추정량의 성질

데이터 샘플의 크기(n)가 커질수록 MLE는 다음과 같은 좋은 성질을 가집니다.

일치성 (Consistency): n → ∞ 일 때, 𝜃^MLE는 참값 𝜃로 수렴합니다.
점근적 정규성 (Asymptotic Normality): n이 충분히 크면, 𝜃^MLE의 분포는 정규분포에 근사합니다.
불변성 (Invariance Property): 𝜃^가 𝜃의 MLE라면, 함수 g(𝜃)의 MLE는 g(𝜃^)입니다.

(6) 세 가지 검정법

MLE의 성질을 이용하여 모수에 대한 가설을 검정하는 세 가지 방법이 있습니다.

1) 왈드 검정 (Wald Test):

직관: 수평축에서의 거리(추정값 B^)와 귀무가설 값(B0)의 차이를 봅니다.
단점: 표본이 작으면 표준오차 추정이 부정확하여 검정력이 낮을 수 있습니다.

2) 가능도비 검정 (Likelihood Ratio Test, LRT):

직관: 수직축에서의 거리(귀무가설과 대립가설 하에서의 로그-가능도 높이 차이)를 봅니다.
장점: 가장 강력하고 신뢰할 수 있으며, 범주형 자료분석의 표준 검정법입니다.

3) 스코어 검정 (Score Test):

직관: 귀무가설(B0) 위치에서의 접선의 기울기(Score)를 봅니다.
특징: MLE B^를 구할 필요 없이 귀무가설 하에서만 계산하면 되므로 계산이 간단합니다. (예: 피어슨 카이제곱 검정)

(7) 수치해석적 방법: 뉴턴-랩슨(Newton-Raphson)

로지스틱 회귀처럼 B가 닫힌 해(Closed-form)로 구해지지 않는 경우, 컴퓨터는 반복적(Iterative) 방법을 사용해 가능도함수의 꼭대기(최댓값)를 찾아갑니다.

스코어 함수(Score Function): 로그-가능도함수의 1차 도함수 (기울기)
정보 행렬(Information Matrix): 로그-가능도함수의 2차 도함수의 음수값 (곡률, 뾰족한 정도)
- 곡률이 클수록(그래프가 뾰족할수록) 분산이 작아져 추정의 정확도가 높다는 것을 의미합니다.

2️⃣ 분할표 분석

두 범주형 변수 X와 Y 사이의 관계를 파악할 때 가장 먼저 그리는 것이 분할표입니다.

1. 오즈(Odds)와 오즈비

오즈 (Odds): 성공 확률을 실패 확률로 나눈 값입니다.

오즈비 (Odds Ratio): 두 그룹 간 오즈의 비율입니다.

𝜃 = 1: 두 변수는 독립입니다. (X가 Y에 영향을 주지 않음)
𝜃 > 1: 1번 그룹의 성공 가능성이 더 높습니다.
특징: 2 X 2표에서 행과 열을 바꿔도 값은 유지되며, 표본 크기에 의존하지 않는 척도입니다.

2. 제3의 변수와 오즈비: 조건부 vs 주변 (Conditional vs Marginal)

현실 데이터에서는 두 변수(X, Y)의 관계를 분석할 때, 결과에 영향을 미치는 제3의 변수(Z, 층화변수 또는 혼란변수)가 존재하는 경우가 많습니다. 이때 데이터를 어떻게 보느냐에 따라 두 가지 오즈비가 도출됩니다.

(1) 부분표와 조건부 오즈비

제3의 변수 Z의 수준(level)을 고정한 상태에서 X와 Y의 관계를 보는 것입니다.

부분표: Z의 각 수준 k마다 만들어진 X와 Y의 분할표 (2 X 2 X k 구조).
조건부 오즈비 (𝜃XY(k)): Z=k인 층(layer) 내에서의 오즈비.

의미: "Z의 효과를 통제(Control)했을 때의 X와 Y의 순수한 연관성"입니다.
만약 모든 k에 대해 𝜃XY(k) = 1이라면, X와 Y는 조건부 독립입니다

(2) 주변표와 주변 오즈비

제3의 변수 Z를 무시하고(모든 k에 대해 합산하여), 전체 X와 Y만으로 만든 표입니다.

주변표: Z에 상관없이 전체 데이터를 합친 2X2 표.
주변 오즈비 (𝜃XY): 주변표에서 계산한 오즈비.
- 의미: "Z를 고려하지 않았을 때" X와 Y의 전반적인 연관성입니다.

(3) 심슨의 역설 (Simpson's Paradox)

매우 중요한 현상으로, 조건부 오즈비와 주변 오즈비의 방향이 정반대로 나타나는 경우를 말합니다.

예: 병원 A가 병원 B보다 전체 수술 성공률은 낮지만(주변 오즈비 < 1), 환자의 상태(중증/경증)를 나누어 보면 각 상태별로는 병원 A의 성공률이 더 높은 경우(조건부 오즈비 > 1).
교훈: 혼란변수(Z)가 존재할 때는 주변 오즈비만 보고 결론을 내리면 위험하며, 반드시 조건부 오즈비를 확인해야 합니다.

3. 독립성 검정

"두 변수가 서로 관계가 있는가?"를 검정할 때 사용합니다.

피어슨 카이제곱 검정 (X^2): 관측빈도와 기대빈도의 차이를 이용합니다. (스코어 검정의 일종)
가능도비 검정 (G^2): 이탈도(Deviance) 분석의 기초가 됩니다.
- 두 검정 모두 귀무가설 하에서 자유도가 (I-1)(J-1)인 카이제곱 분포를 따릅니다.

3️⃣ 일반화 선형모형(GLM)과 로지스틱 회귀

드디어 핵심입니다. 일반적인 선형 회귀(Y = BX + E)는 Y가 정규분포일 때만 적합합니다. Y가 0 또는 1인 이항분포를 따를 때는 일반화 선형모형(GLM) 프레임워크를 사용해야 합니다.

1. GLM의 3요소

확률 요소 (Random Component): 반응변수 Y의 분포 (여기서는 이항분포)
체계적 요소 (Systematic Component): 설명변수들의 선형 결합 (a + b1x1 + b2x2....)
연결 함수 (Link Function): Y의 기댓값 u와 선형 예측식을 연결하는 함수

2. 로지스틱 회귀모형의 식

성공 확률을 (ㅠ:pi)라고 할 때, 확률 자체는 0 ≤ ㅠ < 1 범위에 갇혀 있지만, 이를 로짓 변환하면 (-∞, ∞) 범위를 가지므로 선형 회귀식을 적용할 수 있습니다.

이를 확률에 대해 정리하면 S자 곡선(Sigmoid) 형태가 나옵니다.

3. 파라미터 B의 해석

부호의 의미:
- B > 0: x가 증가할수록 성공 확률이 증가합니다 (S자 곡선 상승).
- B < 0: x가 증가할수록 성공 확률이 감소합니다 (S자 곡선 하강).
승수 효과 (Multiplicative Effect)와 오즈비: 식의 양변에 지수(exp)를 취하면 해석이 명확해집니다.

핵심 해석: "x가 1단위 증가할 때, 성공의 오즈(Odds)는 e^B배 증가한다." = "로그 오즈가 B만큼 증가한다"
예를 들어 B = 0.7이라면, e^{0.7}는 대략 2.0이므로, x가 1 늘어날 때 성공할 오즈(가능성)이 2배 높아진다는 뜻입니다.

4. 로지스틱 회귀 추론

적합도 검정: 모형이 데이터를 얼마나 잘 설명하는지 보기 위해 G^2(이탈도)를 사용합니다. 포화모형(Saturated Model)과 비교하여 검정합니다.
유의성 검정: 특정 변수 x가 효과가 있는지 보려면 H0: B = 0을 검정합니다 (왈드 검정 또는 가능도비 검정 사용)

📍 요약

범주형 자료분석은 이항분포를 기초로 하며 최대가능도추정(MLE)을 통해 모수를 추정한다.
가능도함수를 최대화하기 위해 뉴턴-랩슨 같은 반복 알고리즘이 사용된다.
분할표 분석에서 가장 중요한 척도는 오즈비(Odds Ratio)이며, 이는 변수 간의 연관성을 나타낸다.
B는 로그 오즈비를 의미하며, e^B는 x가 1단위 증가할 때 오즈의 증가 배수이다.

'Long-term Memory > Statistics' 카테고리의 다른 글

[통계] 가설검정 (1)	2026.01.17
[통계] Confusion Matrix (0)	2026.01.15
[통계] 범주형자료분석 2 (1)	2026.01.15

'Long-term Memory/Statistics' Related Articles

왕구아니다

[통계] 범주형자료분석 1 본문

[통계] 범주형자료분석 1

1️⃣ 범주형 자료와 추론의 기초

1. 반응변수의 척도 (Scale)

2. 확률 분포 (Probability Distributions)

3. 최대가능도추정(MLE)과 추론

(1) 가능도함수(Likelihood Function)란?

1.1 기본 개념 및 정의

(2) 로그 가능도 함수 (Log-Likelihood)

(3) 최대가능도추정 (Maximum Likelihood Estimation, MLE)

3.1 정의

3.2 계산 방법

(4) 예제 (Examples)

예제 1: 베르누이 분포 (동전 던지기)

(5) 최대가능도추정량의 성질

(6) 세 가지 검정법

(7) 수치해석적 방법: 뉴턴-랩슨(Newton-Raphson)

2️⃣ 분할표 분석

1. 오즈(Odds)와 오즈비

2. 제3의 변수와 오즈비: 조건부 vs 주변 (Conditional vs Marginal)

(1) 부분표와 조건부 오즈비

(2) 주변표와 주변 오즈비

(3) 심슨의 역설 (Simpson's Paradox)

3. 독립성 검정

3️⃣ 일반화 선형모형(GLM)과 로지스틱 회귀

1. GLM의 3요소

2. 로지스틱 회귀모형의 식

3. 파라미터 B의 해석

4. 로지스틱 회귀 추론

📍 요약

'Long-term Memory > Statistics' 카테고리의 다른 글

티스토리툴바