[통계] 범주형자료분석 2

Notice

Recent Posts

Recent Comments

Link

Github

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

왕구아니다

[통계] 범주형자료분석 2 본문

Long-term Memory/Statistics

[통계] 범주형자료분석 2

Psalms 12:6-7 2026. 1. 15. 15:50

📝 "Alan Agresti의 <범주형 자료분석 개론>"을 기반으로 공부한 내용을 정리한 포스팅입니다!

4️⃣ 로지스틱 회귀

데이터 분석을 하다 보면 반응변수(Y)가 연속형이 아닌 범주형(Categorical)인 경우를 흔히 마주합니다. '성공/실패', '질병 유/무', '구매/비구매' 처럼 말이죠. 이때 가장 표준적으로 사용되는 방법이 바로 로지스틱 회귀입니다.

1. 왜 선형 회귀가 아닌 로지스틱 회귀인가?

반응변수 Y가 0(실패) 또는 1(성공)의 값을 갖는 이항변수라고 가정해 봅시다. 설명변수 x에 따른 Y=1일 확률을 π(x)라고 할 때, 우리가 흔히 아는 선형 확률 모형(Linear Probability Model)을 적용하면 다음과 같습니다.

하지만 이 모형은 치명적인 구조적 결함이 있습니다.

확률의 범위 위반: x가 매우 크거나 작으면 확률 π(x)가 0보다 작거나 1보다 커질 수 있습니다.
등분산성 위반: 이항분포의 분산은 π(x)(1-π(x))로 x에 따라 변하므로, 오차항의 등분산성 가정이 깨집니다.

따라서, 확률 π(x)가 항상 0과 1 사이에 존재하도록 S자 형태(Sigmoidal)의 곡선을 그리는 함수가 필요한데, 이것이 바로 로지스틱 회귀 모형입니다.

2. 로지스틱 회귀 모형의 구조

로지스틱 회귀함수는 다음과 같이 정의됩니다.

이 식은 비선형적이라 해석이 직관적이지 않습니다. 그래서 통계학에서는 이를 선형적으로 변환하기 위해 로짓(Logit) 변환을 사용합니다. 이것이 로지스틱 회귀의 선형 예측식(Linear Predictor) 형태입니다.

좌변의 π(x) / 1-π(x)는 오즈(Odds)입니다. 즉, 로지스틱 회귀는 x에 대해 로그 오즈(Log Odds)가 선형적으로 변하는 모형입니다.

3. 회귀계수 B의 해석: 오즈비(Odds Ratio)

로지스틱 회귀에서 가장 중요한 것은 B의 해석입니다. 선형 회귀처럼 "x가 1 증가하면 Y가 B만큼 증가한다"고 해석하면 틀립니다.

(1) 부호에 따른 해석

B > 0: x가 증가할수록 성공 확률 π(x)가 증가합니다 (S자 곡선 상승)
B < 0: x가 증가할수록 성공 확률 π(x)가 감소합니다
B = 0: x와 Y는 독립입니다 (곡선이 평평함)

(2) 오즈비(Odds Ratio)를 이용한 해석

식에서 x가 1단위 증가할 때, 로그 오즈는 B만큼 증가합니다. 이를 오즈(Odds) 관점에서 보면 다음과 같습니다.

해석: x가 1단위 증가할 때, 성공의 오즈(Odds)는 e^B배가 됩니다.
만약 B = 0.497이라면, e^{0.497}는 대략 1.64이므로, x가 1 증가할 때 성공할 오즈는 64% 증가한다고 해석합니다.

(3) 확률 근사를 이용한 해석

확률 π(x)가 0.5 근처일 때, x의 1단위 변화에 따른 확률의 순간 변화율은 대략 B / 4입니다. (선형 근사)

4. 다중 로지스틱 회귀 (Multiple Logistic Regression)

현실에서는 하나의 설명변수만 존재하지 않습니다. 여러 개의 설명변수(x_1, x_2, ...., x_k)가 있을 때 모형은 다음과 같이 확장됩니다.

(1) 부분 회귀계수의 해석 (Conditional Effect)

다중 로지스틱 회귀에서 B_i의 해석은 단순 회귀와 다릅니다.

e^{B_i}의 의미: "다른 모든 설명변수가 고정되어 있을 때", x_i가 1단위 증가하면 성공의 오즈가 e^{B_i}배가 된다는 뜻입니다.
이를 조건부 오즈비(Conditional Odds Ratio)라고 부르기도 합니다. 이는 다른 변수를 통제하지 않은 단순 오즈비(Marginal Odds Ratio)와 값이 다를 수 있으며, 심슨의 역설(Simpson's Paradox) 같은 현상이 발생할 수도 있습니다.

5. 범주형 설명변수와 가변수 (Dummy Variables)

설명변수 x가 연속형이 아니라 범주형(예: 색깔, 인종)일 경우, 지시 변수(Indicator Variable) 혹은 가변수를 사용하여 모형에 포함합니다.

만약 범주가 4개라면, 기준이 되는 범주(Reference Category) 하나를 제외하고 3개의 가변수가 필요합니다. Agresti 책의 투구게 예제에서 색깔(Color) 변수를 예로 들어봅시다. (색깔: 1=Light, 2=Medium light, 3=Medium dark, 4=Dark) 가장 어두운 색(4=Dark)을 기준 범주로 잡으면, 모델은 다음과 같습니다

이때 exp(B_1)은 너비(Width)가 같을 때, 어두운 색(Dark) 대비 밝은 색(Light) 투구게의 부수체 보유 오즈비를 의미합니다.

6. 상호작용 효과 (Interaction Effects)

설명변수 간의 관계가 서로 독립적이지 않을 수 있습니다. 예를 들어, "너비(Width)가 부수체 보유 확률에 미치는 영향이 색깔(Color)에 따라 달라지는가?"를 확인하고 싶다면 상호작용 항을 추가해야 합니다.

H0: B_3 = 0을 검정하여 상호작용의 유의성을 판단합니다.
B_3 ≠ 0이라면(상호작용 항이 존재한다), x_1의 효과는 x_2의 값에 따라 변하게 됩니다. 즉, 오즈비가 더 이상 상수가 아니라 x_2의 함수가 됩니다.
상호작용이 유의하지 않다면, 해석의 용이성을 위해 주효과(Main Effect)만 있는 모형을 선택하는 것이 일반적입니다 (Parsimony Principle).

7. 예제 분석 심화: 투구게 데이터

책에 나오는 투구게 데이터를 다중 로지스틱 회귀로 분석해 봅시다.

반응변수 (Y): 부수체 유무 (1=있음, 0=없음)
설명변수: 너비(Width, 양적 변수), 색깔(Color, 범주형 변수: Dark 기준)

적합된 모형이 다음과 같다고 가정해 봅시다.

해석

너비 효과 (B^width = 0.468): 색깔이 동일하다면, 너비가 1cm 증가할 때 부수체를 가질 오즈는 e^{0.468} 대략 1.60배 증가합니다.
색깔 효과:
- c_1(Light)의 계수는 1.33입니다. e^{1.33} 대략 3.78.
- 해석: 너비가 같다면, 밝은 색(Light) 게는 어두운 색(Dark, 기준범주) 게보다 부수체를 가질 오즈가 약 3.78배 높습니다.
결론: 단순히 너비만 고려했을 때보다, 색깔 정보까지 함께 고려하면 더 정교한 예측이 가능합니다. 실제로 밝은 색 게들이 더 매력적이어서 부수체가 많다는 생물학적 해석이 가능합니다.

8. 추론(Inference)

선형 회귀는 최소제곱법(LS)을 쓰지만, 로지스틱 회귀는 최대우도추정법(MLE, Maximum Likelihood Estimation)을 사용합니다.

(1) 왈드 검정 (Wald Test) - 개별 회귀계수 검정

표본이 클 때, 추정량 B^는 정규분포를 따릅니다.

가설: H0: B_k = 0
통계량: z = B^_k / SE(B^_k)
주의: B의 절댓값이 매우 크면 표준오차(SE)가 팽창하여 검정력이 낮아지는 단점이 있습니다.

(2) 가능도비 검정 (Likelihood Ratio Test, LRT) - 모형 비교

다중 회귀에서 "특정 변수 그룹(예: 색깔 관련 가변수 3개)"이 통계적으로 유의한지 검정할 때 필수적입니다.

완전 모형 (Full Model): 관심 있는 변수가 포함된 모형 (L_1)
축소 모형 (Reduced Model): 관심 있는 변수가 제거된 모형 (L_0)
검정통계량: -2(L_0 - L_1) = -2 \ln(L_0/L_1)
이 통계량은 제거된 변수의 개수를 자유도로 갖는 카이제곱 분포를 따릅니다.
Tip: 왈드 검정보다 LRT가 더 신뢰성이 높으므로, 변수 선택 시에는 가급적 LRT를 사용하세요.

📍 요약 및 결론

이항 반응변수에는 S자 곡선을 그리는 로지스틱 회귀를 사용하며, 이는 로그 오즈에 대한 선형 모형이다.
B의 지수승(e^B)은 오즈비(Odds Ratio)로 해석된다. (가장 중요!)
다중 로지스틱 회귀에서는 "다른 변수가 고정된 상태"에서의 효과를 나타낸다.
범주형 변수는 가변수(Dummy Variable)로 처리하며, 기준 범주 대비 효과로 해석한다.
모형의 유의성 검정이나 변수 선택에는 가능도비 검정(LRT)이 왈드 검정보다 선호된다.

로지스틱 회귀는 의학(생존분석), 마케팅(고객 이탈 예측), 사회과학 등 모든 분야에서 범주형 데이터를 다룰 때 가장 기본이 되는 도구입니다.

5️⃣ 모형 선택

단순히 모델을 적합(Fitting)시켰다고 끝난 것이 아닙니다.

"변수가 10개인데 다 써야 할까?"
"내가 만든 모델이 데이터를 잘 설명하고 있나?"
"이상치(Outlier)가 결과를 왜곡하진 않았나?"

통계학의 핵심인 모델 선택 기준(AIC, BIC)부터 모형 진단(Goodness-of-Fit)까지 꼼꼼하게 정리해 봅니다.

1. 모델 선택 (Model Selection): "가장 좋은 모델 찾기"

모델 선택의 핵심 철학은 절약의 원칙(Parsimony)입니다. "현상을 설명하는 가장 단순한 모델이 가장 좋다"는 뜻이죠. 변수를 많이 넣으면 적합도(Fit)는 좋아지지만, 복잡도가 늘어나 오버피팅(Overfitting) 위험이 커집니다. 이를 조율하는 지표들이 필요합니다.

(1) 가능도비 검정 (Likelihood Ratio Test, LRT)

가장 기본이 되는 방법입니다.

방법: 변수가 포함된 '완전 모형'과 변수가 제거된 '축소 모형'의 이탈도(Deviance) 차이를 비교합니다.
한계: 내포된(Nested) 모형끼리만 비교할 수 있습니다. (예: X_1, X_2 모델 vs X_1 모델)

(2) AIC (Akaike Information Criterion)

내포되지 않은 모형끼리도 비교할 수 있는 가장 대중적인 지표입니다.

L: 모델의 최대 우도(Maximum Likelihood) 값 (적합도 반영)
k: 모델에 포함된 파라미터의 개수 (복잡도 반영, 페널티 항)

[해석]

-2 ln(L)은 모델이 데이터를 얼마나 잘 설명하는지(낮을수록 좋음)를 나타냅니다.
2k는 변수를 많이 쓸수록 벌점(Penalty)을 부과합니다.
결론: AIC 값이 가장 작은 모델이 예측력과 단순함의 균형이 가장 잘 잡힌 모델입니다.

(3) BIC (Bayesian Information Criterion)

AIC와 비슷하지만 페널티 항이 다릅니다.

n: 표본의 크기 (Sample Size)

[AIC vs BIC 차이점]

BIC는 페널티 항에 ln(n)이 붙습니다. 보통 n이 8 이상이면 ln(n) > 2이므로, BIC가 변수 추가에 대해 AIC보다 훨씬 엄격한 벌점을 줍니다.
즉, BIC는 더 단순한 모델(변수가 적은 모델)을 선호하는 경향이 있습니다.

💡 [Comparison] 통계학 vs 머신러닝(ML)

Q. 머신러닝에서도 AIC/BIC를 쓰나요?

통계학: 전체 데이터를 사용하여 모델을 만들고, AIC/BIC 같은 '내부적 기준(In-sample criteria)'으로 모델을 선택합니다. 이론적 타당성과 설명력을 중시하기 때문입니다.
머신러닝: 데이터를 Train/Test로 나누고, 교차 검증(Cross-Validation)을 통해 '외부적 예측력'을 측정합니다.
연관성: 머신러닝의 정규화(Regularization, L1/L2)가 AIC/BIC의 '페널티 항(2k)'과 같은 역할을 합니다. 모델이 너무 복잡해지는 것을 막아준다는 점에서 철학은 같습니다.

2. 변수 선택 알고리즘 (Stepwise Selection)

변수가 수십 개일 때, 모든 조합을 다 해볼 순 없습니다. 이때 사용하는 것이 단계적 선택법입니다.

후진 제거법 (Backward Elimination): 모든 변수를 넣고 시작해서, p-value가 가장 크거나 AIC를 가장 많이 낮추는 변수를 하나씩 뺍니다. (일반적으로 선호됨)
전진 선택법 (Forward Selection): 변수 없이 시작해서, 가장 유의한 변수를 하나씩 추가합니다.

3. 모형 적합도 검정 (Goodness-of-Fit)

모델을 선택했다면, 그 모델이 데이터를 잘 설명하는지(Good Fit) 확인해야 합니다.

(1) 피어슨 X^2 통계량과 이탈도(Deviance, G^2)

관측된 빈도(Observed)와 모델이 예측한 빈도(Fitted)의 차이를 이용합니다.

귀무가설(H0): 모형이 데이터에 적합하다.
p-value > 0.05 여야 "적합하다"고 판단합니다. (기각하지 않아야 좋음)

(2) 그룹화된 자료 vs 그룹화되지 않은 자료

그룹화된 자료 (Grouped Data): 같은 x값을 가진 관측치가 여러 개 묶여 있는 경우 (예: 투구게 너비가 25cm인 게가 10마리). x^2 검정이 잘 작동합니다.
그룹화되지 않은 자료 (Ungrouped Data): Y가 0 또는 1인 개별 데이터(베르누이 시행)가 나열된 경우. 이때는 G^2 분포가 카이제곱 분포를 따르지 않아 검정 결과가 부정확합니다.

(3) 호스머-레쇼 검정 (Hosmer-Lemeshow Test)

그룹화되지 않은 자료에서 적합도를 검정하기 위해 고안된 방법입니다.

방법: 예측 확률(π(x))을 기준으로 데이터를 10개 그룹으로 나눕니다.
각 그룹 내에서 관측된 성공 횟수와 예측된 성공 횟수를 비교합니다.
ML과의 연결: ML에서 사용하는 보정 곡선(Calibration Curve)과 아이디어가 같습니다. 모델이 "확률 70%"라고 뱉었을 때, 실제로 그 집단의 70%가 성공했는지 확인하는 것입니다.

4. 잔차 분석과 영향력 진단 (Residuals & Diagnostics)

모델 전체가 아니라, 개별 데이터 포인트가 모델에 미치는 영향을 봅니다.

피어슨 잔차 (Pearson Residual): 관측값과 예측값의 차이를 표준편차로 나눈 값입니다. 절댓값이 3 이상이면 이상치(Outlier)일 가능성이 큽니다.
Dfbeta: 특정 관측치를 제외했을 때 회귀계수(B)가 얼마나 변하는지 측정합니다.
Leverage (레버리지): 설명변수 x 공간에서 특정 데이터가 얼마나 중심에서 떨어져 있는지(영향력이 큰지) 봅니다.

5. 무한대 추정치 문제 (Infinite Parameter Estimates) - '완전 분리'

가끔 로지스틱 회귀를 돌리면 표준오차(SE)가 수천, 수만으로 폭발하는 경우가 있습니다.

원인: 완전 분리(Perfect Separation). 특정 설명변수 x가 성공(1)과 실패(0)를 완벽하게 구분해버릴 때 발생합니다.
- 예: x > 50이면 모두 성공, x ≤ 50이면 모두 실패.
결과: 이때 B의 최우추정치(MLE)는 무한대(∞)로 발산합니다.
해결책:
1. 해당 변수를 제거하거나 카테고리를 합칩니다.
2. 벌점화된 가능도(Penalized Likelihood) 방법을 사용합니다. (Firth의 방법 등)
3. ML 관점: 이것은 전형적인 과적합(Overfitting) 상황입니다. ML에서는 L2 규제(Ridge Regression)를 통해 가중치(w)가 무한대로 커지는 것을 막습니다.

📍 요약 및 정리

모델 선택: 무조건 복잡한 모델이 좋은 게 아니다. AIC/BIC를 통해 설명력과 단순함의 균형을 찾아라.
적합도 검정: 데이터가 그룹화되지 않았다면 단순 G^2 검정 대신 호스머-레쇼 검정을 사용해라.
진단: 잔차와 영향력 관측치(Dfbeta)를 확인하여 데이터 오류나 특이점을 찾아라.
완전 분리: 에러가 났을 때 당황하지 말고 데이터가 완벽하게 분리되었는지 확인하고, 규제(Regularization) 기법을 떠올려라.

통계학의 모델링은 단순히 "예측률 90% 달성!"이 목표가 아닙니다. "왜 그런 결과가 나왔는지 설명 가능하고, 새로운 데이터에도 안정적인가?"를 증명하는 과정입니다.

'Long-term Memory > Statistics' 카테고리의 다른 글

[통계] 가설검정 (1)	2026.01.17
[통계] Confusion Matrix (0)	2026.01.15
[통계] 범주형자료분석 1 (0)	2026.01.14

'Long-term Memory/Statistics' Related Articles

왕구아니다

[통계] 범주형자료분석 2 본문

[통계] 범주형자료분석 2

4️⃣ 로지스틱 회귀

1. 왜 선형 회귀가 아닌 로지스틱 회귀인가?

2. 로지스틱 회귀 모형의 구조

3. 회귀계수 B의 해석: 오즈비(Odds Ratio)

(1) 부호에 따른 해석

(2) 오즈비(Odds Ratio)를 이용한 해석

(3) 확률 근사를 이용한 해석

4. 다중 로지스틱 회귀 (Multiple Logistic Regression)

(1) 부분 회귀계수의 해석 (Conditional Effect)

5. 범주형 설명변수와 가변수 (Dummy Variables)

6. 상호작용 효과 (Interaction Effects)

7. 예제 분석 심화: 투구게 데이터

해석

8. 추론(Inference)

(1) 왈드 검정 (Wald Test) - 개별 회귀계수 검정

(2) 가능도비 검정 (Likelihood Ratio Test, LRT) - 모형 비교

📍 요약 및 결론

5️⃣ 모형 선택

1. 모델 선택 (Model Selection): "가장 좋은 모델 찾기"

(1) 가능도비 검정 (Likelihood Ratio Test, LRT)

(2) AIC (Akaike Information Criterion)

(3) BIC (Bayesian Information Criterion)

💡 [Comparison] 통계학 vs 머신러닝(ML)

2. 변수 선택 알고리즘 (Stepwise Selection)

3. 모형 적합도 검정 (Goodness-of-Fit)

(1) 피어슨 X^2 통계량과 이탈도(Deviance, G^2)

(2) 그룹화된 자료 vs 그룹화되지 않은 자료

(3) 호스머-레쇼 검정 (Hosmer-Lemeshow Test)

4. 잔차 분석과 영향력 진단 (Residuals & Diagnostics)

5. 무한대 추정치 문제 (Infinite Parameter Estimates) - '완전 분리'

📍 요약 및 정리

'Long-term Memory > Statistics' 카테고리의 다른 글

티스토리툴바