| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- Algorithm
- COT
- LLM
- Document Augmentation
- GPT
- coding test
- SFT
- Statistics
- Embedding
- 파인튜닝
- NLP
- Noise
- Baekjoon
- odds
- Transformer
- moe
- Retriever
- Python
- DyPRAG
- qwen
- fine-tuning
- reranking
- lora
- Hallucination
- Do it
- DPO
- retrieval
- Parametric RAG
- Noise Robustness
- RAG
- Today
- Total
왕구아니다
[딥러닝] LLM의 목적함수 본문
💬 논문 읽으며 스스로 부족한 부분을 정리한 포스팅입니다!
딥러닝, 특히 언어모델을 공부하다 보면 거의 항상 마주치는 수식이 있다. 바로 “다음 토큰 확률을 최대화하는 목적함수”다. 논문에서 자주 등장하는 두 가지 형태의 식은 다음과 같다.
1) 일반적인 언어모델 학습 식

https://wanggyuuu.tistory.com/7
[논문 리뷰] LoRA: Low-Rank Adaptation of Large Language Models
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~Preview- 이 논문은
wanggyuuu.tistory.com
2) Fine-tuning / Adapter 학습 식

https://wanggyuuu.tistory.com/13
[논문 리뷰] Parametric Retrieval Augmented Generation
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~Preview- 문서를 입
wanggyuuu.tistory.com
딥러닝, 특히 Large Language Model(LLM)을 공부하다 보면 수없이 마주치는 수식이 하나 있습니다. 바로 "다음 토큰 확률을 최대화하는 목적함수"입니다.
논문들을 읽다 보면 이 목적함수가 상황에 따라 조금씩 다른 기호로 표현되곤 합니다. 예를 들어, 일반적인 Pre-training/SFT 논문과 LoRA 같은 PEFT(Parameter-Efficient Fine-Tuning) 논문에서 등장하는 수식은 겉보기에 달라 보일 수 있습니다. "어? 둘 다 Next Token Prediction인데 뭐가 다른 거지?" 이 질문에 대한 답을 찾기 위해, 단순한 직관을 넘어 수식 뒤에 숨겨진 통계적 의미와 최적화 관점에서의 차이를 생각해보겠습니다.
1️⃣ 두 목적함수는 무엇을 의미하는가?

첫 번째 식: 일반 언어모델 학습
이 식은 전형적인 언어모델 / seq2seq 모델 학습 목적함수다. 의미를 풀면 다음과 같다.
- 데이터: (x, y) 쌍
- x: 입력 문장, 프롬프트
- y: 정답 출력 시퀀스
- 목표
- “정답 토큰 y_t가 나올 확률을 최대화하라”
즉, 모델 파라미터 Φ를 조정해서 정답 문장 y 전체가 나올 확률을 최대화한다. 이 식은 Pretraining, Translation, Summarization, Supervised fine-tuning 모두에서 사용되는 기본 언어모델 학습 식이다.
두 번째 식: Fine-tuning / LoRA / Adapter 학습

이 식은 최근 논문들, 특히 Instruction tuning, Domain adaptation, Adapter / LoRA, RAG 기반 fine-tuning 에서 자주 등장한다. 여기서 중요한 차이는 최적화 대상이다.
- 기존 모델 파라미터: θ (고정)
- 업데이트 파라미터: Δθ (학습 대상)
즉, “전체 모델을 학습하는 게 아니라, 기존 모델 θ 위에 작은 업데이트 Δθ만 학습한다” 이게 바로 Parameter-Efficient Fine-Tuning(PEFT) 구조다.
2️⃣ 두 식은 수학적으로 같은 목적함수다
겉보기엔 다르게 생겼지만, 핵심은 동일하다. 이는 수학적으로 완전히 같은 문제다. 결국 차이는 수학적 수식이 아니라 학습 설정이다.

- Next Token Prediction: 다음 토큰을 맞춘다.
- MLE (Maximum Likelihood Estimation): 정답 데이터의 확률을 최대화한다.
- Cross-Entropy Minimization: 모델 분포와 데이터 분포의 차이를 줄인다.
차이는 오직 "어떤 파라미터 공간(Parameter Space)을 탐색할 것인가?"라는 최적화의 제약 조건(Constraint)에 있습니다.

3️⃣ 왜 '다음 토큰 예측'인가? (MLE와 Chain Rule)
https://wanggyuuu.tistory.com/18
[통계] 범주형자료분석 1
📝 "Alan Agresti의 "을 기반으로 공부한 내용을 정리한 포스팅입니다!1️⃣ 범주형 자료와 추론의 기초1. 반응변수의 척도 (Scale)분석 방법을 결정하는 가장 첫 단계는 자료의 형태를 파악하는 것입
wanggyuuu.tistory.com
이 지점에서 근본적인 질문을 던져봅시다. 우리는 "문장"을 생성하고 싶은데, 왜 "토큰" 단위로 확률을 쪼개서 계산할까요? 이는 통계학의 Chain Rule(연쇄 법칙) 때문입니다.
언어 모델의 목표: 결합 확률 분포(Joint Probability)의 추정
언어 모델링의 궁극적인 목표는 자연어 문장 X = (x_1, x_2, ..., x_T)가 자연스러운 문장일 확률 P(X)를 모델링하는 것입니다. 이를 통계적으로는 결합 확률 P(x_1, x_2, ..., x_T)를 구하는 문제로 정의합니다.
하지만 T개의 변수가 얽힌 고차원의 결합 확률을 직접 모델링하는 것은 불가능에 가깝습니다. 여기서 확률의 연쇄 법칙(Chain Rule of Probability)이 등장합니다.

우리가 사용하는 Autoregressive Transformer(GPT 계열)는 바로 이 수식을 신경망으로 구현한 것입니다. 즉, "Next Token Prediction"은 단순한 테크닉이 아니라, 고차원 결합 확률 분포를 계산 가능한 조건부 확률들의 곱으로 분해한 수학적 필연입니다.
곱셈에서 덧셈으로: 로그 가능도(Log-Likelihood)
하지만 실제 모델을 학습할 때는 이 확률들의 곱을 그대로 사용하지 않고, 양변에 자연로그(log)를 취해 합의 형태로 변환합니다.

왜 굳이 로그를 씌워서 식을 바꿀까요? 여기에는 계산상의 치명적인 문제를 해결하기 위한 두 가지 이유가 있습니다.
- 언더플로우(Underflow) 방지: 확률값(P)은 항상 0과 1 사이의 소수입니다. 문장이 길어져서 수십, 수백 개의 0.xxx 값을 계속 곱하면, 그 값은 0에 무한히 가까워져 컴퓨터가 표현할 수 있는 한계를 넘어버립니다(Underflow). 로그를 취하면 아주 작은 곱셈이 "음수의 덧셈"으로 바뀌어 숫자가 안정적으로 유지됩니다.
- 미분 계산의 효율성: 딥러닝은 역전파(Backpropagation)를 통해 미분값을 구해야 합니다. 곱셈으로 연결된 식을 미분하려면 복잡한 곱의 미분법을 써야 하지만, 덧셈 식은 각 항을 따로 미분하면 되므로 계산이 훨씬 간단하고 빠릅니다.
4️⃣ 학습의 본질: KL Divergence와 Cross-Entropy
우리는 모델을 학습시킬 때 Negative Log-Likelihood (NLL)를 최소화합니다.

💡 잠깐! 왜 Max가 아니라 Min인가요?
"확률을 높여야(Max) 하는데 왜 식에서는 최소화(Min)한다고 할까요?" 이유는 두 가지입니다.
- 로그(Log)의 마법: 확률값은 0과 1 사이(0 < P < 1)이므로, 여기에 로그를 취하면 음수(-∞ < log P < 0)가 됩니다.
- 경사 하강법(Gradient Descent): 딥러닝에서 사용하는 최적화 알고리즘(SGD, Adam 등)은 기본적으로 Loss(손실)를 줄이는 방향, 즉 산을 내려가는(Min) 방식으로 설계되어 있습니다.
따라서 "확률의 최대화"를 "음의 로그 확률(Negative Log-Likelihood)의 최소화"로 문제를 뒤집어서 푸는 것입니다. 수학적으로 두 문제는 완전히 동일합니다.

이 식이 왜 타당할까요? 이를 정보 이론 관점에서 해석하면 "진짜 언어의 분포와 모델이 생각하는 분포 사이의 거리"를 좁히는 과정이기 때문입니다.
KL Divergence (쿨백-라이블러 발산)
이상적인 자연어의 분포를 P_{data}, 우리 모델의 분포를 P_{θ}라고 할 때, 두 분포의 차이는 KL Divergence로 정의됩니다.

이를 로그의 성질을 이용해 분해하면 다음과 같습니다.

여기서 앞부분인 데이터의 엔트로피 H(P_{data})는 우리가 바꿀 수 없는 상수입니다. (데이터셋이 정해지면 고정됨). 따라서 KL Divergence를 최소화하는 것은, 뒷부분인 Cross-Entropy를 최소화하는 것과 수학적으로 동치가 됩니다.

결국 우리가 loss.backward()를 하는 행위는, 모델의 확률 분포 P_{θ}를 실제 데이터의 분포 P_{data}쪽으로 '밀어 넣는' 과정인 것입니다.
5️⃣ Fine-tuning과 LoRA: 제약된 공간에서의 최적화
이제 처음 질문으로 돌아와서, 일반 학습 식과 LoRA 식의 차이를 기하학적으로 해석해 봅시다.
1) Full Fine-tuning

- 전체 파라미터 공간 R^d (수십억 차원) 전체를 탐색하며, Loss가 가장 낮은 지점을 찾습니다.
- 자유도가 높지만, 메모리가 많이 들고 과적합(Overfitting) 위험이 있으며, 기존 지식(Pre-training knowledge)을 잊어버리는 Catastrophic Forgetting이 발생하기 쉽습니다.
2) PEFT (LoRA)

- 전체 공간이 아니라, Pre-trained weight θ_0 주변의 아주 작은 부분 공간, 혹은 Low-Rank 다양체 위에서만 해를 찾습니다.
- LoRA는 업데이트 행렬 △W를 A x B (Low Rank)로 분해하여 탐색 공간을 극도로 제한합니다. (LoRA 논문 참고)
6️⃣ 요약
- 동일한 목표: 일반적인 언어모델 학습과 LoRA/Adapter 학습 식은 모두 MLE(최대우도추정)를 기반으로 하며, 수학적으로 동치인 문제를 풉니다.
- Next Token Prediction의 본질: 이는 단순한 예측 게임이 아니라, Chain Rule을 통해 고차원의 결합 확률 분포를 모델링하는 유일한 현실적 방법입니다.
- 정보 이론적 의미: 이 학습 과정은 실제 데이터 분포와 모델 분포 사이의 KL Divergence(거리)를 최소화하는 과정입니다.
- 차이점: 두 식의 차이는 최적화 과정에서 파라미터 공간을 전체로 볼 것인가(Full FT), 아니면 효율적인 부분 공간으로 제한할 것인가(PEFT)에 있습니다.
