[딥러닝] LLM의 목적함수

Notice

Recent Posts

Recent Comments

Link

Github

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

왕구아니다

[딥러닝] LLM의 목적함수 본문

Long-term Memory/DL

[딥러닝] LLM의 목적함수

Psalms 12:6-7 2026. 1. 19. 15:46

💬 논문 읽으며 스스로 부족한 부분을 정리한 포스팅입니다!

딥러닝, 특히 언어모델을 공부하다 보면 거의 항상 마주치는 수식이 있다. 바로 “다음 토큰 확률을 최대화하는 목적함수”다. 논문에서 자주 등장하는 두 가지 형태의 식은 다음과 같다.

1) 일반적인 언어모델 학습 식

https://wanggyuuu.tistory.com/7

[논문 리뷰] LoRA: Low-Rank Adaptation of Large Language Models

본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~Preview- 이 논문은

wanggyuuu.tistory.com

2) Fine-tuning / Adapter 학습 식

PRAG 논문에서 사용한 목적 함수이므로 입력 데이터는 일반적인 것과 상이할 수 있음

https://wanggyuuu.tistory.com/13

[논문 리뷰] Parametric Retrieval Augmented Generation

본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~Preview- 문서를 입

wanggyuuu.tistory.com

딥러닝, 특히 Large Language Model(LLM)을 공부하다 보면 수없이 마주치는 수식이 하나 있습니다. 바로 "다음 토큰 확률을 최대화하는 목적함수"입니다.

논문들을 읽다 보면 이 목적함수가 상황에 따라 조금씩 다른 기호로 표현되곤 합니다. 예를 들어, 일반적인 Pre-training/SFT 논문과 LoRA 같은 PEFT(Parameter-Efficient Fine-Tuning) 논문에서 등장하는 수식은 겉보기에 달라 보일 수 있습니다. "어? 둘 다 Next Token Prediction인데 뭐가 다른 거지?" 이 질문에 대한 답을 찾기 위해, 단순한 직관을 넘어 수식 뒤에 숨겨진 통계적 의미와 최적화 관점에서의 차이를 생각해보겠습니다.

1️⃣ 두 목적함수는 무엇을 의미하는가?

첫 번째 식: 일반 언어모델 학습

이 식은 전형적인 언어모델 / seq2seq 모델 학습 목적함수다. 의미를 풀면 다음과 같다.

데이터: (x, y) 쌍
- x: 입력 문장, 프롬프트
- y: 정답 출력 시퀀스

목표
- “정답 토큰 y_t가 나올 확률을 최대화하라”

즉, 모델 파라미터 Φ를 조정해서 정답 문장 y 전체가 나올 확률을 최대화한다. 이 식은 Pretraining, Translation, Summarization, Supervised fine-tuning 모두에서 사용되는 기본 언어모델 학습 식이다.

두 번째 식: Fine-tuning / LoRA / Adapter 학습

이 식은 최근 논문들, 특히 Instruction tuning, Domain adaptation, Adapter / LoRA, RAG 기반 fine-tuning 에서 자주 등장한다. 여기서 중요한 차이는 최적화 대상이다.

기존 모델 파라미터: θ (고정)
업데이트 파라미터: Δθ (학습 대상)

즉, “전체 모델을 학습하는 게 아니라, 기존 모델 θ 위에 작은 업데이트 Δθ만 학습한다” 이게 바로 Parameter-Efficient Fine-Tuning(PEFT) 구조다.

2️⃣ 두 식은 수학적으로 같은 목적함수다

겉보기엔 다르게 생겼지만, 핵심은 동일하다. 이는 수학적으로 완전히 같은 문제다. 결국 차이는 수학적 수식이 아니라 학습 설정이다.

Next Token Prediction: 다음 토큰을 맞춘다.
MLE (Maximum Likelihood Estimation): 정답 데이터의 확률을 최대화한다.
Cross-Entropy Minimization: 모델 분포와 데이터 분포의 차이를 줄인다.

차이는 오직 "어떤 파라미터 공간(Parameter Space)을 탐색할 것인가?"라는 최적화의 제약 조건(Constraint)에 있습니다.

3️⃣ 왜 '다음 토큰 예측'인가? (MLE와 Chain Rule)

https://wanggyuuu.tistory.com/18

[통계] 범주형자료분석 1

📝 "Alan Agresti의 "을 기반으로 공부한 내용을 정리한 포스팅입니다!1️⃣ 범주형 자료와 추론의 기초1. 반응변수의 척도 (Scale)분석 방법을 결정하는 가장 첫 단계는 자료의 형태를 파악하는 것입

wanggyuuu.tistory.com

이 지점에서 근본적인 질문을 던져봅시다. 우리는 "문장"을 생성하고 싶은데, 왜 "토큰" 단위로 확률을 쪼개서 계산할까요? 이는 통계학의 Chain Rule(연쇄 법칙) 때문입니다.

언어 모델의 목표: 결합 확률 분포(Joint Probability)의 추정

언어 모델링의 궁극적인 목표는 자연어 문장 X = (x_1, x_2, ..., x_T)가 자연스러운 문장일 확률 P(X)를 모델링하는 것입니다. 이를 통계적으로는 결합 확률 P(x_1, x_2, ..., x_T)를 구하는 문제로 정의합니다.

하지만 T개의 변수가 얽힌 고차원의 결합 확률을 직접 모델링하는 것은 불가능에 가깝습니다. 여기서 확률의 연쇄 법칙(Chain Rule of Probability)이 등장합니다.

우리가 사용하는 Autoregressive Transformer(GPT 계열)는 바로 이 수식을 신경망으로 구현한 것입니다. 즉, "Next Token Prediction"은 단순한 테크닉이 아니라, 고차원 결합 확률 분포를 계산 가능한 조건부 확률들의 곱으로 분해한 수학적 필연입니다.

곱셈에서 덧셈으로: 로그 가능도(Log-Likelihood)

하지만 실제 모델을 학습할 때는 이 확률들의 곱을 그대로 사용하지 않고, 양변에 자연로그(log)를 취해 합의 형태로 변환합니다.

왜 굳이 로그를 씌워서 식을 바꿀까요? 여기에는 계산상의 치명적인 문제를 해결하기 위한 두 가지 이유가 있습니다.

언더플로우(Underflow) 방지: 확률값(P)은 항상 0과 1 사이의 소수입니다. 문장이 길어져서 수십, 수백 개의 0.xxx 값을 계속 곱하면, 그 값은 0에 무한히 가까워져 컴퓨터가 표현할 수 있는 한계를 넘어버립니다(Underflow). 로그를 취하면 아주 작은 곱셈이 "음수의 덧셈"으로 바뀌어 숫자가 안정적으로 유지됩니다.
미분 계산의 효율성: 딥러닝은 역전파(Backpropagation)를 통해 미분값을 구해야 합니다. 곱셈으로 연결된 식을 미분하려면 복잡한 곱의 미분법을 써야 하지만, 덧셈 식은 각 항을 따로 미분하면 되므로 계산이 훨씬 간단하고 빠릅니다.

4️⃣ 학습의 본질: KL Divergence와 Cross-Entropy

우리는 모델을 학습시킬 때 Negative Log-Likelihood (NLL)를 최소화합니다.

💡 잠깐! 왜 Max가 아니라 Min인가요?

"확률을 높여야(Max) 하는데 왜 식에서는 최소화(Min)한다고 할까요?" 이유는 두 가지입니다.

로그(Log)의 마법: 확률값은 0과 1 사이(0 < P < 1)이므로, 여기에 로그를 취하면 음수(-∞ < log P < 0)가 됩니다.
경사 하강법(Gradient Descent): 딥러닝에서 사용하는 최적화 알고리즘(SGD, Adam 등)은 기본적으로 Loss(손실)를 줄이는 방향, 즉 산을 내려가는(Min) 방식으로 설계되어 있습니다.

따라서 "확률의 최대화"를 "음의 로그 확률(Negative Log-Likelihood)의 최소화"로 문제를 뒤집어서 푸는 것입니다. 수학적으로 두 문제는 완전히 동일합니다.

이 식이 왜 타당할까요? 이를 정보 이론 관점에서 해석하면 "진짜 언어의 분포와 모델이 생각하는 분포 사이의 거리"를 좁히는 과정이기 때문입니다.

KL Divergence (쿨백-라이블러 발산)

이상적인 자연어의 분포를 P_{data}, 우리 모델의 분포를 P_{θ}라고 할 때, 두 분포의 차이는 KL Divergence로 정의됩니다.

이를 로그의 성질을 이용해 분해하면 다음과 같습니다.

여기서 앞부분인 데이터의 엔트로피 H(P_{data})는 우리가 바꿀 수 없는 상수입니다. (데이터셋이 정해지면 고정됨). 따라서 KL Divergence를 최소화하는 것은, 뒷부분인 Cross-Entropy를 최소화하는 것과 수학적으로 동치가 됩니다.

결국 우리가 loss.backward()를 하는 행위는, 모델의 확률 분포 P_{θ}를 실제 데이터의 분포 P_{data}쪽으로 '밀어 넣는' 과정인 것입니다.

5️⃣ Fine-tuning과 LoRA: 제약된 공간에서의 최적화

이제 처음 질문으로 돌아와서, 일반 학습 식과 LoRA 식의 차이를 기하학적으로 해석해 봅시다.

1) Full Fine-tuning

전체 파라미터 공간 R^d (수십억 차원) 전체를 탐색하며, Loss가 가장 낮은 지점을 찾습니다.
자유도가 높지만, 메모리가 많이 들고 과적합(Overfitting) 위험이 있으며, 기존 지식(Pre-training knowledge)을 잊어버리는 Catastrophic Forgetting이 발생하기 쉽습니다.

2) PEFT (LoRA)

전체 공간이 아니라, Pre-trained weight θ_0 주변의 아주 작은 부분 공간, 혹은 Low-Rank 다양체 위에서만 해를 찾습니다.
LoRA는 업데이트 행렬 △W를 A x B (Low Rank)로 분해하여 탐색 공간을 극도로 제한합니다. (LoRA 논문 참고)

6️⃣ 요약

동일한 목표: 일반적인 언어모델 학습과 LoRA/Adapter 학습 식은 모두 MLE(최대우도추정)를 기반으로 하며, 수학적으로 동치인 문제를 풉니다.
Next Token Prediction의 본질: 이는 단순한 예측 게임이 아니라, Chain Rule을 통해 고차원의 결합 확률 분포를 모델링하는 유일한 현실적 방법입니다.
정보 이론적 의미: 이 학습 과정은 실제 데이터 분포와 모델 분포 사이의 KL Divergence(거리)를 최소화하는 과정입니다.
차이점: 두 식의 차이는 최적화 과정에서 파라미터 공간을 전체로 볼 것인가(Full FT), 아니면 효율적인 부분 공간으로 제한할 것인가(PEFT)에 있습니다.

왕구아니다

[딥러닝] LLM의 목적함수 본문

[딥러닝] LLM의 목적함수

1️⃣ 두 목적함수는 무엇을 의미하는가?

첫 번째 식: 일반 언어모델 학습

두 번째 식: Fine-tuning / LoRA / Adapter 학습

2️⃣ 두 식은 수학적으로 같은 목적함수다

3️⃣ 왜 '다음 토큰 예측'인가? (MLE와 Chain Rule)

언어 모델의 목표: 결합 확률 분포(Joint Probability)의 추정

곱셈에서 덧셈으로: 로그 가능도(Log-Likelihood)

4️⃣ 학습의 본질: KL Divergence와 Cross-Entropy

💡 잠깐! 왜 Max가 아니라 Min인가요?

KL Divergence (쿨백-라이블러 발산)

5️⃣ Fine-tuning과 LoRA: 제약된 공간에서의 최적화

1) Full Fine-tuning

2) PEFT (LoRA)

6️⃣ 요약

티스토리툴바