| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- lora
- Statistics
- SFT
- Noise
- NLP
- Python
- Noise Robustness
- Baekjoon
- Parametric RAG
- DPO
- Transformer
- GPT
- retrieval
- DyPRAG
- fine-tuning
- Document Augmentation
- COT
- LLM
- moe
- Embedding
- qwen
- Do it
- Algorithm
- reranking
- RAG
- coding test
- Hallucination
- 파인튜닝
- odds
- Retriever
- Today
- Total
목록Transformer (5)
왕구아니다
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~Preview- task vector에 대한 산술 연산을 이용해 모델을 편집(editing)하는 새로운 패러다임을 제안- 다양한 비전 모델과 NLP 모델에서 실험한 결과, 여러 개의 태스크에 특화된 task vector를 더하면, 모든 목표 태스크를 잘 수행하는 단일 모델을 만들 수 있었고, 경우에 따라서는 단일 태스크 성능조차 오히려 향상됨- 또한 task vector를 반대로 더하는 것을 통해, 예를 들어 유해한 발화 같은 원치 않는 행동을 제거하거나, 특정 태스크 자체를 의도적으로 잊게 만들 수 있으며, 그 과정에서도 다른 영역의 성능..
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~ ‼️ 본 논문은 "Parametric Retrieval-Augmented Generation"이라는 논문을 변형한 논문이므로 해당 논문을 먼저 읽고 아래 포스팅된 내용들을 읽어보시는 것을 추천드립니다~ (중간중간 본 논문에 작성된 자세한 P-RAG 내용은 생략하겠습니다)https://wanggyuuu.tistory.com/13 [논문 리뷰] Parametric Retrieval Augmented Generation본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 ..
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~Preview- 문서를 입력으로 넣지 말고, 모델의 파라미터로 바꾸자- 문서를 LoRA 형태의 파라미터로 변환 후, 모델의 FFN에 삽입 - 추론 시에는 문서를 넣지 않고, 파라미터만 로드- Parametric RAG는 문서를 파라미터로 바꾸는 offline 과정과 실제 inference에 해당하는 online 과정으로 나뉨Link- 논문 : https://arxiv.org/abs/2501.15915- 코드 : https://github.com/oneal2000/PRAG GitHub - oneal2000/PRAG: Code for Param..
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~Preview- 이 논문은 대규모 언어 모델을 효율적으로 미세 조정하는 새로운 방법인 LoRA(Low-Rank Adaptation)를 제안- 기존의 full fine-tuning은 엄청난 GPU 메모리와 시간이 필요했지만, LoRA는 가중치 행렬을 저차원 행렬 곱으로 분해해 소수의 파라미터만 학습한다는 아이디어로 이 문제를 해결- 이를 통해 메모리 사용량을 획기적으로 줄이면서도 성능 저하 없이 모델을 효율적으로 재적응(fine-tuning)할 수 있음을 보여줌Link- 논문 : https://arxiv.org/abs/2106.09685- 코..
본 논문 리뷰는 저의 개인적인 해석과 의견을 바탕으로 작성된 글입니다.내용 중 해석의 오류나 개념적인 착오가 있다면, 망설이지 마시고 댓글로 혼내주시면 감사하겠습니다~이번에 리뷰할 "Attention Is All You Need"은 사실 딥러닝 발전에 있어서 누구도 부정할 수 없는 최고의 논문.....그래서 NLP에 관심이 많은 학생으로서 정말 많이 들었지만 명확하게 정리해 놓은 노트가 없어서 이번 기회에 시도해보려 합니다. 매번 "그래서 Transformer가 뭔데? Attention이 왜 중요한데? Multi-head Attention은 또 뭔데?"라는 질문에 "아이참 그건 말이다~"라고 시작하면서 점점 목소리가 작아졌던.... 지식이 부족했던 과거를 회상하며 이번 기회에 목소리 유지하면서 설명할 수..
