LLM fine tunning - HiroSung/Study GitHub Wiki

LLM finetunning (24.09.02~03) / 김형욱 강사

LLM finetuning-v4.pdf colab-20240902T061043Z-001.zip

1. Revisit LLMs

대부분의 llm은 Transformer 기반 아키텍처 (2017년 부터~. 구글 개발. 번역모델 개발하기 위해서. RNL계열 . sequence to sequence)
GPT 계열(문장 생성), BERT 계열 (문장 맥락 이해. 분류. 입력된 단어의 embedding 방식)

2. BERT

2.1 Tokenization & Embedding

Tockenization : 텍스트를 의미있는 토큰 단위로 나누고 고유한 인덱스번호로 변환 [CLS] this is a input . [SEP] 스페설 토큰 ... 인덱스 번호 단어사전의 규모는 5만개 이상임. ==> 정수코딩. 인덱스 코딩.
Embedding : Input Layer

3. GPT

사전학습을 하지만 Decoder기반 언어 모델
각각의 time step 으로 레이블 하여 예측의 단어를 분류하여 Vocab 사전에서 단어를 선택하게 됨.

4. Transformer

4.1 주요 특징

다양한 모델 지원: Transformers 라이브러리는 수십 종의 Transformer 기반 모델을 지원합니다. 이 모델들은 다양한 언어 및 작업에 대해 사전 훈련되어 제공됩니다.
쉬운 모델 사용: 사전 훈련된 모델을 몇 줄의 코드로 불러와 사용할 수 있습니다. 이를 통해 복잡한 모델 아키텍처를 이해하지 않아도 고성능의 NLP 모델을 적용할 수 있습니다.
사용자 친화적: PyTorch와 TensorFlow 모두를 지원하며, 쉬운 API를 통해 두 프레임워크에서 모두 손쉽게 사용할 수 있습니다. 또한, 직관적인 문서와 다양한 튜토리얼이 제공되어 사용자가 빠르게 학습하고 적용할 수 있도록 도와줍니다.
확장성: 사용자가 직접 모델을 수정하거나 새로운 형태의 Transformer 모델을 쉽게 추가할 수 있는 구조를 갖추고 있습니다.
커뮤니티 및 자원: Hugging Face는 활발한 커뮤니티를 보유하고 있으며, 모델 허브를 통해 사용자가 개발한 모델을 공유하거나 다른 사용자의 모델을 사용할 수 있습니다.

4.2 Pipeline

4.2.1 Pipeline 종류

감정분석

zero-shot text classification

text generation(Completion)

generator = pipeline("text-generation", model="kykim/gpt3-kor-small_based_on_gpt2")

Question answering

Summarization

NER

실습

https://colab.research.google.com/drive/1sXpsKyXuyLUrTGaFkL4cW7s1gQRsHVjz#scrollTo=ECuQ9tex9Kv6

4.2.2 Model

Transformer에는 다양한 아키텍처가 있으며, 각각은 특정 작업을 해결하기 위해 설계되었습니다. ForCausalLM - Text 생성. 학습 method가 정의되어 있음. ForMaskedLM - Bert 모델 사전학습시 사용 ForMultipleChoice ForQuestionAnswering ForSequenceClassification - CLS를 분류기로 뽑아서 사용 ForTokenClassification - 각 토큰별로 CLS가 필요할 경우 사용. 예) 문법 분석기?

Training Language Model

Fine-tunning

2가지 방법이 있음.
Scratch vs Transfer Learning

Scratch

Training from scratch .. 현재는 거의 사용하지 않음

Transfer Learning

사전학습 모델.
PLM (Pretrained Language Modeling)

Fine-tune 전략

Pre-Tran > SFT (Supervised Fine Tunnig) > RLHF (강화학습) > Fine-tunning & in-context learning
실습 (PytorcH, Transformer Trainer API를 사용한 파인튜닝) 5.Fine_tuning_a_model.ipynb
chatgpt도 3단계로 적용이 된것임

SFT (Supervised Fine Tunnig)

RLHF (Reinforcement Learning from Human Feedback)

Question answering model

토큰 단위로 레이블링을 설정함 0/1
AutoModel 실습 (https://colab.research.google.com/drive/1BcOBXSYZDu25XUpZvgV79CCH9IU4Xdg9

PEFT (Parameter-Efficient Fine-Tuning)

Foundation Model

학습시킬 자료가 커질수록 리소스 사용이 커지게됨.
거대 모델을 튜닝까지 할 수 있을까? 메모리 효율적 사용위해서 사용된 모델이 PEFT 모델임

적용방법

Prompt-based method
Adater modules

prefix-tuning

BERT 모델. 서비스하고자 하는 구성에 따라 모델이 생성될것인데, attention layer 에 가변적 Prefix 에 해당하는 토큰들만 학습을 시킴

prompt tuning

prefix-tunig을 발전시킨것.
입력 토큰만 학습

LoRA

가장 인기 있는 방법
attention layer에 Query / Key / Value 로 인덱싱 하는 행렬이 바뀔 경우 Transformer 역할이 커지게 되어. 해당 부분에 LoRA를 적용함.
성능도 좋고, 업데이트 하는 파라미터 수도 적어서 연산에 필요한 메모리가 적게 사용됨
LoRA 실습 https://colab.research.google.com/drive/1lr0nTEEaq5gEL8jghNCdFldiNImZ0iLO?usp=sharing

Instruction tuning

huggingface

accesstocken - write / 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
mistralai/Mistral-7B-v0.1 / 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

Instruction tuning

답변 완성쪽에 튜닝이 되어 있다면 원하는 답변을 하기 위해서 fine tuning 하게 됨.
SFT (지도적강화학습) 의 하나의 방법

학습방법은?

gpt 모델 학습시 기존의 알고리즘과 동일하고 data-set만 달라짐
step1. Dataset 구축 > step2. 튜닝 구축 .
요즘은 instruction도 AI를 통해서 생성. ChatGPT4, Gemini ...
Alpaca Dataset ( GPT-3.5 (text-davinci-003) https://crfm.stanford.edu/2023/03/13/alpaca.html)
Instruction tuning with GTP4 / https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM#how-good-is-the-data
wandb 딥러닝 사용하는 사용자가 많이 사용함

Alpaca 데이터셋을 사용한 Llama 모델 instruction tuning

https://colab.research.google.com/drive/1tMDXTngStJ3uODfkh3HjJzG084A25hcW?usp=sharing

want db

https://wandb.ai/manchiro-sk ([email protected])
api key / 4a3adb7003907aacaebb23a7bc8db5489631351a
wandb.Artifact View project at https://wandb.ai/manchiro-sk/alpaca_ft View run at https://wandb.ai/manchiro-sk/alpaca_ft/runs/zvrceil5

RLHF

(Reinforcement Learning from Human Feedback) / 강화학습
InstructGPT . PPO(보상모델의 보상치를 높임) / DPO (보상모델없이 사람의 선호도로 학습하는 알고리즘. 선호.비선호 문서를 주고 바로 학습)
PPO 방식을 더 강건하고 학습알고리즘 적용을 위한 방법이 개발되어야 함.
적용방법 . 3단계로 진행
정책모델 . 상황에 올바른 결정을 내리도록 하는것.
DPO 실습 https://colab.research.google.com/drive/1uugTDKSJvpoLYfz5ntT6qL7uEFRpt-U_?usp=sharing

예상문제

[문제] ffn을 넣어주는 이유 - 비선형성을 넣어주기 위해서임

참고자료

Huggingface 하위 프로젝트
Transformer
https://huggingface.co/docs/transformers/index
PEFT
https://huggingface.co/docs/peft/v0.10.0/en/index
https://github.com/huggingface/peft/blob/main/README.md
유용한 아티클
The Ultimate Guide to Fine-Tune LLaMA 2, With LLM Evaluations
https://www.confident-ai.com/blog/the-ultimate-guide-to-fine-tune-llama-2-with-llm-evaluations
How to fine-tune an LLM part1 : Preparing Dataset for Instruction Tuning
https://newsletter.ruder.io/p/instruction-tuning-vol-1
https://newsletter.ruder.io/p/instruction-tuning-vol-2
https://medium.com/aiguys/reinforcement-learning-from-human-feedback-instructgpt-and-chatgpt-693d00cb9c58
Generating a Clinical Instruction Dataset in Portuguese with Langchain and GPT-4
https://solano-todeschini.medium.com/generating-a-clinical-instruction-dataset-in-portuguese-with-langchain-and-gpt-4-6ee9abfa41ae
How to Generate Instruction Datasets from Any Documents for LLM Fine-Tuning
https://towardsdatascience.com/how-to-generate-instruction-datasets-from-any-documents-for-llm-fine-tuning-abb319a05d91)
Github source
https://github.com/mlabonne/llm-course
https://github.com/ashishpatel26/LLM-Finetuning
https://github.com/tatsu-lab/stanford_alpaca
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM?tab=readme-ov-file#how-good-is-the-data
https://github.com/Eladlev/AutoPrompt