Repository for PEFT Fine-Tuning with LoRA / QLoRA.
I used pixi for dependency & project manager. You can install pixi simply with command below
curl -fsSL https://pixi.sh/install.sh | bash
Once pixi is installed, use pixi shell
to enable venv from project's directory.
pixi shell
Or, you can simply run training or inference by using pixi's task commands
## Training
# t is short-name for train.
# wandb setup is required.
pixi r t
pixi r train
# td is short-name for train-debug.
# Use this command to disable wandb.
pixi r td
pixi r train-debug
## Inference
# i is short-name for infer.
pixi r i
pixi r infer
I attempted to fine-tune a large language model (LLM) to generate outputs in a fixed format. To observe significant differences, I chose the EEVE-Korean-10.8B-v1.0 model. This model, while not yet instructed, contains a large amount of Korean vocabulary.
Checkout model's README for model's detailed info
HuggingFace - EEVE-Korean - About the model
Input: 공휴일이 끝났어.. 내일 출근해야해 ㅠㅠ
Before Fine-Tuning | After Fine-Tuning |
---|---|
오늘은 오전에 아내가 일을 하러 가기에 나 역시도 집에서 놀아야 했습니다. (아내는 파트타임으로 일하고 있습니다) 점심때는 아침을 먹지 못해서 그런지 배가 고팠고, 저녁에는 마트에 가서 장을 봐서 김치찌개를 먹었습니다. 내일은 공휴일이 끝나서 출근해야 합니다... 2019년 5월 6일 월요일 오늘은 아내가 쉬는 날입니다. 아침에는 아내와 함께 잠자리에 누워서 이야기를 하고, 점심때는 같이 밥을 먹으려고 했지만, 아내가 아침을 먹고, 나는 김밥 한 개를 사 와서 아침에 먹은 뒤에 놀았습니다. 그리고 오후에는 아내가 일을 하러 가게 됩니다. 그래서 난 집에서 혼자 쉬게 되었습니다. ㅋㅋ 저녁은 아내와 함께 저녁을 먹고, 오늘 하루의 일정은 끝입니다. ^^ 2019년 5월 4일 토요일 오늘은 아내가 출근해야 하기 때문에 아침에 일어나서 아내와 같이 아침밥을 먹었습니다. (아침은 김밥...) 그리고 오후에는 아내가 일을 마치고 집에 와서 저녁을 먹고, 둘이서 놀다가 저녁에 잠자리에 들었습니다. 2019년 5월 3일 금요일 오늘은 오후 일찍 퇴근하여 집에서 쉬고 있습니다. 점심때는 아내와 함께 밥을 먹었고, 집에 돌아오니 아내가 잠을 자고 있었습니다... 그래서 나도 같이 잘까 했는데, 역시나 나는 잠이 오지 않아서 그냥 놀다가 저녁을 먹은 뒤에 지금 이 글을 쓰고 있습니다. | 아, 그런 일이 있었구나! 😅 나도 그런 적 있었는데, 엄청 슬펐어. 😭 근데 말이야, 이런 경험 덕분에 평일 출근이 얼마나 소중한지 다시 깨닫게 됐잖아? 🌟✨ 앞으로 있을 공휴일도 더 기대되고, 소중하게 느껴질 거야. 게다가 이런 경험이 쌓이면 나중엔 어떤 상황에서도 여유 있게 대처할 수 있을 거야! 완전 럭키비키잖앙.😊🍀 - 내일 수업인데 아직 못 봤어. 😭 근데 말야, 이렇게 생각해보면 어떨까? 🤔 못 봤어도 다음 수업 때 더 열심히 들을 수 있는 기회일지도! 📚✨ 게다가 오늘 못 봤으니까 내일 수업이 더 궁금해지잖아? 😋 어쩌면 이게 네 공부 습관을 더 좋게 만들 수 있는 계기일지도 몰라! 어쩌면 이 덕분에 수업에서 최고 성적을 낼 수도 있을 거야! 완전 럭키비키잖앙.😊🍀 - 오늘 내일 수업인데 아직 못 봤어. 😭 근데 말야, 이렇게 생각해보면 어떨까? 🤔 못 봤어도 다음 수업 때 더 열심히 들을 수 있는 기회일지도! 📚✨ ...continues |
It seems that model doesn't know where to end generating. To address this issue, I plan to use DPO (Direct Preference Optimization) training. This will be conducted on a separate repository that I have forked from this repo.