Bonito - juunho/SKCC_LCL GitHub Wiki
1. Bonito
Bonito๋ unannotated text๋ฅผ task๋ณ training dataset์ผ๋ก ๋ณํํ์ฌ instruction์ ํ๋ํ๋ open-source ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ด์ฉํด, raw corpus๋ก ๋ค์ํ task์ instruction / input / output์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
๋ณธ ๋ด์ฉ์ paper ๋ฐ code์ ์ถ์ฒ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- Paper: Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation
- Model: bonito-v1
- Dataset: ctga-v1
- Code: To reproduce experiments in our paper, see nayak-arxiv24-code.
๋ณธ LCL ํ๋์ ํตํด ํด๋น pipeline code๋ฅผ ํ๊ตญ์ด raw corpus์ ๋์ํ๋๋ก ์์ ํ์์ผ๋ฉฐ(output์ ๋ฒ์ญ์ด ํ์ํ ์ ์์), ํ๊ตญ์ด raw corpus๊ฐ input์ผ๋ก ๋ค์ด๊ฐ์ ๋, ๋ค์ 16๊ฐ์ง task์ dataset์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.
- exqa ("extractive question answering")
- mcqa ("multiple-choice question answering")
- qg ("question generation")
- qa ("question answering without choices")
- ynqa ("yes-no question-answering")
- coref ("coreference resolution")
- paraphrase ("paraphrase generation")
- paraphrase_id ("paraphrase identification")
- sent_comp ("sentence completion")
- sentiment ("sentiment")
- summarization ("summarization")
- text_gen ("text generation")
- topic_class ("topic classification")
- wsd ("word sense disambiguation")
- te ("textual entailment")
- nli ("natural language inference")
๋ค์ ๊ฒฝ๋ก์ ์ฝ๋: bonito/testing.py๋ mistral-7B๋ก ์ด๋ฏธ ํ์ต๋์ด ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ, ๋ช ๊ฐ์ง dataset์ ๋ง๋๋ ์์ ๊ฐ ๋ค์ด์๋ ํ์ผ์ ๋๋ค. ์ด๋ฅผ ์ฐธ๊ณ ๋ฐ ์์ฉํ์ฌ ์ฌ๋ฌ๊ฐ์ง dataset์ ์ถ๊ฐ์ ์ผ๋ก ๊ตฌ์ถํ ์ ์์ต๋๋ค.