Large Language Model (LLM) Interview Questions - Songwooseok123/Study_Space GitHub Wiki
๋น ์์น๋ ํ ์คํธ ์์ฑ ์ ์ฌ๋ฌ ํ๋ณด ์ํ์ค๋ฅผ ๋์์ ํ์ํ๋ฉด์, ๊ฐ ๋จ๊ณ์์ ํ๋ฅ ์ด ๋์ ์์ k๊ฐ์ ํ๋ณด(๋น)๋ฅผ ์ ์งํฉ๋๋ค. ๋ฐ๋ฉด ๊ทธ๋ฆฌ๋ ๋์ฝ๋ฉ์ ๋งค ๋จ๊ณ์์ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ๋จ์ด๋ง์ ์ ํํฉ๋๋ค. ์๋ฅผ ๋ค์ด k = 5์ธ ๊ฒฝ์ฐ, ๋น ์์น๋ ๋ ๋ค์ํ ํ๋ณด๋ฅผ ๊ณ ๋ คํ๋ฉด์๋ ๋์ ํ๋ฅ ์ ์ ์งํ์ฌ, ๊ธฐ๊ณ ๋ฒ์ญ์ด๋ ๋ํ ์์ฑ์ฒ๋ผ ๋ฌธ๋งฅ ์ผ๊ด์ฑ์ด ์ค์ํ ์์ ์์ ๋ ์์ฐ์ค๋ฝ๊ณ ์ผ๊ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์ด๋ ๋๋ค.
๋ง์คํฌ๋ ์ธ์ด ๋ชจ๋ธ๋ง(MLM)์ ๋ฌธ์ฅ ๋ด ์์์ ํ ํฐ์ ๊ฐ๋ฆฌ๊ณ (mask), ๋๋จธ์ง ๋ฌธ๋งฅ์ ํ์ฉํด ๊ฐ๋ ค์ง ํ ํฐ์ ์์ธกํ๋๋ก ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐฉ์์ ๋๋ค. ๋ํ์ ์ผ๋ก BERT ๋ชจ๋ธ์ด ์ด ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์๋ฐฉํฅ ๋ฌธ๋งฅ ์ดํด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ฌ, ๋ฌธ์ฅ ๋ด ์๋ฏธ์ ๊ด๊ณ๋ฅผ ๊น์ด ์๊ฒ ํ์ ํ ์ ์๊ฒ ํฉ๋๋ค.
์ด๋ฐ ์ฌ์ ํ์ต ๊ณผ์ ์ ํตํด LLM์ ๊ฐ์ ๋ถ์์ด๋ ์ง๋ฌธ ์๋ต ๊ฐ์ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์ ํ์ฉ๋ ์ ์๋ ๊ธฐ๋ฐ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋ฉ๋๋ค.
์ํ์ค-ํฌ-์ํ์ค(Seq2Seq) ๋ชจ๋ธ์ ์ ๋ ฅ ์ํ์ค๋ฅผ ๋ฐ์ ์ถ๋ ฅ ์ํ์ค๋ก ๋ณํํ๋ ๊ตฌ์กฐ์ด๋ฉฐ, ๋ณดํต ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ๊ธธ์ด๊ฐ ๋ค๋ฅผ ์ ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ ์ธ์ฝ๋๊ฐ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ณ , ๋์ฝ๋๊ฐ ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค.
ํ์ฉ ์์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
๊ธฐ๊ณ ๋ฒ์ญ (์: ์์ด โ ์คํ์ธ์ด)
ํ ์คํธ ์์ฝ
์ฑ๋ด ์ด์ฒ๋ผ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ๊ธธ์ด๊ฐ ๋ค๋ฅผ ์ ์๋ ์์ ์ ํนํ ์ ํฉํฉ๋๋ค.
๋ค์ ๋ฌธ์ฅ ์์ธก(NSP)์ ๋ ๋ฌธ์ฅ์ด ์ค์ ๋ก ์ฐ์๋๋ ๋ฌธ์ฅ์ธ์ง ์๋์ง๋ฅผ ๋ชจ๋ธ์ด ๋ถ๋ฅํ๋๋ก ํ๋ จ์ํค๋ ๊ธฐ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, BERT๋ ์ฌ์ ํ์ต ์ค ๋ฌธ์ฅ ์์ 50%๋ ์ค์ ์ฐ์ ๋ฌธ์ฅ, ๋๋จธ์ง 50%๋ ๋ฌด์์ ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑํ์ฌ ์ด์ง ๋ถ๋ฅ ์์ ์ ํ์ตํฉ๋๋ค.
NSP๋ ๋ฌธ์ฅ ๊ฐ ๊ด๊ณ๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ์ ํฅ์์์ผ, ๋ํ ์์คํ ์ด๋ ๋ฌธ์ ์์ฝ๊ณผ ๊ฐ์ ๋ฌธ๋งฅ ์ผ๊ด์ฑ์ด ์ค์ํ ์์ ์ ๋์์ด ๋ฉ๋๋ค.
Top-k ์ํ๋ง์ ํ๋ฅ ์ด ๋์ ์์ k๊ฐ์ ํ ํฐ(์: k = 20) ์ค์์ ๋ฌด์์๋ก ์ ํํ๋ ๋ฐฉ์์ ๋๋ค. ์ด๋ฅผ ํตํด ์ ์ด๋ ๋ค์์ฑ์ ํ๋ณดํ ์ ์์ต๋๋ค.
Top-p ์ํ๋ง(๋ํด๋ฆฌ์ด์ค ์ํ๋ง)์ ๋์ ํ๋ฅ ์ด ์ค์ ๋ ์๊ณ๊ฐ p(์: 0.95)๋ฅผ ๋์ ๋๊น์ง์ ํ ํฐ ์งํฉ์์ ์ํ๋งํฉ๋๋ค. ๋ฌธ๋งฅ์ ๋ฐ๋ผ ์ ์ฐํ๊ฒ ์๋ํ์ฌ, ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์๋ ๋ค์ํ ์ถ๋ ฅ์ ์์ฑํ ์ ์์ต๋๋ค.
ํนํ ์ฐฝ์์ ์ธ ๊ธ์ฐ๊ธฐ์ ๊ฐ์ด ๋ค์์ฑ๊ณผ ์์ฐ์ค๋ฌ์์ด ๋ชจ๋ ํ์ํ ์์ ์์ Top-p ์ํ๋ง์ด ํจ๊ณผ์ ์ ๋๋ค.
Catastrophic forgetting์ ์๋ก์ด ์์ ์ ๋ํด ํ์ธํ๋ํ ๋, ์ด์ ์ ํ์ตํ ์ง์์ ์์ด๋ฒ๋ฆฌ๋ ํ์์ ๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒ๋ค์ด ์์ต๋๋ค:
Rehearsal(๋ฆฌํ์ค): ๊ธฐ์กด ๋ฐ์ดํฐ์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ด์ ํ์ต
Elastic Weight Consolidation (EWC): ์ค์ํ ๊ฐ์ค์น๋ฅผ ์ ์งํ์ฌ ๊ธฐ์กด ์ง์์ ๋ณด์กด
Modular Architectures: ์์ ๋ณ ๋ชจ๋์ ๋ฐ๋ก ์ถ๊ฐํ์ฌ ๊ธฐ์กด ๊ตฌ์กฐ๋ฅผ ๋ฎ์ด์ฐ์ง ์๋๋ก ํจ
์ด๋ฐ ๊ธฐ๋ฒ๋ค์ LLM์ด ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ ๋ฒ์ฉ์ฑ์ ์ ์งํ๋ ๋ฐ ์ค์ํฉ๋๋ค.
๋ชจ๋ธ ๋์คํธ๋ ์ด์ ์ ํฐ ๊ต์ฌ(teacher) ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋ฐํ์ผ๋ก, ๋ ์์ ํ์(student) ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ด๋ **ํ๋ฅ ๋ถํฌ(soft labels)**๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํฉ๋๋ค.
์ด ๋ฐฉ๋ฒ์ ํตํด:
๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์์ ์๊ตฌ๋์ ์ค์ผ ์ ์๊ณ ,
์ค๋งํธํฐ ๊ฐ์ ๊ฒฝ๋ ๋๋ฐ์ด์ค์์๋ ์คํ ๊ฐ๋ฅํ๋ฉฐ,
์ฑ๋ฅ์ ๊ฑฐ์ ๊ต์ฌ ๋ชจ๋ธ ์์ค์ ์ ์งํ ์ ์์ด, ์ค์๊ฐ ์์ฉ์ ์ ํฉํฉ๋๋ค.
LLM์ OOV ๋จ์ด(์ฌ์ ์ ์๋ ๋จ์ด)๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์๋ธ์๋ ํ ํฌ๋์ด์ง์ ์ฌ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด Byte-Pair Encoding (BPE) ๊ฐ์ ๋ฐฉ์์ "cryptocurrency"๋ผ๋ ๋จ์ด๋ฅผ "crypto" + "currency"์ฒ๋ผ ์๊ณ ์๋ ์๋ธ์๋ ๋จ์๋ก ๋ถํดํฉ๋๋ค.
์ด ๋ฐฉ์์ ํฌ๊ทํ๊ฑฐ๋ ์๋ก์ด ๋จ์ด๋ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ์ ์๊ฒ ํ์ฌ, ์ธ์ด ์ดํด ๋ฐ ์์ฑ์ **๊ฐ๊ฑด์ฑ(robustness)**์ ๋ณด์ฅํฉ๋๋ค.
ํธ๋์คํฌ๋จธ๋ ๊ธฐ์กด ์ํ์ค-ํฌ-์ํ์ค(Seq2Seq) ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๊ทน๋ณตํฉ๋๋ค:
๋ณ๋ ฌ ์ฒ๋ฆฌ(Parallel Processing): RNN์ฒ๋ผ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌํ์ง ์๊ณ , **์ ํ ์ดํ ์ (self-attention)**์ ํตํด ํ ํฐ์ ๋์์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ(Long-Range Dependencies): ์ดํ ์ ๋ฉ์ปค๋์ฆ์ผ๋ก ๋ฉ๋ฆฌ ๋จ์ด์ง ๋จ์ด๋ค ๊ฐ์ ๊ด๊ณ๋ ์ ํฌ์ฐฉํ ์ ์์ต๋๋ค.
์์น ์ธ์ฝ๋ฉ(Positional Encodings): ์์ ์ ๋ณด๊ฐ ์๋ค๋ ์ฝ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์์น ์ ๋ณด๋ฅผ ์ถ๊ฐํ์ฌ ๋ฌธ๋งฅ์ ์ดํดํฉ๋๋ค.
์ด๋ฌํ ํน์ฑ ๋๋ถ์ ํธ๋์คํฌ๋จธ๋ ๋ฒ์ญ๊ณผ ๊ฐ์ ์์ ์์ ์ฑ๋ฅ๊ณผ ํ์ฅ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
์ค๋ฒํผํ ์ ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๊ณผ๋ํ๊ฒ ์๊ธฐํด์ ์๋ก์ด ๋ฐ์ดํฐ์๋ ์ผ๋ฐํํ์ง ๋ชปํ๋ ํ์์ ๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก๋:
์ ๊ทํ(Regularization): L1, L2 ๊ท์ ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ด ๊ณผํ๊ฒ ๋ณต์กํด์ง๋ ๊ฒ์ ๋ฐฉ์ง
๋๋กญ์์(Dropout): ํ์ต ์ค ์ผ๋ถ ๋ด๋ฐ์ ๋ฌด์์๋ก ๋นํ์ฑํํ์ฌ ๊ณผ์ ํฉ ๋ฐฉ์ง
์กฐ๊ธฐ ์ข ๋ฃ(Early Stopping): ๊ฒ์ฆ ์ฑ๋ฅ์ด ํฅ์๋์ง ์์ผ๋ฉด ํ์ต์ ์กฐ๊ธฐ์ ์ข ๋ฃ
์ด๋ฐ ๊ธฐ๋ฒ๋ค์ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ์งํ๋ ๋ฐ ํ์์ ์ ๋๋ค.
์์ฑ ๋ชจ๋ธ(Generative Model): GPT์ฒ๋ผ ์ ์ฒด ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ์๋ก์ด ํ ์คํธ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํฉ๋๋ค.
ํ๋ณ ๋ชจ๋ธ(Discriminative Model): BERT์ฒ๋ผ **์กฐ๊ฑด๋ถ ํ๋ฅ (ํด๋์ค๋ฅผ ๊ตฌ๋ถํ๋ ํ๋ฅ )**์ ๋ชจ๋ธ๋งํ์ฌ ๋ถ๋ฅ ์์ ์ ์ฌ์ฉ๋ฉ๋๋ค.
์ฆ, ์์ฑ ๋ชจ๋ธ์ ์ฐฝ์์ ์ธ ์์ฑ ์์ (์: ํ ์คํธ ์์ฑ)์, ํ๋ณ ๋ชจ๋ธ์ ์ ํํ ํ๋จ(์: ๊ฐ์ ๋ถ์)์ ๊ฐ๊ฐ ๊ฐ์ ์ ๊ฐ์ง๋๋ค.
ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์ ํ ํฐ์ ์์ ์ ๋ณด๋ฅผ ํธ๋์คํฌ๋จธ ์ ๋ ฅ์ ์ถ๊ฐํ๋ ๋ฐฉ์์ ๋๋ค. ํธ๋์คํฌ๋จธ์ ์ ํ ์ดํ ์ (self-attention) ๊ตฌ์กฐ๋ ์์ ์ ๋ณด๋ฅผ ๋ณธ์ง์ ์ผ๋ก ์ธ์ํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์, ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์ด ํ์ํฉ๋๋ค.
์ด๋ ์ฌ์ธ(sin)/์ฝ์ฌ์ธ ํจ์ ๋๋ ํ์ต ๊ฐ๋ฅํ ๋ฒกํฐ๋ก ํํ๋๋ฉฐ, ์๋ฅผ ๋ค์ด โkingโ๊ณผ โcrownโ์ด ๋ฌธ์ฅ์์ ์ด๋์ ์์นํ๋์ง์ ๋ฐ๋ผ ์๋ฏธ๋ฅผ ์ ๋๋ก ํ์ ํ๋๋ก ๋์ต๋๋ค. ํนํ ๋ฒ์ญ ๊ฐ์ ์์์ ๋ฏผ๊ฐํ ์์ ์ ํ์์ ์ ๋๋ค.
๋ฉํฐ-ํค๋ ์ดํ ์ ์ ์ฟผ๋ฆฌ(Query), ํค(Key), ๋ฐธ๋ฅ(Value)๋ฅผ **์ฌ๋ฌ ๊ฐ์ ํ์ ๊ณต๊ฐ(subspace)**์ผ๋ก ๋๋์ด ๋์์ ์ฌ๋ฌ ์๊ฐ์ผ๋ก ์ ๋ ฅ์ ์ฒ๋ฆฌํฉ๋๋ค.
์๋ฅผ ๋ค์ด ํ๋์ ํค๋๋ ๋ฌธ์ฅ์ **๋ฌธ๋ฒ(syntax)**์, ๋ค๋ฅธ ํค๋๋ **์๋ฏธ(semantics)**๋ฅผ ํฌ์ฐฉํ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ชจ๋ธ์ด ๋ ๋ณต์กํ ํจํด๊ณผ ์๋ฏธ ๊ด๊ณ๋ฅผ ์ ํ์ ํ ์ ์์ด ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค
์ํํธ๋งฅ์ค ํจ์๋ **์ดํ ์ ์ ์(์ฟผ๋ฆฌ์ ํค ๊ฐ์ ์ ์ฌ๋)**๋ฅผ ํ๋ฅ ๋ถํฌ๋ก ๋ณํํฉ๋๋ค.
๊ณต์:
โ
์ด๋ ๊ฒ ํ๋ฉด ๊ฐ ํ ํฐ์ ์ค์๋ ๊ฐ์ค์น๋ฅผ ๊ณ์ฐํ ์ ์๊ณ , ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ์ค์ํ ๋ถ๋ถ์ ์ง์คํ ์ ์๋๋ก ํด์ค๋๋ค.
์ผ์ฝ๋น์ ํ๋ ฌ์ ์ถ๋ ฅ๊ฐ์ด ์ ๋ ฅ๊ฐ์ ๋ํด ์ผ๋ง๋ ๋ณํ๋์ง๋ฅผ ๋ํ๋ด๋ ํธ๋ฏธ๋ถ๊ฐ๋ค์ ๋ด๊ณ ์์ต๋๋ค. ํธ๋์คํฌ๋จธ์์๋ ๋ค์ฐจ์ ์ถ๋ ฅ์ ๋ํ ๊ทธ๋๋์ธํธ(๊ธฐ์ธ๊ธฐ)๋ฅผ ๊ณ์ฐํ ๋ ์ฌ์ฉ๋๋ฉฐ, ์ด๋ ๊ฐ์ค์น์ ์๋ฒ ๋ฉ์ ์ ํํ ์ ๋ฐ์ดํธํ๋ ๋ฐ ํ์์ ์ ๋๋ค. ๋ณต์กํ ๋ชจ๋ธ์ ์ต์ ํํ๊ธฐ ์ํด ๋งค์ฐ ์ค์ํ ์์์ ๋๋ค.
๊ณ ์ ๋ฒกํฐ๋ ๋ฐ์ดํฐ์ ์ฃผ์ ๋ฐฉํฅ(์ถ)์ ์ ์ํ๊ณ , ๊ณ ์ ๊ฐ์ ๊ฐ ๋ฐฉํฅ์ ๋ถ์ฐ(์ ๋ณด๋)์ ๋ํ๋ ๋๋ค. PCA(์ฃผ์ฑ๋ถ ๋ถ์)์ ๊ฐ์ ๊ธฐ๋ฒ์์๋ ํฐ ๊ณ ์ ๊ฐ์ ๊ฐ์ง๋ ๊ณ ์ ๋ฒกํฐ๋ง ์ ํํ์ฌ ์ฐจ์์ ์ค์ด๋ฉด์๋ ๋๋ถ๋ถ์ ์ ๋ณด๋ฅผ ์ ์งํ ์ ์์ต๋๋ค. ์ด๋ LLM์ ์ ๋ ฅ ์ฒ๋ฆฌ๋ฅผ ๋ณด๋ค ํจ์จ์ ์ผ๋ก ๋ง๋ค๊ธฐ ์ํ ์ค์ํ ๋ฐฉ๋ฒ์ ๋๋ค.
Gemini๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ ๋์ ๋๋ค:
ํตํฉ ์ํคํ ์ฒ(Unified Architecture): ํ ์คํธ์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ฅผ ๊ฒฐํฉํ์ฌ ํ๋ผ๋ฏธํฐ ํจ์จ์ ๋์
๊ณ ๊ธ ์ดํ ์ (Advanced Attention): ๊ต์ฐจ ๋ชจ๋ฌ ํ์ต(cross-modal learning)์ ์์ ์ฑ์ ๊ฐ์
๋ฐ์ดํฐ ํจ์จ์ฑ(Data Efficiency): ์๊ธฐ ์ง๋ ํ์ต(self-supervised) ๊ธฐ๋ฒ์ ํ์ฉํด ๋ผ๋ฒจ์ด ํ์ํ ๋ฐ์ดํฐ ์์ ์ค์
์ด๋ฌํ ํน์ฑ ๋๋ถ์ Gemini๋ GPT ๊ฐ์ ๋ชจ๋ธ๋ณด๋ค ๋ ์์ ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ๊ฒ ๋ฉํฐ๋ชจ๋ฌ ํ์ต์ ์ํํ ์ ์์ต๋๋ค
PEFT(ํจ์จ์ ์ธ ํ๋ผ๋ฏธํฐ ๋ฏธ์ธ ์กฐ์ )๋ ์ ์ฒด ํ๋ผ๋ฏธํฐ ์ค ์ผ๋ถ๋ถ๋ง ์ ๋ฐ์ดํธํ๊ณ , ๋๋จธ์ง๋ ๊ณ ์ ์์ผ ์ฌ์ ํ์ต๋ ์ง์์ ๋ณด์กดํฉ๋๋ค. LoRA์ ๊ฐ์ ๊ธฐ๋ฒ์ LLM์ด ์๋ก์ด ์์ ์ ์ ์ํ๋ฉด์๋ ํต์ฌ ๋ฅ๋ ฅ์ ์ ์งํ๋๋ก ๋์ต๋๋ค. ์ด๋ฅผ ํตํด ์ฌ๋ฌ ๋๋ฉ์ธ์ ๊ฑธ์ณ ์ฑ๋ฅ์ ์์ ์ ์ผ๋ก ์ ์งํ ์ ์์ต๋๋ค.
MoE๋ ๊ฒ์ดํ ํจ์(gating function)๋ฅผ ์ฌ์ฉํด ์ ๋ ฅ๋ง๋ค ํน์ ์ ๋ฌธ๊ฐ ์๋ธ๋คํธ์ํฌ๋ง ํ์ฑํ์ํต๋๋ค. ์๋ฅผ ๋ค์ด, ํ๋์ ์ฟผ๋ฆฌ์ ๋ํด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ 10%๋ง ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ์์ญ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ ํจ์จ์ ์ผ๋ก ์๋ํ๋ฉด์ ๋์ ์ฑ๋ฅ์ ์ ์งํ ์ ์์ต๋๋ค.
Chain-of-Thought(CoT) ํ๋กฌํํ ์ LLM์ด ๋ฌธ์ ๋ฅผ ๋จ๊ณ๋ณ๋ก ํด๊ฒฐํ๋๋ก ์ ๋ํ๋ฉฐ, ์ธ๊ฐ์ ์ฌ๊ณ ๊ณผ์ ์ ๋ชจ๋ฐฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ํ ๋ฌธ์ ์์ ๊ณ์ฐ ๊ณผ์ ์ ๋ ผ๋ฆฌ์ ์ธ ๋จ๊ณ๋ก ๋๋์ด ์ฒ๋ฆฌํจ์ผ๋ก์จ, ๋ณต์กํ ๋ ผ๋ฆฌ ์ถ๋ก ์ด๋ ๋ค๋จ๊ณ ์ฟผ๋ฆฌ์์ ์ ํ์ฑ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ์ ๋์ด๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
ํ๋ณ์ AI๋ ๊ฐ์ ๋ถ๋ฅ๊ธฐ์ฒ๋ผ ์ ๋ ฅ ํน์ง์ ๊ธฐ๋ฐ์ผ๋ก ๋ผ๋ฒจ์ ์์ธกํ๋ฉฐ, ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ชจ๋ธ๋งํฉ๋๋ค. ๋ฐ๋ฉด, ์์ฑ์ AI๋ GPT์ฒ๋ผ ์ ์ฒด ๋ฐ์ดํฐ ๋ถํฌ(๊ฒฐํฉ ํ๋ฅ )๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ํ ์คํธ๋ ์ด๋ฏธ์ง ๊ฐ์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. ์์ฑ์ AI๋ ์ฐฝ์์ ์ธ ์ ์ฐ์ฑ์ ์๊ตฌํ๋ ์์ ์ ์ ํฉํฉ๋๋ค.
์ง์ ๊ทธ๋ํ๋ ๊ตฌ์กฐํ๋ ์ฌ์ค ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ LLM์ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ์ ํ ์ ์์ต๋๋ค:
ํ๊ฐ(hallucination) ๊ฐ์: ๊ทธ๋ํ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ค์ ๊ฒ์ฆ
์ถ๋ก ๋ฅ๋ ฅ ํฅ์: ์ํฐํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ฉ
๋ฌธ๋งฅ ๊ฐํ: ๊ตฌ์กฐํ๋ ๋ฌธ๋งฅ ์ ๊ณต์ผ๋ก ๋ ๋์ ์๋ต ์์ฑ
์ด๋ ์ง๋ฌธ ์๋ต, ๊ฐ์ฒด ์ธ์(Entity Recognition) ๋ฑ์ ์์ ์์ ๋งค์ฐ ์ ์ฉํฉ๋๋ค.
Adaptive Softmax๋ ๋จ์ด๋ค์ ๋น๋๋ณ๋ก ๊ทธ๋ฃนํํ์ฌ, ํฌ๊ท ๋จ์ด์ ๋ํ ๊ณ์ฐ๋์ ์ค์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํฐ ์ดํ์ง์ ๋ค๋ฃฐ ๋ ๊ณ์ฐ ๋น์ฉ์ ๋ฎ์ถ์ด ํ์ต๊ณผ ์ถ๋ก ์๋๋ฅผ ํฅ์์ํค๋ฉด์๋ ์ ํ๋๋ฅผ ์ ์งํฉ๋๋ค. ํนํ ์์์ด ์ ํ๋ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ ๋๋ค.
ํธ๋์คํฌ๋จธ๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ์ํํฉ๋๋ค:
์ ํ ์ดํ ์ (Self-Attention): ์์ฐจ์ ์์กด์ฑ์ ํผํจ์ผ๋ก์จ
์์ฐจ ์ฐ๊ฒฐ(Residual Connections): ์ง์ ์ ์ผ๋ก ๊ธฐ์ธ๊ธฐ๊ฐ ํ๋ฅผ ์ ์๋๋ก ํ์ฌ
๋ ์ด์ด ์ ๊ทํ(Layer Normalization): ์ ๋ฐ์ดํธ๋ฅผ ์์ ํ์์ผ์
์ด ๋๋ถ์ RNN๊ณผ ๋ฌ๋ฆฌ ๊น์ ๋ชจ๋ธ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
ํธํฅ๋๊ฑฐ๋ ๋ถ์ ํํ ์ถ๋ ฅ์ ๋ค๋ฃจ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
ํจํด ๋ถ์: ๋ฐ์ดํฐ๋ ํ๋กฌํํธ์์ ํธํฅ ์์ธ ํ์
๋ฐ์ดํฐ ๊ฐ์ : ๊ท ํ ์กํ ๋ฐ์ดํฐ์ ๊ณผ ํธํฅ ์ํ ๊ธฐ๋ฒ ์ฌ์ฉ
๋ฏธ์ธ ์กฐ์ : ์ ๋ณ๋ ๋ฐ์ดํฐ๋ ์ ๋์ ๋ฐฉ๋ฒ์ผ๋ก ์ฌํ์ต ์ด ๊ณผ์ ์ ํตํด ๊ณต์ ์ฑ๊ณผ ์ ํ์ฑ์ ๋์ผ ์ ์์ต๋๋ค.