Large Language Model (LLM) Interview Questions - Songwooseok123/Study_Space GitHub Wiki

๋น” ์„œ์น˜(beam search)๋Š” ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ(greedy decoding)๋ณด๋‹ค ํ…์ŠคํŠธ ์ƒ์„ฑ์—์„œ ์–ด๋–ป๊ฒŒ ๋” ๋‚˜์€๊ฐ€์š”?

๋น” ์„œ์น˜๋Š” ํ…์ŠคํŠธ ์ƒ์„ฑ ์‹œ ์—ฌ๋Ÿฌ ํ›„๋ณด ์‹œํ€€์Šค๋ฅผ ๋™์‹œ์— ํƒ์ƒ‰ํ•˜๋ฉด์„œ, ๊ฐ ๋‹จ๊ณ„์—์„œ ํ™•๋ฅ ์ด ๋†’์€ ์ƒ์œ„ k๊ฐœ์˜ ํ›„๋ณด(๋น”)๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ์€ ๋งค ๋‹จ๊ณ„์—์„œ ๊ฐ€์žฅ ํ™•๋ฅ ์ด ๋†’์€ ๋‹จ์–ด๋งŒ์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด k = 5์ธ ๊ฒฝ์šฐ, ๋น” ์„œ์น˜๋Š” ๋” ๋‹ค์–‘ํ•œ ํ›„๋ณด๋ฅผ ๊ณ ๋ คํ•˜๋ฉด์„œ๋„ ๋†’์€ ํ™•๋ฅ ์„ ์œ ์ง€ํ•˜์—ฌ, ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์ด๋‚˜ ๋Œ€ํ™” ์ƒ์„ฑ์ฒ˜๋Ÿผ ๋ฌธ๋งฅ ์ผ๊ด€์„ฑ์ด ์ค‘์š”ํ•œ ์ž‘์—…์—์„œ ๋” ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ์ผ๊ด€๋œ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค.

๋งˆ์Šคํฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ๋ง(masked language modeling)์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ, ์‚ฌ์ „ํ•™์Šต์— ์–ด๋–ป๊ฒŒ ๋„์›€์ด ๋˜๋‚˜์š”?

๋งˆ์Šคํฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ๋ง(MLM)์€ ๋ฌธ์žฅ ๋‚ด ์ž„์˜์˜ ํ† ํฐ์„ ๊ฐ€๋ฆฌ๊ณ (mask), ๋‚˜๋จธ์ง€ ๋ฌธ๋งฅ์„ ํ™œ์šฉํ•ด ๊ฐ€๋ ค์ง„ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋„๋ก ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ BERT ๋ชจ๋ธ์ด ์ด ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ ์ดํ•ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ, ๋ฌธ์žฅ ๋‚ด ์˜๋ฏธ์  ๊ด€๊ณ„๋ฅผ ๊นŠ์ด ์žˆ๊ฒŒ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฐ ์‚ฌ์ „ํ•™์Šต ๊ณผ์ •์„ ํ†ตํ•ด LLM์€ ๊ฐ์ • ๋ถ„์„์ด๋‚˜ ์งˆ๋ฌธ ์‘๋‹ต ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค(Seq2Seq) ๋ชจ๋ธ์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ, ์–ด๋””์— ํ™œ์šฉ๋˜๋‚˜์š”?

์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค(Seq2Seq) ๋ชจ๋ธ์€ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ๋ฐ›์•„ ์ถœ๋ ฅ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ตฌ์กฐ์ด๋ฉฐ, ๋ณดํ†ต ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ธ์ฝ”๋”๊ฐ€ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ , ๋””์ฝ”๋”๊ฐ€ ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

ํ™œ์šฉ ์˜ˆ์‹œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

๊ธฐ๊ณ„ ๋ฒˆ์—ญ (์˜ˆ: ์˜์–ด โ†’ ์ŠคํŽ˜์ธ์–ด)

ํ…์ŠคํŠธ ์š”์•ฝ

์ฑ—๋ด‡ ์ด์ฒ˜๋Ÿผ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋Š” ์ž‘์—…์— ํŠนํžˆ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก(next sentence prediction, NSP)์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ, LLM์— ์–ด๋–ป๊ฒŒ ๋„์›€์ด ๋˜๋‚˜์š”?

๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก(NSP)์€ ๋‘ ๋ฌธ์žฅ์ด ์‹ค์ œ๋กœ ์—ฐ์†๋˜๋Š” ๋ฌธ์žฅ์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ๋ชจ๋ธ์ด ๋ถ„๋ฅ˜ํ•˜๋„๋ก ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, BERT๋Š” ์‚ฌ์ „ํ•™์Šต ์ค‘ ๋ฌธ์žฅ ์Œ์˜ 50%๋Š” ์‹ค์ œ ์—ฐ์† ๋ฌธ์žฅ, ๋‚˜๋จธ์ง€ 50%๋Š” ๋ฌด์ž‘์œ„ ๋ฌธ์žฅ์œผ๋กœ ๊ตฌ์„ฑํ•˜์—ฌ ์ด์ง„ ๋ถ„๋ฅ˜ ์ž‘์—…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

NSP๋Š” ๋ฌธ์žฅ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œ์ผœ, ๋Œ€ํ™” ์‹œ์Šคํ…œ์ด๋‚˜ ๋ฌธ์„œ ์š”์•ฝ๊ณผ ๊ฐ™์€ ๋ฌธ๋งฅ ์ผ๊ด€์„ฑ์ด ์ค‘์š”ํ•œ ์ž‘์—…์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.

ํ…์ŠคํŠธ ์ƒ์„ฑ์—์„œ Top-k ์ƒ˜ํ”Œ๋ง๊ณผ Top-p ์ƒ˜ํ”Œ๋ง์€ ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅธ๊ฐ€์š”?

Top-k ์ƒ˜ํ”Œ๋ง์€ ํ™•๋ฅ ์ด ๋†’์€ ์ƒ์œ„ k๊ฐœ์˜ ํ† ํฐ(์˜ˆ: k = 20) ์ค‘์—์„œ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ œ์–ด๋œ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Top-p ์ƒ˜ํ”Œ๋ง(๋ˆ„ํด๋ฆฌ์–ด์Šค ์ƒ˜ํ”Œ๋ง)์€ ๋ˆ„์  ํ™•๋ฅ ์ด ์„ค์ •๋œ ์ž„๊ณ„๊ฐ’ p(์˜ˆ: 0.95)๋ฅผ ๋„˜์„ ๋•Œ๊นŒ์ง€์˜ ํ† ํฐ ์ง‘ํ•ฉ์—์„œ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ์œ ์—ฐํ•˜๊ฒŒ ์ž‘๋™ํ•˜์—ฌ, ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋‹ค์–‘ํ•œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฐฝ์˜์ ์ธ ๊ธ€์“ฐ๊ธฐ์™€ ๊ฐ™์ด ๋‹ค์–‘์„ฑ๊ณผ ์ž์—ฐ์Šค๋Ÿฌ์›€์ด ๋ชจ๋‘ ํ•„์š”ํ•œ ์ž‘์—…์—์„œ Top-p ์ƒ˜ํ”Œ๋ง์ด ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.

LLM ํŒŒ์ธํŠœ๋‹ ์‹œ catastrophic forgetting(๋ง๊ฐ ํ˜„์ƒ)์„ ์–ด๋–ป๊ฒŒ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๋‚˜์š”?

Catastrophic forgetting์€ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋Œ€ํ•ด ํŒŒ์ธํŠœ๋‹ํ•  ๋•Œ, ์ด์ „์— ํ•™์Šตํ•œ ์ง€์‹์„ ์žƒ์–ด๋ฒ„๋ฆฌ๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค:

Rehearsal(๋ฆฌํ—ˆ์„ค): ๊ธฐ์กด ๋ฐ์ดํ„ฐ์™€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์„ž์–ด์„œ ํ•™์Šต

Elastic Weight Consolidation (EWC): ์ค‘์š”ํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ์œ ์ง€ํ•˜์—ฌ ๊ธฐ์กด ์ง€์‹์„ ๋ณด์กด

Modular Architectures: ์ž‘์—…๋ณ„ ๋ชจ๋“ˆ์„ ๋”ฐ๋กœ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ธฐ์กด ๊ตฌ์กฐ๋ฅผ ๋ฎ์–ด์“ฐ์ง€ ์•Š๋„๋ก ํ•จ

์ด๋Ÿฐ ๊ธฐ๋ฒ•๋“ค์€ LLM์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ๋””์Šคํ‹ธ๋ ˆ์ด์…˜(model distillation)์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ, LLM์— ์–ด๋–ค ์ด์ ์ด ์žˆ๋‚˜์š”?

๋ชจ๋ธ ๋””์Šคํ‹ธ๋ ˆ์ด์…˜์€ ํฐ ๊ต์‚ฌ(teacher) ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋” ์ž‘์€ ํ•™์ƒ(student) ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋•Œ **ํ™•๋ฅ  ๋ถ„ํฌ(soft labels)**๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

์ด ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด:

๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ์ž์› ์š”๊ตฌ๋Ÿ‰์„ ์ค„์ผ ์ˆ˜ ์žˆ๊ณ ,

์Šค๋งˆํŠธํฐ ๊ฐ™์€ ๊ฒฝ๋Ÿ‰ ๋””๋ฐ”์ด์Šค์—์„œ๋„ ์‹คํ–‰ ๊ฐ€๋Šฅํ•˜๋ฉฐ,

์„ฑ๋Šฅ์€ ๊ฑฐ์˜ ๊ต์‚ฌ ๋ชจ๋ธ ์ˆ˜์ค€์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์–ด, ์‹ค์‹œ๊ฐ„ ์‘์šฉ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

LLM์€ OOV(out-of-vocabulary) ๋‹จ์–ด๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋‚˜์š”?

LLM์€ OOV ๋‹จ์–ด(์‚ฌ์ „์— ์—†๋Š” ๋‹จ์–ด)๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์„œ๋ธŒ์›Œ๋“œ ํ† ํฌ๋‚˜์ด์ง•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Byte-Pair Encoding (BPE) ๊ฐ™์€ ๋ฐฉ์‹์€ "cryptocurrency"๋ผ๋Š” ๋‹จ์–ด๋ฅผ "crypto" + "currency"์ฒ˜๋Ÿผ ์•Œ๊ณ  ์žˆ๋Š” ์„œ๋ธŒ์›Œ๋“œ ๋‹จ์œ„๋กœ ๋ถ„ํ•ดํ•ฉ๋‹ˆ๋‹ค.

์ด ๋ฐฉ์‹์€ ํฌ๊ท€ํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ๋‹จ์–ด๋„ ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ, ์–ธ์–ด ์ดํ•ด ๋ฐ ์ƒ์„ฑ์˜ **๊ฐ•๊ฑด์„ฑ(robustness)**์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๊ธฐ์กด Seq2Seq ๋ชจ๋ธ์— ๋น„ํ•ด ์–ด๋–ค ์ ์ด ๊ฐœ์„ ๋˜์—ˆ๋‚˜์š”?

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๊ธฐ์กด ์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค(Seq2Seq) ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ๊ทน๋ณตํ•ฉ๋‹ˆ๋‹ค:

๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ(Parallel Processing): RNN์ฒ˜๋Ÿผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ์•Š๊ณ , **์…€ํ”„ ์–ดํ…์…˜(self-attention)**์„ ํ†ตํ•ด ํ† ํฐ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ(Long-Range Dependencies): ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ๋‹จ์–ด๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋„ ์ž˜ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์œ„์น˜ ์ธ์ฝ”๋”ฉ(Positional Encodings): ์ˆœ์„œ ์ •๋ณด๊ฐ€ ์—†๋‹ค๋Š” ์•ฝ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ์œ„์น˜ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ํŠน์„ฑ ๋•๋ถ„์— ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋ฒˆ์—ญ๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ๊ณผ ํ™•์žฅ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

์˜ค๋ฒ„ํ”ผํŒ…(overfitting)์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ, LLM์—์„œ๋Š” ์–ด๋–ป๊ฒŒ ์™„ํ™”ํ•˜๋‚˜์š”?

์˜ค๋ฒ„ํ”ผํŒ…์€ ๋ชจ๋ธ์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณผ๋„ํ•˜๊ฒŒ ์•”๊ธฐํ•ด์„œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์—๋Š” ์ผ๋ฐ˜ํ™”ํ•˜์ง€ ๋ชปํ•˜๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š”:

์ •๊ทœํ™”(Regularization): L1, L2 ๊ทœ์ œ๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์ด ๊ณผํ•˜๊ฒŒ ๋ณต์žกํ•ด์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€

๋“œ๋กญ์•„์›ƒ(Dropout): ํ•™์Šต ์ค‘ ์ผ๋ถ€ ๋‰ด๋Ÿฐ์„ ๋ฌด์ž‘์œ„๋กœ ๋น„ํ™œ์„ฑํ™”ํ•˜์—ฌ ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€

์กฐ๊ธฐ ์ข…๋ฃŒ(Early Stopping): ๊ฒ€์ฆ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์ง€ ์•Š์œผ๋ฉด ํ•™์Šต์„ ์กฐ๊ธฐ์— ์ข…๋ฃŒ

์ด๋Ÿฐ ๊ธฐ๋ฒ•๋“ค์€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

NLP์—์„œ ์ƒ์„ฑ ๋ชจ๋ธ(generative)๊ณผ ํŒ๋ณ„ ๋ชจ๋ธ(discriminative)์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

์ƒ์„ฑ ๋ชจ๋ธ(Generative Model): GPT์ฒ˜๋Ÿผ ์ „์ฒด ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

ํŒ๋ณ„ ๋ชจ๋ธ(Discriminative Model): BERT์ฒ˜๋Ÿผ **์กฐ๊ฑด๋ถ€ ํ™•๋ฅ (ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ํ™•๋ฅ )**์„ ๋ชจ๋ธ๋งํ•˜์—ฌ ๋ถ„๋ฅ˜ ์ž‘์—…์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

์ฆ‰, ์ƒ์„ฑ ๋ชจ๋ธ์€ ์ฐฝ์˜์ ์ธ ์ƒ์„ฑ ์ž‘์—…(์˜ˆ: ํ…์ŠคํŠธ ์ƒ์„ฑ)์—, ํŒ๋ณ„ ๋ชจ๋ธ์€ ์ •ํ™•ํ•œ ํŒ๋‹จ(์˜ˆ: ๊ฐ์ • ๋ถ„์„)์— ๊ฐ๊ฐ ๊ฐ•์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ(Positional Encoding)์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ, ์™œ ์‚ฌ์šฉ๋˜๋‚˜์š”?

ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ์€ ํ† ํฐ์˜ ์ˆœ์„œ ์ •๋ณด๋ฅผ ํŠธ๋žœ์Šคํฌ๋จธ ์ž…๋ ฅ์— ์ถ”๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์…€ํ”„ ์–ดํ…์…˜(self-attention) ๊ตฌ์กฐ๋Š” ์ˆœ์„œ ์ •๋ณด๋ฅผ ๋ณธ์งˆ์ ์œผ๋กœ ์ธ์‹ํ•˜์ง€ ๋ชปํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Š” ์‚ฌ์ธ(sin)/์ฝ”์‚ฌ์ธ ํ•จ์ˆ˜ ๋˜๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ์˜ˆ๋ฅผ ๋“ค์–ด โ€œkingโ€๊ณผ โ€œcrownโ€์ด ๋ฌธ์žฅ์—์„œ ์–ด๋””์— ์œ„์น˜ํ•˜๋Š”์ง€์— ๋”ฐ๋ผ ์˜๋ฏธ๋ฅผ ์ œ๋Œ€๋กœ ํŒŒ์•…ํ•˜๋„๋ก ๋•์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฒˆ์—ญ ๊ฐ™์€ ์ˆœ์„œ์— ๋ฏผ๊ฐํ•œ ์ž‘์—…์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ-ํ—ค๋“œ ์–ดํ…์…˜(Multi-head Attention)์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ, ์–ด๋–ป๊ฒŒ LLM ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋‚˜์š”?

๋ฉ€ํ‹ฐ-ํ—ค๋“œ ์–ดํ…์…˜์€ ์ฟผ๋ฆฌ(Query), ํ‚ค(Key), ๋ฐธ๋ฅ˜(Value)๋ฅผ **์—ฌ๋Ÿฌ ๊ฐœ์˜ ํ•˜์œ„ ๊ณต๊ฐ„(subspace)**์œผ๋กœ ๋‚˜๋ˆ„์–ด ๋™์‹œ์— ์—ฌ๋Ÿฌ ์‹œ๊ฐ์œผ๋กœ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ํ•˜๋‚˜์˜ ํ—ค๋“œ๋Š” ๋ฌธ์žฅ์˜ **๋ฌธ๋ฒ•(syntax)**์„, ๋‹ค๋ฅธ ํ—ค๋“œ๋Š” **์˜๋ฏธ(semantics)**๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ชจ๋ธ์ด ๋” ๋ณต์žกํ•œ ํŒจํ„ด๊ณผ ์˜๋ฏธ ๊ด€๊ณ„๋ฅผ ์ž˜ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์–ด ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค

์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์—์„œ ์†Œํ”„ํŠธ๋งฅ์Šค(Softmax) ํ•จ์ˆ˜๋Š” ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜๋‚˜์š”?

์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋Š” **์–ดํ…์…˜ ์ ์ˆ˜(์ฟผ๋ฆฌ์™€ ํ‚ค ๊ฐ„์˜ ์œ ์‚ฌ๋„)**๋ฅผ ํ™•๋ฅ  ๋ถ„ํฌ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

๊ณต์‹:

image

โ€‹

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๊ฐ ํ† ํฐ์˜ ์ค‘์š”๋„ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๊ณ , ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ƒ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ค๋‹ˆ๋‹ค.

์…€ํ”„ ์–ดํ…์…˜์—์„œ ๋‚ด์ (dot product)์€ ์–ด๋–ค ์—ญํ• ์„ ํ•˜๋‚˜์š”?

image

์–ธ์–ด ๋ชจ๋ธ๋ง์— ์™œ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค(Cross-Entropy Loss)์„ ์‚ฌ์šฉํ•˜๋‚˜์š”?

image

LLM์—์„œ ์ž„๋ฒ ๋”ฉ(embedding)์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋Š” ์–ด๋–ป๊ฒŒ ๊ณ„์‚ฐ๋˜๋‚˜์š”?

image

ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์—ญ์ „ํŒŒ ์‹œ ์•ผ์ฝ”๋น„์•ˆ ํ–‰๋ ฌ(Jacobian matrix)์˜ ์—ญํ• ์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

์•ผ์ฝ”๋น„์•ˆ ํ–‰๋ ฌ์€ ์ถœ๋ ฅ๊ฐ’์ด ์ž…๋ ฅ๊ฐ’์— ๋Œ€ํ•ด ์–ผ๋งˆ๋‚˜ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํŽธ๋ฏธ๋ถ„๊ฐ’๋“ค์„ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ๋Š” ๋‹ค์ฐจ์› ์ถœ๋ ฅ์— ๋Œ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ(๊ธฐ์šธ๊ธฐ)๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ด๋Š” ๊ฐ€์ค‘์น˜์™€ ์ž„๋ฒ ๋”ฉ์„ ์ •ํ™•ํžˆ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋งค์šฐ ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค.

๊ณ ์œ ๊ฐ’(eigenvalues)๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ(eigenvectors)๋Š” ์ฐจ์› ์ถ•์†Œ์™€ ์–ด๋–ค ๊ด€๋ จ์ด ์žˆ๋‚˜์š”?

๊ณ ์œ ๋ฒกํ„ฐ๋Š” ๋ฐ์ดํ„ฐ์˜ ์ฃผ์š” ๋ฐฉํ–ฅ(์ถ•)์„ ์ •์˜ํ•˜๊ณ , ๊ณ ์œ ๊ฐ’์€ ๊ฐ ๋ฐฉํ–ฅ์˜ ๋ถ„์‚ฐ(์ •๋ณด๋Ÿ‰)์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. PCA(์ฃผ์„ฑ๋ถ„ ๋ถ„์„)์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•์—์„œ๋Š” ํฐ ๊ณ ์œ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ๊ณ ์œ ๋ฒกํ„ฐ๋งŒ ์„ ํƒํ•˜์—ฌ ์ฐจ์›์„ ์ค„์ด๋ฉด์„œ๋„ ๋Œ€๋ถ€๋ถ„์˜ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLM์˜ ์ž…๋ ฅ ์ฒ˜๋ฆฌ๋ฅผ ๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•œ ์ค‘์š”ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

KL ๋ฐœ์‚ฐ(KL divergence)์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ, LLM์—์„œ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜๋‚˜์š”?

image

ReLU ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„(derivative)์€ ๋ฌด์—‡์ด๋ฉฐ, ์™œ ์ค‘์š”ํ•œ๊ฐ€์š”?

image

์—ฐ์‡„๋ฒ•์น™(chain rule)์ด LLM์˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(gradient descent)์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋‚˜์š”?

image

ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์–ดํ…์…˜ ์ ์ˆ˜(attention scores)๋Š” ์–ด๋–ป๊ฒŒ ๊ณ„์‚ฐ๋˜๋‚˜์š”?

image

Gemini๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ํ›ˆ๋ จ์„ ์–ด๋–ป๊ฒŒ ์ตœ์ ํ™”ํ•˜๋‚˜์š”?

Gemini๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค:

ํ†ตํ•ฉ ์•„ํ‚คํ…์ฒ˜(Unified Architecture): ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ์„ ๋†’์ž„

๊ณ ๊ธ‰ ์–ดํ…์…˜(Advanced Attention): ๊ต์ฐจ ๋ชจ๋‹ฌ ํ•™์Šต(cross-modal learning)์˜ ์•ˆ์ •์„ฑ์„ ๊ฐœ์„ 

๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ(Data Efficiency): ์ž๊ธฐ ์ง€๋„ ํ•™์Šต(self-supervised) ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•ด ๋ผ๋ฒจ์ด ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ ์–‘์„ ์ค„์ž„

์ด๋Ÿฌํ•œ ํŠน์„ฑ ๋•๋ถ„์— Gemini๋Š” GPT ๊ฐ™์€ ๋ชจ๋ธ๋ณด๋‹ค ๋” ์•ˆ์ •์ ์ด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

PEFT๋Š” ์–ด๋–ป๊ฒŒ ๊ธ‰๊ฒฉํ•œ ๋ง๊ฐ(catastrophic forgetting)์„ ์™„ํ™”ํ•˜๋‚˜์š”?

PEFT(ํšจ์œจ์ ์ธ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฏธ์„ธ ์กฐ์ •)๋Š” ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ ์ผ๋ถ€๋ถ„๋งŒ ์—…๋ฐ์ดํŠธํ•˜๊ณ , ๋‚˜๋จธ์ง€๋Š” ๊ณ ์ •์‹œ์ผœ ์‚ฌ์ „ ํ•™์Šต๋œ ์ง€์‹์„ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค. LoRA์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•์€ LLM์ด ์ƒˆ๋กœ์šด ์ž‘์—…์— ์ ์‘ํ•˜๋ฉด์„œ๋„ ํ•ต์‹ฌ ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋„๋ก ๋•์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ ๋„๋ฉ”์ธ์— ๊ฑธ์ณ ์„ฑ๋Šฅ์„ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

MoE(Mixture of Experts)๋Š” LLM์˜ ํ™•์žฅ์„ฑ์„ ์–ด๋–ป๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋‚˜์š”?

MoE๋Š” ๊ฒŒ์ดํŒ… ํ•จ์ˆ˜(gating function)๋ฅผ ์‚ฌ์šฉํ•ด ์ž…๋ ฅ๋งˆ๋‹ค ํŠน์ • ์ „๋ฌธ๊ฐ€ ์„œ๋ธŒ๋„คํŠธ์›Œํฌ๋งŒ ํ™œ์„ฑํ™”์‹œํ‚ต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ•˜๋‚˜์˜ ์ฟผ๋ฆฌ์— ๋Œ€ํ•ด ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ 10%๋งŒ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋„ ํšจ์œจ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋ฉด์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Chain-of-Thought(CoT) ํ”„๋กฌํ”„ํŠธ๋ž€ ๋ฌด์—‡์ด๋ฉฐ, ์ถ”๋ก ์— ์–ด๋–ค ๋„์›€์„ ์ฃผ๋‚˜์š”?

Chain-of-Thought(CoT) ํ”„๋กฌํ”„ํŒ…์€ LLM์ด ๋ฌธ์ œ๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ํ•ด๊ฒฐํ•˜๋„๋ก ์œ ๋„ํ•˜๋ฉฐ, ์ธ๊ฐ„์˜ ์‚ฌ๊ณ  ๊ณผ์ •์„ ๋ชจ๋ฐฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ˆ˜ํ•™ ๋ฌธ์ œ์—์„œ ๊ณ„์‚ฐ ๊ณผ์ •์„ ๋…ผ๋ฆฌ์ ์ธ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ, ๋ณต์žกํ•œ ๋…ผ๋ฆฌ ์ถ”๋ก ์ด๋‚˜ ๋‹ค๋‹จ๊ณ„ ์ฟผ๋ฆฌ์—์„œ ์ •ํ™•์„ฑ๊ณผ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.

ํŒ๋ณ„์ (discriminative) AI์™€ ์ƒ์„ฑ์ (generative) AI์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

ํŒ๋ณ„์  AI๋Š” ๊ฐ์ • ๋ถ„๋ฅ˜๊ธฐ์ฒ˜๋Ÿผ ์ž…๋ ฅ ํŠน์ง•์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ผ๋ฒจ์„ ์˜ˆ์ธกํ•˜๋ฉฐ, ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ์ƒ์„ฑ์  AI๋Š” GPT์ฒ˜๋Ÿผ ์ „์ฒด ๋ฐ์ดํ„ฐ ๋ถ„ํฌ(๊ฒฐํ•ฉ ํ™•๋ฅ )๋ฅผ ๋ชจ๋ธ๋งํ•˜์—ฌ ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ์  AI๋Š” ์ฐฝ์˜์ ์ธ ์œ ์—ฐ์„ฑ์„ ์š”๊ตฌํ•˜๋Š” ์ž‘์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

์ง€์‹ ๊ทธ๋ž˜ํ”„(Knowledge Graph) ํ†ตํ•ฉ์€ LLM์˜ ์„ฑ๋Šฅ์„ ์–ด๋–ป๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋‚˜์š”?

์ง€์‹ ๊ทธ๋ž˜ํ”„๋Š” ๊ตฌ์กฐํ™”๋œ ์‚ฌ์‹ค ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ LLM์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

ํ™˜๊ฐ(hallucination) ๊ฐ์†Œ: ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์‹ค์„ ๊ฒ€์ฆ

์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ: ์—”ํ‹ฐํ‹ฐ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ™œ์šฉ

๋ฌธ๋งฅ ๊ฐ•ํ™”: ๊ตฌ์กฐํ™”๋œ ๋ฌธ๋งฅ ์ œ๊ณต์œผ๋กœ ๋” ๋‚˜์€ ์‘๋‹ต ์ƒ์„ฑ

์ด๋Š” ์งˆ๋ฌธ ์‘๋‹ต, ๊ฐœ์ฒด ์ธ์‹(Entity Recognition) ๋“ฑ์˜ ์ž‘์—…์—์„œ ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

Adaptive Softmax๋Š” LLM์„ ์–ด๋–ป๊ฒŒ ์ตœ์ ํ™”ํ•˜๋‚˜์š”?

Adaptive Softmax๋Š” ๋‹จ์–ด๋“ค์„ ๋นˆ๋„๋ณ„๋กœ ๊ทธ๋ฃนํ™”ํ•˜์—ฌ, ํฌ๊ท€ ๋‹จ์–ด์— ๋Œ€ํ•œ ๊ณ„์‚ฐ๋Ÿ‰์„ ์ค„์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ํฐ ์–ดํœ˜์ง‘์„ ๋‹ค๋ฃฐ ๋•Œ ๊ณ„์‚ฐ ๋น„์šฉ์„ ๋‚ฎ์ถ”์–ด ํ•™์Šต๊ณผ ์ถ”๋ก  ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋ฉด์„œ๋„ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ž์›์ด ์ œํ•œ๋œ ํ™˜๊ฒฝ์—์„œ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์–ด๋–ป๊ฒŒ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(vanishing gradient) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋‚˜์š”?

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•ฉ๋‹ˆ๋‹ค:

์…€ํ”„ ์–ดํ…์…˜(Self-Attention): ์ˆœ์ฐจ์  ์˜์กด์„ฑ์„ ํ”ผํ•จ์œผ๋กœ์จ

์ž”์ฐจ ์—ฐ๊ฒฐ(Residual Connections): ์ง์ ‘์ ์œผ๋กœ ๊ธฐ์šธ๊ธฐ๊ฐ€ ํ๋ฅผ ์ˆ˜ ์žˆ๋„๋ก ํ•˜์—ฌ

๋ ˆ์ด์–ด ์ •๊ทœํ™”(Layer Normalization): ์—…๋ฐ์ดํŠธ๋ฅผ ์•ˆ์ •ํ™”์‹œ์ผœ์„œ

์ด ๋•๋ถ„์— RNN๊ณผ ๋‹ฌ๋ฆฌ ๊นŠ์€ ๋ชจ๋ธ๋„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

LLM์ด ํŽธํ–ฅ๋˜๊ฑฐ๋‚˜ ๋ถ€์ •ํ™•ํ•œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•  ๋•Œ ์–ด๋–ป๊ฒŒ ์ˆ˜์ •ํ•˜๊ฒ ์Šต๋‹ˆ๊นŒ?

ํŽธํ–ฅ๋˜๊ฑฐ๋‚˜ ๋ถ€์ •ํ™•ํ•œ ์ถœ๋ ฅ์„ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

ํŒจํ„ด ๋ถ„์„: ๋ฐ์ดํ„ฐ๋‚˜ ํ”„๋กฌํ”„ํŠธ์—์„œ ํŽธํ–ฅ ์›์ธ ํŒŒ์•…

๋ฐ์ดํ„ฐ ๊ฐœ์„ : ๊ท ํ˜• ์žกํžŒ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํŽธํ–ฅ ์™„ํ™” ๊ธฐ๋ฒ• ์‚ฌ์šฉ

๋ฏธ์„ธ ์กฐ์ •: ์„ ๋ณ„๋œ ๋ฐ์ดํ„ฐ๋‚˜ ์ ๋Œ€์  ๋ฐฉ๋ฒ•์œผ๋กœ ์žฌํ•™์Šต ์ด ๊ณผ์ •์„ ํ†ตํ•ด ๊ณต์ •์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋Š” ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅธ๊ฐ€์š”?

์ธ์ฝ”๋”๋Š” ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ถ”์ƒ์  ํ‘œํ˜„์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋ฌธ๋งฅ์„ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”๋Š” ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ๊ณผ ์ด์ „ ํ† ํฐ๋“ค์„ ํ™œ์šฉํ•ด ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฒˆ์—ญ ์ž‘์—…์—์„œ ์ธ์ฝ”๋”๋Š” ์›๋ฌธ์„ ์ดํ•ดํ•˜๊ณ , ๋””์ฝ”๋”๋Š” ๋Œ€์ƒ ์–ธ์–ด๋ฅผ ์ƒ์„ฑํ•˜์—ฌ Seq2Seq ์ž‘์—…์„ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

LLM์€ ์ „ํ†ต์ ์ธ ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ๊ณผ ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅธ๊ฐ€์š”?

LLM์€ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹, ๋น„์ง€๋„ ์‚ฌ์ „ํ•™์Šต์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ˜๋ฉด, ์ „ํ†ต์ ์ธ ํ†ต๊ณ„ ๋ชจ๋ธ(N-๊ทธ๋žจ ๋“ฑ)์€ ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ์™€ ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค. LLM์€ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ(long-range dependencies), ๋ฌธ๋งฅ ์ž„๋ฒ ๋”ฉ(contextual embeddings), ๋‹ค์–‘ํ•œ ์ž‘์—… ์ฒ˜๋ฆฌ์— ๊ฐ•์ ์„ ๊ฐ€์ง€์ง€๋งŒ, ๋ง‰๋Œ€ํ•œ ์—ฐ์‚ฐ ์ž์›์ด ํ•„์š”ํ•˜๋‹ค๋Š” ๋‹จ์ ๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ž€ ๋ฌด์—‡์ด๋ฉฐ, ์™œ ์ค‘์š”ํ•œ๊ฐ€์š”?

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ํ•™์Šต๋ฅ (learning rate), ๋ฐฐ์น˜ ํฌ๊ธฐ(batch size)์ฒ˜๋Ÿผ ํ•™์Šต ์ „์— ์„ค์ •ํ•˜๋Š” ๊ฐ’์œผ๋กœ, ๋ชจ๋ธ ํ•™์Šต ๊ณผ์ •์„ ์ œ์–ดํ•ฉ๋‹ˆ๋‹ค. ์ด๋“ค์€ ์ˆ˜๋ ด ์†๋„์™€ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฉฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ํ•™์Šต๋ฅ ์ด ๋„ˆ๋ฌด ๋†’์œผ๋ฉด ๋ชจ๋ธ์ด ๋ถˆ์•ˆ์ •ํ•ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ ์ ˆํžˆ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์€ LLM์˜ ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•๋„๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡

ํ† ํฌ

ใ…‡
โš ๏ธ **GitHub.com Fallback** โš ๏ธ