ai basics - modrpc/info GitHub Wiki

Table of Contents

신경망 λ‚΄λΆ€μ˜ 데이터 경둜 μ œμ–΄ λ©”μ»€λ‹ˆμ¦˜ (Vector Steering)

λ³Έ λ¬Έμ„œλŠ” ν…μŠ€νŠΈ λͺ…λ Ήμ–΄κ°€ μ–΄λ–»κ²Œ κ³ μ •λœ κ°€μ€‘μΉ˜($W$) μœ„μ—μ„œ μ‹€μ‹œκ°„ μ œμ–΄ μ‹ ν˜Έ(Key)둜 μž‘λ™ν•˜μ—¬ λ°μ΄ν„°μ˜ 흐름을 λ°”κΎΈλŠ”μ§€ μ„€λͺ…ν•œλ‹€.

1. μž…λ ₯의 벑터화 및 μž„λ² λ”© 곡간 (Embedding Space)

μ‚¬μš©μžμ˜ μž…λ ₯은 고차원 κ³΅κ°„μƒμ˜ μ’Œν‘œλ‘œ λ³€ν™˜λœλ‹€.

  • 토큰화 (Tokenization): λ¬Έμž₯을 μ΅œμ†Œ 의미 λ‹¨μœ„λ‘œ λΆ„ν• .
  • 벑터 투영: 각 토큰은 수천 μ°¨μ›μ˜ λ²‘ν„°λ‘œ λ³€ν™˜λ¨.
  • μˆ˜μ‹:
<math>e = \text{Embedding}(token)</math>

2. μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ ν†΅ν•œ 'Key'의 생성

μž…λ ₯된 λͺ…λ Ήμ–΄λŠ” ν•˜λ“œμ›¨μ–΄μ˜ λ ˆμ§€μŠ€ν„° νŒ¨μΉ˜μ™€ 같은 역할을 ν•˜λ©°, KV Cache에 μ €μž₯λœλ‹€.

  • KV Cache 상주: λͺ…λ Ήμ–΄ "From now on use HJJ"μ—μ„œ μΆ”μΆœλœ νŠΉμ§•μ΄ Key($K$) 벑터가 λ˜μ–΄ μž„μ‹œ λ©”λͺ¨λ¦¬μ— μ €μž₯됨.
  • 색인화: νŠΉμ • μž…λ ₯(Query)이 듀어왔을 λ•Œ μ–΄λ””λ₯Ό μ°Έμ‘°ν• μ§€ κ²°μ •ν•˜λŠ” 기쀀점이 됨.

3. μ„ ν˜• λ³€ν™˜μ„ ν†΅ν•œ 경둜 μœ λ„ (Vector Steering)

μ‹€μ œ μ—°μ‚° μ‹œ $Q$와 $K$의 μœ μ‚¬λ„λ₯Ό κ³„μ‚°ν•˜μ—¬ 데이터 ν†΅λ‘œλ₯Ό κ²°μ •ν•œλ‹€.

  • μœ μ‚¬λ„ 계산: μž…λ ₯ Query($Q$)와 μΊμ‹œλœ Key($K$)의 내적(Dot Product) μ—°μ‚°.
  • μˆ˜μ‹ (Attention Core):
<math>\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V</math>
  • μ—”μ§€λ‹ˆμ–΄λ§ 포인트: 내적값이 λ†’μ„μˆ˜λ‘ ν•΄λ‹Ή 경둜의 κ²Œμ΄νŠΈκ°€ 열리며, νŠΉμ • 정보(Value)κ°€ 증폭됨.

4. 동적 λ°”μ΄μ–΄μŠ€(Dynamic Bias)의 적용

λͺ…λ Ήμ–΄λŠ” κΈ°μ‘΄ μ„ ν˜• 결합에 쑰건뢀 λ°”μ΄μ–΄μŠ€λ₯Ό μΆ”κ°€ν•˜λŠ” 것과 κ°™λ‹€.

  • κΈ°λ³Έ μƒνƒœ:
<math>y = Wx + b</math>
  • λͺ…λ Ήμ–΄ κ°œμž… μ‹œ:
<math>y = Wx + (b + \mathbf{c}_{HJJ})</math>
  • 효과: μ œμ–΄ 벑터 $\mathbf{c}_{HJJ}$κ°€ κΈ°μ‘΄ 좜λ ₯ λ°©ν–₯을 μƒˆλ‘œμš΄ μ’Œν‘œμΆ•(HJJ의 μ •μ˜)으둜 λΉ„ν‹‚(Steering).

5. μš”μ•½: 물리적 μ—°μ‚° 흐름

단계 μ—°μ‚° 성격 ν•˜λ“œμ›¨μ–΄μ  λΉ„μœ 
1. Fetch Embedding 섀계도 λ‘œλ”© (Input Vectors)
2. Store KV Caching μ œμ–΄ λ ˆμ§€μŠ€ν„° μ„€μ • (Patch Key)
3. Match Dot Product CAM (Content-Addressable Memory) 검색
4. Execute Weighted Sum 데이터 경둜 λ¦¬λ‹€μ΄λ ‰μ…˜ (Steering)

6. κ²°λ‘ 

λͺ…λ Ήμ–΄ ν…μŠ€νŠΈλŠ” κ³ μ •λœ κ°€μ€‘μΉ˜(ROM)λ₯Ό μˆ˜μ •ν•˜μ§€ μ•Šκ³ , μ–΄ν…μ…˜ λ ˆμ΄μ–΄μ˜ 내적 연산을 톡해 데이터가 흐λ₯΄λŠ” 쀑λ ₯μž₯을 μ‹€μ‹œκ°„μœΌλ‘œ μž¬κ΅¬μ„±ν•˜λŠ” μ†Œν”„νŠΈμ›¨μ–΄μ  μ œμ–΄ μ‹ ν˜Έμ΄λ‹€.

⚠️ **GitHub.com Fallback** ⚠️