PCA - jaeaehkim/trading_system_beta GitHub Wiki

PCA๋ฅผ ์œ„ํ•œ ์ˆ˜ํ•™์  ๊ฐœ๋…

1์ฐจ์› ๊ทผ์‚ฌ

N=3 point ์˜ˆ์ œ

1) 2์ฐจ์› ํ‰๋ฉด ์œ„์— 3๊ฐœ์˜ 2์ฐจ์› ๋ฒกํ„ฐ a1,a2,a3 (N=3) ์กด์žฌ. 2) ์›์ ์„ ์ง€๋‚˜๋ฉด์„œ 3๊ฐœ์˜ point์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์ด ์žˆ๋Š” ์ง์„ ์„ ๋งŒ๋“ฆ. Q) ์ง์„ ์˜ ๋ฐฉํ–ฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์œ„๋ฒกํ„ฐ w๋Š”?

  • ๋ฒกํ„ฐ w์™€ ์  a_i์˜ ๊ฑฐ๋ฆฌ์˜ ์ œ๊ณฑ
    • image
  • ๋ฒกํ„ฐ a1, a2, a3๋ฅผ ํ–‰๋ฒกํ„ฐ๋กœ ๊ฐ€์ง€๋Š” ํ–‰๋ ฌ A
    • image
  • ํ–‰๋ฒกํ„ฐ ๋†ˆ์˜ ์ œ๊ณฑํ•ฉ == ํ–‰๋ ฌ์˜ ๋†ˆ ์ œ๊ณฑ
    • image
  • A ํ–‰๋ ฌ์€ ๊ณ ์ •์ด๋ฏ€๋กœ ๊ฑฐ๋ฆฌ ์ตœ์†Œํ™”๋ฅผ ์œ„ํ•ด์„  ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ฌธ์ œ ๋ณ€ํ˜•
    • image
  • A ํ–‰๋ ฌ ํŠน์ด๋ถ„ํ•ด
    • image
    • image
    • image
    • image
  • |Aw|์˜ ๊ณ„์‚ฐ
    • image
    • image
    • image
  • Solution
    • image
    • image
    • image
    • image image
    • ์ตœ์†Œ ๊ฑฐ๋ฆฌ ์ œ๊ณฑ์˜ ํ•ฉ
      • image

N ์ผ๋ฐ˜ํ™”

  • |Aw|์˜ ๊ณ„์‚ฐ
    • image
  • ๋ถ„์‚ฐํ–‰๋ ฌ์˜ ๊ณ ์œ ๋ถ„ํ•ด
    • image
      • M์€ ํŠน์ž‡๊ฐ’ ๊ฐœ์ˆ˜
  • ๋ฌธ์ œ ์ •์˜
    • image
      • w๋ฅผ ๊ณ ์œ ๋ฒกํ„ฐ v1์œผ๋กœ ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๊ฐ€์žฅ ํฐ ๊ฐ’์„ ๊ฐ€์ง

๋žญํฌ-1 ๊ทผ์‚ฌ ๋ฌธ์ œ(rank-1 approximation problem)

  • a_i๋ฅผ w์— ํˆฌ์˜ํ•œ ๋ฒกํ„ฐ
    • image
      • N๊ฐœ์˜ M์ฐจ์› ๋ฒกํ„ฐ a_i๋ฅผ w vector space์— ํˆฌ์˜ํ•˜์—ฌ N๊ฐœ์˜ 1์ฐจ์›(w vector space ๊ด€์ ) ๋ฒกํ„ฐ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ
  • ๋žญํฌ-1 ๊ทผ์‚ฌ ํ–‰๋ ฌ
    • image
  • w ๋ฒกํ„ฐ๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•œ ๋ฌธ์ œ ์ •์˜
    • image

K์ฐจ์› ๊ทผ์‚ฌ

  • ์„ค๋ช…
    • image
    • image
    • image
    • image
  • ๊ธฐ์ €๋ฒกํ„ฐํ–‰๋ ฌ W
    • image
  • W vector space์— ํˆฌ์˜
    • image
  • ํ–‰๋ ฌ A ์ •์˜
    • image
  • ๋ชจ๋“  ์ ๋“ค๊ณผ์˜ ๊ฑฐ๋ฆฌ ์ œ๊ณฑํ•ฉ
    • image
  • ๊ฑฐ๋ฆฌ ์ œ๊ณฑํ•ฉ ์ตœ์†Œํ™” ๋ฌธ์ œ ์žฌ์ •์˜
    • image
  • ๋ถ„์‚ฐํ–‰๋ ฌ์˜ ๊ณ ์œ ๋ถ„ํ•ด
    • image
  • Solution
    • ๊ฐ€์žฅ ํฐ K๊ฐœ์˜ ํŠน์ž‡๊ฐ’์— ๋Œ€์‘ํ•˜๋Š” ์˜ค๋ฅธ์ชฝ ํŠน์ด๋ฒกํ„ฐ๊ฐ€ ๊ธฐ์ €๋ฒกํ„ฐ์ผ ๋•Œ ๊ฐ€์žฅ ๊ฐ’์ด ์ปค์ง„๋‹ค
    • ๊ฐ€์žฅ ํฐ ํŠน์ž‡๊ฐ’ sigma1์— K๊ฐœ๋ฅผ ๋ชจ๋‘ ๋Œ€์‘ํ•˜์ง€ ๋ชปํ•˜๋Š” ์ด์œ  -> ๊ธฐ์ €๋ฒกํ„ฐ์ด๋ฏ€๋กœ ์„ ํ˜•๋…๋ฆฝ์„ฑ์„ ์œ ์ง€ํ•ด์•ผ ํ•จ.

๋žญํฌ-K ๊ทผ์‚ฌ ๋ฌธ์ œ(rank-1 approximation problem)

  • ๋ชฉํ‘œ
    • ์œ„์˜ ๊ฐ’์„ ๊ฐ€์žฅ ํฌ๊ฒŒํ•˜๋Š” K๊ฐœ์˜ 0๋ฒกํ„ฐ๊ฐ€ ์•„๋‹Œ ์ง๊ตํ•˜๋Š” ๋‹จ์œ„๋ฒกํ„ฐ w_k๋ฅผ ์ฐพ๋Š” ๊ฒƒ
  • W vector space ํˆฌ์˜๋ฒกํ„ฐ
    • image
  • ํˆฌ์˜๋ฒกํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ๋žญํฌ-K ๊ทผ์‚ฌํ–‰๋ ฌ
    • image
  • w vector๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•œ ๋ฌธ์ œ ์ •์˜
    • image

PCA

Concept ์„ค๋ช…

  • PCA(Principal Component Analysis)๋Š” ์ฃผ์„ฑ๋ถ„ ๋ถ„์„์ด๋ผ๊ณ  ํ•˜๋ฉฐ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์„ ์ฐจ์›์ถ•์†Œ(dimension reduction)ํ•˜์—ฌ ๋” ๋‚ฎ์€ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์œผ๋กœ ๋งŒ๋“œ๋Š” ์ž‘์—…์ด๋ฉฐ, ์ด๋Š” ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•ต์‹ฌ ์›์ธ ๋ช‡ ๊ฐ€์ง€๋กœ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋œป์œผ๋กœ ํ•ด์„๋œ๋‹ค.

  • N๊ฐœ์˜ Feature๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ N๊ฐœ์˜ ์ƒํ˜ธ์ž‘์šฉ ํšจ๊ณผ(๊ฒฐํ•ฉํšจ๊ณผ)๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ๋Š” ์กฐํ•ฉ๋œ Feature๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ์˜๋ฏธ๊ฐ€ ๋œ๋‹ค. ๊ณผ์ตœ์ ํ™”๊ฐ€ ์•„๋‹Œ ๊ฒฝ์šฐ๋ฅผ ์ œ์™ธํ•˜๊ณ ๋Š” ์ด๋Ÿฐ ์กฐํ•ฉ๋œ Feature๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ธฐ์ €์— ์ˆจ์–ด์žˆ์ง€๋งŒ ์ธก์ • ๊ฐ’์„ ๊ฒฐ์ •์ง“๋Š” **์ž ์žฌ๋ณ€์ˆ˜(latent variable)**์ด๋ผ๊ณ  ํ•œ๋‹ค.

  • PCA๋Š” ์ž ์žฌ๋ณ€์ˆ˜์™€ ์ธก์ • ๊ฐ’์ด ์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋กœ ์—ฐ๊ฒฐ๋˜์–ด ์ž‡๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

    • ์ž ์žฌ๋ณ€์ˆ˜๊ฐ€ ์•„๋‹Œ ๊ธฐ์กด ๋ฐ์ดํ„ฐ ๋ณ€์ˆ˜์™€ ์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋กœ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ง„ ์•Š์Œ์— ์ฃผ์˜
    • ์ˆ˜ํ•™์  ํ‘œํ˜„ (u_i : ์ž ์žฌ๋ณ€์ˆ˜, x_i๊ฐ€ ํ‘œ๋ณธ)
      • image
      • image
  • PCA์˜ ์ฐจ์› ์ถ•์†Œ == ๋กœ์šฐ-๋žญํฌ ๊ทผ์‚ฌ๋ฌธ์ œ(low-rank approximation)

    • ๋ฌธ์ œ๋ฅผ ์‰ฝ๊ฒŒ ํ’€๊ธฐ ์œ„ํ•œ ์ œํ•œ ์กฐ๊ฑด์ด ์žˆ๋Š” ๊ฒฝ์šฐ (์›์  ์ง€๋‚˜๋Š” Case)
      • image
    • ์›์  ์ง€๋‚˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๋„ ํฌํ•จํ•œ Case
      • image
    • Solution
      • image

์ˆ˜ํ•™์  ์„ค๋ช…

  • ํ‘œ๋ณธ
    • image
      • x vector = M x 1
  • ๋ณ€ํ™˜ ํ–‰๋ ฌ
    • image
      • ํ‘œ๋ณธ์„ K(<M)์ฐจ์›์œผ๋กœ ์ถ•์†Œํ•˜๋ฉด์„œ ์ตœ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์œ ์ง€
  • ๊ฐ ์—ด๋ฒกํ„ฐ x์— ๋Œ€ํ•œ ํ‘œํ˜„
    • image
  • ๋ชจ๋“  ์—ด๋ฒกํ„ฐ x์— ๋Œ€ํ•œ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•œ ํ‘œํ˜„
    • image
      • X ํ–‰๋ ฌ์€ x_i๋ฅผ ํ–‰์œผ๋กœ ๊ฐ€์ง€๋Š” ํ–‰๋ ฌ, X^ ํ–‰๋ ฌ์€ x^_i๋ฅผ ํ–‰์œผ๋กœ ๊ฐ€์ง€๋Š” ํ–‰๋ ฌ
  • ์—ญ๋ณ€ํ™˜ ํ–‰๋ ฌ
    • image
    • image
    • image
  • ์—ญ๋ณ€ํ™˜ ํ–‰๋ ฌ ๊ฐ€์ •ํ•˜๊ณ  ๋ฌธ์ œ ์žฌ์ •์˜
    • image
  • ๋ชฉ์ ํ•จ์ˆ˜ ์ตœ์†Œํ™” ์กฐ๊ฑด ์ฐพ๊ธฐ
    • image
    • image
    • image
    • image
    • image
    • image
      • ์ด๋ก ์ ์œผ๋กœ๋Š” ์˜จ์ „ํ•œ Identity ํ–‰๋ ฌ์ด๋‚˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ ์ƒ์—์„  ๊ทธ๋ ‡์ง€ ์•Š์Œ
  • ๋ฌธ์ œ ์žฌ์ •์˜
    • image
    • image
      • X๋Š” known์ด๋ฏ€๋กœ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•ด์„œ Minimize ํ•˜๋Š” W๋ฅผ ์ฐพ์œผ๋ฉด ๋œ๋‹ค.