PCA - jaeaehkim/trading_system_beta GitHub Wiki
PCA๋ฅผ ์ํ ์ํ์ ๊ฐ๋
1์ฐจ์ ๊ทผ์ฌ
N=3 point ์์
1) 2์ฐจ์ ํ๋ฉด ์์ 3๊ฐ์ 2์ฐจ์ ๋ฒกํฐ a1,a2,a3 (N=3) ์กด์ฌ. 2) ์์ ์ ์ง๋๋ฉด์ 3๊ฐ์ point์ ๊ฐ์ฅ ๊ฐ๊น์ด ์๋ ์ง์ ์ ๋ง๋ฆ. Q) ์ง์ ์ ๋ฐฉํฅ์ ๋ํ๋ด๋ ๋จ์๋ฒกํฐ w๋?
- ๋ฒกํฐ w์ ์ a_i์ ๊ฑฐ๋ฆฌ์ ์ ๊ณฑ
- ๋ฒกํฐ a1, a2, a3๋ฅผ ํ๋ฒกํฐ๋ก ๊ฐ์ง๋ ํ๋ ฌ A
- ํ๋ฒกํฐ ๋์ ์ ๊ณฑํฉ == ํ๋ ฌ์ ๋ ์ ๊ณฑ
- A ํ๋ ฌ์ ๊ณ ์ ์ด๋ฏ๋ก ๊ฑฐ๋ฆฌ ์ต์ํ๋ฅผ ์ํด์ ๋ค์๊ณผ ๊ฐ์ด ๋ฌธ์ ๋ณํ
- A ํ๋ ฌ ํน์ด๋ถํด
- |Aw|์ ๊ณ์ฐ
- Solution
- ์ต์ ๊ฑฐ๋ฆฌ ์ ๊ณฑ์ ํฉ
N ์ผ๋ฐํ
- |Aw|์ ๊ณ์ฐ
- ๋ถ์ฐํ๋ ฌ์ ๊ณ ์ ๋ถํด
- M์ ํน์๊ฐ ๊ฐ์
- ๋ฌธ์ ์ ์
- w๋ฅผ ๊ณ ์ ๋ฒกํฐ v1์ผ๋ก ํ๋ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ์ง
๋ญํฌ-1 ๊ทผ์ฌ ๋ฌธ์ (rank-1 approximation problem)
- a_i๋ฅผ w์ ํฌ์ํ ๋ฒกํฐ
- N๊ฐ์ M์ฐจ์ ๋ฒกํฐ a_i๋ฅผ w vector space์ ํฌ์ํ์ฌ N๊ฐ์ 1์ฐจ์(w vector space ๊ด์ ) ๋ฒกํฐ๋ฅผ ๋ง๋ค ์ ์์
- ๋ญํฌ-1 ๊ทผ์ฌ ํ๋ ฌ
- w ๋ฒกํฐ๋ฅผ ๊ตฌํ๊ธฐ ์ํ ๋ฌธ์ ์ ์
K์ฐจ์ ๊ทผ์ฌ
- ์ค๋ช
- ๊ธฐ์ ๋ฒกํฐํ๋ ฌ W
- W vector space์ ํฌ์
- ํ๋ ฌ A ์ ์
- ๋ชจ๋ ์ ๋ค๊ณผ์ ๊ฑฐ๋ฆฌ ์ ๊ณฑํฉ
- ๊ฑฐ๋ฆฌ ์ ๊ณฑํฉ ์ต์ํ ๋ฌธ์ ์ฌ์ ์
- ๋ถ์ฐํ๋ ฌ์ ๊ณ ์ ๋ถํด
- Solution
- ๊ฐ์ฅ ํฐ K๊ฐ์ ํน์๊ฐ์ ๋์ํ๋ ์ค๋ฅธ์ชฝ ํน์ด๋ฒกํฐ๊ฐ ๊ธฐ์ ๋ฒกํฐ์ผ ๋ ๊ฐ์ฅ ๊ฐ์ด ์ปค์ง๋ค
- ๊ฐ์ฅ ํฐ ํน์๊ฐ sigma1์ K๊ฐ๋ฅผ ๋ชจ๋ ๋์ํ์ง ๋ชปํ๋ ์ด์ -> ๊ธฐ์ ๋ฒกํฐ์ด๋ฏ๋ก ์ ํ๋ ๋ฆฝ์ฑ์ ์ ์งํด์ผ ํจ.
๋ญํฌ-K ๊ทผ์ฌ ๋ฌธ์ (rank-1 approximation problem)
- ๋ชฉํ
- ์์ ๊ฐ์ ๊ฐ์ฅ ํฌ๊ฒํ๋ K๊ฐ์ 0๋ฒกํฐ๊ฐ ์๋ ์ง๊ตํ๋ ๋จ์๋ฒกํฐ w_k๋ฅผ ์ฐพ๋ ๊ฒ
- W vector space ํฌ์๋ฒกํฐ
- ํฌ์๋ฒกํฐ๋ฅผ ํ์ฉํ ๋ญํฌ-K ๊ทผ์ฌํ๋ ฌ
- w vector๋ฅผ ๊ตฌํ๊ธฐ ์ํ ๋ฌธ์ ์ ์
PCA
Concept ์ค๋ช
-
PCA(Principal Component Analysis)๋ ์ฃผ์ฑ๋ถ ๋ถ์์ด๋ผ๊ณ ํ๋ฉฐ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ ์งํฉ์ ์ฐจ์์ถ์(dimension reduction)ํ์ฌ ๋ ๋ฎ์ ์ฐจ์์ ๋ฐ์ดํฐ ์งํฉ์ผ๋ก ๋ง๋๋ ์์ ์ด๋ฉฐ, ์ด๋ ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ํต์ฌ ์์ธ ๋ช ๊ฐ์ง๋ก ์ค๋ช ํ ์ ์๋ค๋ ๋ป์ผ๋ก ํด์๋๋ค.
-
N๊ฐ์ Feature๊ฐ ์์ ๊ฒฝ์ฐ N๊ฐ์ ์ํธ์์ฉ ํจ๊ณผ(๊ฒฐํฉํจ๊ณผ)๊ฐ ์๋ ๊ฒฝ์ฐ๋ ์กฐํฉ๋ Feature๊ฐ ํ์ํ๋ค๋ ์๋ฏธ๊ฐ ๋๋ค. ๊ณผ์ต์ ํ๊ฐ ์๋ ๊ฒฝ์ฐ๋ฅผ ์ ์ธํ๊ณ ๋ ์ด๋ฐ ์กฐํฉ๋ Feature๋ ๋ฐ์ดํฐ์ ๊ธฐ์ ์ ์จ์ด์์ง๋ง ์ธก์ ๊ฐ์ ๊ฒฐ์ ์ง๋ **์ ์ฌ๋ณ์(latent variable)**์ด๋ผ๊ณ ํ๋ค.
-
PCA๋ ์ ์ฌ๋ณ์์ ์ธก์ ๊ฐ์ด ์ ํ์ ์ธ ๊ด๊ณ๋ก ์ฐ๊ฒฐ๋์ด ์๋ค๊ณ ๊ฐ์ ํ๋ค.
- ์ ์ฌ๋ณ์๊ฐ ์๋ ๊ธฐ์กด ๋ฐ์ดํฐ ๋ณ์์ ์ ํ์ ์ธ ๊ด๊ณ๋ก ์ฐ๊ฒฐ๋์ด ์๋ค๊ณ ๊ฐ์ ํ์ง ์์์ ์ฃผ์
- ์ํ์ ํํ (u_i : ์ ์ฌ๋ณ์, x_i๊ฐ ํ๋ณธ)
-
PCA์ ์ฐจ์ ์ถ์ == ๋ก์ฐ-๋ญํฌ ๊ทผ์ฌ๋ฌธ์ (low-rank approximation)
- ๋ฌธ์ ๋ฅผ ์ฝ๊ฒ ํ๊ธฐ ์ํ ์ ํ ์กฐ๊ฑด์ด ์๋ ๊ฒฝ์ฐ (์์ ์ง๋๋ Case)
- ์์ ์ง๋์ง ์๋ ๊ฒฝ์ฐ๋ ํฌํจํ Case
- Solution
- ๋ฌธ์ ๋ฅผ ์ฝ๊ฒ ํ๊ธฐ ์ํ ์ ํ ์กฐ๊ฑด์ด ์๋ ๊ฒฝ์ฐ (์์ ์ง๋๋ Case)
์ํ์ ์ค๋ช
- ํ๋ณธ
- x vector = M x 1
- ๋ณํ ํ๋ ฌ
- ํ๋ณธ์ K(<M)์ฐจ์์ผ๋ก ์ถ์ํ๋ฉด์ ์ต๋ํ ์ ๋ณด๋ฅผ ์ ์ง
- ๊ฐ ์ด๋ฒกํฐ x์ ๋ํ ํํ
- ๋ชจ๋ ์ด๋ฒกํฐ x์ ๋ํ ํ๋ ฌ์ ์ฌ์ฉํ ํํ
- X ํ๋ ฌ์ x_i๋ฅผ ํ์ผ๋ก ๊ฐ์ง๋ ํ๋ ฌ, X^ ํ๋ ฌ์ x^_i๋ฅผ ํ์ผ๋ก ๊ฐ์ง๋ ํ๋ ฌ
- ์ญ๋ณํ ํ๋ ฌ
- ์ญ๋ณํ ํ๋ ฌ ๊ฐ์ ํ๊ณ ๋ฌธ์ ์ฌ์ ์
- ๋ชฉ์ ํจ์ ์ต์ํ ์กฐ๊ฑด ์ฐพ๊ธฐ
- ์ด๋ก ์ ์ผ๋ก๋ ์จ์ ํ Identity ํ๋ ฌ์ด๋ ์ค์ ๋ฐ์ดํฐ ์์์ ๊ทธ๋ ์ง ์์
- ๋ฌธ์ ์ฌ์ ์
- X๋ known์ด๋ฏ๋ก ์ต์ ํ ๊ธฐ๋ฒ์ ํ์ฉํด์ Minimize ํ๋ W๋ฅผ ์ฐพ์ผ๋ฉด ๋๋ค.