Bayesian - k821209/pipelines GitHub Wiki
bayesian ์ ๋ฆฌ
http://blog.synapsoft.co.kr/103
- ์ ํ์ง์์ด ์๋ A๊ณ๋ฅผ ๋ฐํ์ผ๋ก ์ด๋ค ๊ณ์์ ์์ฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅํ์ฌ A๊ณ์์ ๋์๋์ง์ ๋ํด ํ๋ฅ ์ ๋ง๋ค์ด๋๊ฐ๋ค.
H : AP2 gene family์ด๋ค. (A๊ณ ์ด๋ค.)
P(H) : AP2 gene family์ผ ๊ฐ๋ฅ์ฑ/์ ๋ขฐ๋
D : "ATGC" ๊ฐ ์กด์ฌํ๋ค. (์ด๋ค ๊ด์ฐฐ์ด ์กด์ฌํ๋ค)
P(D) : "ATGC"๊ฐ ์กด์ฌํ ํ๋ฅ
P(D|H) : AP2 gene family์์ "ATGC"๊ฐ ์กด์ฌํ ํ๋ฅ (A๊ณ์ ์ ํ์ง์)
P(H|D) : "ATGC" ๊ฐ ์กด์ฌํ๋ ๊ฒ์ ํ์ธ ํ์๋, AP2 gene family์ผ ํ๋ฅ /๊ฐ๋ฅ์ฑ/์ ๋ขฐ๋
๋ฐ์ดํฐ๋ฅผ ํ์ธ ํ์ผ๋ฏ๋ก ๊ณ๋ D๊ฐ ํ์ธ๋ ๊ณ๋ก ๋์ด๊ฐ๋ฏ๋ก
P(H|D) -> P(H) ๋ก ์
๋ฐ์ดํธ๋๋ค. (๊ณ๊ฐ ๋ฐ๋๋๊ฒ)
๋ค์๊ด์ฐฐ "ATGG"๋ก ์งํ.. ๋ฐ๋ณต
- E๋ ๊ฐ์ค๊ณผ ๊ฐ์ค์ด ์๋ ๊ณ์์ ๋์จ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ํฌํจํด์ผํ๋ค. (ํน์ gene family๋ฅผ ๋ชจ๋ธํ๊ณ ์๋ฑํ ์ ์ ์๋งE๋ก ๋ฃ์ผ๋ฉด ๋ชจ์)
H : AP2 gene family์ด๋ค.
D : "ATGGCC" kmer ๊ฐ ์๋ค.
P(H|D) = P(D|H)P(H)/P(D)
P(D|H) = AP2 gene family ์์ "ATGGCC" kmer ์ ๋น๋
P(H) = prior
P(D) = ๋ชจ๋ ์ ์ ์์์์ "ATGGCC"์ ๋น๋
์ด๊ฒ์ AP2 gene family ์์ ๊ด์ฐฐ ๊ฐ๋ฅํ ๋ชจ๋ kmer์ ๋ํด์ ํ๋ค.
๊ฐ kmer๋น P(D|H) ์ P(E) ๊ฐ ์๊ธด๋ค.
ํ
์ด๋ธ์ด ์์ฑ๋๋ฉด
DELLA ์ ์ ์์ค ํ๋๋ฅผ ๊ณจ๋ผ์ ์ถํํ๋ kmer์ค ํ๋ จ๋ kmer ๊ฐ ์กด์ฌ ํ๋์ง๋ฅผ ํ์ธํ๊ณ
P(H|D) ๋ฅผ ๊ณ์ฐํ๊ณ P(H)๋ก ์
๋ฐ์ดํธํ๋ค.
๊ด์ฐฐ์ ์ํด์ kmer๊ฐ ์กด์ฌํ๋ ๊ฒ์ด ํ์ธ์ด ๋์์ผ๋ฏ๋ก P(H|D) = P(H) ๋ก ์ด๋ํ๋๊ฒ.
์ด๋ ์ค์ํ๊ฒ์ ์
๋ฐ์ดํธ๋ P(H) ๊ฐ ๋๋ฌด ์ปค์ (0.9) ๋ค์ kmer ์ ๊ฒฝ์ฐ์ ๋๋ฌด ๋๋จ์ด์ง ๊ฒฝ์ฐ๊ฐ ์๋ค.
์๋ฅผ๋ค๋ฉด P(D|H)= 0.1 P(D)=0.01 ์ด๋ P(H) ๊ฐ 0.9๊ฐ ๋๋ฉด P(H|D) ๊ฐ 1์ด ๋์ด๊ฐ๋ฒ๋ฆฐ๋ค.
1๋ณด๋คํฐ P(D|H)/P(D) ๊ฐ์ ์ํด์ prior๊ฐ์ด ๋๋์ posterior๊ฐ์ผ๋ก ์
๋ฐ์ดํธ ๋๊ฒ ๋๋๋ฐ ์ด๋ฐ ๊ธ๊ฒฉํ ์ฆ์์ 1๋ณด๋ค ์์ P(D|H)/P(D) ๊ฐ์ด ์ถฉ๋ถํ ๋ฐ์์ด ์๋ ์ํ๋ก 1๋ณด๋ค ํฐ๊ฐ๋ถํฐ ๊ณ์ฐ์ด ๋์ด์์ด๋ค. ๋ฐ๋ผ์ P(D|H)/P(D) ๊ฐ์ ์ค๋ฆ ์ฐจ์์ผ๋ก ์ ๋ ฌํ๋ค์ ํด๋นํ๋ kmer ๋ถํฐ ๊ณ์ฐ์ ํ๋ฉด ์์ ์ ์ธ update๋ฅผ ํ ์ ์๋ค.
http://seven.15:9999/notebooks/ref/analysis/bayesian/bayesian.ipynb
P(H1|E1) = P(E1|H1) * P(H1) / P(E1)
P(H1) : H1 ์ ๊ฐ์ ์ด ๋ง์ ํ๋ฅ
ex1 > biased coin (head ๊ฐ ๋ ๋ง์ด ๋์ค๋ ์ฝ์ธ์ผ ๊ฒ์ด๋ค.). ์ฌ๊ธฐ์ฝ์ธ์์ ์์ฐ๋ ๋ฐ์ดํฐ์ด๋ค.
ex2 > ๋ง์๊ณณ์ ๊ณผ๋
์ด๋ค. ๊ณผ๋
์ด๋ผ๋ ๊ณ์์ ์์ฐ๋ ๋ฐ์ดํฐ์ด๋ค.
ex3 > ํด๋น genotype set์ ์์ฐ๋์ ๋๋ฆฌ๋ ๋ชจ๋ถ๋ณธ์ด๋ค. ์์ฐ๋์ ๋๋ฆฌ๋ ๋ชจ๋ถ๋ณธ์์ ๋์จ genotype์ด๋ค.
H1 :
๋ถ๋ ๊ฐ์ฒด ๋น๋๋ฅผ ๊ด์ฐฐํ๊ฒ ๋ค. -> H : ํด๋น๊ณ๊ฐ ๋ถ๋๊ณ์
head๊ฐ ๋์ค๋ ๋น๋๋ฅผ ๊ด์ฐฐํ๊ฒ ๋ค. -> H : ํด๋น๊ณ๊ฐ head biased coin์ด๋ค.
ํน์ kmer์ ๋น๋๋ฅผ ์กฐ์ฌํ๊ฒ ๋ค. -> H : ํด๋น๊ณ๊ฐ ํน์ kmer๋ฅผ ์์ฐํ๋ ์ ์ ์์ด๋ค.
๋ฐ๋ผ์ ์ด๋ค kmer๋ฅผ ์ ํ๋๋์ ๋ฐ๋ผ์ ๊ฒ์ฌํ๊ณ ์ถ์ ์ ์ ์๊ฐ ๊ฒฐ์ ๋๋ค.
๋ฐ์ดํฐ ์์ฐ์ ์ฌ๋ฌ๋ฒ ํ ์ ์๋ ๊ณ๋ฅผ H๋ก ์ผ๋ ๊ฒ์ด ์ข๋ค. ํน์ ์ ์ ์๊ฐ H๊ฐ ๋๋ฉด ์์ฐ์ด ํ๋ฒ์ด๊ธฐ ๋๋ฌธ์ ์ข์ง ์์๋ฏ.
์๋ state๋ฅผ ์ฐ๋๊ฒ ๋ฐ๋ก ๊ทธ๊ฒ์ธ๋ฏ?
์ฃผ์ฌ์์ ๊ฐ์ด ํ๋ฅ ์ ํํํ๊ธฐ ์ฌ์ด ๊ฒฝ์ฐ๊ฐ ์๋๋ผ ํ๋ฅ ์ ํํํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๋ผ๋ฉด ์ด๋จ๊น?
์๋ฅผ ๋ค๋ฉด sequence
'ATGC' -> markov process
P(E1) : H1์ ๊ฐ์ ์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ ๊ด์ฐฐ ํ๋ฅ + H1์ ๊ฐ์ ์ ๋ฐ๋ฅด์ง ์๋ ๋ฐ์ดํฐ ํ๋ฅ
์ด๋ค ๋ฐ์ดํฐ๋ฅผ ๊ด์ฐฐํ๋๋๊ฐ ์ค์. ๊ฐ์ ์ ๋ฐ๋ฅด๋ ์๋ฐ๋ฅด๋ ๋ชจ๋ ๊ณณ์ ๋ง์ด ์กด์ฌํ๋ ๋ฐ์ดํฐ๋ ์๋ฏธ๊ฐ ์๋ค.
๋ถ๋์ ํ์ ๋ถ๋๊ณ์ ์ ์๊ณ์ฌ์ด์ conditional probability๊ฐ ์ฐจ์ด๊ฐ ๋จ.
ํ์ง๋ง ํฌ์ฅ์ง์ ๊ฐฏ์๋ ์ฐจ์ด๊ฐ๋์ง ์๋๋ค. ๊ตฌ๋ถ์๋จ.
P(E1) = P(E1|H1)*P(H1) + P(E1|~H1)*P(~H1)
ex1 > ๋์ ์ Head๊ด์ฐฐ ํ๋ฅ ์ฌ๊ธฐ ๋์ ์ด๋ ์๋๋
ex2 > x,y์ ํ์ด์ด ๋ง์ ํ๋ฅ ๊ฑฐ๊ธฐ๊ฐ ๊ณผ๋
์ด๋ ์๋๋
P(H1|E1) ์ ์ฌํํ๋ฅ ๋ก ๋ค์ ๋ฐ์ดํฐ๊ฐ ๋ํ๋๋ฉด Prior๋ฅผ ๋์ฒดํ๋ค. ๊ณ์ ์
๋ฐ์ดํธ
์๊ฐ์ ํ๋ฆ
H: ์ ๊ณต์ฅ์ ๋ถ๋์ ํ๊ณ์ด๋ค.
E: ๋ชจ๋ ๊ณต์ฅ์ ๋ถ๋์ ํ๋น์จ์กฐ์ฌ.
P(E|H) = ์ด๋ฏธ ์๊ณ ์๋ ๋ถ๋์ ํ๊ณ์ ๋ถ๋๋ฅ (๋ต์์ง)
P(H) = ๋ถ๋์ ํ๊ณ๊ฐ ๋ง์ ๊ฐ๋ฅ์ฑ, Prior, ๊ณ์์
๋ฐ์ดํธ
H: ์ด ์์ญ์ Transcription Factor์ด๋ค.
E: ๋ชจ๋ ์์ญ์ TF์ฐ๋ฌผ? ์กฐ์ฌ
P(E|H) = ์ด๋ฏธ ์๊ณ ์๋ TF์ ์ฐ๋ฌผ ๋น์จ. (๋ต์์ง) # ์ด๊ฒ์ ๋ณด๋ฉด TF๊ฐ ์ด๋ค ๋ฐ์ดํฐ ํน์ฑ์ ๊ฐ์ง๊ณ ์๋์ง์ ๋ํ ์ ํ ์ง์์ด ํ์ํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
P(H) = TF๊ฐ ๋ง์ ๊ฐ๋ฅ์ฑ.
Markov model
P(E|H) ๊ฐ markov process ๊ทธ๋ฆผ์ผ๋ก ์ ์๋จ.
>-Rainy <-> Sunny-<
๊ฐ edge์ ํด๋นํ๋ prob๊ฐ ์ ํ์ง์์ผ๋ก ์ ๊ณต.