Bayesian - k821209/pipelines GitHub Wiki

bayesian ์ •๋ฆฌ

http://blog.synapsoft.co.kr/103

  • ์„ ํ–‰์ง€์‹์ด ์žˆ๋Š” A๊ณ„๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์–ด๋–ค ๊ณ„์—์„œ ์ƒ์‚ฐ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅํ•˜์—ฌ A๊ณ„์—์„œ ๋‚˜์™”๋Š”์ง€์— ๋Œ€ํ•ด ํ™•๋ฅ ์„ ๋งŒ๋“ค์–ด๋‚˜๊ฐ„๋‹ค.
H : AP2 gene family์ด๋‹ค. (A๊ณ„ ์ด๋‹ค.) 
P(H) : AP2 gene family์ผ ๊ฐ€๋Šฅ์„ฑ/์‹ ๋ขฐ๋„
D : "ATGC" ๊ฐ€ ์กด์žฌํ•œ๋‹ค. (์–ด๋–ค ๊ด€์ฐฐ์ด ์กด์žฌํ•œ๋‹ค)
P(D) : "ATGC"๊ฐ€ ์กด์žฌํ•  ํ™•๋ฅ 
P(D|H) : AP2 gene family์—์„œ "ATGC"๊ฐ€ ์กด์žฌํ•  ํ™•๋ฅ  (A๊ณ„์˜ ์„ ํ–‰์ง€์‹) 
P(H|D) : "ATGC" ๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธ ํ–ˆ์„๋•Œ, AP2 gene family์ผ ํ™•๋ฅ /๊ฐ€๋Šฅ์„ฑ/์‹ ๋ขฐ๋„

๋ฐ์ดํ„ฐ๋ฅผ ํ™•์ธ ํ–ˆ์œผ๋ฏ€๋กœ ๊ณ„๋Š” D๊ฐ€ ํ™•์ธ๋œ ๊ณ„๋กœ ๋„˜์–ด๊ฐ€๋ฏ€๋กœ 
P(H|D) -> P(H) ๋กœ ์—…๋ฐ์ดํŠธ๋œ๋‹ค. (๊ณ„๊ฐ€ ๋ฐ”๋€Œ๋Š”๊ฒƒ) 
๋‹ค์Œ๊ด€์ฐฐ "ATGG"๋กœ ์ง„ํ–‰.. ๋ฐ˜๋ณต 

  • E๋Š” ๊ฐ€์„ค๊ณผ ๊ฐ€์„ค์ด ์•„๋‹Œ ๊ณ„์—์„œ ๋‚˜์˜จ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•ด์•ผํ•œ๋‹ค. (ํŠน์ • gene family๋ฅผ ๋ชจ๋ธํ•˜๊ณ  ์—‰๋šฑํ•œ ์œ ์ „์ž๋งŒE๋กœ ๋„ฃ์œผ๋ฉด ๋ชจ์ˆœ)
H : AP2 gene family์ด๋‹ค.
D : "ATGGCC" kmer ๊ฐ€ ์žˆ๋‹ค. 

P(H|D) = P(D|H)P(H)/P(D)

P(D|H) = AP2 gene family ์—์„œ "ATGGCC" kmer ์˜ ๋นˆ๋„
P(H)   = prior 
P(D)   = ๋ชจ๋“  ์œ ์ „์ž์—์„œ์˜ "ATGGCC"์˜ ๋นˆ๋„

์ด๊ฒƒ์„ AP2 gene family ์—์„œ ๊ด€์ฐฐ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  kmer์— ๋Œ€ํ•ด์„œ ํ•œ๋‹ค.
๊ฐ kmer๋‹น P(D|H) ์™€ P(E) ๊ฐ€ ์ƒ๊ธด๋‹ค. 
ํ…Œ์ด๋ธ”์ด ์™„์„ฑ๋˜๋ฉด 

DELLA ์œ ์ „์ž์ค‘ ํ•˜๋‚˜๋ฅผ ๊ณจ๋ผ์„œ ์ถœํ˜„ํ•˜๋Š” kmer์ค‘ ํ›ˆ๋ จ๋œ kmer ๊ฐ€ ์กด์žฌ ํ•˜๋Š”์ง€๋ฅผ ํ™•์ธํ•˜๊ณ 
P(H|D) ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  P(H)๋กœ ์—…๋ฐ์ดํŠธํ•œ๋‹ค. 
๊ด€์ฐฐ์— ์˜ํ•ด์„œ kmer๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒƒ์ด ํ™•์ธ์ด ๋˜์—‡์œผ๋ฏ€๋กœ P(H|D) = P(H) ๋กœ ์ด๋™ํ•˜๋Š”๊ฒƒ. 
์ด๋•Œ ์ค‘์š”ํ•œ๊ฒƒ์€ ์—…๋ฐ์ดํŠธ๋œ P(H) ๊ฐ€ ๋„ˆ๋ฌด ์ปค์„œ (0.9) ๋‹ค์Œ kmer ์˜ ๊ฒฝ์šฐ์™€ ๋„ˆ๋ฌด ๋™๋–จ์–ด์งˆ ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค. 
์˜ˆ๋ฅผ๋“ค๋ฉด P(D|H)= 0.1 P(D)=0.01 ์ด๋•Œ P(H) ๊ฐ€ 0.9๊ฐ€ ๋˜๋ฉด P(H|D) ๊ฐ€ 1์ด ๋„˜์–ด๊ฐ€๋ฒ„๋ฆฐ๋‹ค. 
1๋ณด๋‹คํฐ P(D|H)/P(D) ๊ฐ’์— ์˜ํ•ด์„œ prior๊ฐ’์ด ๋”๋†’์€ posterior๊ฐ’์œผ๋กœ ์—…๋ฐ์ดํŠธ ๋˜๊ฒŒ ๋˜๋Š”๋ฐ ์ด๋Ÿฐ ๊ธ‰๊ฒฉํ•œ ์ฆ์‹์€ 1๋ณด๋‹ค ์ž‘์€ P(D|H)/P(D) ๊ฐ’์ด ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜์ด ์•ˆ๋œ ์ƒํƒœ๋กœ 1๋ณด๋‹ค ํฐ๊ฐ’๋ถ€ํ„ฐ ๊ณ„์‚ฐ์ด ๋˜์–ด์„œ์ด๋‹ค. ๋”ฐ๋ผ์„œ P(D|H)/P(D) ๊ฐ’์„ ์˜ค๋ฆ„ ์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•œ๋‹ค์Œ ํ•ด๋‹นํ•˜๋Š” kmer ๋ถ€ํ„ฐ ๊ณ„์‚ฐ์„ ํ•˜๋ฉด ์•ˆ์ •์ ์ธ update๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค. 
http://seven.15:9999/notebooks/ref/analysis/bayesian/bayesian.ipynb

 
P(H1|E1) = P(E1|H1) * P(H1) / P(E1) 
P(H1) : H1 ์˜ ๊ฐ€์ •์ด ๋งž์„ ํ™•๋ฅ  
      ex1 > biased coin (head ๊ฐ€ ๋” ๋งŽ์ด ๋‚˜์˜ค๋Š” ์ฝ”์ธ์ผ ๊ฒƒ์ด๋‹ค.). ์‚ฌ๊ธฐ์ฝ”์ธ์—์„œ ์ƒ์‚ฐ๋œ ๋ฐ์ดํ„ฐ์ด๋‹ค. 
      ex2 > ๋งž์€๊ณณ์€ ๊ณผ๋…์ด๋‹ค. ๊ณผ๋…์ด๋ผ๋Š” ๊ณ„์—์„œ ์ƒ์‚ฐ๋œ ๋ฐ์ดํ„ฐ์ด๋‹ค.  
      ex3 > ํ•ด๋‹น genotype set์€ ์ƒ์‚ฐ๋Ÿ‰์˜ ๋Š˜๋ฆฌ๋Š” ๋ชจ๋ถ€๋ณธ์ด๋‹ค. ์ƒ์‚ฐ๋Ÿ‰์„ ๋Š˜๋ฆฌ๋Š” ๋ชจ๋ถ€๋ณธ์—์„œ ๋‚˜์˜จ genotype์ด๋‹ค. 
H1 : 
     ๋ถˆ๋Ÿ‰ ๊ฐœ์ฒด ๋นˆ๋„๋ฅผ ๊ด€์ฐฐํ•˜๊ฒ ๋‹ค. -> H : ํ•ด๋‹น๊ณ„๊ฐ€ ๋ถˆ๋Ÿ‰๊ณ„์ž„
     head๊ฐ€ ๋‚˜์˜ค๋Š” ๋นˆ๋„๋ฅผ ๊ด€์ฐฐํ•˜๊ฒ ๋‹ค. -> H : ํ•ด๋‹น๊ณ„๊ฐ€ head biased coin์ด๋‹ค. 
     ํŠน์ • kmer์˜ ๋นˆ๋„๋ฅผ ์กฐ์‚ฌํ•˜๊ฒ ๋‹ค.   -> H : ํ•ด๋‹น๊ณ„๊ฐ€ ํŠน์ • kmer๋ฅผ ์ƒ์‚ฐํ•˜๋Š” ์œ ์ „์ž์ด๋‹ค. 
         ๋”ฐ๋ผ์„œ ์–ด๋–ค kmer๋ฅผ ์ •ํ•˜๋А๋ƒ์— ๋”ฐ๋ผ์„œ ๊ฒ€์‚ฌํ•˜๊ณ ์‹ถ์€ ์œ ์ „์ž๊ฐ€ ๊ฒฐ์ •๋œ๋‹ค. 
     ๋ฐ์ดํ„ฐ ์ƒ์‚ฐ์„ ์—ฌ๋Ÿฌ๋ฒˆ ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ„๋ฅผ H๋กœ ์‚ผ๋Š” ๊ฒƒ์ด ์ข‹๋‹ค. ํŠน์ • ์œ ์ „์ž๊ฐ€  H๊ฐ€ ๋˜๋ฉด ์ƒ์‚ฐ์ด ํ•œ๋ฒˆ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ข‹์ง€ ์•Š์€๋“ฏ. 
     ์€๋‹‰ state๋ฅผ ์“ฐ๋Š”๊ฒŒ ๋ฐ”๋กœ ๊ทธ๊ฒƒ์ธ๋“ฏ? 
     ์ฃผ์‚ฌ์œ„์™€ ๊ฐ™์ด ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•˜๊ธฐ ์‰ฌ์šด ๊ฒฝ์šฐ๊ฐ€ ์•„๋‹ˆ๋ผ ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ๋ผ๋ฉด ์–ด๋–จ๊นŒ? 
     ์˜ˆ๋ฅผ ๋“ค๋ฉด sequence 
     'ATGC' -> markov process
 
P(E1) : H1์˜ ๊ฐ€์ •์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ ๊ด€์ฐฐ ํ™•๋ฅ  + H1์˜ ๊ฐ€์ •์— ๋”ฐ๋ฅด์ง€ ์•Š๋Š” ๋ฐ์ดํ„ฐ ํ™•๋ฅ  
       ์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ ๊ด€์ฐฐํ•˜๋А๋ƒ๊ฐ€ ์ค‘์š”. ๊ฐ€์ •์— ๋”ฐ๋ฅด๋“  ์•ˆ๋”ฐ๋ฅด๋“  ๋ชจ๋“ ๊ณณ์— ๋งŽ์ด ์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ๋Š” ์˜๋ฏธ๊ฐ€ ์—†๋‹ค.
       ๋ถˆ๋Ÿ‰์ œํ’ˆ์€ ๋ถˆ๋Ÿ‰๊ณ„์™€ ์ •์ƒ๊ณ„์‚ฌ์ด์— conditional probability๊ฐ€ ์ฐจ์ด๊ฐ€ ๋‚จ. 
       ํ•˜์ง€๋งŒ ํฌ์žฅ์ง€์˜ ๊ฐฏ์ˆ˜๋Š” ์ฐจ์ด๊ฐ€๋‚˜์ง€ ์•Š๋Š”๋‹ค. ๊ตฌ๋ถ„์•ˆ๋จ. 
      P(E1) = P(E1|H1)*P(H1) + P(E1|~H1)*P(~H1)
      ex1 > ๋™์ „์˜ Head๊ด€์ฐฐ ํ™•๋ฅ  ์‚ฌ๊ธฐ ๋™์ „์ด๋“  ์•„๋‹ˆ๋“ 
      ex2 > x,y์— ํ™”์‚ด์ด ๋งž์€ ํ™•๋ฅ  ๊ฑฐ๊ธฐ๊ฐ€ ๊ณผ๋…์ด๋“  ์•„๋‹ˆ๋“  

P(H1|E1) ์€ ์‚ฌํ›„ํ™•๋ฅ ๋กœ ๋‹ค์Œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‚˜ํƒ€๋‚˜๋ฉด Prior๋ฅผ ๋Œ€์ฒดํ•œ๋‹ค. ๊ณ„์† ์—…๋ฐ์ดํŠธ
์ƒ๊ฐ์˜ ํ๋ฆ„ 
H: ์ €๊ณต์žฅ์€ ๋ถˆ๋Ÿ‰์ œํ’ˆ๊ณ„์ด๋‹ค. 
E: ๋ชจ๋“ ๊ณต์žฅ์˜ ๋ถˆ๋Ÿ‰์ œํ’ˆ๋น„์œจ์กฐ์‚ฌ.

P(E|H) = ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ๋ถˆ๋Ÿ‰์ œํ’ˆ๊ณ„์˜ ๋ถˆ๋Ÿ‰๋ฅ  (๋‹ต์•ˆ์ง€)
P(H)   = ๋ถˆ๋Ÿ‰์ œํ’ˆ๊ณ„๊ฐ€ ๋งž์„ ๊ฐ€๋Šฅ์„ฑ, Prior, ๊ณ„์†์—…๋ฐ์ดํŠธ

H: ์ด ์˜์—ญ์€ Transcription Factor์ด๋‹ค. 
E: ๋ชจ๋“ ์˜์—ญ์˜ TF์‚ฐ๋ฌผ? ์กฐ์‚ฌ 

P(E|H) = ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” TF์˜ ์‚ฐ๋ฌผ ๋น„์œจ. (๋‹ต์•ˆ์ง€)  # ์ด๊ฒƒ์„ ๋ณด๋ฉด TF๊ฐ€ ์–ด๋–ค ๋ฐ์ดํ„ฐ ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์„ ํ–‰ ์ง€์‹์ด ํ•„์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
P(H)   = TF๊ฐ€ ๋งž์„ ๊ฐ€๋Šฅ์„ฑ. 

Markov model

P(E|H) ๊ฐ€ markov process ๊ทธ๋ฆผ์œผ๋กœ ์ •์˜๋จ.

>-Rainy <-> Sunny-<

๊ฐ edge์— ํ•ด๋‹นํ•˜๋Š” prob๊ฐ€ ์„ ํ–‰์ง€์‹์œผ๋กœ ์ œ๊ณต.