CRF equation - beyondnlp/nlp GitHub Wiki
CRF์ ๊ด๋ จ๋ ๊ธ ์ค์ ๊ฐ์ฅ ์ ๋ฆฌ๊ฐ ์ ๋ ๋ธ๋ก๊ทธ์ด๋ค. ์ด ๊ธ์ ๋ณด๋ค ๋ณด๋ฉด ์ค๊ฐ์ MLE(Maximum Likelihood Estimation) ์์์ด ๋์จ๋ค. ๊ทธ๋ฆฌ๊ณ ์์์ ์ ๋ํ๋ ๊ณผ์ ์ด ๋์ค๋๋ฐ ์ดํด๋ฅผ ํ๊ธฐ ์ํด ์์์ ์ ๋ฆฌํ๋ค.
์๋ ์์ ์ ๊ฐ๋ฅผ ์ดํด ํ๊ธฐ ์ํด์๋ ๋ค์ ์ธ ๊ฐ์ง๋ฅผ ๋จผ์ ์์์ผ ํ๋ค.
-
์ฒซ๋ฒ์งธ๋ ํฉ์ฑํจ์์ ๋ฏธ๋ถ์ด๋ค.
-
ํฉ์ฑํจ์ f(g(x))๋ฅผ ๋ฏธ๋ถํ๋ฉด f'(g(x))*g'(x)๊ฐ ๋๋ค.
-
๋๋ฒ์งธ๋ ๋ก๊ทธํจ์์ ๋ฏธ๋ถ์ด๋ค.
-
log(x)๋ฅผ ๋ฏธ๋ถํ๋ฉด 1/x๊ฐ ๋๋ค.
-
์ธ๋ฒ์งธ ๋ก๊ทธ/์ง์ํจ์
- log(xy) = log(x) + log(y), exp(x+y) = exp(x)*exp(y)
- log(x/y) = log(x) - log(y), exp(x-y) = exp(x)/exp(y)
- log(X^b) = b*log(x), exp(-x) = 1/exp(x)
- log(1) = 0, exp(0) = 1
- log(exp(x)) = exp(log(x)) = x
์ ๊ทธ๋ฆผ์์ ์ฒซ๋ฒ์งธ ๋ผ์ธ์์ ๋๋ฒ์งธ ๋ผ์ธ์ผ๋ก ๋์ด๊ฐ๋ ์์ชฝ์๋ log๊ฐ ์๊ณ ๋ค์ชฝ์ log๊ฐ ์๋ค.( ๋ค์ ์๋ ์์๋ง ๋ก๊ทธํจ์์ด๋ค )
log(x/y)๋ก ํ์๋ ๋ก๊ทธ์์ log(x) - log(y)๋ก ๋ฐ๊ฟ์ ์๋ค. ๊ทธ๋ฐ๋ฐ ์์์์ฒ๋ผ ์ฒซ๋ฒ์งธ ํญ์ log๊ฐ ์ฌ๋ผ์ง ์ด์ ๋ log(exp( x )) - log ( y )์์์ log( exp( x ) ) = x์ด๊ธฐ ๋๋ฌธ์ x - log(y)ํ์์ผ๋ก ๋ณํ๋ ๊ฒ์ด๋ค.
log( exp(x) )=exp( log(x) ) = x
๊ทธ๋ฆฌ๊ณ ํฐ๊ดํธ๋ฅผ ์์ ๊ธฐ ์ํด ฮฃ๋ฅผ ๋ถ๋ฐฐ๋ฒ์น์ ์ํด ์ต์ข ์์ผ๋ก ์ ๋๋๋ค.
์ ์์ ๋ค๋ฒ์งธ ์ค ๋์๋ -๊ฐ ์๊ณ , ๋ค์ฏ๋ฒ์งธ ์ค ์์์๋ -๊ฐ ์๋๋ฐ ์ค๋ฅ์ธ ๊ฒ ๊ฐ๋ค.
๊ทธ๋ ๊ฒ ์ ๊ฐ๋ ์์ A, B, C๋ก ๊ฐ๊ฐ ๋ถ๋ฆฌํด์ ์ค๋ช ํ๋ฉด
A
1์ฐจํญ ฮป๋ฅผ ๋ฏธ๋ถํ๋ฉด 1์ด๊ธฐ ๋๋ฌธ์ ์๋ตํ๋ค.
B๋ฅผ ํ๋์ฉ ์ดํด๋ณด์
B
logZ(x) = ์์์ ์ค๋ช
ํ ํฉ์ฑํจ์ ๋ฏธ๋ถ์ผ๋ก ์ ๊ฐํ ์ ์๋ค.
์ ์ฒด๋ฅผ ๋ฏธ๋ถํ๊ณ ๋ด๋ถ๋ฅผ ๋ฏธ๋ถํ๋ค.
logZ(x)์์ Z(x)๋ฅผ a๋ผ๊ณ ํ์. log(a)๋ฅผ ๋ฏธ๋ถํ๋ฉด 1/a๊ฐ ๋๊ณ ๋ค์ ๋ด๋ถ a ์ฆ Z(x)๋ฅผ ๋ฏธ๋ถํ๋ค. ์ด๋ฅผ โZ(x)/โฮป๋ก ํํํ๋ค.
log(x/y) = log(x) - log(y)
{log(x)}` = 1/x
log(x)๋ฅผ ๋ฏธ๋ถํ๋ฉด 1/x๊ฐ ๋๋ค.
๋๋ฒ์งธ ์ค๋ ํฉ์ฑํจ์์ ๋ฏธ๋ถ์ด๊ธฐ ๋๋ฌธ์
๊ฐ ๊ณฑํด์ง๋ค.
์ฒจ์ธํ๋ฉด ์ ์ค๋ช
์ f(g(x))์์ gโ(x)์ ํด๋นํ๋ ๋ถ๋ถ์ผ๋ก ฮป์ ๋ํด ๋ฏธ๋ถํ๋ฉด ฮป๋ฅผ ํฌํจํ ์๊ทธ๋ง๋ ์ฌ๋ผ์ง๋ค.
{f(g(x))}` = f`(g(x)) * g'(x)
f(g(xx))๋ฅผ ๋ฏธ๋ถํ๋ฉด f`(g(x))์ g`(x)์ ๊ณฑ์ด๋๋ค.
์ธ๋ฒ์งธ์ค์ ๋ค์ ์์์ ์ ๋ํ๊ธฐ ์ํด normalize ๋ณ์ 1/Z๋ฅผ ๋ค๋ก ์ฎ๊ธด๋ค. ( ๊ตํ๋ฒ์น )
๊ฐ์ด๋ฐ ๋ถ๋ถ์ด P(y|x)๋ก ์นํํ๋ค.
์๋ ๊ทธ๋ฆผ ์ฐธ๊ณ
C
๋๋ค๋ก ๋ฏธ๋ถํ๋ฉด 2ฮป๊ฐ ๋๊ณ ๋ถ์๋ถ๋ชจ์ ๋ชจ๋ 2๊ฐ ์์ผ๋ ์ฝ๋ถ์ด ๋์ด ์ต์ข
์์ด ๋๋ค.
reference
- ํฉ์ฑํจ์ ๋ฏธ๋ถ
- ํธ๋ฏธ๋ถ ๊ธฐํธ
- ์ง์/๋ก๊ทธํจ์ ๋ฏธ๋ถ