What is a chi squared test? - minseok127/HashSimulator GitHub Wiki
What is a chi squared test?
Chi squared test, ์ฆ ์นด์ด์ ๊ณฑ๊ฒ์ ์ ์นด์ด์ ๊ณฑ๋ถํฌ๋ฅผ ํตํด ํ์ฌ ์ธ์ด ๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์๋ ์ง๋ฅผ ํ๋จํ๋ test์ ๋๋ค.
์ด๋ฒ ํ์ด์ง์์๋ ๋ถํฌ๋ ๋ฌด์์ธ์ง, ์นด์ด์ ๊ณฑ๊ฒ์ ์ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ํ๋ ๊ฒ์ธ ์ง ์์๋ณด๊ฒ ์ต๋๋ค.
Contents
Distribution
๋ถํฌ๋ ์ด๋ค ๊ฐ์ด ํฌ๋ค, ์๋ค๋ผ๋ ๊ฒ์ ํ๋จํ ์ ์๊ฒ ํด์ฃผ๋ ๊ธฐ์ค์ ๋๋ค.
์๋ฅผ ๋ค์ด 30์ด๋ผ๋ ๊ฐ์ ํฐ ๊ฐ์ผ๊น์? ์๋๋ฉด ์์ ๊ฐ์ผ๊น์?
๋ง์ฝ 30์ต๋ ์ด๋ผ๋ ๋ง์ด ๋ถ๋๋ค๋ฉด ์ด๊ฒ์ ๋งค์ฐ ํฐ ๊ฒ์ผ๋ก ์๊ฐ๋ ๊ฒ์ ๋๋ค. ํ์ง๋ง 30๋๋ ธ์ธ์ปจ๋๋ผ๋ฉด ์ด ๊ฐ์ ๋งค์ฐ ์์ ๊ฐ์ผ๋ก ์๊ฐ๋ ๊ฒ์ ๋๋ค.
์ด์ฒ๋ผ ์ด๋ค ๊ฐ์ ํฌ๊ณ ์์์ ํ๋จํ๊ธฐ ์ํด์๋ ๋จ์๊ฐ ํ์ํฉ๋๋ค.
๊ทธ๋ฐ๋ฐ ํต๊ณ๊ฐ๋ค์๋ ๋จ์๊ฐ ์์ต๋๋ค. ๊ทธ๋ฅ ์ซ์๋ก๋ง ์ด๋ค์ ธ ์๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ํต๊ณ๊ฐ๋ค์ด ํฌ๊ณ ์์์ ํ๋จํ๊ณ ์ ํฉ๋๋ค. ์ด ๋ ๋ถํฌ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
์ด๋ค ํต๊ณ๊ฐ์ด ํน์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ํ๋ฉด, ํด๋น ๋ถํฌ์ ๋ฐ๋ผ์ ๊ทธ ๊ฐ์ด ํฐ ์ง ์์ ์ง๋ฅผ ํ๋จํ ์ ์์ต๋๋ค.
Chi squared Distribution
์นด์ด์ ๊ณฑ๋ถํฌ ๋ํ ๋ง์ฐฌ๊ฐ์ง๋ก ์นด์ด์ ๊ณฑ์ด๋ผ๋ ๊ฐ์ ํฌ๊ณ ์์์ ํ๋จํ๊ธฐ ์ํ ๋ถํฌ์ ๋๋ค.
์ ๋ฆฌํ์๋ฉด ์์ ๋งํ ๊ฒ์ฒ๋ผ ํน์ ๊ฐ์ค์ ์ธ์ฐ๊ณ , ์ด๋ฅผ ํ ๋๋ก ์นด์ด์ ๊ณฑ๊ฐ์ ์ฐ์ถํด๋ ๋๋ค.
์ดํ ์ด ์นด์ด์ ๊ณฑ๊ฐ์ด ํฐ ๊ฐ์ธ์ง, ์์ ๊ฐ์ธ์ง๋ฅผ ์นด์ด์ ๊ณฑ๋ถํฌ๋ฅผ ํตํด ํ๋จํฉ๋๋ค.
Chi squared Value
๊ทธ๋ ๋ค๋ฉด ์นด์ด์ ๊ณฑ๊ฐ์ด๋ ๋ฌด์์ผ๊น์? ์ ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
ฯ2 = ฮฃ (๊ด์ธก๊ฐ - ๊ธฐ๋๊ฐ)^2 / ๊ธฐ๋๊ฐ
์ฆ ๊ด์ธก๊ฐ์ด ๊ธฐ๋๊ฐ์ผ๋ก๋ถํฐ ๋จ์ด์ ธ์๋ ์ ๋๋ฅผ ์ ๊ณฑํ๊ณ ์ด๋ฅผ ๊ธฐ๋๊ฐ์ผ๋ก ๋๋ ๊ฒ๋ค์ ํฉ์ ๋๋ค.
์ฌ๊ธฐ์ ๊ธฐ๋๊ฐ์ด๋ ์ ํฌ๊ฐ ์ธ์ด ๊ฐ์ค์ด ๋ง๋ค๋ ๊ฐ์ ํ์ ๋ฐ์ํ ๊ฒ์ผ๋ก ์์๋๋ ๊ฐ์ด๊ณ , ๊ด์ธก๊ฐ์ ์ค์ ๋ก ๋ํ๋ ๊ฐ์ ๋๋ค.
Chi squared Test
๊ฒฐ๊ตญ ์นด์ด์ ๊ณฑ๊ฒ์ ์ด๋ ์ค์ ๊ด์ธก๋ ๊ฒฐ๊ณผ๊ฐ ๊ฐ์ค๋ก๋ถํฐ ์ผ๋ง๋ ์ฐจ์ด๊ฐ ๋๋ ์ง๋ฅผ ์์นํ ์ํค๊ณ
์ด ๊ฐ์ ํฌ๊ณ ์์์ ์นด์ด์ ๊ณฑ๋ถํฌ๋ฅผ ํตํด ํ๋จํ์ฌ์ ๊ฐ์ค์ด ํ๋ฆฐ ๊ฒ์ธ์ง๋ฅผ ํ๋จํ๋ ๊ฒ์ ๋๋ค.
The Art of Computer Programming, Seminumerical Algoritms, vol. 2 by Donald Knuth์ ๋ฐ๋ฅด๋ฉด
p-value๊ฐ 0.99๋ณด๋ค ํฌ๊ฑฐ๋ 0.01๋ณด๋ค ์์ผ๋ฉด "Almost certainly non-random"
p-value๊ฐ 0.95๋ณด๋ค ํฌ๊ฑฐ๋ 0.05๋ณด๋ค ์์ผ๋ฉด "should be considered suspect"
p-value๊ฐ 0.9๋ณด๋ค ํฌ๊ฑฐ๋ 0.1๋ณด๋ค ์์ผ๋ฉด "almost suspect" ์ผ๋ก ํ๋จํด๋ณผ ์ ์๋ค๊ณ ๋์์์ต๋๋ค.
์ฆ p-value๊ฐ ์์ ์ธ ๊ฐ์ง ๊ฒฝ์ฐ์ ํด๋น๋์ง ์๋๋ค๋ฉด ์์ ์ธ์ด ๊ฐ์ค์ ๊ธฐ๊ฐํ์ง ์๋ ๊ฒ์ผ๋ก ์๊ฐํ ์ ์์ต๋๋ค.
p-value๋ ๊ฐ์ค์ด ๋ง๋ค๋ ๊ฐ์ ํ์ ์ป์ ๊ฒฐ๊ณผ๋ณด๋ค ๊ทน๋จ์ ์ธ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ ํ๋ฅ ์ ๋๋ค.
์๋ฅผ ๋ค์ด p-value๊ฐ 0.01์ด๋ผ๋ ๋ง์ ํด๋น ๊ฐ๋ณด๋ค ๋์ ๊ฐ์ด ๋ํ๋ ํ๋ฅ ์ด 1%๋ผ๋ ์๋ฏธ์ ๋๋ค.