What is a chi squared test? - minseok127/HashSimulator GitHub Wiki

What is a chi squared test?

Chi squared test, ์ฆ‰ ์นด์ด์ œ๊ณฑ๊ฒ€์ •์€ ์นด์ด์ œ๊ณฑ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ํ˜„์žฌ ์„ธ์šด ๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•  ์ˆ˜ ์žˆ๋Š” ์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” test์ž…๋‹ˆ๋‹ค.

์ด๋ฒˆ ํŽ˜์ด์ง€์—์„œ๋Š” ๋ถ„ํฌ๋ž€ ๋ฌด์—‡์ธ์ง€, ์นด์ด์ œ๊ณฑ๊ฒ€์ •์€ ๊ตฌ์ฒด์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ธ ์ง€ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

Contents

Distribution

๋ถ„ํฌ๋ž€ ์–ด๋–ค ๊ฐ’์ด ํฌ๋‹ค, ์ž‘๋‹ค๋ผ๋Š” ๊ฒƒ์„ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” ๊ธฐ์ค€์ž…๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด 30์ด๋ผ๋Š” ๊ฐ’์€ ํฐ ๊ฐ’์ผ๊นŒ์š”? ์•„๋‹ˆ๋ฉด ์ž‘์€ ๊ฐ’์ผ๊นŒ์š”?

๋งŒ์•ฝ 30์–ต๋…„์ด๋ผ๋Š” ๋ง์ด ๋ถ™๋Š”๋‹ค๋ฉด ์ด๊ฒƒ์€ ๋งค์šฐ ํฐ ๊ฒƒ์œผ๋กœ ์ƒ๊ฐ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ 30๋‚˜๋…ธ์„ธ์ปจ๋“œ๋ผ๋ฉด ์ด ๊ฐ’์€ ๋งค์šฐ ์ž‘์€ ๊ฐ’์œผ๋กœ ์ƒ๊ฐ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด์ฒ˜๋Ÿผ ์–ด๋–ค ๊ฐ’์˜ ํฌ๊ณ  ์ž‘์Œ์„ ํŒ๋‹จํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹จ์œ„๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ํ†ต๊ณ„๊ฐ’๋“ค์—๋Š” ๋‹จ์œ„๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ๊ทธ๋ƒฅ ์ˆซ์ž๋กœ๋งŒ ์ด๋ค„์ ธ ์žˆ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํ†ต๊ณ„๊ฐ’๋“ค์ด ํฌ๊ณ  ์ž‘์Œ์„ ํŒ๋‹จํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•Œ ๋ถ„ํฌ๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

์–ด๋–ค ํ†ต๊ณ„๊ฐ’์ด ํŠน์ • ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ํ•˜๋ฉด, ํ•ด๋‹น ๋ถ„ํฌ์— ๋”ฐ๋ผ์„œ ๊ทธ ๊ฐ’์ด ํฐ ์ง€ ์ž‘์€ ์ง€๋ฅผ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Chi squared Distribution

์นด์ด์ œ๊ณฑ๋ถ„ํฌ ๋˜ํ•œ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์นด์ด์ œ๊ณฑ์ด๋ผ๋Š” ๊ฐ’์˜ ํฌ๊ณ  ์ž‘์Œ์„ ํŒ๋‹จํ•˜๊ธฐ ์œ„ํ•œ ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜์ž๋ฉด ์•ž์„œ ๋งํ•œ ๊ฒƒ์ฒ˜๋Ÿผ ํŠน์ • ๊ฐ€์„ค์„ ์„ธ์šฐ๊ณ , ์ด๋ฅผ ํ† ๋Œ€๋กœ ์นด์ด์ œ๊ณฑ๊ฐ’์„ ์‚ฐ์ถœํ•ด๋ƒ…๋‹ˆ๋‹ค.

์ดํ›„ ์ด ์นด์ด์ œ๊ณฑ๊ฐ’์ด ํฐ ๊ฐ’์ธ์ง€, ์ž‘์€ ๊ฐ’์ธ์ง€๋ฅผ ์นด์ด์ œ๊ณฑ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค.

Chi squared Value

๊ทธ๋ ‡๋‹ค๋ฉด ์นด์ด์ œ๊ณฑ๊ฐ’์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ์š”? ์ •์˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

ฯ‡2 = ฮฃ (๊ด€์ธก๊ฐ’ - ๊ธฐ๋Œ“๊ฐ’)^2 / ๊ธฐ๋Œ“๊ฐ’   

์ฆ‰ ๊ด€์ธก๊ฐ’์ด ๊ธฐ๋Œ€๊ฐ’์œผ๋กœ๋ถ€ํ„ฐ ๋–จ์–ด์ ธ์žˆ๋Š” ์ •๋„๋ฅผ ์ œ๊ณฑํ•˜๊ณ  ์ด๋ฅผ ๊ธฐ๋Œ“๊ฐ’์œผ๋กœ ๋‚˜๋ˆˆ ๊ฒƒ๋“ค์˜ ํ•ฉ์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ๊ธฐ๋Œ“๊ฐ’์ด๋ž€ ์ €ํฌ๊ฐ€ ์„ธ์šด ๊ฐ€์„ค์ด ๋งž๋‹ค๋Š” ๊ฐ€์ •ํ•˜์— ๋ฐœ์ƒํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ๊ฐ’์ด๊ณ , ๊ด€์ธก๊ฐ’์€ ์‹ค์ œ๋กœ ๋‚˜ํƒ€๋‚œ ๊ฐ’์ž…๋‹ˆ๋‹ค.

Chi squared Test

๊ฒฐ๊ตญ ์นด์ด์ œ๊ณฑ๊ฒ€์ •์ด๋ž€ ์‹ค์ œ ๊ด€์ธก๋œ ๊ฒฐ๊ณผ๊ฐ€ ๊ฐ€์„ค๋กœ๋ถ€ํ„ฐ ์–ผ๋งˆ๋‚˜ ์ฐจ์ด๊ฐ€ ๋‚˜๋Š” ์ง€๋ฅผ ์ˆ˜์น˜ํ™” ์‹œํ‚ค๊ณ 

์ด ๊ฐ’์˜ ํฌ๊ณ  ์ž‘์Œ์„ ์นด์ด์ œ๊ณฑ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ํŒ๋‹จํ•˜์—ฌ์„œ ๊ฐ€์„ค์ด ํ‹€๋ฆฐ ๊ฒƒ์ธ์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

The Art of Computer Programming, Seminumerical Algoritms, vol. 2 by Donald Knuth์— ๋”ฐ๋ฅด๋ฉด

p-value๊ฐ€ 0.99๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜ 0.01๋ณด๋‹ค ์ž‘์œผ๋ฉด "Almost certainly non-random"

p-value๊ฐ€ 0.95๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜ 0.05๋ณด๋‹ค ์ž‘์œผ๋ฉด "should be considered suspect"

p-value๊ฐ€ 0.9๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜ 0.1๋ณด๋‹ค ์ž‘์œผ๋ฉด "almost suspect" ์œผ๋กœ ํŒ๋‹จํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋‚˜์™€์žˆ์Šต๋‹ˆ๋‹ค.

์ฆ‰ p-value๊ฐ€ ์œ„์˜ ์„ธ ๊ฐ€์ง€ ๊ฒฝ์šฐ์— ํ•ด๋‹น๋˜์ง€ ์•Š๋Š”๋‹ค๋ฉด ์•ž์„œ ์„ธ์šด ๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์œผ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

p-value๋ž€ ๊ฐ€์„ค์ด ๋งž๋‹ค๋Š” ๊ฐ€์ •ํ•˜์— ์–ป์€ ๊ฒฐ๊ณผ๋ณด๋‹ค ๊ทน๋‹จ์ ์ธ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์ž…๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด p-value๊ฐ€ 0.01์ด๋ผ๋Š” ๋ง์€ ํ•ด๋‹น ๊ฐ’๋ณด๋‹ค ๋†’์€ ๊ฐ’์ด ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์ด 1%๋ผ๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.