Clustering - BD-SEARCH/MLtutorial GitHub Wiki
๊ตฐ์งํ(Clustering)
๊ตฐ์งํ(Clustering)์ ํน์ ๋ฐ์ดํฐ๋ฅผ ์์์ k๊ฐ์ ๊ตฐ์ง(Cluster)์ผ๋ก ๋๋๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ถ๋ฅ์ ๋ฌ๋ฆฌ ์ฌ๋์ด ๋จผ์ label์ ๋ฌ ํ์๊ฐ ์์ด, ๊ฐ์๋ง ์ ํด ์ฃผ๋ฉด ์๊ณ ๋ฆฌ์ฆ์ด ์์์ ๋น์ทํ ๋ฐ์ดํฐ๋ผ๋ฆฌ k๊ฐ์ ๊ตฐ์ง์ผ๋ก ๋ชจ์ ์ค๋ค.
(1) K-Means Clustering
-
์์๋ก ๋ฐ์ดํฐ๋ฅผ k๊ฐ ๋ถ๋ถ์งํฉ์ผ๋ก ๋๋๋ค. (์ฌ๊ธฐ์ K๋ฅผ ์๊ณ ์์ด์ผ ํ๋ค)
- ๊ฐ object์ ๋ํด k๊ฐ์ ์ค์ฌ object์์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ๊ณ ๊ทธ ์ค ๊ฐ์ฅ ์ ์ฌํ ์ค์ฌ object์ ํด๋ฌ์คํฐ์ ์ํ๊ฒ ํ๋ค.
- ํด๋ฌ์คํฐ์ ์ค์ฌ์ ์ ๋ค์ ๊ณ์ฐํ๋ค.
- ๋ ์ด์ ํด๋ฌ์คํฐ ๊ฐ ๋ณํ๊ฐ ์์ ๋๊น์ง ๋ฐ๋ณตํ๋ค.
-
Elbow Method (K-Means Clustering with unknown K)
- ํด๋ฌ์คํฐ์ ์๋ฅผ ๋๋ ค๊ฐ๋ฉด์ ํด๋ฌ์คํฐ๋ง ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๋ค.
- ํด๋ฌ์คํฐ์ ๊ฐ์๊ฐ ํ ๊ฐ ๋์ด๋ฌ์ ๋, ์ด์ ๊ฒฐ๊ณผ๋ณด๋ค ์์ฃผ ์ข์์ง์ง ์๋๋ค๋ฉด ๋ฉ์ถ๋ค. (Elbow point)
- ์ด ๋์ Elbow point๊ฐ์ K๋ก ํ๋ค. (ํ๋จ ๊ธฐ์ค์ ์ ํด์ผ ํ๋ค.)
-
Elbow point ํ๋จ ๊ธฐ์ค
-
Davies-Bouldin Index
- ๋ ํด๋ฌ์คํฐ ๋ด๋ถ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ค์ฌ์ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ, ํด๋ฌ์คํฐ ์ค์ฌ์ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ก ๋๋.
- ํด๋ฌ์คํฐ ๋ด ์ ์ฌ๋๊ฐ ๋๊ณ ํด๋ฌ์คํฐ ๊ฐ ์ ์ฌ๋๊ฐ ๋ฎ์์ผ DB๊ฐ์ด ๋ฎ๋ค.
-
Dunn Index
- ํด๋ฌ์คํฐ ๊ฐ ์ต์ ๊ฑฐ๋ฆฌ์ ํด๋ฌ์คํฐ ๋ด ์ต๋ ๊ฑฐ๋ฆฌ์ ๋น์จ.
- ํด๋ฌ์คํฐ ๋ด ์ ์ฌ๋๊ฐ ๋๊ณ ํด๋ฌ์คํฐ ๊ฐ ์ ์ฌ๋๊ฐ ๋ฎ์์ผ D๊ฐ์ด ํฌ๋ค.
-
Silhouette
- ๋ฐ์ดํฐ์, ๋ฐ์ดํฐ๊ฐ ์ํ ํด๋ฌ์คํฐ(a)์ ๊ทธ ์ด์ ํด๋ฌ์คํฐ(b) ๊ฐ์ ํ๊ท ๊ฑฐ๋ฆฌ(s)๋ฅผ ๊ตฌํด ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฐ๋ฅธ ํด๋ฌ์คํฐ์ ์๋์ง ํ์ ํ๋ค.
- -1 ~ 1 ์ฌ์ด์ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋๋ฐ 1์ ๊ฐ๊น์ธ ์๋ก ์ฌ๋ฐ๋ฅธ ํด๋ฌ์คํฐ์ ๋ถ๋ฅ๋ ๊ฒ, -1์ ๊ฐ๊น์ธ ์๋ก ์๋ชป๋ ํด๋ฌ์คํฐ์ ๋ถ๋ฅ๋ ๊ฒ์ด๋ค.
-
within-cluster sum of squares
- ํด๋ฌ์คํฐ์ ์ค์ฌ์ ๊ณผ ํด๋ฌ์คํฐ ๋ด๋ถ์ ์ ๊ณผ์ ๊ฑฐ๋ฆฌ์ ํฉ.
- scikit-learn์ Cluster ๋ชจ๋ Kmeans๊ฐ ๋ฉค๋ฒ๋ก ๊ฐ์ง๊ณ ์๋ค (Kmeans.inertia_)
-