Métodos de Avaliação do K no K Means - Segmentation-Fault-Machine-Learning/Knowledge GitHub Wiki
Calinski Harabasz
Para avaliação do número ideal de clusters, um dos métodos utilizados foi o Calinski Harabasz. Este método refere-se a relação entre a dispersão intra-cluster e a dispersão entre os clusters. Ele é definido por:
Onde, N refere-se ao número de obserações k, refere-se ao número de clusters SSB, refere-se a soma dos quadrados entre os clusters SSW, refere-se a soma dos quadrados dentro do cluster.
Quanto maior o valor dessa proporção, mais coesos serão os clusters (variação baixa dentro do cluster) e mais distintos/separados serão os clusters individuais (variação alta entre clusters).
SSI (Simple Structure Index).
O Simple Structure Index combina três elementos que influenciam a interpretabilidade de uma solução: a diferença máxima de cada variável entre os clusters, os tamanhos dos clusters mais contrastantes e o desvio de uma variável nos centros do cluster em comparação com a média geral. Esses três elementos são multiplicativamente combinados e normalizados para dar um valor entre 0 e 1. O máximo valor é o escolhido.
Referências
[1] WEINGESSEL, Andreas; DIMITRIADOU, Evgenia; DOLNICAR, Sara. An examination of indexes for determining the number of clusters in binary data sets. 1999.
[2] OKSANEN, Jari et al. The vegan package. Community ecology package, v. 10, p. 631-637, 2007.