Métodos de Avaliação - Segmentation-Fault-Machine-Learning/Knowledge GitHub Wiki
Introdução
O algorimo de clusterização KMeans utiliza distâncias euclidianas para ajustar os pontos ao número de clusters pré-definido. O número de clusters é uma variável necessária como input para o método, logo, a necessidade de encontrar o melhor valor de clusters para um dado problema se faz necessário quando se lida com esse contexto. Essa seção tem como finalidade descrever os métodos utilizados para encontrar o melhor valor de K em um dado intervalo.
Método Calinski-Harabasz
O método desenvolvido por Calinski-Harabasz pode ser descrito pela fórmula:
Onde:
- k é o número de clusters
- N é o número de pontos dos dados de treinamento
- SSw é a variância interna dos clusters
- SSb é a variância total da amostra
O método sera aplicado depois que o método Kmeans foi aplicado ao conjunto de dados, portanto, a priori se saberá os pontos que pertecem a cada cluster. Dado essa informação é possivel calcular SSw que nada mais é que a formula abaixo:
Onde:
- mi é o centroide do cluster
- x é um dado ponto
O valor de Sww tende a diminuir de acordo com o aumento de clusters. O cálculo de SSb se dá através da subtração do calculo da distância euclidiana da centroide de todos os dados por cada ponto por SSw.