Métodos de Avaliação - Segmentation-Fault-Machine-Learning/Knowledge GitHub Wiki

Introdução

O algorimo de clusterização KMeans utiliza distâncias euclidianas para ajustar os pontos ao número de clusters pré-definido. O número de clusters é uma variável necessária como input para o método, logo, a necessidade de encontrar o melhor valor de clusters para um dado problema se faz necessário quando se lida com esse contexto. Essa seção tem como finalidade descrever os métodos utilizados para encontrar o melhor valor de K em um dado intervalo.

Método Calinski-Harabasz

O método desenvolvido por Calinski-Harabasz pode ser descrito pela fórmula:

Imagem

Onde:

k é o número de clusters
N é o número de pontos dos dados de treinamento
SSw é a variância interna dos clusters
SSb é a variância total da amostra

O método sera aplicado depois que o método Kmeans foi aplicado ao conjunto de dados, portanto, a priori se saberá os pontos que pertecem a cada cluster. Dado essa informação é possivel calcular SSw que nada mais é que a formula abaixo:

Imagem

Onde:

mi é o centroide do cluster
x é um dado ponto

O valor de Sww tende a diminuir de acordo com o aumento de clusters. O cálculo de SSb se dá através da subtração do calculo da distância euclidiana da centroide de todos os dados por cada ponto por SSw.