K means - Meng-C/hello-world GitHub Wiki
- 聚类介绍: 它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。简单的说,聚类是将数据划分为有意义的组(簇)。
- 聚类与分类的区别: 分类是按照某种标准给对象贴标签,再根据标签来区分归类。聚类是指对事先没有“标签”的对象而通过某种分析找出事物之间存在聚集性原因的过程。 分类需要事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。
- 聚类的应用: 市场分割、天文数据分析、社会网络分析、信息检索等等
- 聚类的算法: `# 1,随机选取K个聚类初始点μ1,μ2.μ3...μK
2,重复一下过程直到收敛{
计算每个样例i,分别计算与K个聚类中心点的距离,与之距离最短的一类定义为i的类
重新计算K各类的质心(平均数)
}`