sklearn - liuhuanhahaha/deep_learning GitHub Wiki

聚类

k-means算法以k为参数，把n歌对象分成k个簇，是簇内具有较高的相似度，而簇间的相似度较低。

1.随机选择k个点作为初始的聚类中心

2.对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇

3.对每个簇，计算所有点的均值作为新的聚类中心

4.重复2,3知道聚类中心不再发生改变

DBSCAN算法把数据点分为三类：

*核心点：在半径Eps内含有超过MinPts数目的点

*边界点：在半径EPS内点的数量小于MinPts，但是落在核心点的区域内

*噪音点：既不是核心区域也不是边界点的点

1.将所有的点标记为核心点、边界点或噪声点

2.删除所有的噪声点

3.为距离在EPS之内的所有核心点之间赋予一条边

4.每组联通的核心点形成一个簇

5.将每个边界点指派到一个与之相关联的核心点的簇中（哪一个核心点的半径范围之内）