sklearn - liuhuanhahaha/deep_learning GitHub Wiki

聚类

K-means聚类算法

k-means算法以k为参数,把n歌对象分成k个簇,是簇内具有较高的相似度,而簇间的相似度较低。

1.随机选择k个点作为初始的聚类中心

2.对于剩下的点,根据其与聚类中心的距离,将其归入最近的簇

3.对每个簇,计算所有点的均值作为新的聚类中心

4.重复2,3知道聚类中心不再发生改变

DBSCAN密度聚类

DBSCAN算法把数据点分为三类:

*核心点:在半径Eps内含有超过MinPts数目的点

*边界点:在半径EPS内点的数量小于MinPts,但是落在核心点的区域内

*噪音点:既不是核心区域也不是边界点的点

1.将所有的点标记为核心点、边界点或噪声点

2.删除所有的噪声点

3.为距离在EPS之内的所有核心点之间赋予一条边

4.每组联通的核心点形成一个簇

5.将每个边界点指派到一个与之相关联的核心点的簇中(哪一个核心点的半径范围之内)