dbscan_lecture - JasonWayne/personal-wiki GitHub Wiki
DBSCAN
聚类,相似度
聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小
- 闵可夫斯基距离Minkowski/欧式距离
$$ dist(X, Y)= (\sum^n_{i=1} |x_i - y_i|^p)^\frac{1}{p} $$
- 杰卡德相似系数(Jaccard)
$$ J(A, B) = \frac{|A\bigcap B|}{|A\bigcup B|} $$
- 余弦相似度(cosine similarity)
$$ cos(\theta) = \frac{a^T*b}{|a|*|b|} $$
Kmeans
http://www.naftaliharris.com/blog/visualizing-k-means-clustering/
http://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html
Kmeans的缺点
- K值怎么取
- 对某些样本集不合适
- 对初值敏感
- 对噪声,孤立点敏感
DBSCAN
http://www.naftaliharris.com/blog/visualizing-dbscan-clustering/
http://blog.csdn.net/itplus/article/details/10088625
A Density-Based Algorithm for Discovering Clusters
存疑
- OPTICS,是否有必要替换DBSCAN
- 余弦相似度表示的距离如何可视化展示?
- science上提出的算法
- 相同的文章(点)对算法的影响
- 算法的过程 邹博的ppt里讲到:如果一个点p的ε-邻域包含多于x个对象,则创建一个p作为核心对象的新簇。然后,DBSCAN反复地寻找从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。当没有新的点可以被添加到任何簇时,该过程结束。与wikipedia上的算法描述并不相符。
- Mapreduce实现
- 算例?莫同的ppt