dbscan_lecture - JasonWayne/personal-wiki GitHub Wiki

DBSCAN

聚类,相似度

聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小

  • 闵可夫斯基距离Minkowski/欧式距离

$$ dist(X, Y)= (\sum^n_{i=1} |x_i - y_i|^p)^\frac{1}{p} $$

  • 杰卡德相似系数(Jaccard)

$$ J(A, B) = \frac{|A\bigcap B|}{|A\bigcup B|} $$

  • 余弦相似度(cosine similarity)

$$ cos(\theta) = \frac{a^T*b}{|a|*|b|} $$

Kmeans

http://www.naftaliharris.com/blog/visualizing-k-means-clustering/

http://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html

Kmeans的缺点

  1. K值怎么取
  2. 对某些样本集不合适
  3. 对初值敏感
  4. 对噪声,孤立点敏感

DBSCAN

http://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

http://blog.csdn.net/itplus/article/details/10088625

A Density-Based Algorithm for Discovering Clusters

存疑

  1. OPTICS,是否有必要替换DBSCAN
  2. 余弦相似度表示的距离如何可视化展示?
  3. science上提出的算法
  4. 相同的文章(点)对算法的影响
  5. 算法的过程 邹博的ppt里讲到:如果一个点p的ε-邻域包含多于x个对象,则创建一个p作为核心对象的新簇。然后,DBSCAN反复地寻找从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。当没有新的点可以被添加到任何簇时,该过程结束。与wikipedia上的算法描述并不相符。
  6. Mapreduce实现
  7. 算例?莫同的ppt