dbscan_lecture - JasonWayne/personal-wiki GitHub Wiki

DBSCAN

聚类，相似度

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小

闵可夫斯基距离Minkowski/欧式距离

$$ dist(X, Y)= (\sum^n_{i=1} |x_i - y_i|^p)^\frac{1}{p} $$

杰卡德相似系数(Jaccard)

$$ J(A, B) = \frac{|A\bigcap B|}{|A\bigcup B|} $$

余弦相似度(cosine similarity)

$$ cos(\theta) = \frac{a^T*b}{|a|*|b|} $$

Kmeans

http://www.naftaliharris.com/blog/visualizing-k-means-clustering/

http://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html

Kmeans的缺点

K值怎么取
对某些样本集不合适
对初值敏感
对噪声，孤立点敏感

DBSCAN

http://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

http://blog.csdn.net/itplus/article/details/10088625

A Density-Based Algorithm for Discovering Clusters

存疑

OPTICS，是否有必要替换DBSCAN
余弦相似度表示的距离如何可视化展示？
science上提出的算法
相同的文章(点）对算法的影响
算法的过程邹博的ppt里讲到：如果一个点p的ε-邻域包含多于x个对象，则创建一个p作为核心对象的新簇。然后，DBSCAN反复地寻找从这些核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并。当没有新的点可以被添加到任何簇时，该过程结束。与wikipedia上的算法描述并不相符。
Mapreduce实现
算例？莫同的ppt