Spark Machine Learning - noonecare/spark GitHub Wiki

spark Mllib 中有很多机器学习的算法。

数据类型:

  • Vector
import org.apache.mllib.linalg.Vectors
val denseVec1 = Vectors.dense(1.0, 2.0, 3.0)
val denseVec2 = Vectors.dense(Array(1.0, 2.0, 3.0))
  • Sparse Vector(NLP 中很多向量是 Sparse 的,这时候用 Sparse Vector 明显更合适)
val sparseVec1 = Vectors.sparse(4, Array(0, 2), Array(1.0, 2.0))
  • LabeledPoint(标注过的数据集)

算法:

Spark 是个并行计算的框架, Ml 提供的算法也主要是 可以并行计算的算法。

  • HashingTF(TF-IDF)
  • Normalization(scale)
  • Word2Vec
  • Statistics
  • mllib.regression

model.evaluation