Spark Machine Learning - noonecare/spark GitHub Wiki
spark Mllib 中有很多机器学习的算法。
数据类型:
- Vector
import org.apache.mllib.linalg.Vectors
val denseVec1 = Vectors.dense(1.0, 2.0, 3.0)
val denseVec2 = Vectors.dense(Array(1.0, 2.0, 3.0))
- Sparse Vector(NLP 中很多向量是 Sparse 的,这时候用 Sparse Vector 明显更合适)
val sparseVec1 = Vectors.sparse(4, Array(0, 2), Array(1.0, 2.0))
- LabeledPoint(标注过的数据集)
算法:
Spark 是个并行计算的框架, Ml 提供的算法也主要是 可以并行计算的算法。
- HashingTF(TF-IDF)
- Normalization(scale)
- Word2Vec
- Statistics
- mllib.regression
model.evaluation