Home - noonecare/data-mining GitHub Wiki

模型基本靠试，所以如果有个 pipeline 的框架会方便很多。pipline 中最最重要的是测试。如果能像 junit 那样能方便的做测试，就非常好。有鉴于模型训练非常耗时，如果测试可以快速部署到机器，测试完可以及时通知做测试的人就非常好。调研一下 spark mllib, tensorflow, sklearn, gensim 中有没有相似的功能，做到了那种程度。

做自然语言处理时，常常使用 gensim 包，应该是这个包很方便使用，用 gensim 中的 LDA 分析天龙八部每十回的主题变化（这是西瓜书中的一道习题），另外 LDA 我理解的很不好可以复习一下。

word2vec 称为现下最好的把词向量化的工具，好指什么，有没有现成的实验表现一下有多好。