Home - noonecare/data-mining GitHub Wiki

模型基本靠试,所以如果有个 pipeline 的框架会方便很多。pipline 中最最重要的是测试。如果能像 junit 那样能方便的做测试,就非常好。有鉴于模型训练非常耗时,如果测试可以快速部署到机器,测试完可以及时通知做测试的人就非常好。 调研一下 spark mllib, tensorflow, sklearn, gensim 中有没有相似的功能,做到了那种程度。

做自然语言处理时,常常使用 gensim 包,应该是这个包很方便使用, 用 gensim 中的 LDA 分析天龙八部每十回的主题变化(这是西瓜书中的一道习题),另外 LDA 我理解的很不好可以复习一下。

word2vec 称为现下最好的把词向量化的工具,好指什么,有没有现成的实验表现一下有多好。