中文分词 - cllu/.rc GitHub Wiki
中文分词是个问题,不管是全文检索还是建立tag cloud。
常见的分词模型:
- MMSeg
- IK Analyzer
- 庖丁解牛 貌似很久没有更新
- ICTCLAS 中科院的项目?
- 结巴分词,Python里比较流行的分词包
对于ElasticSearch
- Lucene自带的Smart Chinese Analyzer是ES官方支持的:https://github.com/elasticsearch/elasticsearch-analysis-smartcn
Reference
- 有哪些比较好的中文分词方案?, zhihu.com