CRFSegment - TylunasLi/HanLP GitHub Wiki

HanLP CRF 分词训练

除官方文档所提出的要求以外, 这里补充一些注意事项:

1. 兼容模型训练时只支持CRF++输入两列, 即“汉字\t标签”,如果增加其他列(例如大多数文献都会加入字符特征),需要修改CRFSegment和CRFSegmentModel的代码。

2. 训练文本的字符要经过HanLP字符规范化处理,如完成全角转半角;

3. 训练文本的词语要经过CRFSegment中的原子化处理,即连续的数字换成了m,连续的英文字符换成w进行训练;

4. 特征数越多解码越慢,TMPT—10速度和优化后的HMM不相上下了。

⚠️ **GitHub.com Fallback** ⚠️