CRFSegment - TylunasLi/HanLP GitHub Wiki

HanLP CRF 分词训练

除官方文档所提出的要求以外, 这里补充一些注意事项:

1. 兼容模型训练时只支持CRF++输入两列, 即“汉字\t标签”，如果增加其他列（例如大多数文献都会加入字符特征），需要修改CRFSegment和CRFSegmentModel的代码。

2. 训练文本的字符要经过HanLP字符规范化处理，如完成全角转半角；

3. 训练文本的词语要经过CRFSegment中的原子化处理，即连续的数字换成了m，连续的英文字符换成w进行训练；

4. 特征数越多解码越慢，TMPT—10速度和优化后的HMM不相上下了。

⚠️ GitHub.com Fallback ⚠️