除官方文档所提出的要求以外, 这里补充一些注意事项:
1. 兼容模型训练时只支持CRF++输入两列, 即“汉字\t标签”,如果增加其他列(例如大多数文献都会加入字符特征),需要修改CRFSegment和CRFSegmentModel的代码。
2. 训练文本的字符要经过HanLP字符规范化处理,如完成全角转半角;
3. 训练文本的词语要经过CRFSegment中的原子化处理,即连续的数字换成了m,连续的英文字符换成w进行训练;
4. 特征数越多解码越慢,TMPT—10速度和优化后的HMM不相上下了。