The Hallucination Effect - kana112233/tesseract GitHub Wiki

##幻觉效应

敏感度依赖于初始条件,其中系统中一个状态的微小变化可能导致后期状态的巨大差异. 它与“蝴蝶效应”和“多米诺骨牌效应”有关.

##在Tesseract 4.x中观察这种现象

如果您的培训文本经常包含某种形式的特定元素.

  • 示例1:一个单词经常以大写形式**“Word”,然后当你使用那个训练过的模型识别word 时,它会产生幻觉,并将其视为Word **.

  • 示例2:您的训练文本经常在句子开头或结尾处包含“空格”. 可能导致培训缓慢,不收敛甚至模型损坏.

##结论

大多数情况下,幻觉效应是用于创建“训练数据”模型的文本的产物.

*为了对抗这种影响,人们应该避免过度使用单个元素/形式/字符/等...

此外,人们应该使用大量不同的文本输入进行培训,同时清理和删除您认为不必要的部分,因为“神经网络”也可以学习模式和语言行为.