4.0 with LSTM - kana112233/tesseract GitHub Wiki
4.0
Tesseract 4.0 ** rc **源代码可在[repository]的“master”分支中找到(https://github.com/tesseract-ocr/tesseract). 它增加了一个基于LSTM神经网络的新OCR引擎. 它最初在x86/Linux上运行良好. tessdata存储库中提供了101种语言的模型数据.
##文档
幻灯片
#2,
#6,
获得有关Tesseract 4.0中LSTM集成的信息.
Training Tesseract LSTM引擎
通过在每行末尾添加制表符并在每个单词后面添加空格,可以转换3.0版本的箱文件以用于LSTM培训.
最新版本的[jTessBoxEditor - jTessBoxEditor-2.0-Beta]的“Box Editor”选项卡中的Edit
下的Mark EOL
和Mark EOL Bulk
功能(https://sourceforge.net/projects/vietocr/files/jTessBoxEditor
/)可用于自动添加EOL选项卡.
插入模式可用于每个单词的最后一个字母,以添加带空格的框.
没有自动化的方法来做到这一点.
4.0.0-alpha ppa
Tesseract 4.00和Leptonica 1.74的非官方Ubuntu PPA:
用于Debian的Leptonica 1.74.1软件包:
4.0.0-alpha for Windows
tesseract-ocr 4.0.0-alpha的非官方实验二进制文件可从以下链接获得. 2017年初,每个人都来自不同的主分支机构.有关详细信息,请参阅各个站点:
-
使用MinGW-w64制作的Windows Installer来自[UB Mannheim](https://github 的.com/UB-曼海姆/超正方体/维基)
-
带有cppan生成.dll和.exe文件的zip文件,你必须安装VC2015 x86 从microsoft.com redist以运行它们.
-
Win64 build of tesseract 4.0.0 alpha,leptonica 1.74.1和charlesw/tesseract .Net wrapper - 使用CPPAN为Visual Studio 2017构建.
带有GUI前端的## 4.0.0-alpha
VietOCR
来自VietocR的tesseract-ocr 4.0.0-alpha的Windows二进制文件可用于VietOCR
VietOCR可用于下载适用于其他语言的4.0.0alpha trainingdata.
gImageReader
带有GUI界面的tesseract-ocr 4.0.0-alpha的Windows二进制文件可用于gImageReader
从tessdata的master分支下载4.0.0alpha traineddata用于上面的内容. 例如 印地语下载以下文件:
https://github.com/tesseract-ocr/tessdata/blob/master/hin.traineddata
3.05-dev
那些想要修复3.05.01版本的bug的人可以使用GitHub上的3.05分支.
适用于Windows的Tesseract 3.05-dev的非官方安装程序可从UB Mannheim的Tesseract获得. 这包括培训工具.
目前的官方发布是3.05.01.