ReadMe - kana112233/tesseract GitHub Wiki
#Tesseract OCR
[](https://ci.appveyor.com/project/zdenop/tesseract
/)结果
[](https://lgtm.com
/项目/克/的tesseract-OCR/超正方体/上下文:CPP)
[](https://lgtm.com/projects/g
/的tesseract-OCR/超正方体/警报)
[(https://github.com/tesseract-ocr/tesseract/releases/)
这个软件包包含一个** OCR引擎** - libtesseract
和一个命令行程序 - tesseract
.
Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM)
在线识别,但仍然支持传统的Tesseract OCR引擎
Tesseract 3通过识别字符模式起作用. 兼容性
使用Legacy OCR Engine模式(--oem 0)启用Tesseract 3.
例如,它还需要训练有素的数据文件,这些文件支持传统引擎
来自tessdata存储库的那些.
首席开发人员是Ray Smith. 维护者是Zdenko Podobny.
有关贡献者的列表,请参阅作者
和GitHub的[贡献者]的日志(https://github.com/tesseract-ocr/tesseract/graphs/contributors).
Tesseract拥有** unicode(UTF-8)支持**,可以**“开箱即用”识别100多种语言**.
Tesseract支持各种输出格式:纯文本,特定(html),pdf,tsv,仅隐形文本pdf.
您应该注意,在许多情况下,为了获得更好的OCR结果,您需要** 提高质量的图像 **你正在给Tesseract.
该项目不包括GUI应用程序. 如果您需要,请参阅3rdParty维基页面.
Tesseract 可以训练识别其他语言. 有关详细信息,请参阅Tesseract培训.
Tesseract最初是在Hewlett-Packard Laboratories Bristol和
在1985年至1994年期间,格里利科罗拉多州的惠普公司(Hewlett-Packard Co)与一些公司合作
1996年更多的更改移植到Windows,以及1998年的一些C ++.
2005年,Tesseract由惠普开源. 自2006年以来,它由谷歌开发.
最新的(基于LSTM)稳定版本是** 4.0.0 **,于2018年10月29日发布. 4.0的源代码可以从GitHub上的主分支获得. 可以在问题跟踪器和规划维基中找到未解决的问题. 规划#400).
最新的3.5版本是** 3.05.02**,于2018年6月19日发布.最新的源代码3.05 可从[3.05分支在GitHub]上获得(https://github.com/tesseract-ocr/tesseract/tree/3.05). 此版本没有开发,但它可用于特殊情况(例如,参见[3.0x中的功能回归](https://github.com/tesseract-ocr/tesseract/wiki/Planning#regression-of- 特征-从-30X)).
请参阅** 发行说明和 [更改日志](https://github.com/tesseract-ocr/tesseract/ blob/master/ChangeLog)**有关版本的更多详细信息.
##安装Tesseract
您可以通过预先构建的二进制包安装Tesseract或从源代码构建.
支持的编译器是:
-
GCC 4.8及以上
-
Clang 3.4及以上
-
MSVC 2015,2017
其他编译器可能会工作,但不受官方支持.
##运行Tesseract
基本** 命令行用法**:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles ...]
有关各种命令行选项的更多信息,请使用tesseract --help
或man tesseract
.
##对于开发人员
开发人员可以使用libtesseract
C或[C ++](https://github.com/tesseract
-ocr/tesseract/blob/master/src/api/baseapi.h)用于构建自己的应用程序的API.
如果您需要将libtesseract
绑定到其他编程语言,请参阅AddOns wiki页面上的wrapper部分.
可以在tesseract-ocr.github.io上找到doxygen源代码生成的Tesseract文档.
##支持
在您提交问题之前,请查看** 此存储库的指南**.
如需支持,请先阅读Wiki,特别是FAQ看看你的问题是否得到解决. 如果没有,请搜索Tesseract用户论坛,[Tesseract开发人员论坛](https://groups.google.com/d/forum /tesseract-dev)和过去的问题,如果您仍然无法找到所需内容,请在邮件列表中寻求支持.
邮件列表:
-
tesseract-ocr - 适用于tesseract用户.
-
tesseract-dev - 适用于tesseract开发人员.
请仅针对错误报告问题,而不是提问.
此存储库中的代码根据Apache许可证2.0版(“许可证”)获得许可; 除非符合许可,否则您不得使用此文件. 您可以在以下位置获取许可证副本
http://www.apache.org/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则软件 根据许可证分发的“按现状”分发, 不附带任何明示或暗示的保证或条件. 有关管理权限的特定语言,请参阅许可证 许可证下的限制.
注意:此软件取决于可能根据不同开源许可证获得许可的其他软件包.
Tesseract基本上使用Leptonica library
使用BSD 2条款许可.
##最新版本的README
有关README.md的最新在线版本,请参阅:
https://github.com/tesseract-ocr/tesseract/blob/master/README.md