ReadMe - kana112233/tesseract GitHub Wiki

#Tesseract OCR

建立状态

[构建状态](https://ci.appveyor.com/project/zdenop/tesseract /)结果

Coverity Scan Build Status

[代码质量:Cpp](https://lgtm.com /项目/克/的tesseract-OCR/超正方体​​/上下文:CPP)

[Total Alerts](https://lgtm.com/projects/g /的tesseract-OCR/超正方体​​/警报)

GitHub许可证

[下载(https://github.com/tesseract-ocr/tesseract/releases/)

关于

这个软件包包含一个** OCR引擎** - libtesseract和一个命令行程序 - tesseract.

Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM)

在线识别,但仍然支持传统的Tesseract OCR引擎

Tesseract 3通过识别字符模式起作用. 兼容性

使用Legacy OCR Engine模式(--oem 0)启用Tesseract 3.

例如,它还需要训练有素的数据文件,这些文件支持传统引擎

来自tessdata存储库的那些.

首席开发人员是Ray Smith. 维护者是Zdenko Podobny.

有关贡献者的列表,请参阅作者

和GitHub的[贡献者]的日志(https://github.com/tesseract-ocr/tesseract/graphs/contributors).

Tesseract拥有** unicode(UTF-8)支持**,可以**“开箱即用”识别100多种语言**.

Tesseract支持各种输出格式:纯文本,特定(html),pdf,tsv,仅隐形文本pdf.

您应该注意,在许多情况下,为了获得更好的OCR结果,您需要** 提高质量的图像 **你正在给Tesseract.

该项目不包括GUI应用程序. 如果您需要,请参阅3rdParty维基页面.

Tesseract 可以训练识别其他语言. 有关详细信息,请参阅Tesseract培训.

历史简介

Tesseract最初是在Hewlett-Packard Laboratories Bristol和

在1985年至1994年期间,格里利科罗拉多州的惠普公司(Hewlett-Packard Co)与一些公司合作

1996年更多的更改移植到Windows,以及1998年的一些C ++.

2005年,Tesseract由惠普开源. 自2006年以来,它由谷歌开发.

最新的(基于LSTM)稳定版本是** 4.0.0 **,于2018年10月29日发布. 4.0的源代码可以从GitHub上的主分支获得. 可以在问题跟踪器规划维基中找到未解决的问题. 规划#400).

最新的3.5版本是** 3.05.02**,于2018年6月19日发布.最新的源代码3.05 可从[3.05分支在GitHub]上获得(https://github.com/tesseract-ocr/tesseract/tree/3.05). 此版本没有开发,但它可用于特殊情况(例如,参见[3.0x中的功能回归](https://github.com/tesseract-ocr/tesseract/wiki/Planning#regression-of- 特征-从-30X)).

请参阅** 发行说明 [更改日志](https://github.com/tesseract-ocr/tesseract/ blob/master/ChangeLog)**有关版本的更多详细信息.

##安装Tesseract

您可以通过预先构建的二进制包安装Tesseract从源代码构建.

支持的编译器是:

  • GCC 4.8及以上

  • Clang 3.4及以上

  • MSVC 2015,2017

其他编译器可能会工作,但不受官方支持.

##运行Tesseract

基本** 命令行用法**:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles ...]

有关各种命令行选项的更多信息,请使用tesseract --helpman tesseract.

##对于开发人员

开发人员可以使用libtesseract C或[C ++](https://github.com/tesseract -ocr/tesseract/blob/master/src/api/baseapi.h)用于构建自己的应用程序的API. 如果您需要将libtesseract绑定到其他编程语言,请参阅AddOns wiki页面上的wrapper部分.

可以在tesseract-ocr.github.io上找到doxygen源代码生成的Tesseract文档.

##支持

在您提交问题之前,请查看** 此存储库的指南**.

如需支持,请先阅读Wiki,特别是FAQ看看你的问题是否得到解决. 如果没有,请搜索Tesseract用户论坛,[Tesseract开发人员论坛](https://groups.google.com/d/forum /tesseract-dev)和过去的问题,如果您仍然无法找到所需内容,请在邮件列表中寻求支持.

邮件列表:

请仅针对错误报告问题,而不是提问.

执照

此存储库中的代码根据Apache许可证2.0版(“许可证”)获得许可;      除非符合许可,否则您不得使用此文件.      您可以在以下位置获取许可证副本

http://www.apache.org/licenses/LICENSE-2.0

除非适用法律要求或书面同意,否则软件      根据许可证分发的“按现状”分发,      不附带任何明示或暗示的保证或条件.      有关管理权限的特定语言,请参阅许可证      许可证下的限制.

注意:此软件取决于可能根据不同开源许可证获得许可的其他软件包.

Tesseract基本上使用Leptonica library

使用BSD 2条款许可.

##最新版本的README

有关README.md的最新在线版本,请参阅:

https://github.com/tesseract-ocr/tesseract/blob/master/README.md

⚠️ **GitHub.com Fallback** ⚠️