Tess4J - mychcorp/tess4j-mych GitHub Wiki

Tess4J正在开发和在Windows和Linux测试。

说明

的tesseract，Leptonica，和Ghostscript 32位和64位的DLL，对于英语语言的数据和样本图像捆绑在一起的计划。对的tesseract语言数据包应被解压缩，并放置到tessdata文件夹。 Windows本机库用VS2012 / VS2013建，因此依赖于在Visual C ++可再发行的VS2012或Visual C ++可再发行的VS2013。

Linux的共享对象库（libtesseract.so），相当于该DLL可以安装或与维基的tesseract给出的说明来源建成。

Tess4J可以建立和单位使用Apache Ant和JUnit测试。解压源，然后在命令行执行：

蚂蚁测试注：在不具备UTF-8作为其默认的字符集的平台，输出文本可能有字符编码问题。您可能需要为你的程序默认的字符编码，通过使用命令行选项-Dfile.encoding = UTF8提供JVM或设置环境变量JAVA_TOOL_OPTIONS至-Dfile.encoding = UTF8 1.0版本要求Tess4J。这是不再需要1.1及更高版本。

对PDF文档的支持，可通过GPL Ghostscript的，应安装并包含在系统路径。

用于OCR图片应该至少有200 DPI分辨率，通常为300 DPI，1 BPP（位每像素）monochome或8 BPP灰度压缩TIFF或PNG格式。 PNG通常在尺寸上比其他图像格式小，仍保持高品质，由于其采用无损数据压缩算法; TIFF有包含在一个文件中的多个图像（页）的能力优势。