Tess4J - mychcorp/tess4j-mych GitHub Wiki
Tess4J正在开发和在Windows和Linux测试。
说明
的tesseract,Leptonica,和Ghostscript 32位和64位的DLL,对于英语语言的数据和样本图像捆绑在一起的计划。对的tesseract语言数据包应被解压缩,并放置到tessdata文件夹。 Windows本机库用VS2012 / VS2013建,因此依赖于在Visual C ++可再发行的VS2012或Visual C ++可再发行的VS2013。
Linux的共享对象库(libtesseract.so),相当于该DLL可以安装或与维基的tesseract给出的说明来源建成。
Tess4J可以建立和单位使用Apache Ant和JUnit测试。解压源,然后在命令行执行:
蚂蚁测试 注:在不具备UTF-8作为其默认的字符集的平台,输出文本可能有字符编码问题。您可能需要为你的程序默认的字符编码,通过使用命令行选项-Dfile.encoding = UTF8提供JVM或设置环境变量JAVA_TOOL_OPTIONS至-Dfile.encoding = UTF8 1.0版本要求Tess4J。这是不再需要1.1及更高版本。
对PDF文档的支持,可通过GPL Ghostscript的,应安装并包含在系统路径。
用于OCR图片应该至少有200 DPI分辨率,通常为300 DPI,1 BPP(位每像素)monochome或8 BPP灰度压缩TIFF或PNG格式。 PNG通常在尺寸上比其他图像格式小,仍保持高品质,由于其采用无损数据压缩算法; TIFF有包含在一个文件中的多个图像(页)的能力优势。