Command Line Usage - kana112233/tesseract GitHub Wiki
有关命令行语法和其他详细信息,请参阅main页面.
##基本命令行用法
有关基本命令行用法,请参阅运行Tesseract.
有关更多示例和提示,请参阅FAQ.
使用--oem 1
代表LSTM,--oem 0
代表Legacy Tesseract.
请注意,Legacy Tesseract模型仅包含在tessdatarepo的训练数据文件中.
tesseract input.tiff输出--oem 1 -l eng
##最简单的调用OCR图像
tesseract imagename输出库
这使用英语作为默认语言,使用3作为页面分割模式. 默认输出格式为** text **.
osd.traineddata,用于Orientation和Segmentation以及eng.traineddata和其他英语语言数据文件应该在“tessdata”目录中. 应将TESSDATA_PREFIX环境变量设置为“tessdata”目录的父目录.
如果eng.traineddata和osd.traineddata文件位于/usr/share/tessdata目录中,则以下命令将提供与上面相同的结果.
tesseract --tessdata-dir/usr/share imagename outputbase -l eng --psm 3
以下示例使用此图像,该图像具有多种语言的文本.
![eurotext.png(http://dev.blog.fairway.ne.jp/wp-content/uploads/2014/04/eurotext.png)
##使用一种语言
将“-l LANG”添加到命令中,其中LANG是受支持语言列表中的三个字符语言代码. 如果没有给出,则默认采用英语.
tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-eng -l eng
产量
(快速)[棕色] {狐狸}跳! 超过$ 43,456.78 <懒惰>#90狗 &duck/goose,占电子邮件的12.5% 来自[email protected]是垃圾邮件. Der ,, schnelle“braune Fuchs springt fi ber den faulen Hund. Le renard brun «rapide»saute par-dessus le chien paresseux. La volpe marrone rapida salta sopra i] cane pigro. El zorro marrénrépidosaltasobre el perro perezoso. raposamarromrépida salta sobre 0 C50 preguieoso.
##使用多种语言
将“-l LANG [+ LANG]”添加到命令行以一起使用多种语言进行识别
tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-engdeu -l eng + deu
产量
(快速)[棕色] {狐狸}跳! 超过$ 43,456.78 <懒惰>#90狗 &duck/goose,占电子邮件的12.5% 来自[email protected]是垃圾邮件. Der“schnelle”braune Fuchs springt überdenfaulen Hund. Le renard brun «rapide»saute par-dessus le chien paresseux. La volpe marrone rapida salta sopra il cane pigro. El zorro Marrönrpidosalta sobre el perro perezoso. 一个raposamarromräpida salta sobreocäopreguieoso.
##多种语言的顺序
输出可以根据语言的顺序而不同,所以-l eng + hin可以给出与-l hin + eng不同的结果.
以下示例使用此图像的灰度版本,其中包含多种语言的文本 - 印地语和英语.
![bilingual.jpg(https://i.ytimg.com/vi/Z0qDeKu7TWA/hqdefault.jpg)
用英语作为主要语言然后用印地语
tesseract --tessdata-dir ././testing/bilingual.jpg ./testing/bilingual-enghin -l eng + hin
产量
使用印地语作为主要语言,然后使用英语
tesseract --tessdata-dir ././testing/bilingual.jpg ./testing/bilingual-hineng -l hin + eng
产量
##可搜索的pdf输出
tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-eng -l eng pdf
这将创建一个带有图像的pdf和一个带有识别文本的单独的可搜索文本图层.
tesseract c:\ temp \ test_ara.jpg -l ara -psm 3 c:\ temp \ test_ara pdf
附加文件(源JPG和输出PDF)
![test_ara.jpg(https://cloud.githubusercontent.com/assets/17473681/13320324/bc160e22-dbd0-11e5-8090-6f3728fcc06d.jpg)
![test_ara.pdf(https://github.com/tesseract-ocr/tesseract/files/146534/test_ara.pdf)
使用'hocr'配置文件,在命令末尾添加hocr以获取HOCR输出.
tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-eng -l eng hocr
部分输出
<TITLE> </TITLE>
(快速) [brown] {fox} 跳! 跨度>
通过在命令末尾添加tsv来使用'tsv'配置文件来获取TSV输出.
tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-eng -l eng tsv
部分输出
水平PAGE_NUM block_num par_num line_num word_num左顶部宽度高度的conf文本 1 1 0 0 0 0 0 0 1024 800 -1 2 1 1 0 0 0 98 66 821 596 -1 3 1 1 1 0 0 98 66 821 596 -1 4 1 1 1 1 0 105 66 719 48 -1 5 1 1 1 1 1 105 66 74 32 90 5 1 1 1 1 2 205 67 143 40 87(快速) 5 1 1 1 1 3 376 69 153 41 89 [棕色] 5 1 1 1 1 4 559 71 105 40 89 {}狐 5个1 1 1 1 5 687 73 137 41 89跳跃! 4 1 1 1 2 0 104 115 784 51 -1 5 1 1 1 2 1 104 115 96 33 91过 5 1 1 1 2 2 224 117 60 32 89 5 1 1 1 2 3 310 117 224 39 88 $ 43,456.78 5 1 1 1 2 4 561 121 136 42 92 <懒惰> 5 1 1 1 2 5 722 123 70 32 92#90 5 1 1 1 2 6 818 125 70 41 89狗
##使用不同的页面分段模式
以下示例将此图像与梵文脚本和梵语中的文本一起使用.
![san002.png(https://cloud.githubusercontent.com/assets/82178/13678011/81953684-e6ba-11e5-91e8-5c40518e94a6.png)
tesseract --tessdata-dir/usr/share testing/san002.png testing/san002-psm6 -l san -psm 6
产量
विर्व्य16 ज्यालत्रुखीसह्स्रनामक्तोव्रम्-नामाकळिट्. 191 दुर्गासहस्रनामस्तीत्रम्-1नामांक्ळिन्नू.213 द्रुर्गासहस्रनत्मस्तीन्रम्-2नामावळि238 द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(3)नामाव'ळि263 更多信息300नामावळिइं300 पार्वतींह्यो)सहस्रनामातोत्रम्-नामावळि'329 द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति355 द्बबरर्ररषष््360 360 更多信息363 नअ्््््365 365 365 365 365 365 नअ्््््््् 更多信息,请访问我们的网站397- कुमारींसहृस्रनामक्तोन्नम्-नामावळिय्432 गङ्ग'म्यासद्वृस्रनप्मक्तोव्रम्-नाम.वक्ति`457 गङ्ग'म्याष्टोत्तराप्तनामप्तोत्रम्-नामावळि488 गङ्गादातनप्तास्तोत्रम्-नामावक्ति491 更多信息493 'शिवगङ्गासद्दृस्रनत्माव'ळि517 गम्पत्रीसह्स्रनत्मक्तोत्रम्-नाम.व'ळि(1)531
tesseract --tessdata-dir/usr/share testing/san002.png testing/san002-psm3 -l san -psm 3
产量
ज्यंग्लत्रुखीसह्स्रनामलोत्रम्-नामावळिट्. दुर्गासहस्रनामस्तीत्रम्-1नामाक्ळि दुर्गासहस्रनत्मस्तीत्र्दुं'म्-2नामावाि द्बुगसिद्द्स्रनत्मरत्तोत्रम्दकारादि(3)नामावळि पार्वतींह्यो)सहम्रनम्परतोत्रम्-नामावळि' फुलकुर्व्यसहस्रनत्मक्तोत्रम्-क्ताचम्-नत्माचळि गम्यत्रीसह्स्रनत्मक्तोत्रम्-नग्मग्वळि(1) 191 ,213 238 300 329 355 360 363. 365 394 397- 432 457 488 491 493 517 531