Command Line Usage - kana112233/tesseract GitHub Wiki

有关命令行语法和其他详细信息,请参阅main页面.


##基本命令行用法

有关基本命令行用法,请参阅运行Tesseract.

常问问题

有关更多示例和提示,请参阅FAQ.


Tesseract 4中的可用OCR引擎

使用--oem 1代表LSTM,--oem 0代表Legacy Tesseract. 请注意,Legacy Tesseract模型仅包含在tessdatarepo的训练数据文件中.

tesseract input.tiff输出--oem 1 -l eng


##最简单的调用OCR图像

tesseract imagename输出库

这使用英语作为默认语言,使用3作为页面分割模式. 默认输出格式为** text **.

osd.traineddata,用于Orientation和Segmentation以及eng.traineddata和其他英语语言数据文件应该在“tessdata”目录中. 应将TESSDATA_PREFIX环境变量设置为“tessdata”目录的父目录.

如果eng.traineddata和osd.traineddata文件位于/usr/share/tessdata目录中,则以下命令将提供与上面相同的结果.

tesseract --tessdata-dir/usr/share imagename outputbase -l eng --psm 3


以下示例使用此图像,该图像具有多种语言的文本.

![eurotext.png(http://dev.blog.fairway.ne.jp/wp-content/uploads/2014/04/eurotext.png)

##使用一种语言

将“-l LANG”添加到命令中,其中LANG是受支持语言列表中的三个字符语言代码. 如果没有给出,则默认采用英语.

tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-eng -l eng

产量

(快速)[棕色] {狐狸}跳!      超过$ 43,456.78 <懒惰>#90狗      &duck/goose,占电子邮件的12.5%      来自[email protected]是垃圾邮件.      Der ,, schnelle“braune Fuchs springt      fi ber den faulen Hund. Le renard brun      «rapide»saute par-dessus le chien      paresseux. La volpe marrone rapida      salta sopra i] cane pigro. El zorro      marrénrépidosaltasobre el perro      perezoso. raposamarromrépida      salta sobre 0 C50 preguieoso.

##使用多种语言

将“-l LANG [+ LANG]”添加到命令行以一起使用多种语言进行识别

tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-engdeu -l eng + deu

产量

(快速)[棕色] {狐狸}跳!      超过$ 43,456.78 <懒惰>#90狗      &duck/goose,占电子邮件的12.5%      来自[email protected]是垃圾邮件.      Der“schnelle”braune Fuchs springt      überdenfaulen Hund. Le renard brun      «rapide»saute par-dessus le chien      paresseux. La volpe marrone rapida      salta sopra il cane pigro. El zorro      Marrönrpidosalta sobre el perro      perezoso. 一个raposamarromräpida      salta sobreocäopreguieoso.

##多种语言的顺序     

输出可以根据语言的顺序而不同,所以-l eng + hin可以给出与-l hin + eng不同的结果.

以下示例使用此图像的灰度版本,其中包含多种语言的文本 - 印地语和英语.

![bilingual.jpg(https://i.ytimg.com/vi/Z0qDeKu7TWA/hqdefault.jpg)

用英语作为主要语言然后用印地语

tesseract --tessdata-dir ././testing/bilingual.jpg ./testing/bilingual-enghin -l eng + hin

产量

हिदीसेअंठौजी      HINDI To           英语     

使用印地语作为主要语言,然后使用英语

tesseract --tessdata-dir ././testing/bilingual.jpg ./testing/bilingual-hineng -l hin + eng

产量

हिंदीसेअंग्रेजी      H I N D I T o           英语     

          

##可搜索的pdf输出

tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-eng -l eng pdf

这将创建一个带有图像的pdf和一个带有识别文本的单独的可搜索文本图层.

tesseract c:\ temp \ test_ara.jpg -l ara -psm 3 c:\ temp \ test_ara pdf

附加文件(源JPG和输出PDF)

![test_ara.jpg(https://cloud.githubusercontent.com/assets/17473681/13320324/bc160e22-dbd0-11e5-8090-6f3728fcc06d.jpg)

![test_ara.pdf(https://github.com/tesseract-ocr/tesseract/files/146534/test_ara.pdf)

HOCR输出

使用'hocr'配置文件,在命令末尾添加hocr以获取HOCR输出.

tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-eng -l eng hocr

部分输出

    

    

             <TITLE> </TITLE>                                    
       
        

          (快速) [brown] {fox} 跳!           跨度>         

       
      
          

TSV输出(当前在github上的master分支中的3.05-dev中可用)

通过在命令末尾添加tsv来使用'tsv'配置文件来获取TSV输出.

tesseract --tessdata-dir ././testing/eurotext.png ./testing/eurotext-eng -l eng tsv

部分输出

水平PAGE_NUM block_num par_num line_num word_num左顶部宽度高度的conf文本      1 1 0 0 0 0 0 0 1024 800 -1      2 1 1 0 0 0 98 66 821 596 -1      3 1 1 1 0 0 98 66 821 596 -1      4 1 1 1 1 0 105 66 719 48 -1      5 1 1 1 1 1 105 66 74 32 90      5 1 1 1 1 2 205 67 143 40 87(快速)      5 1 1 1 1 3 376 69 153 41 89 [棕色]      5 1 1 1 1 4 559 71 105 40 89 {}狐      5个1 1 1 1 5 687 73 137 41 89跳跃!      4 1 1 1 2 0 104 115 784 51 -1      5 1 1 1 2 1 104 115 96 33 91过      5 1 1 1 2 2 224 117 60 32 89      5 1 1 1 2 3 310 117 224 39 88 $ 43,456.78      5 1 1 1 2 4 561 121 136 42 92 <懒惰>      5 1 1 1 2 5 722 123 70 32 92#90      5 1 1 1 2 6 818 125 70 41 89狗

##使用不同的页面分段模式

以下示例将此图像与梵文脚本和梵语中的文本一起使用.

![san002.png(https://cloud.githubusercontent.com/assets/82178/13678011/81953684-e6ba-11e5-91e8-5c40518e94a6.png)

tesseract --tessdata-dir/usr/share testing/san002.png testing/san002-psm6 -l san -psm 6

产量

विर्व्य16      ज्यालत्रुखीसह्स्रनामक्तोव्रम्-नामाकळिट्. 191      दुर्गासहस्रनामस्तीत्रम्-1नामांक्ळिन्नू.213      द्रुर्गासहस्रनत्मस्तीन्रम्-2नामावळि238      द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(3)नामाव'ळि263      更多信息300नामावळिइं300      पार्वतींह्यो)सहस्रनामातोत्रम्-नामावळि'329      द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति355      द्बबरर्ररषष््360 360      更多信息363      नअ्््््365 365 365 365 365 365      नअ््््््््      更多信息,请访问我们的网站397-      कुमारींसहृस्रनामक्तोन्नम्-नामावळिय्432      गङ्ग'म्यासद्वृस्रनप्मक्तोव्रम्-नाम.वक्ति`457      गङ्ग'म्याष्टोत्तराप्तनामप्तोत्रम्-नामावळि488      गङ्गादातनप्तास्तोत्रम्-नामावक्ति491      更多信息493      'शिवगङ्गासद्दृस्रनत्माव'ळि517      गम्पत्रीसह्स्रनत्मक्तोत्रम्-नाम.व'ळि(1)531

tesseract --tessdata-dir/usr/share testing/san002.png testing/san002-psm3 -l san -psm 3

产量

ज्यंग्लत्रुखीसह्स्रनामलोत्रम्-नामावळिट्.      दुर्गासहस्रनामस्तीत्रम्-1नामाक्ळि      दुर्गासहस्रनत्मस्तीत्र्दुं'म्-2नामावाि      द्बुगसिद्द्स्रनत्मरत्तोत्रम्दकारादि(3)नामावळि           पार्वतींह्यो)सहम्रनम्परतोत्रम्-नामावळि'           फुलकुर्व्यसहस्रनत्मक्तोत्रम्-क्ताचम्-नत्माचळि           गम्यत्रीसह्स्रनत्मक्तोत्रम्-नग्मग्वळि(1)           191      ,213           238           300      329      355      360           363.           365           394           397-           432           457           488           491           493           517           531

⚠️ **GitHub.com Fallback** ⚠️