Fonts - kana112233/tesseract GitHub Wiki

#Tesseract培训的字体

Tesseract培训可以使用由文本制作的图像,这些图像是使用字体列表呈现的. 这些字体必须在运行培训过程的主机上可用.

用于训练3.05的OCR引擎和4.0.0中的传统OCR引擎的字体在[training/language-specific.sh]中定义(https://github.com/tesseract-ocr/tesseract/blob/主/SRC/训练/language-specific.sh).

langdata/font_properties中列出了更多字体. 如果将字体添加到第一个文件(或通过命令行参数显式指定),则必须将它们添加到第二个文件中.

用于在4.0.0中训练LSTM OCR引擎的字体在langdata_lstm repo中的<lang>/okfonts.txt文件中定义.

##查找字体

要查找系统上已安装的将呈现给定培训文本的字体,您可以使用以下命令(更改语言代码和目录位置以匹配您的设置). fontslist.txt将提供可在training/language-specific.sh中使用的文本.

text2image --find_fonts \
--fonts_dir /usr/share/fonts \
--text ./langdata/eng/eng.training_text \
--min_coverage .9  \
--outputbase ./langdata/eng/eng \
|& grep raw \
 | sed -e 's/ :.*/@ \\/g' \
 | sed -e "s/^/  '/" \
 | sed -e "s/@/'/g" >./langdata/eng/fontslist.txt

The above will not work for Fraktur fonts, it will identify all Latin fonts also. Review the generated images and choose appropriate fonts.

##字体安装

Debian

在Debian GNU Linux和类似的发行版(Linux Mint,Ubuntu,...),

可以像这样安装所需的字体:

#AMHARIC_FONTS(todo)      #ANCIENT_GREEK_FONTS(待办事项)      #ARABIC_FONTS(todo)      #ARMENIAN_FONTS(todo)      #BENGALI_FONTS(todo)      #BURMESE_FONTS(todo)      #CHI_SIM_FONTS(todo)      #CHI_TRA_FONTS(todo)

#DEVANAGARI_FONTS(另见下面的外部链接)      apt-get install fonts-deva

#EARLY_LATIN_FONTS(待办事项)      #FRAKTUR_FONTS(todo)      #GEORGIAN_FONTS(todo)      #GREEK_FONTS(todo)      #GUJARATI_FONTS(todo)      #HEBREW_FONTS(todo)

#JPN_FONTS(todo)      apt-get install fonts-noto-cjk fonts-japanese-mincho.ttf fonts-takao-gothic fonts-vlgothic

#KANNADA_FONTS(todo)      #KHMER_FONTS(todo)      #KOREAN_FONTS(todo)      #KURDISH_FONTS(todo)      #KYRGYZ_FONTS(todo)      #LAOTHIAN_FONTS(todo)

#LATIN_FONTS      apt-get install fonts-dejavu gsfonts ttf-mscorefonts-installer

#MALAYALAM_FONTS(todo)

#NEOLATIN_FONTS(仍然不完整)      apt-get install fonts-ebgaramond fonts-gfs-didot fonts-gfs-didot-classic fonts-junicode

#NORTH_AMERICAN_ABORIGINAL_FONTS(todo)      #OLD_GEORGIAN_FONTS(todo)      #ORIYA_FONTS(todo)      #PERSIAN_FONTS(todo)      #PUNJABI_FONTS(todo)      #RUSSIAN_FONTS(todo)      #SINHALA_FONTS(todo)      #SYRIAC_FONTS(todo)      #TAMIL_FONTS(todo)      #TELUGU_FONTS(todo)      #THAANA_FONTS(todo)      #THAI_FONTS(todo)      #TIBETAN_FONTS(todo)      #VERTICAL_FONTS(todo)      #VIETNAMESE_FONTS(todo)

已安装的字体由命令fc-list显示. 另请参阅Debian wiki.

text2image --fonts_dir/usr/share/fonts --list_available_fonts也会显示所有字体.

##链接

###(大多数免费)字体的来源

####拉丁字体

####梵文字体

Fraktur字体

####希伯来语字体

####字体集合

###有关字体的更多信息

⚠️ **GitHub.com Fallback** ⚠️