Fonts - kana112233/tesseract GitHub Wiki
#Tesseract培训的字体
Tesseract培训可以使用由文本制作的图像,这些图像是使用字体列表呈现的. 这些字体必须在运行培训过程的主机上可用.
用于训练3.05的OCR引擎和4.0.0中的传统OCR引擎的字体在[training/language-specific.sh]中定义(https://github.com/tesseract-ocr/tesseract/blob/主/SRC/训练/language-specific.sh).
langdata/font_properties中列出了更多字体. 如果将字体添加到第一个文件(或通过命令行参数显式指定),则必须将它们添加到第二个文件中.
用于在4.0.0中训练LSTM OCR引擎的字体在langdata_lstm repo中的<lang>/okfonts.txt
文件中定义.
##查找字体
要查找系统上已安装的将呈现给定培训文本的字体,您可以使用以下命令(更改语言代码和目录位置以匹配您的设置).
fontslist.txt将提供可在training/language-specific.sh
中使用的文本.
text2image --find_fonts \
--fonts_dir /usr/share/fonts \
--text ./langdata/eng/eng.training_text \
--min_coverage .9 \
--outputbase ./langdata/eng/eng \
|& grep raw \
| sed -e 's/ :.*/@ \\/g' \
| sed -e "s/^/ '/" \
| sed -e "s/@/'/g" >./langdata/eng/fontslist.txt
The above will not work for Fraktur fonts, it will identify all Latin fonts also. Review the generated images and choose appropriate fonts.
##字体安装
在Debian GNU Linux和类似的发行版(Linux Mint,Ubuntu,...),
可以像这样安装所需的字体:
#AMHARIC_FONTS(todo) #ANCIENT_GREEK_FONTS(待办事项) #ARABIC_FONTS(todo) #ARMENIAN_FONTS(todo) #BENGALI_FONTS(todo) #BURMESE_FONTS(todo) #CHI_SIM_FONTS(todo) #CHI_TRA_FONTS(todo)
#DEVANAGARI_FONTS(另见下面的外部链接) apt-get install fonts-deva
#EARLY_LATIN_FONTS(待办事项) #FRAKTUR_FONTS(todo) #GEORGIAN_FONTS(todo) #GREEK_FONTS(todo) #GUJARATI_FONTS(todo) #HEBREW_FONTS(todo)
#JPN_FONTS(todo) apt-get install fonts-noto-cjk fonts-japanese-mincho.ttf fonts-takao-gothic fonts-vlgothic
#KANNADA_FONTS(todo) #KHMER_FONTS(todo) #KOREAN_FONTS(todo) #KURDISH_FONTS(todo) #KYRGYZ_FONTS(todo) #LAOTHIAN_FONTS(todo)
#LATIN_FONTS apt-get install fonts-dejavu gsfonts ttf-mscorefonts-installer
#MALAYALAM_FONTS(todo)
#NEOLATIN_FONTS(仍然不完整) apt-get install fonts-ebgaramond fonts-gfs-didot fonts-gfs-didot-classic fonts-junicode
#NORTH_AMERICAN_ABORIGINAL_FONTS(todo) #OLD_GEORGIAN_FONTS(todo) #ORIYA_FONTS(todo) #PERSIAN_FONTS(todo) #PUNJABI_FONTS(todo) #RUSSIAN_FONTS(todo) #SINHALA_FONTS(todo) #SYRIAC_FONTS(todo) #TAMIL_FONTS(todo) #TELUGU_FONTS(todo) #THAANA_FONTS(todo) #THAI_FONTS(todo) #TIBETAN_FONTS(todo) #VERTICAL_FONTS(todo) #VIETNAMESE_FONTS(todo)
已安装的字体由命令fc-list
显示.
另请参阅Debian wiki.
text2image --fonts_dir/usr/share/fonts --list_available_fonts
也会显示所有字体.
##链接
###(大多数免费)字体的来源
####拉丁字体
-
https://fontlibrary.org/en(GFS Bodoni)
-
http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=FontDownloads(SILFonts)
####梵文字体
####希伯来语字体
####字体集合
###有关字体的更多信息