基于EasyOCR的OCR API构建 - peter-xbs/CommonCodes GitHub Wiki
EasyOCR安装
安装
pip install easyocr
使用
import easyocr
reader = easyocr.Reader(['ch_sim', 'en'], gpu=False)
ocr_res = reader.readtext('/mnt/data3/apps/LLM-prompt-data/temp/v2-4f70f2c73ecbdd1696c5516f8fb00559_720w.webp')
ocr_res
模型下载
前述命令会自动下载模型,如果网络不行,可直接在modle hub上手动下载 网址:https://www.jaided.ai/easyocr/modelhub/
处理PDF文件
## 针对PDF文件的处理 使用pdf2image
# pip install pdf2image -i https://pypi.tuna.tsinghua.edu.cn/simple/ TODO by 博睿
import pdf2image
import numpy as np
src_pdf = 'DATA/新冠专题/新冠肺炎防治百问百答.pdf'
images = pdf2image.convert_from_path(src_pdf)
for img in images:
result = reader.readtext(np.asarray(img))
break
注意,pdf2image成功调用需要安装poppler,
- 可参考:https://stackoverflow.com/questions/53481088/poppler-in-path-for-pdf2image;
- 也可参考:https://blog.csdn.net/qq_41982466/article/details/112192706
- 推荐使用yum install poppler/poppler-utils 最终成功运行!