基于EasyOCR的OCR API构建 - peter-xbs/CommonCodes GitHub Wiki

EasyOCR安装

安装

pip install easyocr

使用

import easyocr
reader = easyocr.Reader(['ch_sim', 'en'], gpu=False)
ocr_res = reader.readtext('/mnt/data3/apps/LLM-prompt-data/temp/v2-4f70f2c73ecbdd1696c5516f8fb00559_720w.webp')
ocr_res

模型下载

前述命令会自动下载模型,如果网络不行,可直接在modle hub上手动下载 网址:https://www.jaided.ai/easyocr/modelhub/

处理PDF文件

## 针对PDF文件的处理 使用pdf2image
# pip install pdf2image -i https://pypi.tuna.tsinghua.edu.cn/simple/  TODO by 博睿
import pdf2image
import numpy as np
src_pdf = 'DATA/新冠专题/新冠肺炎防治百问百答.pdf'
images = pdf2image.convert_from_path(src_pdf)
for img in images:
    result = reader.readtext(np.asarray(img))
    break

注意,pdf2image成功调用需要安装poppler,