OCR数据集 - panshaowu/mindocr GitHub Wiki

OCR引擎

Dataset Size Character Type Task Language Free
IAM (IAM Handwriting) 13353 张由657位作者创建的手写文本行图像,单词、句子、文本等不同级别的标记 手写 检测/识别 En 注册后下载
FUNSD (Form Understanding in Noisy Scanned Documents) 199个真实的、完全注释的扫描表单。文档嘈杂,外观差异很大 印刷 & 手写 检测/识别/表单理解 En Y
ST-VQA (Scene Text Visual Question Answering) 大约4%的图像中有文字 注册后下载
TextCaps 145k 图像的 28k 字幕,数据集要求模型识别文本,将其与其视觉上下文相关联,阅读理解生成有关标题 印刷 检测/识别(需要自动化标注)/NLP推理生成 En Y
SciTSR PDF格式的15000个表格,包含从LaTeX源文件中提取的结构标签 印刷 表单理解 En Y
DocBank 500K 文档页面,基于arXiv的LaTeX源码构建,其中包含用于文档布局分析的细粒度Token级注释 印刷 版面分析/关键信息提取 En Y
TextOCR 用于对任意形状的场景文本进行文本识别基准测试,包含来自TextVQA的28134张自然图像,903069个带注释的场景文本单词,已集成 印刷 检测/识别 En Y
UFPR-ALPR 来自150台机动车的4000张包含30000个车牌字符的高清照片 印刷 车牌检测/识别 En 邮件申请下载, 仅学术用途
im2latex-100k 总共 ~100k 个公式和图像,为OpenAI image-2-latex系统构建,公式从arXiv的LaTeX中解析 印刷 公式识别 En Y
Kannada-MNIST Kannada语的标准MNIST数据集替代品 手写 字符分类 Kannada N, Kaggle竞赛
MLe2e 711个场景图像,涵盖拉丁语、中文、卡纳达语和韩文 印刷 文本检测/脚本识别/文本识别 Latin/Zh/Kannada/Hangul Y
Chinese Text in the Wild(CTW) 包括30000 多张街景图像的100万个汉字,覆盖3850个常用字, 已集成 印刷 文本检测/识别 Zh 注册后下载
IIIT-AR-13K 13k个带注释的页面图像,覆盖表格、图形、图像、徽标、签名等5种类型 印刷 版面分析/关键信息提取 En Y
MIDV-2019 拓展MIDV-500数据量40%,高分辨率移动摄像机拍摄的短视频,包括50种500张身份证件 印刷 文本检测/识别 En Y
SSIG-SegPlate 101辆路面车辆照片,每辆车平均有19.80个图像帧 印刷 车牌文本分割 En N, 网站失效
RodoSol-ALPR 巴西圣埃斯皮里图州高速公路采集的20000张图像,包括汽车、摩托车、公共汽车、卡车车牌 印刷 车牌文本检测/识别 En 邮件申请下载,仅作学术用途
BanglaLekha-Isolated 166105张手写字符图像, 包含 50 个孟加拉语基本字符、10 个孟加拉数字和 24 个选定复合字符的样本 手写 字符分类 Bangla Y
ChineseLP 411张中国车牌图像 印刷 车牌文本检测/识别 Zh 链接失效
FSNS 阿拉伯语手写数据集 手写 字符分类 Arab 链接失效
Newspaper Navigator 从《美国编年史》中的 16 万页历史报纸中提取标题、照片、插图、地图、漫画、卡通和广告 印刷 版面分析/文本检测/识别 En Y
Twitter100k 100万个从Twitter随机抓取的图像文本对,用于弱监督学习 印刷 En Y
DDI-100 扭曲的文档图像数据集, 包含 99870 个文档图像以及文本蒙版、图章掩码、文本和字符位置,由6658个文档数据增强得到 印刷 版面分析 En Y
COCO-Text 63686 images, 145,859 text instances, 3 fine-grained text attributes. 已集成 印刷&手写 文本检测/识别 En Y
Vizwiz 20523 个训练图像/问题对,205230 个训练答案/答案置信对 VQA En Y
MJSynth (MJ) 9 million images covering 90k English words, 10GiB En Y
SynthText (ST) 已集成 En Y
Street View Text (SVT) 647 testing images cropped form Google Street View, 已集成 En Y
IIIT5K-Words (IIIT) 从谷歌图片搜索中收集的。使用广告牌、招牌、门牌、门牌、电影海报等查询词来收集图像。该数据集包含来自场景文本和原生数字图像的 5000 个裁剪单词图像。 印刷 文本识别 En Y
ICDAR2015 1000个训练图像,500个测试图像 印刷 文本检测/识别,已集成 En Y
ICDAR2019-ArT 已集成
LSVT 已集成
Street View Text-Perspective (SVTP) 639 test images in this set and many of them are perspectively disorted En Y
CUTE80 (CUTE) for curved text recognition. 288 testing images are cropped from full images En Y
ICDAR 2003 507张自然场景图像(包括258张训练图像和249张测试图像)。图像在字符级别进行注释。可以从图像中裁剪字符和单词。 印刷 检测/识别 En Y
MSRA-TD500 已集成 En Y
SCUT-CTW1500 1255+300图像,已集成 印刷 文本检测/识别 En Y
Total-Text 已集成 En Y
MLT2017 10000 张图像文件以及每张图片中文字的位置信息及相关文字注释。该数据集共包括 10 种主要语言,已集成 印刷 文本检测/识别 多语言/En 注册后下载
Chinese Scene Dataset/benchmarking-chinese-text-recognition 509,164, 63,645 and 63,646 training, validation, and test images. 包括ICDAR2017, ICDAR2019, ICPR2018, SCUT-HCCDoc, CTW 等多个数据集. 已集成. 印刷&手写 文本检测/识别 Zh Y
CASIA-HWDB2.x 中科院自动化研究所-手写中文数据集,以及由中科院手写数据和网上开源数据合并组合的 数据集, 包含在线和离线两类手写数据,HWDB1.0~1.2总共有3895135个手写单字样本,分属7356类(7185个汉字和171个英文字母、数字、符号) 手写 文本检测/识别 Zh
NIST手写单字数据集 NIST19数据集适用于手写文档和字符识别的模型训练,从3600位作者的手写样本表格中提取得到,总共包含81万张字符图片 手写 文本检测/识别 En
Born-Digital Images 分为4个任务: 任务1为文本定位, 任务2为文本分割, 任务3为单词识别, 任务4为端到端文本检测识别。已集成
CASIA-10K 文本检测,已集成
CCPD 文本检测,已集成
ICPR MTWI-2018 已集成
RCTW-17 文本检测,已集成
ReCTS 文本检测, 已集成
SROIE 已集成
SynText150k Part1: 54,327 图像(https://universityofadelaide.box.com/s/1jcvu6z9jojmhzojuqrwxvwxmrlw7uib)[标注](/panshaowu/mindocr/wiki/标注)(https://universityofadelaide.box.com/s/zc73pyzvymqkjg3vkb2ayjol7y5a4fsk), Part2: 94,723 图像(https://universityofadelaide.box.com/s/ibihmhkzpc1zuh56mxyehad1dv1l73ua)[标注](/panshaowu/mindocr/wiki/标注)(https://universityofadelaide.box.com/s/rk55zheij8ubvwgzg7dfjbxgi27l8xld) 已集成
CORD Consolidated Receipt Dataset for Post-OCR Parsing,是一个用于 Post-OCR 解析的收据数据集。该数据集包含数千张印度尼西亚收据(包含用于 OCR 的图像及 box/text 标注,以及用于解析的多级语义标签) 印刷 文本检测/识别 En 可torrent下载
USPS United States Postal Service,这是一个数字识别的数据集,数据由美国邮政署自动扫描信件获得。该数据集共包含了 9,298 个 16×16 像素的灰度样本,其中训练集包含 7,291 个,数据集包含 2,007 个, 图像均格式居中,标准化并显示多种字体。 手写 文本检测/识别 En 可torrent下载
Synthetic Chinese String Synthetic Chinese String 数据集是一个中文字符识别数据集,包含 360 多万张训练图片,5824 个字符。图片场景较简单,为白底黑字。 印刷 文本识别 Zh 可torrent下载
TextSeg 大规模文本检测及分割数据集,标注精细、用途广泛。该数据集包括六种类型的标注:word-、character-wise bounding polygons, masks 及 transcriptions。 艺术字 文本检测 En 可torrent下载
LSVTD large-scale video text dataset,包含来自 21 个自然场景的 100 个视频。该数据集涵盖了广泛的 13 个室内(如书店、商场)和 9 个室外场景,其多样性是 IC15 数据集的 3 倍以上。 印刷字 文本检测/识别 En/Zh 邮件注册可获取
HierText HierText 是第一个具有文本分层注释的数据集 自然场景和文档。数据集包含从中选择的 11639 张图像 开放图像数据集, 提供高质量的单词 (~1.2M)、行和段落级批注。HierText 是第一个具有文本分层注释的数据集 自然场景和文档。数据集包含从中选择的 11639 张图像 开放图像数据集, 提供高质量的单词 (~1.2M)、行和段落级批注。 印刷字 文本检测/识别 En 可获取

Benchmark

DTRB

版面识别

dataset 简介
cTDaR2019_cTDaR 用于表格检测(TRACKA)和表格识别(TRACKB)。图片类型包含历史数据集(以cTDaR_t0开头,如cTDaR_t00872.jpg)和现代数据集(以cTDaR_t1开头,cTDaR_t10482.jpg)。
IIIT-AR-13K 手动注释公开的年度报告中的图形或页面而构建的数据集,包含5类:table, figure, natural image, logo, and signature
CDLA 中文文档版面分析数据集,面向中文文献类(论文)场景,包含10类:Text、Title、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation
TableBank 用于表格检测和识别大型数据集,包含Word和Latex2种文档格式
DocBank 使用弱监督方法构建的大规模数据集(500K文档页面),用于文档布局分析,包含12类:Author、Caption、Date、Equation、Figure、Footer、List、Paragraph、Reference、Section、Table、Title

可拓展数据集

dataset 简介
Wikipedia-based Image Text (WIT) Dataset 一个大型多模式多语言数据集。WIT由一组精心策划的3 760万实体丰富的图像文本示例组成,其中包括108种维基百科语言的1150万张独特的图像。需进行数据自动标注和清洗后,可用于版面分析
Flickr30k 包含从Flickr收集的31 000张图片,以及人类注释者提供的5个参考句子。原本是用于图文多模态训练的数据集,自动标注和清洗后可能能用于OCR引擎

参考文献