OCR数据集 - panshaowu/mindocr GitHub Wiki

OCR引擎

Dataset	Size	Character Type	Task	Language	Free
IAM (IAM Handwriting)	13353 张由657位作者创建的手写文本行图像，单词、句子、文本等不同级别的标记	手写	检测/识别	En	注册后下载
FUNSD (Form Understanding in Noisy Scanned Documents)	199个真实的、完全注释的扫描表单。文档嘈杂，外观差异很大	印刷 & 手写	检测/识别/表单理解	En	Y
ST-VQA (Scene Text Visual Question Answering)	大约4%的图像中有文字				注册后下载
TextCaps	145k 图像的 28k 字幕，数据集要求模型识别文本，将其与其视觉上下文相关联，阅读理解生成有关标题	印刷	检测/识别(需要自动化标注)/NLP推理生成	En	Y
SciTSR	PDF格式的15000个表格，包含从LaTeX源文件中提取的结构标签	印刷	表单理解	En	Y
DocBank	500K 文档页面，基于arXiv的LaTeX源码构建，其中包含用于文档布局分析的细粒度Token级注释	印刷	版面分析/关键信息提取	En	Y
TextOCR	用于对任意形状的场景文本进行文本识别基准测试，包含来自TextVQA的28134张自然图像，903069个带注释的场景文本单词,已集成	印刷	检测/识别	En	Y
UFPR-ALPR	来自150台机动车的4000张包含30000个车牌字符的高清照片	印刷	车牌检测/识别	En	邮件申请下载, 仅学术用途
im2latex-100k	总共 ~100k 个公式和图像，为OpenAI image-2-latex系统构建，公式从arXiv的LaTeX中解析	印刷	公式识别	En	Y
Kannada-MNIST	Kannada语的标准MNIST数据集替代品	手写	字符分类	Kannada	N, Kaggle竞赛
MLe2e	711个场景图像，涵盖拉丁语、中文、卡纳达语和韩文	印刷	文本检测/脚本识别/文本识别	Latin/Zh/Kannada/Hangul	Y
Chinese Text in the Wild(CTW)	包括30000 多张街景图像的100万个汉字，覆盖3850个常用字, 已集成	印刷	文本检测/识别	Zh	注册后下载
IIIT-AR-13K	13k个带注释的页面图像，覆盖表格、图形、图像、徽标、签名等5种类型	印刷	版面分析/关键信息提取	En	Y
MIDV-2019	拓展MIDV-500数据量40%，高分辨率移动摄像机拍摄的短视频，包括50种500张身份证件	印刷	文本检测/识别	En	Y
SSIG-SegPlate	101辆路面车辆照片，每辆车平均有19.80个图像帧	印刷	车牌文本分割	En	N, 网站失效
RodoSol-ALPR	巴西圣埃斯皮里图州高速公路采集的20000张图像，包括汽车、摩托车、公共汽车、卡车车牌	印刷	车牌文本检测/识别	En	邮件申请下载，仅作学术用途
BanglaLekha-Isolated	166105张手写字符图像, 包含 50 个孟加拉语基本字符、10 个孟加拉数字和 24 个选定复合字符的样本	手写	字符分类	Bangla	Y
ChineseLP	411张中国车牌图像	印刷	车牌文本检测/识别	Zh	链接失效
FSNS	阿拉伯语手写数据集	手写	字符分类	Arab	链接失效
Newspaper Navigator	从《美国编年史》中的 16 万页历史报纸中提取标题、照片、插图、地图、漫画、卡通和广告	印刷	版面分析/文本检测/识别	En	Y
Twitter100k	100万个从Twitter随机抓取的图像文本对，用于弱监督学习	印刷		En	Y
DDI-100	扭曲的文档图像数据集, 包含 99870 个文档图像以及文本蒙版、图章掩码、文本和字符位置，由6658个文档数据增强得到	印刷	版面分析	En	Y
COCO-Text	63686 images, 145,859 text instances, 3 fine-grained text attributes. 已集成	印刷&手写	文本检测/识别	En	Y
Vizwiz	20523 个训练图像/问题对,205230 个训练答案/答案置信对		VQA	En	Y
MJSynth (MJ)	9 million images covering 90k English words, 10GiB			En	Y
SynthText (ST)	已集成			En	Y
Street View Text (SVT)	647 testing images cropped form Google Street View, 已集成			En	Y
IIIT5K-Words (IIIT)	从谷歌图片搜索中收集的。使用广告牌、招牌、门牌、门牌、电影海报等查询词来收集图像。该数据集包含来自场景文本和原生数字图像的 5000 个裁剪单词图像。	印刷	文本识别	En	Y
ICDAR2015	1000个训练图像,500个测试图像	印刷	文本检测/识别,已集成	En	Y
ICDAR2019-ArT	已集成
LSVT	已集成
Street View Text-Perspective (SVTP)	639 test images in this set and many of them are perspectively disorted			En	Y
CUTE80 (CUTE)	for curved text recognition. 288 testing images are cropped from full images			En	Y
ICDAR 2003	507张自然场景图像（包括258张训练图像和249张测试图像）。图像在字符级别进行注释。可以从图像中裁剪字符和单词。	印刷	检测/识别	En	Y
MSRA-TD500	已集成			En	Y
SCUT-CTW1500	1255+300图像，已集成	印刷	文本检测/识别	En	Y
Total-Text	已集成			En	Y
MLT2017	10000 张图像文件以及每张图片中文字的位置信息及相关文字注释。该数据集共包括 10 种主要语言,已集成	印刷	文本检测/识别	多语言/En	注册后下载
Chinese Scene Dataset/benchmarking-chinese-text-recognition	509,164, 63,645 and 63,646 training, validation, and test images. 包括ICDAR2017, ICDAR2019, ICPR2018, SCUT-HCCDoc, CTW 等多个数据集. 已集成.	印刷&手写	文本检测/识别	Zh	Y
CASIA-HWDB2.x	中科院自动化研究所-手写中文数据集，以及由中科院手写数据和网上开源数据合并组合的数据集, 包含在线和离线两类手写数据，`HWDB1.0~1.2`总共有3895135个手写单字样本，分属7356类（7185个汉字和171个英文字母、数字、符号）	手写	文本检测/识别	Zh
NIST手写单字数据集	NIST19数据集适用于手写文档和字符识别的模型训练，从3600位作者的手写样本表格中提取得到，总共包含81万张字符图片	手写	文本检测/识别	En
Born-Digital Images	分为4个任务: 任务1为文本定位, 任务2为文本分割, 任务3为单词识别, 任务4为端到端文本检测识别。已集成
CASIA-10K	文本检测,已集成
CCPD	文本检测,已集成
ICPR MTWI-2018	已集成
RCTW-17	文本检测,已集成
ReCTS	文本检测, 已集成
SROIE	已集成
SynText150k	Part1: 54,327 图像(https://universityofadelaide.box.com/s/1jcvu6z9jojmhzojuqrwxvwxmrlw7uib)[标注](/panshaowu/mindocr/wiki/标注)(https://universityofadelaide.box.com/s/zc73pyzvymqkjg3vkb2ayjol7y5a4fsk), Part2: 94,723 图像(https://universityofadelaide.box.com/s/ibihmhkzpc1zuh56mxyehad1dv1l73ua)[标注](/panshaowu/mindocr/wiki/标注)(https://universityofadelaide.box.com/s/rk55zheij8ubvwgzg7dfjbxgi27l8xld) 已集成
CORD	Consolidated Receipt Dataset for Post-OCR Parsing，是一个用于 Post-OCR 解析的收据数据集。该数据集包含数千张印度尼西亚收据（包含用于 OCR 的图像及 box/text 标注，以及用于解析的多级语义标签）	印刷	文本检测/识别	En	可torrent下载
USPS	United States Postal Service，这是一个数字识别的数据集，数据由美国邮政署自动扫描信件获得。该数据集共包含了 9,298 个 16×16 像素的灰度样本，其中训练集包含 7,291 个，数据集包含 2,007 个, 图像均格式居中，标准化并显示多种字体。	手写	文本检测/识别	En	可torrent下载
Synthetic Chinese String	Synthetic Chinese String 数据集是一个中文字符识别数据集，包含 360 多万张训练图片，5824 个字符。图片场景较简单，为白底黑字。	印刷	文本识别	Zh	可torrent下载
TextSeg	大规模文本检测及分割数据集，标注精细、用途广泛。该数据集包括六种类型的标注：word-、character-wise bounding polygons, masks 及 transcriptions。	艺术字	文本检测	En	可torrent下载
LSVTD	large-scale video text dataset，包含来自 21 个自然场景的 100 个视频。该数据集涵盖了广泛的 13 个室内（如书店、商场）和 9 个室外场景，其多样性是 IC15 数据集的 3 倍以上。	印刷字	文本检测/识别	En/Zh	邮件注册可获取
HierText	HierText 是第一个具有文本分层注释的数据集自然场景和文档。数据集包含从中选择的 11639 张图像开放图像数据集，提供高质量的单词（~1.2M）、行和段落级批注。HierText 是第一个具有文本分层注释的数据集自然场景和文档。数据集包含从中选择的 11639 张图像开放图像数据集，提供高质量的单词（~1.2M）、行和段落级批注。	印刷字	文本检测/识别	En	可获取

Benchmark

DTRB

training datasets : MJSynth (MJ)[1] and SynthText (ST)[2]
validation datasets : the union of the training sets IC13[3], IC15[4], IIIT[5], and SVT[6].
evaluation datasets : benchmark evaluation datasets, consist of IIIT[5], SVT[6], IC03[7], IC13[3], IC15[4], SVTP[8], and CUTE[9].

版面识别

dataset	简介
cTDaR2019_cTDaR	用于表格检测(TRACKA)和表格识别(TRACKB)。图片类型包含历史数据集(以cTDaR_t0开头，如cTDaR_t00872.jpg)和现代数据集(以cTDaR_t1开头，cTDaR_t10482.jpg)。
IIIT-AR-13K	手动注释公开的年度报告中的图形或页面而构建的数据集，包含5类：table, figure, natural image, logo, and signature
CDLA	中文文档版面分析数据集，面向中文文献类（论文）场景，包含10类：Text、Title、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation
TableBank	用于表格检测和识别大型数据集，包含Word和Latex2种文档格式
DocBank	使用弱监督方法构建的大规模数据集(500K文档页面)，用于文档布局分析，包含12类：Author、Caption、Date、Equation、Figure、Footer、List、Paragraph、Reference、Section、Table、Title

可拓展数据集

dataset	简介
Wikipedia-based Image Text (WIT) Dataset	一个大型多模式多语言数据集。WIT由一组精心策划的3 760万实体丰富的图像文本示例组成，其中包括108种维基百科语言的1150万张独特的图像。需进行数据自动标注和清洗后，可用于版面分析。
Flickr30k	包含从Flickr收集的31 000张图片，以及人类注释者提供的5个参考句子。原本是用于图文多模态训练的数据集，自动标注和清洗后可能能用于OCR引擎。

OCR数据集 - panshaowu/mindocr GitHub Wiki

OCR引擎

Benchmark

版面识别

可拓展数据集

参考文献