OCR数据集 - panshaowu/mindocr GitHub Wiki
OCR引擎
Dataset | Size | Character Type | Task | Language | Free |
---|---|---|---|---|---|
IAM (IAM Handwriting) | 13353 张由657位作者创建的手写文本行图像,单词、句子、文本等不同级别的标记 | 手写 | 检测/识别 | En | 注册后下载 |
FUNSD (Form Understanding in Noisy Scanned Documents) | 199个真实的、完全注释的扫描表单。文档嘈杂,外观差异很大 | 印刷 & 手写 | 检测/识别/表单理解 | En | Y |
ST-VQA (Scene Text Visual Question Answering) | 大约4%的图像中有文字 | 注册后下载 | |||
TextCaps | 145k 图像的 28k 字幕,数据集要求模型识别文本,将其与其视觉上下文相关联,阅读理解生成有关标题 | 印刷 | 检测/识别(需要自动化标注)/NLP推理生成 | En | Y |
SciTSR | PDF格式的15000个表格,包含从LaTeX源文件中提取的结构标签 | 印刷 | 表单理解 | En | Y |
DocBank | 500K 文档页面,基于arXiv的LaTeX源码构建,其中包含用于文档布局分析的细粒度Token级注释 | 印刷 | 版面分析/关键信息提取 | En | Y |
TextOCR | 用于对任意形状的场景文本进行文本识别基准测试,包含来自TextVQA的28134张自然图像,903069个带注释的场景文本单词,已集成 | 印刷 | 检测/识别 | En | Y |
UFPR-ALPR | 来自150台机动车的4000张包含30000个车牌字符的高清照片 | 印刷 | 车牌检测/识别 | En | 邮件申请下载, 仅学术用途 |
im2latex-100k | 总共 ~100k 个公式和图像,为OpenAI image-2-latex系统构建,公式从arXiv的LaTeX中解析 | 印刷 | 公式识别 | En | Y |
Kannada-MNIST | Kannada语的标准MNIST数据集替代品 | 手写 | 字符分类 | Kannada | N, Kaggle竞赛 |
MLe2e | 711个场景图像,涵盖拉丁语、中文、卡纳达语和韩文 | 印刷 | 文本检测/脚本识别/文本识别 | Latin/Zh/Kannada/Hangul | Y |
Chinese Text in the Wild(CTW) | 包括30000 多张街景图像的100万个汉字,覆盖3850个常用字, 已集成 | 印刷 | 文本检测/识别 | Zh | 注册后下载 |
IIIT-AR-13K | 13k个带注释的页面图像,覆盖表格、图形、图像、徽标、签名等5种类型 | 印刷 | 版面分析/关键信息提取 | En | Y |
MIDV-2019 | 拓展MIDV-500数据量40%,高分辨率移动摄像机拍摄的短视频,包括50种500张身份证件 | 印刷 | 文本检测/识别 | En | Y |
SSIG-SegPlate | 101辆路面车辆照片,每辆车平均有19.80个图像帧 | 印刷 | 车牌文本分割 | En | N, 网站失效 |
RodoSol-ALPR | 巴西圣埃斯皮里图州高速公路采集的20000张图像,包括汽车、摩托车、公共汽车、卡车车牌 | 印刷 | 车牌文本检测/识别 | En | 邮件申请下载,仅作学术用途 |
BanglaLekha-Isolated | 166105张手写字符图像, 包含 50 个孟加拉语基本字符、10 个孟加拉数字和 24 个选定复合字符的样本 | 手写 | 字符分类 | Bangla | Y |
ChineseLP | 411张中国车牌图像 | 印刷 | 车牌文本检测/识别 | Zh | 链接失效 |
FSNS | 阿拉伯语手写数据集 | 手写 | 字符分类 | Arab | 链接失效 |
Newspaper Navigator | 从《美国编年史》中的 16 万页历史报纸中提取标题、照片、插图、地图、漫画、卡通和广告 | 印刷 | 版面分析/文本检测/识别 | En | Y |
Twitter100k | 100万个从Twitter随机抓取的图像文本对,用于弱监督学习 | 印刷 | En | Y | |
DDI-100 | 扭曲的文档图像数据集, 包含 99870 个文档图像以及文本蒙版、图章掩码、文本和字符位置,由6658个文档数据增强得到 | 印刷 | 版面分析 | En | Y |
COCO-Text | 63686 images, 145,859 text instances, 3 fine-grained text attributes. 已集成 | 印刷&手写 | 文本检测/识别 | En | Y |
Vizwiz | 20523 个训练图像/问题对,205230 个训练答案/答案置信对 | VQA | En | Y | |
MJSynth (MJ) | 9 million images covering 90k English words, 10GiB | En | Y | ||
SynthText (ST) | 已集成 | En | Y | ||
Street View Text (SVT) | 647 testing images cropped form Google Street View, 已集成 | En | Y | ||
IIIT5K-Words (IIIT) | 从谷歌图片搜索中收集的。使用广告牌、招牌、门牌、门牌、电影海报等查询词来收集图像。该数据集包含来自场景文本和原生数字图像的 5000 个裁剪单词图像。 | 印刷 | 文本识别 | En | Y |
ICDAR2015 | 1000个训练图像,500个测试图像 | 印刷 | 文本检测/识别,已集成 | En | Y |
ICDAR2019-ArT | 已集成 | ||||
LSVT | 已集成 | ||||
Street View Text-Perspective (SVTP) | 639 test images in this set and many of them are perspectively disorted | En | Y | ||
CUTE80 (CUTE) | for curved text recognition. 288 testing images are cropped from full images | En | Y | ||
ICDAR 2003 | 507张自然场景图像(包括258张训练图像和249张测试图像)。图像在字符级别进行注释。可以从图像中裁剪字符和单词。 | 印刷 | 检测/识别 | En | Y |
MSRA-TD500 | 已集成 | En | Y | ||
SCUT-CTW1500 | 1255+300图像,已集成 | 印刷 | 文本检测/识别 | En | Y |
Total-Text | 已集成 | En | Y | ||
MLT2017 | 10000 张图像文件以及每张图片中文字的位置信息及相关文字注释。该数据集共包括 10 种主要语言,已集成 | 印刷 | 文本检测/识别 | 多语言/En | 注册后下载 |
Chinese Scene Dataset/benchmarking-chinese-text-recognition | 509,164, 63,645 and 63,646 training, validation, and test images. 包括ICDAR2017, ICDAR2019, ICPR2018, SCUT-HCCDoc, CTW 等多个数据集. 已集成. | 印刷&手写 | 文本检测/识别 | Zh | Y |
CASIA-HWDB2.x | 中科院自动化研究所-手写中文数据集,以及由中科院手写数据和网上开源数据合并组合的 数据集, 包含在线和离线两类手写数据,HWDB1.0~1.2 总共有3895135个手写单字样本,分属7356类(7185个汉字和171个英文字母、数字、符号) |
手写 | 文本检测/识别 | Zh | |
NIST手写单字数据集 | NIST19数据集适用于手写文档和字符识别的模型训练,从3600位作者的手写样本表格中提取得到,总共包含81万张字符图片 | 手写 | 文本检测/识别 | En | |
Born-Digital Images | 分为4个任务: 任务1为文本定位, 任务2为文本分割, 任务3为单词识别, 任务4为端到端文本检测识别。已集成 | ||||
CASIA-10K | 文本检测,已集成 | ||||
CCPD | 文本检测,已集成 | ||||
ICPR MTWI-2018 | 已集成 | ||||
RCTW-17 | 文本检测,已集成 | ||||
ReCTS | 文本检测, 已集成 | ||||
SROIE | 已集成 | ||||
SynText150k | Part1: 54,327 图像(https://universityofadelaide.box.com/s/1jcvu6z9jojmhzojuqrwxvwxmrlw7uib)[标注](/panshaowu/mindocr/wiki/标注)(https://universityofadelaide.box.com/s/zc73pyzvymqkjg3vkb2ayjol7y5a4fsk), Part2: 94,723 图像(https://universityofadelaide.box.com/s/ibihmhkzpc1zuh56mxyehad1dv1l73ua)[标注](/panshaowu/mindocr/wiki/标注)(https://universityofadelaide.box.com/s/rk55zheij8ubvwgzg7dfjbxgi27l8xld) 已集成 | ||||
CORD | Consolidated Receipt Dataset for Post-OCR Parsing,是一个用于 Post-OCR 解析的收据数据集。该数据集包含数千张印度尼西亚收据(包含用于 OCR 的图像及 box/text 标注,以及用于解析的多级语义标签) | 印刷 | 文本检测/识别 | En | 可torrent下载 |
USPS | United States Postal Service,这是一个数字识别的数据集,数据由美国邮政署自动扫描信件获得。该数据集共包含了 9,298 个 16×16 像素的灰度样本,其中训练集包含 7,291 个,数据集包含 2,007 个, 图像均格式居中,标准化并显示多种字体。 | 手写 | 文本检测/识别 | En | 可torrent下载 |
Synthetic Chinese String | Synthetic Chinese String 数据集是一个中文字符识别数据集,包含 360 多万张训练图片,5824 个字符。图片场景较简单,为白底黑字。 | 印刷 | 文本识别 | Zh | 可torrent下载 |
TextSeg | 大规模文本检测及分割数据集,标注精细、用途广泛。该数据集包括六种类型的标注:word-、character-wise bounding polygons, masks 及 transcriptions。 | 艺术字 | 文本检测 | En | 可torrent下载 |
LSVTD | large-scale video text dataset,包含来自 21 个自然场景的 100 个视频。该数据集涵盖了广泛的 13 个室内(如书店、商场)和 9 个室外场景,其多样性是 IC15 数据集的 3 倍以上。 | 印刷字 | 文本检测/识别 | En/Zh | 邮件注册可获取 |
HierText | HierText 是第一个具有文本分层注释的数据集 自然场景和文档。数据集包含从中选择的 11639 张图像 开放图像数据集, 提供高质量的单词 (~1.2M)、行和段落级批注。HierText 是第一个具有文本分层注释的数据集 自然场景和文档。数据集包含从中选择的 11639 张图像 开放图像数据集, 提供高质量的单词 (~1.2M)、行和段落级批注。 | 印刷字 | 文本检测/识别 | En | 可获取 |
Benchmark
-
training datasets : MJSynth (MJ)[1] and SynthText (ST)[2]
-
validation datasets : the union of the training sets IC13[3], IC15[4], IIIT[5], and SVT[6].
-
evaluation datasets : benchmark evaluation datasets, consist of IIIT[5], SVT[6], IC03[7], IC13[3], IC15[4], SVTP[8], and CUTE[9].
版面识别
dataset | 简介 |
---|---|
cTDaR2019_cTDaR | 用于表格检测(TRACKA)和表格识别(TRACKB)。图片类型包含历史数据集(以cTDaR_t0开头,如cTDaR_t00872.jpg)和现代数据集(以cTDaR_t1开头,cTDaR_t10482.jpg)。 |
IIIT-AR-13K | 手动注释公开的年度报告中的图形或页面而构建的数据集,包含5类:table, figure, natural image, logo, and signature |
CDLA | 中文文档版面分析数据集,面向中文文献类(论文)场景,包含10类:Text、Title、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation |
TableBank | 用于表格检测和识别大型数据集,包含Word和Latex2种文档格式 |
DocBank | 使用弱监督方法构建的大规模数据集(500K文档页面),用于文档布局分析,包含12类:Author、Caption、Date、Equation、Figure、Footer、List、Paragraph、Reference、Section、Table、Title |
可拓展数据集
dataset | 简介 |
---|---|
Wikipedia-based Image Text (WIT) Dataset | 一个大型多模式多语言数据集。WIT由一组精心策划的3 760万实体丰富的图像文本示例组成,其中包括108种维基百科语言的1150万张独特的图像。需进行数据自动标注和清洗后,可用于版面分析。 |
Flickr30k | 包含从Flickr收集的31 000张图片,以及人类注释者提供的5个参考句子。原本是用于图文多模态训练的数据集,自动标注和清洗后可能能用于OCR引擎。 |