STR_review - yubo105139/paper GitHub Wiki

Scene text recognition (STR)相关论文总结

TOC

场景文本超分论文

Scene Text Telescope: Text-Focused Scene Image Super-Resolution CVPR2021

paper:http://openaccess.thecvf.com//content/CVPR2021/papers/Chen_Scene_Text_Telescope_Text-Focused_Scene_Image_Super-Resolution_CVPR_2021_paper.pdf

code:https://github.com/FudanVI/FudanOCR/tree/main/scene-text-telescope

提出关注文本布局和字符细节。提出一个基于Transformer的超分网络,使用自注意网络提取序列信息,使其能适应任意方向的文本布局。提出位置感知模块和内容感知模块,去强调字符的位置和内容。

位置感知模块:输入一个预训练好的transformer 网络得到的注意力map做L1loss。类似于我们网络中使用的感知loss

内容感知模块:输入一个transformer网络做文字识别与实际标注的字符做交叉熵loss(改进的交叉熵loss,对易混淆字符赋予更大的权重)。相当于我们网络中的ocr loss

Text Prior Guided Scene Text Image Super-resolution 2021

paper:http://xxx.itp.ac.cn/pdf/2106.15368v2.pdf

code:https://github.com/mjq11302010044/TPGSR

提出使用文字识别模型对图片中的字符分类信息作为文本先验, 指导SR网络更好的恢复文字的形状纹理。

Text Prior(TP)被定义为由文本识别模型生成的场景文本图像的深层分类表示。使用的CRNN的做的分类概率预测,每个可能被识别字符的类别a-z。 LR 经BIcubic后输入CRNN得到TP feature, 将这个TP feature和LR一起输入网络得到SR。HR 输入CRNN得到TP feature, 两个 feature 之间计算loss。

Scene Text Image Super-Resolution in the Wild (ECCV2020)

paper: https://arxiv.org/pdf/2005.03341.pdf code: https://github.com/JasonBoy1/TextZoom

提出了真实的场景文本SR数据集:TextZoom;

提出了基于三个新颖模块的文本超分网络: TSRN。

  • 顺序残差块来提取文本图像的序列信息
  • 边界感知损失来锐化字符边界。
  • 中央对齐模块来缓解TextZoom中的对齐错误问题

在某场景文本数据集上表现rank靠前的几篇相关论文

Why You Should Try the Real Data for the Scene Text Recognition 2021

paper:https://arxiv.org/pdf/2107.13938v1.pdf

code:https://github.com/openvinotoolkit/training_extensions

提出合成数据和真实数据共同使用(MJSynth and OpenImages V5 text spotting)训练场景文字识别模型;建议了一个场景文字识别模型。

这里的合成数据是指,文字嵌入自然图像,得到带文字标记的图。

真实数据指的是,自然图包含文字,且文字被标记和注释。

Representation and Correlation Enhanced Encoder-Decoder Framework for Scene Text Recognition 2021

https://arxiv.org/pdf/2106.06960v1.pdf

https://github.com/Mona9955/RCEED-ICDAR2021

Revisiting Classification Perspective on Scene Text Recognition 2021

paper:https://paperswithcode.com/paper/cstr-a-classification-perspective-on-scene

code:https://github.com/Media-Smart/vedastr

Data Augmentation for Scene Text Recognition 2021

paper:https://arxiv.org/pdf/2108.06949v1.pdf

code:https://github.com/roatienza/straug

也是解决合成的训练数据与真实的测试数据之间的分布差异问题。专为场景文本识别(STR) 设计了 36 个图像增强函数组成的 STRAug。 每个函数都模仿某些自然场景中的文本图像属性,比如由相机传感器引起,或由信号处理操作引起的图像效果。在基础模型上使用随机增强,可以极大的提升STR模型精度。

详细描述了多种实现的数据增强方法。

SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text Recognition Models 2021

paper:https://arxiv.org/pdf/2107.09313v1.pdf

code:https://github.com/clovaai/synthtiger

Dictionary-Guided Scene Text Recognition CVPR2021

paper:http://openaccess.thecvf.com//content/CVPR2021/papers/Nguyen_Dictionary-Guided_Scene_Text_Recognition_CVPR_2021_paper.pdf

code:https://github.com/VinAIResearch/dict-guided