Textzoom - yubo105139/paper GitHub Wiki

TOC

Scene Text Image Super-Resolution in the Wild (ECCV2020)

针对真实场景下的低分辨率的文本识别的超分方法。

contribute：

提出了真实的场景文本SR数据集：TextZoom
提出了基于三个新颖模块的文本超分网络： TSRN。
- 顺序残差块来提取文本图像的序列信息
- 边界感知损失来锐化字符边界。
- 中央对齐模块来缓解TextZoom中的对齐错误问题
在TextZoom数据中的LR图像识别精度上，TSRN远优于其他SR方法，大大提高了文本识别精度。

TextZoom

场景文本具有任意形状，分布式光照和不同背景。

textzoom为真实的场景文本SR数据集。它包含一对真实的低分辨率和高分辨率图像，这些图像由野外不同焦距的相机拍摄。它比合成的LR-HR对的数据更真实。

数据集特点：

提供文本图像的方向、文本内容和原始焦距。
来自不同自然场景的文本
数据集按难度仔细地分成三个子集（在相同高度下，较小焦距的图像会更加模糊，根据焦距划分难易）

从SISR数据集：RealSR， SRRAW 切分得到。通过数码相机获取的LR_HR图像对。短焦距获取LR长焦距作为HR。

TSRN

网络模型设计

baseline：SRResNet

添加对齐模块align

Sequential Residual Blocks 替代原始基础卷积模块。

输入为四通道，RGBM， M为Mask。计算平均灰度值得到。

align：中心对齐

SRB：

up-sampling+cnn

Loss： MSELoss (L2 ) ，gradient prior loss (LGP )

方法

1.序列残差模块 Sequential Residual Block

文本前后字符建立对应关系。

在文本识别任务中，场景文本图像通过递归神经网络（RNN）对文本识别的上下文信息进行编码。

通过添加BLSTM(双向LSTM)机制，修改残差块

2.中心对齐模块

使用STN spatial transform network 矫正图像，可端到端学习。

解决由于相机误差导致的成对图像的错位。

采用TPS transformation

3.边界感知损失 boundary-awareloss

提出梯度轮廓损失。重建字符锐化边缘。锐化的字符轮廓相比光滑的字符轮廓更清晰

实验

超分对于文本图像识别的必要性讨论

将ASTER文本识别器使用一下几种方法进行训练

1.普通尺寸图像对ASTER进行训练

2.使用LR图对ASTER进行训练。

3.原始的ASTER模型基于textzoom进行finetune

4.选择LR图，使用TSRN生成SR图。再使用官方给出的ASTER模型进行识别。

使用TextZoom数据集和普通的LR 图进行测试。数据表明超分后的识别准确率更高。

STN：Spatial Transformer Networks

空间变换网络（STN，Spatial Transformer Networks）的作用是对输入特征图进行空间位置矫正得到输出特征图，这个矫正过程是可以进行梯度传导的，从而能够支持端到端的模型训练。

如下图所示，STN网络由定位网络（Localization Network），网格生成器（Grid generator），采样器（Sampler）共3个部分组成。定位网络根据原始特征图U计算出一套控制参数，网格生成器这套控制参数产生采样网格（sampling grid），采样器根据采样网格核函数将原始图U中像素对应采样到目标图V中。

空间变换的控制参数是根据原始特征图U动态生成的，生成空间变换控制参数的元参数则是在模型训练阶段学习到的、并且存放于定位网络的权重（weights）矩阵中。

选自arXiv: 1506.02025，