Textzoom - yubo105139/paper GitHub Wiki

TOC

Scene Text Image Super-Resolution in the Wild (ECCV2020)

针对真实场景下的低分辨率的文本识别的超分方法。

contribute:

  • 提出了真实的场景文本SR数据集:TextZoom

  • 提出了基于三个新颖模块的文本超分网络: TSRN

    • 顺序残差块来提取文本图像的序列信息
    • 边界感知损失来锐化字符边界。
    • 中央对齐模块来缓解TextZoom中的对齐错误问题
  • 在TextZoom数据中的LR图像识别精度上,TSRN远优于其他SR方法,大大提高了文本识别精度。

TextZoom

​ 场景文本具有任意形状,分布式光照和不同背景。

​ textzoom为真实的场景文本SR数据集。它包含一对真实的低分辨率和高分辨率图像,这些图像由野外不同焦距的相机拍摄。它比合成的LR-HR对的数据更真实。

数据集特点:

  • 提供文本图像的方向、文本内容和原始焦距。

  • 来自不同自然场景的文本

  • 数据集按难度仔细地分成三个子集(在相同高度下,较小焦距的图像会更加模糊,根据焦距划分难易)

从SISR数据集:RealSR, SRRAW 切分得到。通过数码相机获取的LR_HR图像对。短焦距获取LR长焦距作为HR。

TSRN

网络模型设计

baseline:SRResNet

添加对齐模块align

Sequential Residual Blocks 替代原始基础卷积模块。

image-20201210092810050

输入为四通道,RGBM, M为Mask。计算平均灰度值得到。

align:中心对齐

SRB:

up-sampling+cnn

Loss: MSELoss (L2 ) ,gradient prior loss (LGP )

方法

1.序列残差模块 Sequential Residual Block

文本前后字符建立对应关系。

在文本识别任务中,场景文本图像通过递归神经网络(RNN)对文本识别的上下文信息进行编码。

通过添加BLSTM(双向LSTM)机制,修改残差块

2.中心对齐模块

使用STN spatial transform network 矫正图像,可端到端学习。

解决由于相机误差导致的成对图像的错位。

采用TPS transformation

3.边界感知损失 boundary-awareloss

提出梯度轮廓损失。 重建字符锐化边缘。锐化的字符轮廓相比光滑的字符轮廓更清晰

实验

超分对于文本图像识别的必要性讨论

将ASTER文本识别器使用一下几种方法进行训练

1.普通尺寸图像对ASTER进行训练

2.使用LR图对ASTER进行训练。

3.原始的ASTER模型基于textzoom进行finetune

4.选择LR图,使用TSRN生成SR图。再使用官方给出的ASTER模型进行识别。

使用TextZoom数据集和普通的LR 图进行测试。数据表明超分后的识别准确率更高。

STN:Spatial Transformer Networks

​ 空间变换网络(STN,Spatial Transformer Networks)的作用是对输入特征图进行空间位置矫正得到输出特征图,这个矫正过程是可以进行梯度传导的,从而能够支持端到端的模型训练。

如下图所示,STN网络由定位网络(Localization Network) ,网格生成器(Grid generator),采样器(Sampler)共3个部分组成。定位网络根据原始特征图U计算出一套控制参数,网格生成器这套控制参数产生采样网格(sampling grid),采样器根据采样网格核函数将原始图U中像素对应采样到目标图V中。

空间变换的控制参数是根据原始特征图U动态生成的,生成空间变换控制参数的元参数则是在模型训练阶段学习到的、并且存放于定位网络的权重(weights)矩阵中。

img

选自arXiv: 1506.02025,