Textzoom - yubo105139/paper GitHub Wiki
Scene Text Image Super-Resolution in the Wild (ECCV2020)
针对真实场景下的低分辨率的文本识别的超分方法。
contribute:
-
提出了真实的场景文本SR数据集:TextZoom
-
提出了基于三个新颖模块的文本超分网络: TSRN。
- 顺序残差块来提取文本图像的序列信息
- 边界感知损失来锐化字符边界。
- 中央对齐模块来缓解TextZoom中的对齐错误问题
-
在TextZoom数据中的LR图像识别精度上,TSRN远优于其他SR方法,大大提高了文本识别精度。
TextZoom
场景文本具有任意形状,分布式光照和不同背景。
textzoom为真实的场景文本SR数据集。它包含一对真实的低分辨率和高分辨率图像,这些图像由野外不同焦距的相机拍摄。它比合成的LR-HR对的数据更真实。
数据集特点:
-
提供文本图像的方向、文本内容和原始焦距。
-
来自不同自然场景的文本
-
数据集按难度仔细地分成三个子集(在相同高度下,较小焦距的图像会更加模糊,根据焦距划分难易)
从SISR数据集:RealSR, SRRAW 切分得到。通过数码相机获取的LR_HR图像对。短焦距获取LR长焦距作为HR。
TSRN
网络模型设计
baseline:SRResNet
添加对齐模块align
Sequential Residual Blocks 替代原始基础卷积模块。
输入为四通道,RGBM, M为Mask。计算平均灰度值得到。
align:中心对齐
SRB:
up-sampling+cnn
Loss: MSELoss (L2 ) ,gradient prior loss (LGP )
方法
1.序列残差模块 Sequential Residual Block
文本前后字符建立对应关系。
在文本识别任务中,场景文本图像通过递归神经网络(RNN)对文本识别的上下文信息进行编码。
通过添加BLSTM(双向LSTM)机制,修改残差块
2.中心对齐模块
使用STN spatial transform network 矫正图像,可端到端学习。
解决由于相机误差导致的成对图像的错位。
采用TPS transformation
3.边界感知损失 boundary-awareloss
提出梯度轮廓损失。 重建字符锐化边缘。锐化的字符轮廓相比光滑的字符轮廓更清晰
实验
超分对于文本图像识别的必要性讨论
将ASTER文本识别器使用一下几种方法进行训练
1.普通尺寸图像对ASTER进行训练
2.使用LR图对ASTER进行训练。
3.原始的ASTER模型基于textzoom进行finetune
4.选择LR图,使用TSRN生成SR图。再使用官方给出的ASTER模型进行识别。
使用TextZoom数据集和普通的LR 图进行测试。数据表明超分后的识别准确率更高。
STN:Spatial Transformer Networks
空间变换网络(STN,Spatial Transformer Networks)的作用是对输入特征图进行空间位置矫正得到输出特征图,这个矫正过程是可以进行梯度传导的,从而能够支持端到端的模型训练。
如下图所示,STN网络由定位网络(Localization Network) ,网格生成器(Grid generator),采样器(Sampler)共3个部分组成。定位网络根据原始特征图U计算出一套控制参数,网格生成器这套控制参数产生采样网格(sampling grid),采样器根据采样网格核函数将原始图U中像素对应采样到目标图V中。
空间变换的控制参数是根据原始特征图U动态生成的,生成空间变换控制参数的元参数则是在模型训练阶段学习到的、并且存放于定位网络的权重(weights)矩阵中。
选自arXiv: 1506.02025,