Scene_Text_Telescope_Text Focused_Scene_Image_Super Resolution_CVPR_2021 - yubo105139/paper GitHub Wiki

Scene Text Telescope: Text-Focused Scene Image Super-Resolution

核心：

自注意模块做超分，加入位置编码信息后进行模块堆叠。
添加了位置感知模块，关注字符区域而不是背景。感知loss
添加了内容感知模块，利于识别易混淆的字符。ocr 字符分类的loss

主要框架

输入低分图先经过STN做对齐,再经过n个TBSRN自注意力模块提取特征,最后上采样生成超分图.
SR和HR在 Position-Aware Module处得到的注意力图做L1 loss （相当于我们网络里的感知loss）
Content-Aware Module处对文字做识别，预测的结果和实际label间做交叉熵loss，来帮助区分易混淆的字符。（相当于我们网络里的ocr loss）

Pre-trained Transformer 模型怎样得到？

Pre-trained Transformer 使用合成文本数据集 Syn90k and SynthText 预训练得到。

两处Pre-trained Transformer是一样的。

字符的隐空间表达？

基于EMNIST数据集，训练了一个VAE 来得到字符的隐含2d表示。

字符的混淆系数怎么获取？

得到字符的隐式表达后，计算欧式距离，该距离的倒数作为混淆系数。距离越小两个词越相似，混淆系数越大$c_{ij} = \frac{1}{d_{ij}}$

TBSRN模块

子注意模块，对并行输入的信息的空间位置不敏感。因此在feature上堆叠了一个2d位置信息编码。

2-D positional encoding (PE)即位置信息编码方式如下:

Position-Aware Module

使用场景文本的合成数据，预训练一个基于Transformer的识别模型。

分别输入HR 和SR，输出attention map。

Content-Aware Module

使用的pre-trained Transformer 和 Position-Aware Module 里的与训练模型一样。得到文本序列

各个loss

1.HR和SR做L2 loss

2.位置感知的注意力图做 L1 loss

3.内容感知的加权交叉熵loss

$o_j$ 为预训练好的transformer 输出的字符预测向量，包含每个字符的可能概率。

添加了混淆系数$c_{ij}$, 在反向传播的过程中计算梯度时，混淆系数越大，梯度值也越大。使该loss更关注于易于混淆的字符。

4.几个loss加权累加

实验

作者用的训练和测试集合均为TextZoom, 结果如下:

结论

本论文主要的核心还是利用自注意力机制来整合全局特征,再就是利用加权的cross-entropy loss来解决易混淆字符的问题. 从结果上看,效果还是不错的.