Scene_Text_Telescope_Text Focused_Scene_Image_Super Resolution_CVPR_2021 - yubo105139/paper GitHub Wiki

Scene Text Telescope: Text-Focused Scene Image Super-Resolution

核心:

  • 自注意模块做超分,加入位置编码信息后进行模块堆叠。

  • 添加了位置感知模块,关注字符区域而不是背景。 感知loss

  • 添加了内容感知模块,利于识别易混淆的字符。ocr 字符分类的loss

主要框架

  • 输入低分图先经过STN做对齐,再经过n个TBSRN自注意力模块提取特征,最后上采样生成超分图.

  • SR和HR在 Position-Aware Module处得到的注意力图 做L1 loss (相当于我们网络里的感知loss)

  • Content-Aware Module处对文字做识别, 预测的结果和实际label间做交叉熵loss,来帮助区分易混淆的字符。(相当于我们网络里的ocr loss)

Pre-trained Transformer 模型怎样得到?

Pre-trained Transformer 使用 合成文本数据集 Syn90k and SynthText 预训练得到。

两处Pre-trained Transformer是一样的。

字符的隐空间表达?

基于EMNIST数据集,训练了一个VAE 来得到字符的隐含2d表示。

字符的混淆系数怎么获取?

得到字符的隐式表达后, 计算欧式距离,该距离的倒数作为 混淆系数。 距离越小两个词越相似,混淆系数越大$c_{ij} = \frac{1}{d_{ij}}$

TBSRN模块

子注意模块,对并行输入的信息的空间位置不敏感。因此在feature上堆叠了一个2d位置信息编码。

2-D positional encoding (PE)即位置信息编码方式如下:

Position-Aware Module

使用场景文本的合成数据,预训练一个基于Transformer的识别模型。

分别输入HR 和SR,输出attention map。

Content-Aware Module

使用的pre-trained Transformer 和 Position-Aware Module 里的与训练模型一样。得到文本序列

各个loss

1.HR和SR做L2 loss

2.位置感知的 注意力图做 L1 loss

3.内容感知的加权交叉熵loss

$o_j$ 为预训练好的transformer 输出的 字符预测向量, 包含每个字符的可能概率。

添加了混淆系数$c_{ij}$, 在反向传播的过程中计算梯度时,混淆系数越大,梯度值也越大。使该loss更关注于易于混淆的字符。

4.几个loss加权累加

实验

作者用的训练和测试集合均为TextZoom, 结果如下:

结论

本论文主要的核心还是利用自注意力机制来整合全局特征,再就是利用加权的cross-entropy loss来解决易混淆字符的问题. 从结果上看,效果还是不错的.