Scene_Text_Telescope_Text Focused_Scene_Image_Super Resolution_CVPR_2021 - yubo105139/paper GitHub Wiki
Scene Text Telescope: Text-Focused Scene Image Super-Resolution
核心:
-
自注意模块做超分,加入位置编码信息后进行模块堆叠。
-
添加了位置感知模块,关注字符区域而不是背景。 感知loss
-
添加了内容感知模块,利于识别易混淆的字符。ocr 字符分类的loss
主要框架
-
输入低分图先经过STN做对齐,再经过n个TBSRN自注意力模块提取特征,最后上采样生成超分图.
-
SR和HR在 Position-Aware Module处得到的注意力图 做L1 loss (相当于我们网络里的感知loss)
-
Content-Aware Module处对文字做识别, 预测的结果和实际label间做交叉熵loss,来帮助区分易混淆的字符。(相当于我们网络里的ocr loss)
Pre-trained Transformer 模型怎样得到?
Pre-trained Transformer 使用 合成文本数据集 Syn90k and SynthText 预训练得到。
两处Pre-trained Transformer是一样的。
字符的隐空间表达?
基于EMNIST数据集,训练了一个VAE 来得到字符的隐含2d表示。
字符的混淆系数怎么获取?
得到字符的隐式表达后, 计算欧式距离,该距离的倒数作为 混淆系数。 距离越小两个词越相似,混淆系数越大$c_{ij} = \frac{1}{d_{ij}}$
TBSRN模块
子注意模块,对并行输入的信息的空间位置不敏感。因此在feature上堆叠了一个2d位置信息编码。
2-D positional encoding (PE)即位置信息编码方式如下:
Position-Aware Module
使用场景文本的合成数据,预训练一个基于Transformer的识别模型。
分别输入HR 和SR,输出attention map。
Content-Aware Module
使用的pre-trained Transformer 和 Position-Aware Module 里的与训练模型一样。得到文本序列
各个loss
1.HR和SR做L2 loss
2.位置感知的 注意力图做 L1 loss
3.内容感知的加权交叉熵loss
$o_j$ 为预训练好的transformer 输出的 字符预测向量, 包含每个字符的可能概率。
添加了混淆系数$c_{ij}$, 在反向传播的过程中计算梯度时,混淆系数越大,梯度值也越大。使该loss更关注于易于混淆的字符。
4.几个loss加权累加
实验
作者用的训练和测试集合均为TextZoom, 结果如下:
结论
本论文主要的核心还是利用自注意力机制来整合全局特征,再就是利用加权的cross-entropy loss来解决易混淆字符的问题. 从结果上看,效果还是不错的.