Guided - yubo105139/paper GitHub Wiki

TOC

Guided Frequency Separation Network for Real-World Super-Resolution

目的

目前退化函数的问题：由于已知的退化(例如：bicubic下采样)，超分过程只能恢复退化操作丢失的细节，而不能恢复自然图像。此外，bicubic下采样去除了真实世界图像的伪影、传感器噪声和其他自然特征，使得训练数据非常干净。如果我们直接利用这些退化数据来训练SR模型，那么因为训练数据和测试数据分布的差异就效果就会很一般。
GAN的问题：为了减少L1,L2 loss对高频信息的损失,导致图像过于平滑（over-smoothed），通常会使用GAN去解决这个问题．普通GAN的方法破坏了颜色的一致性。虽然干净域图像已经转移到真实域图像，但是会产生颜色偏移(color shift)，而且造成了图像的过平滑（over-smoothed）。因此，SR网络的性能受到了极大的影响。

注：在文中作者分析表述为GAN可以解决过平滑问题，但是通过GAN生成的数据训练的SR模型依旧具有一定的过平滑现象，作者认为此时是因为生成数据的问题．

方法

主要创新点可以总结如下：
1.提出了一个域映射网络：CARB
2.设计了一种SR判别器，可以解决低和高频功能分开
3.用Canny算子构造了Edgeloss

1. Pipeline

Two Stage方案：

2. Stage 1（无监督数据生成）

生成器

为了实现域转换（domain transformation），采用了GAN的思想。使用官方的DSGAN模型来传输LR图像。但退化后的结果出现了色移。

如果直接利用这对数据对SR模型进行训练，得到的结果会出现图像过平滑现象。经过分析，作者认为造成这种情况的原因是IN层缺乏对颜色独立性的先验性。因此，为了解决这个问题，添加了一个颜色引导网络来动态输出图像的颜色特征，这些特征可以通过均值和方差来执行，从而提供给AdaIN。

x 和 y 分别是内容图片和风格图片 encode 后的特征图， σ(sigma)和 μ(mu)分别是均值和标准差。

生成器网络Gx→z由两部分组成，一部分由CARB单元组成，一部分为其对应的参数网络。生成器的详细信息如图所示。网络的上半部分是一个引导参数网络，给出CARB的偏置(均值)和权值(方差)。由于偏置(均值)是全局信息，所以利用几个kernel size为3的卷积和三个kernel size为5的全局池化层来提取偏置(均值)。之后，原始图像减去这个全局信息将被输入到sigmoid层。全局信息作为偏置(均值)，最终输出值作为CARB的权值(方差)。作者在这里结合空间注意和AdaIN的思想来增强空间感知。因此，可以保持原始图像的内容和颜色。

损失函数

为了使生成器能有效地进行域转换，作者将低频损失L(low)、感知损失L(per)和高频损失结合起来L(high)。L(low)其中FL(·)为Guassian低通滤波器，n为batchsize, xi∈X。对于感知损失，作者使用预训练的VGG16网络。为了提高图像的真实感，作者采用了LSGAN的策略定义高频损失L(high)。

判别器

判别器：判别器的详细信息如图所示。遵循频率分离的思想，在几个卷积核大小为3的高斯滤波器前，提取高频信息。该设计允许鉴别器Ｄz(·)只处理真伪图像的高频部分，使整个GAN的训练更加稳定和快速收敛。

损失函数：

3. Stage 2（SR网络训练）

SR网络

域转换后,生成的图像zˆ和y图像对的监督训练．这里需要解决一个映射f2， zˆ->y ．为了提高主观视觉质量,作者使用了LSGAN。一方面,生成器Gz→y只由9个RRDB组成，具有更少的计算量。另一方面，由于生成器通常会产生伪纹理，因此作者让判别器包含两个网络，即高频网络和低频网络，这样不仅可以保持高频的性能，也可以保持低频的性能．

损失函数：

在SR的训练过程中，作者发现感知损失也带来了轻微的颜色变化。不同的是，作者取消了感知损失，并增加了边缘损失，保持良好的颜色一致性。因此，生成器的总损失由内容损失L(c)、边缘损失组成和负性损失L(adv)。内容损失的目的是保持原有图像的内容，对于EdgeLoss，重点处理图像边缘细节，可以提高视觉质量，这里作者利用Canny运算符EdgeLoss．

判别器

损失函数：

结果

作者首先生成非配对（unpair）数据来训练域变换网络，因此，现实世界中的HR图像y∈Y被双三次缩减比例为1/4，这样获得x。此外，作者将x和z裁剪为128×128色块。该域转换网络经过300,000次迭代训练，批处理大小为8。优化器为Adam ，β1= 0.5，β2= 0.999，初始学习率设置为1e-4。在Nvidia RTX 2080 TI上将λt1= 1，λt2= 0.05，λt3= 0.05。

在训练域变换网络之后，可以生成图像对。作者将zˆ和y裁剪为120×120和480×480色块，以提高IO的速度。在训练过程中，作者将LR随机裁剪为64×64。其中超分网络训练了300,000步，batch size为12．优化器Adam，β1= 0.9，β2= 0.999，初始学习率设置为2e-4。作者在两个Nvidia RTX 2080 TI上设置λs1= 1，λs2= 0.1，λs3= 0.05．

注：作者在原文中未注明Ｘ即真实LR数据获取方案．

域变换网络结果

为了有效地验证所提出的方法，评估域转换网络从x映射到zˆ的性能。从干净的DF2K数据集中随机抽取了10个图像。我们缩小十张图片系数为1/4。之后放入生成器Gx→z（·）．

SR网络结果

20201209144500