Guided - yubo105139/paper GitHub Wiki

TOC

Guided Frequency Separation Network for Real-World Super-Resolution

目的

  1. 目前退化函数的问题:由于已知的退化(例如:bicubic下采样),超分过程只能恢复退化操作丢失的细节,而不能恢复自然图像。此外,bicubic下采样去除了真实世界图像的伪影、传感器噪声和其他自然特征,使得训练数据非常干净。如果我们直接利用这些退化数据来训练SR模型,那么因为训练数据和测试数据分布的差异就效果就会很一般。

  2. GAN的问题:为了减少L1,L2 loss对高频信息的损失,导致图像过于平滑(over-smoothed),通常会使用GAN去解决这个问题.普通GAN的方法破坏了颜色的一致性。虽然干净域图像已经转移到真实域图像,但是会产生颜色偏移(color shift),而且造成了图像的过平滑(over-smoothed)。因此,SR网络的性能受到了极大的影响。

    注:在文中作者分析表述为GAN可以解决过平滑问题,但是通过GAN生成的数据训练的SR模型依旧具有一定的过平滑现象,作者认为此时是因为生成数据的问题.

方法

主要创新点可以总结如下:
1.提出了一个域映射网络:CARB
2.设计了一种SR判别器,可以解决低和高频功能分开
3.用Canny算子构造了Edgeloss

1. Pipeline

​ Two Stage方案:

2. Stage 1(无监督数据生成)

生成器

​ 为了实现域转换(domain transformation),采用了GAN的思想。使用官方的DSGAN模型来传输LR图像。但退化后的结果出现了色移。

​ 如果直接利用这对数据对SR模型进行训练,得到的结果会出现图像过平滑现象。经过分析,作者认为造成这种情况的原因是IN层缺乏对颜色独立性的先验性。因此,为了解决这个问题,添加了一个颜色引导网络来动态输出图像的颜色特征,这些特征可以通过均值和方差来执行,从而提供给AdaIN。

​ x 和 y 分别是内容图片和风格图片 encode 后的特征图, σ(sigma)和 μ(mu)分别是均值和标准差。

​ 生成器网络Gx→z由两部分组成,一部分由CARB单元组成,一部分为其对应的参数网络。生成器的详细信息如图所示。网络的上半部分是一个引导参数网络,给出CARB的偏置(均值)和权值(方差)。由于偏置(均值)是全局信息,所以利用几个kernel size为3的卷积和三个kernel size为5的全局池化层来提取偏置(均值)。之后,原始图像减去这个全局信息将被输入到sigmoid层。全局信息作为偏置(均值),最终输出值作为CARB的权值(方差)。作者在这里结合空间注意和AdaIN的思想来增强空间感知。因此,可以保持原始图像的内容和颜色。

损失函数

​ 为了使生成器能有效地进行域转换,作者将低频损失L(low)、感知损失L(per)和高频损失结合起来L(high)。L(low)其中FL(·)为Guassian低通滤波器,n为batchsize, xi∈X。对于感知损失,作者使用预训练的VGG16网络。为了提高图像的真实感,作者采用了LSGAN的策略定义高频损失L(high)。

image-20201208221918402

判别器

image-20201208222958364

判别器:判别器的详细信息如图所示。遵循频率分离的思想,在几个卷积核大小为3的高斯滤波器前,提取高频信息。该设计允许鉴别器Dz(·)只处理真伪图像的高频部分,使整个GAN的训练更加稳定和快速收敛。

损失函数:

3. Stage 2(SR网络训练)

SR网络

​ 域转换后,生成的图像zˆ和y图像对的监督训练.这里需要解决一个映射f2, zˆ->y .为了提高主观视觉质量,作者使用了LSGAN。一方面,生成器Gz→y只由9个RRDB组成,具有更少的计算量。另一方面,由于生成器通常会产生伪纹理,因此作者让判别器包含两个网络,即高频网络和低频网络,这样不仅可以保持高频的性能,也可以保持低频的性能.

​ 损失函数:

​ 在SR的训练过程中,作者发现感知损失也带来了轻微的颜色变化。不同的是,作者取消了感知损失,并增加了边缘损失,保持良好的颜色一致性。因此,生成器的总损失由内容损失L(c)、边缘损失组成和负性损失L(adv)。内容损失的目的是保持原有图像的内容,对于EdgeLoss,重点处理图像边缘细节,可以提高视觉质量,这里作者利用Canny运算符EdgeLoss.

image-20201208223312083

判别器

image-20201208222833060

​ 损失函数:

image-20201208224138948

结果

​ 作者首先生成非配对(unpair)数据来训练域变换网络,因此,现实世界中的HR图像y∈Y被双三次缩减比例为1/4,这样获得x。 此外,作者将x和z裁剪为128×128色块。 该域转换网络经过300,000次迭代训练,批处理大小为8。优化器为Adam ,β1= 0.5,β2= 0.999,初始学习率设置为1e-4。在Nvidia RTX 2080 TI上将λt1= 1,λt2= 0.05,λt3= 0.05。

​ 在训练域变换网络之后,可以生成图像对。 作者将zˆ和y裁剪为120×120和480×480色块,以提高IO的速度。 在训练过程中,作者将LR随机裁剪为64×64。其中超分网络训练了300,000步,batch size为12.优化器Adam,β1= 0.9,β2= 0.999,初始学习率设置为2e-4。 作者在两个Nvidia RTX 2080 TI上设置λs1= 1,λs2= 0.1,λs3= 0.05.

​ 注:作者在原文中未注明X即真实LR数据获取方案.

​ 域变换网络结果

​ 为了有效地验证所提出的方法,评估域转换网络从x映射到zˆ的性能。从干净的DF2K数据集中随机抽取了10个图像。 我们缩小十张图片系数为1/4。 之后放入生成器Gx→z(·).

image-20201209144159496

​ SR网络结果

20201209144500