LIR - yubo105139/paper GitHub Wiki
LIR for Unsupervised IR
图像恢复(image restoration)
所谓图像恢复其实就是先给图像进行降质(加入各种噪声或者模糊), 然后再通过各种算法(主要是基于数据的学习类算法)将图像还原成原来模样, 这样一个过程就是图像恢复(Image Restoration)。下图展示了论文的图像恢复结果:
Unsupervised IR
所谓的非监督式图像恢复按论文所提出的架构来理解, 其实就是训练所使用的数据集是非成对的, 同时作者将Unsupervised IR视为一种领域转移(domain transfer)的问题即从噪声域(noise domain)转移至干净域(clean domain)。领域(domain)指的是样本所在空间及其分布。在监督式领域转移的中, 样本$(x, y)
$是从联合分布(joint distribution)$P_{X, Y}(x, y)
$中获取。在非监督式领域转移中, 样本$(x, y)
$是分别从边缘分布(marginal distribution)$P_{X}(x)
$和$P_{Y}(y)
$中获取。
论文的目的及方法
本篇论文的目的是主要是提出一种架构, 来从非成对的数据样本学习到一些不变特征表示(invariant representation), 再利用这些特征恢复干净图像, 从而实现高质量的非监督式图像恢复。而所谓的invariant representation其实就是更稳固且不含噪声的实时特征, 论文原文:our goal is to learn robust intermediate representation free of noise (referred to as Invariant Representation)。下图是本论文的架构:
解读架构:
从图中可以看出该架构包含了3个编码器($E_{x}
$、$E_{y}
$、$E_{x}^N
$)和2个生成器($G_{x}
$、$G_{y}
$), 其中编码器$E_{x}
$、$E_{y}
$分别提取噪声域和干净域中图像的内容特征, 而$E_{x}^N
$是提取噪声域中图像的噪声特征。
而该框架是基于一个重要假设(latent space assumption)所构建的, 论文原话:In order to infer the joint distribution from the marginal samples, a shared-latent space assumption is proposed that there exists a shared latent code z in a shared-latent space Z, so that we can recover both images from this code。个人将这个共享隐藏空间(shared latent space)的作用理解为一种搭建从噪声域到干净域的桥梁, 然后利用该桥梁来完成领域转移。
有了这样一个假设后, 问题的关键就在于如何去建立起这个共享隐藏空间, 很容易想到的一种方式就是用一个权重共享(shared-weight)的编码器(即让架构图中的$E_{x}
$和$E_{y}
$权值共享)来实现, 然而这种方式并不适合IR, 因为会出现领域偏移(domain shift)的问题.
领域偏移(domain shift):
首先论文原文中并没有对这一块做数学上的详尽解释(只是抽象的说因为隐藏空间包含的是高级语义特征, 所以恢复图像过程中会有领域偏移以至于生成的图像细节模糊或者背景不一致)。 以下部分是我个人对领域偏移问题的理解, 先回顾一下贝叶斯公式:
损失函数
cross-cycle consistency loss($L_{CC}
$)
feature adversarial loss($L_{adv}^R
$)
background consistency loss($L_{BC}
$)
semantic consistency loss($L_{SC}
$)
adversarial loss for noise domain($L_{adv}^X
$)
adversarial loss for clean image domain($L_{adv}^Y
$)
总的优化目标函数如下:
推理部分
实验结果
作者实验中使用的超参数(Hyper-parameters)值如下:
论文可借鉴的地方
1.利用GAN中的生成器、判别器对抗思想来实现shared latent space猜想。 2.损失函数中加入各种自监督(背景一致、语义一致等)来使得经过编码得到的特征(representation)更鲁棒(robust)。 3.基于交叉领域转移(cross domain transfer)设计了一种非监督式的IR框架。