[[TOC]]

基于深度学习的图像超分辨率综述

版本	日期	书写人	修改内容
v1.0	2020年5月29日	张月	初稿
v1.1	2020年6月1日	张月	添加工作计划

1. 前言

1.1 超分辨率的概念

超分辨率(Super-Resolution, SR)是指从观测到的低分辨率图像中重建出相应的高分辨率图像。这其实是一个不适定问题，因为对于一张低分辨率(Low-Resolution, LR)图像，通常会有很多张高分辨率(High-Resolution, HR)图像与之对应。

1.2 超分辨率的研究意义

超分辨率能够将一张低分辨率图像重建为一张高分辨率图像，除了能提高图像的感知质量（视觉效果）外，还有助于改进其他计算机视觉任务，因此在监控设备、卫星图像和医学影像等领域都有重要的应用价值。

1.3 基于深度学习的超分辨率发展

近年来，随着深度学习技术的迅速发展，基于深度学习的SR模型得到了积极的探索，并在SR评价指标上取得当前最优的性能。从早期基于卷积神经网络(CNN)的（如SRCNN[22]）到近期基于生成性对抗网络(GAN)[24]的（如SRGAN[25]），各种深度学习方法被广泛应用于SR任务。

2. 问题定义及常用术语

2.1 超分辨率问题定义

图像超分辨率旨在从LR图像中重建出相应的HR图像，LR图像$I_x$可以看做是HR图像退化的结果，公式定义如下：

$$I_x = D(I_y;\delta)$$

其中$D$表示退化映射函数，$I_y$表示相应的HR图像，$\delta$表示退化过程的参数（如缩放因子或噪声）。通常退化过程（即$D$和$\delta$）是未知的，只提供LR图像，我们需要从LR图像中重建出HR图像$\hat{I}_y$，使其近似于真实的HR图像$I_y$，如下所示：

$$\hat{I}_y=F(I_x;\theta)$$

其中$F$为SR模型，$\theta$为$F$的参数。

虽然退化过程是未知的，但是研究者多用降采样的方式直接为退化映射建模如下：

$$D(I_y;\delta)=(I_y){\downarrow}_s,\{s\}\subset\delta$$

其中${\downarrow}_s$是缩放因子为$s$的降采样操作，最常用的降采样方法是双三次插值法。也有一些研究者将退化过程建模为：

$$D(I_y;\delta)=(I_y{\otimes}k){\downarrow}_s+n_{\zeta},\{k,s,\zeta \}\subset\delta$$

其中$I_y{\otimes}k$表示模糊核$k$和HR图像$I_y$间的卷积，$n_{\zeta}$表示标准差为$\zeta$的加性高斯白噪声。和公式（3）相比，公式（4）更接近真实的退化过程。

综上，SR的目标如下所示：

$$\hat{\theta}=arg\min \limits_{\theta}L(\hat{I}_y,I_y)+\lambda\Phi(\theta)$$

其中$L(\hat{I}_y,I_y)$表示重建的HR图像$\hat{I}_y$与真实的HR图像$I_y$间的损失函数，$\Phi(\theta)$为正则化项，$\lambda$为权重因子。

2.2 图像质量评价(Image Quality Assessment, IQA)

重建的HR图像质量评价指标可以分为基于人类感知的主观方法（图像看起来有多真实）和基于计算的客观方法，主观方法更符合需求，但比较消耗时间和财力，因此客观计算方法为主要的评价指标。然而由于客观方法往往不能很准确地捕捉到人的视觉感受，因此对一张图像客观和主观的评价结果可能是不一致的。

2.2.1 PSNR(Peak Signal to Noise Ratio, 波峰信噪比)

PSNR是一种客观的图像质量评价指标，假定真实图像$I$和重建的图像$\hat{I}$有$N$个像素点，则这两张图像之间的PSNR定义如下：

$$PSNR=10{\cdot}log_{10}(\frac{L^2}{\frac{1}{N}\sum_{i=1}^{N}(I(i)-\hat{I}(i)^2)})$$

其中$L$通常取255。从公式（6）可以看出PSNR关注的是像素点间的差异，而非视觉感知效果，因此即使PSNR很高，在实际场景中的视觉效果可能并不好。因为如今无法对视觉效果进行量化表达，因此PSNR是SR领域常用的评价指标。

2.2.2 SSIM(Structural SIMilarity, 结构相似性)

人眼视觉系统(HVS)对抽象的图像结构具有很强的适应性[59]，因此提出了基于亮度、对比度和结构的评价指标SSIM[58]。假设图像$I$有$N$个像素点，亮度${\mu}_I$为图像强度的均值${\mu}_I=\frac{1}{N}\sum_{i=1}^{N}I(i)$，对比度$\sigma_I$为$(\frac{1}{N-1}\sum_{i=1}^{N}(I(i)-\mu_I)^2)^{\frac{1}{2}}$，其中$I(i)$表示第$i$个像素点的强度值，亮度差异$C_l(I,\hat{I})$和对比度差异$C_c(I,\hat{I})$定义如下：

$$C_l(I,\hat{I})=\frac{2\mu_I\mu_{\hat{I}}+C_1}{\mu_I^2+\mu_{\hat{I}}^2+C_1}$$

$$C_c(I,\hat{I})=\frac{2\sigma_I\sigma_{\hat{I}}+C_2}{\sigma_I^2+\sigma_{\hat{I}}^2+C_2}$$

其中$C_1=(k_{1}L)^2$和$C_2=(k_{2}L)^2$为避免不稳定的常量，并且$k_1\leq1$,$k_2\leq1$。

图像结构由归一化像素值（即$(I-\mu_I)/\sigma_I$）表示，像素值间的相关性（等价于$I$和$\hat{I}$间的相干系数）表示结构相似度，因此图像$I$和图像$\hat{I}$间的结构差异函数$C_s(I,\hat{I})$可以定义如下：

$$\sigma_{I\hat{I}}=\frac{1}{N-1}\sum_{i=1}^{N}(I(i)-\mu_I)(\hat{I}(i)-\mu_\hat{I})$$

$$C_s(I,\hat{I})=\frac{\sigma_{I\hat{I}}+C_3}{\sigma_I\sigma_{\hat{I}}+C_3}$$

其中$\sigma_{I\hat{I}}$为$I$和$\hat{I}$之间的协方差，$C_3$为常量，SSIM的定义如下：

$$SSIM(I,\hat{I})=[C_l(I,\hat{I})]^{\alpha}[C_c(I,\hat{I})]^{\beta}[C_s(I,\hat{I})]^{\gamma}$$

其中$\alpha，\beta,\gamma$是调整重要性的控制因子。

因为SSIM是从HVS的角度评估重建质量的，能够更好地满足人类感知的需求，因此在SR领域广泛使用。

2.2.3 MOS(Mean Opinion Score)

MOS是主观图像质量评价中最常用的指标，其具体操作过程是让打分人员对测试图像进行1-5的打分，最后对所有人员的打分进行平均。这种方法主观性比较强，但是是人类感知最直接有效的评价方法。

2.2.4 基于学习的感知质量

为了在减少人工干预的同时更好地评估图像的感知质量，研究者试图通过对大量数据集进行学习，进而评估感知质量。尽管这些方法在捕获人类视觉感知方面表现出了更好的性能，但我们需要什么样的感知质量（例如，更真实的图像，或与原始图像一样的类别）仍然是一个有待探索的问题，因此，客观的方法（例如，PSNR，SSIM）仍然是当今图像质量评估的主流。

2.2.5 基于任务评估

因为SR有益于其他计算机视觉任务（如目标识别、人脸识别、人脸对齐等），因此通过其他任务来评估重建的效果也是一种有效的方法。例如可以将原始图像和重建图像输入训练好的网络，比较其在预测任务上的差异，进而对重建图像的质量进行评估。

2.2.6 其他图像质量评估方法

除了上述图像质量评估方法外，还有一些其他不常用的方法。多尺度结构相似性(MS-SSIM)[74]比单尺度结构相似性(SS-SSIM)更能反映视野条件的变化；特征相似度(FSIM)[75]基于相位一致性和图像梯度大小提取感兴趣的特征点来评价图像质量；自然图像质量评估器(NIQE)[76]利用在自然图像中观察到的统计规律的可测量偏差来评价图像质量。

最近，Blau等人[77]从数学上证明失真（例如PSNR、SSIM）和感知质量（例如MOS）是不一致的，并且表明随着失真的减小，感知质量必然更差。因此，如何准确地评估SR质量仍然是一个亟待解决的问题。

2.3 图像通道形式

在SR中，RGB颜色空间和YCrCb颜色空间都是常用的，早期的模型多基于YCrCb颜色空间进行建模。要注意的是，在不同颜色空间或通道上操作（训练或评估）会使评估结果相差很大（高达4db）。

2.4 超分辨率挑战赛

两个最著名的超分辨率挑战赛分别是NTIRE和PIRM。

NTIRE包含SR、去噪、着色等多种任务，NTIRE是和CVPR相连的。对于SR，比赛是建立在DIV2K[42]数据集上的，其中LR图像包含双三次插值退化的图像，也包含未知退化过程的真实LR图像，这两种LR数据在退化过程和缩放因子上有所不同，基于这两种LR数据举行挑战赛，旨在促进理想条件下和现实条件下的SR研究。

PIRM是和ECCV相连的，该挑战赛也包含多项任务。和NTIRE不同的是，PRIM的一个赛道关注生成精度和感知质量之间的折中问题，另一个赛道关注智能手机设备上的SR问题。

3. 基于监督的超分辨率技术

目前，研究者提出了多种基于深度学习的超分辨率模型，这些模型多是有监督的SR（即用LR图像和相应的HR图像训练）。虽然这些模型的差异很大，但它们可以看成组件的集成：如模型框架、上采样方法、网络设计和学习策略。将这些组件结合起来，就构建了一个SR模型。本节将关注于模块化分析基本组件（如图1所示），并总结它们的优点和局限性。

图1 本篇综述的层次结构

3.1 超分辨率框架

在SR中，上采样是很重要的问题，本文根据上采样的位置，可以将SR深度学习方法归结为四大类（如图2所示）。

图2 基于深度学习的SR模型框架。立方体大小表示输出尺寸，灰色立方体表示预定义的上采样，绿色、黄色和蓝色立方体分别表示可学习的上采样层、下采样层和卷积层，虚线框起来的模块表示可堆叠的模块。

3.1.1 预上采样超分辨率(Pre-upsampling Super-Resolution)

直接学习从低维空间向高维空间的映射是比较困难的，因此一种比较直接的解决方案是利用传统的上采样方法获得高分辨率图像，然后使用神经网络进行细节重构。预上采样框架如图2(a)所示，首先利用传统方法（如双三次插值法）将LR图像上采样为具有所需尺寸的低精度HR图像，再利用深度CNN从这些图像上重建高质量细节。代表性研究工作有SRCNN[22],[23]。

预上采样框架中，最具有难度的上采样已经通过传统方法完成，CNNs只需细化低精度图像，从而降低学习的难度。此外，这些模型可以将具有任意大小和比例因子的插值图像作为输入，细化后的HR图像能够达到单尺度SR模型的精度[26]，因此，它逐渐成为最受欢迎的框架之一[55],[56],[82],[83]。在此框架下，不同SR模型的差异主要在于后续神经网络的设计（3.3节）和学习策略（ 3.4节）。预上采样框架的缺点是，预定义的上采样方法会产生副作用（例如，噪声放大和模糊），并且由于大多数操作是在高维空间中执行的，因此时间和存储空间成本比其他框架要高得多[43],[84]。

3.1.2 后上采样超分辨率(Post-upsampling Super-Resolution）

为了提高计算效率并充分利用深度学习技术自动增大分辨率，可以在模型末端集成端对端的可学习层来代替预定义的上采样操作，从而使得大多数计算在低维空间运行，这种框架称为后上采样框架，框架结构如图2(b)所示，LR图像无需增大分辨率，可直接输入到CNN网络，并在网络末端采用端到端可学习的上采样层。

后上采样框架中，特征提取工作是在低维空间进行的，时间和存储空间成本都极大的降低了，因此，此种框架已经成为主流框架之一[25], [31], [79], [85]。后上采样超分辨率框架中不同SR模型的差异主要在于可学习的上采样层（3.2节）、CNN网络结构（3.3节）和学习策略（3.4节）等。后上采样超分框架的缺点是，上采样操作一步完成，增加了大倍数超分辨率的学习难度，而且，每个倍数需要一个单独的SR模型，不能满足muti-scale SR的需求。

3.1.3 渐进式上采样超分辨率(Progressive Super-Resolution)

为了解决后上采样SR框架的问题，提出了渐进式上采样框架，如图2(c)所示，在上采样因子大于 2 的情况下，把上采样过程分解为多个stage，每个stage包含CNNs+上采样（上采样因子为2），逐步构建超分辨率图像。具有代表性的工作有LapSRN[27]、MS-LapSRN[65]、ProSR[32]等。

通过将任务分解，可以降低学习的难度，在上采样倍数较大的情况下能够获得更好的结果，而且在没有引入额外的时间和存储空间开销的情况下，解决了多尺度超分辨率问题。另外，渐进式上采样框架可以非常方便地与一些特定的学习策略相结合，例如课程学习（3.4.3节）和多监督（3.4.4.节），使模型的性能获得进一步的提升。但是，渐进式上采样框架依然存在一些问题，例如多个stage导致模型设计比较复杂，而且也存在训练不稳定的问题。

3.1.4 迭代上-下采样超分辨率(Iterative Up-and-Down Super-Resolution)

为了更好地获得 LR-HR 图像对之间的相互依赖关系，在网络中迭代地对特征进行采样和重建，然后利用重建误差对采样结果进行改善，这种框架称之为迭代上-下采样超分辨率（如图2(d)所示），典型研究有DBPN[57]、SRFBN[86]、RBPN[87]等。图3中的 up-projection unit 中，先对 LR 特征$L^{t-1}$进行上采样得到$H^{t}_0$ ，然后对$H^{t}_0$ 进行下采样卷积得到$L^{t-1}$的重建 $L^{t}_0$，求$L^{t-1}$ 与其重建结果之间的差$e_t^l$，利用对$e_t^l$ 进行反卷积的结果对$H^{t}_0$进行改善。

图3 DBPN中的上-下映射单元

迭代上-下采样方法能够挖掘 LR-HR 图像对之间的深层关系，提高重建图像的质量，但是其运行机制不清楚，且需要复杂的人工设计。

3.2 上采样方法

上采样在SR框架中的位置很重要，除此之外，如何进行上采样也同样重要，尽管已经存在很多传统的上采样方法[20], [21], [88], [89]，利用CNNs学习端到端的上采样方法逐渐成为趋势。本节中将介绍基于插值的传统上采样方法和基于深度学习的上采样方法。

3.2.1 基于插值的上采样

图像插值又称为图像缩放，是指调整图像的尺寸大小，在图像相关的应用中广泛使用。传统的插值方法包括最近邻插值(nearest-neighbor interpolation)、双线性插值(bilinear interpolation)、双三次插值(bicubic interpolation)、Sinc and Lanczos重采样等，这些方法比较简单且易解释，因此，部分传统插值方法在基于CNN的SR中广泛应用。

最近邻插值：对于每个位置选择最相近的像素点值，该方法运算快，但易产生块状效果，生成图像质量差。

双线性插值：首先在图像的一个轴上执行线性插值，然后在另一轴上执行线性插值。其感受野为$2\times2$ ，运算速度较快，相比于最近邻插值，具有更好的性能。

双三次插值:在两个轴的每个轴上执行三次插值。其感受野为4×4，相比于双线性插值，结果更平滑，但速度却慢很多。双三次插值是构建SR数据集的主流方法（即，将HR图像退化为为LR图像），广泛应用于预上采样SR框架（3.1.1节）。

基于插值的上采样方法仅利用图像自身的信息，并未带来额外的信息，应用于SR时会产生很多副作用，如：计算复杂性高、放大噪声、模糊等，因此，用基于学习的上采样方法取代基于插值的上采样方法是当今的研究趋势。

3.2.2 基于学习的上采样

为了避开基于插值的上采样方法的缺点，并能够以端到端的形式进行学习，在SR领域引入了反卷积和亚像素。

反卷积：又称为置换卷积，尝试执行与正常卷积相反的转换，通过插入零并执行卷积来增大图像尺寸。以用$3*3$核实现2倍上采样为例，其操作过程如下：

1.把输入变为原来两倍，新插入值设为0；

2.使用一个$3*3$卷积核，步长设为1，padding设为1。

比如输入图像为$3\times 3$，第一步变成$5\times5$，经过卷积层后，尺寸变为$6 \times6$，其示意图如4所示：

图4 反卷积。蓝色框表示输入，绿色框表示卷积核和卷积输出。

因为反卷积在对原始卷积层兼容的同时，以一种端到端的方式增大了图像尺寸，因此广泛应用于SR模型，但反卷积容易在每个轴上造成不均匀重叠，产生棋盘效应，从而损害SR性能。

亚像素：也是端到端可学习的上采样层，如图5(b)所示，首先通过卷积生成具有$s^2$倍通道的输出，其中$s$为图像放大倍数，假设输入尺寸为$h\times w \times c$，则通过亚像素层输出为$h \times w \times s^2c$，然后再进行reshape，输出尺寸为$sh \times sw \times c$

图5 亚像素层。蓝色框表示输入，其他不同颜色表示不同的卷积运算和不同的输出特征图。

相比于反卷积层，当卷积核为$3\times3$时，亚像素层的感受野更大，更够利用更多的上下文信息获取更准确的细节。但是由于不同块区域的感受野实际是不相同的，而在亚像素层中块区域感受野相同，可能导致不同块的边界附近出现伪影。

Meta Upscale Module：前面的上采样方法需要先确定图像放大的倍数，这就意味着针对不同的放大倍数需要训练不同的上采样模块，这是低效的且不符合实际需求的。基于此，Hu等人[95]提出了Meta Upscale Module（如图6所示），首次可以基于元学习(Meta learning)解决放大任意倍数的SR重建问题。Meta Upscale Module对于HR中的每个目标位置，将其映射到LR特征图中的一小块区域（$k\times k \times c_{in}$），根据映射偏移和放大倍数预测卷积权重（即$k\times k \times c_{in} \times c_{out}$），然后再进行卷积。通过这种方式，Meta Upscale Module可以通过单一模型进行任意倍数放大。尽管该模块在推理过程中需要预测权重，但上采样模块的执行时间仅占特征提取时间的1%左右[95]，因此并不会引入过多的时间消耗。但是，该方法基于与图像内容无关的多个值来预测每个目标像素的卷积权重，因此预测结果可能不稳定。

图6 Meta Upscale Module。蓝色框表示映射块，绿色框和绿色虚线表示基于预测权重的卷积操作。

3.3 网络结构设计

网络结构设计已经成为深度学习最重要的一部分，基于上述四种SR框架和多种网络设计策略（如图7所示）可以构建最终SR网络，本节对这些网络结构设计进行介绍并逐一分析其优势和局限性。

图7 网络设计策略

3.3.1 残差网络(Residual Learning)

在ResNet[96]提出之前，残差学习的思想（如图7(a)所示）已经应用于SR领域[48],[88],[97]，可以将残差学习分为全局残差学习和局部残差学习两类。

全局残差学习：图像SR任务是一张图像到另一张图像的转换，且这两张图像相关性强，因此可以只学习两张图像间的差异，这就是全局残差学习。全局残差学习通过学习残差映射来重建图像的高频信息，这样可以极大地降低网络复杂度和学习难度。基于全局残差学习的SR研究工作请参看[26],[55],[56],[98]。

局部残差学习：类似于RestNet的残差学习，是为了解决网络加深带来的退化问题，可以降低训练难度，增加学习能力。基于局部残差学习的SR研究工作请参看[70],[78],[85],[99]。

3.3.2 递归学习(Recuisive Learning)

递归学习是为了在不引入额外参数的情况下获得更大的感受野，学习到更高层次的特征，如图 7(b)所示，递归学习是将同一网络模块以递归的方式重复使用多次。

DRCN[82]用一个卷积层作为递归单元循环使用16次，感受野为$41\times41$，相比于SRCNN[22]$13\times 13$的感受野，在未增加参数量的情况下，增大了感受野，提高了SR性能。DRRN[56]用一个残差块[96]作为递归单元使用25次，获得更好的性能。MemNet[55]采用6个残差递归模块，每次递归输出的结果进行concat，再输入到$1\times1$卷积中决定记忆或遗忘。基于递归学习的其他研究工作请参考[86],[85],[65]。

递归学习可以在不引入额外参数量的同时学习到更抽象的特征表达，但是仍然会增大计算量，而且，会带来梯度弥散和梯度爆炸的问题，因此残差学习（3.3.1节）和多监督（3.4.4）等方法通常会和递归学习结合使用。

3.3.3 多路径学习( Multi-path Learning )

多路径学习指的是通过多个路径把特征在模型中传递，每个路径上采用不同的操作，这样可以增加模型的容量。多路径学习可以分为全局多路径学习、局部多路径学习、特定尺度多路径学习。

全局多路径学习(Global Multi-path Learning)：指利用多个路径提取图像不同层面的特征，这些路径在传播过程中可以相互交叉，从而增强学习能力。例如LapSRN[27]包含两条路径，一条路径提取图像特征，另一条路径基于所有信息重建HR图像；DSRN[85]包含两条路径分别提取低维和高维空间信息，并不断交换两路信息，从而增强学习能力，相关的研究工作还有[64],[100]等。

局部多路径学习(Local Multi-path Learning)：基于inception模块[101]的思想，同一特征图，采用不同的卷积来提取特征，并将结果concat。MSRN[99] (如图7(e)所示)分别采用$3\times3$和$5\times5$的卷积核同时进行特征提取，再将特征进行concat，这样可以进行多尺寸特征提取，进而提高SR性能。

特定尺度多路径学习(Scale-speciﬁc Multi-path Learning)：不同放大倍数的SR模型中特征提取的过程是相似的，基于此，Lim等人[31]提出了特定倍数的多路径学习，从而使得单个网络可以用于多倍数的SR，如图7(f)所示，不同路径共享特征提取层，在网络起始位置或网络终端采用不同倍数的上采样层，这样极大地降低multi-scale SR的参数量，相关的研究工作还有CARN[28]、ProSR[32]等。

3.3.4 稠密连接(Dense Connections)

将DenseNet的思想应用于SR，如图7(d)所示，对于每个dense block，前面所有层的特征图都作为其输入，而其输出会输入到后续所有层中。稠密连接有助于减轻梯度弥散的问题，增强信号的传播，促进特征重用，还能通过减少通道数量减少网络参数，因此应用在很多SR模型中，相关研究工作请参考SRDenseNet[79]、MemNet[55]、CARN[28]、RDN[93]、ESRGAN[103]、DBPN[57]等。

3.3.5 注意力机制(Attention Mechanism)

通道注意力(Channel Attention)：特征图不同通道间是相互依存的，如图7(c)所示，Hu等人[104]提出了"squeeze-and-excitation"，每个通道的特征图，经过全局平均池化层(global average pooling, GAP)变为一个值，然后经过两层全连接，产生每个通道的权重因子，再和input相乘，进一步提高特征的表达能力。SR基于通道注意力机制的相关研究有RCAN[70]，SOCA[105]等。

非局部注意力(Non-local Attention)：大多数SR模型的感受野是比较受限的，但远距离的物体或纹理对于局部高频细节的重建是很重要的，因此需要构建特征所有像素点对间的关系，即非局部注意力机制。Zhang等人[106]利用高斯核构建特征图中所有像素点对的关系从而构建权重因子，通过非局部注意力机制，SR模型能够获取空间注意力，从而进一步加强特征的表达能力。Dai等人[105]也采用非局部注意力机制获取远距离空间上下文信息。

3.3.6 高级卷积(Advanced Convolution)

卷积是深度神经网络的基本单元，通过改进卷积可以获取更好的性能或更高的计算效率。

空洞卷积(Dilated Convolution)：在SR中，上下文信息对于重建高频细节非常重要，因此zhang等人[107]在SR模型中，用空洞卷积替代普通卷积，增大感受野，从而获取更好的性能。

分组卷积(Group Convolution)：相比于普通卷积，分组卷积可以减少模型的参数量，因此IDN[98]和CARN-M[28]将分组卷积用于SR。

深度可分离卷积(Depthwise Separable Convolution)：深度可分离卷积可以减少模型参数量和计算量，造成较小的精度损失[110]，因此Nie等人[81]将深度可分离卷积应用于SR，加速网络模型。

3.3.7 区域递归学习(Region-recursive Learning)

许多SR模型把重建问题建模为一个像素之间相互独立的任务，没有充分利用像素间的相互依赖关系。像素递归学习受到图像分割中的 PixelCNN[111] 模型的启发，通过递归学习逐像素生成 SR 图像。

虽然区域递归学习能够在一定程度上提高模型的表现，但是递归过程增大了反向传播路径，增加了计算开销和训练的难度，尤其是对于生成large-scale的HR 图像更是如此。

3.3.8 金字塔池化(Pyramid Pooling)

zhao等人[115]提出金字塔池化模块是为了更好地利用全局和局部上下文信息。假设输入特征图大小为$h \times w \times c$，将特征图分成$M \times M$块，对每块进行全局平均池化，再用$1\times1$卷积压缩到一个通道，最后利用双线性插值上采样到输入尺寸，使用不同的M，能够有效地融合全局和局部信息。EDSR-PP[116]采用金字塔池化获取了更好地效果。

3.3.9 小波变换

小波变换可以将图像分解为高频信号和低频信号，低频信号代表全局的拓扑信息，高频信号代表纹理细节信息。第一类使用小波变换的SR 模型通过小波变换将插值LR 图像分解为子频带，然后从插值 LR 图像的低频信号学习出HR 图像的低频信号，从插值 LR 图像的高频信号学习出 HR 图像的高频信号，然后利用逆小波变换恢复出 HR 图像，具有代表性的研究工作有[119],[120],[121]。第二类使用小波变换的 SR模型将 LR 图像小波变换后的信号作为CNNs的输入，以期望能够更好地学习 LR 图像低频信号和高频信号之间的依赖关系，具有代表性的研究工作有MWCNN[122]。基于小波变换可以获取有效的特征表征，网络还可以减少参数量及运算量。

3.3.10 反亚像素

反亚像素是亚像素的逆过程，实现空间像素点到通道的迁移。在深度SR模型中，特征提取是比较耗时的，为了加快运行时间，Vu等人[123]在SR模型的起始处通过反亚像素层降采样输入图像，从而在低维空间提取特征，最后再上采样到目标尺寸，基于此在PIRM智能手机赛道[81]上取得最佳的速度和精度性能。

3.3.11 xUnit

为了结合空间特征处理和非线性激活以更有效地学习复杂特征，Kligvasser等人[124]提出了xUnit用于学习空间激活函数。xUnit可以通过卷积和高斯门直接学习权重，虽然xUnit计算量更大，但是其性能极其突出，可以在性能和ReLU相当的同时极大地减小模型参数量，基于此，SR模型在性能不下降的前提下，模型参数量相比于ReLU激活减少50%。

3.4 学习策略

3.4.1 损失函数

在SR领域，损失函数用于衡量重建误差并指导模型优化。早期通常采用像素级$L_2$损失，但其不能准确地衡量重建质量，因此多种损失函数（如内容损失[29]、对抗损失[25]）应用于SR领域，旨在准确地衡量重建误差，进而生成高质量的重建图像。本章将详细介绍SR领域中广泛使用的损失函数，重建HR图像用$\hat{I}$表示，真值HR用$I$表示。

像素损失(Pixel Loss)：像素损失衡量两张图像像素级差异，主要包括$L_1$损失和$L_2$损失，定义如下：

$$L_{pixel\__{L1}}(\hat{I}, I)=\frac{1}{hwc}\sum_{i,j,k}|\hat{I}_{i,j,k}-I_{i,j,k}|,$$

$$L_{pixel\__{L2}}(\hat{I}, I)=\frac{1}{hwc}\sum_{i,j,k}(\hat{I}_{i,j,k}-I_{i,j,k})^2,$$

其中$h$、$w$、$c$分别为图像的高、宽和通道数。 Charbonnier 损失[27],[125]为$L_1$损失的变形，定义如下：

$$L_{pixel\__{Cha}}(\hat{I}, I)=\frac{1}{hwc}\sum_{i,j,k}\sqrt{(\hat{I}_{i,j,k}-I_{i,j,k})^2+{\varepsilon}^2},$$

其中$\varepsilon$是防止根号下为0的常量（如$10^{-3}$）。

像素损失使得重建图像$\hat{I}$在像素值上接近于真值图像$I$。相比于$L_1$损失，$L_2$损失对小误差的惩罚力度较小，产生的图像更加平滑，但是$L_1$损失在SR上效果更好，收敛更快[28],[31],[126]。2.3.1节中PSNR的定义与像素级差异高度相关，最小化像素级误差等同于直接最大化PSNR，因此此类损失函数应用广泛。但是像素级损失函数并未包含图像的质量信息（如感知质量[29]、纹理[8]），因此应用此类损失函数重建的HR图像往往丢失了高频细节信息，纹理过于平滑，视觉效果不佳。

内容损失(Content Loss)：为了评估图像的视觉效果，SR中引入了内容损失[29],[127]，利用预训练的图像分类网络提取图像的语义信息，进而衡量图像间的语义差异，记预训练网络为$\phi$，在第$l$层提取的特征为${\phi}^{(l)}(I)$，内容损失定义为两张图像高层特征间的欧式距离：

$$L_{content}(\hat{I}, I;\phi,l)=\frac{1}{h_{l}w_{l}c_{l}}\sqrt{\sum_{i,j,k}(\phi_{i,j,k}^{(l)}(\hat{I})-\phi_{i,j,k}^{(l)}(I))^2}$$

其中$h_{l}$、$w_{l}$和$c_{l}$分别表示第$l$层特征的高、宽和通道数。

相比于像素损失，内容损失使得重建图像$\hat{I}$在视觉效果上逼近真值图像$I$，基于此损失函数重建的图像视觉效果更好，因此被广泛应用于SR领域[8],[25],[29],[30],[103]，最常用的预训练分类模型为VGG[128]和ResNet[96]。

纹理损失(Texture Loss)：纹理损失又叫风格重建损失，基于此重建的图像与目标图像具有相似的风格（例如颜色、纹理、对比度），根据参考文献[129],[130]，图像纹理可以用不同通道特征间的相关性来表示，因此定义Gram矩阵$G^{(l)}\in R^{c_l \times c_l}$，其中 $G^{(l)}_{i,j}$ 表示第$l$层特征向量$i$和$j$（向量化后）的内积：

$$G_{i,j}^{(l)}(I)=vec(\phi_i^{(l)}(I))\cdot vec(\phi_j^{(l)}(I))$$

其中$vec(\cdot)$表示向量化，$\phi_i^{(l)}(I)$表示图像$I$在第$l$层特征的第$i$个通道，纹理损失定义如下：

$$L_{texture}(\hat{I}, I;\phi,l)=\frac{1}{c_l^{2}}\sqrt{\sum_{i,j}(G_{i,j}^{(l)}(\hat{I})-G_{i,j}^{(l)}(I))^2},$$

EnhanceNet[8]基于纹理损失生成的图像纹理更加逼真，视觉效果更好，但是patch的大小需要根据经验确定，patch太小会造成纹理部分重影，太大会造成整个图片重影（因为纹理统计是对不同纹理区域求平均值）。

**对抗损失(Adversarial Loss)：**对抗损失来源于GAN[24]系列网络，GAN包含一个生成器和一个判别器，生成器用来生成文本或图像，判别器用来判断生成的内容是生成的还是真实的。GAN在SR中，将生成器看做SR模型，判别器判断HR图像是生成的还是真实的（二分类器）。SRGAN[25]中定义的对抗损失函数为：

$$L_{gan\_ce\_g}(\hat{I};D)=-logD\hat(I),$$

$$L_{gan\_ce\_d}(\hat{I}, I_s;D)=-logD(I_s)-log(1-D(\hat{I})),$$

其中$L_{gan\_ce\_g}$和$L_{gan\_ce\_d}$分别表示生成器和判别器的对抗损失，$I_s$表示随机从真值中挑选的HR图像。Enhancenet[8]也采用相似的对抗损失函数。

在SR领域中，部分研究工作[32],[131],[132]基于最小方差对对抗损失函数进行修改（如公式(20)、(21)所示），使得训练过程更加稳定，重建的图像质量更高：

$$L_{gan\_ls\_g}(\hat{I};D)=(D\hat(I)-1)^2,$$

$$L_{gan\_ls\_d}(\hat{I},I_s;D)=(D\hat(I))^2+(D(I_s)-1)^2,$$

基于GAN的研究工作请参阅[133],[63],[103],[134]。

大量的MOS测试（2.3.3节）表明，相比于像素级损失，对抗损失和内容损失重建图像的PSNR较低，但是视觉效果很好[8],[25]，这是因为判别器能够从图像中提取一些难学的潜在信息，通过对抗网络使生成器进行相应的学习，因此生成的HR图像更加逼真。但是GAN的训练比较困难，极易不稳定，因此如何确保GAN在SR领域稳定训练是亟待解决的问题。

循环一致性损失(Cycle Consistency Loss)：受启于CycleGAN[138],[131]，Yuan等人[131]先从LR图像$I$中重建HR图像$\hat{I}$，然后再对图像$\hat{I}$下采样生成另一LR图像$\hat{I}$，循环一致性损失即定义为$I$和$\hat{I}$之间的像素级差异：

$$L_{cycle}(\hat{I},I)=\frac{1}{hwc}\sqrt{\sum_{i,j,k}(\hat{I}_{i,j,k}-I_{i,j,k})^2},$$

总变分损失(Total Variation Loss)：为了抑制生成图像中的噪声，提升图像的空间平滑性，Aly等人[140]将总变分损失[139]引入到SR领域，其定义为相邻像素点间的绝对差之和，可以衡量图像中噪声量，定义如下：

$$L_{TV}(\hat{I})=\frac{1}{hwc}\sum_{i,j,k}\sqrt{(\hat{I}_{i+1,j,k}-I_{i,j,k})^2+(\hat{I}_{i,j+1,k}-I_{i,j,k})^2},$$

基于先验的损失(Prior-Based Loss)：根据SR应用场景的不同，可以引入其他的先验知识来约束生成的HR图像，Bulat等人[30]在研究人脸图像SR时，用预训练好的FAN（人脸对齐网络）和SR一起训练，使得生成的人脸图像与真值人脸图像关键点具有一致性。

在实际SR项目中，通常采用多种损失函数[8],[25],[27],[46],[141]，并为每种损失函数分配不同的权重，而确定每种损失函数权重的大小需要大量的经验，因此如何有效的结合多种损失函数仍然是需要探索的问题。

3.4.2 BN层

在CNN网络中，BN[145]层广泛存在，因为BN能够修正中间数据的分布，并减轻梯度弥散的问题，降低网络性能对初始化参数的依赖程度，加快网络训练，因此SR领域中也大量使用BN层[25],[39],[55],[56],[122],[146]。

然而，Lim等人[31],[32],[103],[147]认为BN层在使特征标准化的同时，也去除了网络中的范围柔性(range flexibility)，且消耗了与它前面的卷积层相同大小的内存，在去掉BN层后，相同的计算资源下，就可以堆叠更多的网络层或者使每层提取更多的特征，从而获得更好的性能。

3.4.3 课程学习(Curriculum Learning )

课程学习是Bengio [148]提出的方法，使深度学习模型的学习过程像人类一样从易到难。large-scale SR训练比较困难，为了降低学习的难度，可以将任务划分为渐进学习的过程，例如可以将$8\times$SR分解为3个子问题（即$1\times$到$2\times$,$2\times$到$4\times$,$4\times$到$8\times$），训练时先分开训练，然后将前两个网络连在一起微调，再加入第3个网络进行微调。相比于普通的训练，课程学习可以大大降低训练的难度，减少训练的时间，提高模型在所有scale上的性能。

3.4.4 多监督(Multi-supervision)

多监督是指对模型添加多个监督信号，例如要解决一个$8\times$ 的图像SR问题，我们不仅可以在模型的损失函数中计算最后的输出结果与 ground truth 之间的差异，还可以计算模型的中间结果（$4\times$的中间结果、$2\times $ 的中间结果）与其对应的 ground truth 之间的差异。多监督可以增加额外的反向传播路径，从而缓解梯度弥散和梯度爆炸问题，减小训练的难度。SR基于多监督的研究工作请参阅[82],[55],[85],[27],[65]。

3.5 其他提升方法

3.5.1 上下文融合网络(Ccontext-wise net fusion, CNF)

CNF的融合方法是将多个模型的结果叠加到一起，然后加上一个卷积层进行训练，得到最终的预测结果。将三个SRCNN利用CNF获取的重建图像可以获取较优的结果。

3.5.2 数据增强(Data Augmentation)

数据增强是深度学习中常用的技术手段，常用的方法包括随机剪切、翻转、尺度变换、旋转、色彩抖动、通道随机抖动等。

3.5.3 多任务学习(Multi-task Learning)

多任务学习是指在重建SR图像时，引入目标识别、语义分割[153]、手势识别、人脸属性分类[154]等其他视觉任务，因为不同的任务会关注数据的不同信息，其他相关任务会为SR提供额外的信息和知识，因此多任务学习会提高SR的性能。

3.5.4 网络插值(Network Interpolation)

基于PSNR的网络生成的图像更逼近ground truth，但易引起图像模糊，而基于GAN生成的图像视觉效果很好，但会有伪影(一些无意义的噪声会使得图像更逼真)，为了利用两类模型的优点，Wang等人[103],[105]提出了网络插值，即将训练的基于PSNR的网络和基于GAN的网络对应的参数进行加权，作为最终的网络参数。

3.5.5 自集成(Self-Ensemble)

通过旋转不同角度得到多个 LR 图像作为输入，得到多个旋转角度不同的 HR 图像，将它们集成起来作为最终结果。相关的研究工作请参阅[44],[31],[32],[44],[70],[78],[93],[83]。

3.6 当前最优SR模型

前边章节中，将SR模型分解为四部分内容：框架结构(3.1节)、上采样方法(3.2节)、网络设计(3.3节)和学习策略(3.4节)，当前最优的SR模型通常是几种策略的结合体，如RCAN[70]最主要的特点是采用了通道注意力机制(3.3.5节)，除此之外还采用了亚像素上采样(3.2.2节)、残差学习(3.3.1节)、像素级$L_1$loss和自集成(3.5.5节)，表1将一些代表性模型与其关键策略进行汇总。

表1 一些代表性模型采用的SR策略。 “Fw.”、“Up.”、 “Rec.”、 “Res.”、 “Dense.”、“Att.”分别代表SR框架、上采样方法、递归学习、残差学习、稠密连接、注意力机制。

评价一个SR模型时，除了SR精度外，还要关注模型效率。如图8所示，本文基于SR精度（即PNSR）、模型大小（即参数量）、计算损耗（即乘法-加法运算数）对当前SR典型模型进行统计，如图8所示。

图8 SR指标。x-轴和y-轴分别表示乘法-加法运算数和PSNR，圆圈大小表示参数量。

4. 非监督的SR

基于监督学习的SR算法是对匹配的LR-HR图像对进行学习，但是收集此类数据是比较困难的，因此在研究SR算法时，需要人工构建LR-HR图像对，通常是对HR图像进行退化处理，以获取相应的LR图像，基于这样的LR-HR图像对进行学习的SR算法其实是学习预定义退化的逆过程，而实际的退化过程是多样的，这样的学习显然不适应于真实场景。然而，获取大量非成对的LR和HR图像是比较容易的，而且基于此类学习的LR-HR映射也适应于真实场景，因此基于此类数据的非监督SR获得越来越多的关注。

4.1 Zero-shot Super-resolution

zero-shot super-resolution[83]不依赖于任何其他图像和预训练模型，仅用图像的内部自相似信息，先将测试图像通过不同的下采样方法下采样$s$倍，获得多张LR图像，与该测试图像构成多对LR-HR图像对，基于此图像对进行SR训练，训练结束后再将该测试图像作为SR输入，得到放大$s$倍的图像。因为在测试时需要对每一张图像都进行训练，因此推理时间较长。

4.2 弱监督超分辨率(Weakly-supervised Super-resolution)

基于非成对的LR-HR图像构建的SR模型称为弱监督SR，因为数据中的LR图像和HR图像都是真实图像，因此，弱监督SR完全适用于真实场景。本文将弱监督SR分为两类，第一类首先学习HR图像到LR图像的退化过程，然后再对HR图像构建相应的LR图像，基于LR-HR图像对训练SR模型；第二类是构建循环网络(cycle-in-cycle)，同时学习LR-to-HR和HR-to-LR的映射。

学习退化函数(Learned Degradation)：直接采用预定义退化函数是次优的，而从非成对的LR-HR图像中学习退化函数是可行的。Bulat等人[159]提出了一个两阶段的SR，首先采用GAN学习HR-to-LR的退化函数，对HR图像进行退化，生成相应的LR图像，构成LR-HR图像对，然后再利用LR-HR图像对基于GAN进行训练，其生成器就是所需的SR模型。基于此方法构建的LR-HR图像对是符合真实场景的，因此训练的SR模型性能较好。

循环超分辨率(Cycle-in-cycle Super-resolution)：循环SR将LR空间和HR空间作为两个域，利用cycle-in-cycle的结构学习彼此间的映射。CinCGAN[131]采用4个生成器和2个判别器构成两个CycleGAN[138]，第一个CycleGAN学习noisy LR $\leftrightarrows$clean LR映射，另一个CyclGAN学习clean LR$\leftrightarrows$clean HR映射，基于此，CinCGAN可以获取和监督算法相当的性能，但是其训练比较困难且不稳定。

4.3 深度图像先验(Deep Image Prior)

生成网络在经过任何学习之前就能够捕获大量的图像低级统计信息，也就是说，这些信息可能并不是通过大量的数据集学习得来，当只有LR图像$I_x$时，将随机初始化的向量作为生成器的输入，生成HR图像$I_y$，对$I_y$降采样，使得降采样后的$I_y$与LR图像$I_x$相同。

5 特定领域的应用

5.1 深度图超分辨率

深度图记录了场景中视点和目标之间的距离，深度信息在姿态估计 [161], [162]、语义分割 [163], [164] 等许多任务中发挥着重要作用。然而，由于生产力和成本方面的限制，由深度传感器生成的深度图通常分辨率较低，并饱受噪声、量化、缺失值等方面的退化影响。为了提高深度图的空间分辨率，将超分辨率引入深度图领域，利用RGB相机获取相同场景的HR图像，辅助重建HR深度高分辨率图像。相关研究工作请参看[165],[166],[167],[168]。

5.2 人脸图像超分辨率

人脸图像超分辨率（又名 face hallucination，FH）通常有助于完成其它与人脸相关的任务 [72], [73], [169]。与一般图像相比，人脸图像拥有更多与人脸相关的结构化信息，因此将人脸先验知识（如关键点、类别）整合到 FH 中是一种非常有效的方法，最直接的方法是约束生成的人脸图像与真值图有相同的人脸属性，相关的研究工作请参看[170],[30],[171],[72],[73],[172],[173],[174],[175],[176],[112],[113],[177],[178],[179],[180]。

5.3 超光谱图像超分辨率

与全色图像(panchromatic image，PAN)相比，超光谱图像(HSI)包含数百个波段的高光谱图像，能够提供丰富的光谱特征，帮助完成许多视觉任务 [181], [182], [183]。然而，由于硬件限制，搜集高质量 HSI 比 PAN 难度更大，搜集到的 HSI 分辨率也更低。因此，在该领域引入了超分辨率，通常将 HR PAN 与 LR HSI 相结合来预测 HR HSI，相关研究工作请参看[184],[185],[186]。

5.4 真实图像超分辨率(Real-world Image Super-resolution)

相机通常获取的是12-bit或14-bit的原始图像，然后经过一系列图像信号处理器（去马赛克、去噪、压缩等）变成8-bit的RGB图像，其实该图像已经丢失了很多原始图像信号，因此，按照常用方法对RGB图像进行降采样再训练SR效果肯定欠佳，将相机先验知识应用到SR中，是不错的研究方向，相关研究工作请参看[187],[188],[189]。

5.5 视频超分辨率

在视频超分辨率中，多帧图像可以提供更多的场景信息，视频超分辨率不仅有帧内空间依赖，还有帧间时间依赖（如运动、亮度和颜色变化）。因此，现有研究主要关注更好地利用时空依赖。根据是否进行帧插值，本文将视频超分辨率划分为两大类：普通视频超分辨率(Video Super-resolution, VSR)和空时视频超分辨率(Space-Time Video Super-Resolution, STVSR)。

普通视频超分辨率(VSR)旨在从LR图像(reference frame)及邻域多帧LR图像(supporting frames)中重建出一帧HR图像。VSR可以分为基于运动补偿的方法和循环方法，基于运动补偿的方法可以直接运用光流进行运动补偿，但是光流的计算比较耗时，也可以学习运动补偿，直接融合运动补偿和超分辨率；循环方法无需明确的运动补偿，利用循环网络获取时空依赖。VSR的相关研究工作请参看[190],[191],[192],[193],[194],[195],[196],[197],[198],[199],[200],[201],[202],[203],[204]。

空时视频超分辨率(STVSR)旨在从低帧率低分辨率的视频序列中自动生成高帧率高分辨率的视频序列。STVSR算法分为两阶段的和一阶段的，两阶段方法首先利用视频帧插值(video frame interpolation, VFI)重建丢失的LR视频帧，然后利用VSR为每个LR视频帧重建出HR视频帧，这种两阶段的方法模型参数量大且计算量大，而且并未融合帧插值和空间超分辨率间的相关性；一阶段方法同时学习时间插值和空间超分辨率，且推理速度快、模型效果好，相关研究工作请参看[1],[2],[3],[4]。

5.6 其他应用

基于深度学习的超分辨率也被应用到其它特定领域，而且表现优良。Perceptual GAN[205] 通过对小目标进行超分辨率重建解决了小目标检测问题，且实现了与大目标相似的特征，检测结果更好；FSR-GAN[206]对特征空间的小图像进行超分辨率，将质量较差的原始特征转换成了判别率更高的特征，这对图像检索非常有利；Li等人[209]利用3D几何信息对3D目标的纹理图进行超分辨率，对3D目标的分割更加有效。因此，超分辨率在多种应用中都发挥着重要的作用。

6 研究趋势

6.1 网络设计

好的网络设计不仅可以具有较高的性能表现，而且还可以有效地学习数据表示而不会产生过多的时间和计算冗余。下面就介绍一些有关网络设计的可改进的地方。

结合局部和全局信息：大的感受野能提供更多的上下文信息，帮助产生更真实的HR图像，通过结合局部和全局信息为图像SR提供不同scale的上下文信息是一种有效的方法。

结合浅层和深层信息：CNN网络的浅层只能提取低层特征，如颜色和边缘，深层可以提取高层特征，如目标类别。因此结合低层细节信息和高层语义信息对HR重建非常有帮助。

特定上下文注意力：不同图像场景关注的信息不同，对于草坪区域会更多地关注颜色和纹理，而动物躯体区域则更多地关注动物种类和毛发细节。因此结合注意力机制加强对关键信息的提取，有助于重建更加逼真的图像。

轻量化结构：目前的SR模型都追求最终的表现，而忽略了模型大小和推理速度。在实际应用中大型网络结构是不实用的，因此轻量化结构势在必行。如何在减少模型大小、加快预测速度的同时保持优良表现，必然是发展趋势。

上采样方法：目前存在的上采样方法或多或少都有缺点：插值法计算开销大且不支持端到端学习；反卷积易产生棋盘效应；亚像素会导致非均匀分布的感受野。提出一种效果好、效率高的上采样方法是值得进一步研究的。

网络结构搜索(Network Architecture Search, NAS)：NAS受到越来越多的关注，将上述几个方法与NAS相结合也是一个值得研究的方向。

6.2 学习策略

损失函数：现有的损失函数可被视为在LR / HR / SR图像之间建立约束，并基于这些约束来指导优化过程。在实际应用中，通常是将多种损失函数加权结合，但是权重因子的取值依赖经验，因此，在SR领域提出更有效的损失函数是值得研究的方向。

标准化： BN层广泛应用于视觉任务，能够加快训练过程，提升网络性能，但在SR领域，应用BN层并非较优选择[31],[32],[147]，因此适用于SR的标准化方法有待研究。

6.3 评价指标

更精确的指标：传统的PSNR/SSIM图像质量评价方法并不能客观反应图像的主观效果，MOS方法需要大量的人力成本而且不能再现。因此，更加精确的图像质量评价方法亟待提出。 Blind IQA Methods：目前所提到的SR问题，都是基于LR-HR图像对做出的，但是，这类数据集是很难获得的，大部分都是通过人工手段获得的LR-HR图像对。这样，在评价这类问题时，就变成了反向预测退化问题的过程，因此，无依赖的图像质量评价指标是值得进一步研究的。

6.4 非监督超分辨率

目前大量SR方法都是使用双三次插值法获得LR图像的，用LR-HR图像对作为SR网络的训练数据，这样SR问题就会变成预定义退化过程的逆过程，在真实LR图像上应用这类SR模型效果不好。因此，基于非成对LR-HR图像的非监督超分辨率是值得期待的研究方向。

6.5 面向真实场景

真实场景中的SR，往往会受到“不明确的图像退化过程”、“缺少LR-HR图像对”等条件限制，使得现有的SR算法难以实际应用。

解决多种退化问题：真实的图像易遭受多种退化过程（模糊、加性噪声、压缩），在人工生成的LR-HR图像对上训练的SR模型在真实图像上的效果较差。目前已有一部分这方面的研究工作，但是存在一些固有缺点，如模型难以训练，假设条件过于理想等。 特定领域的应用：SR算法可协助处理其他视觉问题，如视频监控、人脸识别、目标跟踪、医学图像、场景渲染等。SR算法可用于这类视觉问题的预处理或后处理。 多尺度超分辨率：目前大部分SR网络是针对固定放大倍数训练的，实际应用中，有一定局限性。使用单一网络进行多尺度图像超分辨率，有一定的研究价值。

7 研究计划

特定领域超分辨率的应用都是将超分辨率与领域的先验知识相融合，根据数据集获取的难易程度及今后的研究方向，选定人脸超分辨率和视频超分辨率两个领域作为研究重点。

7.1 视频超分辨率

视频超分辨率按照帧率是否重建，分为普通视频超分辨率重建和空时视频超分辨率(STVSR)。普通视频超分辨率(VSR)旨在从LR图像(reference frame)及邻域多帧LR图像(supporting frames)中重建出一帧HR图像，而STVSR旨在从低帧率低分辨率的视频序列中自动生成高帧率高分辨率的视频序列。STVSR算法分为两阶段的和一阶段的，一阶段方法会融合时间插值和空间超分辨率，且推理速度快、模型效果好，因此研究重点放在VSR和一阶段的STVSR。

7.2 工作计划

一阶段（2020年6月-2020年7月）：调试复现超分辨率领域经典算法（23种经典算法，部分跑起来太过耗时的，调试学习其结构），简要记录网络结构、训练数据、单张图像推理时间、质量评估等，目的是为了进一步理解掌握超分辨率领域基本框架体系；
二阶段（2020年8月-2020年9月（大概时间））：学习复现视频超分辨率典型算法，总结每种算法的创新点，记录实验结果；
三阶段（2020年10月-2020年11月）：学习复现NTIRE和ECCV近5年视频超分辨率的论文，重点放在近两年；
四阶段（2020年12月-2021年3月）：报名NTIRE比赛，选定赛道方向，打比赛。

参考文献

[1] Eli Shechtman, Yaron Caspi, and Michal Irani. Increasing space-time resolution in video. In European Conference on Computer Vision, pages 753–768. Springer, 2002.

[2] Uma Mudenagudi, Subhashis Banerjee, and Prem Kumar Kalra. Space-time super-resolution using graph-cut optimization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(5):995–1008, 2010.

[3] Hiroyuki Takeda, Peter Van Beek, and Peyman Milanfar. Spatiotemporal video upscaling using motion-assisted steering kernel (mask) regression. In High-Quality Visual Experience, pages 245–274. Springer, 2010.

[4] Oded Shahar, Alon Faktor, and Michal Irani. Space-time super-resolution from a single video. IEEE, 2011.

[5] P. Rasti, T. Uiboupin, S. Escalera, and G. Anbarjafari, “Convolutional neural network super resolution for face recognition in surveillance monitoring,” in AMDO, 2016.

[6] D. Dai, Y. Wang, Y. Chen, and L. Van Gool, “Is image superresolution helpful for other vision tasks?” in WACV, 2016.

[7] M. Haris, G. Shakhnarovich, and N. Ukita, “Task-driven super resolution: Object detection in low-resolution images,” Arxiv:1803.11316, 2018.

[8] M. S. Sajjadi, B. Sch¨olkopf, and M. Hirsch, “Enhancenet: Single image super-resolution through automated texture synthesis,” in ICCV, 2017.

[9] Y. Zhang, Y. Bai, M. Ding, and B. Ghanem, “Sod-mtgan: Small object detection via multi-task generative adversarial network,” in ECCV, 2018.

[10] R. Keys, “Cubic convolution interpolation for digital image processing,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 29, 1981.

[11] C. E. Duchon, “Lanczos ﬁltering in one and two dimensions,” Journal of Applied Meteorology, vol. 18, 1979.

[12] M. Irani and S. Peleg, “Improving resolution by image registration,” CVGIP: Graphical Models and Image Processing, vol. 53, 1991.

[13] G. Freedman and R. Fattal, “Image and video upscaling from local self-examples,” TOG, vol. 30, 2011.

[14] J. Sun, Z. Xu, and H.-Y. Shum, “Image super-resolution using gradient proﬁle prior,” in CVPR, 2008.

[15] K. I. Kim and Y. Kwon, “Single-image super-resolution using sparse regression and natural image prior,” TPAMI, vol. 32, 2010.

[16] Z. Xiong, X. Sun, and F. Wu, “Robust web image/video superresolution,” IEEE Transactions on Image Processing, vol. 19, 2010.

[17] W. T. Freeman, T. R. Jones, and E. C. Pasztor, “Examplebasedsuper-resolution,”IEEEComputerGraphicsandApplications, vol. 22, 2002.

[18] H. Chang, D.-Y. Yeung, and Y. Xiong, “Super-resolution through neighbor embedding,” in CVPR, 2004. [19] D. Glasner, S. Bagon, and M. Irani, “Super-resolution from a single image,” in ICCV, 2009.

[20] Y. Jianchao, J. Wright, T. Huang, and Y. Ma, “Image superresolution as sparse representation of raw image patches,” in CVPR, 2008.

[21] J. Yang, J. Wright, T. S. Huang, and Y. Ma, “Image superresolution via sparse representation,” IEEE Transactions on Image Processing, vol. 19, 2010.

[22] C. Dong, C. C. Loy, K. He, and X. Tang, “Learning a deep convolutional network for image super-resolution,” in ECCV, 2014.

[23] ——, “Image super-resolution using deep convolutional networks,” TPAMI, vol. 38, 2016.

[24] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in NIPS, 2014.

[25] C. Ledig, L. Theis, F. Husz´ar, J. Caballero, A. Cunningham, A. Acosta, A. P. Aitken, A. Tejani, J. Totz, Z. Wang et al., “Photorealistic single image super-resolution using a generative adversarial network,” in CVPR, 2017.

[26] J. Kim, J. Kwon Lee, and K. Mu Lee, “Accurate image superresolution using very deep convolutional networks,” in CVPR, 2016.

[27] W.-S. Lai, J.-B. Huang, N. Ahuja, and M.-H. Yang, “Deep laplacian pyramid networks for fast and accurate superresolution,” in CVPR, 2017.

[28] N.Ahn,B.Kang,andK.-A.Sohn,“Fast,accurate,andlightweight super-resolution with cascading residual network,” in ECCV, 2018.

[29] J. Johnson, A. Alahi, and L. Fei-Fei, “Perceptual losses for realtime style transfer and super-resolution,” in ECCV, 2016.

[30] A. Bulat and G. Tzimiropoulos, “Super-fan: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with gans,” in CVPR, 2018.

[31] B. Lim, S. Son, H. Kim, S. Nah, and K. M. Lee, “Enhanced deep residualnetworksforsingleimagesuper-resolution,”inCVPRW, 2017.

[32] Y. Wang, F. Perazzi, B. McWilliams, A. Sorkine-Hornung, O. Sorkine-Hornung, and C. Schroers, “A fully progressive approach to single-image super-resolution,” in CVPRW, 2018.

[33] S. C. Park, M. K. Park, and M. G. Kang, “Super-resolution image reconstruction: A technical overview,” IEEE Signal Processing Magazine, vol. 20, 2003.

[34] K. Nasrollahi and T. B. Moeslund, “Super-resolution: A comprehensive survey,” Machine Vision and Applications, vol. 25, 2014.

[35] J. Tian and K.-K. Ma, “A survey on super-resolution imaging,” Signal, Image and Video Processing, vol. 5, 2011.

[36] J. Van Ouwerkerk, “Image super-resolution survey,” Image and Vision Computing, vol. 24, 2006.

[37] C.-Y. Yang, C. Ma, and M.-H. Yang, “Single-image superresolution: A benchmark,” in ECCV, 2014.

[38] D.Thapa,K.Raahemifar,W.R.Bobier,andV.Lakshminarayanan, “A performance comparison among different super-resolution techniques,” Computers & Electrical Engineering, vol. 54, 2016.

[39] K. Zhang, W. Zuo, and L. Zhang, “Learning a single convolutional super-resolution network for multiple degradations,” in CVPR, 2018.

[40] D. Martin, C. Fowlkes, D. Tal, and J. Malik, “A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics,” in ICCV, 2001.

[41] P. Arbelaez, M. Maire, C. Fowlkes, and J. Malik, “Contour detection and hierarchical image segmentation,” TPAMI, vol. 33, 2011.

[42] E. Agustsson and R. Timofte, “Ntire 2017 challenge on single image super-resolution: Dataset and study,” in CVPRW, 2017.

[43] C. Dong, C. C. Loy, and X. Tang, “Accelerating the superresolution convolutional neural network,” in ECCV, 2016.

[44] R. Timofte, R. Rothe, and L. Van Gool, “Seven ways to improve example-based single image super resolution,” in CVPR, 2016.

[45] A. Fujimoto, T. Ogawa, K. Yamamoto, Y. Matsui, T. Yamasaki, and K. Aizawa, “Manga109 dataset and creation of metadata,” in MANPU, 2016.

[46] X. Wang, K. Yu, C. Dong, and C. C. Loy, “Recovering realistic texture in image super-resolution by deep spatial feature transform,” 2018.

[47] Y.Blau,R.Mechrez,R.Timofte,T.Michaeli,andL.Zelnik-Manor, “2018 pirm challenge on perceptual image super-resolution,” in ECCV Workshop, 2018.

[48] M. Bevilacqua, A. Roumy, C. Guillemot, and M. L. Alberi-Morel, “Low-complexity single-image super-resolution based on nonnegative neighbor embedding,” in BMVC, 2012.

[49] R. Zeyde, M. Elad, and M. Protter, “On single image scaleup using sparse-representations,” in International Conference on Curves and Surfaces, 2010.

[50] J.-B. Huang, A. Singh, and N. Ahuja, “Single image superresolution from transformed self-exemplars,” in CVPR, 2015.

[51] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” in CVPR, 2009.

[52] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick, “Microsoft coco: Common objects in context,” in ECCV, 2014.

[53] M. Everingham, S. A. Eslami, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes challenge: A retrospective,” IJCV, vol. 111, 2015.

[54] Z. Liu, P. Luo, X. Wang, and X. Tang, “Deep learning face attributes in the wild,” in ICCV, 2015.

[55] Y. Tai, J. Yang, X. Liu, and C. Xu, “Memnet: A persistent memory network for image restoration,” in ICCV, 2017.

[56] Y. Tai, J. Yang, and X. Liu, “Image super-resolution via deep recursive residual network,” in CVPR, 2017.

[57] M.Haris,G.Shakhnarovich,andN.Ukita,“Deepbackp-rojection networks for super-resolution,” in CVPR, 2018.

[58] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: From error visibility to structural similarity,” IEEE Transactions on Image Processing, vol. 13, 2004.

[59] Z. Wang, A. C. Bovik, and L. Lu, “Why is image quality assessment so difﬁcult?” in ICASSP, 2002.

[60] H.R.Sheikh,M.F.Sabir,andA.C.Bovik,“Astatisticalevaluation of recent full reference image quality assessment algorithms,” IEEE Transactions on Image Processing, vol. 15, 2006.

[61] Z. Wang and A. C. Bovik, “Mean squared error: Love it or leave it? a new look at signal ﬁdelity measures,” IEEE Signal Processing Magazine, vol. 26, 2009.

[62] Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang, “Deep networks for image super-resolution with sparse prior,” in ICCV, 2015.

[63] X. Xu, D. Sun, J. Pan, Y. Zhang, H. Pﬁster, and M.-H. Yang, “Learning to super-resolve blurry face and text images,”inICCV, 2017.

[64] R. Dahl, M. Norouzi, and J. Shlens, “Pixel recursive super resolution,” in ICCV, 2017.

[65] W.-S. Lai, J.-B. Huang, N. Ahuja, and M.-H. Yang, “Fast and accurate image super-resolution with deep laplacian pyramid networks,” TPAMI, 2018.

[66] C. Ma, C.-Y. Yang, X. Yang, and M.-H. Yang, “Learning a noreference quality metric for single-image super-resolution,” Computer Vision and Image Understanding, 2017.

[67] H. Talebi and P. Milanfar, “Nima: Neural image assessment,” IEEE Transactions on Image Processing, vol. 27, 2018.

[68] J. Kim and S. Lee, “Deep learning of human visual sensitivity in image quality assessment framework,” in CVPR, 2017.

[69] R. Zhang, P. Isola, A. A. Efros, E. Shechtman, and O. Wang, “The unreasonable effectiveness of deep features as a perceptual metric,” in CVPR, 2018.

[70] Y. Zhang, K. Li, K. Li, L. Wang, B. Zhong, and Y. Fu, “Image super-resolution using very deep residual channel attention networks,” in ECCV, 2018.

[71] C. Fookes, F. Lin, V. Chandran, and S. Sridharan, “Evaluation of image resolution and super-resolutionon face recognition performance,” Journal of Visual Communication and Image Representation, vol. 23, 2012.

[72] K.Zhang,Z.ZHANG,C.-W.Cheng,W.Hsu,Y.Qiao,W.Liu,and T. Zhang, “Super-identity convolutional neural network for face hallucination,” in ECCV, 2018.

[73] Y. Chen, Y. Tai, X. Liu, C. Shen, and J. Yang, “Fsrnet: End-to-end learning face super-resolution with facial priors,” in CVPR, 2018.

[74] Z. Wang, E. Simoncelli, A. Bovik et al., “Multi-scale structural similarity for image quality assessment,” in Asilomar Conference on Signals, Systems, and Computers, 2003.

[75] L. Zhang, L. Zhang, X. Mou, D. Zhang et al., “Fsim: a feature similarity index for image quality assessment,” IEEE transactions on Image Processing, vol. 20, 2011.

[76] A. Mittal, R. Soundararajan, and A. C. Bovik, “Making a completely blind image quality analyzer,” IEEE Signal Processing Letters, 2013.

[77] Y. Blau and T. Michaeli, “The perception-distortion tradeoff,” in CVPR, 2018.

[78] X. Mao, C. Shen, and Y.-B. Yang, “Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections,” in NIPS, 2016.

[79] T. Tong, G. Li, X. Liu, and Q. Gao, “Image super-resolution using dense skip connections,” in ICCV, 2017.

[80] R. Timofte, E. Agustsson, L. Van Gool, M.-H. Yang, L. Zhang, B. Lim, S. Son, H. Kim, S. Nah, K. M. Lee et al., “Ntire 2017 challenge on single image super-resolution: Methods and results,” in CVPRW, 2017.

[81] A. Ignatov, R. Timofte, T. Van Vu, T. Minh Luu, T. X Pham, C. Van Nguyen, Y. Kim, J.-S. Choi, M. Kim, J. Huang et al., “Pirm challenge on perceptual image enhancement on smartphones: report,” in ECCV Workshop, 2018.

[82] J. Kim, J. Kwon Lee, and K. Mu Lee, “Deeply-recursive convolutional network for image super-resolution,” in CVPR, 2016.

[83] A. Shocher, N. Cohen, and M. Irani, “zero-shot super-resolution using deep internal learning,” in CVPR, 2018.

[84] W. Shi, J. Caballero, F. Husz´ar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, and Z. Wang, “Real-time single image and video super-resolutionusinganefﬁcientsub-pixelconvolutionalneural network,” in CVPR, 2016.

[85] W. Han, S. Chang, D. Liu, M. Yu, M. Witbrock, and T. S. Huang, “Image super-resolution via dual-state recurrent networks,” in CVPR, 2018.

[86] Z. Li, J. Yang, Z. Liu, X. Yang, G. Jeon, and W. Wu, “Feedback network for image super-resolution,” in CVPR, 2019.

[87] M. Haris, G. Shakhnarovich, and N. Ukita, “Recurrent backprojection network for video super-resolution,” in CVPR, 2019

[88] R.Timofte,V.DeSmet,andL.VanGool,“A+:Adjustedanchored neighborhood regression for fast super-resolution,” in ACCV, 2014.

[89] S. Schulter, C. Leistner, and H. Bischof, “Fast and accurate image upscaling with super-resolution forests,” in CVPR, 2015.

[90] M. D. Zeiler, D. Krishnan, G. W. Taylor, and R. Fergus, “Deconvolutional networks,” in CVPRW, 2010.

[91] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional networks,” in ECCV, 2014.

[92] A. Odena, V. Dumoulin, and C. Olah, “Deconvolution and checkerboard artifacts,” Distill, 2016.

[93] Y. Zhang, Y. Tian, Y. Kong, B. Zhong, and Y. Fu, “Residual dense network for image super-resolution,” in CVPR, 2018.

[94] H. Gao, H. Yuan, Z. Wang, and S. Ji, “Pixel transposed convolutional networks,” TPAMI, 2019.

[95] X. Hu, H. Mu, X. Zhang, Z. Wang, T. Tan, and J. Sun, “Meta-sr: A magniﬁcation-arbitrary network for super-resolution,” in CVPR, 2019.

[96] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, 2016.

[97] R. Timofte, V. De Smet, and L. Van Gool, “Anchored neighborhood regression for fast example-based super-resolution,” in ICCV, 2013.

[98] Z. Hui, X. Wang, and X. Gao, “Fast and accurate single image super-resolution via information distillation network,” in CVPR, 2018.

[99] J.Li,F.Fang,K.Mei,andG.Zhang,“Multi-scaleresidualnetwork for image super-resolution,” in ECCV, 2018.

[100] H. Ren, M. El-Khamy, and J. Lee, “Image super resolution based on fusing multiple convolution neural networks,” in CVPRW, 2017.

[101] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in CVPR, 2015.

[102] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in CVPR, 2017.

[103] X. Wang, K. Yu, S. Wu, J. Gu, Y. Liu, C. Dong, C. C. Loy, Y. Qiao, and X. Tang, “Esrgan: Enhanced super-resolution generative adversarial networks,” in ECCV Workshop, 2018.

[104] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in CVPR, 2018.

[105] T. Dai, J. Cai, Y. Zhang, S.-T. Xia, and L. Zhang, “Second-order attention network for single image super-resolution,” in CVPR, 2019.

[106] Y. Zhang, K. Li, K. Li, B. Zhong, and Y. Fu, “Residual non-local attention networks for image restoration,” ICLR, 2019.

[107] K. Zhang, W. Zuo, S. Gu, and L. Zhang, “Learning deep cnn denoiser prior for image restoration,” in CVPR, 2017.

[108] S. Xie, R. Girshick, P. Doll´ar, Z. Tu, and K. He, “Aggregated residual transformations for deep neural networks,” in CVPR, 2017.

[109] F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” in CVPR, 2017.

[110] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “Mobilenets: Efﬁcient convolutional neural networks for mobile vision applications,” Arxiv:1704.04861, 2017.

[111] A. van den Oord, N. Kalchbrenner, L. Espeholt, O. Vinyals, A. Graves et al., “Conditional image generation with pixelcnn decoders,” in NIPS, 2016.

[112] J. Najemnik and W. S. Geisler, “Optimal eye movement strategies in visual search,” Nature, vol. 434, 2005.

[113] Q. Cao, L. Lin, Y. Shi, X. Liang, and G. Li, “Attention-aware face hallucination via deep reinforcement learning,” in CVPR, 2017.

[114] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” in ECCV, 2014.

[115] H.Zhao,J.Shi,X.Qi,X.Wang,andJ.Jia,“Pyramidsceneparsing network,” in CVPR, 2017.

[116] D. Park, K. Kim, and S. Y. Chun, “Efﬁcient module based single image super resolution for multiple problems,” in CVPRW, 2018.

[117] I. Daubechies, Ten lectures on wavelets. SIAM, 1992.

[118] S. Mallat, A wavelet tour of signal processing. Elsevier, 1999.

[119] W. Bae, J. J. Yoo, and J. C. Ye, “Beyond deep residual learning for image restoration: Persistent homology-guided manifold simpliﬁcation,” in CVPRW, 2017.

[120] T. Guo, H. S. Mousavi, T. H. Vu, and V. Monga, “Deep wavelet prediction for image super-resolution,” in CVPRW, 2017.

[121] H. Huang, R. He, Z. Sun, T. Tan et al., “Wavelet-srnet: A waveletbased cnn for multi-scale face super resolution,” in ICCV, 2017.

[122] P. Liu, H. Zhang, K. Zhang, L. Lin, and W. Zuo, “Multi-level wavelet-cnn for image restoration,” in CVPRW, 2018.

[123] T. Vu, C. Van Nguyen, T. X. Pham, T. M. Luu, and C. D. Yoo, “Fast and efﬁcient image quality enhancement via desubpixel convolutional neural networks,” in ECCV Workshop, 2018.

[124] I. Kligvasser, T. Rott Shaham, and T. Michaeli, “xunit: Learning a spatial activation function for efﬁcient image restoration,” in CVPR, 2018.

[125] A. Bruhn, J. Weickert, and C. Schn¨orr, “Lucas/kanade meets horn/schunck: Combining local and global optic ﬂow methods,” IJCV, vol. 61, 2005.

[126] H. Zhao, O. Gallo, I. Frosio, and J. Kautz, “Loss functions for image restoration with neural networks,” IEEE Transactions on Computational Imaging, vol. 3, 2017.

[127] A. Dosovitskiy and T. Brox, “Generating images with perceptual similarity metrics based on deep networks,” in NIPS, 2016.

[128] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in ICLR, 2015.

[129] L. Gatys, A. S. Ecker, and M. Bethge, “Texture synthesis using convolutional neural networks,” in NIPS, 2015.

[130] L. A. Gatys, A. S. Ecker, and M. Bethge, “Image style transfer using convolutional neural networks,” in CVPR, 2016.

[131] Y. Yuan, S. Liu, J. Zhang, Y. Zhang, C. Dong, and L. Lin, “Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks,” in CVPRW, 2018.

[132] X.Mao,Q.Li,H.Xie,R.Y.Lau,Z.Wang,andS.P.Smolley,“Least squares generative adversarial networks,” in ICCV, 2017.

[133] S.-J. Park, H. Son, S. Cho, K.-S. Hong, and S. Lee, “Srfeat: Single image super resolution with feature discrimination,” in ECCV, 2018.

[134] A. Jolicoeur-Martineau, “The relativistic discriminator: a key element missing from standard gan,” Arxiv:1807.00734, 2018.

[135] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein generative adversarial networks,” in ICML, 2017.

[136] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville, “Improved training of wasserstein gans,” in NIPS, 2017.

[137] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida, “Spectral normalization for generative adversarial networks,” in ICLR, 2018.

[138] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired image-toimage translation using cycle-consistent adversarial networks,” in ICCV, 2017.

[139] L. I. Rudin, S. Osher, and E. Fatemi, “Nonlinear total variation based noise removal algorithms,” Physica D: Nonlinear Phenomena, vol. 60, 1992.

[140] H. A. Aly and E. Dubois, “Image up-sampling using totalvariation regularization with a new observation model,” IEEE Transactions on Image Processing, vol. 14, 2005.

[141] Y. Guo, Q. Chen, J. Chen, J. Huang, Y. Xu, J. Cao, P. Zhao, and M. Tan, “Dual reconstruction nets for image super-resolution with gradient sensitive loss,” arXiv:1809.07099, 2018.

[142] S. Vasu, N. T. Madam et al., “Analyzing perception-distortion tradeoff using enhanced perceptual super-resolution network,” in ECCV Workshop, 2018.

[143] M. Cheon, J.-H. Kim, J.-H. Choi, and J.-S. Lee, “Generative adversarialnetwork-basedimagesuper-resolutionusingperceptual content losses,” in ECCV Workshop, 2018.

[144] J.-H. Choi, J.-H. Kim, M. Cheon, and J.-S. Lee, “Deep learningbased image super-resolution considering quantitative and perceptual quality,” in ECCV Workshop, 2018.

[145] I. Sergey and S. Christian, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in ICML, 2015.

[146] C. K. Sønderby, J. Caballero, L. Theis, W. Shi, and F. Husz´ar, “Amortised map inference for image super-resolution,” in ICLR, 2017.

[147] R. Chen, Y. Qu, K. Zeng, J. Guo, C. Li, and Y. Xie, “Persistent memory residual network for single image super resolution,” in CVPRW, 2018.

[148] Y. Bengio, J. Louradour, R. Collobert, and J. Weston, “Curriculum learning,” in ICML, 2009.

[149] Y. Bei, A. Damian, S. Hu, S. Menon, N. Ravi, and C. Rudin, “New techniques for preserving global structure and denoising with low information loss in single-image super-resolution,” in CVPRW, 2018.

[150] N. Ahn, B. Kang, and K.-A. Sohn, “Image super-resolution via progressive cascading residual network,” in CVPRW, 2018.

[151] T. Karras, T. Aila, S. Laine, and J. Lehtinen, “Progressive growing of gans for improved quality, stability, and variation,” in ICLR, 2018.

[152] R. Caruana, “Multitask learning,” Machine Learning, vol. 28, 1997.

[153] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick, “Mask r-cnn,” in ICCV, 2017.

[154] Z. Zhang, P. Luo, C. C. Loy, and X. Tang, “Facial landmark detection by deep multi-task learning,” in ECCV, 2014.

[155] X. Wang, K. Yu, C. Dong, X. Tang, and C. C. Loy, “Deep network interpolation for continuous imagery effect transition,” in CVPR, 2019.

[156] J. Caballero, C. Ledig, A. P. Aitken, A. Acosta, J. Totz, Z. Wang, and W. Shi, “Real-time video super-resolution with spatiotemporal networks and motion compensation,” in CVPR, 2017.

[157] L. Zhu, “pytorch-opcounter,” https://github.com/Lyken17/ pytorch-OpCounter, 2019.

[158] T. Michaeli and M. Irani, “Nonparametric blind superresolution,” in ICCV, 2013.

[159] A. Bulat, J. Yang, and G. Tzimiropoulos, “To learn image superresolution, use a gan to learn how to do image degradation ﬁrst,” in ECCV, 2018.

[160] D. Ulyanov, A. Vedaldi, and V. Lempitsky, “Deep image prior,” in CVPR, 2018.

[161] J. Shotton, A. Fitzgibbon, M. Cook, T. Sharp, M. Finocchio, R. Moore, A. Kipman, and A. Blake, “Real-time human pose recognition in parts from single depth images,” in CVPR, 2011.

[162] G. Moon, J. Yong Chang, and K. Mu Lee, “V2v-posenet: Voxel-tovoxel prediction network for accurate 3d hand and human pose estimation from a single depth map,” in CVPR, 2018.

[163] S. Gupta, R. Girshick, P. Arbel´aez, and J. Malik, “Learning rich features from rgb-d images for object detection and segmentation,” in ECCV, 2014.

[164] W. Wang and U. Neumann, “Depth-aware cnn for rgb-d segmentation,” in ECCV, 2018.

[165] X. Song, Y. Dai, and X. Qin, “Deep depth super-resolution: Learning depth super-resolution using deep convolutional neural network,” in ACCV, 2016.

[166] T.-W. Hui, C. C. Loy, and X. Tang, “Depth map super-resolution by deep multi-scale guidance,” in ECCV, 2016.

[167] B. Haefner, Y. Qu´eau, T. M¨ollenhoff, and D. Cremers, “Fight ill-posedness with ill-posedness: Single-shot variational depth super-resolution from shading,” in CVPR, 2018.

[168] G. Riegler, M. R¨uther, and H. Bischof, “Atgv-net: Accurate depth super-resolution,” in ECCV, 2016.

[169] J.-S. Park and S.-W. Lee, “An example-based face hallucination method for single-frame, low-resolution facial images,” IEEE Transactions on Image Processing, vol. 17, 2008.

[170] S.Zhu,S.Liu,C.C.Loy,andX.Tang,“Deep cascaded bi-network for face hallucination,” in ECCV, 2016.

[171] X. Yu, B. Fernando, B. Ghanem, F. Porikli, and R. Hartley, “Face super-resolution guided by facial component heatmaps,” in ECCV, 2018.

[172] X. Yu and F. Porikli, “Face hallucination with tiny unaligned images by transformative discriminative neural networks,” in AAAI, 2017.

[173] M. Jaderberg, K. Simonyan, A. Zisserman et al., “Spatial transformer networks,” in NIPS, 2015.

[174] X. Yu and F. Porikli, “Hallucinating very low-resolution unaligned and noisy face images by transformative discriminative autoencoders,” in CVPR, 2017.

[175] Y. Song, J. Zhang, S. He, L. Bao, and Q. Yang, “Learning to hallucinate face images via component generation and enhancement,” in IJCAI, 2017.

[176] C.-Y. Yang, S. Liu, and M.-H. Yang, “Hallucinating compressed face images,” IJCV, vol. 126, 2018.

[177] X. Yu and F. Porikli, “Ultra-resolving face images by discriminative generative networks,” in ECCV, 2016.

[178] C.-H. Lee, K. Zhang, H.-C. Lee, C.-W. Cheng, and W. Hsu, “Attribute augmented convolutional neural network for face hallucination,” in CVPRW, 2018.

[179] X. Yu, B. Fernando, R. Hartley, and F. Porikli, “Super-resolving very low-resolution face images with supplementary attributes,” in CVPR, 2018.

[180] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” Arxiv:1411.1784, 2014.

[181] M. Fauvel, Y. Tarabalka, J. A. Benediktsson, J. Chanussot, and J. C. Tilton, “Advances in spectral-spatial classiﬁcation of hyperspectral images,” Proceedings of the IEEE, vol. 101, 2013.

[182] Y. Fu, Y. Zheng, I. Sato, and Y. Sato, “Exploiting spectral-spatial correlation for coded hyperspectral image restoration,” in CVPR, 2016.

[183] B. Uzkent, A. Rangnekar, and M. J. Hoffman, “Aerial vehicle tracking by adaptive fusion of hyperspectral likelihood maps,” in CVPRW, 2017.

[184] G. Masi, D. Cozzolino, L. Verdoliva, and G. Scarpa, “Pansharpening by convolutional neural networks,” Remote Sensing, vol. 8, 2016.

[185] Y. Qu, H. Qi, and C. Kwan, “Unsupervised sparse dirichlet-net for hyperspectral image super-resolution,” in CVPR, 2018.

[186] Y. Fu, T. Zhang, Y. Zheng, D. Zhang, and H. Huang, “Hyperspectral image super-resolution with optimized rgb guidance,” in CVPR, 2019.

[187] C. Chen, Z. Xiong, X. Tian, Z.-J. Zha, and F. Wu, “Camera lens super-resolution,” in CVPR, 2019.

[188] X. Zhang, Q. Chen, R. Ng, and V. Koltun, “Zoom to learn, learn to zoom,” in CVPR, 2019.

[189] X. Xu, Y. Ma, and W. Sun, “Towards real scene super-resolution with raw images,” in CVPR, 2019.

[190] R. Liao, X. Tao, R. Li, Z. Ma, and J. Jia, “Video super-resolution via deep draft-ensemble learning,” in ICCV, 2015.

[191] A. Kappeler, S. Yoo, Q. Dai, and A. K. Katsaggelos, “Video superresolution with convolutional neural networks,” IEEE Transactions on Computational Imaging, vol. 2, 2016.

[192] ——, “Super-resolution of compressed videos using convolutional neural networks,” in ICIP, 2016.

[193] M. Drulea and S. Nedevschi, “Total variation regularization of local-global optical ﬂow,” in ITSC, 2011.

[194] D.Liu,Z.Wang,Y.Fan,X.Liu,Z.Wang,S.Chang,andT.Huang, “Robust video super-resolution with learned temporal dynamics,” in ICCV, 2017.

[195] D. Liu, Z. Wang, Y. Fan, X. Liu, Z. Wang, S. Chang, X. Wang, and T. S. Huang, “Learning temporal dynamics for video superresolution:Adeeplearningapproach,”IEEETransactionsonImage Processing, vol. 27, 2018.

[196] X.Tao,H.Gao,R.Liao,J.Wang,andJ.Jia,“Detail-revealingdeep video super-resolution,” in ICCV, 2017.

[197] Y. Huang, W. Wang, and L. Wang, “Bidirectional recurrent convolutional networks for multi-frame super-resolution,” in NIPS, 2015.

[198] ——, “Video super-resolution via bidirectional recurrent convolutional networks,” TPAMI, vol. 40, 2018.

[199] J. Guo and H. Chao, “Building an end-to-end spatial-temporal convolutional network for video super-resolution,” in AAAI, 2017.

[200] A. Graves, S. Fern´andez, and J. Schmidhuber, “Bidirectional lstm networks for improved phoneme classiﬁcation and recognition,” in ICANN, 2005.

[201] M. S. Sajjadi, R. Vemulapalli, and M. Brown, “Frame-recurrent video super-resolution,” in CVPR, 2018.

[202] S. Li, F. He, B. Du, L. Zhang, Y. Xu, and D. Tao, “Fast spatiotemporal residual network for video super-resolution,” in CVPR, 2019.

[203] Z. Zhang and V. Sze, “Fast: A framework to accelerate superresolution processing on compressed videos,” in CVPRW, 2017.

[204] Y. Jo, S. W. Oh, J. Kang, and S. J. Kim, “Deep video superresolution network using dynamic upsampling ﬁlters without explicit motion compensation,” in CVPR, 2018.

[205] J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan, “Perceptual generative adversarial networks for small object detection,” in CVPR, 2017.

[206] W. Tan, B. Yan, and B. Bare, “Feature super-resolution: Make machine see more clearly,” in CVPR, 2018.

[207] D. S. Jeon, S.-H. Baek, I. Choi, and M. H. Kim, “Enhancing the spatial resolution of stereo images using a parallax prior,” in CVPR, 2018.

[208] L. Wang, Y. Wang, Z. Liang, Z. Lin, J. Yang, W. An, and Y. Guo, “Learning parallax attention for stereo image super-resolution,” in CVPR, 2019.

[209] Y. Li, V. Tsiminaki, R. Timofte, M. Pollefeys, and L. V. Gool, “3d appearance super-resolution with deeplearning,” inCVPR,2019.

[210] S. Zhang, Y. Lin, and H. Sheng, “Residual networks for light ﬁeld image super-resolution,” in CVPR, 2019.

[211] C. Ancuti, C. O. Ancuti, R. Timofte, L. Van Gool, L. Zhang, M.H. Yang, V. M. Patel, H. Zhang, V. A. Sindagi, R. Zhao et al., “Ntire 2018 challenge on image dehazing: Methods and results,” in CVPRW, 2018.

[212] H. Pham, M. Y. Guan, B. Zoph, Q. V. Le, and J. Dean, “Efﬁcient neural architecture search via parameter sharing,” in ICML, 2018.

[213] H. Liu, K. Simonyan, and Y. Yang, “Darts: Differentiable architecture search,” ICLR, 2019.

[214] Y.Guo,Y.Zheng,M.Tan,Q.Chen,J.Chen,P.Zhao,andJ.Huang, “Nat: Neural architecture transformer for accurate and compact architectures,” in NIPS, 2019, pp. 735–747.