档案局超分辨率系列实验总结 - yubo105139/paper GitHub Wiki

基于浙江档案的前期系列实验分析

###########实验该有目的、步骤、结果、结论、优缺点#############

预训练模型测试结论

​ 涵盖超分、上色和修复三个模块

​ 根据档案局的18张测试图片得出的结论如下:

​ 1、原图直接超分时,风光人像上BSRGAN的视觉效果优于realsr

​ 2、原图上色再超分时,风光人像上BSRGAN的视觉效果依旧优于realsr

​ 3、修复:当图像上有划痕时,修复后再超分的视觉结果优于直接超分;缺陷:若旧图像上存在人脸且未检测到时,修复后视觉效果极差;

​ 4、综合整理整体是BSRGAN模型生成的图比较细腻,视觉效果好,噪点比较少,realsr在尽可能的还原原图。

变更训练数据集的相关实验

实验二和实验三:

目的:

​ 验证能否直接使用DIV2K数据作为档案馆超分的训练集

方案以及结果:

​ 提取浙江档案的kennal和noise应用在常规彩图(eg:DIV2K数据集)制作训练数据集;

结论:

​ 不能提取浙江档案的kennal和noise应用在常规彩图上;

​ 使用与档案馆相近数据集进行训练时,在测试结果上表现较好;

​ 其中比较注意的是,DIV2K的训练loss没有明显的下降趋势(数据较多,且尺寸大)

实验四:

目的:

​ 降采样两倍和原图对超分结果是否有影响

方案:

​ 利用原始档案数据提取kernel和噪声核;进行两组实验:1.hr图像为原始图像bicubic降采样两倍;2.hr图像为原始清晰的高分图像;

结论:

​ 下采样两倍获得清晰图的超分模型从视觉效果上看明显优于原图,但基于原图的超分模型在细节处理上有增强的效果。

实验五:

目的:

​ 验证去噪对超分结果中的龟裂是否有缓解

方案:

​ 直接基于opencv中的中值、高斯、均值、双边滤波方式对降两倍的数据集进行去噪处理(核大小分别为3和5,未对数据进行筛选),进行训练,其他参数不变。

结论:

​ 做去噪之后对龟裂情况是有缓解的,可以尝试构建提取噪声、去除噪声的模型。

实验六:

目的:

​ 测试bsrgan训练效果

结论:

​ BSRGAN在测试集的13张上直观视觉效果还可以,部分细节还比较欠缺[eg:树木、嘴鼻耳朵],噪点低又保留了部分细节;字体效果差不多。

实验七:

目的:

​ 修改realsr算法的LR数据生成方式测试realsr的去噪效果

方案:

​ 生成LR图像的降质核和实验HR数据与issue #143 保持一致;添加噪声方案更改为两种分别进行实验:1.添加提取的噪声核后,随机添加振铃模拟;2.随机添加噪声核和其他模拟噪声后,随机添加振铃;

结论:

  1. 总体是两者的视觉效果都有点差;
  2. 方案一的部分细节感觉有加强,噪声结果也是同RealSR原效果差不多,龟裂部分位置有所缓解。
  3. 方案二的不是大块纯色的地方效果很差,似乎往不可控的方向靠近。纯色位置的龟裂情况有所缓解。

实验八:

目的:

​ 基于百度图片的超分去躁效果

方案:

​ 通过从浙江档案上随机选择308张图片中获取核和噪声;HR图采用是从百度图片上获取的高清旧图:旧插画28张,黑白照片75张,旧照片105张,鲜艳人脸51张,像旧照片的照片24张。

结论:

​ 1.整体来看,视觉效果较差,且锐化较为严重,部分地方出现无中生有的部分,eg:船仓部分。

实验九

目的:

​ DNN提取噪声的有效性验证

方案:

​ 第一次使用传统方案BM3D查看去噪效果,感觉去噪效果效果较差,比较适合灰度图去噪;

​ 第二次使用DRUNet的方式进行去噪,使用DRUNet模型进行去噪。

​ 使用公式 噪声=噪声图-清晰图 得到噪声,最后加到realsr中去。

结论:

​ 1.BM3D不适用,需要找到模糊参数,预估效果也不明显

​ 2.只训练了基于DRUNet的,发现视觉效果很差;但细节明显加强;

​ 3.证明基于DRUNet提取的噪声不能作为噪声添加在realsr超分训练记得的LR图上;

反思:

​ 训练集中的HR图为原图bicubic降两倍得到,可能图上依旧有斑点以及小噪声点,并非完全清晰图;

实验十、十一、十二:

目的

​ 混合realSR和BSRGAN训练集验证有效性,因为realsr能够尽可能的还原图像原有细节,增强图像原有的特征信息;bsrgan视觉效果较好。

方案:

​ 分别采用小数据1:1的和大数据1:1 、1:2的三个实验。

结论:

​ 综合结论:

​ 1、值得肯定的是混合数据是对结果有改进的,包括视觉效果和细节;

​ 2、训练数据的数据量对超分模型有改进;

​ 2、混合数据量的比例为1:2(realsr:bsrgan)时,总的感触是优于1:1的结果的

展望

1、数据数据量

1.1 BSRGAN作者使用了四个数据集,包括DIV2K、Flickr2K、WED以及源自FFHQ的2000人脸图像;

1.2 从训练过程中计算的PSNR可以看出数据比较杂,psnr结果不是缓慢升或降;增加batchsize或许会有新变化

2、patch

2.1 BSRGAN采用的LR图像块尺寸为72×72。现在实验中采用的是32*32

2.2 swinIR作者认为patch对训练结果没什么影响,设置在合适参数就行,可未指明具体数值是多少

2.3、patch 相关 现有数据尺寸较小,现有数据不满足使用realsr降两倍方式再做四倍下采样;

3、使用real-ESRGAN的方式制作数据进行训练[加了振铃和过冲,可能对字体超分有提升]混合等

4、bsrgan、realsr、real-ESRGAN 中判别器有区别

​ Unet偏重于像素点

⚠️ **GitHub.com Fallback** ⚠️