Small ting Dot ObjectDect thinking - yubo105139/paper GitHub Wiki

[[TOC]]

视频,图像小目标检测的疑惑

  • 如何定义小目标?

    • 目标所占的像素大小
    • 目标与全图总面积的比值
  • 视频、图像中的小目标的产生原因

    • Pixel Per Meter,粗略的理解为当一个CMOS传感器的成像尺寸和成像面积固定时,离成像对象较远,其图像的PPM会不断减小,对应的是图像或视频中每个像素代表的距离不断增大
    • 对卫星图像,每个像素代表的距离可以达到5米;

在不对原始图像和视频进行超分处理时,难以从图像和视频的small,tiny甚至是点目标上获得足够信息。

利用时间上下文(Temporal Context)进行图像超分

时间上下文:

相对于图像,视频中多出了时间上下文信息(相邻帧冗余)。充分的利用时间上下文信息(冗余),可以有如下两个方面的应用:

  1. 去除冗余:由于相邻帧存在大量冗余信息,所以可以用其来加速视频目标检测,和进行视频压缩;

  2. 利用冗余:从相邻帧中获得同一个目标像素集的多帧信息,从而实现对该目标的增强;

时间上下文信息可被用于视频超分的物理基础和假设条件:

在帧间的间隔时间足够短的情况下,帧与帧的图像可以满足如下假设,且帧间间隔越短下述假设越接近真实情况:

  • 时间持续性(微小移动):图像上相机的移动随时间变化缓慢;

  • 空间一致性:场景中相同表面的相邻点具有相似的运动,并且其投影到图像平面上的距离也比较近。

    需要注意的是,上述假设是LK光流法提出的基础

对齐(align)在超分中的作用:

Fig1 Components in existing VSR methods[^1]

非对齐相对于对齐会有1dB左右的指标下降,且相对图像对齐,特征对齐可以有显著的提升。

对齐的方法

无论是图像对齐还是特征对齐,主要方法是可变形对齐与光流对齐。

可变形对齐的问题:

在大规模网络上难以训练容易失效,使网络最终退化为单帧超分

光流对齐的问题:

  1. 光流假设了亮度恒定不变,这是光流基本公式成立的基础,那么就有可能出现“在物体表面均一的情况下,光源不动,而物体产生了自传运动,却并没有产生光流。或物体并没有运动,但是光源与物体发生相对运动,却有光流产生”。
  2. 孔径问题

可变形对齐与光流对齐的关系和改进[^2]

思路

  1. 获得更多的视频帧

    • 进一步缩小帧间时间间隔;
    • 增加冗余,以获得更多的亚像素信息;
  2. 对原帧进行超分,从而降低在固定PPM上的小目标数量;

  • 采用使用对齐的方式的现有模型,BasicVSR?[^1];
  • 可参考RAFT和参考2调整对齐方式[^2][^3][^4];
  1. 将视频小目标检测最终转换成图像目标检测;

## 参考

[^1]:[BasicVSR- The Search for Essential Components in Video Super-Resolution and Beyond](./Small-ting-Dot-ObjectDect-thinking.paper/BasicVSR- The Search for Essential Components in Video Super-Resolution and Beyond.pdf) [^2]:[Understanding Deformable Alignment in Video Super-Resolution](./Small-ting-Dot-ObjectDect-thinking.paper/Understanding Deformable Alignment in Video Super-Resolution.pdf) [^3]:RAFT paper [^4]:RAFT code

⚠️ **GitHub.com Fallback** ⚠️