Small ting Dot ObjectDect thinking - yubo105139/paper GitHub Wiki
[[TOC]]
-
如何定义小目标?
- 目标所占的像素大小
- 目标与全图总面积的比值
-
视频、图像中的小目标的产生原因
- Pixel Per Meter,粗略的理解为当一个CMOS传感器的成像尺寸和成像面积固定时,离成像对象较远,其图像的PPM会不断减小,对应的是图像或视频中每个像素代表的距离不断增大
- 对卫星图像,每个像素代表的距离可以达到5米;
在不对原始图像和视频进行超分处理时,难以从图像和视频的small,tiny甚至是点目标上获得足够信息。
相对于图像,视频中多出了时间上下文信息(相邻帧冗余)。充分的利用时间上下文信息(冗余),可以有如下两个方面的应用:
-
去除冗余:由于相邻帧存在大量冗余信息,所以可以用其来加速视频目标检测,和进行视频压缩;
-
利用冗余:从相邻帧中获得同一个目标像素集的多帧信息,从而实现对该目标的增强;
时间上下文信息可被用于视频超分的物理基础和假设条件:
在帧间的间隔时间足够短的情况下,帧与帧的图像可以满足如下假设,且帧间间隔越短下述假设越接近真实情况:
-
时间持续性(微小移动):图像上相机的移动随时间变化缓慢;
-
空间一致性:场景中相同表面的相邻点具有相似的运动,并且其投影到图像平面上的距离也比较近。
需要注意的是,上述假设是LK光流法提出的基础
Fig1 Components in existing VSR methods[^1]
非对齐相对于对齐会有1dB左右的指标下降,且相对图像对齐,特征对齐可以有显著的提升。
无论是图像对齐还是特征对齐,主要方法是可变形对齐与光流对齐。
在大规模网络上难以训练容易失效,使网络最终退化为单帧超分。
- 光流假设了亮度恒定不变,这是光流基本公式成立的基础,那么就有可能出现“在物体表面均一的情况下,光源不动,而物体产生了自传运动,却并没有产生光流。或物体并没有运动,但是光源与物体发生相对运动,却有光流产生”。
- 孔径问题
可变形对齐与光流对齐的关系和改进[^2]
-
获得更多的视频帧
- 进一步缩小帧间时间间隔;
- 增加冗余,以获得更多的亚像素信息;
-
对原帧进行超分,从而降低在固定PPM上的小目标数量;
- 采用使用对齐的方式的现有模型,BasicVSR?[^1];
- 可参考RAFT和参考2调整对齐方式[^2][^3][^4];
- 将视频小目标检测最终转换成图像目标检测;
## 参考
[^1]:[BasicVSR- The Search for Essential Components in Video Super-Resolution and Beyond](./Small-ting-Dot-ObjectDect-thinking.paper/BasicVSR- The Search for Essential Components in Video Super-Resolution and Beyond.pdf) [^2]:[Understanding Deformable Alignment in Video Super-Resolution](./Small-ting-Dot-ObjectDect-thinking.paper/Understanding Deformable Alignment in Video Super-Resolution.pdf) [^3]:RAFT paper [^4]:RAFT code