SwinTransformer - yubo105139/paper GitHub Wiki

Swin Transformer

目的

Transformer用于在CV领域。之前的若干尝试，例如iGPT，ViT都是将Transformer用在了图像分类领域，目前这些方法都有两个非常严峻的问题。

Scale问题：NLP的scale是标准固定的，而CV的scale变化范围非常大。
计算量问题：CV比起NLP需要更大的分辨率，而且CV中使用Transformer的计算复杂度是图像尺度的平方，这会导致计算量过于庞大。

方法

引入locality思想

之前的ViT中，由于self-attention是全局计算的，所以在图像分辨率较大时不太经济。由于locality一直是视觉建模里非常有效的一种inductive bias，所以将图片切分为无重合的window，然后在local window内部进行self-attention计算。为了让window之间有信息交换，在相邻两层使用不同的window划分（shifted window）。
引入层次结构

图片中的物体大小不一，而ViT中使用固定的scale进行建模或许对下游任务例如目标检测而言不是最优的。在这里follow传统CNN构建了一个层次化的transformer模型，从4x逐渐降分辨率到32x，这样也可以在任意框架中无缝替代之前的CNN模型。

相比于ViT，Swin Transfomer计算复杂度大幅度降低，具有输入图像大小线性计算复杂度。Swin Transformer随着深度加深，逐渐合并图像块来构建层次化Transformer，可以作为通用的视觉骨干网络，应用于图像分类、目标检测和语义分割等任务。

整个Swin Transformer架构，和CNN架构非常相似，构建了4个stage，每个stage中都是类似的重复单元。和ViT类似，通过patch partition将输入图片HxWx3划分为不重合的patch集合，其中每个patch尺寸为4x4，那么每个patch的特征维度为4x4x3=48，patch块的数量为H/4 x W/4；stage1部分，先通过一个linear embedding将输划分后的patch特征维度变成C，然后送入Swin Transformer Block；stage2-stage4操作相同，先通过一个patch merging，将输入按照2x2的相邻patches合并，这样子patch块的数量就变成了H/8 x W/8，特征维度就变成了4C，这个地方文章写的不清楚，猜测是跟stage1一样使用linear embedding将4C压缩成2C，然后送入Swin Transformer Block。

Swin Transformer和ViT划分patch的方式类似，Swin Transformer也是先确定每个patch的大小，然后计算确定patch数量。不同的是，随着网络深度加深ViT的patch数量不会变化，而Swin Transformer随着网络深度的加深数量会逐渐减少并且每个patch的感知范围会扩大，这个设计是为了方便Swin Transformer的层级构建，并且能够适应视觉任务的多尺度。

上图是两个连续的Swin Transformer Block。一个Swin Transformer Block由一个带两层MLP的shifted window based MSA组成。在每个MSA模块和每个MLP之前使用LayerNorm(LN)层，并在每个MSA和MLP之后使用残差连接。

上图中红色区域是window，灰色区域是patch。W-MSA将输入图片划分成不重合的windows，然后在不同的window内进行self-attention计算。由于window的patch数量远小于图片patch数量，W-MSA的计算复杂度和图像尺寸呈线性关系。

另外W-MSA虽然降低了计算复杂度，但是不重合的window之间缺乏信息交流，于是作者进一步引入shifted window partition来解决不同window的信息交流问题，在两个连续的Swin Transformer Block中交替使用W-MSA和SW-MSA。以上图为例，将前一层Swin Transformer Block的8x8尺寸feature map划分成2x2个patch，每个patch尺寸为4x4，然后将下一层Swin Transformer Block的window位置进行移动，得到3x3个不重合的patch。移动window的划分方式使上一层相邻的不重合window之间引入连接，大大的增加了感受野。

但是shifted window划分方式还引入了另外一个问题，就是会产生更多的windows，并且其中一部分window小于普通的window，比如2x2个patch -> 3x3个patch，windows数量增加了一倍多。于是作者提出了通过沿着左上方向cyclic shift的方式来解决这个问题，移动后，一个batched window由几个特征不相邻的sub-windows组成，因此使用masking mechanism来限制self-attention在sub-window内进行计算。cyclic shift之后，batched window和regular window数量保持一致，极大提高了Swin Transformer的计算效率。

结论

Swin Transformer的这些特性使其可直接用于多种视觉任务，包括图像分类（ImageNet-1K中取得86.4 top-1 acc）、目标检测（COCO test-dev 58.7 box AP和51.1 mask AP）和语义分割（ADE20K 53.5 val mIoU，并在其公开benchmark中排名第一），其中在COCO目标检测与ADE20K语义分割中均为state-of-the-art。