Spiking Transformer: Introducing Accurate Addition‐Only Spiking Self‐Attention for Transformer (CVPR 2025) - shizukanaskytree/Awesome-Spiking-Neural-Networks GitHub Wiki
What is the baseline they compare with their method?
在论文《Spiking Transformer: Introducing Accurate Addition-Only Spiking Self-Attention for Transformer》中,作者主要对比了以下几类基线方法,以验证其提出的 $A^{2}OS^{2}A$ 机制和Spiking Transformer的有效性:
一、基于SNN的Transformer模型(核心对比基线)
这类方法是当前将Transformer与SNN结合的主流方案,作者在CIFAR和ImageNet数据集上重点对比了以下模型:
-
Spikformer
- 最早尝试将SNN与Transformer结合的模型之一,通过将Q、K、V转换为二进制 spikes,并利用加法替代矩阵乘法。
- 论文中引用了其在CIFAR-10/100和ImageNet上的结果(如Spikformer-4-384在CIFAR-10的准确率为95.19%,ImageNet上Spikformer-8-512为73.38%)。
-
Spikingformer
- 改进了残差连接结构,确保所有神经元传递二进制 spike 信号,减少非 spike 计算。
- 在CIFAR-10上,Spikingformer-4-384准确率为95.61%;在ImageNet上,Spikingformer-8-512达到74.79%。
-
Spike-driven Transformer
- 提出将残差连接置于激活函数前,进一步优化SNN与Transformer的兼容性。
- 作为基线模型,其在CIFAR-10的基线准确率为94.39%(Transformer-2-256),ImageNet上Transformer-8-512为74.57%。
二、传统SNN模型(非Transformer架构)
作者还对比了非Transformer的SNN模型,以验证Transformer架构在SNN中的优势:
-
ANN-to-SNN转换方法
- Hybrid training:通过混合训练将ANN转换为SNN,在ImageNet上ResNet-34的准确率为61.48%。
- Spiking ResNet:基于残差网络的SNN,ImageNet上ResNet-50准确率为72.75%。
- QCFS/VGG-16:通过量化和校准实现ANN到SNN的转换,ImageNet准确率为72.85%。
-
直接训练的SNN方法
- TET:通过梯度重加权优化SNN训练,CIFAR-100准确率为74.47%,ImageNet上SEW-ResNet-34为68.00%。
- STBP系列:基于时空反向传播的SNN训练方法,如STBP-tdBN在CIFAR-10准确率为92.92%,ImageNet上Spiking-ResNet-34为63.72%。
- Diet-SNN:轻量级SNN,通过优化泄漏和阈值实现高效计算,CIFAR-10准确率为92.54%。
三、实验设置与性能对比
-
CIFAR数据集(表2):
作者对比了不同嵌入维度(如256、384、512)和Transformer块数(如2、4层)的模型。- 基线结果:Spikformer-4-384(CIFAR-10: 95.19%)、Spikingformer-4-384(95.61%)。
- 作者模型(Spiking Transformer-4-384)在CIFAR-10达到96.32%,超越所有基线。
-
ImageNet数据集(表3):
重点对比Transformer架构的SNN模型,作者模型(Spiking Transformer-10-512)以78.66%准确率刷新SNN在ImageNet的最高记录,显著优于Spikingformer-8-768(75.85%)和Spike-driven Transformer-8-768(77.07%)。
总结
论文的核心基线是基于SNN的Transformer模型(如Spikformer、Spikingformer、Spike-driven Transformer),同时对比了传统SNN模型以突出Transformer架构的优势。作者通过实验证明,结合二进制、ReLU和三元spiking神经元的 (A^{2}OS^{2}A) 机制,在保持SNN高效性的同时显著提升了准确率,尤其在ImageNet上达到了SOTA性能。