Backdoor Attack - lkb1324/Bot-Adversarial-Attack-and-Detection GitHub Wiki

Dai E, Lin M, Zhang X, et al. Unnoticeable backdoor attacks on graph neural networks[C]//Proceedings of the ACM Web Conference 2023. 2023: 2263-2273.

Li Y, Jiang Y, Li Z, et al. Backdoor learning: A survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 35(1): 5-22.

Liu Y, Ma X, Bailey J, et al. Reflection backdoor: A natural backdoor attack on deep neural networks[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part X 16. Springer International Publishing, 2020: 182-199.利用物理反射模型的数学建模提出反射后门,是对触发器隐蔽性的提升方法

Saha A, Subramanya A, Pirsiavash H. Hidden trigger backdoor attacks[C]//Proceedings of the AAAI conference on artificial intelligence. 2020, 34(07): 11957-11965. 针对传统后门攻击的两点创新:①设置隐式触发器,触发器在训练阶段完全隐藏(通过优化触发器的视觉相似性实现),仅在测试阶段揭示;②清洁标签后门攻击,更加隐蔽。

Liu X, Jia X, Gu J, et al. Does few-shot learning suffer from backdoor attacks?[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(18): 19893-19901.针对少样本学习的后门攻击方法FLBA,通过优化触发器的嵌入偏差和生成隐蔽的吸引与排斥微扰,在提高攻击成功率的同时保持模型对干净样本的高准确率与攻击隐蔽性。

An S, Chou S Y, Zhang K, et al. Elijah: Eliminating backdoors injected in diffusion models via distribution shift[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(10): 10847-10855.对扩散模型进行后门攻击(输入是高斯噪声,输出是图像),攻击目的是输入干净数据时生成干净图像,输入带有触发器的噪声数据时,输出目标图像。触发器生成:反转触发器在模型推理过程的多个步骤中保持相对分布偏移;后门检测:基于一致性得分和总方差损失;后门移除:设计损失函数减少分布偏移并鼓励干净分布

Wang, T., Yao, Y., Xu, F., Xu, M., An, S., & Wang, T. (2024). Inspecting Prediction Confidence for Detecting Black-Box Backdoor Attacks. Proceedings of the AAAI Conference on Artificial Intelligence, 38(1), 274-282. 分析:后门攻击会使模型在目标标签上存在统计学上的置信度偏高。DTINSPECTOR通过检查数据样本的预测置信度,对预测结果的转移比率进行异常检测,以识别被后门攻击的模型和感染的标签。

Yang Y, Li Q, Jia J, et al. Distributed backdoor attacks on federated graph learning and certified defenses[J]. arXiv preprint arXiv:2407.08935, 2024.对FedGL进行有效、隐蔽和持久的后门攻击。攻击使用子图作为触发器,并设计了一个自适应触发器生成器,可以导出每个图的有效触发位置和形状。经验防御很难检测/移除生成的触发器。

[CCS'24] Zhang J, Chi J, Li Z, et al. Badmerging: Backdoor attacks against model merging[J]. arXiv preprint arXiv:2408.07362, 2024. Model Merging直接将多个精细调整的特定于任务的模型合并到一个合并模型中,而不需要额外的训练。MM由于合并过程容易受到后门攻击。badmerge是第一个专门为MM设计的后门攻击,允许攻击者通过贡献一个特定于任务的后门模型来破坏整个合并模型。该算法采用了两阶段攻击机制和基于特征插值的损失算法设计适合MM的后门攻击,可以联合攻击者(on-task attack)和其他贡献者(off-task attack)提供的任务,以新颖的攻击设计解决相应的独特挑战。

clean label backdoor

将本就属于目标类别的样本作为攻击目标:可以在原本的数据集中选择一部分目标标签样本作为中毒样本,也可以合成属于目标标签的样本作为中毒样本。由于攻击样本的标签没有被篡改,与目标模型的正常训练样本标签一致,因而是更加隐蔽的后门攻击。

优势:

  1. 不涉及数据集的标签更改,不需要攻击者对原始数据集做任何改动,只需新增触发器
  2. 更加隐蔽,对被攻击者而言,攻击是完全合法的,中毒样本的真实标签不存在分布上的非法改动

Alexander Turner, Dimitris Tsipras, and Aleksander Madry. 2019. Label-consistent backdoor attacks. arXiv preprint arXiv:1912.02771 (2019).

解决clean label attack中,由于原始样本的自然特征过于明显,可能掩盖触发器特征,使后门攻击效果减弱的问题。

方法:

利用生成对抗网络(GAN)的嵌入特性,将目标类图像向不同错误类的图像在潜在空间进行插值,这种对抗扰动可以使训练样本更难分类

然后在插值后的图像仍然属于目标类,在其上应用后门触发,可以在保持标签一致性的同时,使模型在训练过程中更依赖触发来进行分类,也就是凸显了触发器的特征,增加攻击成功的可能性

Yi Zeng, Minzhou Pan, et al. Narcissus: A Practical Clean-Label Backdoor Attack with Limited Information. (CCS '23).

现有 clean label 后门攻击过于依赖完整训练集,然而在实际中攻击者难以获取全部信息,限制了攻击的可行性和有效性。

方法:

假设攻击者只需知道目标标签的部分示例样本,和一些公共分布外数据(用于构建代理模型)。利用已知的数据构建模拟的攻击对象模型,通过求解优化问题找到能使目标样本示例更易被预测为目标标签的触发器,从而提高攻击效果,且不依赖非目标类数据。

可以借鉴的地方在于利用目标类的部分样本数据分析规律。

Souri H, Fowl L, Chellappa R, et al. Sleeper agent: Scalable hidden trigger backdoors for neural networks trained from scratch[J]. Advances in Neural Information Processing Systems, 2022, 35: 19165-19178.

解决clean label后门攻击在黑盒场景(攻击者不知道受害者架构和训练超参数)下难以成功实施的问题。

方法:

对输入数据添加扰动。定义在攻击样本上的对抗损失,和代理模型在正常样本上的训练损失,计算两个损失之间的梯度夹角,当梯度夹角越小,说明两个损失的方向一致,后门攻击能同时兼顾隐蔽性与有效性。通过对正常输入数据加入扰动,来优化这个夹角,从而优化攻击。

存在的问题是,本研究中,扰动是对正常输入数据添加的,而触发器则被作为固定的攻击手段,没有得到优化。可以考虑采取同样的优化思路,但是变量从扰动变为添加的触发器,使得两个损失的梯度方向更匹配。