Reading Log 2024 - Gushaokui/FDU-Gong-Lab-Paper-Reading GitHub Wiki

Example

2024.09.01

Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. "Why Should I Trust You?": Explaining the Predictions of Any Classifier. KDD '16. 作者列表. 文章标题. 会议/期刊简称'发表年份.

介绍人:XXX

主要内容 这篇文章关注到了用户使用机器学习模型解决分类问题时存在的信任问题,并将信任分为两个层次:(1) 对一次预测结果的信任;(2) 对该分类器模型的信任。针对第一层次,用户得到分类器的一次预测结果,而在这个过程中,分类器对用户而言是一个内部过程不可见的黑盒,这并不利于用户建立对该预测结果的信任;针对第二层次,模型的提出者往往会使用示例数据来评估一个模型的有效性,然而,所选取的测试数据集可能存在数据泄露(data leakage,如病人ID与患病种类存在相关性)或数据偏移(data shift)的情况,导致评估结果无法反映模型现实应用中的真实情况。

针对上述信任问题,作者提出了一种解释器的构想,以模型的特征向量与判断结果为输入,并做出从高维特征向量中提取最显著的可解释性依据,并标注每个依据是否支持判断结果,用户则可结合其先验知识,做出信任与否的判断。作者随后提出了解释器的要求,(1) 可解释性,必须是可为用户理解的,也同特定用户的先验知识水平相关;(2) 局部保真性,提取关键信息必有所遗漏,无法做到全局忠实,但对单词判断而言,必须是局部忠实的;(3) 对模型的全局信任。

针对单次信任问题,作者提出了LIME算法。LIME解释器首先定义了一个可解释表示空间(一组词汇/像素集合),解释器的结果则可以使用一个该空间中的向量进行表示,解释表示的最终确定需要综合考虑该解释表示相对于原特征向量的信息损失与解释表示的复杂程度。为了确保局部保真性,解释器在采样与采样点损失加和权值的赋予上考虑了采样点与目标点的距离。

针对模型的全局信任问题,作者提出SP-LIME(Submodular Pick)。其基本思路为挑选一组原模型数据实例,为用户呈现这些实例的模型分类结果与解释器对该判断过程的解释,帮助用户判断模型的可信程度。这组数据实例的选择依据为,使用尽量少的数据实例覆盖越多的解释表示空间的维度,并忽略只有极少数据实例涉及的维度。

最后,作者使用模拟用户与真实用户,对该解释器的效力与其他解释器方法进行对比测试,分别针对解释器有效性的测试与解释器具体帮助情境的测试。

Takeaways 这篇文章关注到了一个十分重要的机器学习模型中的信任问题,其提出的LIME方法是Explainable Artificial Intelligence(XAI)的一种经典且重要的方法。

Reading Logs

2024.05.21

Ma Y, Wang S, Derr T, et al. Graph adversarial attack via rewiring. KDD'21.

介绍人:刘柯兵

主要内容

本文通过研究图神经网络的对抗性攻击来提升图神经网络的鲁棒性的问题。本文提出结构扰动最常用的攻击方式:加边/减边对图基本属性和重要属性影响较大,难以兼顾攻击效果和“不可感知性”,因此,本文提出了一种基于“重新布线”操作的攻击方法,对基于图神经网络的图分类任务进行攻击。需要注意的是,本文提出的攻击模型为黑盒攻击,即目标模型的任何信息对攻击者都是未知的,攻击通过对模型数据的扰动进行,而模型不变;

本文将攻击的决定过程简化为MDP,对状态转移的概率分布进行估计和采样,并采用强化学习算法的策略梯度算法,通过最大化状态转移的reward,得到最终的攻击策略。在三个真实社交网络数据集上的实验表明了本文提出的方法和各个模块设计的有效性,同时,实验部分还验证了前文提出的重新布线相较于加边/减边在图属性影响和攻击成功率上的优势。

问题讨论:

1、case study的目的是展示本文设计的攻击方法与采样策略能够将攻击集中在图中highest degree nodes,攻击具有很高的效率。虽然budget值很小(≤3),但是基于强化学习的策略梯度算法在求解过程中,根据概率分布考虑到了所有可能的采样情况,并通过寻找最大的reward确定攻击策略,因此能够保证攻击的有效性与集中性;

2、数据集的label确定应该与攻击的具体情况有关。如果攻击的效果(对图结构的影响等)与label划分一致,那么攻击应该对label的扰乱有很好的作用;

3、整个攻击的流程是,在状态t下,先用GCN得到图的节点嵌入和边嵌入,然后按照攻击的分解步骤分别计算每一步的概率,采样,得到一个具体的攻击,执行,转移到状态t+1,得到这步的reward,然后进入下一步。GCN在这里用于生成节点嵌入,reward是基于目标模型计算的,状态网络是攻击的分解步骤的计算和采样过程,强化学习策略梯度算法也作用于这一过程;

4、实验部分与前文的论点印证有,但不是特别充足。

Takeaways

1、提出的方法和求解过程很值得借鉴;

2、实验部分设计了对前文论点进行印证的实验内容。

2024.05.28

Choe M, Kim S, Yoo J, et al. Classification of edge-dependent labels of nodes in hypergraphs. KDD'23

介绍人:谷少奎

主要内容

这篇文章提出了边依赖节点标签的分类问题。这个问题适用于超图结构,因为在超图中,同一个节点(如作者或化学物质)在不同的超边(如论文或化学反应)中可能扮演不同的角色。这种特性在普通图结构中难以表达。这个新的分类问题可以作为测试超图神经网络性能的一个有效的基准任务。为了解决这个问题,研究团队设计了一个名为WHATsNet(Within-Hyperedge Attention Transformer Network)的超图神经网络。这个模型利用一个名为WithinATT的注意力机制,能够根据节点在超边中的相对重要性(通过位置编码表示)来动态地调整节点的嵌入表示。这样模型可以精确地捕捉节点在不同超边中的不同表现。

在六个真实世界的超图数据集上,WHATsNet在边依赖节点标签分类任务中显著并且一致地超过了十个竞争对手。WHATsNet在排名聚合、节点聚类和产品退货预测等多个应用场景中展示了其有效性。这些应用表明了边依赖节点属性在各种任务中的实用价值。

问题讨论

1.可以更换不同的特征聚合器进行节点特征的提取。

2.位置编码特征是根据全局的节点中心性在特定的超边下得到的。

Takeaways

1.提出的节点类比依赖超边是一个关键的问题,值得深入探究。

2.提出的模型较为新颖,实验结论证明了模型的有效性,值得借鉴。

2024.06.04

Ming Zhou, Dan Zhang, Yuandong Wang, Yangli-Ao Geng, and Jie Tang. Detecting Social Bot on the Fly using Contrastive Learning. CIKM'23

介绍人:殷勇杰

主要内容

针对基于LLM驱动的bot难以识别和高质量的bot标注样本过少的问题,本文基于对比学习设计了在少样本下的机器人检测模型。本文提出的模型具有两阶段训练:基于在无标签图上对比学习的预训练阶段还有基于少量样本的微调阶段。在预训练阶段,本文通过将图随机删边来得到不同的两个视图,结合InfoNCE损失函数来训练模型。在微调阶段,本文对有标注节点和无标注节点用不同的损失函数来学习。对于标注节点,本文用监督损失来学习;对于无标注节点,本文用置信一致性损失函数来学习,并且忽略掉置信度较低的节点以减少误差。通过图增强和对比学习的预训练阶段,让模型更好的感知各节点的差异,有利于模型在少量样本中也能学到很好的结果。

本文还将模型进行了在线部署,并且加入智能反馈机制。注册用户可以将自己发现的社交机器人反馈给系统,系统可以捕获目标用户的社交网络来检测并更新数据库,以达到动态地更新模型。

本文在TwiBot-22数据集上打败了十个不同的Baseline,并且通过消融实验证明了该模型的预训练阶段和微调阶段两阶段设计的有效性。另外,本文还通过实验说明了“掩盖节点地少量标签”带来的效果不如随机在图拓扑中删边。因为新式的Bot会虚假构造自己的特征,所以对于标签的随机掩盖不会让模型更好的检测。

问题讨论:

1、 本文虽然实现了在线部署,但是使用的并不是专门的在线网页的算法。其在线检测模块没有对整个检测方法有贡献。

2、 本文所表述的第一个挑战,即:“LLM驱动的bot难以识别”,不应该是这个论文的特色。这应该是所有基于图的检测方法都尝试克服的问题并且由来已久。以前的bot可以通过复制/模仿真实用户的评论也能逃逸基于内容检测器的检测,虽然LLM的出现让它们的逃逸更顺利,但是本文并没有针对LLM这件事展开工作,仍然是一个标准的基于图的检测方法的研究。

Takeaways

1、本文提出的两个阶段的训练方法值得学习,这不仅拘泥于检测问题。

2、实验设计充分,本工作从多个角度进行了实验设计。

3、本工作用了非常充分的推特用户特征,包括少见的 listed count,这是推特平台中记录用户感兴趣的用户数量。

2024.06.18

Yang Gao, Hongli Zhang, and Xiangzhan Yu. Higher-Order Community Detection: On Information Degeneration and Its Elimination. TON'23

介绍人:刘柯兵

主要内容

利用高阶关系图进行社区检测,能够比在普通图上进行社区检测更好地处理模糊社区或重叠社区的问题。但是高阶关系图面临着新的问题:信息退化。具体指在利用某种定义进行高阶关系提取时,不属于高阶关系的大量普通边会被忽略,导致高阶关系图中的社区结构被破坏,影响社区检测的结果。 为了解决该问题,本文作者提出一系列基于三元关系的定义,并在此基础上定义了两个个性化页面推荐算法的适应度函数:mixed connectivity 和 mixed density,其主要目的是同时衡量高阶和普通关系的社区划分效果。同时,作者利用三元关系中的其它定义,定义了包含高阶关系和普通关系的带权邻接矩阵,用于计算PPR算法中的重要性转移矩阵,并据此提出有偏的PPR算法:BPPR。

BPPR的主要阶段有:选取种子节点集合(基于三元关系的定义)、社区扩充(该阶段利用带权邻接矩阵进行有偏转移,计算每个结点的重要性概率,再使用个性化定义的适应度函数进行社区节点选择,以得到同时考虑了高阶关系和普通关系的最优社区节点集合选择方案)

在真实数据集与生成数据集上的实验表明了BPPR在社区检测准确率以及执行时间上的优越性,也证明了维护普通关系对于在高阶关系图中进行模糊社区检测同样具有重要的作用,减轻了高阶关系图的信息退化问题。

问题讨论:

1、关注高阶关系图的信息退化问题,对此进行发现与定义,为本文赋予了较为创新的研究视角和较高的讨论价值

2、模型设计紧扣主题

Takeaways:

1、Related Work的划分角度比较有参考意义

2、超图的信息退化问题在许多下游领域应该都有同样的研究思路,可以据此发散思考