Reading Log 2025 - Gushaokui/FDU-Gong-Lab-Paper-Reading GitHub Wiki

2025.01.02

Yiming Zhu, Zhizhuo Yin, Gareth Tyson, Ehsan-Ul Haq, Lik-Hang Lee, and Pan Hui. 2024. APT-Pipe: A Prompt-Tuning Tool for Social Data Annotation using ChatGPT. In Proceedings of the ACM Web Conference 2024 (WWW '24).

汇报人: 郭佳萍

主要内容:

文章研究了如何借助大语言模型提高对social computing文本数据的标注效率。其中重点关注Prompt-Tuning部分,试图通过提高提示词质量达到更好的标注效果。作者提出了APT-pipe,一个提示词自动调优管道,目标是实现针对任一给定数据集能自动找到最合适的提示词。

APT-pipe由3个步骤构成:

  • 步骤1:初始化提示词,将原始数据格式化为自定义的prompt格式。
  • 步骤2:使用Few-shot方法优化prompt。Few-shot prompt和zero-shot prompt二者的区别在于few-shot会在prompt中注入一小部分与待分类文本内容相似样例(包含分类结果),而zero-shot不含样例。作者使用OpenAI的text-embedding-ada-002模型完成text embedding,再计算cosine similarity评估文本相似性。
  • 步骤3:在prompt中加入其他NLP指标的组合(如sentiment、emotion、topic和 toxic),为了减少指标组合的搜索空间,文章先针对每一个指标训练一个XGBoost分类器,即输入为原始文本、已保留指标、待测试指标、人工标签及步骤2中GPT得到的标签,用来预测ChatGPT生成的标签是否与原始的人类注释标签相同。然后所有分类器得到的F1-score排序,首先取排名最高的指标加入prompt,在另一部分测试集上测试大模型识别结果,若F1-score有提升,保留该指标,重复XGBoost分类器训练及指标选取部分,直到F1-score不再增长。

实验:作者在文本分类、立场检测、AI写作识别三个任务的12个公开数据集上完成了实验,F1-score平均提高了7.01%。其中在AI写作识别任务上表现最好。

问题讨论:

  • 为什么添加NLP metric作为prompt的一部分可以提高大模型识别准确性
  • 用到的数据集都来源于社交网络吗
  • NLP metric如何度量

takeaways: 学习了两种prompt-tuning方法,prompt工程的几种模板可作为后续参考; sentiment-使用预训练模型XLM-T; emotion-使用Emotion English DistilRoBERTa-base模型 topic-针对每个文本所在数据集训练一个BERTopic模型,根据该模型推断其topic; toxic-使用Google Perspective API;

2025.01.08

Qijie Bai, Changli Nie, Haiwei Zhang, Dongming Zhao, and Xiaojie Yuan. HGWaveNet: A Hyperbolic Graph Neural Network for Temporal Link Prediction. WWW'23

汇报人:殷勇杰

主要内容:

本文提出了一种名为 HGWaveNet 的双曲图神经网络模型,专注于解决动态图中的 时序链路预测 问题。时序链路预测的目标是预测未来节点间的连接关系,对社交网络、交通系统等动态演化的实际场景具有重要意义。

传统方法多基于欧几里得空间,但现实中的图数据(如社交网络)通常具有 幂律分布隐含的层次结构,这与欧几里得空间的均匀扩展特性不匹配。相比之下,双曲空间(如 Poincaré ball 模型)因其 指数扩展能力,能更高效地表示层次化数据。HGWaveNet 的核心创新在于结合双曲几何的优势,设计了两个关键模块:

  • 双曲扩散图卷积(HDGC):通过扩散过程聚合多跳邻居的信息,解决了传统图卷积网络(GCN)仅能处理直接邻居的局限性。具体来说,HDGC 通过计算扩散过程的稳态分布,高效捕捉长路径中的拓扑信息。
  • 双曲扩张因果卷积(HDCC):利用扩张卷积扩大感受野,同时保证时序因果性(仅依赖历史数据),避免了注意力机制可能忽略的因果顺序问题。

此外,模型还整合了双曲门控循环单元(HGRU)、双曲时间一致性约束(HTC)和费米-狄拉克解码器(Fermi-Dirac decoder),进一步优化时空特征的融合与预测性能。

实验部分在 6 个真实数据集(如 Enron、DBLP、MovieLens)上验证了 HGWaveNet 的优越性。结果显示,相比现有最优方法(如 HTGN),HGWaveNet 在 AUC 和 AP 指标上最高提升 6.67%,尤其在大规模图上表现显著。消融实验表明,移除 HDGC 或 HDCC 会导致性能大幅下降,验证了模块的必要性。

问题讨论:

  • 欧几里得空间与双曲空间的适配性

    • 现有方法基于欧几里得空间,但现实图的幂律分布与层次结构更契合双曲空间的指数扩展特性。实验证明,双曲模型(如 HGWaveNet)在大规模图上表现更优,而欧几里得模型随图规模增大会出现表示能力下降。
  • 现有双曲模型的局限性

    • HTGN 等模型虽引入双曲几何,但仍存在缺陷:
      • 消息传播范围有限:传统 GCN 仅聚合直接邻居,难以捕捉长路径信息。
      • 忽略时序因果性:注意力机制可能破坏历史状态的因果顺序,影响演化过程建模。

Takeaway:

  • 双曲几何的优势:双曲空间(如 Poincaré ball)因其指数扩展特性,天然适合建模具有层次结构和幂律分布的图数据,尤其在大规模图中表现更稳定。

  • 模型设计的创新性

    • HDGC 通过扩散过程解决了传统 GCN 的局部性限制,实现了高效的多跳邻居信息聚合。
    • HDCC 结合扩张卷积与因果性约束,在扩大时序感受野的同时避免信息泄露,优于注意力机制。
  • 可扩展至异构图、多模态图等复杂场景,探索双曲图神经网络在更多下游任务(如推荐系统、交通预测)中的应用。

  • 进一步优化双曲空间与神经网络的结合,减少因切空间近似(tangent space approximation)导致的几何失真。

2025.01.22

Zhou E, Guo S, Ma Z, et al. Poisoning Attack on Federated Knowledge Graph Embedding. WWW'24

汇报人: 刘柯兵

主要内容:

知识图谱(KG)通过三元组形式表示现实世界中的实体及其关系,是结构化的知识库。它广泛应用于知识推理、推荐系统和问答系统等领域。知识图谱嵌入(KGE)将知识图谱中的实体和关系映射到连续的向量空间中,使结构化信息能够在高维向量空间中表示。联邦知识图谱嵌入(FKGE)结合了联邦学习(FL)原则和多源知识图谱,通过协作增强知识图谱嵌入,同时保护数据隐私和安全。FKGE允许多个知识图谱所有者在不共享敏感数据的情况下,利用不同知识图谱之间的互补性来改进本地模型。

FKGE中的威胁模型包括服务器作为对手和客户端作为对手。恶意服务器可能会伪造或篡改聚合结果,而恶意客户端可能会在其本地数据集中添加中毒三元组并上传恶意嵌入。攻击者的目标是在不降低原始任务性能的情况下,通过最小化评分函数对中毒三元组的评分,将虚假关系注入受害客户端的模型中。攻击者拥有实体集、嵌入和部分模型参数的知识,同时具备使用辅助数据和训练影子模型的能力。

本研究旨在全面调查联邦知识图谱嵌入中毒攻击的风险和漏洞。填补文献中的空白,通过提供对这类攻击可能带来的威胁的系统分析。开发针对服务器发起和客户端发起的中毒攻击的新型框架。这些框架应能够在不损害原始任务性能的情况下,成功地将虚假关系注入受害客户端的模型中。

本研究提出了包括两种攻击模式的框架:服务器发起的中毒攻击和客户端发起的中毒攻击。 服务器发起的中毒攻击的算法涉及初始化全局实体嵌入、推断关系、生成中毒数据、训练影子模型,并动态优化聚合过程。动态中毒攻击在FKGE训练的每一轮中调整影子模型,以间接误导受害客户端的关系嵌入。

客户端发起的中毒攻击涉及推断关系、生成中毒数据,并使用中毒数据集训练本地知识图谱嵌入模型。恶意客户端将其中毒嵌入上传到服务器,服务器将它们与来自其他客户端的嵌入进行聚合,并将结果返回给受害客户端。

问题讨论:

1、攻击发生的主要部分在:服务器/客户端在知识图谱中注入虚假的实体与关系,从而扰乱其它客户端对实体之间关系的判断

2、联邦学习在本研究中的作用是什么?联邦学习是知识图谱训练的一种方式,利用率联邦学习的优势提高知识图谱训练的有效性和安全性。攻击利用了联邦学习的特点,由局部攻击全局的数据。

Takeaways:

了解联邦学习知识图谱的训练方法与攻击思路

2025.02.05

Hao Liu, Jiarui Feng, Lecheng Kong, Dacheng Tao, Yixin Chen, and Muhan Zhang. 2024. Graph Contrastive Learning Meets Graph Meta Learning: A Unified Method for Few-shot Node Tasks. In Proceedings of the ACM Web Conference 2024 (WWW '24).

汇报人:卢小艺

主要内容:

作者提出了COLA框架,COLA的核心思想是结合对比学习(CL)和元学习的优势,通过构建无标签的元任务来处理少样本节点分类任务。在框架中,数据通过三种增强视图(即三种不同的图增强操作)来生成查询节点、查找嵌入(Lookup Embedding)和支持嵌入(Support Embedding)。查询节点通过增强后的图得到其嵌入,而支持节点的选取则基于这些增强视图之间的相似度进行匹配,从而生成一个稳定且语义一致的支持集。

为了防止模型崩溃,COLA引入了动量GNN(Momentum GNN)作为查询节点和支持节点的嵌入生成器。与训练的GNN不同,动量GNN保持了过去的历史信息,从而为支持集提供更稳定、持续的嵌入。通过这种方式,COLA可以在训练过程中逐渐提高查询节点与支持节点之间的语义相似度,而不会因初始嵌入不良而导致模型退化。

数据集与设置: 作者在七个标准数据集上进行了广泛的实验,分别是:Cora、CiteSeer、Amazon-Computer、CoraFull、Coauthor-CS、ogbn-arxiv 和 Roman-empire。Cora、CiteSeer、Amazon-Computer、Coauthor-CS、CoraFull 和 ogbn-arxiv 是常用的同质图(homophilous graph)数据集,而 Roman-empire 是一个异质图(heterophilous graph)数据集。每个数据集中的类被随机分为三个子集:Ctrain(训练集)、Cval(验证集)和 Ctest(测试集)。

实验结果: 在不同的数据集上,COLA通过使用所有节点和增强数据的策略,在各项任务中都表现出优越的性能。与传统的元学习方法相比,COLA的绝对准确率提高了至少11.18%,在一些任务中最高提升达到了20.56%。特别是对于图对比学习方法(如SUGRL),COLA在每个任务中都实现了最大8.09%的相对准确率提升。这些结果证明了COLA能够有效利用所有节点信息,并且通过增强数据来构建更加稳健的元任务。

消融实验: 作者还进行了消融实验,验证了COLA中各个组件的作用。实验表明,使用所有节点进行对比损失计算,相较于只使用部分节点,能够显著提升性能。此外,使用增强数据(如节点丢弃、边扰动等)可以帮助模型学习到更具区分性的表示,但在某些情况下,数据增强的引入也可能对性能产生负面影响,尤其是在模型本身分类能力较弱时,过度增强可能会引入噪声,反而影响学习效果。

问题讨论:

架构中的关键部分是对嵌入的处理。

Takeaways: 结合对比学习与元学习:利用对比学习的无监督特性提升元学习的效果,尤其是少样本学习任务中。 无标签元任务构建:通过语义相似度构建支持集,避免了标签依赖。 多视图增强:通过图的多视图增强提升任务的鲁棒性,从不同视角获取更多的信息,减少模型崩溃的风险。 使用所有节点:通过在训练阶段使用所有图节点,提高模型对图信息的全面利用。

2025.02.12

Fan Wu, Sanyam Lakhanpal, Qian Li, Kookjin Lee, Doowon Kim, Heewon Chae, and Kyounghee Hazel Kwon. 2024. Not All Asians are the Same: A Disaggregated Approach to Identifying Anti-Asian Racism in Social Media. In Proceedings of the ACM Web Conference 2024 (WWW '24).

汇报人:郭佳萍

主要内容:

近年来,反亚裔仇恨言论在社交媒体上日益猖獗,现有的研究往往局限于关注新冠疫情背景下的反华情绪,忽视了亚裔群体内部的多样性和差异性。本研究旨在通过采用细分数据的方法,更全面地了解反亚裔仇恨言论的复杂性和多样性。主要包含以下两个工作:

  • 创建一个纵向多民族亚裔仇恨数据集: 收集了 12 个月内的 Twitter 数据,涵盖了新冠疫情前、疫情高峰期和疫情后三个阶段,并包含了多个亚裔子种族群体的信息。联合使用 Perspective API ,人工标注小样本以及深度语言模型(RoBERTa)标注3种方法识别反亚裔仇恨言论。
  • 分析反亚裔言论的数量和毒性得分随时间的变化趋势,并比较不同亚裔子种族群体之间的差异:主要采用了三种分析方法:时间持久性分析、n-gram多重对应分析和主题建模。时间持久性分析定义了similarity计算方法,用于分析反亚裔言论的毒性得分随时间的变化趋势,并比较不同种族群体之间的差异。n-gram 多重对应分析用于比较不同种族群体之间的反亚裔言论的语义差异。主题建模用于分析反亚裔言论种的主题分布,比较不同种族群体之间的反亚裔主题的差异。

研究结果:新冠疫情爆发期间,针对亚裔美国人的仇恨言论数量激增,尤其是针对中国人的言论。然而,反亚裔言论的平均毒性得分并没有受到新冠疫情的显著影响。语义上,针对亚洲人的泛化言论与针对中国人的言论在语义上更相似,而针对其他亚裔子种族群体的言论数量相对较少。内容主题上,针对不同亚裔子种族群体的反亚裔言论包含不同的主题。例如,针对中国人的言论主要关注全球政治和意识形态,而针对其他亚裔子种族群体的言论则可能涉及种族冲突、文化偏见等主题。

问题讨论:

  1. 从twitter筛选keyword时是否全部为英文文本?是,不包括其他语言,则说明研究的目标人群有潜在定位为欧美英语国家,这种考虑也许过于片面。

Takeaways:

使用perspective API评分可能将“正话反说”的留言判为毒性较高, 因此不能作为内容价值导向的识别手段;变化趋势可考虑采用时间持久性分析;文本的语义相似度分析可采用多重对应分析。

2025.03.19

Qian Chen, Zilong Wang, Jiaqi Hu, Haonan Yan, Jianying Zhou, and Xiaodong Lin. 2024. PAGE: Equilibrate Personalization and Generalization in Federated Learning. In Proceedings of the ACM Web Conference 2024 (WWW '24).

汇报人:郭佳萍

主要内容:

联邦学习(FL)通过分布式协作训练模型,在保护数据隐私的同时面临泛化(global generalization)与个性化(local personalization)的矛盾。传统方法(如FedAvg、FedProx)聚焦单一目标,导致全局模型在非独立同分布(Non-IID)数据下泛化能力受限,而个性化方法(如pFedMe、Ditto)牺牲泛化性,难以满足服务提供方对未来需求的适应。现有研究未能有效平衡两者的动态博弈关系,亟需新的理论框架。

本文提出首个基于博弈论与强化学习的联邦学习平衡算法PAGE,核心创新有如下两点:

  1. 博弈论建模:将服务器与客户端的关系重塑为多阶段协作竞争博弈,构建多领导者单跟随者(MLSF)Stackelberg动态博弈框架
  • 领导者角色:客户端作为决策主体,通过调整本地训练轮次(α_i)和学习率(η_i)优化个性化目标(最小化本地损失函数f_i(w_i))。
  • 跟随者角色:服务器根据客户端策略动态分配聚合权重(p_i),以最小化全局损失函数F(W)=Σp_i f_i(w_i)。
  • 反馈均衡机制:通过马尔可夫博弈过程将全局模型更新与本地模型迭代解耦,建立双向约束关系。每一轮训练中,客户端优先优化本地模型(领导者行动),服务器基于全局状态响应调整聚合策略(跟随者反馈),形成闭环动态均衡。
  1. 求解均衡问题:借助一种强化学习算法--深度确定性策略梯度(DDPG) 将博弈过程重构为服务器与客户端的马尔可夫决策过程(MDP),利用DDPG解决高维连续策略空间难题:
  • 服务器级MDP:状态(s_CS)为各客户端模型在全局测试集的准确率向量,动作(a_CS)为聚合权重向量,奖励函数映射全局损失倒数(1/F(W))。通过Actor-Critic网络动态调整p_i,抑制过拟合客户端的负面影响。
  • 客户端级MDP:状态(s_i)为本地模型准确率,动作(a_i)为(α_i, η_i),奖励函数关联本地损失倒数(1/f_i(w_i))。分布式DDPG实现个性化训练强度自适应,避免全局泛化退化。
  • 双循环优化机制:服务器与客户端并行更新策略网络,通过经验回放与目标网络稳定训练。全局模型聚合与本地参数调整形成协同进化,最终收敛至反馈Stackelberg均衡(FSE)。

实验验证显示,PAGE在CIFAR-100等4个数据集上同时提升全局与本地准确率(最高+35.20%/+39.91%),且收敛速度优于FedAvg等基线。消融实验证实博弈建模与DDPG联合优化的必要性:仅调整p_i或(α_i, η_i)导致单目标性能下降,而双策略协同实现帕累托最优。该框架为联邦学习系统设计提供了理论保障,可扩展至资源分配、对抗防御等场景。

问题讨论:

  1. 为什么要重视模型的泛化性,边缘设备上的性能不是更为重要吗?可能存在新客户加入的场景,需要一个泛化且性能表现较好的初始模型来助其快速适应本地数据。在动态数据环境中,某一客户端的数据分布可能随时间推移发生显著变化,甚至呈现出其他客户端的数据特性。在此情况下,泛化性强的全局模型能够更有效地捕捉此类分布漂移。
  2. 实验硬件环境使用了A100以支持边缘客户端的强化学习算法(DDPG)的训练与推理,考虑到边缘设备通常受限于计算资源、存储容量和能源效率,PAGE算法在现实场景中实现起来比较困难。

Takeaways:

了解了联邦学习的评估方法,即:

  1. 分别选取若干传统方法和个性化方法在以下方面与PAGE做对比: a. 准确率和收敛速度:选择class数不同的四类数据集和对应的四个深度学习模型,对global准确率和local准确率的平均值、收敛轮数进行测试。 b. 鲁棒性:构造包含不同程度数量偏斜(quantity-skewed)和标签偏斜(label-skewed)数据分布,对PAGE完成测试。
  2. 消融实验:控制DDPG计算的参数(学习率、训练轮数、客户端权重),令其只计算其中1个或2个,将其收敛速度与PAGE算法(完整参数)做对比,证明PAGE算法的有效性。