ReadingLog‐2023 - nidddo/DataNET-Group-Paper-Reading GitHub Wiki
Example
2022.08.13
Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. "Why Should I Trust You?": Explaining the Predictions of Any Classifier. KDD '16. 作者列表. 文章标题. 会议/期刊简称'发表年份.
介绍人:黄妮朵
主要内容
这篇文章关注到了用户使用机器学习模型解决分类问题时存在的信任问题,并将信任分为两个层次:(1) 对一次预测结果的信任;(2) 对该分类器模型的信任。针对第一层次,用户得到分类器的一次预测结果,而在这个过程中,分类器对用户而言是一个内部过程不可见的黑盒,这并不利于用户建立对该预测结果的信任;针对第二层次,模型的提出者往往会使用示例数据来评估一个模型的有效性,然而,所选取的测试数据集可能存在数据泄露(data leakage,如病人ID与患病种类存在相关性)或数据偏移(data shift)的情况,导致评估结果无法反映模型现实应用中的真实情况。
针对上述信任问题,作者提出了一种解释器的构想,以模型的特征向量与判断结果为输入,并做出从高维特征向量中提取最显著的可解释性依据,并标注每个依据是否支持判断结果,用户则可结合其先验知识,做出信任与否的判断。作者随后提出了解释器的要求,(1) 可解释性,必须是可为用户理解的,也同特定用户的先验知识水平相关;(2) 局部保真性,提取关键信息必有所遗漏,无法做到全局忠实,但对单词判断而言,必须是局部忠实的;(3) 对模型的全局信任。
针对单次信任问题,作者提出了LIME算法。LIME解释器首先定义了一个可解释表示空间(一组词汇/像素集合),解释器的结果则可以使用一个该空间中的向量进行表示,解释表示的最终确定需要综合考虑该解释表示相对于原特征向量的信息损失与解释表示的复杂程度。为了确保局部保真性,解释器在采样与采样点损失加和权值的赋予上考虑了采样点与目标点的距离。
针对模型的全局信任问题,作者提出SP-LIME(Submodular Pick)。其基本思路为挑选一组原模型数据实例,为用户呈现这些实例的模型分类结果与解释器对该判断过程的解释,帮助用户判断模型的可信程度。这组数据实例的选择依据为,使用尽量少的数据实例覆盖越多的解释表示空间的维度,并忽略只有极少数据实例涉及的维度。
最后,作者使用模拟用户与真实用户,对该解释器的效力与其他解释器方法进行对比测试,分别针对解释器有效性的测试与解释器具体帮助情境的测试。
Takeaways
这篇文章关注到了一个十分重要的机器学习模型中的信任问题,其提出的LIME方法是Explainable Artificial Intelligence(XAI)的一种经典且重要的方法。
Reading Logs
2023.4.11
{Romil22} Bhardwaj R, Xia Z, Ananthanarayanan G, et al. Ekya: Continuous learning of video analytics models on edge compute servers. 19th USENIX Symposium on Networked Systems Design and Implementation (NSDI 22)
介绍人:黄妮朵
主要内容
这篇文章关注edge服务器上的视频识别任务问题,根据文章所分析的目前该领域的痛点,文章设计了ekya框架,使用持续学习方法对边缘服务器上的data drift问题进行优化,并完成了ekya框架的实际部署,通过四个真实数据集上的实验,文章验证了ekya框架的有效性。
文章的motivation:
- 出于数据隐私性与网络带宽延迟两方面的考虑,视频流的实时分析与处理工作通常在计算能力有限、硬件资源受限的边缘服务器上进行。
- 虽然现在已有非常多的通用视频处理DNN可以很好地完成边缘服务器所需要进行的视频理解任务,但这些DNN的高准确性往往以较深的网络结构、较大的参数总量与较长的处理时间为代价,这些都不是资源受限且实时面临视频流处理反馈的边缘服务器可以承担的。故而,边缘服务器往往采用针对特定任务而进行压缩的轻量级DNN来承担inference任务的执行。
- 轻量级DNN很容易遭受到Data drift的影响,即,轻量级DNN往往只能拥有记忆少部分的数据情形的能力,但当训练数据集于检测数据集的重合程度很低时,这些DNN的推断准确率会大大下降。
- 一种缓解Data drift的方案是continuous learning,即使模型不断学习新的训练数据,不断更新模型的能力。
- 持续学习需要挤占一部分的GPU资源,导致实时推断任务面临视频帧丢失、与下采样等问题,从而导致inference任务在retraining期间的准确性下降。但持续学习所消耗的GPU资源多少,与重训练模型所选择的参数配置直接相关。
由此,文章提出设计ekya的目标:通过合理选择重训练的参数配置与合理分配重训练任务与推断任务的GPU分配,最大化在总时间中所有视频流推断任务的平均准确性。
ekya的核心组建:
- microprofiler:通过历史数据中的参数配置情况与对新时间窗口中的数据采样,预测不同的参数配置所需要的重训练时间与能达到的预期准确性。
- thief scheduler:根据micro profiler的预测结果,使用贪心算法便利所有任务的不同GPU分配情况,得到最终的最佳GPU配置。
实验部分: 文章对ekya进行了实际的部署,并在4个不同的城市数据集上对结果进行验证。并进行了模型scaling能力、baseline模型提升能力与消融实验等多方位的实验,验证了ekya框架的有效性与高效性。
Takeaways
- 文章最大的创新点在于使用continuous learning的方法来解决网络方面的边缘服务器视频解析任务的不足,同时,文章对所提出的框架进行了具体的实际部署,极为有力地证明了框架的有效性与可用性。
2023.4.18
{Hu14}Longke Hu;Aixin Sun;Yong Liu.Your neighbors affect your ratings: on geographical neighborhood influence to rating prediction[A].SIGIR '14: Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval[C],2014
介绍人:王少斌
主要内容
本文利用Yelp上的商业评论数据,对商业评级预测进行了研究。通过数据分析观察到,无论企业的类别如何,企业的评级与其邻居的评级之间都存在微弱的正相关关系。基于这一观察,本文假设用户对企业的评级是由企业的内在特征及其地理邻居的外在特征决定的,并使用这两个潜在因素来模拟业务。实验表明,通过结合地理邻域的影响,比包括Biased MF、SVD++和social MF在内的最先进的模型实现了低得多的预测误差。通过结合来自业务类别和评论内容的影响,预测误差进一步减小。
通过数据分析,作者观察到一家企业的平均评级与其邻居的平均评级呈弱相关,并且评级中的弱正相关与企业和其邻居的类别无关。
构建商业评级预测模型,提出的方法是基于矩阵分解((Matrix Factorization)实现的潜在因素模型。通过矩阵分解,每个用户和每个项目都与一个f维向量相关联,用户向量pu∈Rf×1和项目向量qi∈Rf×1的内积用于近似用户对项目的偏好,构建loss函数进行机器学习,通过已有数据不断学习并调整参数。在构建商业评级预测模型的过程中,逐步加入地理邻居影响、企业类别、用户评论词、受欢迎程度和地理距离因素,并对loss函数进行更新。然后使用平均绝对误差(MAE)和均方根误差(RMSE)对模型进行评估。
通过对各种模型评估结果的对比,得出结论:
- 将地理邻近影响纳入商业评级预测大大减少了MAE和RMSE测量的预测误差。
- 地理距离因素对业务评级预测的准确性有不利影响。这一结果表明,地理距离因子在预测模型中引入了噪声,表明用户和项目之间的地理距离与商业评级预测问题不太相关。
- 在商业评级预测中,地理邻近影响比其他三个因素(类别、评论词和受欢迎程度)的组合更有效。
- 在冷启动预测上,考虑地理邻居和商业类别的模型预测精度最佳。
Takeaways
本篇文章在构建商业评级模型时,使用了基于矩阵分解(Matrix Factorization)的方法,并与KNN算法、Biased MF、SVD++、Social MF等推荐算法进行比较,这些都是比较经典的推荐算法。
2023.4.25
Jiaqian Ren, Lei Jiang, Hao Peng, Lingjuan Lyu, Zhiwei Liu, Chaochao Chen, Jia Wu, Xu Bai, and Philip S. Yu. 2022. Cross-Network Social User Embedding with Hybrid Differential Privacy Guarantees. In Proceedings of the 31st ACM International Conference on Information & Knowledge Management (CIKM '22).
介绍人:刘柯兵
主要内容
User embedding是目前广泛应用于用户表征的技术,user embedding中普遍涉及到用户对于个人隐私问题的担忧;本文提出了DP-CroSUE模型,在保护网络用户隐私的同时,在多个在线社交网络中强化用户嵌入;通过在三个社交媒体数据集上的验证,证实了模型对研究问题的有效性。
DP-CroSUE要完成的工作包括异构网络的差分隐私保护和跨网络信息传递,模型基本结构为:
1、对每种数据采取适当的差分隐私机制,并选取适当的隐私预算;
2、对采取了适当差分隐私机制的图,采用嵌入技术得到初始的用户嵌入,采用GANS寻找锚定用户,以完成用户链接;
3、最终采用GCN模型整合跨网络的信息,得到强化的用户嵌入。
模型实现
一、混合差分模型
1、对用户属性,直接采用ε-差分隐私;
2、对用户好友关系,研究提取同构用户图,对其采用ε-edge-差分隐私:TmF算法先为每一个边计算一个新的,包含噪声数值,再用过滤器决定哪些原始边缘要被保留或替换;TmF算法能够满足ε-edge-差分隐私;
3、对文本数据采用MDP,本研究选择word2vec作为映射函数,将语料库中的每一个词x映射一个词向量;对两个词x和x‘,定义其距离d(x,x’)等于其对应词向量的欧氏距离,并定义相应的算法;
4、确定各差分隐私机制中的隐私预算大小。
二、基于嵌入的社交用户对齐
文章采用特定关系的转换函数进行进入学习,并定义相应的损失函数;在分别得到两个异构网络的用户嵌入Zu1,Zu2后,采用GANs得到映射矩阵W,进行网络对齐;再利用相似性度量CSLS来寻找等效用户,即可以用于链接的锚定用户;
三、网络间GCN嵌入模型
在完成网络对齐后,可以对网络信息进行更新。首先通过将两个网络中对齐的用户节点的信息融合在一起来实现图间传播层;接下来由锚定用户节点直接将信息传递给同一网络中它k跳范围以内的邻居,实现层次图内传播;
四、模型的目标损失函数:包括user embedding损失函数及正则化部分
文章在foursquare,twitter,weibo数据集上评估DP CroSUE,主要考察该模型对用户预测任务的嵌入有效性、对用户性别、职业推断攻击的抵抗性、不同差分隐私机制对用户隐私保护和有效性的影响、新的网络间GCN模型表现,以兴趣预测任务的准确度和隐私推理攻击准确度作为评估标准进行评价:
通过将DP-CroSUE模型与其它模型效果进行对比,得到结论如下:
-
DP-CroSUE在保证融合网络的有效性的同时保证了对用户的隐私保护;
-
通过隐私预算的合理取值,可以较好地兼顾隐私保护与数据信息的利用程度;
-
CN模型在层次图内传播上的表现由于迭代传播,可以为其它应用场景提供参考。
Takeaways
DP-CroSUE利用混合差分隐私机制和新的嵌入模型,更好地在保护用户隐私的同时提高了跨网络信息融合的有效性;GCN模型在网间信息融合上也有着优良的表现,兴趣预测只是作为本文说明的一个应用场景,该模型可以在推荐系统和其他任务的开发中起到作用。
2023.5.1
Marco Morik,Ashudeep Singh,Jessica Hong,Thorsten Joachims,Controlling Fairness and Bias in Dynamic Learning-to-Rank,SIGIR ’20, July 25–30, 2020, Virtual Event, China.
介绍人:王乐祺
主要内容
针对当前learning to rank 算法中的富者愈富问题和不公平问题提出了一个算法修正。
一.问题描述 当前平台推荐系统的机制,是一种平台与用户双向反馈的机制:用户根据平台提供的排名,向平台输出反馈,平台根据用户提供的排名更新反馈。这就导致了两大问题。 第一个问题叫bias,即对于平台上的商家,富者愈富,贫者愈贫;第二个问题叫unfairness,即平台推送的数据的分布不一定能真实反映平台用户的观点的分布(尤其对于一些新闻推送平台)。为了解决这两个问题,作者修改了目前平台普遍采用的Naive Dynamic LTR Algorithm。
二.算法构建 为了将unfairness和bias也纳入算法更新排名的考虑,作者分别提出了用来反映算法缺陷程度的metrics; 同时,为了估计用户对平台展示内容感兴趣程度的分布,作者设计了一个机器学习算法,用平台可以获取的信息:用户提供的反馈、用户对于平台推荐内容的点击的概率分布,构建了一个loss函数,它的概率期望经计算,是与通过真实的、平台不可见的用户兴趣程度构建起的loss函数是一样的。 最后,作者将上述两个metrics纳入算法,定义了新的LTR算法:fairco algorithm。
三.算法表现 通过在仿真环境与现实场景中进行测试,fairco算法在保证了排序质量的同时减少了不公平性;相当程度上克服了富者愈富的问题;对于不同的用户分布,它的排序质量与公平性也都保持良好。
2023.5.3
Leigang Qu, Meng Liu, Jianlong Wu, Zan Gao, Liqiang Nie. Dynamic Modality Interaction Modeling for Image-Text Retrieval. SIGIR'21.
介绍人:黄妮朵
主要内容
这篇文章关注图像文本检索任务,提出了一个用于图像文本检索的统一模态交互建模框架,称为DIME。具体来说,文章首先设计了四种类型的单元来执行不同的内部交互操作和用于路由学习的动态路由器;随后,文章引入了一种用于路径决策的语义路径一致性正则化方法。最后,文章使用两个benchmark数据集对所设计的DIME框架进行了实验研究,实验证明DIME模型具有一定的可用性与超越baseline模型的准确性。
- Image-Text Retrieval任务是一种非常经典的多模态感知于交互任务,目前已延伸出非常丰富的下游任务、越来越受到学界与工业界的关注。图像文本信息检索任务往往需要合理地解决下述两个问题:
- Intra-Modal Reasoning
- Cross-Modal Alignment\然而,现有的方法往往深度依赖于对于特定数据集特征的处理于label标注,或者使用静态的结构,使得即便面对最简单的图片,模型的推断过程仍然十分冗杂。
- 文章关注到了现有的问题,设计了一种基于四个单元cell与动态路由组建的方式,更好地模拟人脑处理图像/文本信息的直觉、以解决上述两个challenge:
- Rectified Identity Cell,人往往关注图片/文本的部分片段,模仿这一过程,使用ReLU函数使用突出关键部位的影响、排除无效冗余信息的干扰。
- Intra-Modal Reasoning Cell,捕捉模态内部局部的语义依赖,参考Attention is all you need. 设计了一种multi-head self-attention mechanism。
- Global-Local Guidance Cell,使用一种模态的全局信息来调节另一模态的局部学习。
- Cross-Modal Refinement Cell,为了进一步弥合语义差距并丰富表示,通过探索局部局部跨模态交互来细化片段特征。
- Soft Router,网络的每一层都有由上述四个cell组成,作者在此设计了一个soft router以调节cell信息的输入方向。
Takeaways
文章设计了一个动态的神经网络结构,在提高网络处理效率的同时,也对网络的学习能力进行了提升。
2023.5.16
Xiao Liang, Zheng Yang, Binghui Wang, Shaofeng Hu, Zijie Yang, Dong Yuan, Neil Zhenqiang Gong, Qi Li, and Fang He. 2021. Unveiling Fake Accounts at the Time of Registration: An Unsupervised Approach. KDD’21
介绍人:王少斌
主要内容
传统的虚假账户检测方法有所局限:攻击者可以对抗性地错误标记账户,将不正确的标签注入训练集;虚假账号在被检测到之前,可能已经进行了各种恶意活动。针对这些问题,本文提出了一种无监督的方法,用于在注册时检查账号是否是假账号。本文主要研究步骤如下:
一、对来自微信的数据集进行数据分析,得到与虚假账户最有关联的特征
二、构建偶图捕捉特征与注册账户之间的关系,使用权重量化异常程度,权值越大,结点异常程度越大,其中每个节点代表一个特征或一个注册帐户,两个节点之间的每条边意味着注册帐户具有该特征。文章设计了一种统计方法来为每个特征和每个注册帐户分配初始权重,使用客观数据对每个特征节点进行权重的初始化,并使用信念传播迭代更新每个节点的权值。将每个注册节点的权重初始化为其连接的特征节点的平均权重。至此,已经可以使用特征节点的权值对新注册账号的权值进行预测。
三、对于偶图中的每对R节点u,v∈R,如果u和v之间的相似性大于阈值,在u和v之间创建一条边(u,v),将u和v之间的相似性sim(u,v)定义为u和v的共享特征的最终权重之和将偶图中的注册节点,构造为一个加权图,称为注册图,新图中边(u,v)的权重设置为相似度sim(u,v)。至此,可以使用注册图对新注册账号是否异常进行预测。
四、模型评估:通过实验可得,该方法在不同训练节点下和不用噪音标签数量下,相比传统方法均有更好的性能。
Takeaways
文章设计了一个无监督的方法,在新账户注册时便可检测是否是虚假账户,并对于有噪音标签的数据集也能得出相比于传统方法更好的性能。
2023.5.23
Kaiting Lai, Yinong Long, Bowen Wu, Ying Li, and Baoxun Wang. 2022. Semorph: A Morphology Semantic Enhanced Pre-trained Model for Chinese Spam Text Detection. In Proceedings of the 31st ACM International Conference on Information & Knowledge Management (CIKM '22)
介绍人:刘柯兵
主要内容:
中文垃圾文本检测对于社交媒体至关重要,基于汉字字形的多样性,垃圾邮件发送者经常将垃圾邮件内容包装成视觉上相似的文本以欺骗模型,但确保人们理解。本文提出:将人类对这些垃圾文本的认知本质引入到检测模型中,通过设计一个预训练模型,从零开始学习汉字的形态语义并表示其上下文含义;此外,结合能够捕捉汉语形态特征的预训练模型,引入了一种新的数据扰动方法,增强模型对对抗性样本的鲁棒性。模型的主要结构如下:
-
1、text2image输入层:以图像输入作为字形的输入,将单个汉字转化为单通道灰度图像,得到表示字符的图像向量;
-
2、character representing:用若干个cnn和最大池化层处理输入的图像向量,得到表示字符嵌入的embedding向量;
-
3、contextual representing:利用transformers的多头注意力机制对整个句子进行表示;
-
4、binary classification:最后对输入的句子向量进行二分类,判断文本是否为垃圾文本;
在输入层加入数据扰动:根据输入层得到的像素矩阵,通过计算余弦相似性,找到视觉上最相近的字符,以一定概率进行替换,以增强模型的泛化能力;
在数据集上的验证证明了模型在垃圾文本检测问题上的高效性与鲁棒性,通过预训练和微调,适用于该类其它的下游任务;
Takeaways
文章设计了一个完全基于字形的文本表示与处理方法,用于对强对抗性的垃圾文本的筛选与检测;通过预训练与微调模型,并加入数据扰动提高模型的鲁棒性,适用于各种垃圾文本检测的下游任务
2023.6.6
Yiyue Qian et,al. Rep2Vec: Repository Embedding via Heterogeneous Graph Adversarial Contrastive Learning. (KDD '22).
介绍人:黄妮朵
主要内容
本文研究了存储库嵌入问题,并开发了一个新的模型Rep2Vec来解决这个问题。具体来说,为了描述存储库数据上的关系和内容信息,文章首先构建了由GCN进一步编码的Rep-HG;然后,对Rep-HG进行对抗性攻击,为对比学习模块生成更具挑战性的对比对,以同时在节点视图和元路径视图中训练编码器。随后,文章提出了一个双流对比学习模块,该模块将对抗图和原始图的对比学习集成在一起,以优化编码器。最后,预训练的编码器被微调到下游任务,并通过知识提取模块进一步增强。 在恶意存储库检测任务和存储库链接预测任务上的大量实验证明了Rep2Vec与最先进的方法相比的有效性。
Takeaways
文章关注Node Embedding问题,使用对比学习、对抗学习的方法增强语义,获得更强的节点表示。同时,文章组织结构非常清晰。
2023.6.21
Haitao Mao et, al. Neuron Campaign for Initialization Guided by Information Bottleneck Theory. (CIKM' 21)
介绍人:刘柯兵
主要内容
- 本文考虑通过优化DNN模型的结点初始化来提升模型的收敛速度和拟合能力。
- 采用信息瓶颈理论,通过对DNN建模,将神经网络的信息传递过程简化为从输入到隐层,从隐层到输出,利用互信息的最大值作为评判结点初始化参数“优劣”的标准;
- 利用马尔可夫状态转移条件、符合一定随机分布的变量的方差与其信息熵之间的关系,量化互信息的计算;
- 最后提出基于该评价标准的神经元竞争初始化机制:大量初始化远超模型需要的数量的神经元,利用基于信息瓶颈理论提出的判断标准,计算得分最高的神经元,选择其作为网络的初始化结点。同时应该注意各结点之间的正交关系。
Takeaways
本文关注神经网络初始化问题,从信息论的角度出发,提出利用信息瓶颈理论优化网络初始化的新思路。
2023.6.27
Hyeshin Chu et,al. An Empirical Study on How People Perceive AI-generated Music. (CIKM '22).
介绍人:罗俊韬
主要内容
本文研究了人对AI生成音乐的主观感受评价。具体来说,论文首先建立了对现有40种生成音乐的AI模型的统一分类方法,并从这些模型的研究中提取出所有与主观评价相关的指标,把这些指标分类后总结出九个用于本文实验使用的主观指标。随后实验筛选出4个在训练方式、输入数据、算法等方面均具有代表性的SOTA模型用于生成实验所需的音乐片段,然后在网上招募100名被试者,进行了背景调查-主观评分-后续实验三步实验步骤。根据实验的结果,作者对比了四个模型生成的音乐在上述九个指标的区分度,并根据不同AI模型的得分情况从模型训练方式/输入数据等角度试图对得分进行解释。论文最后作者给出了对于AI生成音乐主观评价指标的感想,以及通过本次实验得到的收获。
Takeaways
文章首次系统性地给出了对所有音乐生成模型的统一分类标准,同时首次提出了一套AI生成音乐的主观评价指标与相关指标的定义,填补了该领域的空白。文章进行的调研工作充分,实验设计合理,流程详细可靠。
2023.7.5
Ye, J., Liu, Z. et, al. Learning the Evolutionary and Multi-scale Graph Structure for Multivariate Time Series Forecasting. (KDD'22)
介绍人:黄妮朵
主要内容
本篇文章关注多变量时间序列的预测问题。时间序列预测问题在金融、医药等领域都有诸多十分重要的运用,随着机器学习的兴起与不断繁荣发展,目前自回归方法在单变量时间序列问题的应用已经非常成熟,然而,在多变量时间序列预测问题上,自回归方法的效果并不理想;现有方法主要使用CNN-RNN复合网络处理该问题,其中,CNN、RNN结构分别用于处理intra-inter serial的依赖信息,然而,CNN网络无法对全局信息进行精细的调控;由此,一部分研究开始使用GNN等方法来描述不同serial之间的相互依赖关系。文章关注到现有的多变量时间变量序列所使用的GNN方法主要基于给定的/自学习的固定网络结构,这并不利于适应不断变化的外界情况与变量间依赖关系,然而,实时为所有时间scale的每一对研究的变量之间维护自学习变量间关系的网络将会引入极大的计算量,在现有算力的前提下并不现实。于是,文章提出了一个层级式时间界域图网络学习框架ESG,用于更精确地捕捉多变量时间序列预测问题的相互关系。
ESG以多变量时间序列作为输入,分别经历不同时间尺度的学习层,最终的输出为各时间层的加权和。其中每一层中都有三个核心组建,分别为temporal evolution module, evolving graph learner, graph convolution module。temporal evolution module根据上一层中的输出与原始的时间序列综合学习本层的各变量的原始表示,亦即为各变量的inter-serial特征信息。evolving graph learner根据这些信息,将变量以当前时间尺度的粒度进行变量特征划分,并根据划分所得的特征表示与原始特征进行本模块的学习表示初始化,随即输入多层感知机,进行当前时间尺度下变量间相互作用的学习,构筑描述该信息的邻接矩阵。最后GCN模块根据上两个模块的信息,进行最终的组合,得到当前层的输出。
文章在4个现实数据集上对ESG的性能进行综合评价,验证了ESG的有效性与高效性。
Takeaways
文章对多变量时间序列预测问题的研究现状进行了完备的介绍,同时,使用一个具体的实例对文章所提出的模型结构进行了可解释性的解读。
2023.7.12
Qingping Yang, Yixuan Cao, and Ping Luo. Numerical Tuple Extraction from Tables with Pre-training.(KDD '22).
介绍人:刘柯兵
主要内容
本文聚焦在以表格为存储形式的数据结构的信息处理问题。
文章背景:目前在互联网和各个专业领域,大量数据信息以表格的形式存在和存储。表格形式数据与关系型数据库不同,高度抽象的数据结构便于自然语言阅读与理解,但对计算机处理来说较为困难。
文章motivation:表格中包括层级结构和水平结构两种视觉关系,表达了表头信息对表内数值的描述。以抽取数值-表头信息元组的形式提取表格型数据结构的信息。
- 数值单元不包含表格逻辑信息;
- 表格的视觉信息可以用卷积神经网络来处理
- 利用对比学习的训练任务对以MLM为预训练任务的bert模型进行补充
模型任务与结构:TableLM以表格数值单元格和非数值单元格的tokens作为输入,包括了文本信息和视觉信息两部分,利用N层堆叠的Transformer进行学习,最终输出各单元格的hidden vector,再对各单元格之间是否具有描述关系进行01分类,得到表格中所有单元格互相之间的描述关系,最后提取出数值-表头信息元组。
在预训练任务部分,对MLM任务进行改进,屏蔽表格中部分非数值元组的信息后,分别利用contextual information和特殊tokens对屏蔽部分进行还原,损失函数为两种还原结果的正、余弦相似度之比。
文章在三个大型表格数据集上对TableLM的准确率与F1-score进行评价,证明了其相对于baseline的性能提升;消融实验进一步证明了TableLM模型各部分的有效性。
Takeaways
文章利用常见的深度学习和机器学习方法,解决不常见的表格型数据处理问题,对机器学习方法的应用和创新很具有启发性,同时在大型数据集上验证方法的有效与高效性。
2023.7.23
Tianyue Zheng, Ang Li, Zhe Chen, Hongbo Wang, and Jun Luo. 2023. AutoFed: Heterogeneity-Aware Federated Multimodal Learning for Robust Autonomous Driving. (MobiCom'23).
介绍人:罗俊韬
主要内容
文章动机:目前自动驾驶领域存在明显的异质性问题,包含注释异质性、数据模态异质性和环境异质性。与此同时,先前与自动驾驶相关的联邦学习工作主要集中于同质性场景/单一模态的异质性场景。而在联邦学习的聚合阶段,缺乏合适的模型选择机制会导致部分发散的模型影响聚合后全局模型的性能。
文章贡献:
- 提出了AutoFed,第一个专注于异质性场景下自动驾驶问题的联邦学习框架。
- 设计了一个基于交叉熵的损失函数来训练神经模型以处理在训练期间可能被错误地视为背景的未标记区域,解决标注异质性问题。
- 使用模态间autoencoder对丢失的传感器模态进行数据插补,从不完整的数据模态中学习并为缺失的模态生成合理的值,解决模态异质性问题。
- 提出一种基于k-d树的客户端选择机制,通过消除发散模型来处理环境异质性。
系统架构:
- 对传统物体检测(OD)网络RPN的改进:在传统OD两层网络架构中的RPN阶段,修改了RPN损失函数的cls二值交叉熵项。这是基于一个合理的假设:全局模型是用平均高质量的注释充分训练的,因此比来自少数不称职客户(缺乏标注)的注释更值得信赖。如果发现锚区域的特征图与车辆相似,会以分类器结果作为标注。
- 多模态数据对齐、特征融合与插补:首先以鸟瞰视角将3D激光雷达数据降为2D平面图像数据,用相同的特征提取器与2D雷达热力图一起提取特征图,然后利用交叉注意机制生成掩码完成不同模态数据的融合。最后基于autoencoder训练了一个能够从单一模态预测另一模态数据的组件,完成模态插补。
- 包含k-d树选择机制的联邦学习架构:每轮联邦学习收集客户端模型参数后,根据模型权重在服务器构建k-d树。遍历k-d树上每一个模型,以平均模型距离和为标准选择其中M个最集中的模型作为本轮聚合的来源,然后将聚合得到的全局模型发送回客户端。
实验设计:
- 优越性设计:定义了Metrics IoU,以Standalone, Standalone+, FedAvg, FedCor, FedProx为Baseline,对比不同IoU阈值下的平均精确度和平均回归,AutoFed表现均优于其他Baseline。
- 同时设计了跨域健壮性(不同传感器组合、不同天气情况)、消融实验、超参数选择讨论(如何选择pth和客户端子集的大小)的实验。
Takeaways
文章提出了一个专注于解决自动驾驶(AD)领域异质性问题的联邦学习框架,以鸟瞰视角的雷达 + 激光雷达异质数据进行车辆识别(VD)任务的场景设计了实验,获得了较好的效果。研究结构完整,层次分明,实验具体详细,面面俱到。
2023.7.26
Enming Yuan, Wei Guo, Zhicheng He, Huifeng Guo, Chengkai Liu, and Ruiming Tang. 2022. Multi-Behavior Sequential Transformer Recommender. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '22).
介绍人:杨佩青
主要内容
推荐算法所用的数据有两个明显的特征,时序性及多表现。顺序性能够体现用户的兴趣类型的持续变化以及多元性,而多行为可以提供除了目标行为意外的行为以减轻数据的稀疏性的影响。但在此前,结合了这两特征的推荐算法较少,本文提出了一个基于Transformer的时序推荐算法以充分利用数据特征。该模型在给定某个用户的行为和物品序列后,可以预估针对某个物品在下一个时刻做出目标行为的概率。 多行为的顺序数据同时也带来了许多挑战,作者总结出了三个挑战:
- C1:现有的推荐算法习惯将物品和行为分开来涉及模型,但是针对物品的交互行为可以提取出细粒度的多表现依赖关系。如果在细粒度的物品维度将异质的多行为依赖建模为第一个挑战。
- C2:不同行为的依赖关系不同,比如点击与购买并不能视为影响力相同的行为,但是现有模型并未对不同行为加以区分。如何去有效模拟不同多表现的顺序依赖关系是挑战二。
- C3:目标行为(例如购买)的数据是非常稀疏的,但是表现之间也会有对立的情况,加上多表现数据充足,在作为supervision signals时容易引入performance degradation和negative transfer的问题。挑战三则为如何有效挖掘用户多行为顺序。
针对以上三个挑战,提出的模型分为三部分,MB-Trans(Multi-Behavior Transformer),MB-SPG(Multi-Behavior Sequential Pattern Generator)及BA-Pred(Behavior-Aware masked item Prediction module)。
- MB-Trans是在多头自注意力结构上将行为映射到Q,K,V的计算中,并在attention计算中加入了两个时刻所做的行为对的权重系数。同时为了加深顺序模式,在每个head的attention计算中加入了MB-SPG生成的时序值。
- MB-SPG为一个桶算法,目的是encoding不同物品-行为对的时序关系,由于时序长短个数并不平衡,于是引入一个桶算法,将不同距离划在同一桶中并使用相同的表现形式。针对不同的head加入随机事件。
- BA-Pred是在MMoE的基础上设计的模块,目的是提取不同行为之间的相似性。为此作者设计了behavior experts和shared experts。为防止出现performance degradation等问题,采用了将现有数据随机生成空缺值用于损失函数的计算。
作者在三个不同电商数据集上,与当前多表现行为顺序模型进行对比,设计出的模型相比于其他四个模型都在HR及NDCG指标上有较好表现。
Takeaways
作者从数据特征出发,找到领域上针对这些特征有较好的现有模型进行目的性的改进,所采用的Transformer还有MMoE都是常用的模型,再结合上有目的性的训练,能达到很好的效果。
2023.8.7
Yang, Y., Huang, C., Xia, L., & Li, C. Knowledge Graph Contrastive Learning for Recommendation. In SIGIR’2022
介绍人:黄妮朵
主要内容
知识图谱已被用作有用的辅助信息来提高推荐质量。在这些推荐系统中,知识图谱信息通常包含丰富的事实和项目之间的内在语义相关性。然而,此类方法的成功依赖于高质量的知识图谱,并且可能无法学习质量表示,面临两个挑战:i)实体的长尾分布导致 KG 增强项目表示的监督信号稀疏;ii) 现实世界的知识图谱通常是嘈杂的,并且包含项目和实体之间与主题无关的连接。这种 KG 的稀疏性和噪声使得 item-entity 依赖关系偏离了反映它们的真实特征,这显着放大了噪声效应,阻碍了用户偏好的准确表示。
文章设计了KGCL来解决上述问题。KGCL包括三个主要模块:1)关系感知知识聚合。设计了一个关系感知知识嵌入层,以反映知识图连接结构上的关系异质性;2)知识图谱增强。利用外部项目语义相关性来指导跨视图自监督信号的数据增强;3)知识引导的对比学习。将我们的知识图增强模式与图对比学习范式相结合,旨在提高基于图的协同过滤在模型准确性和鲁棒性方面的表示能力。
在这项工作中,提出的 KGCL 框架在知识引导的对比学习范式下进行了探索知识图语义和缓解推荐的数据噪声问题的初步尝试。基于估计知识模糊项目对用户偏好学习的影响,进行 KG 感知数据增强以研究辅助自我监督信号。这项工作为知识感知推荐系统开辟了新的研究可能性。与各种最先进的方法相比,对几个真实世界数据集的广泛实验证明了 KGCL 的优越性。
2023.8.17
Hang Zhu, Varun Gupta, Satyajeet Singh Ahuja, Yuandong Tian, Ying Zhang, and Xin Jin. Network planning with deep reinforcement learning.(SIGCOMM '21).
介绍人:刘柯兵
主要内容
采用强化学习解决网络拓扑结构的最优化搜索问题。
文章背景:网络拓扑结构(骨干网络的拓扑结构)规划包括IP层和光纤层的结构及连接,如何通过优化网络结构规划,在满足网络操作要求和鲁棒性的前提下尽可能降低网络成本,是网络规划的重要问题。当前采用的ILP方法以网络IP层和光纤层的成本最小化作为目标函数进行优化,在小规模网络上效果很好,但存在对复杂拓扑结构的网络模型处理困难的问题。
文章motivation:提出了将深度强化学习应用于复杂拓扑结构的网络规划的方法。
- 强化学习适合解决多步骤决策问题,网络结构规划正是这样的问题;
- 强化学习在作用上与人工训练的应对复杂网络拓扑结构的启发式方法相同;
模型任务与结构:本文采用两步骤混合模型,同时利用强化学习和ILP方法的优势对复杂拓扑结构进行网络规划。在第一步,将网络节点拓扑进行转换,把表达节点关系的网络图转化为以网络节点的连接关系作为研究对象的图,再利用图神经网络对其进行学习,输入强化学习网络。本文采取演员-评论家算法,在对每一个网络迭代策略进行评估的同时,利用价值函数对当前策略进行评估,由两个评估结果共同得出当前网络规划策略的得分。接着与规划评估器(plan evaluator)进行交互,由规划评估器检测当前网络结构是否满足鲁棒性、可靠性、网络功能与流量需要。在得出较优的策略后进入第二步,由ILP方法在当前方案附近搜索更优的结果。
考虑到实际场景下使用强化学习很难直接找到最优策略,本文采用松弛因子α来控制策略的最优性和时间成本。α决定了第二步ILP的搜索范围的大小,范围大小与最优性存在正相关,相应与时间成本为负相关。
模型实现:采用openAI的SpinningUp框架实现强化学习部分,在规划评估器部分,采用LP问题对网络的流量和故障承受性能进行评估。同时模型采用源聚合和故障状态检测两种方法加速训练(根据网络规划设计相关原理加速迭代,强化学习的本质没有改变)
模型验证:在五种复杂程度不同的网络拓扑结构上进行验证,同时检验了短期、长期规划性能,验证结果表明本文提出的模型在简单结构和短期规划上几乎能够达到ILP能够达到的最优解,而在复杂网络规划和长期规划中,本文的模型能以小于ILP用时十分之一的时间成本达到优于ILP的策略,以此节省了人工成本,并实现网络规划自动化。
Takeaways
文章采用深度强化学习方法处理复杂拓扑结构的网络规划问题,使用actor-critic算法进行学习,解决了现有方案处理复杂问题时存在的高成本问题。并与现有方案结合,在策略的最优性和搜索时间的可控性之中做出权衡,进一步提升模型效果。
2023.8.23
Zhen Qin, Yicheng Cheng, Zhe Zhao, Zhe Chen, Donald Metzler, and Jingzheng Qin. Multitask Mixture of Sequential Experts for User Activity Streams. In SIGKDD 2020.
介绍人:黄妮朵
主要内容
工业级大规模推荐系统应用中经常需要同时优化多个目标,譬如用户满意度与参与度,因此多任务学习应运而生。然而,当前推荐系统中大多数的多任务学习模型架构只考虑了非序列化的特征输入(譬如query与context),没有特别考虑用户行为序列的建模。显式地针对用户行为序列的建模会帮助多任务模型引入时序依赖,从而更准确的预测用户将来的行为。另外,用户行为序列可能会包含多种异构的数据源,譬如搜索日志、浏览日志等,由于不同类型的数据稀疏性等方面的特性会有较大区别,因此在一起建模学习时也需要谨慎处理。
本文主要研究了如何在多任务学习场景中针对用户行为序列进行建模,提出了一套新颖的模型框架MoSE(Mixture of Sequential Experts)。在当前最新的MMoE多任务学习框架中使用LSTM针对用户行为序列进行显式建模。同时,本文也通过离线实验以及GMail的线上实验证明了本文的有效性。
Takeaways
本篇文章是Google在KDD 2020的一篇关于多目标优化的工作,在MMoE多任务框架基础上引入LSTM显式建模用户行为序列提升多任务学习效果。
2023.8.30
Kai Huang and Wei Gao. 2022. Real-time neural network inference on extremely weak devices: agile offloading with explainable AI. In Proceedings of the 28th Annual International Conference on Mobile Computing And Networking (MobiCom '22).
介绍人:罗俊韬
主要内容
论文针对现实中嵌入式设备执行神经网络任务存在的困难,提出了新型架构AgileNN,解决了传统本地NN法随模型复杂度降低而预测性能差、边缘计算法压缩率导致的预测性能差、NN Partitioning法带来的本地计算成本高的问题。实现了实时、准确、轻量级、自适应的嵌入式神经网络运行架构。
系统架构如下:
- 本地部分:包含预训练好的特征提取器和执行本地预测任务的NN。将输入数据通过特征提取器区分出Top-k重要以及剩下部分。Top-k重要的特征在本地NN执行预测任务,剩下部分被压缩后发送到云端进行预测。将云端返回的预测结果+本地的预测结果加权求和作为本次任务预测结果。
- 云端部分:包含预训练好的NN,接收来自嵌入式设备的压缩特征进行预测,然后把预测结果发回嵌入式设备。
结构执行方式如下:
- 离线训练:AgileNN 将 NN offloading中所需的计算从在线推理迁移到离线学习,即在架构上线前先离线训练好本地NN,云端NN和特征提取器,在XAI工具帮助下判断特征重要性。
- 在线预测:完成上述三个部分的训练后,将特征提取器和本地NN部署到嵌入式设备中,再将云端NN部署到服务器上,按照架构设计模式执行预测任务。
实验结果: 以图像识别任务作为实验任务,针对三类现有方法选择Baseline,完成了多项实验。包括准确度与延迟关系实验、压缩率与准确度实验、模型能耗实验等。实验设计全面且合理,AgileNN表现均达到或优于Baseline最好水平,充分体现了AgileNN的灵活性和优秀性能。
Takeaways
本篇文章基于嵌入式小设备上运行深度学习模型任务的研究方向,提出了新型架构AgileNN,结合云端推理和本地推理保证推理准确率,引入XAI工具完成特征重要性判断。在图像识别任务上超越了所有传统方法以及SOTA的NN Partitioning方法,具有很高的鲁棒性,对设备的计算能力、内存大小等兼容性很强,具有较强的工业价值。
2023.9.6
Shibal Ibrahim, Wenyu Chen, Hussein Hazimeh, Natalia Ponomareva, Zhe Zhao, and Rahul Mazumder. 2023. COMET: Learning Cardinality Constrained Mixture of Experts with Trees and Local Search. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '23). Association for Computing Machinery, New York, NY, USA, 832–844.
介绍人:杨佩青
主要内容
主流的Sparse MoE采用的是top-k门去为每个sample筛选不同的专家。但是top-k gate的结果并不确定,并可能达到局部最优解。该论文提出了一种优化门,基于决策树的方式达到基数约束,可选区小于等于k个的专家。同时提出了一种基于本地搜索的方式,优化用于sparse MoE的各种门,避免达到局部最优解或者最终结果不收敛。
对于基数k创建k个不同的决策树,sample从根节点开始,中间节点根据不同的sample会计算出走向其左子树与右子树的概率,对于每个叶子节点(即专家)都能生成走向其的概率。 由于决策树采用hyperplane splits,作者采用了一种激活函数,使每个决策树选取的expert概率{Pr(E1)...Pr(En)}为离散的,然后采取entropy regularization将离散的转为one-hot表达形式,并由此提取出最终的训练函数。保证再技术限制的情况下,依旧可以采用一阶的训练方式,如SGD。
由于该基于树的门有概率面临局部最优解。为此作者引入了local search思想,采用一个排列组合矩阵P与门函数相乘,达成改变expert顺序的效果。在绝大多数情况下,1-10个epoch内,P可与expert以及gate一起训练,并获取到一个相对最优的P。再在P确定后,继续训练MoE基础模型。
该基于树的基数限制的稀疏MoE可以用于不同领域,比如NLP,推荐系统与CV,在每个领域中,提出的基于树的门相比于传统top-k/hash等门都有所提升。基于local search的优化方案也在一定程度上优化了门。
Takeaways
本篇文章的创新点易于理解,结合清晰的树形结构可以使专家的选择赋有可解释性,基数限制的条件也让每个sample有更多空间选择合适的小于等于k个专家。与此同时也提供了一些将连续输出转化成离散输出的激活函数与归一化方式,值得借鉴。
20233.9.13
Liu, Y., Tan, Z., Wang, H., Feng, S., Zheng, Q., & Luo, M. (2023). BotMoE: Twitter Bot Detection with Community-Aware Mixtures of Modal-Specific Experts. SIGIR2023.
介绍人:黄妮朵
主要内容
在机器人检测领域,研究历程经历了不同阶段。一开始,恶意机器人以重复和有害的内容发布,这时采用了基于特征的方法。随后,机器人开始篡改用户的元数据,引入了基于文本的方法,包括自然语言处理技术。最后,机器人开始发布盗用真实用户的推文,研究领域引入了基于图的方法。目前的方法存在两个主要问题。首先,机器人可以手动修改元数据、发布文本(可能是从正常用户抓取的文本或由大型模型生成的文本)以及进行社交活动,从而破坏了检测方法中的特征可靠性。其次,机器人的设计来源、思路和范式各不相同,因此检测方法的泛化性面临挑战,需要应对社区多样性的问题。
对此,文章设计了专门的三模台特征提取器、使用社群感知的MoE弥合社群泛化性问题,同时,开展了较为全面的实验来验证合理性、有效性。
Takeaways
文章提出一种新的Twi-bot检测方法,设计社群感知的混合专家系统,分别对bot三种模态的重要特征(feature, text, graph)进行学习,以达到更好的检测效果。
2023.9.20
Ma Z, Sun A, Yuan Q, et al. Topic-driven reader comments summarization[C]//Proceedings of the 21st ACM international conference on Information and knowledge management. 2012: 265-274.
介绍人:刘柯兵
主要内容
基于主题提取的用户评论总结。
本文首先定义了一种总结用户评论的方法:不同于基于点赞数或者用户本身的权重,对一篇博客或文章下的评论进行排序和展示,本文提出对一篇文章的所有评论,提取出潜在的主题,再根据主题对评论进行聚类,在聚类中选择出最具有代表性的评论进行展示,使得用户可以在浏览文章或博客时,从评论中获得更多有用或扩展的信息。
潜在主题提取采用了基于LDA(latent Dirichlet Allocation)方法的两种主题提取方法:MSTM和EXTM,两者的共同点是将文章看作主文档,将评论看作从文档,利用LDA模型从主题分布和对应的词袋中生成主文档和从文档。而二者的区别,也是本文的创新点之一,在于EXTM是MSTM的延申。在每个评论只有一个主题的假设前提下,MSTM认为从文档(即评论)的主题一定与主文档(新闻)相同,而EXTM认为评论的主题可以来自一部分与新闻弱相关或无关的扩展主题。
基于这一点,二者在算法的设计上存在细微差别:EXTM在MSTM的基础上,在根据新闻-评论关系选择从文档的主题分布时,利用一个符合二项分布的门,控制该主题是来自主文档的分布,或拓展主题的分布。
根据文档生成模型逆向推测主题的分布的方法与LDA相同,在本文中选择了吉布斯采样来获得潜在主题的可能分布。
在完成主题提取后,本文根据主题对评论进行聚类,并选择MMR(maximal marginal relevance)和R&L(rating and length)两种方法选择每个聚类中的代表评论。
MMR的思想是计算每条评论与中心点的相关性(cosine);RL加权计算了每条评论的点赞情况和评论长度,作为排名依据。
数据集 数据集是1005条雅虎新闻文章及其评论,用困惑度作为主题提取的评估标准。困惑度随主题数量设置的增大而减小;当主题数量相同时,EXTM的困惑度远低于MSTM;对EXTM,困惑度随拓展主题/主文档主题比值的增大而减小。
以上结果说明EXTM的主题提取方法更加自然准确,且提取效果随主题拓展程度增大而提高。
模型评估 在50篇文章上选择3个最主要主题,对每个主题选择5条代表评论,对主题提取和评论选择方法进行人工打分,从评论的主题内相关性、主题多样性和主题相关性(评论主题与新闻内容相关性)三个角度打分。
主题提取方法包括MSTM EXTM和基于聚类的方法的CLUTO,评论选择方法包括MMR和R&L,最终EXTM-MMR是最优的潜在主题提取和评论选择组合,提供了基于主题的文章评论总结的方法流。
Takeaways
文章提出关注网页评论与被评论文章的主题相关性,并根据具体问题改进LDA模型解决这一问题,在想法和方法上具有创新性。
2023.9.30
Xuanlei Chen, Yan Zhao, and Kai Zheng. 2022. Task Publication Time Recommendation in Spatial Crowdsourcing. In Proceedings of the 31st ACM International Conference on Information & Knowledge Management (CIKM '22).
介绍人:罗俊韬
主要内容
针对Crowdsourcing中的Task Assignment问题,创新性地从任务发布者视角提出解决方案:根据历史发布次序,使用Transformer Self-attention机制来捕获任务发布序列的多视角关系,预测一个建议发布时间,并且对建议发布时间内的发布的任务采用MCMF/贪心算法分配worker,打到了更优化地解决Crowdsourcing中Task Assignment问题的效果。
框架设计:
- Data Source:以通过历史任务发布序列数据获得的请求者-任务交互数据和请求者-时隙交互数据为输入,首先构建了两个图神经网络,即请求者任务和请求者时隙图神经网络作为后续模型输入。
- Task Publication Time Recommendation(TPTR):包括三个主要部分:任务相关表示学习、多视角关系学习和任务发布时间预测。使用交叉图神经网络来学习与任务相关的表征(包括任务embedding、任务发布时隙embedding和任务请求者embedding)。接下来,采用Transformer的self-attention机制,找到具有位置编码的任务发布序列的多视角关系,并得到它们的embedding。最后构建了一个全连接层,通过将任务发布序列的表示和相应的任务请求者的连接作为融合嵌入来预测任务发布时间。
- Task Assignment:根据预测出的任务发布时间,计算每个任务对应的可用工人集(AWS),然后分别采取朴素贪心算法和最小开销最大流(MCMF)算法为每个任务分配工人,计算最终的任务完成比。
实验设计:
- 数据集:一个真实的社交媒体数据集Gowalla,这是一个从基于位置的社交网络收集的开源签到数据集。为适配论文研究的问题定义,对数据集数据在符合统计学规律的情况下做了一定的补充。
- 实验内容:
- 消融实验:将TPTR部分不同组件排列组合作为基线,测试各组件重要性以及TPTR的性能。体现出框架各组件的重要性以及TPTR优秀的性能。
- 算法比较:对比了任务分配环节的贪心算饭和MCMF算法优劣势,得出MCMF在大部分场景下更优的结论。
Takeaways
文章创新性地试图从Crowdsourcing中的任务发布者角度优化Task Assignment问题,即给定任务发布者一个推荐发布时间,再按此时间进行任务分配。文章采取了不同于以往研究仅着眼于工人或任务分配的视角,使用了Transformer和self-attention机制,在自定义数据集上的实验取得了较好效果。
2023.10.11
Kibum Kim, Dongmin Hyun, Sukwon Yun, and Chanyoung Park. 2023. MELT: Mutual Enhancement of Long-Tailed User and Item for Sequential Recommendation. In Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '23).
介绍人:杨佩青
主要内容
该论文主要提出一种普适的方法,以减轻用户和物品的长尾效应对顺序推荐系统的影响。当前只有单独针对于用户或者物品的长尾效应的模型,而把这两个维度结合起来的模型却近乎没有。实验也证实当前单纯地把针对这两个维度的模型结合起来的方式甚至会对推荐效果有些许恶化。在此基础上,作者提出一种encoder-generator结构用于减轻用户和物品的长尾效应。
在数据预处理上,将用户和物品采用encoder(可以用随意一个encoder)将某个用户的物品顺序序列表示为d维。模型则分为模型分为两个分支,一个为用户分支,一个为物品分支。
用户分支的数据经过encoder后再通过一个generator生成一个用户的表达。为了使得该generator同样适用于尾部的用户,作者仅采用头部用户进行训练。并且只采用头部用户的部分序列作为输入。再将部分顺序序列通过generator得到的值与原始数据(完整的序列)通过encoder得到的数组取差值作为损失函数,以便使该generator有能力通过用户部分的数据得到一个完整的序列。而尾部用户的特征则可以以通过generator得到的数组与原始数据*影响系数相加得到。
同样的,物品分支采用的表达为到某个物品i为止的所有顺序序列的集合。与用户分支的思路相同,仅采用头部物品的顺序序列偏序集用于训练,得到一个物品generator,以用于表达尾部物品的特征。
得到两个分支的原始generator后,作者将通过物品generator得到的尾部物品的表达用于表达用户分支中用户序列中的尾部物品。再将用户generator后得到的尾部用户序列用于物品的偏序集中。以此循环迭代,将物品与用户两个维度结合在一起进行训练。
同时,作者也采用了课程学习(curriculum learning)的方式,由完整的头部用户/物品数据开始,再不断减少数据大小,以便通过少量的数据也能达到预期的效果。
Takeaways
该论文的创新点在于他提出了一种直观且普适的方法能适用于任何顺序推荐模型。虽然结构设计和训练都是非常直观的,但是也对大部分顺序推荐模型在不同领域的表现有些许提升。
2023.10.18
介绍人:黄妮朵
主要内容
文章提出了HyperGCN nad FastHyperGCN. 使提出的模型可以适应超图中的半监督学习任务,同时,更好地进行超图学习算法的组合优化。
Insight HGNN 所使用的团式展开方式由于使用一个稠密子图表示一条超边, 会产生很多新的成对边, 这在超边中节点数量较多时会带来较大复杂度。
Contribution
- 提出一种使用GCN进行超图学习的方法HyperGCN,并提出其更快的变种FastHyperGCN
- 将HyperGCN应用于半监督学习问题与超图组合优化问题
- 进行详尽的讨论:HyperGCN vs HGNN
Method 定义一个新的拉普拉斯算子:
- 对任意一个定义在图上的信号量,用一条超边上信号量差值最大的两个顶点来代表这一条边,从而获得化简的$G_S$。
- $\mathbb L(S):=(I-D^{-\frac 1 2}A_SD^{-\frac 1 2})S$
文章提出的超图学习框架
- 1-HyperGCN
利用上述方式得到的简单图,直接在简单图上进行GCN网络构建 - HyperGCN
对超边进行更复杂一点的变换,保留更多的信息:用剩余的点作为调节器,考虑剩余的点与信息差最大的两点之间的连接(共$|2e-3|$) - FastHyperGCN
进一步简化:不考虑权重
Takeaways
- 当超图中存在较多噪声时,提出的方法会比HGNN更为优越
- 需要更小的训练时间
2023.10.25
Li He, Hongxu Chen, Dingxian Wang, Shoaib Jameel, Philip Yu, and Guandong Xu. 2021. Click-Through Rate Prediction with Multi-Modal Hypergraphs. (CIKM '21). https://doi.org/10.1145/3459637.3482327
介绍人:刘柯兵
主要内容
背景:利用推荐系统中item和用户互动存在长尾问题和稀疏分布问题;item的多模态信息对推荐算法有利用价值
贡献:利用超图方法解决多模态建模和数据稀疏问题,并在数据集上验证了方法的可行性
方法:用户建模:根据用户历史兴趣和浏览行为,利用多头自注意力机制构建一个用户embedding,与item embedding相结合;
超图构建:构建了用户兴趣超图和item 用户超图。兴趣超图构建在多模态信息上,超图中一共只有三个超边,分别表示对item的图像信息、文本信息和音频信息感兴趣,有一致兴趣的用户超图节点加入这条超边;item-user超图构建在用户兴趣信息上,一共三个超图,分别表示item的三种模态信息,在特定的模态信息下,被同一用户感兴趣的item节点加入一条超边。
两组超图用HGCN得到embedding,第一个超图得到的是用户embedding,与之前的用户历史行为嵌入做外积,得到最终的用户嵌入;第二组超图得到的基于用户的item信息,与item本身的特征融合后得到item最终的embedding
多层感知机被用于预测用户u对推荐项目i的点击率
Takeaways
提出用超图方法的合适场景,用超图解决了两个确实适合超图的问题,场景找得很好
启发了超图构建时对于关系的把握
2023.11.15
Seraj, Sarah, Blackburn, Kate G., and Pennebaker, James W. Language left behind on social media exposes the emotional and cognitive costs of a romantic breakup. Proceedings of the National Academy of Sciences 118.7 Web. doi:10.1073/pnas.2017154118.
介绍人:文雯
主要内容
概览:通过分析社交媒体上人们分手后留下的语言,来研究人们分手后的的情感反应以及要付出的认知努力(情感处理、决策负担)。研究发现,通过分析语言中的标志,可以提前3个月检测到分手的迹象,而分手后的心理影响会持续6个月。这种语言变化不仅在与恋爱关系有关的子论坛中出现,还在与关系无关的子论坛中出现,表明个人生活动荡对社交世界的影响是广泛的。研究还发现,类似的认知和社交影响也出现在经历离婚或处理重大生活秘密的人中。最后研究发现,通过分析代词、冠词和其他几乎不可见的词语的微妙变化,可以揭示生活经历对心理的影响。这项研究强调了语言分析在研究人们情感和认知反应方面的重要性。
数据集:收集数据集时,要求用户至少在Reddit上发布五个以上的帖子,其中至少有一个帖子不在r/BreakUps子论坛内,并且要求在分手前后至少有一个月的帖子。由于用户的首次r/BreakUps提交被用作代表分手发生的时间点,任何先在其他人的分手帖子上评论后才创建自己的提交的用户(约11%的用户)被排除在外。最终样本包括经历分手的6,803名用户的文字内容。在距离分手帖子发布前后一年内,对所有至少包含25个词的用户帖子进行了文本分析,共计1,027,541个帖子。
分析:analytic thinking:对于每个2周时段,都进行了与基准水平的成对样本t检验。从公开分手前一个月起,分析性思维的降低变得显著 [t(2,499) = 2.11, P = 0.0351, d = 0.042]。分手公开时,分析性思维的急剧下降最为明显 [t(4,707) = 52.07, P < 0.00001, d = 0.758]。虽然分析思维下降,但认知处理、自我关注和集体关注的使用量有所增加。这些类别的变化直到分手披露前2周才达到显著水平。与分析思维一样,这些变化在分手时达到峰值,对应的Cohen's d分别为0.270、0.580和0.407。自我关注的增加持续时间最长,从基线开始超过10周后才失去显著性。
Takeaways
提出了两个基于语言的通用思维模式:分析思考和认知处理(analytic thinking and cognitive processing)
数据集质量高
两周为一个时间段,使用t-test和Cohen's d计算变化显著性。
2023.11.21
Simplicial closure and higher-order link prediction. Austin R. Benson, Rediet Abebe, Michael T. Schaub, Ali Jadbabaie, and Jon Kleinberg. Proceedings of the National Academy of Sciences (PNAS), 2018.
介绍人:黄妮朵
主要内容
Takeaway
2023.11.29
Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864.
介绍人:刘柯兵
主要内容
本文以图中节点和边的特征学习为背景。图节点和边的特征学习的方法发展大致脉络是:1、基于专家知识进行手工设计的特征工程2、通过优化任务学习特征表示:在这些与下游任务完全独立的领域中,现有技术不能定义一个优化目标,用来在网络中可扩展地、无监督地学习特征表示
Deepwalk启发于skipgram,用节点与邻域的关系模仿单词与上下文背景词的关系,用同样的目标函数完成节点特征学习。方法设计的关键在于邻域的定义:对于网络中节点的组织逻辑,既可以从它们所属的community出发,也可以从它们在网络中扮演的角色出发,这是两种完全不同的思路。
本文依据这一思想提出了node2vec:1、提出了一种有偏的随机游走方法,灵活地定义网络中节点的邻域,以此根据网络角色或者所属网络部分,可扩展地对节点进行表示。2、通过结合学习到的两个端点的表示,对边进行表示
目标函数与deepwalk完全相同,略。随机游走:设置了一个转移概率表示搜索领域时从一个节点转向所有下一跳邻居的概率;有偏随机游走,用p、q两个参数,控制游走在bfs和dfs之间灵活插值,从而完成设计目标。
边表示:端点表示的二元计算。
实验设计:
1、小说人物关系图,证明p和q对于灵活插值dfs和bfs的作用,通过对人物角色的多分类可以直观的反映
2、证明node2vec的特征学习的有效性。对比实验:谱聚类算法:基于拉普拉斯矩阵的矩阵分解和降维方法;deepwalk:启发于skipgram,与n2v类似,但是完全随机游走,且没有使用负采样提高效率;LINE:前半个向量用bfs学,后半个向量用2跳邻居学
3、边预测任务
Takeaways
Node2Vec是对DeepWalk的改进,在DeepWalk完全随机游走的基础上,Node2Vec增加了p、q参数,从而实现了有偏随机游走。不同的p、q组合,对应了不同的搜索范围,具有很大的灵活性。Node2Vec与DeepWalk均使用SkipGram模型获取节点的向量表示,但与DeepWalk不同的是,Node2Vec使用负采样对模型进行优化,从而具有更高的效率。
2023.12.6
Yuan, Wei, et al. "Manipulating Federated Recommender Systems: Poisoning with Synthetic Users and Its Countermeasures." arXiv preprint arXiv:2304.03054 (2023).
介绍人:杨佩青
主要内容
信息安全是联邦学习比较重要的一部分。基于联邦学习与信息安全的考虑,近几年联邦推荐系统的应用也逐渐增多。FedRec是一类典型的联邦推荐系统,作为联邦学习在推荐算法上的应用。
对于联邦推荐系统的信息安全攻击分为两类:一类是基于数据的攻击,即客户端上传影响训练的合成数据;另一类是采用恶意用户的攻击,在客户端模拟恶意用户去影响模型的梯度参数。攻击的目的是为了能够使目标用户出现在推荐系统提供给用户的Top K列表中。本文聚焦于基于恶意用户影响模型训练梯度的方式。现有的方法涉及到几个问题:
- 需要构造的恶意用户数量过多;
- 需要获取其他正常用户的信息;
- 攻击效果不稳定。
结合推荐算法数据的特点,即一些普适性的物品或者受大多数用户欢迎的物品有较大概率出现在用户Top K中,本文提出的攻击方式默认推荐系统推荐给恶意用户与正常用户的Top K差异不大。攻击的思路是,希望设定的目标物品能够尽可能出现在用户的Top K中,并以此采用交叉熵损失函数进行训练。由于在联邦推荐系统中,正常用户的数据难以获取,结合作者的预设,可以达到只通过恶意用户去计算梯度,也能对最终的Top K结果产生影响的目的。
该文章同时提出了一种防御措施。防御方法可以通过预设一定比例的恶意用户,从而采用相应系数来做一个梯度过滤,达到只采用部分用户梯度的方式。再在每一轮训练中,只取梯度变化最大的top n个物品更新对应的梯度,并且只更新一次。这样可以使真实用户尽量在恶意用户还未计算出较大梯度的前几轮训练中最大程度影响到模型,而减轻恶意用户的影响。
Takeaways
该文章基于推荐系统数据和联邦学习的特点,提出了一种较为高效的梯度攻击方式和对应的防御措施,思路和推理过程清晰易懂。
2023.12.20
Jiacheng Li, et al. 2023. Text Is All You Need: Learning Language Representations for Sequential Recommendation. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '23). Association for Computing Machinery, New York, NY, USA, 1258–1267. https://doi.org/10.1145/3580305.3599519
介绍人:文雯
主要内容
问题背景:
顺序推荐旨在从历史交互中建模用户的动态行为。现有方法要么依赖于明确的物体ID,要么使用一般的文本特征进行序列建模以理解用户的偏好。这些方法仍然难以对冷启动物体进行建模或将知识转移到新数据集中。本文中提出将用户偏好和物体特征建模为语言表示,这种表示可以推广到新的物体和数据集。
Recformer框架:
-
将物体表示为单词序列,使得物体序列变成一系列句子的序列。Recformer框架被训练来理解“句子”序列,并检索下一个“句子”。
-
为了编码物体,作者设计了一个类似于Longformer但具有不同嵌入层的双向Transformer。有四层嵌入层。
-
结合了语言理解和推荐任务,作者提出了新的预训练和微调方法。预训练用到了Item-Item Contrastive Task和Masked Language Modeling。
贡献:
-
将物体表示为键-值属性对,用于无标识符的顺序推荐,并提出了一种新颖的双向Transformer结构,用于编码键-值对的序列。
-
设计了学习框架,帮助模型学习用户的偏好,基于语言表示推荐物体,并将知识转移至不同的推荐领域和冷启动物体。
-
进行了大量实验来验证有效性。结果显示,Recformer在顺序推荐方面优于基线模型,并在零-shot和冷启动设置下大幅提高了知识转移的效果。
Takeaways
该文章将描述物体的文字转化为键值对最终变成一条text作为输入这一想法比较新颖,设计recformer的过程也让我认识到了transformer的能力,也对预训练和微调的详细过程也有了更深入的了解。
2023.12.27
Sun, X., Cheng, H., Liu, B., Li, J., Chen, H., Xu, G., & Yin, H. (2023). Self-Supervised Hypergraph Representation Learning for Sociological Analysis. IEEE Transactions on Knowledge and Data Engineering, 35(11), 11860–11871. https://doi.org/10.1109/TKDE.2023.3235312
介绍人:黄妮朵