Predicting the Hate: A GSTM Model based on COVID 19 Hate Speech Datasets - rhqaq/paper_reading GitHub Wiki
背景
-
问题为什么有意义?疫情下局面复杂,需要从全局分析人类数据来进行系统级的理解。hate情绪在疫情下影响深远,会加剧社会矛盾。
-
挑战?Hate情绪好识别但不能被准确计算,因为疫情相关的推文中的情绪很复杂。
-
目前的研究分为两类,一类是hate文本的各种特点进行解读。这类研究具有良好的社会学意义,但研究成果的拓展和积累相对薄弱。 研究结论和结果不能直接转移到其他案例中。第二类是识别和预测hate speech。这类研究侧重于方法的沉淀,具有特定的意义和可重用性,但对研究结果的解释比较平淡,缺乏深入探索。
具体到这篇文章,综合分析COVID中的仇恨情绪,进行自动化的态势分析和规律揭示,有助于预防社会危机。 1)COVID 中仇恨言论的系统分析。本文研究仇恨言论和反仇恨言论的数量比较、地理位置、用户分布和时间趋势,观察仇恨言论的本质特征。我们发现仇恨言论中的意见领袖和事件趋势,并总结仇恨言论演变的基本时空特征。 2)构建仇恨言论趋势预测的数据驱动模型。具体而言,一种基于观测规律预测舆论趋势的高斯时空混合模型,从而将观测规律转化为方法,丰富社会计算的工具箱。该模型的输入是特定时间点之前的准确数据,输出是该时间点之后一天的帖子数。 3)在数据集中验证了所提出模型的效果。本文测试并演示了该模型在 COVID Hate 样本数据集中的使用情况,结果表明该模型能够很好地契合客观舆论的趋势。