Social_Network_Research_Pipeline - yizhihenpidehou/yzhpdh-s-bookcase GitHub Wiki

Data Collection

  • Gjoka, Minas, et al. "Practical recommendations on crawling online social networks." IEEE Journal on Selected Areas in Communications 29.9 (2011): 1872-1892. 【对比了爬取社交网络图的不同方法,发现与普通的广度优先搜索算法和随机游走算法相比,重加权随机游走的采样方法可以有效实现无偏采样. 】

  • Ding, C., Chen, Y., & Fu, X. (2013, October). Crowd crawling: Towards collaborative data collection for large-scale online social networks. In Proceedings of the first ACM conference on Online social networks (pp. 183-188). 【本论文的主要贡献有三方面。首先,我们提出并阐述了众包爬取,这是一种用于在线社交网络的分布式数据收集框架。其次,我们设计了一个实用的众包爬取系统,该系统能够高效可靠地工作。第三,我们实现了众包爬取的原型,并在PlanetLab上进行了部署。我们使用了一个可行的微博爬取示例来评估众包爬取的原型。】

  • Mondal, M., Viswanath, B., Clement, A., Druschel, P., Gummadi, K. P., Mislove, A., & Post, A. (2012, December). Defending against large-scale crawls in online social networks. In Proceedings of the 8th international conference on Emerging networking experiments and technologies (pp. 325-336). 【抗测绘,抵御爬虫】

  • Founta, A., Djouvas, C., Chatzakou, D., Leontiadis, I., Blackburn, J., Stringhini, G., ... & Kourtellis, N. (2018, June). Large scale crowdsourcing and characterization of twitter abusive behavior. In Proceedings of the international AAAI conference on web and social media (Vol. 12, No. 1). 【优化标注流程,对众包过程进行迭代优化的方法;本文对Twitter上的滥用行为进行了为期八个月的研究,涵盖了不同形式的滥用行为,提出了一种增量和迭代的方法,利用众包的力量标注大量推文,并应用了一系列与滥用相关的标签。研究发现了虐待相关的推文标签集,并对8万条带有注释的推文进行了特征化,公开提供该数据集以供进一步的科学探索。同时,文章讨论了社交媒体中滥用行为对研究人员和从业者构成的挑战,包括确定什么样的行为构成滥用、由人类控制的账户与机器人的不同以及行为的相对稀有性等。针对这些挑战,需要开发新的技术来识别和应对社交媒体中的滥用行为。】

  • Ding, J., Liu, Z., Xiao, S., Chen, Y., Li, Y., Jin, D., & Uhlig, S. (2018). Beyond the click: a first look at the role of a microblogging platform in the web ecosystem. IEEE Transactions on Network and Service Management, 16(2), 743-754. 【数据集来自于合作运营商;】

  • Feng, S., Wan, H., Wang, N., Li, J., & Luo, M. (2021, October). Twibot-20: A comprehensive twitter bot detection benchmark. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management (pp. 4485-4494). 【众包+API+数据集有效性评估;主动构建一个社交网络中用于机器人检测的数据集. 他们首先使用Twitter提供的API,以宽度优先遍历的方式,将选取的一批种子用户作为起点,根据这批种子用户的社交关系不断向外拓展爬取相关用户账号的个人信息、语义信息和领域信息,且不要求选定的用户遵循任何限制.最后文章通过众包的方式对爬取到的数据按照设定好的规则进行两轮标定.最后他们对比当前数据集中的机器人账户的特征与以往工作中总结的Twitter机器人账号的特征是否一致,从而评估该数据集的质量.】

  • Wang, Y., Ling, C., & Stringhini, G. (2023). Understanding the Use of Images to Spread COVID-19 Misinformation on Twitter. Proceedings of the ACM on Human-Computer Interaction, 7(CSCW1), 1-32. 【构建一个错误信息图像数据集,这些图像来源于Twitter上的包含图片的与COVID-19相关的推文.他们的做法是利用Twitter API从COVID-19相关标签下爬取大量相关推文,接下来利用哈希和聚类方法将视觉上相似的图片进行分组,最后由两位研究者进行手工标注.首先两位标注者将图片集合分为有信息图片与无信息图片,有无信息的标准在于图片中是否包含与COVID-19相关的视觉线索,随后根据这些有信息图片,他们确定了五种类型的错误信息标准,只要待标定图片符合其中任一标准就会被打上包含不准确信息图片的标签.】

  • Paschalides, D., Stephanidis, D., Andreou, A., Orphanou, K., Pallis, G., Dikaiakos, M. D., & Markatos, E. (2020). Mandola: A big-data processing and visualization platform for monitoring and detecting online hate speech. ACM Transactions on Internet Technology (TOIT), 20(2), 1-21. 【论文中提出了一个检测和可视化网络上的仇恨言论的数据采集过程,通过Twitter的流数据接口获取推文数据,获取的推文数据进行清理和规范化处理,包括去除URL、标点符号,扩展缩写词,标准化话题标签等,以便后续的仇恨言论检测模块使用,使用自然语言处理技术进行情感分析,以及传统机器学习和深度学习模型对文本进行仇恨言论分类,用LDA话题模型技术对被检测为仇恨言论的文本进行话题分类,如性、种族、宗教等.】

  • Nakajima, K., & Shudo, K. (2023). Random walk sampling in social networks involving private nodes. ACM Transactions on Knowledge Discovery from Data, 17(4), 1-28. 【现有的OSN网络中存在私有节点,这些私有节点的邻居信息是无法被访问的,为了减少私有节点对马尔可夫性的破坏,他们提出了一个偏差估计器,用于估计由私有节点引起的网络大小、平均程度和节点标签密度的偏差,通过重新加权每个样本节点,减小了现有估计器中私密节点带来的偏差.】

  • Kilic, Y., & Inan, A. (2023). Privacy Scoring Over OSNs: Shared Data Granularity as a Latent Dimension. ACM Transactions on the Web. 【使用爬虫程序从LinkedIn专业社交网络收集5389个不同用户的真实配置文件数据,包括用户的教育历史、工作经验、联系方式等12个属性,使用爬虫程序从作者在LinkedIn的账户开始,以广度优先搜索的方式遍历该账户的整个网络(包括直接和间接连接),发现可以访问的配置文件。对于爬虫程序发现的每个用户配置文件,都用一个单独的程序检查该用户的个人主页。收集每个用户主页上可见的数据,包括教育历史、工作经验、联系方式等12个属性,以及用户之间的社交关系】

  • Wang, H., Fang, Y., Jiang, S., Chen, X., Peng, X., & Wang, W. (2023). Unveiling Qzone: A measurement study of a large-scale online social network. Information Sciences, 623, 146-163. 【Qzone平台不为开发人员提供获取相关数据的API且它有严格的加密限制和验证码限制,以防止自动爬行收集;这篇工作研究QQ空间的登录和验证机制,通过抓取和分析浏览器与服务器之间的网络数据包,破解了密码加密过程和随机数,实现了自动登录。采用CAPTCHA识别模型,可以自动识别验证码,避免由于爬取过于频繁而出现验证码导致的爬取中断。设计包括账号信息爬虫、个人信息爬虫、发帖信息爬虫、互动信息爬虫等在内的分布式爬虫系统架构。采用多线程和循环爬取方法来提高效率,为后续的用户行为分析和网络分析奠定了数据基础】