The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
为了解决疫苗犹豫不决,这会损害COVID-19疫苗接种运动的努力,必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性,但基于调查的传统态度收集是耗时且昂贵的,无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响,我们将用户社交网络邻居的最新帖子集成到框架中,以帮助检测用户的真实态度。根据我们从Twitter的注释数据集,与最新的仅文本模型相比,从我们框架实例化的模型可以提高态度提取的性能高达23%。使用此框架,我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途,它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。
translated by 谷歌翻译
随着共同群众在社交媒体中的参与不断上升,政策制定者/记者在社交媒体上进行在线民意调查以了解人们在特定地点的政治倾向是越来越普遍的。这里的警告是,只有有影响力的人才能进行这样的在线民意调查并大规模伸展。此外,在这种情况下,选民的分配是不可控制的,实际上可能是有偏见的。另一方面,如果我们可以通过社交媒体解释公开可用的数据来探究用户的政治倾向,我们将能够对调查人群有可控的见解,保持低调的成本,并在没有公开数据的情况下收集公开可用的数据涉及有关人员。因此,我们引入了一个自我牵键的半监督框架,以进一步进一步实现这一目标。我们模型的优点是它既不需要大量的培训数据,也不需要存储社交网络参数。然而,它在没有带注释的数据的情况下达到了93.7 \%的精度。此外,每个课程只有几个注释的示例可以实现竞争性能。我们发现,即使在资源约束的设置中,该模型也是高效的,并且从其预测中得出的见解与手动调查结果相匹配时,将其应用于不同的现实生活中。
translated by 谷歌翻译
Nowadays, fake news easily propagates through online social networks and becomes a grand threat to individuals and society. Assessing the authenticity of news is challenging due to its elaborately fabricated contents, making it difficult to obtain large-scale annotations for fake news data. Due to such data scarcity issues, detecting fake news tends to fail and overfit in the supervised setting. Recently, graph neural networks (GNNs) have been adopted to leverage the richer relational information among both labeled and unlabeled instances. Despite their promising results, they are inherently focused on pairwise relations between news, which can limit the expressive power for capturing fake news that spreads in a group-level. For example, detecting fake news can be more effective when we better understand relations between news pieces shared among susceptible users. To address those issues, we propose to leverage a hypergraph to represent group-wise interaction among news, while focusing on important news relations with its dual-level attention mechanism. Experiments based on two benchmark datasets show that our approach yields remarkable performance and maintains the high performance even with a small subset of labeled news data.
translated by 谷歌翻译
Fake news detection has become a research area that goes way beyond a purely academic interest as it has direct implications on our society as a whole. Recent advances have primarily focused on textbased approaches. However, it has become clear that to be effective one needs to incorporate additional, contextual information such as spreading behaviour of news articles and user interaction patterns on social media. We propose to construct heterogeneous social context graphs around news articles and reformulate the problem as a graph classification task. Exploring the incorporation of different types of information (to get an idea as to what level of social context is most effective) and using different graph neural network architectures indicates that this approach is highly effective with robust results on a common benchmark dataset.
translated by 谷歌翻译
Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
鉴于社交媒体消费的增加,估计社交媒体使用者的政治倾向是一个具有挑战性且越来越紧迫的问题。我们介绍了retweet-bert,这是一个简单且可扩展的模型,以估算Twitter用户的政治倾向。 retweet-bert利用转发网络结构和用户配置文件描述中使用的语言。我们的假设源于具有类似意识形态的人的网络和语言学的模式。 retweet-bert表现出对其他最先进的基线的竞争性能,在最近的两个Twitter数据集(COVID-19数据集和2020年美国总统选举数据集)中,达到96%-97%的宏观F1。我们还执行手动验证,以验证培训数据中不在培训数据中的用户的retweet-bert的性能。最后,在Covid-19的案例研究中,我们说明了Twitter上政治回声室的存在,并表明它主要存在于正确的倾斜用户中。我们的代码是开源的,我们的数据已公开可用。
translated by 谷歌翻译
社交机器人被称为社交网络上的自动帐户,这些帐户试图像人类一样行事。尽管图形神经网络(GNNS)已大量应用于社会机器人检测领域,但大量的领域专业知识和先验知识大量参与了最先进的方法,以设计专门的神经网络体系结构,以设计特定的神经网络体系结构。分类任务。但是,在模型设计中涉及超大的节点和网络层,通常会导致过度平滑的问题和缺乏嵌入歧视。在本文中,我们提出了罗斯加斯(Rosgas),这是一种新颖的加强和自我监督的GNN Architecture搜索框架,以适应性地指出了最合适的多跳跃社区和GNN体系结构中的层数。更具体地说,我们将社交机器人检测问题视为以用户为中心的子图嵌入和分类任务。我们利用异构信息网络来通过利用帐户元数据,关系,行为特征和内容功能来展示用户连接。 Rosgas使用多代理的深钢筋学习(RL)机制来导航最佳邻域和网络层的搜索,以分别学习每个目标用户的子图嵌入。开发了一种用于加速RL训练过程的最接近的邻居机制,Rosgas可以借助自我监督的学习来学习更多的判别子图。 5个Twitter数据集的实验表明,Rosgas在准确性,训练效率和稳定性方面优于最先进的方法,并且在处理看不见的样本时具有更好的概括。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
Twitter是吸引数百万用户最受欢迎的社交网络之一,而捕获了相当大的在线话语。它提供了一种简单的使用框架,具有短消息和有效的应用程序编程接口(API),使研究界能够学习和分析这一社交网络的几个方面。但是,Twitter使用简单可能会导致各种机器人的恶意处理。恶意处理现象在线话语中扩大,特别是在选举期间,除了用于传播和通信目的的合法机床之外,目标是操纵舆论和选民走向某个方向,特定意识形态或政党。本文侧重于基于标记的Twitter数据来识别Twitter机器的新系统的设计。为此,使用极端梯度升压(XGBoost)算法采用了监督机器学习(ML)框架,其中通过交叉验证调整超参数。我们的研究还通过计算特征重要性,使用基于游戏理论为基础的福价来解释ML模型预测的福利添加剂解释(Shap)。与最近最先进的Twitter机器人检测方法相比,不同的Twitter数据集的实验评估证明了我们的方法的优越性。
translated by 谷歌翻译
Recently, online social media has become a primary source for new information and misinformation or rumours. In the absence of an automatic rumour detection system the propagation of rumours has increased manifold leading to serious societal damages. In this work, we propose a novel method for building automatic rumour detection system by focusing on oversampling to alleviating the fundamental challenges of class imbalance in rumour detection task. Our oversampling method relies on contextualised data augmentation to generate synthetic samples for underrepresented classes in the dataset. The key idea exploits selection of tweets in a thread for augmentation which can be achieved by introducing a non-random selection criteria to focus the augmentation process on relevant tweets. Furthermore, we propose two graph neural networks(GNN) to model non-linear conversations on a thread. To enhance the tweet representations in our method we employed a custom feature selection technique based on state-of-the-art BERTweet model. Experiments of three publicly available datasets confirm that 1) our GNN models outperform the the current state-of-the-art classifiers by more than 20%(F1-score); 2) our oversampling technique increases the model performance by more than 9%;(F1-score) 3) focusing on relevant tweets for data augmentation via non-random selection criteria can further improve the results; and 4) our method has superior capabilities to detect rumours at very early stage.
translated by 谷歌翻译
预期观众对某些文本的反应是社会的几个方面不可或缺的,包括政治,研究和商业行业。情感分析(SA)是一种有用的自然语言处理(NLP)技术,它利用词汇/统计和深度学习方法来确定不同尺寸的文本是否表现出正面,负面或中立的情绪。但是,目前缺乏工具来分析独立文本的组并从整体中提取主要情感。因此,当前的论文提出了一种新型算法,称为多层推文分析仪(MLTA),该算法使用多层网络(MLN)以图形方式对社交媒体文本进行了图形方式,以便更好地编码跨越独立的推文集的关系。与其他表示方法相比,图结构能够捕获复杂生态系统中有意义的关系。最先进的图形神经网络(GNN)用于从Tweet-MLN中提取信息,并根据提取的图形特征进行预测。结果表明,与标准的正面,负或中性相比,MLTA不仅可以从更大的可能情绪中预测,从而提供了更准确的情感,还允许对Twitter数据进行准确的组级预测。
translated by 谷歌翻译
假新闻,虚假或误导性信息作为新闻,对社会的许多方面产生了重大影响,例如在政治或医疗域名。由于假新闻的欺骗性,仅将自然语言处理(NLP)技术应用于新闻内容不足。多级社会上下文信息(新闻出版商和社交媒体的参与者)和用户参与的时间信息是假新闻检测中的重要信息。然而,正确使用此信息,介绍了三个慢性困难:1)多级社会上下文信息很难在没有信息丢失的情况下使用,2)难以使用时间信息以及多级社会上下文信息,3 )具有多级社会背景和时间信息的新闻表示难以以端到端的方式学习。为了克服所有三个困难,我们提出了一种新颖的假新闻检测框架,杂扫描。我们使用元路径在不损失的情况下提取有意义的多级社会上下文信息。 COMA-PATO,建议连接两个节点类型的复合关系,以捕获异构图中的语义。然后,我们提出了元路径实例编码和聚合方法,以捕获用户参与的时间信息,并生成新闻代表端到端。根据我们的实验,杂扫不断的性能改善了最先进的假新闻检测方法。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
社交媒体在现代社会中尤其是在西方世界中的政策制定方面已经变得极其影响力(例如,48%的欧洲人每天或几乎每天都使用社交媒体)。 Twitter之类的平台使用户可以关注政客,从而使公民更多地参与政治讨论。同样,政客们使用Twitter来表达他们的观点,在当前主题上进行辩论,并促进其政治议程,以影响选民行为。先前的研究表明,传达负面情绪的推文可能会更频繁地转发。在本文中,我们试图分析来自不同国家的政客的推文,并探索他们的推文是否遵循相同的趋势。利用最先进的预训练的语言模型,我们对从希腊,西班牙和英国的成千上万的推文进行了情感分析,包括权威的行政部门。我们通过系统地探索和分析有影响力和不流行的推文之间的差异来实现这一目标。我们的分析表明,政治家的负面推文更广泛地传播,尤其是在最近的时代,并突出了情感和受欢迎程度相交的有趣趋势。
translated by 谷歌翻译
疫苗的犹豫被认为是欧洲和美国在欧洲疫苗充足疫苗的疫苗停滞比率停滞的主要原因之一。快速准确地掌握公众对疫苗接种的态度对于解决疫苗犹豫至关重要,社交媒体平台已被证明是公众意见的有效来源。在本文中,我们描述了与Covid-19疫苗有关的推文数据集的收集和发布。该数据集由从西欧收集的2,198,090条推文组成,其中17,934条带有发起者的疫苗接种立场。我们的注释将有助于使用和开发数据驱动的模型来从社交媒体帖子中提取疫苗接种态度,从而进一步确认社交媒体在公共卫生监视中的力量。为了为未来的研究奠定基础,我们不仅对数据集进行了统计分析和可视化,而且还评估和比较了疫苗接种立场提取中已建立的基于文本的基准测试的性能。我们在实践中证明了我们的数据的一种潜在用途,以跟踪公共Covid-19-19疫苗接种态度的时间变化。
translated by 谷歌翻译
Users' involvement in creating and propagating news is a vital aspect of fake news detection in online social networks. Intuitively, credible users are more likely to share trustworthy news, while untrusted users have a higher probability of spreading untrustworthy news. In this paper, we construct a dual-layer graph (i.e., the news layer and the user layer) to extract multiple relations of news and users in social networks to derive rich information for detecting fake news. Based on the dual-layer graph, we propose a fake news detection model named Us-DeFake. It learns the propagation features of news in the news layer and the interaction features of users in the user layer. Through the inter-layer in the graph, Us-DeFake fuses the user signals that contain credibility information into the news features, to provide distinctive user-aware embeddings of news for fake news detection. The training process conducts on multiple dual-layer subgraphs obtained by a graph sampler to scale Us-DeFake in large scale social networks. Extensive experiments on real-world datasets illustrate the superiority of Us-DeFake which outperforms all baselines, and the users' credibility signals learned by interaction relation can notably improve the performance of our model.
translated by 谷歌翻译
Covid-19的传播引发了针对亚洲社区的社交媒体的种族主义和仇恨。然而,关于种族仇恨在大流行期间的差异和柜台垂直在减轻这种蔓延的角色时,很少见过。在这项工作中,我们研究了通过推特镜头的反亚洲仇恨演讲的演变和传播。我们创建了Covid-讨厌,这是一个跨越14个月的反亚洲仇恨和柜台的最大数据集,含有超过2.06亿推文,以及超过1.27亿节节点的社交网络。通过创建一个新的手工标记数据集,3,355推文,我们培训文本分类器以识别仇恨和柜台jeech推文,以实现0.832的平均宏F1得分。使用此数据集,我们对推文和用户进行纵向分析。社交网络的分析揭示了可恨和柜台的用户互相互动,彼此广泛地互动,而不是生活在孤立的极化社区中。我们发现在暴露于仇恨内容后,节点很可能变得仇恨。值得注意的是,柜台椎间目可能会阻止用户转向仇恨,可能暗示在Web和社交媒体平台上遏制讨厌的解决方案。数据和代码是在http://claws.cc.gatech.edu/covid。
translated by 谷歌翻译