Twitter机器人检测是一项重要且有意义的任务。现有的基于文本的方法可以深入分析用户推文内容,从而实现高性能。但是,新颖的Twitter机器人通过窃取真正的用户的推文并用良性推文稀释恶意内容来逃避这些检测。这些新颖的机器人被认为以语义不一致的特征。此外,最近出现了利用Twitter图结构的方法,显示出巨大的竞争力。但是,几乎没有一种方法使文本和图形模式深入融合并进行了交互,以利用优势并了解两种方式的相对重要性。在本文中,我们提出了一个名为BIC的新型模型,该模型使文本和图形模式深入互动并检测到推文语义不一致。具体而言,BIC包含一个文本传播模块,一个图形传播模块,可分别在文本和图形结构上进行机器人检测,以及可证明有效的文本互动模块,以使两者相互作用。此外,BIC还包含一个语义一致性检测模块,以从推文中学习语义一致性信息。广泛的实验表明,我们的框架在全面的Twitter机器人基准上优于竞争基准。我们还证明了拟议的相互作用和语义一致性检测的有效性。
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
谣言在社交媒体的时代猖獗。谈话结构提供有价值的线索,以区分真实和假声明。然而,现有的谣言检测方法限制为用户响应的严格关系或过度简化对话结构。在这项研究中,为了减轻不相关的帖子施加的负面影响,基本上加强了用户意见的相互作用,首先将谈话线作为无向相互作用图。然后,我们提出了一种用于谣言分类的主导分层图注意网络,其提高了考虑整个社会环境的响应帖子的表示学习,并参加可以在语义上推断目标索赔的帖子。三个Twitter数据集的广泛实验表明,我们的谣言检测方法比最先进的方法实现了更好的性能,并且展示了在早期阶段检测谣言的优异容量。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
检测假新闻对于确保信息的真实性和维持新闻生态系统的可靠性至关重要。最近,由于最近的社交媒体和伪造的内容生成技术(例如Deep Fake)的扩散,假新闻内容的增加了。假新闻检测的大多数现有方式都集中在基于内容的方法上。但是,这些技术中的大多数无法处理生成模型生产的超现实合成媒体。我们最近的研究发现,真实和虚假新闻的传播特征是可以区分的,无论其方式如何。在这方面,我们已经根据社会环境调查了辅助信息,以检测假新闻。本文通过基于混合图神经网络的方法分析了假新闻检测的社会背景。该混合模型基于将图形神经网络集成到新闻内容上的新闻和BI定向编码器表示的传播中,以了解文本功能。因此,这种提出的方​​法可以学习内容以及上下文特征,因此能够在Politifact上以F1分别为0.91和0.93的基线模型和八西八角数据集的基线模型,分别超过了基线模型,分别在八西八学数据集中胜过0.93
translated by 谷歌翻译
Recently, online social media has become a primary source for new information and misinformation or rumours. In the absence of an automatic rumour detection system the propagation of rumours has increased manifold leading to serious societal damages. In this work, we propose a novel method for building automatic rumour detection system by focusing on oversampling to alleviating the fundamental challenges of class imbalance in rumour detection task. Our oversampling method relies on contextualised data augmentation to generate synthetic samples for underrepresented classes in the dataset. The key idea exploits selection of tweets in a thread for augmentation which can be achieved by introducing a non-random selection criteria to focus the augmentation process on relevant tweets. Furthermore, we propose two graph neural networks(GNN) to model non-linear conversations on a thread. To enhance the tweet representations in our method we employed a custom feature selection technique based on state-of-the-art BERTweet model. Experiments of three publicly available datasets confirm that 1) our GNN models outperform the the current state-of-the-art classifiers by more than 20%(F1-score); 2) our oversampling technique increases the model performance by more than 9%;(F1-score) 3) focusing on relevant tweets for data augmentation via non-random selection criteria can further improve the results; and 4) our method has superior capabilities to detect rumours at very early stage.
translated by 谷歌翻译
Twitter上的自动抑郁症检测可以帮助个人在早期阶段私下方便地了解其心理健康状况,然后再见心理健康专业人员。大多数现有的黑盒样深度学习方法用于抑郁症检测主要集中在改善分类性能上。但是,在健康研究中解释模型决策至关重要,因为决策通常可以是高风险和死亡。可靠的自动诊断精神健康问题在内的抑郁症应得到可靠的解释,以证明模型的预测是合理的。在这项工作中,我们提出了一个新颖的可解释模型,用于在Twitter上检测抑郁症。它包括一个新颖的编码器,结合了分层注意机制和前馈神经网络。为了支持心理语言学研究,我们的模型利用隐喻概念映射作为输入。因此,它不仅检测到沮丧的人,还可以确定此类用户推文和相关隐喻概念映射的功能。
translated by 谷歌翻译
Predicting personality traits based on online posts has emerged as an important task in many fields such as social network analysis. One of the challenges of this task is assembling information from various posts into an overall profile for each user. While many previous solutions simply concatenate the posts into a long document and then encode the document by sequential or hierarchical models, they introduce unwarranted orders for the posts, which may mislead the models. In this paper, we propose a dynamic deep graph convolutional network (D-DGCN) to overcome the above limitation. Specifically, we design a learn-to-connect approach that adopts a dynamic multi-hop structure instead of a deterministic structure, and combine it with a DGCN module to automatically learn the connections between posts. The modules of post encoder, learn-to-connect, and DGCN are jointly trained in an end-to-end manner. Experimental results on the Kaggle and Pandora datasets show the superior performance of D-DGCN to state-of-the-art baselines. Our code is available at https://github.com/djz233/D-DGCN.
translated by 谷歌翻译
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译
Nowadays, fake news easily propagates through online social networks and becomes a grand threat to individuals and society. Assessing the authenticity of news is challenging due to its elaborately fabricated contents, making it difficult to obtain large-scale annotations for fake news data. Due to such data scarcity issues, detecting fake news tends to fail and overfit in the supervised setting. Recently, graph neural networks (GNNs) have been adopted to leverage the richer relational information among both labeled and unlabeled instances. Despite their promising results, they are inherently focused on pairwise relations between news, which can limit the expressive power for capturing fake news that spreads in a group-level. For example, detecting fake news can be more effective when we better understand relations between news pieces shared among susceptible users. To address those issues, we propose to leverage a hypergraph to represent group-wise interaction among news, while focusing on important news relations with its dual-level attention mechanism. Experiments based on two benchmark datasets show that our approach yields remarkable performance and maintains the high performance even with a small subset of labeled news data.
translated by 谷歌翻译
社交机器人被称为社交网络上的自动帐户,这些帐户试图像人类一样行事。尽管图形神经网络(GNNS)已大量应用于社会机器人检测领域,但大量的领域专业知识和先验知识大量参与了最先进的方法,以设计专门的神经网络体系结构,以设计特定的神经网络体系结构。分类任务。但是,在模型设计中涉及超大的节点和网络层,通常会导致过度平滑的问题和缺乏嵌入歧视。在本文中,我们提出了罗斯加斯(Rosgas),这是一种新颖的加强和自我监督的GNN Architecture搜索框架,以适应性地指出了最合适的多跳跃社区和GNN体系结构中的层数。更具体地说,我们将社交机器人检测问题视为以用户为中心的子图嵌入和分类任务。我们利用异构信息网络来通过利用帐户元数据,关系,行为特征和内容功能来展示用户连接。 Rosgas使用多代理的深钢筋学习(RL)机制来导航最佳邻域和网络层的搜索,以分别学习每个目标用户的子图嵌入。开发了一种用于加速RL训练过程的最接近的邻居机制,Rosgas可以借助自我监督的学习来学习更多的判别子图。 5个Twitter数据集的实验表明,Rosgas在准确性,训练效率和稳定性方面优于最先进的方法,并且在处理看不见的样本时具有更好的概括。
translated by 谷歌翻译
识别新闻媒体的政治观点已成为政治评论的快速增长和日益极化的政治意识形态的重要任务。以前的方法专注于文本内容,留出富裕的社会和政治背景,这在论证挖掘过程中至关重要。为了解决这一限制,我们提出了一种政治透视检测方法,包括外部域知识。具体而言,我们构建一个政治知识图形,以作为特定于域的外部知识。然后我们利用异质信息网络来代表新闻文件,共同模仿新闻文本和外部知识。最后,我们采用关系图神经网络,并作为图形级分类进行政治视角检测。广泛的实验表明,我们的方法始终如一地实现了两个现实世界的透视检测基准的最佳性能。消融研究进一步承担了外部知识的必要性以及我们基于图形的方法的有效性。
translated by 谷歌翻译
社交媒体在时装行业中的作用在较少年的情况下一直在盛开。在这项工作中,我们调查了社交媒体平台中时尚相关员额的情绪分析。这项任务有两个主要挑战。首先,必须共同考虑不同方式的信息以进行最终预测。在第二个地方,应考虑一些独特的时尚相关的属性。虽然大多数现有的作品侧重于传统的多模式情绪分析,但它们始终未能利用此任务中的时尚相关的属性。我们提出了一种新颖的框架,共同利用图像视觉,文本,文本以及时尚属性模态来确定情绪类别。我们的模型的一个特征是它提取了时尚属性并将它们与图像视觉信息集成了有效表示。此外,它通过相互关注机制利用时尚属性和邮政文本之间的相互关系。由于没有适合此任务的现有数据集,因此我们准备了超过12K时尚相关的社交媒体帖子的大规模情感分析数据集。进行广泛的实验以证明我们模型的有效性。
translated by 谷歌翻译
鉴于社交媒体消费的增加,估计社交媒体使用者的政治倾向是一个具有挑战性且越来越紧迫的问题。我们介绍了retweet-bert,这是一个简单且可扩展的模型,以估算Twitter用户的政治倾向。 retweet-bert利用转发网络结构和用户配置文件描述中使用的语言。我们的假设源于具有类似意识形态的人的网络和语言学的模式。 retweet-bert表现出对其他最先进的基线的竞争性能,在最近的两个Twitter数据集(COVID-19数据集和2020年美国总统选举数据集)中,达到96%-97%的宏观F1。我们还执行手动验证,以验证培训数据中不在培训数据中的用户的retweet-bert的性能。最后,在Covid-19的案例研究中,我们说明了Twitter上政治回声室的存在,并表明它主要存在于正确的倾斜用户中。我们的代码是开源的,我们的数据已公开可用。
translated by 谷歌翻译
假新闻,虚假或误导性信息作为新闻,对社会的许多方面产生了重大影响,例如在政治或医疗域名。由于假新闻的欺骗性,仅将自然语言处理(NLP)技术应用于新闻内容不足。多级社会上下文信息(新闻出版商和社交媒体的参与者)和用户参与的时间信息是假新闻检测中的重要信息。然而,正确使用此信息,介绍了三个慢性困难:1)多级社会上下文信息很难在没有信息丢失的情况下使用,2)难以使用时间信息以及多级社会上下文信息,3 )具有多级社会背景和时间信息的新闻表示难以以端到端的方式学习。为了克服所有三个困难,我们提出了一种新颖的假新闻检测框架,杂扫描。我们使用元路径在不损失的情况下提取有意义的多级社会上下文信息。 COMA-PATO,建议连接两个节点类型的复合关系,以捕获异构图中的语义。然后,我们提出了元路径实例编码和聚合方法,以捕获用户参与的时间信息,并生成新闻代表端到端。根据我们的实验,杂扫不断的性能改善了最先进的假新闻检测方法。
translated by 谷歌翻译
最近关于图表卷积网络(GCN)的研究表明,初始节点表示(即,第一次图卷积前的节点表示)很大程度上影响最终的模型性能。但是,在学习节点的初始表示时,大多数现有工作线性地组合了节点特征的嵌入,而不考虑特征之间的交互(或特征嵌入)。我们认为,当节点特征是分类时,例如,在许多实际应用程序中,如用户分析和推荐系统,功能交互通常会对预测分析进行重要信号。忽略它们将导致次优初始节点表示,从而削弱后续图表卷积的有效性。在本文中,我们提出了一个名为CatGCN的新GCN模型,当节点功能是分类时,为图表学习量身定制。具体地,我们将显式交互建模的两种方式集成到初始节点表示的学习中,即在每对节点特征上的本地交互建模和人工特征图上的全局交互建模。然后,我们通过基于邻域聚合的图形卷积来优化增强的初始节点表示。我们以端到端的方式训练CatGCN,并在半监督节点分类上展示它。来自腾讯和阿里巴巴数据集的三个用户分析的三个任务(预测用户年龄,城市和购买级别)的大量实验验证了CatGCN的有效性,尤其是在图表卷积之前执行特征交互建模的积极效果。
translated by 谷歌翻译
Users' involvement in creating and propagating news is a vital aspect of fake news detection in online social networks. Intuitively, credible users are more likely to share trustworthy news, while untrusted users have a higher probability of spreading untrustworthy news. In this paper, we construct a dual-layer graph (i.e., the news layer and the user layer) to extract multiple relations of news and users in social networks to derive rich information for detecting fake news. Based on the dual-layer graph, we propose a fake news detection model named Us-DeFake. It learns the propagation features of news in the news layer and the interaction features of users in the user layer. Through the inter-layer in the graph, Us-DeFake fuses the user signals that contain credibility information into the news features, to provide distinctive user-aware embeddings of news for fake news detection. The training process conducts on multiple dual-layer subgraphs obtained by a graph sampler to scale Us-DeFake in large scale social networks. Extensive experiments on real-world datasets illustrate the superiority of Us-DeFake which outperforms all baselines, and the users' credibility signals learned by interaction relation can notably improve the performance of our model.
translated by 谷歌翻译
Twitter是吸引数百万用户最受欢迎的社交网络之一,而捕获了相当大的在线话语。它提供了一种简单的使用框架,具有短消息和有效的应用程序编程接口(API),使研究界能够学习和分析这一社交网络的几个方面。但是,Twitter使用简单可能会导致各种机器人的恶意处理。恶意处理现象在线话语中扩大,特别是在选举期间,除了用于传播和通信目的的合法机床之外,目标是操纵舆论和选民走向某个方向,特定意识形态或政党。本文侧重于基于标记的Twitter数据来识别Twitter机器的新系统的设计。为此,使用极端梯度升压(XGBoost)算法采用了监督机器学习(ML)框架,其中通过交叉验证调整超参数。我们的研究还通过计算特征重要性,使用基于游戏理论为基础的福价来解释ML模型预测的福利添加剂解释(Shap)。与最近最先进的Twitter机器人检测方法相比,不同的Twitter数据集的实验评估证明了我们的方法的优越性。
translated by 谷歌翻译
社交媒体由于易于传播新信息而在公共领域迅速发展,这导致了谣言的流通。但是,从如此大量的信息中发现谣言正在成为越来越艰巨的挑战。以前的工作通常从传播信息中获得了宝贵的功能。应该注意的是,大多数方法仅针对传播结构,而忽略了谣言传播模式。这个有限的重点严重限制了传播数据的收集。为了解决这个问题,本研究的作者是促使探索谣言的区域化传播模式。具体而言,提出了一种新颖的区域增强的深图卷积网络(RDGCN),该网络(RDGCN)通过学习区域化的传播模式和火车来增强谣言的传播特征,从而通过无人看管的学习来学习传播模式。此外,源增强的残留图卷积层(SRGCL)旨在改善图形神经网络(GNN)的超平滑度,并增加了基于谣言检测方法的GNN的深度极限。 Twitter15和Twitter16上的实验表明,在谣言检测和早期谣言检测中,提出的模型的性能优于基线方法。
translated by 谷歌翻译
随着社交媒体成为错误信息传播的温床,谣言检测的关键任务已经见证了开源基准数据集促进的有希望的进步。尽管被广泛使用,但我们发现这些数据集遇到了虚假的相关性,这些数据被现有研究忽略了,并导致对现有谣言检测性能的严重高估。虚假的相关性源于三个原因:(1)基于事件的数据收集和标签方案将相同的真实性标签分配给来自同一基础事件的多个高度相似的帖子; (2)合并多个数据源,虚假地将源身份与真实标签联系起来; (3)标记偏见。在本文中,我们仔细研究了三个最受欢迎的谣言检测基准数据集(即Twitter15,Twitter16和Pheme),并提出了事件分隔的谣言检测作为消除虚假提示的解决方案。在事件分离的设置下,我们观察到现有最新模型的准确性大大下降了40%以上,仅与简单的神经分类器相当。为了更好地解决此任务,我们建议出版商样式聚合(PSA),这是一种可推广的方法,它汇总了发布者发布记录以学习写作样式和真实性姿态。广泛的实验表明,我们的方法在有效性,效率和概括性方面优于现有基准。
translated by 谷歌翻译