随着我们对社交媒体平台和Web服务的依赖日益增加,剥削者将这些平台视为操纵我们的思想广告行动的机会。这些平台已成为社交机器人账户的开放游乐场。社交机器人不仅学习人类谈话,方式和存在,还可以操纵舆论,充当诈骗者,操纵股票市场等。有证据表明,人们的意见和思想可能是对民主的巨大威胁。识别和预防释放或创建这些机器人的竞选活动已经变得至关重要。我们本文的目标是利用网络挖掘技术来帮助检测在诸如Twitter等社交媒体平台上的假机器人,从而减轻了不奉献的传播。
translated by 谷歌翻译
即使互联网和社交媒体增加了人们可能会消耗的新闻和信息量,大多数用户才会暴露于加强其职位的内容,并将其与其他思想社区隔离。这种环境对我们的生活产生了极大的影响,如严重的政治极化,轻松传播的假新闻,政治极端主义,仇恨团体以及缺乏丰富的辩论等。因此,鼓励不同的用户组之间的对话并打破封闭的社区对健康社会的重要性。在本文中,我们使用自然语言处理技术和图形机学习算法来表征和研究在Twitter上打破社区的用户。特别是,我们从150万用户收集了900万个Twitter消息,并构建了转发网络。我们确定了他们的社区和与他们相关的讨论主题。通过这些数据,我们为社交媒体用户分类提供了一种机器学习框架,该分类检测到“社区分手”,即从他们的封闭社区到另一个用户的用户。三个Twitter极化政治数据集中的一个特征重要性分析表明,这些用户的PageRank值低,表明改变是推动的,因为他们的消息在其社区中没有响应。这种方法还允许我们确定其特定的兴趣主题,提供了这种用户的全面表征。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
在明确的政治事件(例如选举)的背景下,经常对两极分化和回声室进行研究,而在非政治背景下,很少有学术研究检查了政治团体的混合。在非政治背景下研究政治两极分化的一个主要障碍是,政治倾向(即左派与右取向)通常是未知的。尽管如此,众所周知,政治倾向与许多生活方式选择相关联(有时很强),导致刻板印象,例如“拿铁咖啡自由主义者”。我们开发了一个机器学习分类器,以推断出从非政治文本中倾斜的政治倾向,并且可以选择地,用户在社交媒体上关注的帐户。我们使用在Twitter上共享的选民建议申请结果作为我们的地面图,并在Twitter数据集上训练并测试我们的分类器,其中包括3200个用户的3200个最新推文,此前删除了任何有政治文本的推文。我们将大多数用户的政治倾向正确分类(F1分数从0.70到0.85,具体取决于覆盖范围)。我们发现政治活动水平与我们的分类结果之间没有关系。我们将分类器应用于英国新闻共享的案例研究,发现一般而言,政治新闻的共享表现出独特的左右鸿沟,而体育新闻则没有。
translated by 谷歌翻译
在过去十年中,假新闻和错误信息变成了一个主要问题,影响了我们生活的不同方面,包括政治和公共卫生。灵感来自自然人类行为,我们提出了一种自动检测假新闻的方法。自然人行为是通过可靠的来源交叉检查新信息。我们使用自然语言处理(NLP)并构建机器学习(ML)模型,可自动执行与一组预定义的可靠源进行交叉检查新信息的过程。我们为Twitter实施了此功能,并构建标记假推送的模型。具体而言,对于给定的推文,我们使用其文本来查找来自可靠的新闻机构的相关新闻。然后,我们培训一个随机森林模型,检查推文的文本内容是否与可信新闻对齐。如果不是,则推文被归类为假。这种方法通常可以应用于任何类型的信息,并且不限于特定的新闻故事或信息类别。我们的实施此方法提供了70美元的$ 70 \%$准确性,这优于其他通用假新闻分类模型。这些结果为假新闻检测提供了更明智和自然的方法。
translated by 谷歌翻译
Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效,例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识,但许多社交媒体使用者仍被有关疫苗的虚假信息淹没,并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包,能够分析Twitter配置文件,以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法,神经网络和自动数据集生成的,并接受了数百万条推文培训。我们发现,该模型可以准确地检测出抗疫苗用户,直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动,以揭露有害的反疫苗接种神话。
translated by 谷歌翻译
检测假新闻对于确保信息的真实性和维持新闻生态系统的可靠性至关重要。最近,由于最近的社交媒体和伪造的内容生成技术(例如Deep Fake)的扩散,假新闻内容的增加了。假新闻检测的大多数现有方式都集中在基于内容的方法上。但是,这些技术中的大多数无法处理生成模型生产的超现实合成媒体。我们最近的研究发现,真实和虚假新闻的传播特征是可以区分的,无论其方式如何。在这方面,我们已经根据社会环境调查了辅助信息,以检测假新闻。本文通过基于混合图神经网络的方法分析了假新闻检测的社会背景。该混合模型基于将图形神经网络集成到新闻内容上的新闻和BI定向编码器表示的传播中,以了解文本功能。因此,这种提出的方​​法可以学习内容以及上下文特征,因此能够在Politifact上以F1分别为0.91和0.93的基线模型和八西八角数据集的基线模型,分别超过了基线模型,分别在八西八学数据集中胜过0.93
translated by 谷歌翻译
鉴于社交媒体消费的增加,估计社交媒体使用者的政治倾向是一个具有挑战性且越来越紧迫的问题。我们介绍了retweet-bert,这是一个简单且可扩展的模型,以估算Twitter用户的政治倾向。 retweet-bert利用转发网络结构和用户配置文件描述中使用的语言。我们的假设源于具有类似意识形态的人的网络和语言学的模式。 retweet-bert表现出对其他最先进的基线的竞争性能,在最近的两个Twitter数据集(COVID-19数据集和2020年美国总统选举数据集)中,达到96%-97%的宏观F1。我们还执行手动验证,以验证培训数据中不在培训数据中的用户的retweet-bert的性能。最后,在Covid-19的案例研究中,我们说明了Twitter上政治回声室的存在,并表明它主要存在于正确的倾斜用户中。我们的代码是开源的,我们的数据已公开可用。
translated by 谷歌翻译
在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如,超过3亿人在全球Twitter上参与帖子,这提供了传播误导信息的可能性。在许多情况下,由于虚假新闻,已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集(Covid-19误导2020数据集),该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻,并在以下网址公开,网址为:HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明,测试精度分别为92.23%和90.56%,集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
The detection of state-sponsored trolls acting in information operations is an unsolved and critical challenge for the research community, with repercussions that go beyond the online realm. In this paper, we propose a novel AI-based solution for the detection of state-sponsored troll accounts, which consists of two steps. The first step aims at classifying trajectories of accounts' online activities as belonging to either a state-sponsored troll or to an organic user account. In the second step, we exploit the classified trajectories to compute a metric, namely "troll score", which allows us to quantify the extent to which an account behaves like a state-sponsored troll. As a study case, we consider the troll accounts involved in the Russian interference campaign during the 2016 US Presidential election, identified as Russian trolls by the US Congress. Experimental results show that our approach identifies accounts' trajectories with an AUC close to 99\% and, accordingly, classify Russian trolls and organic users with an AUC of 97\%. Finally, we evaluate whether the proposed solution can be generalized to different contexts (e.g., discussions about Covid-19) and generic misbehaving users, showing promising results that will be further expanded in our future endeavors.
translated by 谷歌翻译
自Covid-19大流行病开始以来,疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化,因为有些人认为它们是结束大流行的重要措施,而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子,并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集,收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机(SVM)分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器,其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明,随着疫苗的推出,对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题,并随着时间的推移介绍了各自的重要性。我们表明,流行的主题包括阴谋讨论,例如5G塔和微芯片,但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明,即使是不受欢迎的观点或阴谋论,与广受欢迎的讨论主题(例如Covid-19疫苗)配对时,也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策,以促进未来类似危机的人口接种。
translated by 谷歌翻译
在当今的世界中,每个人都以某种方式表现出来,而该项目的重点是人们使用Twitter的数据(一个微博平台)的数据,人们对英国和印度的电价上涨的看法,人们在该平台上发布了消息,人们发布了消息,称为Tweets。因为许多人的收入不好,他们必须缴纳如此多的税款和账单,因此如今,维持房屋已成为有争议的问题。尽管政府提供了补贴计划来补偿人们的电费,但不受人们的欢迎。在这个项目中,目的是对Twitter上表达的人们的表达和观点进行情感分析。为了掌握电价的意见,有必要对能源市场的政府和消费者进行情感分析。此外,这些媒体上存在的文本本质上是非结构化的,因此要处理它们,我们首先需要预处理数据。有很多功能提取技术,例如单词袋,tf-idf(术语频率为单位的文档频率),单词嵌入,基于NLP的功能,例如Word Count。在该项目中,我们分析了特征TF-IDF单词级别对情感分析数据集的影响。我们发现,通过使用TF-IDF单词级别的性能分析的表现比使用N-Gram功能高3-4。使用四种分类算法进行分析,包括幼稚的贝叶斯,决策树,随机森林和逻辑回归,并考虑F评分,准确性,精度和召回性能参数。
translated by 谷歌翻译
T\"urkiye is located on a fault line; earthquakes often occur on a large and small scale. There is a need for effective solutions for gathering current information during disasters. We can use social media to get insight into public opinion. This insight can be used in public relations and disaster management. In this study, Twitter posts on Izmir Earthquake that took place on October 2020 are analyzed. We question if this analysis can be used to make social inferences on time. Data mining and natural language processing (NLP) methods are used for this analysis. NLP is used for sentiment analysis and topic modelling. The latent Dirichlet Allocation (LDA) algorithm is used for topic modelling. We used the Bidirectional Encoder Representations from Transformers (BERT) model working with Transformers architecture for sentiment analysis. It is shown that the users shared their goodwill wishes and aimed to contribute to the initiated aid activities after the earthquake. The users desired to make their voices heard by competent institutions and organizations. The proposed methods work effectively. Future studies are also discussed.
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
电报是全球最常用的即时消息传递应用之一。其成功之所以在于提供高隐私保护和社交网络,如频道 - 虚拟房间,其中只有管理员可以发布和广播到所有订户的消息。然而,这些相同的功能促成了边界活动的出现,并且与在线社交网络一样常见,假账户的沉重存在。通过引入频道的验证和诈骗标记,电报开始解决这些问题。不幸的是,问题远未解决。在这项工作中,我们通过收集35,382个不同的渠道和超过130,000,000消息来进行大规模分析电报。我们研究电报标记为验证或骗局的渠道,突出显示类比和差异。然后,我们转到未标记的频道。在这里,我们发现一些臭名昭着的活动也存在于虚拟网络的隐私保存服务,例如梳理,共享非法成人和版权保护内容。此外,我们还确定并分析了另外两种类型的渠道:克隆和假货。克隆是发布另一个频道确切内容的频道,以获得订阅者和促进服务。相反,假货是试图冒充名人或知名服务的渠道。即使是最先进的用户甚至很难确定。要自动检测假频道,我们提出了一种机器学习模型,可以以86%的准确性识别它们。最后,我们研究了Sabmyk,这是一种阴谋理论,即利用假货和克隆在达到超过1000万用户的平台上迅速传播。
translated by 谷歌翻译
Modelling and forecasting real-life human behaviour using online social media is an active endeavour of interest in politics, government, academia, and industry. Since its creation in 2006, Twitter has been proposed as a potential laboratory that could be used to gauge and predict social behaviour. During the last decade, the user base of Twitter has been growing and becoming more representative of the general population. Here we analyse this user base in the context of the 2021 Mexican Legislative Election. To do so, we use a dataset of 15 million election-related tweets in the six months preceding election day. We explore different election models that assign political preference to either the ruling parties or the opposition. We find that models using data with geographical attributes determine the results of the election with better precision and accuracy than conventional polling methods. These results demonstrate that analysis of public online data can outperform conventional polling methods, and that political analysis and general forecasting would likely benefit from incorporating such data in the immediate future. Moreover, the same Twitter dataset with geographical attributes is positively correlated with results from official census data on population and internet usage in Mexico. These findings suggest that we have reached a period in time when online activity, appropriately curated, can provide an accurate representation of offline behaviour.
translated by 谷歌翻译
社交媒体通常在选举活动中被公众使用,以表达他们对不同问题的看法。在各种社交媒体渠道中,Twitter为研究人员和政客提供了一个有效的平台,以探索有关经济和外交政策等广泛主题的公众舆论。当前的文献主要集中于分析推文的内容而无需考虑用户的性别。这项研究收集和分析了大量推文,并使用计算,人类编码和统计分析来识别2020年美国总统选举期间发布的300,000多个推文中的主题。我们的发现是基于广泛的主题,例如税收,气候变化和Covid-19-19。在主题中,女性和男性用户之间存在着显着差异,超过70%的主题。
translated by 谷歌翻译
随着共同群众在社交媒体中的参与不断上升,政策制定者/记者在社交媒体上进行在线民意调查以了解人们在特定地点的政治倾向是越来越普遍的。这里的警告是,只有有影响力的人才能进行这样的在线民意调查并大规模伸展。此外,在这种情况下,选民的分配是不可控制的,实际上可能是有偏见的。另一方面,如果我们可以通过社交媒体解释公开可用的数据来探究用户的政治倾向,我们将能够对调查人群有可控的见解,保持低调的成本,并在没有公开数据的情况下收集公开可用的数据涉及有关人员。因此,我们引入了一个自我牵键的半监督框架,以进一步进一步实现这一目标。我们模型的优点是它既不需要大量的培训数据,也不需要存储社交网络参数。然而,它在没有带注释的数据的情况下达到了93.7 \%的精度。此外,每个课程只有几个注释的示例可以实现竞争性能。我们发现,即使在资源约束的设置中,该模型也是高效的,并且从其预测中得出的见解与手动调查结果相匹配时,将其应用于不同的现实生活中。
translated by 谷歌翻译