假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
由于信息和错误信息都可以在现代媒体生态系统中传播的速度,事实检查变得越来越重要。因此,研究人员一直在探索如何自动检查,使用基于自然语言处理,机器学习,知识表示以及数据库来自动检查的技术,以自动预测所称的索赔的真实性。在本文中,我们从自然语言处理中调查了自动检查源,并讨论其与相关任务和学科的联系。在此过程中,我们概述了现有数据集和模型,旨在统一给出的各种定义和识别共同概念。最后,我们突出了未来研究的挑战。
translated by 谷歌翻译
了解文本中表达的态度,也称为姿态检测,在旨在在线检测虚假信息的系统中起重要作用,无论是错误信息(无意的假)或虚假信息(故意错误地蔓延,恶意意图)。姿态检测已经以不同的方式在文献中框架,包括(a)作为事实检查,谣言检测和检测先前的事实检查的权利要求,或(b)作为其自己的任务的组件;在这里,我们看看两者。虽然已经进行了与其他相关任务的突出姿态检测,但诸如论证挖掘和情绪分析之类的其他相关任务,但没有调查姿态检测和错误和缺陷检测之间的关系。在这里,我们的目标是弥合这个差距。特别是,我们在焦点中审查和分析了该领域的现有工作,焦点中的错误和不忠实,然后我们讨论了汲取的经验教训和未来的挑战。
translated by 谷歌翻译
Social media has been one of the main information consumption sources for the public, allowing people to seek and spread information more quickly and easily. However, the rise of various social media platforms also enables the proliferation of online misinformation. In particular, misinformation in the health domain has significant impacts on our society such as the COVID-19 infodemic. Therefore, health misinformation in social media has become an emerging research direction that attracts increasing attention from researchers of different disciplines. Compared to misinformation in other domains, the key differences of health misinformation include the potential of causing actual harm to humans' bodies and even lives, the hardness to identify for normal people, and the deep connection with medical science. In addition, health misinformation on social media has distinct characteristics from conventional channels such as television on multiple dimensions including the generation, dissemination, and consumption paradigms. Because of the uniqueness and importance of combating health misinformation in social media, we conduct this survey to further facilitate interdisciplinary research on this problem. In this survey, we present a comprehensive review of existing research about online health misinformation in different disciplines. Furthermore, we also systematically organize the related literature from three perspectives: characterization, detection, and intervention. Lastly, we conduct a deep discussion on the pressing open issues of combating health misinformation in social media and provide future directions for multidisciplinary researchers.
translated by 谷歌翻译
近年来,在网上见证了令人反感的内容的泛滥,例如假新闻,宣传,错误信息和虚假信息。虽然最初这主要是关于文本内容,但随着时间的流逝,图像和视频越来越受欢迎,因为它们更容易消费,吸引更多的关注并比文本更广泛地传播。结果,研究人员开始利用不同的方式及其组合来解决在线多模式进攻内容。在这项研究中,我们提供了有关最新的多模式虚假信息检测的调查,该检测涵盖了各种模式组合:文本,图像,语音,视频,社交媒体网络结构和时间信息。此外,尽管有些研究集中于事实,但其他研究调查了内容的有害性。尽管虚假信息定义中的这两个组成部分(i)事实和(ii)有害性同样重要,但通常会孤立地研究它们。因此,我们主张在同一框架中考虑多种方式以及事实和有害性来解决虚假信息检测。最后,我们讨论当前的挑战和未来的研究方向
translated by 谷歌翻译
在过去几年中,社交媒体上传播的错误消息激增,并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻(例如政治或医疗保健)的研究,但比较跨领域的虚假新闻几乎没有工作。在本文中,我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子,由40,215个用户发布,并重新发布了。 340万次。基于多域数据集的分布和传播,我们观察到,在诸如健康和医学之类的日常生活的领域中,虚假的消息比政治等其他领域的帖子更有效,但有效地传播的帖子较少,而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户(按性别,年龄等。此外,这些帖子都引起了重新播放的强烈情绪,并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现,真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式,这表明需要对来自不同平台,国家或语言的数据进行更多研究,以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。
translated by 谷歌翻译
随着社交媒体平台从基于文本的论坛发展为多模式环境,社交媒体中错误信息的性质也正在发生相应的变化。利用这样一个事实,即图像和视频等视觉方式对用户更有利和吸引力,并且有时会毫不粗糙地浏览文本内容,否则传播器最近针对模式之间的上下文相关性,例如文本和图像。因此,许多研究工作已经发展为自动技术,用于检测基于Web的媒体中可能的跨模式不一致。在这项工作中,我们旨在分析,分类和确定现有方法,除了面临的挑战和缺点外,还要在多模式错误信息检测领域中发掘新的机会。
translated by 谷歌翻译
事实核对是打击在线错误信息方面的有效解决方案之一。但是,传统的事实检查是一个需要稀缺专家人力资源的过程,因此由于要检查新内容的持续流动,因此在社交媒体上并不能很好地扩展。已经提出了基于众包的方法来应对这一挑战,因为它们可以以较小的成本进行扩展,但是尽管它们证明是可行的,但一直在受控环境中进行研究。在这项工作中,我们研究了在BirdWatch计划的Twitter启动的,在实践中部署的众包事实检查的第一个大规模努力。我们的分析表明,在某些情况下,众包可能是一种有效的事实检查策略,甚至可以与人类专家获得的结果相媲美,但不会导致其他人的一致,可行的结果。我们处理了BirdWatch计划验证的11.9k推文,并报告了i)人群和专家如何选择内容的内容的差异,ii)ii)人群和专家如何将不同的资源检索到事实检查,以及III )与专家检查员相比,人群在事实检查可伸缩性和效率方面所显示的优势。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
在社交媒体上的工作谣言验证利用了帖子,传播和所涉及的用户的信号。基于Wikipedia的信息或值得信赖的新闻文章而无需考虑社交媒体环境,其他工作目标是识别和核实事实检查的主张。但是,缺乏将社交媒体的信息与更广泛网络的外部证据相结合的工作。为了促进这个方向的研究,我们发布了一个新颖的数据集Phemeplus,Phemeplus是Pheme基准的扩展,该数据集包含社交媒体对话以及每个谣言的相关外部证据。我们证明了将这种证据纳入改进谣言验证模型的有效性。此外,作为证据收集的一部分,我们评估了各种查询公式的方法,以识别最有效的方法。
translated by 谷歌翻译
We present the Verifee Dataset: a novel dataset of news articles with fine-grained trustworthiness annotations. We develop a detailed methodology that assesses the texts based on their parameters encompassing editorial transparency, journalist conventions, and objective reporting while penalizing manipulative techniques. We bring aboard a diverse set of researchers from social, media, and computer sciences to overcome barriers and limited framing of this interdisciplinary problem. We collect over $10,000$ unique articles from almost $60$ Czech online news sources. These are categorized into one of the $4$ classes across the credibility spectrum we propose, raging from entirely trustworthy articles all the way to the manipulative ones. We produce detailed statistics and study trends emerging throughout the set. Lastly, we fine-tune multiple popular sequence-to-sequence language models using our dataset on the trustworthiness classification task and report the best testing F-1 score of $0.52$. We open-source the dataset, annotation methodology, and annotators' instructions in full length at https://verifee.ai/research to enable easy build-up work. We believe similar methods can help prevent disinformation and educate in the realm of media literacy.
translated by 谷歌翻译
关于社交媒体的虚假医疗信息对人们的健康构成伤害。尽管近年来已经认识到对生物医学事实检查的需求,但用户生成的医疗内容受到了相当少的关注。同时,其他文本类型的模型可能不可重复使用,因为他们接受过培训的说法大不相同。例如,Scifact数据集中的主张是简短而专注的:“与抗抑郁药相关的副作用会增加中风的风险”。相比之下,社交媒体持有自然存在的主张,经常嵌入其他背景下:``如果您服用像SSRI这样的抗抑郁药,您可能会有一种称为5-羟色胺综合征'5-羟色胺'5-羟色胺'的风险。2010年几乎杀死了我。和癫痫发作。”这展示了现实世界中医学主张与现有事实检查系统所期望的输入之间的不匹配。为了使用户生成的内容可通过现有模型来检查,我们建议以这样的方式对社交媒体的输入进行重新重新制定,以使所产生的索赔模仿已建立的数据集中的索赔特征。为此,我们的方法借助关系实体信息将主张凝结,并将索赔从实体关联 - 实体三重汇编中汇编,或者提取包含这些元素的最短短语。我们表明,重新计算的输入改善了各种事实检查模型的性能,而不是整体检查推文文本。
translated by 谷歌翻译
社交媒体的回声室是一个重要的问题,可以引起许多负面后果,最近影响对Covid-19的响应。回声室促进病毒的阴谋理论,发现与疫苗犹豫不决,较少遵守面具授权,以及社会疏散的实践。此外,回声室的问题与政治极化等其他相关问题相连,以及误导的传播。回声室被定义为用户网络,用户只与支持其预先存在的信仰和意见的意见相互作用,并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象,并为可能的解决方案提供蓝图。我们调查了相关文献,了解回声室的属性以及它们如何影响个人和社会。此外,我们展示了算法和心理的机制,这导致了回声室的形成。这些机制可以以两种形式表现出:(1)社交媒体推荐系统的偏见和(2)内部偏见,如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的,但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议,以使我们参与其中才能观看更多广告。因此,我们进一步研究了回声室检测和预防的不同计算方法,主要基于推荐系统。
translated by 谷歌翻译
在过去十年中,假新闻和错误信息变成了一个主要问题,影响了我们生活的不同方面,包括政治和公共卫生。灵感来自自然人类行为,我们提出了一种自动检测假新闻的方法。自然人行为是通过可靠的来源交叉检查新信息。我们使用自然语言处理(NLP)并构建机器学习(ML)模型,可自动执行与一组预定义的可靠源进行交叉检查新信息的过程。我们为Twitter实施了此功能,并构建标记假推送的模型。具体而言,对于给定的推文,我们使用其文本来查找来自可靠的新闻机构的相关新闻。然后,我们培训一个随机森林模型,检查推文的文本内容是否与可信新闻对齐。如果不是,则推文被归类为假。这种方法通常可以应用于任何类型的信息,并且不限于特定的新闻故事或信息类别。我们的实施此方法提供了70美元的$ 70 \%$准确性,这优于其他通用假新闻分类模型。这些结果为假新闻检测提供了更明智和自然的方法。
translated by 谷歌翻译
在网上进行的虚假信息广泛传播,包括错误信息和虚假信息已成为我们高度数字化和全球化社会的主要问题。已经进行了大量研究来更好地理解在线虚假信息的不同方面,例如不同参与者的行为和传播模式,以及使用技术和社会技术手段更好地检测和预防此类信息。在线检测和揭穿虚假信息的一种主要方法是使用人类事实检查器,这些事实检查器可以通过自动化工具来帮助。尽管进行了大量研究,但我们注意到缺乏描述虚假信息和事实检查的复杂生态系统的概念模型存在很大的差距。在本文中,我们报告了此类生态系统的第一批图形模型,这些模型重点介绍了在多种情况下在线的虚假信息,包括传统媒体和用户生成的内容。拟议的模型涵盖了广泛的实体类型和关系,可以成为研究人员和从业者在线研究虚假信息以及事实检查的效果的新工具。
translated by 谷歌翻译
Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
自从有新闻以来,假新闻一直存在,从谣言到印刷媒体再到广播电视。最近,信息时代及其沟通和互联网突破加剧了假新闻的传播。此外,除了电子商务外,当前的互联网经济取决于广告,视图和点击,这促使许多开发人员诱饵最终用户点击链接或广告。因此,假新闻通过社交媒体网络的狂野传播影响了现实世界中的问题,从选举到5G的采用以及Covid-19大流行的处理。自虚假新闻出现以来,从事实检查员到基于人工智能的探测器,探测和阻止假新闻的努力就一直存在。由于假新闻传播器采用了更复杂的技术,因此解决方案仍在不断发展。在本文中,R代码已用于研究和可视化现代假新闻数据集。我们使用聚类,分类,相关性和各种图来分析和呈现数据。该实验显示了分类器在与虚假新闻中分开的效率高效率。
translated by 谷歌翻译
社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是,在每天发布的数百万帖子中找到相关信息可能很困难,并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法,尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例,并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本,以及一组自动数据处理工具,用于过滤,分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议,以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。
translated by 谷歌翻译