了解文本中表达的态度,也称为姿态检测,在旨在在线检测虚假信息的系统中起重要作用,无论是错误信息(无意的假)或虚假信息(故意错误地蔓延,恶意意图)。姿态检测已经以不同的方式在文献中框架,包括(a)作为事实检查,谣言检测和检测先前的事实检查的权利要求,或(b)作为其自己的任务的组件;在这里,我们看看两者。虽然已经进行了与其他相关任务的突出姿态检测,但诸如论证挖掘和情绪分析之类的其他相关任务,但没有调查姿态检测和错误和缺陷检测之间的关系。在这里,我们的目标是弥合这个差距。特别是,我们在焦点中审查和分析了该领域的现有工作,焦点中的错误和不忠实,然后我们讨论了汲取的经验教训和未来的挑战。
translated by 谷歌翻译
由于信息和错误信息都可以在现代媒体生态系统中传播的速度,事实检查变得越来越重要。因此,研究人员一直在探索如何自动检查,使用基于自然语言处理,机器学习,知识表示以及数据库来自动检查的技术,以自动预测所称的索赔的真实性。在本文中,我们从自然语言处理中调查了自动检查源,并讨论其与相关任务和学科的联系。在此过程中,我们概述了现有数据集和模型,旨在统一给出的各种定义和识别共同概念。最后,我们突出了未来研究的挑战。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
近年来,在网上见证了令人反感的内容的泛滥,例如假新闻,宣传,错误信息和虚假信息。虽然最初这主要是关于文本内容,但随着时间的流逝,图像和视频越来越受欢迎,因为它们更容易消费,吸引更多的关注并比文本更广泛地传播。结果,研究人员开始利用不同的方式及其组合来解决在线多模式进攻内容。在这项研究中,我们提供了有关最新的多模式虚假信息检测的调查,该检测涵盖了各种模式组合:文本,图像,语音,视频,社交媒体网络结构和时间信息。此外,尽管有些研究集中于事实,但其他研究调查了内容的有害性。尽管虚假信息定义中的这两个组成部分(i)事实和(ii)有害性同样重要,但通常会孤立地研究它们。因此,我们主张在同一框架中考虑多种方式以及事实和有害性来解决虚假信息检测。最后,我们讨论当前的挑战和未来的研究方向
translated by 谷歌翻译
Social media has been one of the main information consumption sources for the public, allowing people to seek and spread information more quickly and easily. However, the rise of various social media platforms also enables the proliferation of online misinformation. In particular, misinformation in the health domain has significant impacts on our society such as the COVID-19 infodemic. Therefore, health misinformation in social media has become an emerging research direction that attracts increasing attention from researchers of different disciplines. Compared to misinformation in other domains, the key differences of health misinformation include the potential of causing actual harm to humans' bodies and even lives, the hardness to identify for normal people, and the deep connection with medical science. In addition, health misinformation on social media has distinct characteristics from conventional channels such as television on multiple dimensions including the generation, dissemination, and consumption paradigms. Because of the uniqueness and importance of combating health misinformation in social media, we conduct this survey to further facilitate interdisciplinary research on this problem. In this survey, we present a comprehensive review of existing research about online health misinformation in different disciplines. Furthermore, we also systematically organize the related literature from three perspectives: characterization, detection, and intervention. Lastly, we conduct a deep discussion on the pressing open issues of combating health misinformation in social media and provide future directions for multidisciplinary researchers.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
姿态检测的目标是确定以目标朝向目标的文本中表达的视点。这些观点或上下文通常以许多不同的语言表达,这取决于用户和平台,这可以是本地新闻插座,社交媒体平台,新闻论坛等。然而,姿态检测的大多数研究已经限于使用单一语言和几个有限的目标,在交叉舌姿态检测很少有效。此外,标记数据的非英语来源通常稀缺,并具有额外的挑战。最近,大型多语言语言模型在许多非英语任务上大大提高了性能,尤其是具有有限数量的示例。这突出了模型预培训的重要性及其从少数例子中学习的能力。在本文中,我们展示了对日期交叉姿态检测的最全面的研究:我们在6名语言系列中使用12种语言的12种不同的数据集进行实验,每个都有6个低资源评估设置。对于我们的实验,我们构建了模式开发培训,提出了添加一种新颖的标签编码器来简化言语程序。我们进一步提出了基于情绪的姿态数据进行预培训,这在与几个强的基线相比,在低拍摄环境中显示了大量的6%F1绝对的增长。
translated by 谷歌翻译
在社交媒体上的工作谣言验证利用了帖子,传播和所涉及的用户的信号。基于Wikipedia的信息或值得信赖的新闻文章而无需考虑社交媒体环境,其他工作目标是识别和核实事实检查的主张。但是,缺乏将社交媒体的信息与更广泛网络的外部证据相结合的工作。为了促进这个方向的研究,我们发布了一个新颖的数据集Phemeplus,Phemeplus是Pheme基准的扩展,该数据集包含社交媒体对话以及每个谣言的相关外部证据。我们证明了将这种证据纳入改进谣言验证模型的有效性。此外,作为证据收集的一部分,我们评估了各种查询公式的方法,以识别最有效的方法。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
随着社交媒体平台从基于文本的论坛发展为多模式环境,社交媒体中错误信息的性质也正在发生相应的变化。利用这样一个事实,即图像和视频等视觉方式对用户更有利和吸引力,并且有时会毫不粗糙地浏览文本内容,否则传播器最近针对模式之间的上下文相关性,例如文本和图像。因此,许多研究工作已经发展为自动技术,用于检测基于Web的媒体中可能的跨模式不一致。在这项工作中,我们旨在分析,分类和确定现有方法,除了面临的挑战和缺点外,还要在多模式错误信息检测领域中发掘新的机会。
translated by 谷歌翻译
社交媒体平台为挖掘公众舆论提供了众多社会兴趣问题的金矿。意见采矿是一个问题,可以通过捕获和汇总各个社交媒体职位的立场,作为支持,反对或者在手头上的问题上进行。虽然大多数姿态检测工作已经调查了具有有限时间覆盖率的数据集,但最近提高了调查纵向数据集的兴趣。在新数据中观察到的语言和行为模式中的演变动态,依次适应姿态检测系统来处理变化。在本调查论文中,我们研究了计算语言学与数字媒体人类交流的交叉口。在考虑动态的新兴研究中,我们在探索不同的语义和语用因素,探讨了影响语言数据的不同语义和语用因素,特别是审查。我们进一步讨论了在社交媒体中捕获姿态动态的当前方向。我们组织处理姿态动态的挑战,确定公开挑战,并在三个关键方面讨论未来的方向:话语,背景和影响。
translated by 谷歌翻译
BERT,ROBERTA或GPT-3等复杂的基于注意力的语言模型的外观已允许在许多场景中解决高度复杂的任务。但是,当应用于特定域时,这些模型会遇到相当大的困难。诸如Twitter之类的社交网络就是这种情况,Twitter是一种不断变化的信息流,以非正式和复杂的语言编写的信息流,鉴于人类的重要作用,每个信息都需要仔细评估,即使人类也需要理解。通过自然语言处理解决该领域的任务涉及严重的挑战。当将强大的最先进的多语言模型应用于这种情况下,特定语言的细微差别用来迷失翻译。为了面对这些挑战,我们提出了\ textbf {bertuit},这是迄今为止针对西班牙语提出的较大变压器,使用Roberta Optimization进行了230m西班牙推文的大规模数据集进行了预培训。我们的动机是提供一个强大的资源,以更好地了解西班牙Twitter,并用于专注于该社交网络的应用程序,特别强调致力于解决该平台中错误信息传播的解决方案。对Bertuit进行了多个任务评估,并与M-Bert,XLM-Roberta和XLM-T进行了比较,该任务非常具有竞争性的多语言变压器。在这种情况下,使用应用程序显示了我们方法的实用性:一种可视化骗局和分析作者群体传播虚假信息的零击方法。错误的信息在英语以外的其他语言等平台上疯狂地传播,这意味着在英语说话之外转移时,变形金刚的性能可能会受到影响。
translated by 谷歌翻译
关于社交媒体的虚假医疗信息对人们的健康构成伤害。尽管近年来已经认识到对生物医学事实检查的需求,但用户生成的医疗内容受到了相当少的关注。同时,其他文本类型的模型可能不可重复使用,因为他们接受过培训的说法大不相同。例如,Scifact数据集中的主张是简短而专注的:“与抗抑郁药相关的副作用会增加中风的风险”。相比之下,社交媒体持有自然存在的主张,经常嵌入其他背景下:``如果您服用像SSRI这样的抗抑郁药,您可能会有一种称为5-羟色胺综合征'5-羟色胺'5-羟色胺'的风险。2010年几乎杀死了我。和癫痫发作。”这展示了现实世界中医学主张与现有事实检查系统所期望的输入之间的不匹配。为了使用户生成的内容可通过现有模型来检查,我们建议以这样的方式对社交媒体的输入进行重新重新制定,以使所产生的索赔模仿已建立的数据集中的索赔特征。为此,我们的方法借助关系实体信息将主张凝结,并将索赔从实体关联 - 实体三重汇编中汇编,或者提取包含这些元素的最短短语。我们表明,重新计算的输入改善了各种事实检查模型的性能,而不是整体检查推文文本。
translated by 谷歌翻译
事实核对是打击在线错误信息方面的有效解决方案之一。但是,传统的事实检查是一个需要稀缺专家人力资源的过程,因此由于要检查新内容的持续流动,因此在社交媒体上并不能很好地扩展。已经提出了基于众包的方法来应对这一挑战,因为它们可以以较小的成本进行扩展,但是尽管它们证明是可行的,但一直在受控环境中进行研究。在这项工作中,我们研究了在BirdWatch计划的Twitter启动的,在实践中部署的众包事实检查的第一个大规模努力。我们的分析表明,在某些情况下,众包可能是一种有效的事实检查策略,甚至可以与人类专家获得的结果相媲美,但不会导致其他人的一致,可行的结果。我们处理了BirdWatch计划验证的11.9k推文,并报告了i)人群和专家如何选择内容的内容的差异,ii)ii)人群和专家如何将不同的资源检索到事实检查,以及III )与专家检查员相比,人群在事实检查可伸缩性和效率方面所显示的优势。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
新闻事实检查的一个重要挑战是对现有事实核对的有效传播。反过来,这需要可靠的方法来检测先前事实检查的主张。在本文中,我们专注于自动寻找在社交媒体帖子(推文)中提出的索赔的现有事实检查。我们使用多语言变压器模型(例如XLM-Roberta和多语言嵌入者,例如Labse and Sbert)进行单语(仅英语),多语言(西班牙语,葡萄牙语)和跨语性(印度英语)设置进行分类和检索实验。我们提供了四个语言对的“匹配”分类(平均准确性86%)的有希望的结果。我们还发现,在单语实验中,BM25基线的表现胜过或与最先进的多语言嵌入模型相提并论。我们在以不同的语言来解决此问题的同时,强调和讨论NLP挑战,并介绍了一个新颖的事实检查数据集和相应的推文,以供将来的研究。
translated by 谷歌翻译
具有讽刺意味的是日常交流中普遍存在的象征性语言。以前,许多研究人员已经从语言,认知科学和计算方面进行了讽刺。最近,由于自然语言处理(NLP)深度神经模型的快速发展,自动讽刺加工中已经看到了一些进展。在本文中,我们将提供有关计算讽刺,语言理论和认知科学的见解及其与下游NLP任务以及新提出的多X讽刺性处理观点的全面概述。
translated by 谷歌翻译
在过去几年中,社交媒体上传播的错误消息激增,并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻(例如政治或医疗保健)的研究,但比较跨领域的虚假新闻几乎没有工作。在本文中,我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子,由40,215个用户发布,并重新发布了。 340万次。基于多域数据集的分布和传播,我们观察到,在诸如健康和医学之类的日常生活的领域中,虚假的消息比政治等其他领域的帖子更有效,但有效地传播的帖子较少,而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户(按性别,年龄等。此外,这些帖子都引起了重新播放的强烈情绪,并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现,真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式,这表明需要对来自不同平台,国家或语言的数据进行更多研究,以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。
translated by 谷歌翻译
随着信息技术的快速发展,在线平台已经产生了巨大的文本资源。作为一种特定形式的信息提取(即),事件提取(EE)由于其自动从人类语言提取事件的能力而增加了普及。但是,事件提取有限的文献调查。现有审查工作要么花费很多努力,用于描述各种方法的细节或专注于特定领域。本研究提供了全面概述了最先进的事件提取方法及其从文本的应用程序,包括闭域和开放式事件提取。这项调查的特点是它提供了适度复杂性的概要,避免涉及特定方法的太多细节。本研究侧重于讨论代表作品的常见角色,应用领域,优势和缺点,忽略各个方法的特殊性。最后,我们总结了常见问题,当前解决方案和未来的研究方向。我们希望这项工作能够帮助研究人员和从业者获得最近的事件提取的快速概述。
translated by 谷歌翻译