社交媒体的可用性和互动性使它们成为全球各地的主要新闻来源。社交媒体的普及诱惑犯罪分子通过使用诱人文本和误导性图像制作和传播假新闻来追求不道德的意图。因此,验证社交媒体新闻和发现假期至关重要。这项工作旨在分析社交媒体中文本和图像的多模态特征,以检测假新闻。我们提出了一个假新闻透露者(FNR)方法,利用转换学习,提取上下文和语义特征和对比丢失,以确定图像和文本之间的相似性。我们在两个真正的社交媒体数据集上申请了FNR。结果表明,与以前的作品相比,该方法达到了检测假新闻的更高准确性。
translated by 谷歌翻译
随着社交媒体平台从基于文本的论坛发展为多模式环境,社交媒体中错误信息的性质也正在发生相应的变化。利用这样一个事实,即图像和视频等视觉方式对用户更有利和吸引力,并且有时会毫不粗糙地浏览文本内容,否则传播器最近针对模式之间的上下文相关性,例如文本和图像。因此,许多研究工作已经发展为自动技术,用于检测基于Web的媒体中可能的跨模式不一致。在这项工作中,我们旨在分析,分类和确定现有方法,除了面临的挑战和缺点外,还要在多模式错误信息检测领域中发掘新的机会。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
假新闻的扩散及其严重的负面社会影响力推动了假新闻检测方法成为网络经理的必要工具。同时,社交媒体的多媒体性质使多模式的假新闻检测因其捕获更多模态特征的能力而受欢迎,而不是单模式检测方法。但是,当前有关多模式检测的文献更有可能追求检测准确性,但忽略了检测器的鲁棒性。为了解决这个问题,我们提出了对多模式假新闻探测器的全面鲁棒性评估。在这项工作中,我们模拟了恶意用户和开发人员的攻击方法,即发布假新闻并注入后门。具体而言,我们使用五种对抗和两种后门攻击方法评估了多模式探测器。实验结果暗示:(1)在对抗攻击下,最先进的检测器的检测性能显着降解,甚至比一般检测器更糟; (2)大多数多模式探测器受到视觉模态的攻击比文本模态更容易受到攻击; (3)当受欢迎的事件的图像在探测器遭受后门攻击时会导致探测器的重大降解; (4)在多模式攻击下这些检测器的性能比在单模式攻击下更糟糕; (5)防御方法将改善多模式探测器的鲁棒性。
translated by 谷歌翻译
在过去的几年里,假新闻的前所未有的扩散。因此,我们更容易受到误导和消毒蔓延可能在我们社会的不同细分市场的影响。因此,开发自动检测假新闻的工具和在预防其负面影响方面发挥着重要作用。大多数尝试仅在使用文本信息时检测和分类错误内容焦点。多式联运方法频繁不那么频繁,它们通常将新闻分类为真假或假。在这项工作中,我们使用单峰和多模式方法对FakedDit DataSet进行精细的虚假新闻分类。我们的实验表明,基于卷积神经网络(CNN)架构的多模式方法组合文本和图像数据的最佳结果,精度为87%。一些假新闻类别,如操纵内容,讽刺或假连接强烈地受益于图像的使用。使用图像也提高了其他类别的结果,但影响较少。关于仅使用文本的单向方法,来自变压器(BERT)的双向编码器表示是最佳模型,精度为78%。因此,利用文本和图像数据显着提高了假新闻检测的性能。
translated by 谷歌翻译
近年来,在网上见证了令人反感的内容的泛滥,例如假新闻,宣传,错误信息和虚假信息。虽然最初这主要是关于文本内容,但随着时间的流逝,图像和视频越来越受欢迎,因为它们更容易消费,吸引更多的关注并比文本更广泛地传播。结果,研究人员开始利用不同的方式及其组合来解决在线多模式进攻内容。在这项研究中,我们提供了有关最新的多模式虚假信息检测的调查,该检测涵盖了各种模式组合:文本,图像,语音,视频,社交媒体网络结构和时间信息。此外,尽管有些研究集中于事实,但其他研究调查了内容的有害性。尽管虚假信息定义中的这两个组成部分(i)事实和(ii)有害性同样重要,但通常会孤立地研究它们。因此,我们主张在同一框架中考虑多种方式以及事实和有害性来解决虚假信息检测。最后,我们讨论当前的挑战和未来的研究方向
translated by 谷歌翻译
人们现在将社交媒体网站视为其唯一信息来源,因为它们的受欢迎程度。大多数人通过社交媒体获取新闻。同时,近年来,假新闻在社交媒体平台上成倍增长。几种基于人工智能的解决方案用于检测假新闻,已显示出令人鼓舞的结果。另一方面,这些检测系统缺乏解释功能,即解释为什么他们做出预测的能力。本文在可解释的假新闻检测中突出了当前的艺术状态。我们讨论了当前可解释的假新闻检测模型中的陷阱,并介绍了我们正在进行的有关多模式可解释的假新闻检测模型的研究。
translated by 谷歌翻译
BERT,ROBERTA或GPT-3等复杂的基于注意力的语言模型的外观已允许在许多场景中解决高度复杂的任务。但是,当应用于特定域时,这些模型会遇到相当大的困难。诸如Twitter之类的社交网络就是这种情况,Twitter是一种不断变化的信息流,以非正式和复杂的语言编写的信息流,鉴于人类的重要作用,每个信息都需要仔细评估,即使人类也需要理解。通过自然语言处理解决该领域的任务涉及严重的挑战。当将强大的最先进的多语言模型应用于这种情况下,特定语言的细微差别用来迷失翻译。为了面对这些挑战,我们提出了\ textbf {bertuit},这是迄今为止针对西班牙语提出的较大变压器,使用Roberta Optimization进行了230m西班牙推文的大规模数据集进行了预培训。我们的动机是提供一个强大的资源,以更好地了解西班牙Twitter,并用于专注于该社交网络的应用程序,特别强调致力于解决该平台中错误信息传播的解决方案。对Bertuit进行了多个任务评估,并与M-Bert,XLM-Roberta和XLM-T进行了比较,该任务非常具有竞争性的多语言变压器。在这种情况下,使用应用程序显示了我们方法的实用性:一种可视化骗局和分析作者群体传播虚假信息的零击方法。错误的信息在英语以外的其他语言等平台上疯狂地传播,这意味着在英语说话之外转移时,变形金刚的性能可能会受到影响。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
本文介绍了我们在Aaai 2022的多模态事实验证(Factifify)挑战的参与者系统。尽管最近基于文本的验证技术和大型预训练的多模式模型的跨视野和语言,但在申请方面取得了非常有限的工作自动化事实检查过程的多模式技术,特别考虑到社交媒体上的图像和视频的索赔和假新闻的普遍存在。在我们的工作中,挑战被视为多式联版征报任务并被诬陷为多级分类。提出并探索了两个基线方法,包括集合模型(组合两个Uni-Modal模型)和多模态注意力网络(在索赔和证据文件中建模图像和文本对之间的交互)。我们在这项工作中进行了调查和基准测试和基准测试的几个实验和基准测试。我们的最佳型号在排行榜中排名第一,在验证和测试集中获得0.77的加权平均f测量值。对DataSet的探索性分析也在辅助数据集上进行,并揭示了激励我们假设的突出模式和问题(例如,单词重叠,视觉着色相关性,来源偏见)。最后,我们突出了未来研究的任务和多模式数据集的挑战。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
随着社交网络的发展,用于各种商业和政治目的的虚假新闻已经大量出现,并在在线世界中广泛存在。有了欺骗性的话,人们可以很容易地被假新闻感染,并会在没有任何事实检查的情况下分享它们。例如,在2016年美国总统选举期间,有关候选人的各种虚假新闻在官方新闻媒体和在线社交网络中都广泛传播。这些假新闻通常会发布以涂抹对手或支持候选人的身边。假新闻中的错误信息通常是为了激励选民的非理性情感和热情。这样的虚假新闻有时会带来毁灭性的影响,改善在线社交网络的信誉的一个重要目标是及时确定假新闻。在本文中,我们建议研究假新闻检测问题。自动假新闻标识非常困难,因为新闻的基于纯模型的事实检查仍然是一个开放问题,并且很少使用现有模型来解决该问题。通过对虚假新闻数据进行彻底的调查,从假新闻中使用的文本单词和图像都可以确定许多有用的明确功能。除了明确的功能外,假新闻中使用的单词和图像中还存在一些隐藏的模式,可以用我们模型中的多个卷积层提取的一组潜在特征来捕获。本文提出了一种称为Ti-CNN的模型(基于文本和图像信息的综合神经网络)。通过将显式和潜在功能投射到统一的特征空间中,Ti-CNN可以同时培训文本和图像信息。在现实世界中的假新闻数据集进行的广泛实验证明了Ti-CNN的有效性。
translated by 谷歌翻译
近年来,已经出现了许多巨魔帐户来操纵社交媒体的意见。对于社交网络平台而言,检测和消除巨魔是一个关键问题,因为企业,滥用者和民族国家赞助的巨魔农场使用虚假和自动化的帐户。 NLP技术用于从社交网络文本中提取数据,例如Twitter推文。在许多文本处理应用程序中,诸如BERT之类的单词嵌入表示方法的执行效果要好于先前的NLP技术,从而为各种任务提供了新颖的突破,以精确理解和分类社交网络工作信息。本文实施并比较了九个基于深度学习的巨魔推文检测体系结构,每个bert,elmo和手套词嵌入模型的三个模型。精度,召回,F1分数,AUC和分类精度用于评估每个体系结构。从实验结果中,大多数使用BERT模型的架构改进了巨魔推文检测。具有GRU分类器的基于自定义的基于ELMO的体系结构具有检测巨魔消息的最高AUC。所提出的体系结构可以由各种基于社会的系统用于未来检测巨魔消息。
translated by 谷歌翻译
Recently, online social media has become a primary source for new information and misinformation or rumours. In the absence of an automatic rumour detection system the propagation of rumours has increased manifold leading to serious societal damages. In this work, we propose a novel method for building automatic rumour detection system by focusing on oversampling to alleviating the fundamental challenges of class imbalance in rumour detection task. Our oversampling method relies on contextualised data augmentation to generate synthetic samples for underrepresented classes in the dataset. The key idea exploits selection of tweets in a thread for augmentation which can be achieved by introducing a non-random selection criteria to focus the augmentation process on relevant tweets. Furthermore, we propose two graph neural networks(GNN) to model non-linear conversations on a thread. To enhance the tweet representations in our method we employed a custom feature selection technique based on state-of-the-art BERTweet model. Experiments of three publicly available datasets confirm that 1) our GNN models outperform the the current state-of-the-art classifiers by more than 20%(F1-score); 2) our oversampling technique increases the model performance by more than 9%;(F1-score) 3) focusing on relevant tweets for data augmentation via non-random selection criteria can further improve the results; and 4) our method has superior capabilities to detect rumours at very early stage.
translated by 谷歌翻译
随着社交媒体平台越来越多地采用了简短的视频,通过视频帖子减少错误信息的传播已成为社交媒体提供商的关键挑战。在本文中,我们开发了在社交媒体帖子中检测错误信息的方法,从而利用了视频和文本等方式。由于缺乏在多模式数据集中检测错误信息检测的大规模公共数据,因此我们从Twitter收集160,000个视频帖子,并利用自学学习的学习来学习联合视觉和文本数据的表达性表示。在这项工作中,我们提出了两种新方法,用于基于对比度学习和掩盖语言建模的短形式社交媒体视频帖子中的语义不一致。我们证明,我们的新方法在通过随机交汇正面样本和在野外的新手动标记测试集中,在野外生成的人工数据上的最新方法都超过了当前的最新方法,以进行语义错误信息。
translated by 谷歌翻译
在过去十年中,假新闻和错误信息变成了一个主要问题,影响了我们生活的不同方面,包括政治和公共卫生。灵感来自自然人类行为,我们提出了一种自动检测假新闻的方法。自然人行为是通过可靠的来源交叉检查新信息。我们使用自然语言处理(NLP)并构建机器学习(ML)模型,可自动执行与一组预定义的可靠源进行交叉检查新信息的过程。我们为Twitter实施了此功能,并构建标记假推送的模型。具体而言,对于给定的推文,我们使用其文本来查找来自可靠的新闻机构的相关新闻。然后,我们培训一个随机森林模型,检查推文的文本内容是否与可信新闻对齐。如果不是,则推文被归类为假。这种方法通常可以应用于任何类型的信息,并且不限于特定的新闻故事或信息类别。我们的实施此方法提供了70美元的$ 70 \%$准确性,这优于其他通用假新闻分类模型。这些结果为假新闻检测提供了更明智和自然的方法。
translated by 谷歌翻译
社交媒体在时装行业中的作用在较少年的情况下一直在盛开。在这项工作中,我们调查了社交媒体平台中时尚相关员额的情绪分析。这项任务有两个主要挑战。首先,必须共同考虑不同方式的信息以进行最终预测。在第二个地方,应考虑一些独特的时尚相关的属性。虽然大多数现有的作品侧重于传统的多模式情绪分析,但它们始终未能利用此任务中的时尚相关的属性。我们提出了一种新颖的框架,共同利用图像视觉,文本,文本以及时尚属性模态来确定情绪类别。我们的模型的一个特征是它提取了时尚属性并将它们与图像视觉信息集成了有效表示。此外,它通过相互关注机制利用时尚属性和邮政文本之间的相互关系。由于没有适合此任务的现有数据集,因此我们准备了超过12K时尚相关的社交媒体帖子的大规模情感分析数据集。进行广泛的实验以证明我们模型的有效性。
translated by 谷歌翻译
检测假新闻对于确保信息的真实性和维持新闻生态系统的可靠性至关重要。最近,由于最近的社交媒体和伪造的内容生成技术(例如Deep Fake)的扩散,假新闻内容的增加了。假新闻检测的大多数现有方式都集中在基于内容的方法上。但是,这些技术中的大多数无法处理生成模型生产的超现实合成媒体。我们最近的研究发现,真实和虚假新闻的传播特征是可以区分的,无论其方式如何。在这方面,我们已经根据社会环境调查了辅助信息,以检测假新闻。本文通过基于混合图神经网络的方法分析了假新闻检测的社会背景。该混合模型基于将图形神经网络集成到新闻内容上的新闻和BI定向编码器表示的传播中,以了解文本功能。因此,这种提出的方​​法可以学习内容以及上下文特征,因此能够在Politifact上以F1分别为0.91和0.93的基线模型和八西八角数据集的基线模型,分别超过了基线模型,分别在八西八学数据集中胜过0.93
translated by 谷歌翻译