社交媒体的重要性在过去几十年中增加了流畅,因为它帮助人们甚至是世界上最偏远的角落保持联系。随着技术的出现,数字媒体比以往任何时候都变得更加相关和广泛使用,并且在此之后,假冒新闻和推文的流通中有一种复兴,需要立即关注。在本文中,我们描述了一种新的假新闻检测系统,可自动识别新闻项目是“真实的”或“假”,作为我们在英语挑战中的约束Covid-19假新闻检测中的工作的延伸。我们使用了一个由预先训练的模型组成的集合模型,然后是统计特征融合网络,以及通过在新闻项目或推文中的各种属性,如源,用户名处理,URL域和作者中的各种属性结合到统计特征中的各种属性。我们所提出的框架还规定了可靠的预测性不确定性以及分类任务的适当类别输出置信水平。我们在Covid-19假新闻数据集和Fakenewsnet数据集上评估了我们的结果,以显示所提出的算法在短期内容中检测假新闻以及新闻文章中的算法。我们在Covid-19数据集中获得了0.9892的最佳F1分,以及Fakenewsnet数据集的F1分数为0.9073。
translated by 谷歌翻译
社交网络的快速发展以及互联网可用性的便利性加剧了虚假新闻和社交媒体网站上的谣言的泛滥。在共同19的流行病中,这种误导性信息通过使人们的身心生命处于危险之中,从而加剧了这种情况。为了限制这种不准确性的传播,从在线平台上确定虚假新闻可能是第一步。在这项研究中,作者通过实施了五个基于变压器的模型,例如Bert,Bert没有LSTM,Albert,Roberta和Bert&Albert的混合体,以检测Internet的Covid 19欺诈新闻。Covid 19假新闻数据集已用于培训和测试模型。在所有这些模型中,Roberta模型的性能优于其他模型,通过在真实和虚假类中获得0.98的F1分数。
translated by 谷歌翻译
在当代世界中,自动检测假新闻是一项非常重要的任务。这项研究报告了第二项共享任务,称为Urdufake@fire2021,以识别乌尔都语中的假新闻检测。共同任务的目的是激励社区提出解决这一至关重要问题的有效方法,尤其是对于乌尔都语。该任务被视为二进制分类问题,将给定的新闻文章标记为真实或假新闻文章。组织者提供了一个数据集,其中包括五个领域的新闻:(i)健康,(ii)体育,(iii)Showbiz,(iv)技术和(v)业务,分为培训和测试集。该培训集包含1300篇注释的新闻文章 - 750个真实新闻,550个假新闻,而测试集包含300篇新闻文章 - 200个真实,100个假新闻。来自7个不同国家(中国,埃及,以色列,印度,墨西哥,巴基斯坦和阿联酋)的34个团队注册参加了Urdufake@Fire2021共享任务。在这些情况下,有18个团队提交了实验结果,其中11个提交了技术报告,与2020年的Urdufake共享任务相比,这一报告要高得多,当时只有6个团队提交了技术报告。参与者提交的技术报告展示了不同的数据表示技术,从基于计数的弓形功能到单词矢量嵌入以及使用众多的机器学习算法,从传统的SVM到各种神经网络体系结构,包括伯特和罗伯塔等变形金刚。在今年的比赛中,表现最佳的系统获得了0.679的F1-MACRO得分,低于过去一年的0.907 F1-MaCro的最佳结果。诚然,尽管过去和当前几年的培训集在很大程度上重叠,但如果今年完全不同,则测试集。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如,超过3亿人在全球Twitter上参与帖子,这提供了传播误导信息的可能性。在许多情况下,由于虚假新闻,已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集(Covid-19误导2020数据集),该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻,并在以下网址公开,网址为:HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明,测试精度分别为92.23%和90.56%,集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。
translated by 谷歌翻译
BERT,ROBERTA或GPT-3等复杂的基于注意力的语言模型的外观已允许在许多场景中解决高度复杂的任务。但是,当应用于特定域时,这些模型会遇到相当大的困难。诸如Twitter之类的社交网络就是这种情况,Twitter是一种不断变化的信息流,以非正式和复杂的语言编写的信息流,鉴于人类的重要作用,每个信息都需要仔细评估,即使人类也需要理解。通过自然语言处理解决该领域的任务涉及严重的挑战。当将强大的最先进的多语言模型应用于这种情况下,特定语言的细微差别用来迷失翻译。为了面对这些挑战,我们提出了\ textbf {bertuit},这是迄今为止针对西班牙语提出的较大变压器,使用Roberta Optimization进行了230m西班牙推文的大规模数据集进行了预培训。我们的动机是提供一个强大的资源,以更好地了解西班牙Twitter,并用于专注于该社交网络的应用程序,特别强调致力于解决该平台中错误信息传播的解决方案。对Bertuit进行了多个任务评估,并与M-Bert,XLM-Roberta和XLM-T进行了比较,该任务非常具有竞争性的多语言变压器。在这种情况下,使用应用程序显示了我们方法的实用性:一种可视化骗局和分析作者群体传播虚假信息的零击方法。错误的信息在英语以外的其他语言等平台上疯狂地传播,这意味着在英语说话之外转移时,变形金刚的性能可能会受到影响。
translated by 谷歌翻译
Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
社交媒体平台上的假新闻,误导和无法验证的事实宣传了不和谐,影响社会,特别是在处理像Covid-19这样的流行病时。假新闻检测的任务旨在通过将新闻项目分类为假或真实的新闻项目来解决这种错误信息的影响。在本文中,我们提出了一种新的方法,通过自动收集每个索赔的证据来改善目前的自动自动假新闻检测方法。我们的方法从Web艺术品中提取支持证据,然后选择待视为证据组的适当文本。我们在这些证据组上使用预先训练的摘要,然后使用提取的摘要作为支持证据来帮助分类任务。我们的实验,使用机器学习和基于深度学习的方法,有助于对我们的方法进行广泛的评估。结果表明,我们的方法优于假新闻检测中的最先进方法,以在为约束-2021共享任务提供的数据集中实现99.25的F1分数。我们还释放了任何进一步研究的增强数据集,我们的代码和模型。
translated by 谷歌翻译
随着社交媒体平台的可访问性迅速增加,有效的假新闻探测器变得至关重要。
translated by 谷歌翻译
社会对社交媒体的依赖不断增长,用户为新闻和信息产生的内容增强了不可靠的资源和虚假内容的影响,这使公众讨论并减少了对媒体的信任。验证此类信息的可信度是一项艰巨的任务,容易受到确认偏见的影响,从而开发了算法技术以区分假新闻和真实新闻。但是,大多数现有的方法都具有挑战性的解释,使得难以建立对预测的信任,并在许多现实世界中(例如,视听功能或出处的可用性)做出不现实的假设。在这项工作中,我们专注于使用可解释的功能和方法对文本内容的虚假新闻检测。特别是,我们开发了一个深层的概率模型,该模型使用各种自动编码器和双向长期记忆(LSTM)网络(LSTM)网络与语义主题相关的特征从贝叶斯混合模型推断出来。使用3个现实世界数据集的广泛的实验研究表明,我们的模型可与最先进的竞争模型达到可比的性能,同时促进从学习的主题中解释模型。最后,我们进行了模型消融研究,以证明整合神经嵌入和主题特征的有效性和准确性是通过在较低维嵌入中可分离性评估性能和定性性来定量的。
translated by 谷歌翻译
在线评论对客户的购买决策有了重大影响,以满足任何产品或服务。但是,假审查可以误导消费者和公司。已经开发了几种模型来使用机器学习方法检测假审查。许多这些模型具有一些限制,导致在虚假和真正的评论之间具有低准确性。这些模型仅集中在语言特征上,以检测虚假评论,未能捕获评论的语义含义。要解决此问题,本文提出了一种新的集合模型,采用变换器架构,以在一系列虚假评论中发现隐藏的模式并准确地检测它们。该拟议方法结合了三种变压器模型来提高虚假和真正行为分析和建模的鲁棒性,以检测虚假评论。使用半真实基准数据集的实验结果显示了拟议的型号模型的优越性。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
由于在线新闻变得越来越受欢迎和假新闻越来越普遍,审计在线新闻内容的真实性的能力变得比以往任何时候都变得更加重要。这样的任务代表了二进制分类挑战,该挑战是哪些变换器已经实现了最先进的结果。本研究使用公开可用的ISOT和组合的语料库数据集探讨了识别虚假新闻的变形金刚的能力,特别注意,调查具有不同风格,主题和级别分布的看不见的数据集的概念。此外,我们探讨了意见的新闻文章由于其主观性质和经常敏感的语言而无法归类为真实或假的,并提出了一种新颖的两步分类管道,以从模型训练和最终部署的模型训练中删除这些文章推理系统。与基线方法相比,转化概率,转换概率的F1分数增加到4.9%的F1分数增加到4.9%,进一步增加了我们的两步分类管道后进一步增加了10.1%。据我们所知,本研究是第一个调查变压器在这种背景下的概括。
translated by 谷歌翻译
了解文本中表达的态度,也称为姿态检测,在旨在在线检测虚假信息的系统中起重要作用,无论是错误信息(无意的假)或虚假信息(故意错误地蔓延,恶意意图)。姿态检测已经以不同的方式在文献中框架,包括(a)作为事实检查,谣言检测和检测先前的事实检查的权利要求,或(b)作为其自己的任务的组件;在这里,我们看看两者。虽然已经进行了与其他相关任务的突出姿态检测,但诸如论证挖掘和情绪分析之类的其他相关任务,但没有调查姿态检测和错误和缺陷检测之间的关系。在这里,我们的目标是弥合这个差距。特别是,我们在焦点中审查和分析了该领域的现有工作,焦点中的错误和不忠实,然后我们讨论了汲取的经验教训和未来的挑战。
translated by 谷歌翻译
随着在线社交媒体提供的沟通自由,仇恨言论越来越多地产生。这导致网络冲突影响个人和国家一级的社会生活。结果,在发送到社交网络之前,仇恨的内容分类越来越需要过滤仇恨内容。本文着重于使用多个深层模型在社交媒体中对仇恨言论进行分类,这些模型通过整合了最近的基于变压器的语言模型,例如BERT和神经网络。为了改善分类性能,我们通过几种合奏技术进行了评估,包括软投票,最大价值,硬投票和堆叠。我们使用了三个公开可用的Twitter数据集(Davidson,Hateval2019,OLID)来识别进攻性语言。我们融合了所有这些数据集以生成单个数据集(DHO数据集),该数据集在不同的标签上更加平衡,以执行多标签分类。我们的实验已在Davidson数据集和Dho Corpora上举行。后来给出了最佳的总体结果,尤其是F1宏观分数,即使它需要更多的资源(时间执行和内存)。实验显示了良好的结果,尤其是整体模型,其中堆叠在Davidson数据集上的F1得分为97%,并且在DHO数据集上汇总合奏的77%。
translated by 谷歌翻译
在过去的几年里,假新闻的前所未有的扩散。因此,我们更容易受到误导和消毒蔓延可能在我们社会的不同细分市场的影响。因此,开发自动检测假新闻的工具和在预防其负面影响方面发挥着重要作用。大多数尝试仅在使用文本信息时检测和分类错误内容焦点。多式联运方法频繁不那么频繁,它们通常将新闻分类为真假或假。在这项工作中,我们使用单峰和多模式方法对FakedDit DataSet进行精细的虚假新闻分类。我们的实验表明,基于卷积神经网络(CNN)架构的多模式方法组合文本和图像数据的最佳结果,精度为87%。一些假新闻类别,如操纵内容,讽刺或假连接强烈地受益于图像的使用。使用图像也提高了其他类别的结果,但影响较少。关于仅使用文本的单向方法,来自变压器(BERT)的双向编码器表示是最佳模型,精度为78%。因此,利用文本和图像数据显着提高了假新闻检测的性能。
translated by 谷歌翻译
鉴于当前全球的社交距离限制,大多数人现在使用社交媒体作为其主要交流媒介。因此,数百万患有精神疾病的人被孤立了,他们无法亲自获得帮助。他们越来越依赖在线场地,以表达自己并寻求有关处理精神障碍的建议。根据世界卫生组织(WHO)的说法,大约有4.5亿人受到影响。精神疾病(例如抑郁,焦虑等)非常普遍,并影响了个体的身体健康。最近提出了人工智能(AI)方法,以帮助基于患者的真实信息(例如,医疗记录,行为数据,社交媒体利用等),包括精神病医生和心理学家在内的心理健康提供者。 AI创新表明,在从计算机视觉到医疗保健的众多现实应用应用程序中,主要执行。这项研究分析了REDDIT平台上的非结构化用户数据,并分类了五种常见的精神疾病:抑郁,焦虑,双相情感障碍,ADHD和PTSD。我们培训了传统的机器学习,深度学习和转移学习多级模型,以检测个人的精神障碍。这项工作将通过自动化检测过程并告知适当当局需要紧急援助的人来使公共卫生系统受益。
translated by 谷歌翻译
潜在的生命危及危及生命的错误信息急剧上升是Covid-19大流行的副产品。计算支持,以识别关于该主题的大规模数据内的虚假信息至关重要,以防止伤害。研究人员提出了许多用于标记与Covid-19相关的在线错误信息的方法。但是,这些方法主要针对特定​​的内容类型(例如,新闻)或平台(例如,Twitter)。概括的方法的能力在很大程度上尚不清楚。我们在五十个COVID-19错误信息数据集中评估基于15个变压器的模型,包括社交媒体帖子,新闻文章和科学论文来填补这一差距。我们向Covid-19数据量身定制的标记和模型不提供普通目的的数据的显着优势。我们的研究为检测Covid-19错误信息的模型提供了逼真的评估。我们预计评估广泛的数据集和模型将使未来的开发错误信息检测系统进行未来的研究。
translated by 谷歌翻译