社交网络的快速发展以及互联网可用性的便利性加剧了虚假新闻和社交媒体网站上的谣言的泛滥。在共同19的流行病中,这种误导性信息通过使人们的身心生命处于危险之中,从而加剧了这种情况。为了限制这种不准确性的传播,从在线平台上确定虚假新闻可能是第一步。在这项研究中,作者通过实施了五个基于变压器的模型,例如Bert,Bert没有LSTM,Albert,Roberta和Bert&Albert的混合体,以检测Internet的Covid 19欺诈新闻。Covid 19假新闻数据集已用于培训和测试模型。在所有这些模型中,Roberta模型的性能优于其他模型,通过在真实和虚假类中获得0.98的F1分数。
translated by 谷歌翻译
社交媒体的重要性在过去几十年中增加了流畅,因为它帮助人们甚至是世界上最偏远的角落保持联系。随着技术的出现,数字媒体比以往任何时候都变得更加相关和广泛使用,并且在此之后,假冒新闻和推文的流通中有一种复兴,需要立即关注。在本文中,我们描述了一种新的假新闻检测系统,可自动识别新闻项目是“真实的”或“假”,作为我们在英语挑战中的约束Covid-19假新闻检测中的工作的延伸。我们使用了一个由预先训练的模型组成的集合模型,然后是统计特征融合网络,以及通过在新闻项目或推文中的各种属性,如源,用户名处理,URL域和作者中的各种属性结合到统计特征中的各种属性。我们所提出的框架还规定了可靠的预测性不确定性以及分类任务的适当类别输出置信水平。我们在Covid-19假新闻数据集和Fakenewsnet数据集上评估了我们的结果,以显示所提出的算法在短期内容中检测假新闻以及新闻文章中的算法。我们在Covid-19数据集中获得了0.9892的最佳F1分,以及Fakenewsnet数据集的F1分数为0.9073。
translated by 谷歌翻译
在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如,超过3亿人在全球Twitter上参与帖子,这提供了传播误导信息的可能性。在许多情况下,由于虚假新闻,已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集(Covid-19误导2020数据集),该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻,并在以下网址公开,网址为:HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明,测试精度分别为92.23%和90.56%,集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。
translated by 谷歌翻译
社交媒体平台上的假新闻,误导和无法验证的事实宣传了不和谐,影响社会,特别是在处理像Covid-19这样的流行病时。假新闻检测的任务旨在通过将新闻项目分类为假或真实的新闻项目来解决这种错误信息的影响。在本文中,我们提出了一种新的方法,通过自动收集每个索赔的证据来改善目前的自动自动假新闻检测方法。我们的方法从Web艺术品中提取支持证据,然后选择待视为证据组的适当文本。我们在这些证据组上使用预先训练的摘要,然后使用提取的摘要作为支持证据来帮助分类任务。我们的实验,使用机器学习和基于深度学习的方法,有助于对我们的方法进行广泛的评估。结果表明,我们的方法优于假新闻检测中的最先进方法,以在为约束-2021共享任务提供的数据集中实现99.25的F1分数。我们还释放了任何进一步研究的增强数据集,我们的代码和模型。
translated by 谷歌翻译
潜在的生命危及危及生命的错误信息急剧上升是Covid-19大流行的副产品。计算支持,以识别关于该主题的大规模数据内的虚假信息至关重要,以防止伤害。研究人员提出了许多用于标记与Covid-19相关的在线错误信息的方法。但是,这些方法主要针对特定​​的内容类型(例如,新闻)或平台(例如,Twitter)。概括的方法的能力在很大程度上尚不清楚。我们在五十个COVID-19错误信息数据集中评估基于15个变压器的模型,包括社交媒体帖子,新闻文章和科学论文来填补这一差距。我们向Covid-19数据量身定制的标记和模型不提供普通目的的数据的显着优势。我们的研究为检测Covid-19错误信息的模型提供了逼真的评估。我们预计评估广泛的数据集和模型将使未来的开发错误信息检测系统进行未来的研究。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
鉴于当前全球的社交距离限制,大多数人现在使用社交媒体作为其主要交流媒介。因此,数百万患有精神疾病的人被孤立了,他们无法亲自获得帮助。他们越来越依赖在线场地,以表达自己并寻求有关处理精神障碍的建议。根据世界卫生组织(WHO)的说法,大约有4.5亿人受到影响。精神疾病(例如抑郁,焦虑等)非常普遍,并影响了个体的身体健康。最近提出了人工智能(AI)方法,以帮助基于患者的真实信息(例如,医疗记录,行为数据,社交媒体利用等),包括精神病医生和心理学家在内的心理健康提供者。 AI创新表明,在从计算机视觉到医疗保健的众多现实应用应用程序中,主要执行。这项研究分析了REDDIT平台上的非结构化用户数据,并分类了五种常见的精神疾病:抑郁,焦虑,双相情感障碍,ADHD和PTSD。我们培训了传统的机器学习,深度学习和转移学习多级模型,以检测个人的精神障碍。这项工作将通过自动化检测过程并告知适当当局需要紧急援助的人来使公共卫生系统受益。
translated by 谷歌翻译
BERT,ROBERTA或GPT-3等复杂的基于注意力的语言模型的外观已允许在许多场景中解决高度复杂的任务。但是,当应用于特定域时,这些模型会遇到相当大的困难。诸如Twitter之类的社交网络就是这种情况,Twitter是一种不断变化的信息流,以非正式和复杂的语言编写的信息流,鉴于人类的重要作用,每个信息都需要仔细评估,即使人类也需要理解。通过自然语言处理解决该领域的任务涉及严重的挑战。当将强大的最先进的多语言模型应用于这种情况下,特定语言的细微差别用来迷失翻译。为了面对这些挑战,我们提出了\ textbf {bertuit},这是迄今为止针对西班牙语提出的较大变压器,使用Roberta Optimization进行了230m西班牙推文的大规模数据集进行了预培训。我们的动机是提供一个强大的资源,以更好地了解西班牙Twitter,并用于专注于该社交网络的应用程序,特别强调致力于解决该平台中错误信息传播的解决方案。对Bertuit进行了多个任务评估,并与M-Bert,XLM-Roberta和XLM-T进行了比较,该任务非常具有竞争性的多语言变压器。在这种情况下,使用应用程序显示了我们方法的实用性:一种可视化骗局和分析作者群体传播虚假信息的零击方法。错误的信息在英语以外的其他语言等平台上疯狂地传播,这意味着在英语说话之外转移时,变形金刚的性能可能会受到影响。
translated by 谷歌翻译
为了解决检测到令人反感的评论/帖子的难题,这些评论/帖子具有很多非正式的,非结构化,错误的和码混合,我们在本研究论文中介绍了两种发明方法。社交媒体平台上的攻击性评论/帖子,可以影响个人,团体或未成年人。为了对两个受欢迎的Dravidian语言,泰米尔和马拉雅拉姆分类,作为哈索克的一部分 - Dravidiancodemix Fire 2021共享任务,我们采用了两个基于变压器的原型,该原型成功地站在前8名以获得所有任务。可以查看和使用我们方法的代码。
translated by 谷歌翻译
全球世界正在穿越大流行形势,这是一个灾难性的呼吸综合征爆发被认为是Covid-19。这是212个国家的全球威胁,即人们每天都会遇到强大的情况。相反,成千上万的受感染的人居住丰富的山脉。心理健康也受到全球冠状病毒情况的影响。由于这种情况,在线消息来源使普通人在任何议程中分享他们的意见。如受影响的新闻相关的积极和消极,财务问题,国家和家庭危机,缺乏进出口盈利系统等。不同的情况是最近在任何地方的时尚新闻。因此,在瞬间内产生了大量的文本,在次大陆领域,与其他国家的情况相同,以及文本的人民意见和情况也是相同的,但语言是不同的。本文提出了一些具体的投入以及来自个别来源的孟加拉文本评论,可以确保插图的目标,即机器学习结果能够建立辅助系统。意见挖掘辅助系统可能以可能的所有语言偏好有影响。据我们所知,文章预测了Covid-19问题上的Bangla输入文本,提出了ML算法和深度学习模型分析还通过比较分析检查未来可达性。比较分析规定了关于文本预测精度的报告与ML算法和79%以及深度学习模型以及79%的报告。
translated by 谷歌翻译
Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
在线评论对客户的购买决策有了重大影响,以满足任何产品或服务。但是,假审查可以误导消费者和公司。已经开发了几种模型来使用机器学习方法检测假审查。许多这些模型具有一些限制,导致在虚假和真正的评论之间具有低准确性。这些模型仅集中在语言特征上,以检测虚假评论,未能捕获评论的语义含义。要解决此问题,本文提出了一种新的集合模型,采用变换器架构,以在一系列虚假评论中发现隐藏的模式并准确地检测它们。该拟议方法结合了三种变压器模型来提高虚假和真正行为分析和建模的鲁棒性,以检测虚假评论。使用半真实基准数据集的实验结果显示了拟议的型号模型的优越性。
translated by 谷歌翻译
由于在线新闻变得越来越受欢迎和假新闻越来越普遍,审计在线新闻内容的真实性的能力变得比以往任何时候都变得更加重要。这样的任务代表了二进制分类挑战,该挑战是哪些变换器已经实现了最先进的结果。本研究使用公开可用的ISOT和组合的语料库数据集探讨了识别虚假新闻的变形金刚的能力,特别注意,调查具有不同风格,主题和级别分布的看不见的数据集的概念。此外,我们探讨了意见的新闻文章由于其主观性质和经常敏感的语言而无法归类为真实或假的,并提出了一种新颖的两步分类管道,以从模型训练和最终部署的模型训练中删除这些文章推理系统。与基线方法相比,转化概率,转换概率的F1分数增加到4.9%的F1分数增加到4.9%,进一步增加了我们的两步分类管道后进一步增加了10.1%。据我们所知,本研究是第一个调查变压器在这种背景下的概括。
translated by 谷歌翻译
In recent years, there has been a surge of interest in research on automatic mental health detection (MHD) from social media data leveraging advances in natural language processing and machine learning techniques. While significant progress has been achieved in this interdisciplinary research area, the vast majority of work has treated MHD as a binary classification task. The multiclass classification setup is, however, essential if we are to uncover the subtle differences among the statistical patterns of language use associated with particular mental health conditions. Here, we report on experiments aimed at predicting six conditions (anxiety, attention deficit hyperactivity disorder, bipolar disorder, post-traumatic stress disorder, depression, and psychological stress) from Reddit social media posts. We explore and compare the performance of hybrid and ensemble models leveraging transformer-based architectures (BERT and RoBERTa) and BiLSTM neural networks trained on within-text distributions of a diverse set of linguistic features. This set encompasses measures of syntactic complexity, lexical sophistication and diversity, readability, and register-specific ngram frequencies, as well as sentiment and emotion lexicons. In addition, we conduct feature ablation experiments to investigate which types of features are most indicative of particular mental health conditions.
translated by 谷歌翻译
仇恨语音在线的检测已成为一项重要的任务,因为伤害,淫秽和侮辱性内容等冒犯性语言可能会危害边缘化的人或团体。本文介绍了Indo-European语言中的仇恨语音和冒犯内容识别的共同任务任务1A和1B的任务1A和1B的实验和结果。在整个竞争中,对各种子特派团评估了不同的自然语言处理模型的成功。我们通过竞争对手基于单词和字符级别的复发神经网络测试了不同的模型,并通过竞争对手基于提供的数据集进行了学习方法。在已经用于实验的测试模型中,基于转移学习的模型在两个子任务中获得了最佳结果。
translated by 谷歌翻译
随着社交媒体平台的可访问性迅速增加,有效的假新闻探测器变得至关重要。
translated by 谷歌翻译
社会对社交媒体的依赖不断增长,用户为新闻和信息产生的内容增强了不可靠的资源和虚假内容的影响,这使公众讨论并减少了对媒体的信任。验证此类信息的可信度是一项艰巨的任务,容易受到确认偏见的影响,从而开发了算法技术以区分假新闻和真实新闻。但是,大多数现有的方法都具有挑战性的解释,使得难以建立对预测的信任,并在许多现实世界中(例如,视听功能或出处的可用性)做出不现实的假设。在这项工作中,我们专注于使用可解释的功能和方法对文本内容的虚假新闻检测。特别是,我们开发了一个深层的概率模型,该模型使用各种自动编码器和双向长期记忆(LSTM)网络(LSTM)网络与语义主题相关的特征从贝叶斯混合模型推断出来。使用3个现实世界数据集的广泛的实验研究表明,我们的模型可与最先进的竞争模型达到可比的性能,同时促进从学习的主题中解释模型。最后,我们进行了模型消融研究,以证明整合神经嵌入和主题特征的有效性和准确性是通过在较低维嵌入中可分离性评估性能和定性性来定量的。
translated by 谷歌翻译
在当代世界中,自动检测假新闻是一项非常重要的任务。这项研究报告了第二项共享任务,称为Urdufake@fire2021,以识别乌尔都语中的假新闻检测。共同任务的目的是激励社区提出解决这一至关重要问题的有效方法,尤其是对于乌尔都语。该任务被视为二进制分类问题,将给定的新闻文章标记为真实或假新闻文章。组织者提供了一个数据集,其中包括五个领域的新闻:(i)健康,(ii)体育,(iii)Showbiz,(iv)技术和(v)业务,分为培训和测试集。该培训集包含1300篇注释的新闻文章 - 750个真实新闻,550个假新闻,而测试集包含300篇新闻文章 - 200个真实,100个假新闻。来自7个不同国家(中国,埃及,以色列,印度,墨西哥,巴基斯坦和阿联酋)的34个团队注册参加了Urdufake@Fire2021共享任务。在这些情况下,有18个团队提交了实验结果,其中11个提交了技术报告,与2020年的Urdufake共享任务相比,这一报告要高得多,当时只有6个团队提交了技术报告。参与者提交的技术报告展示了不同的数据表示技术,从基于计数的弓形功能到单词矢量嵌入以及使用众多的机器学习算法,从传统的SVM到各种神经网络体系结构,包括伯特和罗伯塔等变形金刚。在今年的比赛中,表现最佳的系统获得了0.679的F1-MACRO得分,低于过去一年的0.907 F1-MaCro的最佳结果。诚然,尽管过去和当前几年的培训集在很大程度上重叠,但如果今年完全不同,则测试集。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
通过匿名和可访问性,社交媒体平台促进了仇恨言论的扩散,提示在开发自动方法以识别这些文本时提高研究。本文探讨了使用各种深度神经网络模型架构(如长短期内存(LSTM)和卷积神经网络(CNN)的文本中性别歧视分类。这些网络与来自变压器(BERT)和Distilbert模型的双向编码器表示形式的传输学习一起使用,以及数据增强,以在社交中的性别歧视识别中对推文和GAB的数据集进行二进制和多种性别歧视分类Iberlef 2021中的网络(存在)任务。看到模型与竞争对手的比较,使用BERT和多滤波器CNN模型进行了最佳性能。数据增强进一步提高了多级分类任务的结果。本文还探讨了模型所做的错误,并讨论了由于标签的主观性和社交媒体中使用的自然语言的复杂性而自动对性别歧视的难度。
translated by 谷歌翻译