随着社交网络的发展,用于各种商业和政治目的的虚假新闻已经大量出现,并在在线世界中广泛存在。有了欺骗性的话,人们可以很容易地被假新闻感染,并会在没有任何事实检查的情况下分享它们。例如,在2016年美国总统选举期间,有关候选人的各种虚假新闻在官方新闻媒体和在线社交网络中都广泛传播。这些假新闻通常会发布以涂抹对手或支持候选人的身边。假新闻中的错误信息通常是为了激励选民的非理性情感和热情。这样的虚假新闻有时会带来毁灭性的影响,改善在线社交网络的信誉的一个重要目标是及时确定假新闻。在本文中,我们建议研究假新闻检测问题。自动假新闻标识非常困难,因为新闻的基于纯模型的事实检查仍然是一个开放问题,并且很少使用现有模型来解决该问题。通过对虚假新闻数据进行彻底的调查,从假新闻中使用的文本单词和图像都可以确定许多有用的明确功能。除了明确的功能外,假新闻中使用的单词和图像中还存在一些隐藏的模式,可以用我们模型中的多个卷积层提取的一组潜在特征来捕获。本文提出了一种称为Ti-CNN的模型(基于文本和图像信息的综合神经网络)。通过将显式和潜在功能投射到统一的特征空间中,Ti-CNN可以同时培训文本和图像信息。在现实世界中的假新闻数据集进行的广泛实验证明了Ti-CNN的有效性。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
社交媒体的自杀意图检测是一种不断发展的研究,挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分,观察到社交媒体的公开职位包含有价值的标准,以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征,这些功能可以传递给特殊设计的框架,以检测人类交互中的异常,这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的,我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性,一些方法可以使用更多数据进行培训,使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型,用于分析社交媒体提交,以检测任何潜在的自杀意图。在评估期间,所提出的模型的准确性为90.3%,F1分数为92.6%,其大于基线模型。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
在过去十年中,假新闻和错误信息变成了一个主要问题,影响了我们生活的不同方面,包括政治和公共卫生。灵感来自自然人类行为,我们提出了一种自动检测假新闻的方法。自然人行为是通过可靠的来源交叉检查新信息。我们使用自然语言处理(NLP)并构建机器学习(ML)模型,可自动执行与一组预定义的可靠源进行交叉检查新信息的过程。我们为Twitter实施了此功能,并构建标记假推送的模型。具体而言,对于给定的推文,我们使用其文本来查找来自可靠的新闻机构的相关新闻。然后,我们培训一个随机森林模型,检查推文的文本内容是否与可信新闻对齐。如果不是,则推文被归类为假。这种方法通常可以应用于任何类型的信息,并且不限于特定的新闻故事或信息类别。我们的实施此方法提供了70美元的$ 70 \%$准确性,这优于其他通用假新闻分类模型。这些结果为假新闻检测提供了更明智和自然的方法。
translated by 谷歌翻译
在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如,超过3亿人在全球Twitter上参与帖子,这提供了传播误导信息的可能性。在许多情况下,由于虚假新闻,已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集(Covid-19误导2020数据集),该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻,并在以下网址公开,网址为:HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明,测试精度分别为92.23%和90.56%,集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。
translated by 谷歌翻译
近年来,已经出现了许多巨魔帐户来操纵社交媒体的意见。对于社交网络平台而言,检测和消除巨魔是一个关键问题,因为企业,滥用者和民族国家赞助的巨魔农场使用虚假和自动化的帐户。 NLP技术用于从社交网络文本中提取数据,例如Twitter推文。在许多文本处理应用程序中,诸如BERT之类的单词嵌入表示方法的执行效果要好于先前的NLP技术,从而为各种任务提供了新颖的突破,以精确理解和分类社交网络工作信息。本文实施并比较了九个基于深度学习的巨魔推文检测体系结构,每个bert,elmo和手套词嵌入模型的三个模型。精度,召回,F1分数,AUC和分类精度用于评估每个体系结构。从实验结果中,大多数使用BERT模型的架构改进了巨魔推文检测。具有GRU分类器的基于自定义的基于ELMO的体系结构具有检测巨魔消息的最高AUC。所提出的体系结构可以由各种基于社会的系统用于未来检测巨魔消息。
translated by 谷歌翻译
通过使信息生产和复制民主化的技术,社交媒体中每日互动的很大一部分被谣言感染了。尽管对谣言检测和验证进行了广泛的研究,但到目前为止,尚未考虑计算谣言传播力量的问题。为了解决这一研究差距,本研究寻求一个模型来计算谣言(SPR)作为基于内容特征的功能的两类功能:虚假谣言(FR)和真实谣言(TR)。为此,将采用Allport和Postman的理论,它声称重要性和歧义是谣言和谣言的力量的关键变量。引入了两个类别的“重要性”(28个功能)和“歧义”(14个功能)的42个内容功能以计算SPR。提出的模型将在两个数据集(Twitter和Telegram)上进行评估。结果表明,(i)虚假谣言文件的传播力量很少不仅仅是真正的谣言。 (ii)两组虚假谣言和真实谣言的SPR平均值之间存在显着差异。 (iii)SPR作为标准可以对区分虚假谣言和真实谣言产生积极影响。
translated by 谷歌翻译
社交媒体的可用性和互动性使它们成为全球各地的主要新闻来源。社交媒体的普及诱惑犯罪分子通过使用诱人文本和误导性图像制作和传播假新闻来追求不道德的意图。因此,验证社交媒体新闻和发现假期至关重要。这项工作旨在分析社交媒体中文本和图像的多模态特征,以检测假新闻。我们提出了一个假新闻透露者(FNR)方法,利用转换学习,提取上下文和语义特征和对比丢失,以确定图像和文本之间的相似性。我们在两个真正的社交媒体数据集上申请了FNR。结果表明,与以前的作品相比,该方法达到了检测假新闻的更高准确性。
translated by 谷歌翻译
人格检测是心理学和自动人格预测(或感知)(APP)的一个古老话题,是对不同类型的人类生成/交换内容(例如文本,语音,图像,视频,视频)对个性的自动化(计算)预测。这项研究的主要目的是自2010年以来对应用程序的自然语言处理方法进行浅(总体)审查。随着深度学习的出现并遵循NLP的转移学习和预先培训的模型,应用程序研究领域已经成为一个热门话题,因此在这篇评论中,方法分为三个;预先训练的独立,预训练的基于模型的多模式方法。此外,为了获得全面的比较,数据集为报告的结果提供了信息。
translated by 谷歌翻译
本文介绍了我们在Aaai 2022的多模态事实验证(Factifify)挑战的参与者系统。尽管最近基于文本的验证技术和大型预训练的多模式模型的跨视野和语言,但在申请方面取得了非常有限的工作自动化事实检查过程的多模式技术,特别考虑到社交媒体上的图像和视频的索赔和假新闻的普遍存在。在我们的工作中,挑战被视为多式联版征报任务并被诬陷为多级分类。提出并探索了两个基线方法,包括集合模型(组合两个Uni-Modal模型)和多模态注意力网络(在索赔和证据文件中建模图像和文本对之间的交互)。我们在这项工作中进行了调查和基准测试和基准测试的几个实验和基准测试。我们的最佳型号在排行榜中排名第一,在验证和测试集中获得0.77的加权平均f测量值。对DataSet的探索性分析也在辅助数据集上进行,并揭示了激励我们假设的突出模式和问题(例如,单词重叠,视觉着色相关性,来源偏见)。最后,我们突出了未来研究的任务和多模式数据集的挑战。
translated by 谷歌翻译
在过去的几年里,假新闻的前所未有的扩散。因此,我们更容易受到误导和消毒蔓延可能在我们社会的不同细分市场的影响。因此,开发自动检测假新闻的工具和在预防其负面影响方面发挥着重要作用。大多数尝试仅在使用文本信息时检测和分类错误内容焦点。多式联运方法频繁不那么频繁,它们通常将新闻分类为真假或假。在这项工作中,我们使用单峰和多模式方法对FakedDit DataSet进行精细的虚假新闻分类。我们的实验表明,基于卷积神经网络(CNN)架构的多模式方法组合文本和图像数据的最佳结果,精度为87%。一些假新闻类别,如操纵内容,讽刺或假连接强烈地受益于图像的使用。使用图像也提高了其他类别的结果,但影响较少。关于仅使用文本的单向方法,来自变压器(BERT)的双向编码器表示是最佳模型,精度为78%。因此,利用文本和图像数据显着提高了假新闻检测的性能。
translated by 谷歌翻译
近年来,在网上见证了令人反感的内容的泛滥,例如假新闻,宣传,错误信息和虚假信息。虽然最初这主要是关于文本内容,但随着时间的流逝,图像和视频越来越受欢迎,因为它们更容易消费,吸引更多的关注并比文本更广泛地传播。结果,研究人员开始利用不同的方式及其组合来解决在线多模式进攻内容。在这项研究中,我们提供了有关最新的多模式虚假信息检测的调查,该检测涵盖了各种模式组合:文本,图像,语音,视频,社交媒体网络结构和时间信息。此外,尽管有些研究集中于事实,但其他研究调查了内容的有害性。尽管虚假信息定义中的这两个组成部分(i)事实和(ii)有害性同样重要,但通常会孤立地研究它们。因此,我们主张在同一框架中考虑多种方式以及事实和有害性来解决虚假信息检测。最后,我们讨论当前的挑战和未来的研究方向
translated by 谷歌翻译
基于方面的情感分析非常重要和应用,因为它能够识别文本中讨论的所有方面。但是,基于方面的情感分析将是最有效的,除了确定文本中讨论的所有方面外,它还可以识别其极性。大多数以前的方法都使用管道方法,即,它们首先识别各个方面,然后识别极性。此类方法不适合实际应用,因为它们可以导致模型错误。因此,在这项研究中,我们提出了一个基于卷积神经网络(CNN)的多任务学习模型,该模型可以同时检测方面类别并检测方面类别的极性。单独创建模型可能不会提供最佳的预测,并导致诸如偏见和高方差之类的错误。为了减少这些错误并提高模型预测的效率,将几种称为合奏学习的模型组合在一起可以提供更好的结果。因此,本文的主要目的是创建一个基于多任务深度卷积神经网络合奏的模型,以增强波斯评论中的情感分析。我们使用电影域中的波斯语数据集评估了提出的方法。 jacquard索引和锤损失措施用于评估开发模型的性能。结果表明,这种新方法提高了波斯语中情感分析模型的效率。
translated by 谷歌翻译
通过摩尔维亚岛与罗马尼亚语方言识别的机器学习模型的看似高精度水平和对这一主题的越来越多的研究兴趣,我们提供了摩尔维亚的跟进与罗马尼亚语交叉方言主题识别(MRC)的Vartial共享任务2019年评估运动。共享任务包括两个子任务类型:一个组成,其中包括摩尔维亚和罗马尼亚语方言的区分,其中一个由罗马尼亚语两条方言进行主题分类文件。参与者实现了令人印象深刻的分数,例如,摩尔维亚州的顶级型号与罗马尼亚语方言识别获得了0.895的宏F1得分。我们对人类注释者进行了主观评估,显示人类与机器学习(ML)模型相比,人类可以获得更低的精度率。因此,还不清楚为什么参与者提出的方法达到这种高精度率的方法。我们的目标是理解(i)为什么所提出的方法如此良好地工作(通过可视化鉴别特征)和(ii)这些方法可以在多大程度上保持其高精度水平,例如,这些方法可以保持高精度水平。当我们将文本样本缩短到单个句子时或我们在推理时间使用推文时。我们工作的二级目标是使用集合学习提出改进的ML模型。我们的实验表明,ML模型可以准确地识别方言,即使在句子水平和不同的域中(新闻文章与推文)。我们还分析了最佳性能模型的最辨别特征,在这些模型所采取的决策背后提供了一些解释。有趣的是,我们学习我们以前未知的新的辩证模式或我们的人为注册者。此外,我们进行实验,表明可以通过基于堆叠的集合来改善MRC共享任务的机器学习性能。
translated by 谷歌翻译
由于在线学习和评估平台(例如Coursera,Udemy,Khan Academy等)的兴起,对论文(AES)和自动论文评分的自动评估(AES)已成为一个严重的问题。研究人员最近提出了许多用于自动评估的技术。但是,其中许多技术都使用手工制作的功能,因此从特征表示的角度受到限制。深度学习已成为机器学习中的新范式,可以利用大量数据并确定对论文评估有用的功能。为此,我们提出了一种基于复发网络(RNN)和卷积神经网络(CNN)的新型体系结构。在拟议的体系结构中,多通道卷积层从嵌入矢量和基本语义概念中学习并捕获单词n-gram的上下文特征,并使用max-pooling操作在论文级别形成特征向量。 RNN的变体称为双门复发单元(BGRU),用于访问以前和后续的上下文表示。该实验是对Kaggle上的八个数据集进行的,以实现AES的任务。实验结果表明,我们提出的系统比其他基于深度学习的AES系统以及其他最新AES系统的评分精度明显更高。
translated by 谷歌翻译
近年来,谣言对社会产生了毁灭性的影响,这使谣言发现成为重大挑战。但是,关于谣言检测的研究忽略了谣言内容中图像的强烈情绪。本文验证图像情绪是否提高了谣言检测效率。提出了由视觉和文字情绪组成的谣言检测中的多模式双重情感特征。据我们所知,这是第一个在谣言检测中使用视觉情感的研究。实际数据集上的实验验证了所提出的功能是否优于最先进的情感功能,并且可以在谣言探测器中扩展,同时提高其性能。
translated by 谷歌翻译
本概述论文描述了乌尔都语语言中的假新闻检测的第一个共享任务。该任务是作为二进制分类任务的,目标是区分真实新闻和虚假新闻。我们提供了一个数据集,分为900个注释的新闻文章,用于培训,并进行了400篇新闻文章进行测试。该数据集包含五个领域的新闻:(i)健康,(ii)体育,(iii)Showbiz,(iv)技术和(v)业务。来自6个不同国家(印度,中国,埃及,德国,巴基斯坦和英国)的42个团队登记了这项任务。9个团队提交了他们的实验结果。参与者使用了各种机器学习方法,从基于功能的传统机器学习到神经网络技术。最佳性能系统的F得分值为0.90,表明基于BERT的方法优于其他机器学习技术
translated by 谷歌翻译
The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI.
translated by 谷歌翻译