具有讽刺意味的是日常交流中普遍存在的象征性语言。以前,许多研究人员已经从语言,认知科学和计算方面进行了讽刺。最近,由于自然语言处理(NLP)深度神经模型的快速发展,自动讽刺加工中已经看到了一些进展。在本文中,我们将提供有关计算讽刺,语言理论和认知科学的见解及其与下游NLP任务以及新提出的多X讽刺性处理观点的全面概述。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
了解文本中表达的态度,也称为姿态检测,在旨在在线检测虚假信息的系统中起重要作用,无论是错误信息(无意的假)或虚假信息(故意错误地蔓延,恶意意图)。姿态检测已经以不同的方式在文献中框架,包括(a)作为事实检查,谣言检测和检测先前的事实检查的权利要求,或(b)作为其自己的任务的组件;在这里,我们看看两者。虽然已经进行了与其他相关任务的突出姿态检测,但诸如论证挖掘和情绪分析之类的其他相关任务,但没有调查姿态检测和错误和缺陷检测之间的关系。在这里,我们的目标是弥合这个差距。特别是,我们在焦点中审查和分析了该领域的现有工作,焦点中的错误和不忠实,然后我们讨论了汲取的经验教训和未来的挑战。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
对仇恨言论和冒犯性语言(HOF)的认可通常是作为一项分类任务,以决定文本是否包含HOF。我们研究HOF检测是否可以通过考虑HOF和类似概念之间的关系来获利:(a)HOF与情感分析有关,因为仇恨言论通常是负面陈述并表达了负面意见; (b)这与情绪分析有关,因为表达的仇恨指向作者经历(或假装体验)愤怒的同时经历(或旨在体验)恐惧。 (c)最后,HOF的一个构成要素是提及目标人或群体。在此基础上,我们假设HOF检测在与这些概念共同建模时,在多任务学习设置中进行了改进。我们将实验基于这些概念的现有数据集(情感,情感,HOF的目标),并在Hasoc Fire 2021英语子任务1A中评估我们的模型作为参与者(作为IMS-Sinai团队)。基于模型选择实验,我们考虑了多个可用的资源和共享任务的提交,我们发现人群情绪语料库,Semeval 2016年情感语料库和犯罪2019年目标检测数据的组合导致F1 =。 79在基于BERT的多任务多任务学习模型中,与Plain Bert的.7895相比。在HASOC 2019测试数据上,该结果更为巨大,而F1中的增加2pp和召回大幅增加。在两个数据集(2019,2021)中,HOF类的召回量尤其增加(2019年数据的6pp和2021数据的3pp),表明MTL具有情感,情感和目标识别是适合的方法可能部署在社交媒体平台中的预警系统。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
Code-Switching, a common phenomenon in written text and conversation, has been studied over decades by the natural language processing (NLP) research community. Initially, code-switching is intensively explored by leveraging linguistic theories and, currently, more machine-learning oriented approaches to develop models. We introduce a comprehensive systematic survey on code-switching research in natural language processing to understand the progress of the past decades and conceptualize the challenges and tasks on the code-switching topic. Finally, we summarize the trends and findings and conclude with a discussion for future direction and open questions for further investigation.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
社交媒体平台为挖掘公众舆论提供了众多社会兴趣问题的金矿。意见采矿是一个问题,可以通过捕获和汇总各个社交媒体职位的立场,作为支持,反对或者在手头上的问题上进行。虽然大多数姿态检测工作已经调查了具有有限时间覆盖率的数据集,但最近提高了调查纵向数据集的兴趣。在新数据中观察到的语言和行为模式中的演变动态,依次适应姿态检测系统来处理变化。在本调查论文中,我们研究了计算语言学与数字媒体人类交流的交叉口。在考虑动态的新兴研究中,我们在探索不同的语义和语用因素,探讨了影响语言数据的不同语义和语用因素,特别是审查。我们进一步讨论了在社交媒体中捕获姿态动态的当前方向。我们组织处理姿态动态的挑战,确定公开挑战,并在三个关键方面讨论未来的方向:话语,背景和影响。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI.
translated by 谷歌翻译
近年来,在网上见证了令人反感的内容的泛滥,例如假新闻,宣传,错误信息和虚假信息。虽然最初这主要是关于文本内容,但随着时间的流逝,图像和视频越来越受欢迎,因为它们更容易消费,吸引更多的关注并比文本更广泛地传播。结果,研究人员开始利用不同的方式及其组合来解决在线多模式进攻内容。在这项研究中,我们提供了有关最新的多模式虚假信息检测的调查,该检测涵盖了各种模式组合:文本,图像,语音,视频,社交媒体网络结构和时间信息。此外,尽管有些研究集中于事实,但其他研究调查了内容的有害性。尽管虚假信息定义中的这两个组成部分(i)事实和(ii)有害性同样重要,但通常会孤立地研究它们。因此,我们主张在同一框架中考虑多种方式以及事实和有害性来解决虚假信息检测。最后,我们讨论当前的挑战和未来的研究方向
translated by 谷歌翻译
As an important fine-grained sentiment analysis problem, aspect-based sentiment analysis (ABSA), aiming to analyze and understand people's opinions at the aspect level, has been attracting considerable interest in the last decade. To handle ABSA in different scenarios, various tasks are introduced for analyzing different sentiment elements and their relations, including the aspect term, aspect category, opinion term, and sentiment polarity. Unlike early ABSA works focusing on a single sentiment element, many compound ABSA tasks involving multiple elements have been studied in recent years for capturing more complete aspect-level sentiment information. However, a systematic review of various ABSA tasks and their corresponding solutions is still lacking, which we aim to fill in this survey. More specifically, we provide a new taxonomy for ABSA which organizes existing studies from the axes of concerned sentiment elements, with an emphasis on recent advances of compound ABSA tasks. From the perspective of solutions, we summarize the utilization of pre-trained language models for ABSA, which improved the performance of ABSA to a new stage. Besides, techniques for building more practical ABSA systems in cross-domain/lingual scenarios are discussed. Finally, we review some emerging topics and discuss some open challenges to outlook potential future directions of ABSA.
translated by 谷歌翻译
随着信息技术的快速发展,在线平台已经产生了巨大的文本资源。作为一种特定形式的信息提取(即),事件提取(EE)由于其自动从人类语言提取事件的能力而增加了普及。但是,事件提取有限的文献调查。现有审查工作要么花费很多努力,用于描述各种方法的细节或专注于特定领域。本研究提供了全面概述了最先进的事件提取方法及其从文本的应用程序,包括闭域和开放式事件提取。这项调查的特点是它提供了适度复杂性的概要,避免涉及特定方法的太多细节。本研究侧重于讨论代表作品的常见角色,应用领域,优势和缺点,忽略各个方法的特殊性。最后,我们总结了常见问题,当前解决方案和未来的研究方向。我们希望这项工作能够帮助研究人员和从业者获得最近的事件提取的快速概述。
translated by 谷歌翻译
Social media has been one of the main information consumption sources for the public, allowing people to seek and spread information more quickly and easily. However, the rise of various social media platforms also enables the proliferation of online misinformation. In particular, misinformation in the health domain has significant impacts on our society such as the COVID-19 infodemic. Therefore, health misinformation in social media has become an emerging research direction that attracts increasing attention from researchers of different disciplines. Compared to misinformation in other domains, the key differences of health misinformation include the potential of causing actual harm to humans' bodies and even lives, the hardness to identify for normal people, and the deep connection with medical science. In addition, health misinformation on social media has distinct characteristics from conventional channels such as television on multiple dimensions including the generation, dissemination, and consumption paradigms. Because of the uniqueness and importance of combating health misinformation in social media, we conduct this survey to further facilitate interdisciplinary research on this problem. In this survey, we present a comprehensive review of existing research about online health misinformation in different disciplines. Furthermore, we also systematically organize the related literature from three perspectives: characterization, detection, and intervention. Lastly, we conduct a deep discussion on the pressing open issues of combating health misinformation in social media and provide future directions for multidisciplinary researchers.
translated by 谷歌翻译
由于信息和错误信息都可以在现代媒体生态系统中传播的速度,事实检查变得越来越重要。因此,研究人员一直在探索如何自动检查,使用基于自然语言处理,机器学习,知识表示以及数据库来自动检查的技术,以自动预测所称的索赔的真实性。在本文中,我们从自然语言处理中调查了自动检查源,并讨论其与相关任务和学科的联系。在此过程中,我们概述了现有数据集和模型,旨在统一给出的各种定义和识别共同概念。最后,我们突出了未来研究的挑战。
translated by 谷歌翻译
Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
translated by 谷歌翻译