方面含义是指如何提出情况的内部时间结构。这包括情况是将情况描述为状态还是事件,无论情况已经完成还是正在进行,以及是否被视为一个整体,还是关注特定阶段。这项调查概述了对词汇和语法方面进行建模以及对必要语言概念和术语的直观解释的概述。特别是,我们描述了统计,远程感,习惯性,完美和不完美的概念,以及最终性和情况类型的有影响力的清单。我们认为,由于方面是语义的关键组成部分,尤其是在以精确的方式报告情况的时间结构时,未来的NLP方法需要能够系统地处理和评估它,以实现人类水平的语言理解。
translated by 谷歌翻译
类型多样的语言提供了词汇和语法方面的系统,使演讲者可以以与他们所面临的特定交流环境和话语约束的方式专注于事件结构的方面。在本文中,我们专门研究了阿拉伯语,中文,德语,德语,俄语和土耳其语的图像标题,并描述了预测词汇方面的计算模型。尽管这些语言具有异质性,以及在其标题语料库中对独特语言资源的显着调用,但这些语言的说话者在框架图像内容的方式方面表现出令人惊讶的相似之处。我们利用这种观察到零拍的跨语性学习,并表明,尽管没有观察到这种语言的任何带注释的数据,但可以预测给定语言的词汇方面。
translated by 谷歌翻译
尽管最近在机器学习用于自然语言处理的机器学习方面,但自然语言推论(NLI)问题仍然是挑战。为此目的,我们贡献了一个新的数据集,专注于事实现象;但是,我们的任务与其他NLI任务保持相同,即引起的征集,矛盾或中性(ECN)。 DataSet在波兰语中包含完全自然语言话语,收集2,432个动词补充对和309个独特的动词。 DataSet基于国家波兰语(NKJP)的国家语料库,是主要动词频率和其他语言特征的代表性样本(例如,内部否定的发生)。我们发现,基于变压器的基于判决的模型获得了相对良好的结果($ \ \左右89 \%$ F1得分)。尽管使用语言特征实现了更好的结果($ \大约91 \%$ F1得分),但这种模型需要更多人工劳动力(循环中的人类),因为专家语言学家手动制备特征。基于BERT的模型仅消耗输入句子表明,它们捕获了NLI / Factivity的大部分复杂性。现象中的复杂病例 - 例如具有权利(e)和非致命动词的案件 - 仍然是进一步研究的开放问题。
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
Modal verbs (e.g., "can", "should", or "must") occur highly frequently in scientific articles. Decoding their function is not straightforward: they are often used for hedging, but they may also denote abilities and restrictions. Understanding their meaning is important for various NLP tasks such as writing assistance or accurate information extraction from scientific text. To foster research on the usage of modals in this genre, we introduce the MIST (Modals In Scientific Text) dataset, which contains 3737 modal instances in five scientific domains annotated for their semantic, pragmatic, or rhetorical function. We systematically evaluate a set of competitive neural architectures on MIST. Transfer experiments reveal that leveraging non-scientific data is of limited benefit for modeling the distinctions in MIST. Our corpus analysis provides evidence that scientific communities differ in their usage of modal verbs, yet, classifiers trained on scientific data generalize to some extent to unseen scientific domains.
translated by 谷歌翻译
我们最近开始一个项目,为来自背景知识的后推推,以促进深入自然语言理解的制定更有效和有效的方式。单词的含义被认为是它增加了持续情况的实体,预测,预设和潜在推论。随着单词组成,情况下的最小模型演变为限制和直接推理。此时我们开发了我们的计算架构并在真实文本上实现了它。我们的重点是证明了我们设计的可行性。
translated by 谷歌翻译
随着信息技术的快速发展,在线平台已经产生了巨大的文本资源。作为一种特定形式的信息提取(即),事件提取(EE)由于其自动从人类语言提取事件的能力而增加了普及。但是,事件提取有限的文献调查。现有审查工作要么花费很多努力,用于描述各种方法的细节或专注于特定领域。本研究提供了全面概述了最先进的事件提取方法及其从文本的应用程序,包括闭域和开放式事件提取。这项调查的特点是它提供了适度复杂性的概要,避免涉及特定方法的太多细节。本研究侧重于讨论代表作品的常见角色,应用领域,优势和缺点,忽略各个方法的特殊性。最后,我们总结了常见问题,当前解决方案和未来的研究方向。我们希望这项工作能够帮助研究人员和从业者获得最近的事件提取的快速概述。
translated by 谷歌翻译
Question Generation (QG) is fundamentally a simple syntactic transformation; however, many aspects of semantics influence what questions are good to form. We implement this observation by developing SynQG, a set of transparent syntactic rules leveraging universal dependencies, shallow semantic parsing, lexical resources, and custom rules which transform declarative sentences into question-answer pairs. We utilize PropBank argument descriptions and VerbNet state predicates to incorporate shallow semantic content, which helps generate questions of a descriptive nature and produce inferential and semantically richer questions than existing systems. In order to improve syntactic fluency and eliminate grammatically incorrect questions, we employ back-translation over the output of these syntactic rules. A set of crowd-sourced evaluations shows that our system can generate a larger number of highly grammatical and relevant questions than previous QG systems and that back-translation drastically improves grammaticality at a slight cost of generating irrelevant questions.
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译
本文档提供了SNACS的详细语言描述(Adposition和Case Supersenses的语义网络; Schneider等,2018),这是52个语义标签(“ Supersenses”)的库存,这些标签(“ Supersenses”)表征了在某种程度上使用ADIP定位和案例标记的使用。粒度水平,如Streusle语料库中所示(https://github.com/nert-nlp/streusle/;版本4.5 track track track offelines guidelines guidelines版本2.6)。尽管SNACS的库存渴望成为普遍的,但该文档是特定于英语的。其他语言的文档将单独发布。版本2是Schneider等人对英语提出的超音库存的修订。 (2015,2016)(此后为“ V1”),这又基于以前的计划。本清单是在对英语的V1语料库注释进行广泛审查后开发的,以及以前未分析的属格案例所有人(Blodgett和Schneider,2018年),并考虑了希伯来语,印地语,韩国和德国的定义和案例现象的考虑。 Hwang等。 (2017)介绍了V2方案的理论基础。 Schneider等。 (2018)总结了该方案,其应用于英语语料库数据以及自动歧义任务。刘等。 (2021)提供了一个英语词法语义识别标签仪,其中包括SNACS标签的输出。该文档也可以与Xposition网站上的语料库数据一起浏览(Gessler等,2022):http://www.xposition.org/
translated by 谷歌翻译
除了以实体为中心的知识之外,通常组织为知识图(千克),事件也是世界上的必不可少的知识,这触发了活动以kg(ekg)等事件为中心的知识表示形式的春天。它在许多机器学习和人工智能应用中起着越来越重要的作用,例如智能搜索,问答,推荐和文本生成。本文提供了历史,本体实例和应用视图的ekg综合调查。具体而言,要彻底地表征EKG,我们专注于其历史,定义,架构归纳,获取,相关代表图形/系统和应用程序。其中研究了发展过程和趋势。我们进一步总结了透视方向,以促进对EKG的未来研究。
translated by 谷歌翻译
作为人类认知的重要组成部分,造成效果关系频繁出现在文本中,从文本策划原因关系有助于建立预测任务的因果网络。现有的因果关系提取技术包括基于知识的,统计机器学习(ML)和基于深度学习的方法。每种方法都具有其优点和缺点。例如,基于知识的方法是可以理解的,但需要广泛的手动域知识并具有较差的跨域适用性。由于自然语言处理(NLP)工具包,统计机器学习方法更加自动化。但是,功能工程是劳动密集型的,工具包可能导致错误传播。在过去的几年里,由于其强大的代表学习能力和计算资源的快速增加,深入学习技术吸引了NLP研究人员的大量关注。它们的局限包括高计算成本和缺乏足够的注释培训数据。在本文中,我们对因果关系提取进行了综合调查。我们最初介绍了因果关系提取中存在的主要形式:显式的内部管制因果关系,隐含因果关系和间情态因果关系。接下来,我们列出了代理关系提取的基准数据集和建模评估方法。然后,我们介绍了三种技术的结构化概述了与他们的代表系统。最后,我们突出了潜在的方向存在现有的开放挑战。
translated by 谷歌翻译
目前的自动COSTERED解析的工作集中在Ontonotes基准数据集上,由于其大小和一致性。然而,NLP从业者的Onototes注释方案的许多方面并不能够很好地理解,包括治疗通用NPS,Noun修饰剂,无限期的视性,预测等。这些通常会导致违反直觉的索赔,结果和系统行为。这个意见案件旨在突出努力的努力的一些问题,并提出依赖三个原则的前进方式:1。专注于语义,不是Morphosyntax;2.交叉语言概括性;3.分离身份和范围,可以解决涉及时间和模态域一致性的旧问题。
translated by 谷歌翻译
The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI.
translated by 谷歌翻译
隐喻检测的最先进方法比较他们的文字或核心 - 使用基于神经网络的顺序隐喻分类器的含义及其语境含义。表示字面含义的信号通常由(非语境)字嵌入式表示。然而,隐喻表达由于各种原因,例如文化和社会影响,随着时间的推移而发展。已知隐喻表达式通过语言和文字词含义,甚至在某种程度上驾驶这一进化。这升起了对文字含义不同,可能是特定于特定的,可能影响隐喻检测任务的问题。据我们所知,这是第一项研究,该研究在详细的探索性分析中检查了隐喻检测任务,其中使用不同的时间和静态字嵌入来占对字面意义的不同表示。我们的实验分析基于用于隐喻检测的三个流行基准,并从不同的Corpora中提取的单词嵌入式,并在时间上对齐到不同的最先进的方法。结果表明,不同的单词嵌入对隐喻检测任务的影响和一些时间字嵌入略高于一些性能措施的静态方法。然而,结果还表明,时间字嵌入可以提供单词“核心意义的表示,即使太接近其隐喻意义,因此令人困惑的分类器。总的来说,时间语言演化和隐喻检测之间的相互作用在我们的实验中使用的基准数据集中出现了微小。这表明对这种重要语言现象的计算分析的未来工作应该首先创建一个新的数据集,其中这个交互是更好的代表。
translated by 谷歌翻译
For natural language understanding (NLU) technology to be maximally useful, it must be able to process language in a way that is not exclusive to a single task, genre, or dataset. In pursuit of this objective, we introduce the General Language Understanding Evaluation (GLUE) benchmark, a collection of tools for evaluating the performance of models across a diverse set of existing NLU tasks. By including tasks with limited training data, GLUE is designed to favor and encourage models that share general linguistic knowledge across tasks. GLUE also includes a hand-crafted diagnostic test suite that enables detailed linguistic analysis of models. We evaluate baselines based on current methods for transfer and representation learning and find that multi-task training on all tasks performs better than training a separate model per task. However, the low absolute performance of our best model indicates the need for improved general NLU systems.
translated by 谷歌翻译
本文介绍了对土耳其语可用于的语料库和词汇资源的全面调查。我们审查了广泛的资源,重点关注公开可用的资源。除了提供有关可用语言资源的信息外,我们还提供了一组建议,并确定可用于在土耳其语言学和自然语言处理中进行研究和建筑应用的数据中的差距。
translated by 谷歌翻译
As machine translation (MT) metrics improve their correlation with human judgement every year, it is crucial to understand the limitations of such metrics at the segment level. Specifically, it is important to investigate metric behaviour when facing accuracy errors in MT because these can have dangerous consequences in certain contexts (e.g., legal, medical). We curate ACES, a translation accuracy challenge set, consisting of 68 phenomena ranging from simple perturbations at the word/character level to more complex errors based on discourse and real-world knowledge. We use ACES to evaluate a wide range of MT metrics including the submissions to the WMT 2022 metrics shared task and perform several analyses leading to general recommendations for metric developers. We recommend: a) combining metrics with different strengths, b) developing metrics that give more weight to the source and less to surface-level overlap with the reference and c) explicitly modelling additional language-specific information beyond what is available via multilingual embeddings.
translated by 谷歌翻译
One of the common traits of past and present approaches for Semantic Role Labeling (SRL) is that they rely upon discrete labels drawn from a predefined linguistic inventory to classify predicate senses and their arguments. However, we argue this need not be the case. In this paper, we present an approach that leverages Definition Modeling to introduce a generalized formulation of SRL as the task of describing predicate-argument structures using natural language definitions instead of discrete labels. Our novel formulation takes a first step towards placing interpretability and flexibility foremost, and yet our experiments and analyses on PropBank-style and FrameNet-style, dependency-based and span-based SRL also demonstrate that a flexible model with an interpretable output does not necessarily come at the expense of performance. We release our software for research purposes at https://github.com/SapienzaNLP/dsrl.
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译