语法纠错(GEC)是检测和纠正句子中语法错误的任务。最近,神经机翻译系统已成为这项任务的流行方法。然而,这些方法缺乏使用句法知识,这在语法错误的校正中起着重要作用。在这项工作中,我们提出了一种语法引导的GEC模型(SG-GEC),它采用图表注意机制来利用依赖树的句法知识。考虑到语法不正确的源句子的依赖性树可以提供不正确的语法知识,我们提出了一个依赖树修正任务来处理它。结合数据增强方法,我们的模型在不使用任何大型预先训练模型的情况下实现了强大的性能。我们评估我们在GEC任务的公共基准上的模型,实现了竞争结果。
translated by 谷歌翻译
代码摘要可帮助开发人员理解程序并减少在软件维护过程中推断程序功能的时间。最近的努力诉诸深度学习技术,例如序列到序列模型,以生成准确的代码摘要,其中基于变压器的方法已实现了有希望的性能。但是,在此任务域中,有效地将代码结构信息集成到变压器中的情况不足。在本文中,我们提出了一种名为SG-Trans的新方法,将代码结构属性纳入变压器。具体而言,我们将局部符号信息(例如,代码令牌和语句)和全局句法结构(例如,数据流程图)注入变压器的自我发项模块中。为了进一步捕获代码的层次结构特征,局部信息和全局结构旨在分布在下层和变压器高层的注意力头中。广泛的评估表明,SG-trans的表现优于最先进的方法。与表现最佳的基线相比,SG-Trans在流星评分方面仍然可以提高1.4%和2.0%,这是一个广泛用于测量发电质量的度量,分别在两个基准数据集上。
translated by 谷歌翻译
We propose a transition-based approach that, by training a single model, can efficiently parse any input sentence with both constituent and dependency trees, supporting both continuous/projective and discontinuous/non-projective syntactic structures. To that end, we develop a Pointer Network architecture with two separate task-specific decoders and a common encoder, and follow a multitask learning strategy to jointly train them. The resulting quadratic system, not only becomes the first parser that can jointly produce both unrestricted constituent and dependency trees from a single model, but also proves that both syntactic formalisms can benefit from each other during training, achieving state-of-the-art accuracies in several widely-used benchmarks such as the continuous English and Chinese Penn Treebanks, as well as the discontinuous German NEGRA and TIGER datasets.
translated by 谷歌翻译
我们通过纳入通用依赖性(UD)的句法特征来瞄准直接零射击设置中的跨语言机器阅读理解(MRC)的任务,以及我们使用的关键功能是每个句子中的语法关系。虽然以前的工作已经证明了有效的语法引导MRC模型,但我们建议采用句子际句法关系,除了基本的句子关系外,还可以进一步利用MRC任务的多句子输入中的句法依赖性。在我们的方法中,我们构建了句子间依赖图(ISDG)连接依赖树以形成横跨句子的全局句法关系。然后,我们提出了编码全局依赖关系图的ISDG编码器,通过明确地通过一个跳和多跳依赖性路径来解决句子间关系。三个多语言MRC数据集(XQUAD,MLQA,Tydiqa-Goldp)的实验表明,我们仅对英语培训的编码器能够在涵盖8种语言的所有14个测试集中提高零射性能,最高可达3.8 F1 / 5.2 EM平均改善,以及某些语言的5.2 F1 / 11.2 em。进一步的分析表明,改进可以归因于跨语言上一致的句法路径上的注意力。
translated by 谷歌翻译
In order to achieve deep natural language understanding, syntactic constituent parsing is a vital step, highly demanded by many artificial intelligence systems to process both text and speech. One of the most recent proposals is the use of standard sequence-to-sequence models to perform constituent parsing as a machine translation task, instead of applying task-specific parsers. While they show a competitive performance, these text-to-parse transducers are still lagging behind classic techniques in terms of accuracy, coverage and speed. To close the gap, we here extend the framework of sequence-to-sequence models for constituent parsing, not only by providing a more powerful neural architecture for improving their performance, but also by enlarging their coverage to handle the most complex syntactic phenomena: discontinuous structures. To that end, we design several novel linearizations that can fully produce discontinuities and, for the first time, we test a sequence-to-sequence model on the main discontinuous benchmarks, obtaining competitive results on par with task-specific discontinuous constituent parsers and achieving state-of-the-art scores on the (discontinuous) English Penn Treebank.
translated by 谷歌翻译
我用Hunglish2语料库训练神经电脑翻译任务的模型。这项工作的主要贡献在培训NMT模型期间评估不同的数据增强方法。我提出了5种不同的增强方法,这些方法是结构感知的,这意味着而不是随机选择用于消隐或替换的单词,句子的依赖树用作增强的基础。我首先关于神经网络的详细文献综述,顺序建模,神经机翻译,依赖解析和数据增强。经过详细的探索性数据分析和Hunglish2语料库的预处理之后,我使用所提出的数据增强技术进行实验。匈牙利语的最佳型号达到了33.9的BLEU得分,而英国匈牙利最好的模型达到了28.6的BLEU得分。
translated by 谷歌翻译
由于当前语法纠错(GEC)任务中缺乏并行数据,基于序列框架的模型不能充分培训以获得更高的性能。我们提出了两个数据合成方法,可以控制误差率和合成数据对误差类型的比率。第一种方法是用固定概率损坏单声道语料库中的每个单词,包括更换,插入和删除。另一种方法是培训误差生成模型并进一步过滤模型的解码结果。对不同合成数据的实验表明,误差率为40%,误差类型的比率相同,可以提高模型性能。最后,我们综合了大约1亿数据并实现了与现有技术的可比性,它使用了我们使用的两倍。
translated by 谷歌翻译
Open Information Extraction (OpenIE) aims to extract relational tuples from open-domain sentences. Traditional rule-based or statistical models have been developed based on syntactic structures of sentences, identified by syntactic parsers. However, previous neural OpenIE models under-explore the useful syntactic information. In this paper, we model both constituency and dependency trees into word-level graphs, and enable neural OpenIE to learn from the syntactic structures. To better fuse heterogeneous information from both graphs, we adopt multi-view learning to capture multiple relationships from them. Finally, the finetuned constituency and dependency representations are aggregated with sentential semantic representations for tuple generation. Experiments show that both constituency and dependency information, and the multi-view learning are effective.
translated by 谷歌翻译
基于方面的情感分析(ABSA)是一项精细的情感分析任务,旨在使特定方面的情感极性推断对齐方面和相应的情感。这是具有挑战性的,因为句子可能包含多个方面或复杂(例如,有条件,协调或逆境)的关系。最近,使用图神经网络利用依赖性语法信息是最受欢迎的趋势。尽管取得了成功,但在很大程度上依赖依赖树的方法在准确地建模方面的对准及其单词方面构成了挑战,因为依赖树可能会提供无关的关联的嘈杂信号(例如,“ conj”之间的关系“ conj”之间的关系。图2中的“伟大”和“可怕”。在本文中,为了减轻这个问题,我们提出了一个双轴法意识到的图形注意网络(BISYN-GAT+)。具体而言,bisyn-gat+完全利用句子组成树的语法信息(例如,短语分割和层次结构),以建模每个方面的情感感知环境(称为内在文章)和跨方面的情感关系(称为跨性别的情感)称为Inter-Contept)学习。四个基准数据集的实验表明,BISYN-GAT+的表现始终超过最新方法。
translated by 谷歌翻译
如今,预先训练的语言模型对于问题产生(QG)任务取得了巨大成功,并明显超过传统的顺序到序列方法。但是,预训练的模型将输入段视为平坦序列,因此不了解输入段的文本结构。对于QG任务,我们将文本结构建模为答案位置和句法依赖性,并提出答案局部性建模和句法掩盖的注意,以解决这些局限性。特别是,我们以高斯偏见为局部建模,以使模型能够专注于答案的上下文,并提出一种掩盖注意机制,以使输入段落的句法结构在问题生成过程中访问。在小队数据集上进行的实验表明,我们提出的两个模块改善了强大的预训练模型ProPHETNET的性能,并将它们梳理在一起,可以通过最先进的预培训模型来实现非常有竞争力的结果。
translated by 谷歌翻译
Multi-head self-attention is a key component of the Transformer, a state-of-the-art architecture for neural machine translation. In this work we evaluate the contribution made by individual attention heads in the encoder to the overall performance of the model and analyze the roles played by them. We find that the most important and confident heads play consistent and often linguistically-interpretable roles. When pruning heads using a method based on stochastic gates and a differentiable relaxation of the L 0 penalty, we observe that specialized heads are last to be pruned. Our novel pruning method removes the vast majority of heads without seriously affecting performance. For example, on the English-Russian WMT dataset, pruning 38 out of 48 encoder heads results in a drop of only 0.15 BLEU. 1
translated by 谷歌翻译
Syntax is a latent hierarchical structure which underpins the robust and compositional nature of human language. An active line of inquiry is whether large pretrained language models (LLMs) are able to acquire syntax by training on text alone; understanding a model's syntactic capabilities is essential to understanding how it processes and makes use of language. In this paper, we propose a new method, SSUD, which allows for the induction of syntactic structures without supervision from gold-standard parses. Instead, we seek to define formalism-agnostic, model-intrinsic syntactic parses by using a property of syntactic relations: syntactic substitutability. We demonstrate both quantitative and qualitative gains on dependency parsing tasks using SSUD, and induce syntactic structures which we hope provide clarity into LLMs and linguistic representations, alike.
translated by 谷歌翻译
多文件摘要中的一个关键挑战是捕获区分单个文档摘要(SDS)和多文件摘要(MDS)的输入文档之间的关系。现有的MDS工作很少解决此问题。一种有效的方法是编码文档位置信息,以帮助模型捕获跨文档关系。但是,现有的MDS模型(例如基于变压器的模型)仅考虑令牌级的位置信息。此外,这些模型无法捕获句子的语言结构,这不可避免地会引起生成的摘要中的混乱。因此,在本文中,我们提出了可以与MDS的变压器体系结构融合的文档意识到的位置编码和语言引导的编码。对于文档感知的位置编码,我们引入了一项通用协议,以指导文档编码功能的选择。对于语言引导的编码,我们建议使用简单但有效的非线性编码学习者进行特征学习,将句法依赖关系嵌入依赖关系掩码中。广泛的实验表明,所提出的模型可以生成高质量的摘要。
translated by 谷歌翻译
理解和生成语言的能力使人类认知与其他已知的生命形式不同。我们研究一种在语义解析的任务中,将两种最成功的途径(统计语言模型和象征性语义形式主义)梳理到语言的意义。我们基于基于过渡的抽象表示(AMR)解析器,AMREAGER,我们探索了融合预验证的上下文感知的单词嵌入的实用性 - 例如Bert和Roberta,在AMR解析的问题中,我们为新的解析器做出了贡献。 Dub作为Amrberger。实验发现,与非上下文对应物相比,这些丰富的词汇特征对改善解析器的总体表现并不特别有助于改善解析器的整体性能,而其他概念信息则赋予了系统以优于基准的能力。通过病变研究,我们发现上下文嵌入的使用有助于使系统更强大,以消除显式句法特征。这些发现揭示了上下文嵌入的优势和劣势,并以当前形式揭示了语言模型,并激发了更深入的理解。
translated by 谷歌翻译
AMR到文本是NLP社区中旨在从抽象含义表示(AMR)图生成句子的关键技术之一。自2013年提出AMR以来,有关AMR到文本的研究越来越普遍,因为AMR作为自然语言的高级语义描述,由于AMR具有独特的优势,因此作为结构化数据的重要分支变得越来越普遍。在本文中,我们简要介绍了AMR到文本。首先,我们介绍了此技术的当前情况,并指出了它的困难。其次,根据先前研究中使用的方法,我们根据它们各自的机制将它们大致分为五个类别和预先训练的语言模型(PLM)。特别是,我们详细介绍了基于神经网络的方法,并介绍了AMR到文本的最新进展,该方法指的是AMR重建,解码器优化等。此外,我们介绍了AMR-TOXT的基准和评估方法。最终,我们提供了当前技术和未来研究的前景的摘要。
translated by 谷歌翻译
医疗关系提取(MRE)任务旨在提取医学文本中实体之间的关系。传统的关系提取方法通过探索句法信息,例如依赖树。但是,由外域解析器产生的医学文本的1好的依赖树的质量相对有限,因此医疗关系提取方法的性能可能会退化。为此,我们提出了一种基于因果解释理论的医学文本中共同模拟语义和句法信息的方法。我们生成依赖性森林,这些森林由1-最佳依赖树组成。然后,采用特定于任务的因果解释者来修剪依赖性森林,该森林将进一步送入设计的图形卷积网络,以学习下游任务的相应表示。从经验上讲,基准医学数据集的各种比较证明了我们模型的有效性。
translated by 谷歌翻译
通常认为语言模型能够编码语法[Tenney等,2019; Jawahar等,2019; Hewitt和Manning,2019]。在本文中,我们提出了UPOA,这是一种无监督的组成分析模型,该模型仅基于以验证的语言模型学习为跨度分割的句法距离,仅基于自我发挥的权重矩阵来计算出OUT关联得分。我们进一步提出了一个增强的版本UPIO,该版本利用了内部关联和外部关联得分来估计跨度的可能性。使用UPOA和UPIO的实验揭示了自我注意机制中查询和密钥的线性投影矩阵在解析中起重要作用。因此,我们将无监督的模型扩展到了几个射击模型(FPOA,FPIO),这些模型使用一些注释的树来学习更好的线性投影矩阵进行解析。宾夕法尼亚河岸上的实验表明,我们的无监督解析模型UPIO实现了与短句子(长度<= 10)相当的结果。我们的几个解析模型FPIO接受了仅20棵带注释的树木的训练,优于前几种镜头解析方法,该方法接受了50棵带注释的树木的训练。交叉解析的实验表明,无监督和少数解析方法都比SPMRL大多数语言的先前方法都更好[Seddah等,2013]。
translated by 谷歌翻译
与伯特(Bert)等语言模型相比,已证明知识增强语言表示的预培训模型在知识基础构建任务(即〜关系提取)中更有效。这些知识增强的语言模型将知识纳入预训练中,以生成实体或关系的表示。但是,现有方法通常用单独的嵌入表示每个实体。结果,这些方法难以代表播出的实体和大量参数,在其基础代币模型之上(即〜变压器),必须使用,并且可以处理的实体数量为由于内存限制,实践限制。此外,现有模型仍然难以同时代表实体和关系。为了解决这些问题,我们提出了一个新的预培训模型,该模型分别从图书中学习实体和关系的表示形式,并分别在文本中跨越跨度。通过使用SPAN模块有效地编码跨度,我们的模型可以代表实体及其关系,但所需的参数比现有模型更少。我们通过从Wikipedia中提取的知识图对我们的模型进行了预训练,并在广泛的监督和无监督的信息提取任务上进行了测试。结果表明,我们的模型比基线学习对实体和关系的表现更好,而在监督的设置中,微调我们的模型始终优于罗伯塔,并在信息提取任务上取得了竞争成果。
translated by 谷歌翻译
Simile recognition involves two subtasks: simile sentence classification that discriminates whether a sentence contains simile, and simile component extraction that locates the corresponding objects (i.e., tenors and vehicles). Recent work ignores features other than surface strings. In this paper, we explore expressive features for this task to achieve more effective data utilization. Particularly, we study two types of features: 1) input-side features that include POS tags, dependency trees and word definitions, and 2) decoding features that capture the interdependence among various decoding decisions. We further construct a model named HGSR, which merges the input-side features as a heterogeneous graph and leverages decoding features via distillation. Experiments show that HGSR significantly outperforms the current state-of-the-art systems and carefully designed baselines, verifying the effectiveness of introduced features. Our code is available at https://github.com/DeepLearnXMU/HGSR.
translated by 谷歌翻译
在本文中,我们试图通过引入深度学习模型的句法归纳偏见来建立两所学校之间的联系。我们提出了两个归纳偏见的家族,一个家庭用于选区结构,另一个用于依赖性结构。选区归纳偏见鼓励深度学习模型使用不同的单位(或神经元)分别处理长期和短期信息。这种分离为深度学习模型提供了一种方法,可以从顺序输入中构建潜在的层次表示形式,即更高级别的表示由高级表示形式组成,并且可以分解为一系列低级表示。例如,在不了解地面实际结构的情况下,我们提出的模型学会通过根据其句法结构组成变量和运算符的表示来处理逻辑表达。另一方面,依赖归纳偏置鼓励模型在输入序列中找到实体之间的潜在关系。对于自然语言,潜在关系通常被建模为一个定向依赖图,其中一个单词恰好具有一个父节点和零或几个孩子的节点。将此约束应用于类似变压器的模型之后,我们发现该模型能够诱导接近人类专家注释的有向图,并且在不同任务上也优于标准变压器模型。我们认为,这些实验结果为深度学习模型的未来发展展示了一个有趣的选择。
translated by 谷歌翻译