Recent datasets expose the lack of the systematic generalization ability in standard sequence-to-sequence models. In this work, we analyze this behavior of seq2seq models and identify two contributing factors: a lack of mutual exclusivity bias (i.e., a source sequence already mapped to a target sequence is less likely to be mapped to other target sequences), and the tendency to memorize whole examples rather than separating structures from contents. We propose two techniques to address these two issues respectively: Mutual Exclusivity Training that prevents the model from producing seen generations when facing novel, unseen examples via an unlikelihood-based loss; and prim2primX data augmentation that automatically diversifies the arguments of every syntactic function to prevent memorizing and provide a compositional inductive bias without exposing test-set data. Combining these two techniques, we show substantial empirical improvements using standard sequence-to-sequence models (LSTMs and Transformers) on two widely-used compositionality datasets: SCAN and COGS. Finally, we provide analysis characterizing the improvements as well as the remaining challenges, and provide detailed ablations of our method. Our code is available at https://github.com/owenzx/met-primaug
translated by 谷歌翻译
神经网络模型通常概括到不匹配的域或分布不符。在NLP中,特别是当预期模型概括为合作的模型,即熟悉词汇和建筑的新组合时,尤其产生这个问题。我们调查促进从一个组成任务转移到另一个组成任务的学习的学习陈述:模型的代表和任务特定层在预先驾驶任务上具有不同的培训,使得它们概括为需要合成性的不匹配分裂。我们将此方法应用于语义解析,使用三个非常不同的数据集,COG,地理信息集和扫描,作为FineTuning和目标任务交替使用。我们的方法显着改善了在目标任务的测试组上的基线上的组成概括,在微调期间被列出。消融研究表征了所提出的算法中主要步骤的效用,并支持我们的假设。
translated by 谷歌翻译
已显示通用非结构化神经网络在分布外的组成概述上挣扎。通过示例重组的组成数据增强已经转移了一些关于组成性的关于多个语义解析任务的黑盒神经模型的先前知识,但这通常需要特定于任务的工程或提供有限的收益。我们使用称为组成结构学习者(CSL)的型号提供更强大的数据重组方法。 CSL是一种具有拟同步无线语法骨干的生成模型,我们从训练数据中诱导。我们从CSL中进行重组的例子,并将其添加到预先训练的序列到序列模型(T5)的微调数据中。该程序有效地将大多数CSL的组成偏差转移到T5以进行诊断任务,并导致模型比在两个真实世界的组成泛化任务上的T5-CSL集合更强。这导致新的最先进的性能,这些挑战性的语义解析任务需要泛化自然语言变异和元素的新组成。
translated by 谷歌翻译
Humans can understand and produce new utterances effortlessly, thanks to their compositional skills. Once a person learns the meaning of a new verb "dax," he or she can immediately understand the meaning of "dax twice" or "sing and dax." In this paper, we introduce the SCAN domain, consisting of a set of simple compositional navigation commands paired with the corresponding action sequences. We then test the zero-shot generalization capabilities of a variety of recurrent neural networks (RNNs) trained on SCAN with sequence-to-sequence methods. We find that RNNs can make successful zero-shot generalizations when the differences between training and test commands are small, so that they can apply "mix-and-match" strategies to solve the task. However, when generalization requires systematic compositional skills (as in the "dax" example above), RNNs fail spectacularly. We conclude with a proof-of-concept experiment in neural machine translation, suggesting that lack of systematicity might be partially responsible for neural networks' notorious training data thirst.
translated by 谷歌翻译
在构图上概括的能力是理解只能用有限数量的单词以人类语言构建的潜在无限句子数量的关键。研究NLP模型是否具有这种能力一直是一个有趣的话题:Scan(Lake and Baroni,2018)是专门针对该物业测试的一项任务。先前的工作已经使用群体等级的神经网络实现了令人印象深刻的经验结果,该神经网络自然编码了扫描的有用感应偏置(Gordon等,2020)。受此启发,我们引入了一种新型的团体等级架构,该结构结合了一个组不变的硬对准机制。我们发现,与现有的群体等级方法相比,我们的网络结构使其能够开发出更强的白毒属性。我们还发现,在扫描任务上,它的表现优于先前的群体等级网络。我们的结果表明,将群体等级性整合到各种神经体系结构中是一种潜在的研究途径,并证明了对此类架构的理论特性进行仔细分析的价值。
translated by 谷歌翻译
数据增强是解决过度合适的有效方法。许多以前的作品提出了针对NLP的不同数据增强策略,例如注入噪声,单词更换,反向翻译等。虽然有效,但它们错过了语言的一个重要特征 - 复杂性,复杂表达的含义是由其子构建的部分。在此激励的情况下,我们提出了一种称为Treemix的自然语言理解的组成数据增强方法。具体而言,Treemix利用选区解析树将句子分解为组成型子结构和混合数据增强技术以重组它们以生成新的句子。与以前的方法相比,Treemix引入了更大的多样性,并鼓励模型学习NLP数据的组成性。关于文本分类和扫描的广泛实验表明,Treemix优于当前最新数据增强方法。
translated by 谷歌翻译
在本文中,我们试图通过引入深度学习模型的句法归纳偏见来建立两所学校之间的联系。我们提出了两个归纳偏见的家族,一个家庭用于选区结构,另一个用于依赖性结构。选区归纳偏见鼓励深度学习模型使用不同的单位(或神经元)分别处理长期和短期信息。这种分离为深度学习模型提供了一种方法,可以从顺序输入中构建潜在的层次表示形式,即更高级别的表示由高级表示形式组成,并且可以分解为一系列低级表示。例如,在不了解地面实际结构的情况下,我们提出的模型学会通过根据其句法结构组成变量和运算符的表示来处理逻辑表达。另一方面,依赖归纳偏置鼓励模型在输入序列中找到实体之间的潜在关系。对于自然语言,潜在关系通常被建模为一个定向依赖图,其中一个单词恰好具有一个父节点和零或几个孩子的节点。将此约束应用于类似变压器的模型之后,我们发现该模型能够诱导接近人类专家注释的有向图,并且在不同任务上也优于标准变压器模型。我们认为,这些实验结果为深度学习模型的未来发展展示了一个有趣的选择。
translated by 谷歌翻译
具有神经网络的顺序序列学习已成为序列预测任务的事实标准。这种方法通常使用强大的神经网络模拟本地分布,该方法可以在任意上下文上条件。虽然灵活和性能,这些模型通常需要大型数据集进行培训,并且可以在旨在测试组成概括的基准上非常失败。这项工作探讨了与准同步语法的序列到序列学习的替代,分层方法,其中目标树中的每个节点由源区中的节点传电。源和靶树木都被视为潜在的并在训练期间诱导。我们开发了语法的神经参数化,它能够在没有手动功能工程的情况下通过Combinatial规则的组合空间共享参数。我们将此潜在的神经语法应用于各种域 - 一种诊断语言导航任务,旨在测试组成泛化(扫描),样式转移和小型机器翻译,并发现它与标准基线相比表现得尊重。
translated by 谷歌翻译
受到人类掌握算术和普遍不见问题的非凡能力的启发,我们提出了一个新的数据集,提示,以研究机器在三个层面上学习可推广概念的能力:感知,语法和语义。学习代理人是从图像(即感知)等原始信号中观察到的概念,如何在结构上组合多个概念来形成有效的表达(即语法),以及如何实现概念以提供各种推理任务(即语义学),都是以弱监督的方式。以系统的概括为重点,我们仔细设计了一个五倍的测试集,以评估插值和推断学概念W.R.T.这三个级别。我们进一步设计了一些学习的分割,以测试模型是否可以快速学习新概念并将其推广到更复杂的场景。为了了解现有模型的局限性,我们通过包括RNN,Transformers和GPT-3在内的各种顺序到序列模型(以及思想提示链)进行了广泛的实验。结果表明,当前的模型仍在推断出远程句法依赖性和语义方面仍在努力。当在几次设置中使用新概念测试时,模型显示出对人级概括的显着差距。此外,我们发现通过简单地扩大数据集和模型大小来解决提示是不可行的。该策略几乎没有帮助推断语法和语义。最后,在零拍的GPT-3实验中,思想链提示链显示出令人印象深刻的结果,并显着提高了测试准确性。我们认为,拟议的数据集以及实验发现在系统概括方面引起了极大的兴趣。
translated by 谷歌翻译
Compositional generalization is a basic mechanism in human language learning, which current neural networks struggle with. A recently proposed Disentangled sequence-to-sequence model (Dangle) shows promising generalization capability by learning specialized encodings for each decoding step. We introduce two key modifications to this model which encourage more disentangled representations and improve its compute and memory efficiency, allowing us to tackle compositional generalization in a more realistic setting. Specifically, instead of adaptively re-encoding source keys and values at each time step, we disentangle their representations and only re-encode keys periodically, at some interval. Our new architecture leads to better generalization performance across existing tasks and datasets, and a new machine translation benchmark which we create by detecting naturally occurring compositional patterns in relation to a training set. We show this methodology better emulates real-world requirements than artificial challenges.
translated by 谷歌翻译
在许多领域,我们有很好的了解有关导致结构的洞察,这将使我们训练有素的型号有用,同时仍然可以以数据驱动的方式学习。为此,我们介绍了交换干预培训的新方法(IIT)。在IIT中,我们(1)与神经模型中的表示的因果模型中的变量和(2)列车在一个神经模型中,以匹配当两个模型中的对齐表示时的基本输入上的因果模型的反事行为它们是第二源输入的值。 IIT完全可分辨,灵活地与其他目标结合,并保证目标因果模型是当其损失最小化时神经模型的ACAUSAL抽象。我们在结构化视觉任务(MNIST-PVR)和导航指令任务(REARCAN)上评估IIT。我们将IIT与多任务培训目标和数据增强进行比较。在我们的所有实验中,IIT在他们实现目标因果模型的意义上实现了最佳结果,并产生了更可观的诠释。
translated by 谷歌翻译
深度学习模型概括到分销数据很好,但扭动概括为合作方式,即结合一组学习的原语来解决更复杂的任务。以顺序到序列(SEQ2SEQ)学习,变压器通常无法预测比在训练中看到的更长示例的正确输出。本文介绍了迭代解码,SEQ2SEQ的替代方案(i)改善了PCFG和笛卡尔产品数据集中的变压器组成概括和(ii)在这些数据集中的证据中,SEQ2Seq变压器不学习未展开的迭代。在迭代解码中,训练示例被分解为变压器迭代地学习的一系列中间步骤。在推断时间下,中间输出被馈送回变压器,直到预测迭代令牌结束令牌。我们通过说明CFQ数据集中的迭代解码的一些限制来得出结论。
translated by 谷歌翻译
自然语言处理的机器学习快速进步有可能改变有关人类学习语言的辩论。但是,当前人工学习者和人类的学习环境和偏见以削弱从学习模拟获得的证据的影响的方式分歧。例如,当今最有效的神经语言模型接受了典型儿童可用的语言数据量的大约一千倍。为了增加计算模型的可学习性结果的相关性,我们需要培训模型学习者,而没有比人类具有显着优势的学习者。如果合适的模型成功地获得了一些目标语言知识,则可以提供一个概念证明,即在假设的人类学习方案中可以学习目标。合理的模型学习者将使我们能够进行实验操作,以对学习环境中的变量进行因果推断,并严格测试史密斯风格的贫困声明,主张根据人类对人类的先天语言知识,基于有关可学习性的猜测。由于实用和道德的考虑因素,人类受试者将永远无法实现可比的实验,从而使模型学习者成为必不可少的资源。到目前为止,试图剥夺当前模型的不公平优势,为关键语法行为(例如可接受性判断)获得亚人类结果。但是,在我们可以合理地得出结论,语言学习需要比当前模型拥有更多的特定领域知识,我们必须首先以多模式刺激和多代理互动的形式探索非语言意见,以使学习者更有效地学习学习者来自有限的语言输入。
translated by 谷歌翻译
组成概括是指模型可以根据训练期间观察到的数据组件概括为新组成的输入数据的能力。它触发了对不同任务的一系列组成概括分析,因为概括是语言和解决问题技能的重要方面。但是,关于数学单词问题(MWP)的类似讨论受到限制。在此手稿中,我们研究了MWP求解中的组成概括。具体来说,我们首先引入了一种数据分割方法,以创建现有MWP数据集的组合分解。同时,我们合成数据以隔离组成的效果。为了改善MWP解决方案中的组成概括,我们提出了一种迭代数据增强方法,该方法将各种组成变化包括在培训数据中,并可以与MWP方法合作。在评估过程中,我们检查了一组方法,发现所有方法都会在评估的数据集中遇到严重的性能损失。我们还发现我们的数据增强方法可以显着改善一般MWP方法的组成概括。代码可在https://github.com/demoleiwang/cgmwp上找到。
translated by 谷歌翻译
Human linguistic capacity is often characterized by compositionality and the generalization it enables -- human learners can produce and comprehend novel complex expressions by composing known parts. Several benchmarks exploit distributional control across training and test to gauge compositional generalization, where certain lexical items only occur in limited contexts during training. While recent work using these benchmarks suggests that pretrained models achieve impressive generalization performance, we argue that exposure to pretraining data may break the aforementioned distributional control. Using the COGS benchmark of Kim and Linzen (2020), we test two modified evaluation setups that control for this issue: (1) substituting context-controlled lexical items with novel character sequences, and (2) substituting them with special tokens represented by novel embeddings. We find that both of these setups lead to lower generalization performance in T5 (Raffel et al., 2020), suggesting that previously reported results have been overestimated due to uncontrolled lexical exposure during pretraining. The performance degradation is more extreme with novel embeddings, and the degradation increases with the amount of pretraining data, highlighting an interesting case of inverse scaling.
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
组成零射击学习(CZSL)是指识别已知视觉原始素的看不见的组成,这是人工智能系统学习和理解世界的重要能力。尽管在现有基准测试方面取得了长足的进展,但我们怀疑流行的CZSL方法是否可以解决几乎没有射击的挑战和很少的参考构成,这在现实世界中看不见的环境中学习时很常见。为此,我们研究了本文中具有挑战性的参考有限的零拍学习(RL-CZSL)问题,即,只有少数样品作为参考,应确定观察到的原始物的参考的有限参考组成。我们提出了一种新型的元组合图学习器(metaCGL),该图可以从不足的参考信息中有效地学习组成性并推广到看不见的组成。此外,我们通过两个新的大型数据集构建了一个基准测试,这些数据集由具有不同组成标签的自然图像组成,为RL-CZSL提供了更现实的环境。基准中的广泛实验表明,当参考文献受到构成学习的限制时,我们的方法在识别看不见的成分方面取得了最新的性能。
translated by 谷歌翻译
当呈现新任务时,人类可以在构图上推理。先前的研究表明,适当的提示技术使大型语言模型(LLM)能够解决人工构图概括任务,例如扫描。在这项工作中,我们在更现实的语义解析任务中确定了更大的词汇,并完善这些提示技术来解决这些挑战。我们的最佳方法是基于最小的提示:它使用基于提示的句法解析分解问题,然后使用此分解来选择适当的示例并顺序生成语义分析。这种方法使我们能够为CFQ设置新的最新技术,同时仅需要传统方法使用的培训数据的1%。由于我们的方法的一般性,我们希望类似的努力将在其他任务和领域中带来新的结果,尤其是对于知识密集型应用程序。
translated by 谷歌翻译
对于当前深度学习模型而言,推断出针对序列的预测的能力,即对训练示例的序列进行预测,这是一个具有挑战性的问题。最近的工作表明,这种限制仍然存在于最新的基于变压器的模型中。该问题的大多数解决方案都使用特定的体系结构或培训方法,这些方法不会推广到其他任务。我们证明,大型语言模型可以在不修改其体系结构或培训程序的情况下成功推断。实验结果表明,生成逐步的理由和引入标记令牌都是有效推断所必需的。首先,我们诱使它产生逐步的理由,然后再输出答案以有效地将任务传达给模型。但是,随着序列的更长,我们发现当前的模型难以跟踪令牌位置。为了解决这个问题,我们将输出令牌与标记令牌交织在一起,这些标记是显式位置和计数符号。我们的发现表明,这两种互补方法如何实现明显的序列外推,并突出显示当前体系结构的局限性,可以有效地推广而无需明确的表面形式指导。代码可在https://github.com/mirelleb/s.-rations-rationals-markup-tokens中获得
translated by 谷歌翻译
数据增强是通过转换为机器学习的人工创建数据的人工创建,是一个跨机器学习学科的研究领域。尽管它对于增加模型的概括功能很有用,但它还可以解决许多其他挑战和问题,从克服有限的培训数据到正规化目标到限制用于保护隐私的数据的数量。基于对数据扩展的目标和应用的精确描述以及现有作品的分类法,该调查涉及用于文本分类的数据增强方法,并旨在为研究人员和从业者提供简洁而全面的概述。我们将100多种方法划分为12种不同的分组,并提供最先进的参考文献来阐述哪种方法可以通过将它们相互关联,从而阐述了哪种方法。最后,提供可能构成未来工作的基础的研究观点。
translated by 谷歌翻译