数据增强是解决过度合适的有效方法。许多以前的作品提出了针对NLP的不同数据增强策略,例如注入噪声,单词更换,反向翻译等。虽然有效,但它们错过了语言的一个重要特征 - 复杂性,复杂表达的含义是由其子构建的部分。在此激励的情况下,我们提出了一种称为Treemix的自然语言理解的组成数据增强方法。具体而言,Treemix利用选区解析树将句子分解为组成型子结构和混合数据增强技术以重组它们以生成新的句子。与以前的方法相比,Treemix引入了更大的多样性,并鼓励模型学习NLP数据的组成性。关于文本分类和扫描的广泛实验表明,Treemix优于当前最新数据增强方法。
translated by 谷歌翻译
数据增强是通过转换为机器学习的人工创建数据的人工创建,是一个跨机器学习学科的研究领域。尽管它对于增加模型的概括功能很有用,但它还可以解决许多其他挑战和问题,从克服有限的培训数据到正规化目标到限制用于保护隐私的数据的数量。基于对数据扩展的目标和应用的精确描述以及现有作品的分类法,该调查涉及用于文本分类的数据增强方法,并旨在为研究人员和从业者提供简洁而全面的概述。我们将100多种方法划分为12种不同的分组,并提供最先进的参考文献来阐述哪种方法可以通过将它们相互关联,从而阐述了哪种方法。最后,提供可能构成未来工作的基础的研究观点。
translated by 谷歌翻译
本文提出了一种简单但有效的基于插值的数据增强方法,称为Doublemix,以改善模型在文本分类中的鲁棒性。 Doublemix首先利用几个简单的增强操作来为每个培训数据生成几个扰动的样本,然后使用扰动的数据和原始数据在神经模型的隐藏空间中进行两步插值。具体而言,它首先将扰动的数据混合到合成样本中,然后混合原始数据和合成的扰动数据。 Doublemix通过学习隐藏空间中的“转移”功能来增强模型的鲁棒性。在六个文本分类基准数据集上,我们的方法优于几种流行的文本增强方法,包括令牌级别,句子级别和隐藏级数据增强技术。此外,低资源设置中的实验表明,当培训数据稀缺时,我们的方法一致地改善了模型的性能。广泛的消融研究和案例研究证实,我们方法的每个组成部分都有助于最终表现,并表明我们的方法在具有挑战性的反例中表现出卓越的表现。此外,视觉分析表明,我们方法生成的文本特征是高度可解释的。我们的本文代码可以在https://github.com/declare-lab/doublemix.git上找到。
translated by 谷歌翻译
作为有效的策略,数据增强(DA)减轻了深度学习技术可能失败的数据稀缺方案。它广泛应用于计算机视觉,然后引入自然语言处理并实现了许多任务的改进。DA方法的主要重点之一是提高培训数据的多样性,从而帮助模型更好地推广到看不见的测试数据。在本调查中,我们根据增强数据的多样性,将DA方法框架为三类,包括释义,注释和采样。我们的论文根据上述类别,详细分析了DA方法。此外,我们还在NLP任务中介绍了他们的应用以及挑战。
translated by 谷歌翻译
数据饥饿的深度神经网络已经将自己作为许多NLP任务的标准建立为包括传统序列标记的标准。尽管他们在高资源语言上表现最先进的表现,但它们仍然落后于低资源场景的统计计数器。一个方法来反击攻击此问题是文本增强,即,从现有数据生成新的合成训练数据点。虽然NLP最近目睹了一种文本增强技术的负载,但该领域仍然缺乏对多种语言和序列标记任务的系统性能分析。为了填补这一差距,我们调查了三类文本增强方法,其在语法(例如,裁剪子句子),令牌(例如,随机字插入)和字符(例如,字符交换)级别上执行更改。我们系统地将它们与语音标记,依赖解析和语义角色标记的分组进行了比较,用于使用各种模型的各种语言系列,包括依赖于诸如MBERT的普赖金的多语言语境化语言模型的架构。增强最显着改善了解析,然后是语音标记和语义角色标记的依赖性解析。我们发现实验技术通常在形态上丰富的语言,而不是越南语等分析语言。我们的研究结果表明,增强技术可以进一步改善基于MBERT的强基线。我们将字符级方法标识为最常见的表演者,而同义词替换和语法增强仪提供不一致的改进。最后,我们讨论了最大依赖于任务,语言对和模型类型的结果。
translated by 谷歌翻译
由于低资源域名,新任务以及需要大量培训数据的大规模神经网络的普及,最近,数据增强最近看到了对NLP的兴趣增加。尽管最近的高潮,但由于语言数据的离散性质所带来的挑战,这一领域仍然相对望远欠了。在本文中,我们通过以结构化方式概述文献来展示对NLP的全面和统一对NLP的数据。我们首先介绍和激励NLP的数据增强,然后讨论主要的方法论代表性方法。接下来,我们突出显示用于流行NLP应用程序和任务的技术。我们通过概述当前挑战和未来研究的指示来结束。总体而言,我们的论文旨在澄清现有文学的景观,以便NLP的数据增强,并激励该领域的其他工作。我们还提供了一个GitHub存储库,纸张列表将在https://github.com/styfeng/dataaug4nlp上不断更新
translated by 谷歌翻译
尽管在数据增强中的混合成功,但由于自然语言的离散和可变性质,因此对自然语言处理(NLP)任务的适用性受到限制。因此,最近的研究依赖于域的特定启发式和手动制作的资源,例如词典,以便在NLP中应用混合。在本文中,我们为数据增强的目的提出了一种无监督的学习方法,以便为数据增强而言,我们将作为“学习用于数据增强”(LINDA),这不需要任何启发式或手动制作资源但学习通过自然语言歧管在任何一对自然语言句子之间插入。在经验展示Linda的插值能力之后,我们表明Linda确实允许我们在NLP中无缝地应用混合,并导致文本分类中的更好的概括和域名。
translated by 谷歌翻译
数据增强技术被广泛用于文本分类任务中,以提高分类器的性能,尤其是在低资源场景中。大多数以前的方法都会进行文本增强,而无需考虑文本中单词的不同功能,这可能会产生不令人满意的样本。不同的单词可能在文本分类中扮演不同的角色,这激发了我们战略性地选择文本增强作用的适当角色。在这项工作中,我们首先从统计相关性和语义相似性的角度来确定文本中的单词与文本类别之间的关系,具有不同的文本分类功能。基于这些单词角色,我们提出了一种称为STA(选择性文本增强)的新的增强技术,其中不同的文本编辑操作被选择性地应用于具有特定角色的单词。 STA可以在保留原始核心语义的同时生成多样化和相对干净的样品,并且也很容易实现。 5个基准低资源文本分类数据集进行的大量实验表明,STA生产的增强样本成功地提高了分类模型的性能,这些模型的性能大大优于先前的非选择性方法,包括两种基于语言模型的大型技术。跨数据库实验进一步表明,与以前的方法相比,STA可以帮助分类器更好地推广到其他数据集。
translated by 谷歌翻译
GPT-3等大型语言模型是优秀的几次学习者,允许他们通过自然文本提示来控制。最近的研究报告称,基于及时的直接分类消除了对微调的需求,但缺乏数据和推理可扩展性。本文提出了一种新的数据增强技术,利用大规模语言模型来生成来自真实样本的混合的现实文本样本。我们还建议利用语言模型预测的软标签,从大规模语言模型中有效地蒸馏知识并同时创建文本扰动。我们对各种分类任务进行数据增强实验,并显示我们的方法非常优于现有的文本增强方法。消融研究和定性分析为我们的方法提供了更多的见解。
translated by 谷歌翻译
了解用户的意图并从句子中识别出语义实体,即自然语言理解(NLU),是许多自然语言处理任务的上游任务。主要挑战之一是收集足够数量的注释数据来培训模型。现有有关文本增强的研究并没有充分考虑实体,因此对于NLU任务的表现不佳。为了解决这个问题,我们提出了一种新型的NLP数据增强技术,实体意识数据增强(EADA),该技术应用了树结构,实体意识到语法树(EAST),以表示句子与对实体的注意相结合。我们的EADA技术会自动从少量注释的数据中构造东方,然后生成大量的培训实例,以进行意图检测和插槽填充。四个数据集的实验结果表明,该技术在准确性和泛化能力方面显着优于现有数据增强方法。
translated by 谷歌翻译
从长序列中提取监督信号以进行预测是机器学习中的一项艰巨任务,尤其是当输入序列中的所有元素并非同等贡献所需的输出时。在本文中,我们提出了Spandrop,这是一种简单有效的数据增强技术,可帮助模型以很少的示例以很少的示例识别真实的监督信号。通过直接操纵输入序列,Spandrop一次随机消融序列的一部分,并要求模型执行相同的任务以模拟反事实学习并获得输入属性。基于对其属性的理论分析,我们还根据β-伯努利分布提出了spandrop的变体,该变体产生了不同的增强序列,同时提供了一个与原始数据集更一致的学习目标。我们证明了Spandrop在一系列精心设计的玩具任务中的有效性,以及各种自然语言处理任务,这些任务需要长时间的推理才能得出正确的答案,并证明它有助于在数据稀缺和稀缺时改善模型的性能丰富。
translated by 谷歌翻译
Recent datasets expose the lack of the systematic generalization ability in standard sequence-to-sequence models. In this work, we analyze this behavior of seq2seq models and identify two contributing factors: a lack of mutual exclusivity bias (i.e., a source sequence already mapped to a target sequence is less likely to be mapped to other target sequences), and the tendency to memorize whole examples rather than separating structures from contents. We propose two techniques to address these two issues respectively: Mutual Exclusivity Training that prevents the model from producing seen generations when facing novel, unseen examples via an unlikelihood-based loss; and prim2primX data augmentation that automatically diversifies the arguments of every syntactic function to prevent memorizing and provide a compositional inductive bias without exposing test-set data. Combining these two techniques, we show substantial empirical improvements using standard sequence-to-sequence models (LSTMs and Transformers) on two widely-used compositionality datasets: SCAN and COGS. Finally, we provide analysis characterizing the improvements as well as the remaining challenges, and provide detailed ablations of our method. Our code is available at https://github.com/owenzx/met-primaug
translated by 谷歌翻译
本文介绍了一种新的数据增强方法,用于神经机器翻译,该方法可以在语言内部和跨语言内部实施更强的语义一致性。我们的方法基于条件掩盖语言模型(CMLM),该模型是双向的,可以在左右上下文以及标签上有条件。我们证明CMLM是生成上下文依赖性单词分布的好技术。特别是,我们表明CMLM能够通过在替换过程中对源和目标进行调节来实现语义一致性。此外,为了增强多样性,我们将软词替换的想法纳入了数据增强,该概念用词汇上的概率分布代替了一个单词。在不同量表的四个翻译数据集上进行的实验表明,总体解决方案会导致更现实的数据增强和更好的翻译质量。与最新作品相比,我们的方法始终取得了最佳性能,并且在基线上的提高了1.90个BLEU点。
translated by 谷歌翻译
组成概括是指模型可以根据训练期间观察到的数据组件概括为新组成的输入数据的能力。它触发了对不同任务的一系列组成概括分析,因为概括是语言和解决问题技能的重要方面。但是,关于数学单词问题(MWP)的类似讨论受到限制。在此手稿中,我们研究了MWP求解中的组成概括。具体来说,我们首先引入了一种数据分割方法,以创建现有MWP数据集的组合分解。同时,我们合成数据以隔离组成的效果。为了改善MWP解决方案中的组成概括,我们提出了一种迭代数据增强方法,该方法将各种组成变化包括在培训数据中,并可以与MWP方法合作。在评估过程中,我们检查了一组方法,发现所有方法都会在评估的数据集中遇到严重的性能损失。我们还发现我们的数据增强方法可以显着改善一般MWP方法的组成概括。代码可在https://github.com/demoleiwang/cgmwp上找到。
translated by 谷歌翻译
基于方面的情感分析(ABSA)是一项精细的情感分析任务,它的重点是检测句子中的情感极性。但是,它始终对多方面的挑战敏感,在句子中,多个方面的特征将相互影响。为了减轻此问题,我们设计了一个新颖的培训框架,称为对比度跨通道数据增强(C3 DA),该框架利用了一个内域的发电机来构建更多的多种相应样本,然后通过对比度模型通过对比度学习的稳健性,从而通过对比度学习的稳健性这些生成的数据。实际上,鉴于生成预审预测的语言模型和一些有限的ABSA标记数据,我们首先采用一些参数效率的方法来执行内域微调。然后,所获得的内域发生器用于从两个通道(即方面增强通道和极性增强通道)生成合成句子,该句子分别在给定的方面和极性上生成句子条件。具体而言,我们的C3 DA以跨渠道的方式执行句子生成以获取更多句子,并提出了熵最小化过滤器以滤除低质量生成的样品。广泛的实验表明,我们的C3 DA可以在准确性和宏观上胜过约1%的基准,而不会增加1%。代码和数据在https://github.com/wangbing1416/c3da中发布。
translated by 谷歌翻译
Compositional generalization is a basic mechanism in human language learning, which current neural networks struggle with. A recently proposed Disentangled sequence-to-sequence model (Dangle) shows promising generalization capability by learning specialized encodings for each decoding step. We introduce two key modifications to this model which encourage more disentangled representations and improve its compute and memory efficiency, allowing us to tackle compositional generalization in a more realistic setting. Specifically, instead of adaptively re-encoding source keys and values at each time step, we disentangle their representations and only re-encode keys periodically, at some interval. Our new architecture leads to better generalization performance across existing tasks and datasets, and a new machine translation benchmark which we create by detecting naturally occurring compositional patterns in relation to a training set. We show this methodology better emulates real-world requirements than artificial challenges.
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
This paper presents a new data augmentation algorithm for natural understanding tasks, called RPN:Random Position Noise algorithm.Due to the relative paucity of current text augmentation methods. Few of the extant methods apply to natural language understanding tasks for all sentence-level tasks.RPN applies the traditional augmentation on the original text to the word vector level. The RPN algorithm makes a substitution in one or several dimensions of some word vectors. As a result, the RPN can introduce a certain degree of perturbation to the sample and can adjust the range of perturbation on different tasks. The augmented samples are then used to give the model training.This makes the model more robust. In subsequent experiments, we found that adding RPN to the training or fine-tuning model resulted in a stable boost on all 8 natural language processing tasks, including TweetEval, CoLA, and SST-2 datasets, and more significant improvements than other data augmentation algorithms.The RPN algorithm applies to all sentence-level tasks for language understanding and is used in any deep learning model with a word embedding layer.
translated by 谷歌翻译
In order to achieve deep natural language understanding, syntactic constituent parsing is a vital step, highly demanded by many artificial intelligence systems to process both text and speech. One of the most recent proposals is the use of standard sequence-to-sequence models to perform constituent parsing as a machine translation task, instead of applying task-specific parsers. While they show a competitive performance, these text-to-parse transducers are still lagging behind classic techniques in terms of accuracy, coverage and speed. To close the gap, we here extend the framework of sequence-to-sequence models for constituent parsing, not only by providing a more powerful neural architecture for improving their performance, but also by enlarging their coverage to handle the most complex syntactic phenomena: discontinuous structures. To that end, we design several novel linearizations that can fully produce discontinuities and, for the first time, we test a sequence-to-sequence model on the main discontinuous benchmarks, obtaining competitive results on par with task-specific discontinuous constituent parsers and achieving state-of-the-art scores on the (discontinuous) English Penn Treebank.
translated by 谷歌翻译
数据增强技术广泛用于通过解决类别不平衡问题和数据稀疏性来增强机器学习模型的性能。已显示最先进的生成语言模型在不同的NLP任务中提供了显着的增益。但是,它们对几张拍摄设置中的文本分类任务的数据增强的适用性尚未完全探索,特别是对于专门域。在本文中,我们利用GPT-2(Radford A等,2019)来产生人工训练实例,以提高分类性能。我们的目的是分析种子训练示例的选择过程对GPT生成的样品的质量以及因此分类器性能的影响。我们使用几种种子选择策略进行实验,其中包括利用课程分层结构和域专家选择。我们的结果表明,少数标签实例中的微调GPT-2导致一致的分类改进和优于竞争性基线。最后,我们展示通过域专家选择指导这一过程可能会导致进一步的改进,这开辟了有趣的研究途径,用于结合生成模型和主动学习。
translated by 谷歌翻译