对抗性的例子 - 对输出引起输出变化的模型输入的扰动 - 已经被证明是一种有效的方法来评估序列到序列(seq2seq)模型的稳健性。然而,这些扰动仅表明模型中的弱点,如果它们没有如此显着地改变输入以至于它合理地导致预期输出的变化。在对相关文献的生长主体的评估中,这一事实在很大程度上被忽略了。使用非目标攻击机器翻译(MT)的例子,我们提出了一个新的seq2seq模型上的adversarialattacks评估框架,它考虑了前置和后置扰动输入的语义等价性。使用这个框架,我们证明了一般的方法可能无法保留意义,打破了上述假设,即源侧扰动不应导致预期输出的变化。我们进一步使用这个框架来证明在攻击中增加额外的约束允许更具意义保留的对抗性扰动,但是仍然在很大程度上改变了输出序列。最后,我们表明,在不损害测试性能的情况下,使用保持意义的攻击执行非目标对抗训练有利于模型的对抗鲁棒性。我们的评估框架的工具是通过以下网址发布的://github.com/pmichel31415/teapot-nlp。
translated by 谷歌翻译
现代机器翻译(MT)系统在干净的域内文本中表现良好。然而,人类生成的文本,特别是在社会媒体领域,充满了错别字,俚语,方言,惯用语和其他可能对输出翻译的准确性产生灾难性影响的噪音。在本文中,我们利用噪声文本的机器翻译(MTNT)数据集,通过在其他清洁数据中模拟自然发生的噪声来增强MT系统的稳健性。以这种方式合成噪声,我们最终能够使香草MT系统对自然产生的噪声具有弹性,并且部分地减轻由此产生的精度损失。
translated by 谷歌翻译
本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
神经机器翻译(NMT)系统的多语言训练已经导致对低资源语言的精确改进。然而,在缺乏数据的情况下,有效学习单词表示仍然存在重大挑战。在本文中,我们提出了软解耦编码(SDE),这是一种多语言词典编码框架,专门设计用于智能地共享层级信息,而不需要诸如预分割数据之类的启发式预处理。 SDE通过字符编码表示一个单词,通过所有语言共享的嵌入空间表示其语义。对四种低资源语言的标准数据集进行的实验显示,对于强多语言NMT基线有一致的改进,其中一种测试语言的增益高达2 BLEU,在所有四种语言对上实现了新的最新技术水平。
translated by 谷歌翻译
在这项工作中,我们提出了一种神经对话响应生成方法,它不仅可以根据对话历史生成语义上合理的响应,还可以通过情感标签明确控制响应的情绪。我们提出的模型基于有条件的对抗性学习的范式;对情绪控制对话发生器的训练由对抗性鉴别器辅助,该鉴别器评估对话历史和给定情绪标签产生的反应的流畅性和可行性。由于我们的框架的灵活性,生成器可以是标准的序列到序列(SEQ2SEQ)模型或更复杂的模型,例如基于条件变异的基于编码器的SEQ2SEQ模型。使用自动和人道评估的实验结果都表明我们提出的框架能够产生语义上合理和情感控制的对话响应。
translated by 谷歌翻译
语言文档本质上是一个耗时的过程;转录,光泽和语料库管理消耗了文献学家的大部分工作。自然语言处理的进步可以帮助加速这项工作,使用语言学家过去的决定作为培训材料,但仍然存在关于如何优先考虑人类参与的问题。在这个扩展抽象中,我们描述了一个新项目的开始,该项目将尝试通过使用自然语言处理(NLP)技术来简化语言文档处理过程。它基于(1)基于大量多语言神经网络的最新进展来适应NLP工具音调语言的方法,以及(2)允许语言学家上传其数据的后端API和接口。然后,我们在两个方面描述我们当前的进展:自动音素转录和光泽。最后,我们简要介绍一下我们的未来发展方向。
translated by 谷歌翻译
跨语言实体链接将源语言中提及的实体映射到具有不同(目标)语言的结构化知识库中的对应条目。虽然以前的工作在很大程度上依赖于双语词汇资源来弥合源语言和目标语言之间的差距,但这些资源很少或不适用于许多资源匮乏的语言。为了解决这个问题,我们研究了零射击跨语言实体链接,其中我们假设源语言资源语言中没有双语词汇资源。具体而言,我们提出基于枢轴的实体链接,其利用来自高资源“枢轴”语言的信息来训练特征级神经实体链接以零射击方式转移到源流资源语言的模型。通过对9种低资源语言的实验并通过总共54种语言进行转换,我们表明,对于零射击场景,我们提出的基于枢轴的框架在基线系统上平均提高了实体链接精度17%(绝对值)。此外,我们还研究了语言通用语音表示的使用,当使用不同脚本的语言之间进行转换时,它们将平均准确度(绝对值)提高了36%。
translated by 谷歌翻译
在阅读文本时,常常会陷入不熟悉的单词和短语,例如具有新颖感官的多义词,很少使用的习语,互联网俚语或新兴实体。首先,我们试图从他们的背景中找出那些表达的含义,最终我们可以根据他们的定义来咨询字典。然而,很少使用的感官或紧急情况并不总是由现有的手工制作的定义涵盖,这可能会导致文本理解上的问题。本文承担了基于其使用情境描述(或定义)给定表达(单词orphrase)的任务,并提出了一种新颖的神经网络生成器,用于表达其作为自然语言描述的意义。四个数据集的实验结果(包括WordNet,Oxford和UrbanDictionaries,非标准英语和维基百科)证明了我们的方法相对于以前的定义生成方法的有效性[Noraset + 17; Gadetsky + 18;倪+ 17]。
translated by 谷歌翻译
我们介绍了学习编辑的分布式表示的问题。通过将“神经编辑器”与“编辑编码器”组合在一起,我们的模型学会了解编辑的显着信息,并可用于应用编辑音调输入。我们在自然语言和源代码编辑数据上进行实验。 Ourevaluation产生了有希望的结果,表明我们的神经网络模型意味着捕获编辑的结构和语义。我们希望这个有趣的任务和数据源将激励其他研究人员进一步解决这个问题。
translated by 谷歌翻译
在神经机器翻译(NMT)中,使用子词单元进行翻译以允许开放词汇并提高对不常单词的准确性已成为标准。字节对编码(BPE)及其变体是生成这些子字的主要方法,因为它们是无监督,无资源和经验有效的。但是,使用诸如网格搜索之类的方法,这些子字单元的粒度是针对每种语言和任务调整的超参数。由于资源限制,调整可以无穷无尽地完成或完全跳过,导致次优性能。在本文中,我们提出了一种仅使用一个trainingpass自动调整此参数的方法。我们在保持失效损失的基础上逐步引入新词汇,从较小的一般子词开始,并在训练过程中添加更大,更具体的单位。我们的方法将结果与网格搜索相匹配,优化了分段粒度,无需任何额外的训练时间。我们还展示了对于稀有单词的培训效率和性能改进的好处,因为通过组合较小单元的嵌入来逐步构建较大单元的嵌入方式。
translated by 谷歌翻译