许多任务(包括语言生成)都受益于学习输出空间的结构,特别是当输出标签的空间很大且数据稀疏时。最先进的神经语言模型直接捕获分类器权重中的输出空间结构,因为它们缺少输出标签之间的参数共享。学习共享输出标签映射有所帮助,但现有方法的表达能力有限,容易过度拟合。在本文中,我们研究了更强大的共享映射对输出标签的有用性,并提出了一种深层残差输出映射,层间丢失以更好地捕获输出空间的结构并避免过度拟合。对三种语言生成任务的评估表明,输出标签映射可以匹配或改进最先进的循环和自我关注架构,并建议分类器不一定需要高级别才能更好地模拟自然语言,如果它更好捕获输出空间的结构。
translated by 谷歌翻译
将每个单词映射到连续向量的单词的分布式表示已被证明在不仅在单一语言中而且在不同语言中捕获重要的语言信息方面是有用的。 CurrentUnsupervised对抗方法表明,有可能构建一个映射矩阵,将两组单语单词嵌入对齐,而不需要高质量的并行数据,如字典或句子对齐的语料库。但是,如果没有后期细化,这些方法的初步映射的性能是不好,导致远距离语言的表现不佳。在本文中,我们提出了一种弱监督的对抗性训练方法来克服这种局限性,这种方法基于直觉,即跨语言的映射在概念层面比在词层更好。我们提出了基于aconcept的对抗性训练方法,对于大多数语言来说,这种方法可以改善以前无监督的对抗方法的表现,特别是在远近语言对的语言对中。
translated by 谷歌翻译
本文证明了词义消歧(WSD)可以通过扩展在建模潜在模糊词的意义时考虑的源上下文来改进神经机器翻译(NMT)。我们首先介绍了基于k均值,中国餐馆流程和随机游走的WSD的三种自适应聚类算法,然后将这些算法应用于低秩空间中表示的大型单词上下文,并在SemEval共享任务数据上进行评估。在最先进的NMT系统中,Wethen与我们最好的WSD方法定义的感应向量一起学习单词向量。我们证明了这些向量的连接,以及基于有义向量的加权平均的感知选择机制的使用,优于包括感知识别在内的几个基线。通过五种语言对的翻译证明了这一点。这些改进在强大的NMT基线上超过一个BLEU点,在所有模糊名词和动词上的准确率为+ 4%,或者在几个具有挑战性的词语上手动得分时为+ 20%。
translated by 谷歌翻译
可以通过包括文档级背景信息来改进神经机器翻译(NMT)。为此,我们提出了一种分层注意模型,以结构化和动态的方式捕获上下文。该模型在原始NMT体系结构中作为另一个抽象级别集成,调整NMT模型自己以前的隐藏状态。实验表明,分层注意力在强大的NTT基线上显着提高了BLEU得分,采用了最先进的上下文感知方法,并且编码器和解码器都以互补的方式从上下文中获益。
translated by 谷歌翻译
将目标词嵌入的权重与神经机器翻译模型的目标词分类器相结合,可以加快训练速度,提高翻译质量。鉴于此参数共享的成功,我们调查了参与之间没有共享和硬度的其他形式的共享。特别地,我们提出了一种结构感知输出层,它利用联合输入 - 输出嵌入来捕获单词输出空间的语义结构。该模型是权重绑定的一种通用形式,其共享参数但允许学习更灵活的关系,在输入字嵌入中并且允许输出层的有效容量被控制。此外,该模型在输出分类器和翻译上下文之间共享权重,这使其能够更好地利用先验知识。我们对英语到芬兰语和英语到德语数据集的评估表明该方法对强编码器 - 解码器基线的有效性,无论是否有重量绑定。
translated by 谷歌翻译
神经文本分类方法通常将输出类视为缺少描述和语义的类别标签。这导致无法在大型标签集上很好地训练它们或者推广到不可见标签并使速度和参数化取决于标签集的大小。联合输入标签空间方法通过利用标签文本或描述来改善上述问题,但通常以在培训期间经常看到的标签上的弱性能为代价。在本文中,我们提出了一种标签识别文本分类模型,该模型解决了这些问题,而不会影响所看到的标签上的性能。该模型由联合输入标签乘法空间和标签集大小独立分类单元组成,并通过交叉熵损失进行训练以优化准确性。我们在多语言新闻的文本分类和具有大标签集的生物医学文本上评估我们的模型。标签感知模型始终优于单语和多语言分类模型,它们不利用标签语义和先前的联合输入标签空间模型。
translated by 谷歌翻译
深度高斯过程(DGP)可以模拟复杂的边缘密度以及复杂的映射。非高斯边缘对于模拟真实世界数据是必不可少的,并且可以通过将相关变量结合到模型来从DGP生成。先前关于DGP模型的工作已经引入了加性和使用变分推理,其中使用稀疏高斯过程和平均场高斯的组合用于近似后验。加性噪声衰减信号,并且高斯形式的变分布可能导致后验不准确。我们将噪声变量作为潜在协变量,并提出一种新颖的重要性加权目标,它利用分析结果并提供一种权衡计算的机制以提高准确性。我们的研究结果表明,重要加权目标在实践中运作良好,并且始终优于经典变分推理,尤其是对于更深层次的模型。
translated by 谷歌翻译
我们考虑用于表示车辆动力学的神经网络的在线适应问题。神经网络模型旨在由MPC控制法使用以自主地控制车辆。这个问题具有挑战性,因为输入和目标分布都是非平稳的,而在线适应的天真方法会导致灾难性的遗忘,从而导致控制器故障。我们提出了一种新颖的在线学习方法,它将伪排练方法与局部加权投影回归相结合。我们证明了在模拟中使用局部加权投影回归伪排练(LW-PR $ ^ 2 $)方法的有效性以及使用1/5比例自动驾驶车辆收集的大型真实世界数据集。
translated by 谷歌翻译
深度学习建立在梯度下降与目标函数收敛于局部最小值的基础上。不幸的是,这种保证在诸如生成对抗网之类的设置中失败,这些设置表现出多种相互作用的损失。基于梯度的方法在游戏中的行为并未被理解 - 并且随着对抗性和多目标体系结构的激增而变得越来越重要。在本文中,我们开发了新的工具来理解和控制n玩家可区分游戏的动态。关键的结果是将雅可比游戏分解为两个组成部分。第一个对称分量与潜在的游戏有关,这些游戏在隐式函数上减少了梯度下降。第二个反对称组件涉及哈密尔顿游戏,这是一类新的游戏,遵循经典机械系统中的守恒定律。分解激发了辛差梯度调整(SGA),这是一种在可微分游戏中寻找稳定不动点的新算法。基本实验表明,SGA与最近提出的用于在GAN中找到稳定的固定点的算法具有竞争性 - 同时适用于并且具有更多一般情况的保证。
translated by 谷歌翻译
有许多关于从深度神经网络(DNN)中提取瓶颈(BN)特征的研究,这些特征训练用于区分说话者,密码短语和三音素状态以改善文本相关说话者验证(TD-SV)的性能。但是,取得了一定的成功。最近的一项研究[1]提出了一种时间对比学习(TCL)概念,用于探索脑信号分类的大脑状态的平稳性。语音信号具有类似的非平稳性,并且TCL还具有不需要标记数据的优点。因此,我们提出了一种基于TCL的特征提取方法。该方法将训练数据集中的每个语音容差均匀地划分为预定义数量的多帧分段。话语中的每个片段对应于一个类,并且跨语言共享类标签。然后训练DNN以区分各类中的所有语音帧以利用语音的时间结构。此外,我们提出了一种基于分段的无监督聚类算法,以便为这些分段分配类别标签。在RedDots挑战数据库上进行TD-SV实验。使用从TD-SV评估集中排除的语音数据离线密码短语来训练TCL-DNN,因此可以将所述特征视为与短语无关的。我们比较了所提出的TCL瓶颈(BN)特征与短时间倒谱特征和从DNN识别扬声器,密码短语,说话者+密码短语以及标签和边界由三种不同自动生成的单声道提取的BN特征的性能。语音识别(ASR)系统。实验结果表明,所提出的TCL-BN优于自适应特征和说话人+通行短语判别BN特征,其性能与ASR导出的BN特征相当。此外,....
translated by 谷歌翻译