许多任务(包括语言生成)都受益于学习输出空间的结构,特别是当输出标签的空间很大且数据稀疏时。最先进的神经语言模型直接捕获分类器权重中的输出空间结构,因为它们缺少输出标签之间的参数共享。学习共享输出标签映射有所帮助,但现有方法的表达能力有限,容易过度拟合。在本文中,我们研究了更强大的共享映射对输出标签的有用性,并提出了一种深层残差输出映射,层间丢失以更好地捕获输出空间的结构并避免过度拟合。对三种语言生成任务的评估表明,输出标签映射可以匹配或改进最先进的循环和自我关注架构,并建议分类器不一定需要高级别才能更好地模拟自然语言,如果它更好捕获输出空间的结构。
translated by 谷歌翻译
本文证明了词义消歧(WSD)可以通过扩展在建模潜在模糊词的意义时考虑的源上下文来改进神经机器翻译(NMT)。我们首先介绍了基于k均值,中国餐馆流程和随机游走的WSD的三种自适应聚类算法,然后将这些算法应用于低秩空间中表示的大型单词上下文,并在SemEval共享任务数据上进行评估。在最先进的NMT系统中,Wethen与我们最好的WSD方法定义的感应向量一起学习单词向量。我们证明了这些向量的连接,以及基于有义向量的加权平均的感知选择机制的使用,优于包括感知识别在内的几个基线。通过五种语言对的翻译证明了这一点。这些改进在强大的NMT基线上超过一个BLEU点,在所有模糊名词和动词上的准确率为+ 4%,或者在几个具有挑战性的词语上手动得分时为+ 20%。
translated by 谷歌翻译
可以通过包括文档级背景信息来改进神经机器翻译(NMT)。为此,我们提出了一种分层注意模型,以结构化和动态的方式捕获上下文。该模型在原始NMT体系结构中作为另一个抽象级别集成,调整NMT模型自己以前的隐藏状态。实验表明,分层注意力在强大的NTT基线上显着提高了BLEU得分,采用了最先进的上下文感知方法,并且编码器和解码器都以互补的方式从上下文中获益。
translated by 谷歌翻译
将目标词嵌入的权重与神经机器翻译模型的目标词分类器相结合,可以加快训练速度,提高翻译质量。鉴于此参数共享的成功,我们调查了参与之间没有共享和硬度的其他形式的共享。特别地,我们提出了一种结构感知输出层,它利用联合输入 - 输出嵌入来捕获单词输出空间的语义结构。该模型是权重绑定的一种通用形式,其共享参数但允许学习更灵活的关系,在输入字嵌入中并且允许输出层的有效容量被控制。此外,该模型在输出分类器和翻译上下文之间共享权重,这使其能够更好地利用先验知识。我们对英语到芬兰语和英语到德语数据集的评估表明该方法对强编码器 - 解码器基线的有效性,无论是否有重量绑定。
translated by 谷歌翻译
神经文本分类方法通常将输出类视为缺少描述和语义的类别标签。这导致无法在大型标签集上很好地训练它们或者推广到不可见标签并使速度和参数化取决于标签集的大小。联合输入标签空间方法通过利用标签文本或描述来改善上述问题,但通常以在培训期间经常看到的标签上的弱性能为代价。在本文中,我们提出了一种标签识别文本分类模型,该模型解决了这些问题,而不会影响所看到的标签上的性能。该模型由联合输入标签乘法空间和标签集大小独立分类单元组成,并通过交叉熵损失进行训练以优化准确性。我们在多语言新闻的文本分类和具有大标签集的生物医学文本上评估我们的模型。标签感知模型始终优于单语和多语言分类模型,它们不利用标签语义和先前的联合输入标签空间模型。
translated by 谷歌翻译
具有注意力的神经序列到序列网络已经实现了机器翻译的显着性能。其有效性的原因之一是它们能够通过注意机制在每次步骤预测中捕获相关的源侧上下文信息。然而,目标 - 侧面上下文仅基于序列模型,在实践中,序列模型易于产生偏见,并且缺乏有效捕获单词之间非顺序依赖性的能力。为了解决这个限制,我们提出了用于解码的atarget-side-attentive残余循环网络,其中注意力先前的单词直接有助于预测下一个单词。残留学习促进了来自遥远的过去的信息流并且能够强调任何以前翻译的单词,因此它可以获得更广泛的背景。所提出的模型优于神经MT基线以及三种语言对上的记忆和自我关注网络。对解码器学到的关注的分析证实它强调了awider上下文,并且它捕获了类似句法的结构。
translated by 谷歌翻译
我们考虑为具有交互动态和稀疏可用通信的移动机器人的大型网络寻找分布式控制器的问题。我们的方法是通过在训练时使用全局信息模仿集中控制器的策略来学习本地控制器,这些控制器在测试时仅需要本地信息和本地通信。通过将聚合图神经网络扩展到时变信号和时变网络支持,我们学习了一个通用的本地控制器,它可以通过仅使用本地通信交换来从远程队友那里获取信息。我们将这种方法应用于分散线性二次调节器问题,并观察通信速率和较小网络程度如何增加多跳信息的价值。学习分散式植绒控制器的独立实验证明了随着机器人移动而改变的通信图表的性能。
translated by 谷歌翻译
在本文中,我们使用机器学习和统计学的现代工具分析随机系统识别的有限样本复杂性。 Anunknown离散时间线性系统随着时间的推移在高斯噪声下随外部输入而演变。目标是在给定长度$ N $的有限范围内的输出测量的单个轨迹的情况下恢复系统参数以及卡尔曼滤波器增益。基于子空间识别算法和有限数量的$ N $输出样本,我们为系统参数估计误差提供非渐近高概率上界。我们的分析使用随机矩阵理论,自标准化鞅和SVD鲁棒性的最新结果,以表明在高概率下估计误差以$ 1 / \ sqrt {N} $的速率降低。 Ournon渐近边界不仅与经典渐近结果一致,而且即使系统边缘稳定也是有效的。
translated by 谷歌翻译
社交媒体传播正变得越来越普遍;一些有用的,一些是虚假的,无论是无意还是恶意。越来越多的谣言每天涌入社交网​​络。确定其在自治道路中的准确性是一个非常活跃和具有挑战性的研究领域,提出了各种方法。然而,大多数模型依赖于确定构成消息对谣言的立场,这一特征被称为“人群的智慧”。虽然已经提出了几种有监督的机器学习方法来解决消息站立分类问题,但这些方法存在许多缺点。在本文中,我们认为半监督学习比监督模型更有效,并使用两种基于图形的方法来证明它。这不仅在分类准确性方面,在速度和可扩展性方面也非常重要。我们使用LabelPropagation和Label Spreading算法,并对从Twitter收集的72个谣言和数十万条消息的数据集进行实验。我们将两个可用数据集的结果与现有技术进行比较,以证明我们的算法在实时应用的准确性,速度和可扩展性方面的性能。
translated by 谷歌翻译
时间序列预测是许多重要应用的关键组成部分,从预测股票市场到能源负荷预测。在这些应用中收集的数据的高维度,速度和多样性带来了重大而独特的挑战,必须为每个挑战提供这些挑战。在这项工作中,提出了一种新颖的Temporal LogisticNeural Bag-of-Features方法,可用于解决这些挑战。该方法可以有效地与深度神经网络相结合,为时间序列分析提供了强大的深度学习模型。然而,将现有的BoF公式与深度特征提取器相结合构成了显着的挑战:输入特征的分布不稳定,调整超参数。该模型可能特别困难,并且BoF模型中涉及的标准化可能在训练过程中引起显着的不稳定性。所提出的方法能够通过采用新颖的自适应缩放机制并用逻辑内核替换常规BoF模型中涉及的经典的基于高斯的密度估计来克服这些限制。通过对包含超过400万个限制订单的大规模金融时间序列数据集进行广泛实验,证明了所提方法的有效性。
translated by 谷歌翻译