Semi-parametric models, which augment generation with retrieval, have led to impressive results in language modeling and machine translation, due to their ability to retrieve fine-grained information from a datastore of examples. One of the most prominent approaches, $k$NN-MT, exhibits strong domain adaptation capabilities by retrieving tokens from domain-specific datastores \citep{khandelwal2020nearest}. However, $k$NN-MT requires an expensive retrieval operation for every single generated token, leading to a very low decoding speed (around 8 times slower than a parametric model). In this paper, we introduce a \textit{chunk-based} $k$NN-MT model which retrieves chunks of tokens from the datastore, instead of a single token. We propose several strategies for incorporating the retrieved chunks into the generation process, and for selecting the steps at which the model needs to search for neighbors in the datastore. Experiments on machine translation in two settings, static and ``on-the-fly'' domain adaptation, show that the chunk-based $k$NN-MT model leads to significant speed-ups (up to 4 times) with only a small drop in translation quality.
translated by 谷歌翻译
使用环境模型和值函数,代理可以通过向不同长度展开模型来构造状态值的许多估计,并使用其值函数引导。我们的关键识别是,人们可以将这组价值估计视为一类合奏,我们称之为\ eNPH {隐式值合奏}(IVE)。因此,这些估计之间的差异可用作代理人的认知不确定性的代理;我们将此信号术语\ EMPH {Model-Value不一致}或\ EMPH {自给智而不一致。与先前的工作不同,该工作估计通过培训许多模型和/或价值函数的集合来估计不确定性,这种方法只需要在大多数基于模型的加强学习算法中学习的单一模型和价值函数。我们在单板和函数近似设置中提供了从像素的表格和函数近似设置中的经验证据是有用的(i)作为探索的信号,(ii)在分发班次下安全地行动,(iii),用于使用基于价值的规划模型。
translated by 谷歌翻译
变形金刚在参加长语境时奋斗,因为计算量随着上下文长度而增长,因此它们不能有效地模拟长期存储器。已经提出了几种变体来缓解这个问题,但它们都有有限的内存容量,被迫降低旧信息。在本文中,我们提出了$ \ infty $ -former,它将Vanilla变压器与无限的长期记忆延伸。通过利用连续空间注意机制来参加长期内存,$ \ idty $ -former的注意力复杂性与上下文长度无关。因此,它能够在保持固定计算预算的同时进行任意长的上下文并维持“粘性存储器”。合成排序任务的实验展示了$ \ idty $ -former将信息从长序列中保留信息的能力。我们还通过培训从头开始培训模型以及微调预先培训的语言模型来执行语言建模实验,这表明了无限性的长期记忆的好处。
translated by 谷歌翻译
受约束运动控制的最新进展使其成为在具有挑战性的任务中使用任意几何形状控制机器人的有吸引力的策略。当前大多数作品都假定机器人运动模型足够精确,可以完成手头的任务。但是,随着机器人应用的需求和安全要求的增加,需要在线补偿运动学不准确的控制器。我们提出了基于二次编程的自适应约束运动控制策略,该策略使用部分或完整的任务空间测量来补偿在线校准错误。与最先进的运动学控制策略相比,我们的方法在实验中得到了验证。
translated by 谷歌翻译