跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
我们提出短暂价值调整(EVA):一种允许深度执行学习代理快速适应重播缓冲经验的方法。 EVA通过对来自当前状态附近的重放缓冲区的经验元组进行规划而得到的值函数的估计来改变由神经网络预测的值。 EVA结合了许多近期的想法,将类似情节记忆的结构组合成强化学习代理:基于插槽的存储,基于内容的检索和基于内存的规划。我们展示了EVA在演示任务和Atari游戏中的表现。
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
强化学习中的转移是指概念不仅应发生在任务中,还应发生在任务之间。我们提出了转移框架,用于奖励函数改变的场景,但环境的动态保持不变。我们的方法依赖于两个关键思想:“后继特征”,一种将环境动态与奖励分离的价值函数表示,以及“广义政策改进”,即动态规划的政策改进操作的概括,它考虑一组政策而不是单一政策。 。总而言之,这两个想法导致了一种方法,可以与强化学习框架无缝集成,并允许跨任务自由交换信息。即使在任何学习过程之前,所提出的方法也为转移的政策提供了保证。我们推导出两个定理,将我们的方法设置在坚实的理论基础和现有的实验中,表明它成功地促进了实践中的转移,在一系列导航任务中明显优于替代方法。并控制模拟机器人手臂。
translated by 谷歌翻译
序列到序列模型是NLP的强大主力。大多数变体在其注意机制和输出层中都采用softmax变换,导致密集对齐和严格正输出概率。这种密度是浪费的,使得模型可解释性较差,并为许多难以置信的输出分配概率质量。在本文中,我们提出了sparsese序列到序列模型,植根于$ \ alpha $ -entmaxtransformations的新系列,其中包括softmax和sparsemax作为特定情况,并且对于任何$ \ alpha> 1 $都是稀疏的。我们提供快速算法来评估这些变换及其渐变,这些算法可以很好地扩展到大型词汇表。我们的模型能够生成稀疏对齐并将非非可置性分配给可能输出的简短列表,有时会使波束搜索精确。形态学变形和机器平移的实验揭示了密集模型的一致增益。
translated by 谷歌翻译
目标识别是在给定一组目标假设,域模型和正在执行的计划的(可能是嘈杂的)样本的情况下推断出针对执行计划的正确目标的问题。这是合作和竞争性代理人互动中的关键问题,并且最近的方法产生了快速且准确的目标识别算法。在本文中,使用线性程序计算的算子计数启发式算法在经典规划问题的约束下计算,以解决目标识别问题。我们的方法使用从观察中导出的附加的算子计数约束来有效地推断出正确的目标,并且作为具有附加约束的许多其他方法的基础。
translated by 谷歌翻译
基于时间延迟的储层计算设置在实验和模拟方面取得了巨大成功。它允许构建只有很少组件的大型超晶形计算系统。然而,到目前为止,尚未对不同时间尺度的相互作用进行彻底调查。在本手稿中,我们研究了一般模型的时间延迟和时钟周期之间不匹配的影响。通常,这两个时间尺度被认为是相等的。在这里,我们表明等时间相关的时间延迟和时钟周期的情况可能是积极有害的,并导致储层的近似误差的增加。特别地,我们可以证明这些时间尺度的非共振比具有最大的记忆容量。我们通过将周期性驱动的延迟动力系统转换为等效网络来实现这一目标。从具有共振延迟时间和时钟周期的系统中产生的网络无法充分利用它们的所有自由度,这导致其性能的下降。
translated by 谷歌翻译
在多目标优化算法领域,除了进化的多目标优化算法(EMOA)之外,多目标贝叶斯全局优化(MOBGO)是一个重要的分支。 MOBGO利用从先前的目标函数评估中学习的高斯过程模型,通过最大化或最小化infillcriterion来确定下一个评估站点。 MOBGO的一个共同标准是预期的超级体积改进(EHVI),它在广泛的问题上表现出良好的性能,涉及勘探和开发。然而,到目前为止,有效地计算精确的EHVI值一直是一个挑战。在本文中,提出了一种用于计算一般情况的精确EHVI的有效算法。这种有效的算法基于将积分体积划分为一组轴平行切片。从理论上讲,上限时间复杂度从之前的$ O(n ^ 2)$和$ O(n ^ 3)$分别改为$ 2和$ 3目标问题$ $ Theta(n \ log n)$,是偶然的最佳。本文通过利用D {\“a} chert等人,EJOR,2017提出的新的超盒分解技术,在更高维的情况下概括了该方案。它还利用了多层集成方案的推广,该方案在多个集合方案中线性扩展。速度对比表明,本文提出的算法显着缩短了计算时间,最后将该分解技术应用于改进概率(PoI)的计算中。
translated by 谷歌翻译
对于我们提交到ZeroSpeech 2019挑战,我们将离散的变量神经网络应用于未标记的语音,并将发现的单元用于语音合成。无监督离散子字建模可用于婴儿语音类别学习的研究或需要符号输入的低资源语言技术。我们使用具有中间离散化的自动编码器(AE)架构。我们通过调整AE的解码器来训练扬声器身份,从而将声学单元发现与扬声器建模分离。在测试时,对来自未见扬声器的语音进行单元发现,然后以已知目标扬声器为条件进行单元解码,以获得重建的滤波器组。该输出被馈送到神经调节器以合成目标讲话者的语音中的语音。对于离散化,分类变量自动编码器(CatVAE),矢量量化VAE(VQ-VAE)和直通估计在两种语言的不同压缩级别进行比较。我们的最终模型使用卷积编码,VQ-VAE分散,反卷积解码和FFTNet声码器。我们表明,耦合扬声器调节本质上改善了离散声学表示,与挑战基线相比产生了竞争性合成质量。
translated by 谷歌翻译