跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
Solving tasks in Reinforcement Learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in un-wanted behavior. While constraints may solve this issue, there is no closed form solution for general constraints. In this work, we present a novel multi-timescale approach for constrained policy optimization, called 'Re-ward Constrained Policy Optimization' (RCPO), which uses an alternative penalty signal to guide the policy towards a constraint satisfying one. We prove the convergence of our approach and provide empirical evidence of its ability to train constraint satisfying policies.
translated by 谷歌翻译
强大的强化学习旨在推导出能够解决动力系统中模型不确定性的最佳行为。然而,之前的研究表明,通过考虑最坏的情况,强有力的政策可能过于保守。我们的软性框架试图克服这个问题。在本文中,我们提出了一种新颖的Soft-Robust Actor-Critic算法(SR-AC)。它学习了关于不确定性集合的分布的最优策略,并且对模型不确定性保持稳健,但避免了稳健策略的保守性。我们展示了SR-AC的收敛性,并通过比较常规学习方法和强大的公式来测试我们的方法在不同领域的效率。
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
We propose a lifelong learning system that has the ability to reuse andtransfer knowledge from one task to another while efficiently retaining thepreviously learned knowledge-base. Knowledge is transferred by learningreusable skills to solve tasks in Minecraft, a popular video game which is anunsolved and high-dimensional lifelong learning problem. These reusable skills,which we refer to as Deep Skill Networks, are then incorporated into our novelHierarchical Deep Reinforcement Learning Network (H-DRLN) architecture usingtwo techniques: (1) a deep skill array and (2) skill distillation, our novelvariation of policy distillation (Rusu et. al. 2015) for learning skills. Skilldistillation enables the HDRLN to efficiently retain knowledge and thereforescale in lifelong learning, by accumulating knowledge and encapsulatingmultiple reusable skills into a single distilled network. The H-DRLN exhibitssuperior performance and lower learning sample complexity compared to theregular Deep Q Network (Mnih et. al. 2015) in sub-domains of Minecraft.
translated by 谷歌翻译
复杂词识别(CWI)的任务是识别目标受众难以理解的句子中的哪些词语。最近的CWI共享任务发布了两种设置的数据:单语(即同一语言的训练和测试)和跨语言(即用训练期间未看到的语言进行测试)。最好的单语模型依赖于语言依赖的特征,这些特征在交叉语言环境中并不一致,而最佳的语言模型则使用具有多任务学习的神经网络。在本文中,我们提出了单语和跨语言CWI模型,这些模型的表现与提交给最新CWI共享任务的大多数模型相同(或更好)。通过精心挑选的功能和简单的学习模型,可以实现最先进的性能,并为该领域的未来发展奠定坚实的基础。最后,我们讨论了数据注释中的不一致性如何解释所获得的一些结果。
translated by 谷歌翻译
来自多个来源的汇集成像数据受到资源之间的变化的影响。随着成像研究的大小增加并且多站点情况变得更加普遍,纠正这些偏差变得非常重要。我们建议学习一种不依赖于站点/协议变量的中间表示,这是一种改编自基于信息论的算法公平性的技术;通过利用数据处理不等式,这样的表示然后可以用于创建图像重建,该图像重建不是其原始源的信息,但仍然忠实于底层结构。为了实现这一点,我们使用基于变分自动编码器(VAE)的机器学习方法来构建成像数据的扫描仪不变编码。为了评估我们的方法,我们使用了2018年CDMRI Challenge Harmonizationdataset的培训数据。我们提出的方法显示了对最近发布的基线方法的独立测试数据的改进。
translated by 谷歌翻译
近年来,异构系统在HPC系统中变得越来越普遍,TOP500中的100多台超级计算机采用了GPU或其他加速器。这些硬件平台具有不同的性能特征和优化要求。为了充分利用多个加速器,开发人员必须提供针对每个设备调整的算法的实现。硬件供应商提供专门针对其设备的库,这些库提供了良好的性能,但经常具有不同的API设计,从而妨碍了可移植性。 SYCL编程模型允许用户使用完全标准的C ++编写异构程序,因此开发人员在开发计算内核时可以访问C ++模板的强大功能。在本文中,我们展示了为矩阵乘法和卷积提取高度参数化的内核,使得性能与不同体系结构中的供应商实现相竞争。此外,调整新设备相当于选择在硬件上性能最佳的内核参数的组合。
translated by 谷歌翻译
传统上,信号分类是需要先前的信号知识的过程。人类专家决定从信号中提取哪些特征,并用作分类系统的输入。这种要求可以使专家错过信号的重要未知信息,而不包括在特征中。本文提出了一种新的方法,可以自动分析信号并提取特征而无需任何人参与。因此,不需要关于要分类的信号的先前知识。所提出的方法基于遗传编程,并且为了测试该方法,它已经应用于与癫痫有关的众所周知的EEG数据库,癫痫是数百万人遭受的疾病。如结果部分所示,获得了高分类精度
translated by 谷歌翻译