跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
学习如何在每个状态中有许多可用操作时采取行动是强化学习(RL)代理的挑战性任务,尤其是当许多操作冗余或不相关时。在这种情况下,了解哪些行动不采取行动有时候会更加容易。在这项工作中,我们提出了动作消除深度Q网络(AE-DQN)架构,它结合了深度RL算法和消除子优化的动作消除网络(AEN)。训练AEN以预测无效动作,由环境提供的外部消除信号监督。模拟演示了相当大的加速,并增加了基于vanilla DQN intext的游戏的稳健性,并且有超过一千个离散动作。
translated by 谷歌翻译
Solving tasks in Reinforcement Learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in un-wanted behavior. While constraints may solve this issue, there is no closed form solution for general constraints. In this work, we present a novel multi-timescale approach for constrained policy optimization, called 'Re-ward Constrained Policy Optimization' (RCPO), which uses an alternative penalty signal to guide the policy towards a constraint satisfying one. We prove the convergence of our approach and provide empirical evidence of its ability to train constraint satisfying policies.
translated by 谷歌翻译
强大的强化学习旨在推导出能够解决动力系统中模型不确定性的最佳行为。然而,之前的研究表明,通过考虑最坏的情况,强有力的政策可能过于保守。我们的软性框架试图克服这个问题。在本文中,我们提出了一种新颖的Soft-Robust Actor-Critic算法(SR-AC)。它学习了关于不确定性集合的分布的最优策略,并且对模型不确定性保持稳健,但避免了稳健策略的保守性。我们展示了SR-AC的收敛性,并通过比较常规学习方法和强大的公式来测试我们的方法在不同领域的效率。
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
We propose a lifelong learning system that has the ability to reuse andtransfer knowledge from one task to another while efficiently retaining thepreviously learned knowledge-base. Knowledge is transferred by learningreusable skills to solve tasks in Minecraft, a popular video game which is anunsolved and high-dimensional lifelong learning problem. These reusable skills,which we refer to as Deep Skill Networks, are then incorporated into our novelHierarchical Deep Reinforcement Learning Network (H-DRLN) architecture usingtwo techniques: (1) a deep skill array and (2) skill distillation, our novelvariation of policy distillation (Rusu et. al. 2015) for learning skills. Skilldistillation enables the HDRLN to efficiently retain knowledge and thereforescale in lifelong learning, by accumulating knowledge and encapsulatingmultiple reusable skills into a single distilled network. The H-DRLN exhibitssuperior performance and lower learning sample complexity compared to theregular Deep Q Network (Mnih et. al. 2015) in sub-domains of Minecraft.
translated by 谷歌翻译
具有给定相对取向的一对二维硬质颗粒之间的排除区域是在另一个颗粒存在的情况下不能定位一个颗粒的区域。作为相对颗粒取向的函数的排除区域的大小在硬颗粒的体相行为的确定中起主要作用。我们使用主成分分析来识别不同类型的被排除的对应于随机生成的二维硬粒子,其被建模为非自相交多边形和星线(从共同起源辐射的线段)。只需要三个主要成分就可以很好地表示排除区域的值作为相对粒子方向的函数。独立于颗粒形状,当颗粒彼此平行时,总是实现排除区域的最小值。影响排除区域值最强的特性是粒子形状的伸长。主成分分析确定了在等间隔相对方向上具有一到四个全局最小值的排除区域的四种限制情况。我们使用蒙特卡罗模拟研究选定的粒子形状。
translated by 谷歌翻译
今天的机器人系统越来越多地转向计算上昂贵的模型,例如深度神经网络(DNN),用于定位,感知,计划和对象检测等任务。然而,资源受限的机器人,如低功率无人机,通常没有足够的机载计算资源或功率储备来可扩展地运行最准确的,最先进的网络计算模型。云机器人技术允许移动机器人将计算机卸载到集中式服务器,如果它们在本地不确定或想要运行更准确的计算密集型模型。然而,云机器人成为一个关键的,通常低估的成本:与云过度拥塞的无线网络通信可能导致延迟或数据丢失。实际上,通过拥塞网络从多个机器人发送高数据速率视频或LIDAR会导致实时应用程序的延迟过高,我们会通过实验测量。在本文中,我们制定了一个新的机器人卸载问题---机器人如何以及何时卸载传感任务,特别是如果它们不确定,在提高准确性的同时最大限度地降低云通信的成本?我们将卸载制定为机器人的顺序决策问题,并提出使用深度强化学习的解决方案。在使用最先进的视觉DNN的模拟和硬件实验中,我们的卸载策略将视觉任务性能提高了1.3-2.6倍的基准标记卸载策略,使机器人有可能显着超越其板载传感精度,但云通信成本有限。
translated by 谷歌翻译
分子设计的概率生成深度学习涉及新分子的发现和设计,并通过使用深度学习方法的概率生成模型分析它们的结构,性质和活性。它利用现有的大型数据库和实验结果的出版物以及量子力学计算来学习和探索分子结构,性质和活动。我们讨论了分子设计概率生成深度学习的主要组成部分,包括分子结构,分子表征,深度生成模型,分子潜在表征和潜在空间,分子结构 - 性质和结构 - 活性关系,分子相似性和分子设计。我们强调了最近使用或适用于这种新方法的重要工作。
translated by 谷歌翻译