强化学习(RL)已经证明了其在一系列人工领域中的价值,并开始在现实世界的情景中显示出一些成功。然而,RL的许多研究进展通常难以在现实世界系统中利用,因为一系列在实践中很少满足的假设。我们提出了一系列九个独特的挑战,必须解决这个问题,将RL产生于现实世界的问题。对于这些挑战中的每一个,都要确定挑战的确切含义,从文献中提出一些方法,并指定一些评估该挑战的指标。解决所有九项挑战的方法将适用于大量现实世界的问题。我们还提供了一个经过修改的示例域,将这些挑战作为实际RL研究的测试平台。
translated by 谷歌翻译
跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
Solving tasks in Reinforcement Learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in un-wanted behavior. While constraints may solve this issue, there is no closed form solution for general constraints. In this work, we present a novel multi-timescale approach for constrained policy optimization, called 'Re-ward Constrained Policy Optimization' (RCPO), which uses an alternative penalty signal to guide the policy towards a constraint satisfying one. We prove the convergence of our approach and provide empirical evidence of its ability to train constraint satisfying policies.
translated by 谷歌翻译
强大的强化学习旨在推导出能够解决动力系统中模型不确定性的最佳行为。然而,之前的研究表明,通过考虑最坏的情况,强有力的政策可能过于保守。我们的软性框架试图克服这个问题。在本文中,我们提出了一种新颖的Soft-Robust Actor-Critic算法(SR-AC)。它学习了关于不确定性集合的分布的最优策略,并且对模型不确定性保持稳健,但避免了稳健策略的保守性。我们展示了SR-AC的收敛性,并通过比较常规学习方法和强大的公式来测试我们的方法在不同领域的效率。
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
We propose a lifelong learning system that has the ability to reuse andtransfer knowledge from one task to another while efficiently retaining thepreviously learned knowledge-base. Knowledge is transferred by learningreusable skills to solve tasks in Minecraft, a popular video game which is anunsolved and high-dimensional lifelong learning problem. These reusable skills,which we refer to as Deep Skill Networks, are then incorporated into our novelHierarchical Deep Reinforcement Learning Network (H-DRLN) architecture usingtwo techniques: (1) a deep skill array and (2) skill distillation, our novelvariation of policy distillation (Rusu et. al. 2015) for learning skills. Skilldistillation enables the HDRLN to efficiently retain knowledge and thereforescale in lifelong learning, by accumulating knowledge and encapsulatingmultiple reusable skills into a single distilled network. The H-DRLN exhibitssuperior performance and lower learning sample complexity compared to theregular Deep Q Network (Mnih et. al. 2015) in sub-domains of Minecraft.
translated by 谷歌翻译
策略梯度方法是强大的强化学习算法,并且已被证明可以解决许多复杂的任务。然而,这些方法也是数据无效的,受到高方差梯度估计的影响,并且经常陷入局部最优。这项工作通过将最近改进的非政策数据的重用和参数空间的探索与确定性行为政策相结合来解决这些弱点。由此产生的目标适用于标准的神经网络优化策略,如随机梯度下降或随机梯度哈密顿蒙特卡罗。通过重要性抽样对以前的推出进行大量提高数据效率,而随机优化方案有助于逃避局部最优。我们评估了一系列连续控制基准测试任务的建议方法。结果表明,该算法能够使用比标准策略梯度方法更少的系统交互成功可靠地学习解决方案。
translated by 谷歌翻译
互联网的非索引部分(Darknet)已成为合法和非法匿名活动的避风港。鉴于这些网络的规模,可靠地监控其活动必然依赖于自动工具,尤其是NLP工具。然而,人们对通过Darknet传达的特征文本以及这个领域的NLP工具如何做得很少知之甚少。本文解决了这一差距,并对暗网中合法和非法文本的特征进行了深入调查,并将其与具有类似内容的清晰网站进行比较,作为控制条件。以药物相关网站为测试案例,我们发现销售合法和非法药物的文本具有多种语言特征,可以区分彼此,以及控制条件,其中包括POS标签的分布,以及其命名实体的覆盖范围。在维基百科。
translated by 谷歌翻译
利用数据增强进行神经网络训练的一个关键挑战是从候选操作的大型搜索空间中选择有效的增强策略。适当选择的增强政策可以带来显着的泛化改进;然而,对于普通用户来说,最先进的方法如AutoAugment在计算上是不可行的。在本文中,我们引入了一种新的数据增强算法,即基于种群的增强(PBA),它生成非平稳增强策略,而不是固定的增强策略。我们证明了PBA可以与CIFAR-10,CIFAR-100和SVHN上的AutoAugment的性能相匹配,总体计算量减少了三个数量级。在CIFAR-10上,我们实现了1.46%的平均测试误差,这是对当前最先进技术的一点点改进。 PBA的代码是开源的,可以通过以下网址获得://github.com/arcelien/pba。
translated by 谷歌翻译