本文通过提出生成性对抗性自我模仿学习(GASIL)来探索强化学习的简单正则化,鼓励学习者通过生成对抗模仿学习框架来模仿过去的良好轨迹。 GASIL不是直接最大化投资,而是专注于复制过去的良好轨迹,当奖励稀疏和延迟时,这可能会使长期信贷分配更容易。通过使用GASIL作为学习形状的奖励函数,GASIL可以轻松地与任何政策梯度目标相结合。我们的实验结果表明,GASIL提高了具有延迟奖励和随机动态的2D PointMass和MuJoCo环境下近端策略优化的性能。
translated by 谷歌翻译
We introduce a new RL problem where the agent is required to generalize to apreviously-unseen environment characterized by a subtask graph which describesa set of subtasks and their dependencies. Unlike existing hierarchicalmultitask RL approaches that explicitly describe what the agent should do at ahigh level, our problem only describes properties of subtasks and relationshipsamong them, which requires the agent to perform complex reasoning to find theoptimal subtask to execute. To solve this problem, we propose a neural subtaskgraph solver (NSGS) which encodes the subtask graph using a recursive neuralnetwork embedding. To overcome the difficulty of training, we propose a novelnon-parametric gradient-based policy, graph reward propagation, to pre-trainour NSGS agent and further finetune it through actor-critic method. Theexperimental results on two 2D visual domains show that our agent can performcomplex reasoning to find a near-optimal way of executing the subtask graph andgeneralize well to the unseen subtask graphs. In addition, we compare our agentwith a Monte-Carlo tree search (MCTS) method showing that our method is muchmore efficient than MCTS, and the performance of NSGS can be further improvedby combining it with MCTS.
translated by 谷歌翻译
所有目标更新利用Q学习的非政策性质来更新代理人可能从世界上每次转变中获得的所有可能目标,并被Kaelbling(1993)引入强化学习(RL)。在以前的工作中,这主要是在小状态RL问题中进行探讨,这些问题允许表格表示,并且所有可能的目标都可以明确地列举和分开学习。在本文中,我们通过实验探索了在具有深度神经网络(或简称DeepRL)的RL环境中更新许多(而不是所有)目标的3种不同扩展。首先,在直接调整凯尔宾的方法时,我们探索是否可以使用多目标更新来实现非表格视觉观察领域的制作。其次,我们探讨是否可以使用多目标更新来预先训练网络,以便随后学习更快,更好地处理一个感兴趣的单个主要任务。第三,我们探讨是否可以使用多目标更新来提供辅助任务更新,以便在一个感兴趣的单个主要任务中更快更好地学习网络。我们提供了与3个扩展中的每个扩展的基线的比较。
translated by 谷歌翻译
本文提出了自我模仿学习(SIL),这是一种简单的非政策因素评判算法,可以学习如何重现代理人过去的良好决策。该算法旨在验证我们的假设,即利用丰富的经验可以间接推动深度探索。我们的实证结果表明,SIL在几个艰难的探索Atari游戏中显着提高了演员评论(A2C)的优势,并且与最先进的基于数量的探索方法相比具有竞争力。我们还表明SIL改进了MuJoCo任务的近端策略优化(PPO)。
translated by 谷歌翻译
在许多顺序决策制定任务中,设计奖励功能是有挑战性的,这有助于RL代理有效地学习代理设计者认为良好的行为。在文献中已经提出了许多不同的向外设计问题的公式或其近似变体。在本文中,我们建立了Singhet.al的最佳奖励框架。将最优内在奖励函数定义为当RL代理使用时实现优化任务指定的内部奖励函数的行为。此框架中的先前工作已经显示了如何为基于前瞻性搜索的规划者学习良好的内在奖励功能。是否有可能学习学习者的内在奖励功能仍然是一个悬而未决的问题。在本文中,我们推导出一种新的算法,用于学习基于策略梯度的学习代理的内在奖励。我们将使用我们的算法的增强代理的性能与基于A2C的策略学习器(针对Atarigames)和基于PPO的策略学习器(针对Mujoco域)提供额外的内在奖励,其中基线代理使用相同的策略学习者但仅使用外在奖励。我们的结果显示大多数但不是所有领域的性能都有所提高。
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
本文提出了一种新的深度强化学习(RL)架构,称为价值预测网络(VPN),它将无模型和基于模型的RL方法集成到单个神经网络中。与典型的基于模型的RL方法相比,VPN学习动态模型,其抽象状态被训练以对未来值(折扣的奖励总和)而不是未来的观察进行选项条件预测。我们的实验结果表明,在需要仔细规划但建立准确的观测预测模型的随机环境中,VPN比无模型和基于模型的基线具有几个优点。此外,VPN在几个Atari游戏中执行深度Q网络(DQN),即使是短期前瞻计划,也证明了它作为学习良好状态表示的新方式的潜力。
translated by 谷歌翻译
In this paper, we introduce a new set of reinforcement learning (RL) tasks inMinecraft (a flexible 3D world). We then use these tasks to systematicallycompare and contrast existing deep reinforcement learning (DRL) architectureswith our new memory-based DRL architectures. These tasks are designed toemphasize, in a controllable manner, issues that pose challenges for RL methodsincluding partial observability (due to first-person visual observations),delayed rewards, high-dimensional visual observations, and the need to useactive perception in a correct manner so as to perform well in the tasks. Whilethese tasks are conceptually simple to describe, by virtue of having all ofthese challenges simultaneously they are difficult for current DRLarchitectures. Additionally, we evaluate the generalization performance of thearchitectures on environments not used during training. The experimentalresults show that our new architectures generalize to unseen environmentsbetter than existing DRL architectures.
translated by 谷歌翻译
We propose a novel weakly-supervised semantic segmentation algorithm based onDeep Convolutional Neural Network (DCNN). Contrary to existingweakly-supervised approaches, our algorithm exploits auxiliary segmentationannotations available for different categories to guide segmentations on imageswith only image-level class labels. To make the segmentation knowledgetransferrable across categories, we design a decoupled encoder-decoderarchitecture with attention model. In this architecture, the model generatesspatial highlights of each category presented in an image using an attentionmodel, and subsequently generates foreground segmentation for each highlightedregion using decoder. Combining attention model, we show that the decodertrained with segmentation annotations in different categories can boost theperformance of weakly-supervised semantic segmentation. The proposed algorithmdemonstrates substantially improved performance compared to thestate-of-the-art weakly-supervised techniques in challenging PASCAL VOC 2012dataset when our model is trained with the annotations in 60 exclusivecategories in Microsoft COCO dataset.
translated by 谷歌翻译
已经提出了区域辍学策略来增强卷积神经网络分类器的性能。事实证明,它们可以有效地指导模型参与对象的较少辨别部分(例如,与人的头部相对应的腿),从而使网络更好地概括并具有更好的对象定位能力。另一方面,当前用于区域性丢失的方法通过覆盖黑色像素或随机噪声的斑块来移除训练图像上的信息像素。 {这种移除是不可取的,因为它会导致信息丢失和训练期间的低效率。}因此,我们提出了CutMix增强策略:在训练图像之间切割和粘贴补丁,其中地面实况标签与补丁区域成比例地混合。通过有效利用训练像素和\ mbox {保持}区域放弃的正规化效果,CutMix始终优于CIFAR和ImageNet分类任务以及ImageNet弱监督本地化任务的最新增强策略。此外,与先前的增强方法不同,我们的CutMix训练的ImageNet分类器在用作预训练模型时,可以在Pascal检测和MS-COCO图像字幕基准测试中获得一致的性能提升。我们还展示了CutMix改进了针对输入损坏及其分布式检测性能的模型稳健性。
translated by 谷歌翻译