当机器人需要与脆弱对象交互时,或者机器人本身容易磨损时,机器人必须知道如何保持温和。我们提出了一种方法,使得深度强化学习能够在探索和任务执行期间训练正确的政策。在基于奖励的学习环境中,一种自然的方法涉及增加(任务)奖励的非温和性,这可以被定义为过度的冲击力。然而,只有这种惩罚的增加会损害学习:政策陷入局部最优避免与环境的所有接触。 Priorresearch已经表明,结合辅助任务或内在奖励可以有利于稳定和加速稀疏奖励领域的学习,实际上我们发现引入基于意外的内在奖励可以避免无接触失败案例。然而,我们表明基于简单动力学的惊喜并不像基于惩罚的意外那样有效。基于预测强有力的接触而基于罚款的惊喜还有一个好处:它鼓励探索,这种探索既富有联系又温和。我们使用具有触觉传感器的复杂的肌腱动力机器人手来证明该方法的有效性。视频可从http://sites.google.com/view/gentlemanipulation获取。
translated by 谷歌翻译
基于梯度的元学习技术在解决具有挑战性的小镜头学习和快速适应问题方面具有广泛的适用性和实用性。然而,当在极低数据体系中操作高维参数空间时,它们具有实际困难。我们表明,通过学习模型参数的数据依赖性潜在生成表示,并在这个低维潜在空间中进行基于梯度的学习,可以绕过这些限制。由此产生的方法,潜在嵌入优化(LEO),将基于梯度的自适应过程与模型参数的基础高维空间分离。 Ourevaluation表明,LEO可以在竞争性的miniImageNet和tieredImageNet轻量级分类任务上实现最先进的性能。进一步分析表明LEO能够捕获数据中的不确定性,并且可以通过在潜在空间中进行优化来更有效地执行自适应。
translated by 谷歌翻译
我们为连续学习领域引入了一个概念上简单且可扩展的框架,其中任务是按顺序学习的。我们的方法在参数数量上是恒定的,旨在保持以前遇到的任务的性能,同时加速后续问题的学习进度。这是通过训练具有两个组件的网络来实现的:能够解决先前遇到的问题的知识库,其连接到用于有效地学习当前任务的活动列。在学习新任务后,活动列被提炼到知识库中,注意保护以前获得的任何技能。这种主动学习(进展)循环然后进行整合(压缩)不需要架构增长,不需要访问或存储先前的数据或其他任何特定的参数。我们展示了手写字母顺序分类以及双向强化学习领域的进展和压缩方法:Atari游戏和3D迷宫导航。
translated by 谷歌翻译
Navigating through unstructured environments is a basic capability of intelligent creatures, and thus is of fundamental interest in the study and development of artificial intelligence. Long-range navigation is a complex cognitive task that relies on developing an internal representation of space, grounded by recognisable landmarks and robust visual processing, that can simultaneously support continuous self-localisation ("I am here") and a representation of the goal ("I am going there"). Building upon recent research that applies deep reinforcement learning to maze navigation problems, we present an end-to-end deep reinforcement learning approach that can be applied on a city scale. Recognising that successful navigation relies on integration of general policies with locale-specific knowledge, we propose a dual pathway architecture that allows locale-specific features to be encapsulated, while still enabling transfer to multiple cities. A key contribution of this paper is an interactive navigation environment that uses Google Street View for its photographic content and worldwide coverage. Our baselines demonstrate that deep reinforcement learning agents can learn to navigate in multiple cities and to traverse to target destinations that may be kilometres away. The project webpage http://streetlearn.cc contains a video summarizing our research and showing the trained agent in diverse city environments and on the transfer task, the form to request the StreetLearn dataset and links to further resources. The StreetLearn environment code is available at https://github.com/deepmind/streetlearn.
translated by 谷歌翻译
大多数深度强化学习算法在复杂和丰富的环境中数据效率低,限制了它们在许多场景中的适用性。用于提高数据效率的唯一方向是使用共享神经网络参数的多任务学习,其中可以通过跨交叉相关任务来提高效率。然而,在实践中,通常不会观察到这种情况,因为来自不同任务的渐变可能会产生负面干扰,导致学习不稳定,有时甚至会降低数据效率。另一个问题是任务之间的不同奖励方案,这很容易导致一个任务确定共享模型的学习。我们提出了一种新的联合训练方法,我们称之为Distral(Distill&transferlearning)。我们建议分享一个捕获常见行为的“蒸馏”策略,而不是在不同的工作者之间共享参数。每个工人都经过培训,可以解决自己的任务,同时受限于保持对共享政策的控制,而共享政策则通过蒸馏培训成为所有任务政策的质心。学习过程的两个方面都是通过优化联合目标函数得出的。我们表明,我们的方法支持在复杂的3D环境中进行有效传输,优于多个相关方法。此外,所提出的学习过程更加健壮且更加稳定 - 这些属性在深层强化学习中至关重要。
translated by 谷歌翻译
以顺序方式学习任务的能力对于人工智能的发展至关重要。一般而言,神经网络不具备此功能,并且人们普遍认为灾难性遗忘是连接模型的必然特征。我们表明,有可能克服这种限制并培养能够保持他们长期没有经历过的专业知识的网络。我们的方法通过有选择地减慢重量重要任务的权重学习来记住任务。我们通过基于MNIST手写数字数据集解决一组分类任务并依次学习几个Atari 2600游戏,证明我们的方法是可扩展和有效的。
translated by 谷歌翻译
Learning to navigate in complex environments with dynamic elements is animportant milestone in developing AI agents. In this work we formulate thenavigation question as a reinforcement learning problem and show that dataefficiency and task performance can be dramatically improved by relying onadditional auxiliary tasks leveraging multimodal sensory inputs. In particularwe consider jointly learning the goal-driven reinforcement learning problemwith auxiliary depth prediction and loop closure classification tasks. Thisapproach can learn to navigate from raw sensory input in complicated 3D mazes,approaching human-level performance even under conditions where the goallocation changes frequently. We provide detailed analysis of the agentbehaviour, its ability to localise, and its network activity dynamics, showingthat the agent implicitly learns key navigation abilities.
translated by 谷歌翻译