利用数据增强进行神经网络训练的一个关键挑战是从候选操作的大型搜索空间中选择有效的增强策略。适当选择的增强政策可以带来显着的泛化改进;然而,对于普通用户来说,最先进的方法如AutoAugment在计算上是不可行的。在本文中,我们引入了一种新的数据增强算法,即基于种群的增强(PBA),它生成非平稳增强策略,而不是固定的增强策略。我们证明了PBA可以与CIFAR-10,CIFAR-100和SVHN上的AutoAugment的性能相匹配,总体计算量减少了三个数量级。在CIFAR-10上,我们实现了1.46%的平均测试误差,这是对当前最先进技术的一点点改进。 PBA的代码是开源的,可以通过以下网址获得://github.com/arcelien/pba。
translated by 谷歌翻译
规划机器人操作需要推断机器人可能对物体产生的影响。当这种交互可以分析模型化时,就像在具有刚性对象的域中一样,有效的规划算法也是如此。然而,在家庭和工业领域中,感兴趣的对象可以是柔软的或可变形的,并且难以分析地建模。对于这样的情况,我们认为数据驱动的建模方法更合适。近年来,深层生成模型的进步已经产生了一种方法,可以从数据中“想象”合理的图像。在最近的CausalInfoGAN生成模型的基础上,在这项工作中,我们学会直接从机器人与对象的自我监督交互的原始图像数据想象目标导向的对象操纵。在学习之后,给定系统的目标观察,我们的模型可以生成想象的计划 - 将对象转换为期望目标的一系列图像。为了执行计划,我们使用它作为参考轨迹来跟踪视觉伺服控制器,我们还从数据中学习了逆动力学模型。在模拟操作任务中,将问题分为可视化规划和视觉跟踪控制的weshow比替代数据驱动方法更具样本效率和解释性。我们进一步展示了我们在3个环境中学习想象和执行的方法,最后的是在PR2机器人上进行可变形绳索操作。
translated by 谷歌翻译
选择性估计长期以来用于密度估计的统计工具。为了捕获关系表的丰富多变量分布,我们建议使用一种新型的高容量统计模型:深度似然模型。然而,这些模型的直接应用导致有限的估计器,其对于范围和通配符谓词的评估来说过于昂贵。为了制作真正可用的估算器,我们在可能性模型之上开发了蒙特卡罗集成方案,该方案可以使用数十个或更多过滤器来有效地处理范围查询。像经典概要一样,我们的估算器在没有监督的情况下总结了数据。与以前的解决方案不同,我们的估算器近似于联合数据分布,没有任何独立性假设。当在真实世界数据集上进行评估并与实际系统和主要技术家族进行比较时,我们的基于似然模型的估计器在尾部实现了单位数乘法误差,比第二种最佳方法提高了40-200 $ \次精度,并且是空间和运行时间效率高达。
translated by 谷歌翻译
强化学习(RL)算法已经在复杂任务上展示了有希望的结果,但是通常需要不切实际的样本数量,因为它们从头开始学习。 Meta-RL旨在通过以前的任务中的经验来解决这一挑战,以便更快地解决新任务。然而,在实践中,这些算法在元培训过程中通常还需要大量的政策经验,这使得它们不适用于很多问题。为此,我们建议通过模仿解决以前看到的任务的专家政策来学习强化学习程序。这涉及嵌套优化,在内部循环中使用RL,在外部循环中使用监督模仿学习。由于外循环模仿学习可以通过非政策数据来完成,我们可以在元学习样本效率方面取得显着的进步。在本文中,我们展示了这种一般的想法可以用于元强化学习和从多任务演示数据学习快速RL程序。前者的结果是,在元培训期间,可以利用针对先前任务学习的策略而无需大量的政策数据,而在人员易于提供示范的情况下,这种方法特别有用。在许多连续控制meta-RL问题中,与先前的工作相比,我们证明了meta-RL样本效率的显着提高,以及通过视觉观察扩展到域的能力。
translated by 谷歌翻译
深度Q-Learning(DQL)是一组用于控制的时间差分算法,采用三种技术统称为“致命三元组”,用于强化学习:自举,离线学习和函数逼近。先前的工作已经证明,这些可以共同导致Q学习算法的发生,但是发生不同的条件并不是很清楚。在本文中,我们基于Q值更新的线性近似给出了一个简单的分析,我们认为这可以提供在致命三元组下的分歧。分析中的中心点是考虑何时逼近深Qupdate的前导顺序是否是支持范围内的收缩。基于此分析,我们开发了一种算法,该算法允许在没有任何常规使用的技巧(例如目标网络,自适应梯度优化器或使用多个Q函数)的情况下进行连续控制的稳定深度Q学习。我们证明了我们的算法在OpenAI Gym的标准MuJoCobenchmarks上执行了上述或接近最先进的算法。
translated by 谷歌翻译
强化学习(RL)代理仅优化向前函数中指定的特征,并且对无意中遗漏的任何内容无动于衷。这意味着我们不仅要指定要做什么,还要做更大的空间,不要做什么。很容易忘记这些偏好,因为这些偏好已经在我们的环境中得到满足。这激发了我们的关键点:当机器人部署在人类所处的环境中时,环境的状态已经针对人类的需求进行了优化。因此,我们可以使用来自州的隐含偏好信息来填补空白。我们开发了一种基于最大因果熵IRL的算法,并用于在一套概念验证环境中评估该想法,该环境旨在显示其属性。我们发现来自初始状态的信息可用于推断应避免的副作用以及如何组织环境的偏好。我们的代码可以在http://github.com/HumanCompatibleAI/rlsp找到。
translated by 谷歌翻译
强化学习算法通常需要数百万个环境交互才能在稀疏奖励设置中学习成功的策略。 HindsightExperience Replay(HER)作为一种技术被引入,通过重新设想不成功的轨迹作为成功的轨迹,通过取代原先预期的目标来提高样本效率。但是,此方法不适用于目标配置未知且必须从观察中推断的视域。在这项工作中,我们展示了如何使用在相对较少的目标快照上训练的生成模型来成功幻觉成功的视觉轨迹。据我们所知,这是第一项工作,代理政策仅以其国家为条件。 Wethen将此模型应用于离散和连续设置中的强化学习代理。我们在3D环境和模拟机器人应用程序中显示导航和拾取任务的结果。我们的方法显示了标准RL算法和从先前工作得到的基线的标记改进。
translated by 谷歌翻译
随着机器人和其他智能代理从简单的环境和问题转移到更复杂的非结构化设置,手动编程他们的行为变得越来越具有挑战性和昂贵。通常,教师更容易展示所需的行为,而不是尝试手动启动它。这种从示范中学习的过程,以及算法的研究,被称为模仿学习。这项工作提供了模仿学习的介绍。它涵盖了基本的假设,方法以及它们之间的关系;为解决问题而开发的丰富算法集;关于有效工具和实施的建议。我们打算将本文服务于两个受众。首先,我们希望机器学习专家能够熟悉模仿学习的挑战,尤其是机器人技术的挑战,以及它与更熟悉的框架(如统计监督学习理论和强化学习)之间有趣的理论和实践区别。其次,我们希望应用人工智能中的神经病学家和专家对模仿学习的框架和工具有广泛的了解。
translated by 谷歌翻译
我们为星际争霸II提供了一种新颖的模块化架构。架构在多个模块之间分配责任,每个模块控制游戏的一个方面,例如构建顺序选择或策略。集中式调度程序会查看所有模块建议的宏,并确定它们的执行顺序。更新程序会跟踪环境更改并实例化可执行操作的宏。该框架中的模块可以通过人工设计,规划或强化学习独立或联合进行优化。我们应用深度强化学习技术来训练模块化代理中的两个模块中的两个,并进行自我游戏,达到94%或87%的胜率。在Zerg vs. Zerg比赛中更加“(5级)内置暴雪机器人,有或没有战争迷雾。
translated by 谷歌翻译
我们考虑从执行任务的人的单个视频在真实机器人上学习基于多阶段视觉的任务的问题,同时利用子任务与其他对象的演示数据。这个问题带来了许多重大挑战。没有远程操作的视频演示很容易为人类提供,但不提供任何直接监督。来自原始像素的学习策略实现了完全的通用性,但需要学习具有许多参数的大型函数准直器。最后,当被视为单片技能时,复合任务可以获得不切实际的演示数据量。为了应对这些挑战,我们提出了一种方法,既可以学习视频演示中的原始行为,也可以通过“观察”人类演示者来动态组合这些行为以执行多阶段任务。我们在模拟Sawyer机器人和真实PR2机器人上的结果表明我们用新颖的物体和原始像素输入来学习各种订单履行和厨房保存任务的方法。
translated by 谷歌翻译