在许多领域,包括强化学习和控制在内的许多领域,从一系列高维观测中学习或识别动力学是一个困难的挑战。最近通过潜在动力学从生成的角度研究了这个问题:将高维观测结果嵌入到较低维的空间中,可以在其中学习动力学。尽管取得了一些成功,但尚未将潜在动力学模型应用于现实世界的机器人系统,在这些机器人系统中,学习的表示形式必须适合各种感知混杂和噪声源。在本文中,我们提出了一种共同学习潜在状态表示的方法以及在感知困难条件下的长期计划和闭环控制的相关动力。作为我们的主要贡献,我们描述了我们的表示如何能够通过检测新颖或分布(OOD)输入来捕获测试时间的异质或输入特异性不确定性的概念。我们介绍了有关两个基于图像的任务的预测和控制实验的结果:一个模拟的摆平衡任务和实现任务的现实世界机器人操纵器。我们证明,与仅在不同程度的输入降解的情况下,我们的模型可产生更准确的预测,并表现出改善的控制性能。
translated by 谷歌翻译
We introduce Embed to Control (E2C), a method for model learning and control of non-linear dynamical systems from raw pixel images. E2C consists of a deep generative model, belonging to the family of variational autoencoders, that learns to generate image trajectories from a latent space in which the dynamics is constrained to be locally linear. Our model is derived directly from an optimal control formulation in latent space, supports long-term prediction of image sequences and exhibits strong performance on a variety of complex control problems.
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
我们引入了变分状态空间过滤器(VSSF),这是从原始像素的无监督学习,识别和过滤潜伏的Larkov状态空间模型的新方法。在异构传感器配置下,我们为潜在的状态空间推断提出了理论上的声音框架。得到的模型可以集成训练期间使用的传感器测量的任意子集,从而实现半监督状态表示的学习,从而强制执行学习潜在状态空间的某些组件来达成可解释的测量。从此框架中,我们派生了L-VSSF,这是一个用线性潜在动态和高斯分布参数化的本模型的明确实例化。我们通过实验演示了L-VSSF在几个不同的测试环境中过滤超出训练数据集的序列长度的潜伏空间的能力。
translated by 谷歌翻译
Planning has been very successful for control tasks with known environment dynamics. To leverage planning in unknown environments, the agent needs to learn the dynamics from interactions with the world. However, learning dynamics models that are accurate enough for planning has been a long-standing challenge, especially in image-based domains. We propose the Deep Planning Network (PlaNet), a purely model-based agent that learns the environment dynamics from images and chooses actions through fast online planning in latent space. To achieve high performance, the dynamics model must accurately predict the rewards ahead for multiple time steps. We approach this using a latent dynamics model with both deterministic and stochastic transition components. Moreover, we propose a multi-step variational inference objective that we name latent overshooting. Using only pixel observations, our agent solves continuous control tasks with contact dynamics, partial observability, and sparse rewards, which exceed the difficulty of tasks that were previously solved by planning with learned models. PlaNet uses substantially fewer episodes and reaches final performance close to and sometimes higher than strong model-free algorithms.
translated by 谷歌翻译
最近,许多作品探索了SIM到真实传递的可传递视觉模型预测性控制(MPC)。但是,这样的作品仅限于一次性转移,必须收集一次现实世界的数据才能执行SIM到实现的传输,这仍然是一项重大的人类努力,在将模拟中学到的模型转移到真实的新域中所学的模型世界。为了减轻这个问题,我们首先提出了一个新型的模型学习框架,称为Kalman随机到典型模型(KRC模型)。该框架能够从随机图像中提取与任务相关的内在特征及其动力学。然后,我们建议使用KRC模型的Kalman随机到典型模型预测控制(KRC-MPC)作为零射击的SIM到真实转移视觉MPC。通过仿真和现实世界中的机器人手和模拟中的块配合任务,通过机器人手通过机器人手来评估我们方法的有效性。实验结果表明,KRC-MPC可以以零拍的方式应用于各种真实域和任务。
translated by 谷歌翻译
复发状态空间模型(RSSM)是时间序列数据和系统标识中学习模式的高度表达模型。但是,这些模型假定动力学是固定和不变的,在现实世界中,这种动力学很少发生。许多控制应用程序通常表现出具有相似但不相同动力学的任务,这些任务可以建模为潜在变量。我们介绍了隐藏的参数复发状态空间模型(HIP-RSSM),该框架为具有低维的潜在因素集的相关动态系统的家庭参数。我们提出了一种对这种高斯图形模型的学习和执行推理的简单有效方法,该模型避免了诸如变异推理之类的近似值。我们表明,HIP-RSSM在现实世界系统和仿真上的几个挑战性机器人基准上都优于RSSM和竞争性的多任务模型。
translated by 谷歌翻译
适应外部和内部变化是不确定环境中机器人系统的专业。在这里,我们提出了一种用于工业武器的新型多思科有源推理扭矩控制器,其显示如何使用预测来解决适应性。我们的控制器灵感来自预测性大脑假设,通过在简化架构的同时结合高速和高维传感器输入(例如,原始图像)的学习和多模式集成来提高当前有源推断方法的能力。我们通过将其与先前的有源推理基准和经典控制器进行比较,对我们的行为进行比较,对我们的行为进行了比较了定性和定量适应能力和控制精度,对我们的行为进行了系统评估。结果表明,由于多模式滤波,具有高噪声抑制的目标导向的控制精度提高,并且对动态惯性变化,弹性约束和人类干扰的适应性而无需释放模型,也不需要参数重新定量。
translated by 谷歌翻译
这篇综述解决了在深度强化学习(DRL)背景下学习测量数据的抽象表示的问题。尽管数据通常是模棱两可,高维且复杂的解释,但许多动态系统可以通过一组低维状态变量有效地描述。从数据中发现这些状态变量是提高数据效率,稳健性和DRL方法的概括,应对维度的诅咒以及将可解释性和见解带入Black-Box DRL的关键方面。这篇综述通过描述用于学习世界的学习代表的主要深度学习工具,提供对方法和原则的系统观点,总结应用程序,基准和评估策略,并讨论开放的方式,从而提供了DRL中无监督的代表性学习的全面概述,挑战和未来的方向。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
For an autonomous agent to fulfill a wide range of user-specified goals at test time, it must be able to learn broadly applicable and general-purpose skill repertoires. Furthermore, to provide the requisite level of generality, these skills must handle raw sensory input such as images. In this paper, we propose an algorithm that acquires such general-purpose skills by combining unsupervised representation learning and reinforcement learning of goal-conditioned policies. Since the particular goals that might be required at test-time are not known in advance, the agent performs a self-supervised "practice" phase where it imagines goals and attempts to achieve them. We learn a visual representation with three distinct purposes: sampling goals for self-supervised practice, providing a structured transformation of raw sensory inputs, and computing a reward signal for goal reaching. We also propose a retroactive goal relabeling scheme to further improve the sample-efficiency of our method. Our off-policy algorithm is efficient enough to learn policies that operate on raw image observations and goals for a real-world robotic system, and substantially outperforms prior techniques. * Equal contribution. Order was determined by coin flip.
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
准确的动力学模型在许多机器人技术应用程序(例如越野导航和高速驾驶)中起着至关重要的作用。然而,学习随机运动动力学模型的许多最先进的方法需要对机器人状态作为标记的输入/输出示例进行精确测量,由于传感器功能有限,并且缺乏地面真相,在室外设置中可能很难获得。 。在这项工作中,我们提出了一种新技术,用于通过执行同时进行状态估计和动力学学习,从嘈杂和间接观察中学习神经随机的动力学模型。所提出的技术迭代地改善了预期最大化环路中的动力学模型,其中E步骤采样了使用粒子过滤的后状态轨迹,并且M步骤更新动力学,以使通过随机梯度上升的采样轨迹更加一致。我们在模拟和实际基准测试中评估了我们的方法,并将其与几种基线技术进行比较。我们的方法不仅达到了更高的精度,而且对观察噪声也更加强大,从而显示出有望提高许多其他机器人应用的性能。
translated by 谷歌翻译
深度学习的兴起导致机器人研究中的范式转变,有利于需要大量数据的方法。在物理平台上生成这样的数据集是昂贵的。因此,最先进的方法在模拟中学习,其中数据生成快速以及廉价并随后将知识转移到真实机器人(SIM-to-Real)。尽管变得越来越真实,但所有模拟器都是基于模型的施工,因此不可避免地不完善。这提出了如何修改模拟器以促进学习机器人控制政策的问题,并克服模拟与现实之间的不匹配,通常称为“现实差距”。我们对机器人学的SIM-Teal研究提供了全面的审查,专注于名为“域随机化”的技术,这是一种从随机仿真学习的方法。
translated by 谷歌翻译
基于近似基础的Koopman操作员或发电机的数据驱动的非线性动力系统模型已被证明是预测,功能学习,状态估计和控制的成功工具。众所周知,用于控制膜系统的Koopman发电机还对输入具有仿射依赖性,从而导致动力学的方便有限维双线性近似。然而,仍然存在两个主要障碍,限制了当前方法的范围,以逼近系统的koopman发电机。首先,现有方法的性能在很大程度上取决于要近似Koopman Generator的基础函数的选择;目前,目前尚无通用方法来为无法衡量保存的系统选择它们。其次,如果我们不观察到完整的状态,我们可能无法访问足够丰富的此类功能来描述动态。这是因为在有驱动时,通常使用时间延迟的可观察物的方法失败。为了解决这些问题,我们将Koopman Generator控制的可观察到的动力学写为双线性隐藏Markov模型,并使用预期最大化(EM)算法确定模型参数。 E-Step涉及标准的Kalman滤波器和更光滑,而M-Step类似于发电机的控制效果模式分解。我们在三个示例上证明了该方法的性能,包括恢复有限的Koopman-Invariant子空间,用于具有缓慢歧管的驱动系统;估计非强制性行驶方程的Koopman本征函数;仅基于提升和阻力的嘈杂观察,对流体弹球系统的模型预测控制。
translated by 谷歌翻译
我们为具有高维状态空间的复杂操纵任务的视觉动作计划提供了一个框架,重点是操纵可变形物体。我们为任务计划提出了一个潜在的空间路线图(LSR),这是一个基于图的结构,在全球范围内捕获了低维潜在空间中的系统动力学。我们的框架由三个部分组成:(1)映射模块(mm),该模块以图像的形式映射观测值,以提取各个状态的结构化潜在空间,并从潜在状态产生观测值,(2)LSR,LSR的LSR构建并连接包含相似状态的群集,以找到MM提取的开始和目标状态之间的潜在计划,以及(3)与LSR相应的潜在计划与相应的操作相辅相成的动作提案模块。我们对模拟的盒子堆叠和绳索/盒子操纵任务进行了彻底的调查,以及在真实机器人上执行的折叠任务。
translated by 谷歌翻译
预测驾驶行为或其他传感器测量是自主驱动系统的基本组成部分。通常是现实世界多变量序列数据难以模拟,因为潜在的动态是非线性的,并且观察是嘈杂的。此外,驾驶数据通常可以在分布中多传,这意味着存在不同的预测,但平均可能会损害模型性能。为解决此问题,我们提出了对非线性和多模态时间序列数据的有效推理和预测的转换复发性卡尔曼网络(SRKN)。该模型在几个卡尔曼滤波器之间切换,该滤波器以分解潜在状态模拟动态的不同方面。我们经验测试了在玩具数据集上产生的可扩展和可解释的深度状态空间模型,并在波尔图中的出租车实际驾驶数据。在所有情况下,该模型可以捕获数据中动态的多模式性质。
translated by 谷歌翻译
有效的探索仍然是强化学习中有挑战性的问题,特别是对于来自环境的外在奖励稀疏甚至完全忽视的任务。基于内在动机的重要进展显示了在简单环境中的有希望的结果,但通常会在具有多式联运和随机动力学的环境中陷入困境。在这项工作中,我们提出了一种基于条件变分推理的变分动力模型来模拟多模和随机性。通过在当前状态,动作和潜在变量的条件下产生下一个状态预测,我们考虑作为条件生成过程的环境状态动作转换,这提供了更好地了解动态并在勘探中引发更好的性能。我们派生了环境过渡的负面日志可能性的上限,并使用这样一个上限作为勘探的内在奖励,这使得代理通过自我监督的探索来学习技能,而无需观察外在奖励。我们在基于图像的仿真任务和真正的机器人操纵任务中评估所提出的方法。我们的方法优于若干基于最先进的环境模型的勘探方法。
translated by 谷歌翻译