用域随机化的深度强化学习在各种模拟中以随机物理和传感器模型参数学习了控制策略,以在零照片的环境中转移到现实世界。但是,由于策略更新的不稳定,当随机参数的范围广泛时,通常需要大量样本来学习有效的政策。为了减轻此问题,我们提出了一种名为环状策略蒸馏(CPD)的样品效率方法。 CPD将随机参数的范围分为几个小子域,并为每个子域分配局部策略。然后,在{\ it循环}将目标子域转变为相邻子域并使用单调策略改善方案来利用邻居子域的学习值/策略时,进行了本地策略的学习。最后,所有博学的本地政策都被蒸馏到SIM到现实转移的全球政策中。 CPD的有效性和样品效率通过四个任务(来自Mujoco的Openaigym和Pusher,游泳者和HalfCheetah的钟形)的模拟来证明,以及一项现实机器人球派遣任务。
translated by 谷歌翻译
采用合理的策略是具有挑战性的,但对于智能代理商的智能代理人至关重要,其资源有限,在危险,非结构化和动态环境中工作,以改善系统实用性,降低整体成本并增加任务成功概率。深度强化学习(DRL)帮助组织代理的行为和基于其状态的行为,并代表复杂的策略(行动的组成)。本文提出了一种基于贝叶斯链条的新型分层策略分解方法,将复杂的政策分为几个简单的子手段,并将其作为贝叶斯战略网络(BSN)组织。我们将这种方法整合到最先进的DRL方法中,软演奏者 - 批评者(SAC),并通过组织几个子主管作为联合政策来构建相应的贝叶斯软演奏者(BSAC)模型。我们将建议的BSAC方法与标准连续控制基准(Hopper-V2,Walker2D-V2和Humanoid-V2)在SAC和其他最先进的方法(例如TD3,DDPG和PPO)中进行比较 - Mujoco与Openai健身房环境。结果表明,BSAC方法的有希望的潜力可显着提高训练效率。可以从https://github.com/herolab-uga/bsac访问BSAC的开源代码。
translated by 谷歌翻译
In the field of reinforcement learning, because of the high cost and risk of policy training in the real world, policies are trained in a simulation environment and transferred to the corresponding real-world environment. However, the simulation environment does not perfectly mimic the real-world environment, lead to model misspecification. Multiple studies report significant deterioration of policy performance in a real-world environment. In this study, we focus on scenarios involving a simulation environment with uncertainty parameters and the set of their possible values, called the uncertainty parameter set. The aim is to optimize the worst-case performance on the uncertainty parameter set to guarantee the performance in the corresponding real-world environment. To obtain a policy for the optimization, we propose an off-policy actor-critic approach called the Max-Min Twin Delayed Deep Deterministic Policy Gradient algorithm (M2TD3), which solves a max-min optimization problem using a simultaneous gradient ascent descent approach. Experiments in multi-joint dynamics with contact (MuJoCo) environments show that the proposed method exhibited a worst-case performance superior to several baseline approaches.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
在本文中,我们提出了一种用于增强学习(RL)的最大熵框架,以克服在无模型基于样本的学习中实现最大熵RL的软演员 - 评论权(SAC)算法的限制。尽管在未来的最大熵RL指南学习政策中,未来的高熵达到国家,所提出的MAX-MIN熵框架旨在学会访问低熵的国家,并最大限度地提高这些低熵状态的熵,以促进更好的探索。对于一般马尔可夫决策过程(MDP),基于勘探和剥削的解剖学,在提议的MAX-MIN熵框架下构建了一种有效的算法。数值结果表明,该算法对目前最先进的RL算法产生了剧烈性能改进。
translated by 谷歌翻译
由于源极和目标环境之间的差异,深增强学习算法可以在现实世界的任务中表现不佳。这种差异通常被视为过渡动态的干扰。许多现有算法通过将干扰和应用于训练期间将其应用于源环境来学习强大的政策,这通常需要先验知识对模拟器的干扰和控制。然而,这些算法在目标环境中的干扰未知的情况下可能会失败,或者在模拟器中的模型中难以解决。为了解决这个问题,我们提出了一种新型的无模型演员 - 评论家算法 - 即状态保守政策优化(SCPO) - 学习强大的政策,而不会提前建立干扰。具体地,SCPO将转换动态的干扰降低到状态空间中的干扰,然后通过简单的基于梯度的常规器近似。 SCPO的吸引人的功能包括实施简单,不需要额外了解干扰或专门设计的模拟器。在若干机器人控制任务中的实验表明,SCPO了解抵抗过渡动态的干扰的强大政策。
translated by 谷歌翻译
无模型的深度增强学习(RL)已成功应用于挑战连续控制域。然而,较差的样品效率可防止这些方法广泛用于现实世界领域。我们通过提出一种新的无模型算法,现实演员 - 评论家(RAC)来解决这个问题,旨在通过学习关于Q函数的各种信任的政策家庭来解决价值低估和高估之间的权衡。我们构建不确定性惩罚Q-Learning(UPQ),该Q-Learning(UPQ)使用多个批评者的合并来控制Q函数的估计偏差,使Q函数平稳地从低于更高的置信范围偏移。随着这些批评者的指导,RAC采用通用价值函数近似器(UVFA),同时使用相同的神经网络学习许多乐观和悲观的政策。乐观的政策会产生有效的探索行为,而悲观政策会降低价值高估的风险,以确保稳定的策略更新和Q函数。该方法可以包含任何违规的演员 - 评论家RL算法。我们的方法实现了10倍的样本效率和25 \%的性能改进与SAC在最具挑战性的人形环境中,获得了11107美元的集中奖励1107美元,价格为10 ^ 6美元。所有源代码都可以在https://github.com/ihuhuhu/rac获得。
translated by 谷歌翻译
本文解决了当参与需求响应(DR)时优化电动汽车(EV)的充电/排放时间表的问题。由于电动汽车的剩余能量,到达和出发时间以及未来的电价中存在不确定性,因此很难做出充电决定以最大程度地减少充电成本,同时保证电动汽车的电池最先进(SOC)在内某些范围。为了解决这一难题,本文将EV充电调度问题制定为Markov决策过程(CMDP)。通过协同结合增强的Lagrangian方法和软演员评论家算法,本文提出了一种新型安全的非政策钢筋学习方法(RL)方法来解决CMDP。通过Lagrangian值函数以策略梯度方式更新Actor网络。采用双重危机网络来同步估计动作值函数,以避免高估偏差。所提出的算法不需要强烈的凸度保证,可以保证被检查的问题,并且是有效的样本。现实世界中电价的全面数值实验表明,我们提出的算法可以实现高解决方案最佳性和约束依从性。
translated by 谷歌翻译
由于在存在障碍物和高维视觉观测的情况下,由于在存在障碍和高维视觉观测的情况下,学习复杂的操纵任务是一个具有挑战性的问题。事先工作通过整合运动规划和强化学习来解决勘探问题。但是,运动计划程序增强策略需要访问状态信息,该信息通常在现实世界中不可用。为此,我们建议通过(1)视觉行为克隆以通过(1)视觉行为克隆来将基于国家的运动计划者增强策略,以删除运动计划员依赖以及其抖动运动,以及(2)基于视觉的增强学习来自行为克隆代理的平滑轨迹的指导。我们在阻塞环境中的三个操作任务中评估我们的方法,并将其与各种加固学习和模仿学习基线进行比较。结果表明,我们的框架是高度采样的和优于最先进的算法。此外,与域随机化相结合,我们的政策能够用零击转移到未经分散的人的未经环境环境。 https://clvrai.com/mopa-pd提供的代码和视频
translated by 谷歌翻译
在许多增强学习(RL)应用中,观察空间由人类开发人员指定并受到物理实现的限制,因此可能会随时间的巨大变化(例如,观察特征的数量增加)。然而,当观察空间发生变化时,前一项策略可能由于输入特征不匹配而失败,并且另一个策略必须从头开始培训,这在计算和采样复杂性方面效率低。在理论上见解之后,我们提出了一种新颖的算法,该算法提取源任务中的潜在空间动态,并将动态模型传送到目标任务用作基于模型的常规程序。我们的算法适用于观察空间的彻底变化(例如,从向量的基于矢量的观察到图像的观察),没有任何任务映射或目标任务的任何先前知识。实证结果表明,我们的算法显着提高了目标任务中学习的效率和稳定性。
translated by 谷歌翻译
深度加强学习(DRL)是教授机器人执行复杂任务的有希望的方法。因为直接重用所存储的体验数据的方法无法遵循与时变环境中的机器人问题的环境的变化,所需的在线DRL。资格迹线方法是一种用于提高传统增强学习中的样本效率的在线学习技术,而不是线性回归而不是DRL。深度神经网络参数之间的依赖性会破坏资格迹线,这就是它们不与DRL集成的原因。虽然用最具影响力的梯度替换渐变而不是累积梯度,但随着资格迹线可以缓解这个问题,替换操作会减少先前体验的重用率。为了解决这些问题,本研究提出了一种新的资格迹线方法,即使在DRL中也可以使用,同时保持高样本效率。当累积梯度与使用最新参数计算的梯度不同时,所提出的方法考虑了过去和最新参数之间的发散,以便自适应地衰减资格迹线。由于过去和最新参数之间的发散不可行的计算成本,利用了过去和最新参数的输出之间的Bregman分歧。另外,第一次设计具有多个时间尺度迹线的广义方法。这种设计允许更换最有影响力的自适应积累(衰减)的资格痕迹。
translated by 谷歌翻译
由于配置空间的高维度以及受各种材料特性影响的动力学的复杂性,布料操纵是一项具有挑战性的任务。复杂动力学的效果甚至在动态折叠中更为明显,例如,当平方板通过单个操纵器将一块织物折叠为两种时。为了说明复杂性和不确定性,使用例如通常需要视觉。但是,构建动态布折叠的视觉反馈政策是一个开放的问题。在本文中,我们提出了一种解决方案,该解决方案可以使用强化学习(RL)学习模拟政策,并将学识渊博的政策直接转移到现实世界中。此外,要学习一种操纵多种材料的单一策略,我们将模拟中的材料属性随机化。我们评估了现实世界实验中视觉反馈和材料随机化的贡献。实验结果表明,所提出的解决方案可以使用现实世界中的动态操作成功地折叠不同的面料类型。代码,数据和视频可从https://sites.google.com/view/dynamic-cloth-folding获得
translated by 谷歌翻译
深度加强学习是一种从头开始学习机器人控制政策的有效工具。然而,这些方法对于巨大的需要训练数据来说是臭名昭着的,这对于真正的机器人来说是昂贵的。高度流行的替代方案是从模拟中学习,允许生成数据更快,更安全和更便宜。由于所有模拟器仅仅是现实的模型,因此模拟和实际数据之间存在不可避免的差异,通常称为“现实差距”。为了弥合这种差距,许多方法从模拟器的分发中学习一个策略。在本文中,我们建议将钢筋从随机物理模拟与政策蒸馏相结合。我们的算法称为蒸馏域随机化(DOTOR),蒸馏出所谓的教师政策,这些教师策略是最初被抽样的域的专家,以稍后部署的学生政策。这样,DODOR学习直接从模拟转移到现实的控制器,即,不需要来自目标域的数据。我们将DIDOR与三个基线进行比较三个SIM-SIM-SIM,以及两个SIM-to-Real实验。我们的研究结果表明,用DODOR训练的政策的目标域表现是en Par或比基线更好。此外,我们的方法既不会增加所需的内存容量,也不会有时间来计算一个动作,这可能是成功部署学习控制器的故障点。
translated by 谷歌翻译
安全是自主系统的关键组成部分,仍然是现实世界中要使用的基于学习的政策的挑战。特别是,由于不安全的行为,使用强化学习学习的政策通常无法推广到新的环境。在本文中,我们提出了SIM到LAB到实验室,以弥合现实差距,并提供概率保证的安全意见政策分配。为了提高安全性,我们采用双重政策设置,其中通过累积任务奖励对绩效政策进行培训,并通过根据汉密尔顿 - 雅各布(Hamilton-Jacobi)(HJ)达到可达性分析来培训备用(安全)政策。在SIM到LAB转移中,我们采用监督控制方案来掩盖探索过程中不安全的行动;在实验室到实验室的转移中,我们利用大约正确的(PAC) - 贝斯框架来提供有关在看不见环境中政策的预期性能和安全性的下限。此外,从HJ可达性分析继承,界限说明了每个环境中最坏情况安全性的期望。我们从经验上研究了两种类型的室内环境中的自我视频导航框架,具有不同程度的光真实性。我们还通过具有四足机器人的真实室内空间中的硬件实验来证明强大的概括性能。有关补充材料,请参见https://sites.google.com/princeton.edu/sim-to-lab-to-real。
translated by 谷歌翻译
稀疏奖励学习通常在加强学习(RL)方面效率低下。 Hindsight Experience重播(她)已显示出一种有效的解决方案,可以处理低样本效率,这是由于目标重新标记而导致的稀疏奖励效率。但是,她仍然有一个隐含的虚拟阳性稀疏奖励问题,这是由于实现目标而引起的,尤其是对于机器人操纵任务而言。为了解决这个问题,我们提出了一种新型的无模型连续RL算法,称为Relay-HER(RHER)。提出的方法首先分解并重新布置原始的长马任务,以增量复杂性为新的子任务。随后,多任务网络旨在以复杂性的上升顺序学习子任务。为了解决虚拟阳性的稀疏奖励问题,我们提出了一种随机混合的探索策略(RME),在该策略中,在复杂性较低的人的指导下,较高复杂性的子任务的实现目标很快就会改变。实验结果表明,在五个典型的机器人操纵任务中,与香草盖相比,RHER样品效率的显着提高,包括Push,Pickandplace,抽屉,插入物和InstaclePush。提出的RHER方法还应用于从头开始的物理机器人上的接触式推送任务,成功率仅使用250集达到10/10。
translated by 谷歌翻译
虽然由强化学习(RL)训练的代理商可以直接解决越来越具有挑战性的任务,但概括到新颖环境的学习技能仍然非常具有挑战性。大量使用数据增强是一种有助于改善RL的泛化的有希望的技术,但经常发现它降低样品效率,甚至可以导致发散。在本文中,我们在常见的脱离政策RL算法中使用数据增强时调查不稳定性的原因。我们识别两个问题,均植根于高方差Q-targets。基于我们的研究结果,我们提出了一种简单但有效的技术,可以在增强下稳定这类算法。我们在基于Deepmind Control Suite的基准系列和机器人操纵任务中使用扫描和视觉变压器(VIT)对基于图像的RL进行广泛的实证评估。我们的方法极大地提高了增强下的呼声集的稳定性和样本效率,并实现了在具有看不见的视野视觉效果的环境中的图像的RL的最先进方法竞争的普遍化结果。我们进一步表明,我们的方法与基于Vit的亚体系结构的RL缩放,并且数据增强在此设置中可能尤为重要。
translated by 谷歌翻译
In order to avoid conventional controlling methods which created obstacles due to the complexity of systems and intense demand on data density, developing modern and more efficient control methods are required. In this way, reinforcement learning off-policy and model-free algorithms help to avoid working with complex models. In terms of speed and accuracy, they become prominent methods because the algorithms use their past experience to learn the optimal policies. In this study, three reinforcement learning algorithms; DDPG, TD3 and SAC have been used to train Fetch robotic manipulator for four different tasks in MuJoCo simulation environment. All of these algorithms are off-policy and able to achieve their desired target by optimizing both policy and value functions. In the current study, the efficiency and the speed of these three algorithms are analyzed in a controlled environment.
translated by 谷歌翻译
强化学习(RL)技术在许多具有挑战性的任务中引起了极大的关注,但是当应用于现实世界问题时,它们的性能急剧恶化。已经提出了各种方法,例如域随机化,以通过不同的环境设置下的培训代理来应对这种情况,因此在部署过程中可以将它们推广到不同的环境。但是,它们通常不包含与代理人正确相互作用的潜在环境因素信息,因此在面对周围环境变化时可能会过于保守。在本文中,我们首先将适应RL中的环境动态的任务形式化为使用上下文Markov决策过程(CMDP)的概括问题。然后,我们在上下文RL(AACC)中提出了不对称的参与者 - 作为处理此类概括任务的端到端参与者的方法。我们在一系列模拟环境中证明了AACC对现有基线的性能的基本改进。
translated by 谷歌翻译
Hierarchical Reinforcement Learning (HRL) algorithms have been demonstrated to perform well on high-dimensional decision making and robotic control tasks. However, because they solely optimize for rewards, the agent tends to search the same space redundantly. This problem reduces the speed of learning and achieved reward. In this work, we present an Off-Policy HRL algorithm that maximizes entropy for efficient exploration. The algorithm learns a temporally abstracted low-level policy and is able to explore broadly through the addition of entropy to the high-level. The novelty of this work is the theoretical motivation of adding entropy to the RL objective in the HRL setting. We empirically show that the entropy can be added to both levels if the Kullback-Leibler (KL) divergence between consecutive updates of the low-level policy is sufficiently small. We performed an ablative study to analyze the effects of entropy on hierarchy, in which adding entropy to high-level emerged as the most desirable configuration. Furthermore, a higher temperature in the low-level leads to Q-value overestimation and increases the stochasticity of the environment that the high-level operates on, making learning more challenging. Our method, SHIRO, surpasses state-of-the-art performance on a range of simulated robotic control benchmark tasks and requires minimal tuning.
translated by 谷歌翻译
本文详细介绍了我们对2021年真正机器人挑战的第一阶段提交的提交;三指机器人必须沿指定目标轨迹携带立方体的挑战。为了解决第1阶段,我们使用一种纯净的增强学习方法,该方法需要对机器人系统或机器人抓握的最少专家知识。与事后的经验重播一起采用了稀疏,基于目标的奖励,以教导控制立方体将立方体移至目标的X和Y坐标。同时,采用了基于密集的距离奖励来教授将立方体提升到目标的Z坐标(高度组成部分)的政策。该策略在将域随机化的模拟中进行培训,然后再转移到真实的机器人进行评估。尽管此次转移后的性能往往会恶化,但我们的最佳政策可以通过有效的捏合掌握能够成功地沿目标轨迹提升真正的立方体。我们的方法表现优于所有其他提交,包括那些利用更传统的机器人控制技术的提交,并且是第一个解决这一挑战的纯学习方法。
translated by 谷歌翻译