在四足步态学习中,通常使用缩放高维连续动作空间的策略搜索方法。在大多数方法中,有必要引入关于步态的先验知识以限制策略的高度非凸的搜索空间。在这项工作中,我们提出了一种新的方法来编码所需步态的对称性,在高斯搜索分布的初始协方差,允许战略探索。基于Usingepisode的似然比政策梯度和相对熵政策研究,我们学习了步态和小跑的模拟四足动物。将这些步态与初始化对角线协方差矩阵学习的随机步态进行比较,我们证明了性能可以得到显着提高。
translated by 谷歌翻译
在线检测数据序列的生成过程中的瞬时变化通常集中在这些变化点的回顾性推断上,而不考虑它们将来的发生。我们扩展贝叶斯在线变换点检测算法以推断直到下一个变化点(即剩余时间)的时间步数。这使我们能够处理依赖于总段持续时间的观察模型,这是使用具有时间缩放的模型数据序列。另外,我们通过删除i.i.d来扩展模型。对观测模型参数的假设。用于分段检测的结果推理算法可以以在线方式部署,并且我们将合成和两个医学真实世界数据集的应用说明。
translated by 谷歌翻译
信任区域方法在政策搜索中产生了最先进的结果。一种常见的方法是使用KL-分歧来约束自然梯度政策更新中的信任区域。我们表明,如果我们使用标准指数策略分布的自然参数化与兼容值函数近似相结合,则自然梯度和信赖域优化是等价的。此外,我们表明,标准自然梯度更新可能会根据导致早熟收敛的错误计划减少策略的熵。为了控制熵减少,我们引入了一种新的策略搜索方法,称为兼容策略搜索(COPOS),它限制了熵损失。实验结果表明,COPOS产生最先进的结果,具有挑战性的连续控制任务和不可分割的部分可观测任务。
translated by 谷歌翻译
随着机器人和其他智能代理从简单的环境和问题转移到更复杂的非结构化设置,手动编程他们的行为变得越来越具有挑战性和昂贵。通常,教师更容易展示所需的行为,而不是尝试手动启动它。这种从示范中学习的过程,以及算法的研究,被称为模仿学习。这项工作提供了模仿学习的介绍。它涵盖了基本的假设,方法以及它们之间的关系;为解决问题而开发的丰富算法集;关于有效工具和实施的建议。我们打算将本文服务于两个受众。首先,我们希望机器学习专家能够熟悉模仿学习的挑战,尤其是机器人技术的挑战,以及它与更熟悉的框架(如统计监督学习理论和强化学习)之间有趣的理论和实践区别。其次,我们希望应用人工智能中的神经病学家和专家对模仿学习的框架和工具有广泛的了解。
translated by 谷歌翻译
运动原语的概率表示为机器人学中的机器学习开辟了重要的新的可能性。这些表示能够捕捉来自教师的演示的可变性,作为轨迹上的概率分布,提供合理的探索区域和适应机器人环境变化的能力。然而,为了能够捕捉不同联结之间的变异性和相关性,概率运动原语需要估计与其确定性对应物相比较大数量的参数,其仅聚焦于平均行为。在本文中,我们利用概率运动原语的参数的原始分布来制造具有少量训练实例的参数估计。此外,我们引入了通用运算符来适应关节和任务空间中的运动原语。提出的训练方法和适应操作员在咖啡准备和机器人乒乓球任务中进行测试。在咖啡制备任务中,我们评估了咖啡研磨机和酿造室在目标区域中的位置变化的泛化性能,仅在两次演示后实现了所需的行为。在乒乓球任务中,我们评估命中率和回报率,在使用fewertask特定启发式时表现优于以前的方法。
translated by 谷歌翻译
High-speed robotics typically involves fast dynamic trajectories with large accelerations. Kinematic optimization using compact representations can lead to an efficient online computation of these dynamic movements, however successful execution requires accurate models or aggressive tracking with high-gain feedback. Learning to track such references in a safe and reliable way, whenever accurate models are not available, is an open problem. Stability issues surrounding the learning performance, in the iteration domain, can prevent the successful implementation of model-based learning approaches. To this end, we propose a new adaptive and cautious Iterative Learning Control (ILC) algorithm where the stability of the control updates is analyzed probabilistically: the covariance estimates of the adapted local linear models are used to increase the probability of update monotonicity, exercising caution during learning. The resulting learning controller can be implemented efficiently using a recursive approach. We evaluate it extensively in simulations as well as in our robot table tennis setup for tracking dynamic hitting movements. Testing with two seven degree of freedom anthropomorphic robot arms, we show improved and more stable tracking performance over high-gain PD-control, model-free ILC (simple PD feedback type) and model-based ILC without cautious adaptation.
translated by 谷歌翻译
逆强化学习(IRL)领域的进步已经导致了复杂的推理框架,这些框架放松了观察仅反映单一意图的代理行为的原始建模假设。代替学习全局行为模型,最近的IRL方法将演示数据划分为多个部分,以解释不同的轨迹可能对应于不同意图的事实,例如,因为它们是由不同的领域专家生成的。在这项工作中,我们更进一步:使用子目标的直观概念,我们建立在这样的前提下,即使单个轨迹可以在某个上下文中比全局更有效地解释,从而能够更加紧凑地表示观察到的行为。基于这个假设,我们构建了一个隐含的代理人目标的有意模型,以预测其在未观察到的情况下的行为。结果是一个综合的贝叶斯预测框架,该框架明显优于IRL解决方案,并提供与专家计划一致的平稳政策估算。最值得注意的是,我们的框架自然地处理了代理的意图随时间变化并且经典IRL算法失败的情况。此外,由于其概率性质,该模型可以最好地直接应用于主动学习场景中以指导专家的演示过程。
translated by 谷歌翻译
自主机器人需要与未知的,非结构化的和变化的环境相互作用,不断面临新的挑战。因此,终身学习的持续在线适应以及需要采用样本有效机制来适应环境,约束,任务或机器人自身的变化至关重要。在这项工作中,我们提出了一个基于abio启发的随机递归神经网络的在线适应概率在线运动规划的新框架。通过使用模拟内在动机信号认知失调的学习信号以及心理重放策略来强化经验,随机复发网络可以在很短的时间内从少数物理交互中学习并适应新的环境。我们在拟人化的KUKA LWR臂上评估我们的在线规划和改编框架。快速在线调整是通过在遵循给定的方式点的同时从少数物理交互中有效地学习未知工作空间约束来显示的。
translated by 谷歌翻译
许多最近的轨迹优化算法在围绕平均轨迹和保守政策更新的系统动力学的线性近似之间交替。限制政策变化的一种方法是在连续政策之间绕过Kullback-Leibler(KL)差异。这些方法已经在挑战诸如物理系统的端到端控制等问题方面取得了巨大的实验成功。但是,系统动态的线性近似可能会在策略更新中引入偏差并阻止收敛到最优策略。在本文中,我们提出了一种新的基于模型的基于轨迹的策略优化算法,该算法保证了单调改进。该算法反向传播从轨迹数据而不是系统动力学模型中学习的局部的,二次的和时间相关的\ qfunc_。我们的政策更新可确保精确的KL约束满足,而不会简化系统动态的假设。我们通过实验证明了高度非线性控制任务,与线性化系统动力学的方法相比,我们的算法性能有所提高。为了显示我们算法的单调改进,我们另外对我们的策略更新方案进行了理论分析,得出了一个较低的连续迭代之间政策回报的变化。
translated by 谷歌翻译
Off-the-shelf Gaussian Process (GP) covariance functions encode smoothnessassumptions on the structure of the function to be modeled. To model complexand non-differentiable functions, these smoothness assumptions are often toorestrictive. One way to alleviate this limitation is to find a differentrepresentation of the data by introducing a feature space. This feature spaceis often learned in an unsupervised way, which might lead to datarepresentations that are not useful for the overall regression task. In thispaper, we propose Manifold Gaussian Processes, a novel supervised method thatjointly learns a transformation of the data into a feature space and a GPregression from the feature space to observed space. The Manifold GP is a fullGP and allows to learn data representations, which are useful for the overallregression task. As a proof-of-concept, we evaluate our approach on complexnon-smooth functions where standard GPs perform poorly, such as step functionsand robotics tasks with contacts.
translated by 谷歌翻译