通常用于从时间序列数据学习模型的在线高斯流程(GPS)比离线GPS更灵活,更健壮。 GPS的本地和稀疏近似都可以在线有效地学习复杂的模型。但是,这些方法假定所有信号都是相对准确的,并且所有数据都可以学习而无需误导数据。此外,在实践中,GP的在线学习能力受到高维问题和长期任务的限制。本文提出了一个稀疏的在线GP(SOGP),其遗忘机制以特定速度忘记了遥远的模型信息。所提出的方法结合了SOGP基础向量集的两个常规数据删除方案:基于位置信息的方案和最古老的基于点的方案。我们采用我们的方法来学习在任务切换的两部分轨迹跟踪问题下具有7度自由度的协作机器人的逆动力学。模拟和实验都表明,与两种常规数据删除方案相比,所提出的方法可实现更好的跟踪准确性和预测平滑度。
translated by 谷歌翻译
由于治疗益处和减轻劳动密集型工作的能力,在临床应用中使用康复机器人技术的重要性提高了。但是,他们的实际效用取决于适当的控制算法的部署,这些算法根据每个患者的需求来适应任务辅助的水平。通常,通过临床医生的手动调整来实现所需的个性化,这很麻烦且容易出错。在这项工作中,我们提出了一种新颖的在线学习控制体系结构,能够在运行时个性化控制力量。为此,我们通过以前看不见的预测和更新率来部署基于高斯流程的在线学习。最后,我们在一项实验用户研究中评估了我们的方法,在该研究中,学习控制器被证明可以提供个性化的控制,同时还获得了安全的相互作用力。
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译
Accurate path following is challenging for autonomous robots operating in uncertain environments. Adaptive and predictive control strategies are crucial for a nonlinear robotic system to achieve high-performance path following control. In this paper, we propose a novel learning-based predictive control scheme that couples a high-level model predictive path following controller (MPFC) with a low-level learning-based feedback linearization controller (LB-FBLC) for nonlinear systems under uncertain disturbances. The low-level LB-FBLC utilizes Gaussian Processes to learn the uncertain environmental disturbances online and tracks the reference state accurately with a probabilistic stability guarantee. Meanwhile, the high-level MPFC exploits the linearized system model augmented with a virtual linear path dynamics model to optimize the evolution of path reference targets, and provides the reference states and controls for the low-level LB-FBLC. Simulation results illustrate the effectiveness of the proposed control strategy on a quadrotor path following task under unknown wind disturbances.
translated by 谷歌翻译
估计和对外部干扰的反应对于二次驾驶的稳健飞行控制至关重要。现有的估计器通常需要针对特定​​的飞行方案或具有大量现实世界数据的培训进行重大调整,以实现令人满意的性能。在本文中,我们提出了一个神经移动范围估计器(Neuromhe),该估计量可以自动调整由神经网络建模并适应不同飞行方案的MHE参数。我们通过将MHE估计值的分析梯度推导出相对于可调参数的分析梯度实现这一目标,从而使MHE无缝嵌入作为神经网络中的无缝嵌入以进行高效学习。最有趣的是,我们证明可以从递归形式的卡尔曼过滤器有效地解决梯度。此外,我们开发了一种基于模型的策略梯度算法,可以直接从轨迹跟踪误差中训练神经元,而无需进行基础真相干扰。通过在各种具有挑战性的飞行中对四摩特的模拟和物理实验,通过模拟和物理实验对神经元的有效性进行了广泛的验证。值得注意的是,NeuroMhe的表现优于最先进的估计器,仅使用2.5%的参数量,力估计误差降低了49.4%。所提出的方法是一般的,可以应用于其他机器人系统的稳健自适应控制。
translated by 谷歌翻译
自适应控制可以应用于具有参数不确定性的机器人系统,但是提高其性能通常很困难,尤其是在不连续的摩擦下。受到人类运动学习控制机制的启发,针对具有不连续摩擦的广泛机器人系统提出了一种自适应学习控制方法,其中采用了利用数据记忆来增强参数估计的复合误差学习技术。与经典的反馈误差学习控制相比,所提出的方法可以实现出色的瞬态和稳态跟踪,而无需高增益反馈和持续的激发,而持续的激发则以额外的计算负担和记忆使用费用。基于Denso工业机器人的实验验证了所提出方法的性能改善。
translated by 谷歌翻译
该论文提出了两种控制方法,用于用微型四轮驱动器进行反弹式操纵。首先,对专门为反转设计设计的现有前馈控制策略进行了修订和改进。使用替代高斯工艺模型的贝叶斯优化通过在模拟环境中反复执行翻转操作来找到最佳运动原语序列。第二种方法基于闭环控制,它由两个主要步骤组成:首先,即使在模型不确定性的情况下,自适应控制器也旨在提供可靠的参考跟踪。控制器是通过通过测量数据调整的高斯过程来增强无人机的标称模型来构建的。其次,提出了一种有效的轨迹计划算法,该算法仅使用二次编程来设计可行的轨迹为反弹操作设计。在模拟和使用BitCraze Crazyflie 2.1四肢旋转器中对两种方法进行了分析。
translated by 谷歌翻译
在本文中,我们提出了一种基于模型的增强学习(MBRL)算法,称为\ emph {Monte Carlo概率的学习控制}(MC-PILCO)。该算法依赖于高斯流程(GPS)来对系统动力学进行建模以及蒙特卡洛方法以估计策略梯度。这定义了一个框架,在该框架中,我们可以在其中选择以下组件的选择:(i)成本函数的选择,(ii)使用辍学的策略优化,(iii)通过在使用中的结构内核来提高数据效率GP型号。上述方面的组合会极大地影响MC-PILCO的性能。在模拟卡车杆环境中的数值比较表明,MC-PILCO具有更好的数据效率和控制性能W.R.T.最先进的基于GP的MBRL算法。最后,我们将MC-PILCO应用于实际系统,考虑到具有部分可测量状态的特定系统。我们讨论了在策略优化过程中同时建模测量系统和国家估计器的重要性。已在模拟和两个真实系统(Furuta pendulum和一个球形式钻机)中测试了所提出的溶液的有效性。
translated by 谷歌翻译
在目标或配置在迭代之间变化的任务中,人机交互(HRI)可以使机器人能够处理可重复的方面,并提供适合当前状态的信息。当前,通过推断人类目标或为了适应机器人阻抗,目前可以实现先进的交互式机器人行为。尽管已经提出了许多针对互动机器人行为的应用程序特定的启发式方法,但它们通常受到范围的限制,例如仅考虑人体工程学或任务绩效。为了提高普遍性,本文提出了一个框架,该框架既计划在线轨迹和阻抗,处理任务和人类目标的混合,并可以有效地应用于新任务。该框架可以考虑多种类型的不确定性:接触约束变化,人类目标的不确定性或任务障碍。不确定性感知的任务模型是从使用高斯流程的一些演示中学到的。该任务模型用于非线性模型预测控制(MPC)问题,以根据对离散人类目标,人运动学,安全限制,接触稳定性和频率障碍抑制的信念来优化机器人轨迹和阻抗。引入了此MPC公式,对凸度进行了分析,并通过多个目标,协作抛光任务和协作组装任务进行了验证。
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
我们介绍了Koopman状态估计器(Koopse),一个无模型批量估计的框架,无需线性化假设,不需要特定于问题的特征选择,并且具有与数字无关的推理计算成本训练点。我们将原始非线性系统抬为高维再现内核希尔伯特空间(RKHS),其中系统变为双线性。可以通过在训练轨迹上求解最小二乘问题来学习时间不变的模型矩阵。在测试时间时,系统是代数操纵成线性时变系统,其中标准批量线性状态估计技术可用于有效地计算状态装置和协方差。随机傅里叶功能(RFF)用于结合基于Koopman的方法的计算效率和内核嵌入方法的一般性。 Koopse在实验上经过实验验证,涉及配备有超宽带接收器和轮内径术的移动机器人。 Koopse估计比标准模型的扩展Rauch-tung-Striebel(RTS)更加准确,并且尽管Koopse没有先验知识的系统的运动或测量模型。
translated by 谷歌翻译
对非线性不确定系统的控制是机器人技术领域的常见挑战。非线性潜在力模型结合了以高斯流程为特征的潜在不确定性,具有有效代表此类系统的希望,我们专注于这项工作的控制设计。为了实现设计,我们采用了高斯过程的状态空间表示来重塑非线性潜在力模型,从而建立了同时预测未来状态和不确定性的能力。使用此功能,制定了随机模型预测控制问题。为了得出问题的计算算法,我们使用基于方案的方法来制定随机优化的确定性近似。我们通过基于自动驾驶汽车的运动计划的仿真研究评估了最终方案的模型预测控制方法,该研究表现出很大的有效性。拟议的方法可以在其他各种机器人应用中找到前瞻性使用。
translated by 谷歌翻译
模型预测控制(MPC)已成为高性能自治系统嵌入式控制的流行框架。但是,为了使用MPC实现良好的控制性能,准确的动力学模型是关键。为了维持实时操作,嵌入式系统上使用的动力学模型仅限于简单的第一原则模型,该模型实质上限制了其代表性。与此类简单模型相反,机器学习方法,特别是神经网络,已被证明可以准确地建模复杂的动态效果,但是它们的较大的计算复杂性阻碍了与快速实时迭代环路的组合。通过这项工作,我们提出了实时神经MPC,这是一个将大型复杂的神经网络体系结构作为动态模型的框架,在模型预测性控制管道中。 ,展示了所描述的系统的功能,可以使用基于梯度的在线优化MPC运行以前不可行的大型建模能力。与在线优化MPC中神经网络的先前实现相比,我们可以利用嵌入式平台上50Hz实时窗口中的4000倍的型号。此外,与没有神经网络动力学的最新MPC方法相比,我们通过将位置跟踪误差降低多达82%,从而显示了对现实世界问题的可行性。
translated by 谷歌翻译
高斯流程已成为各种安全至关重要环境的有前途的工具,因为后方差可用于直接估计模型误差并量化风险。但是,针对安全 - 关键环境的最新技术取决于核超参数是已知的,这通常不适用。为了减轻这种情况,我们在具有未知的超参数的设置中引入了强大的高斯过程统一误差界。我们的方法计算超参数空间中的一个置信区域,这使我们能够获得具有任意超参数的高斯过程模型误差的概率上限。我们不需要对超参数的任何界限,这是相关工作中常见的假设。相反,我们能够以直观的方式从数据中得出界限。我们还采用了建议的技术来为一类基于学习的控制问题提供绩效保证。实验表明,界限的性能明显优于香草和完全贝叶斯高斯工艺。
translated by 谷歌翻译
We present a new Gaussian process (GP) regression model whose covariance is parameterized by the the locations of M pseudo-input points, which we learn by a gradient based optimization. We take M N , where N is the number of real data points, and hence obtain a sparse regression method which has O(M 2 N ) training cost and O(M 2 ) prediction cost per test case. We also find hyperparameters of the covariance function in the same joint optimization. The method can be viewed as a Bayesian regression model with particular input dependent noise. The method turns out to be closely related to several other sparse GP approaches, and we discuss the relation in detail. We finally demonstrate its performance on some large data sets, and make a direct comparison to other sparse GP methods. We show that our method can match full GP performance with small M , i.e. very sparse solutions, and it significantly outperforms other approaches in this regime.
translated by 谷歌翻译
机器人布操作是自动机器人系统的相关挑战性问题。高度可变形的对象,因为纺织品在操纵过程中可以采用多种配置和形状。因此,机器人不仅应该了解当前的布料配置,还应能够预测布的未来行为。本文通过使用模型预测控制(MPC)策略在对象的其他部分应用动作,从而解决了间接控制纺织对象某些点的配置的问题,该策略还允许间接控制的行为点。设计的控制器找到了最佳控制信号,以实现所需的未来目标配置。本文中的探索场景考虑了通过抓住其上角,以平方布的下角跟踪参考轨迹。为此,我们提出并验证线性布模型,该模型允许实时解决与MPC相关的优化问题。增强学习(RL)技术用于学习所提出的布模型的最佳参数,并调整所得的MPC。在模拟中获得准确的跟踪结果后,在真实的机器人中实现并执行了完整的控制方案,即使在不利条件下也可以获得准确的跟踪。尽管总观察到的误差达到5 cm标记,但对于30x30 cm的布,分析表明,MPC对该值的贡献少于30%。
translated by 谷歌翻译
当信号通过物理传感器测量,它们被噪声干扰。为了减少噪音,低通滤波器,以便衰减高频分量的输入信号,如果无论它们来自噪声或实际信号被通常使用的。因此,低通滤波器必须仔细调整以避免信号的显著恶化。这种调整需要有关的信号,这往往不是在应用,如强化学习或基于学习控制提供先验知识。为了克服这种限制,我们提出了一种基于高斯过程回归自适应低通滤波器。通过考虑以前的意见,更新和预测足够快的现实世界的滤波应用的恒定窗口即可实现。此外,超参数导致的低通行为适配的在线优化,使得没有事先调整是必要的。我们表明,该方法的估计误差一致有界,并证明了该方法的灵活性和效率的几个模拟。
translated by 谷歌翻译
各种科学和工程领域使用参数化机制模型。工程师和科学家通常可以假设几个竞争模型来解释特定的过程或现象。考虑一个模特歧视设置,我们希望找到最佳机械,动态模型候选者和最佳模型参数估计。通常,若干竞争机械模型可以解释可用数据,因此通过找到最大化模型预测发散的实验设置,可以通过找到最大化模型预测发散的实验设置来实现最佳地收集额外数据的动态实验。我们争论文献中有两种主要方法,用于解决最佳设计问题:(i)分析方法,使用线性和高斯近似来找设计目标的闭合表达式,以及(ii)数据驱动方法,这通常依赖于计算密集的蒙特卡罗技术。 olofsson等人。 (ICML 35,2018)介绍了高斯工艺(GP)替代模型来杂交的分析和数据驱动方法,这允许计算的实验设计,以识别黑盒式模型。在这项研究中,我们证明我们可以扩展现有的动态实验设计方法,以纳入更广泛的问题不确定性。我们还延伸了Olofsson等人。 (2018)使用GP代理模型来辨别动态黑盒式模型的方法。我们在文献中的着名案例研究中评估了我们的方法,并探讨了使用GP代理到近似基于梯度的方法的后果。
translated by 谷歌翻译
灵活的联合机械手经常用于人机协作和共享工作区任务的增强安全性。然而,关节灵活性显着降低了运动的准确性,特别是在高速度和廉价的致动器中。在本文中,我们提出了一种基于学习的方法来识别柔性联合机械手的未知动态,并改善高速下的轨迹跟踪。我们提出了一种两级模型,由一步向前动态预测器和逆动力学估计器组成。第二部分基于线性时间不变动态运算符,以近似前馈接头位置和速度命令。我们在真实数据上培训模型结束,并在Baxter Robot上评估它。我们的实验表明,通过一步的未来状态预测增强输入可以提高性能,而不是在没有预测的情况下相同的模型。我们比较关节位置,接合速度和终端效应器位置跟踪精度,对经典基线控制器和几种更简单的型号。
translated by 谷歌翻译
Over the last years, significant advances have been made in robotic manipulation, but still, the handling of non-rigid objects, such as cloth garments, is an open problem. Physical interaction with non-rigid objects is uncertain and complex to model. Thus, extracting useful information from sample data can considerably improve modeling performance. However, the training of such models is a challenging task due to the high-dimensionality of the state representation. In this paper, we propose Controlled Gaussian Process Dynamical Model (CGPDM) for learning high-dimensional, nonlinear dynamics by embedding it in a low-dimensional manifold. A CGPDM is constituted by a low-dimensional latent space with an associated dynamics where external control variables can act and a mapping to the observation space. The parameters of both maps are marginalized out by considering Gaussian Process (GP) priors. Hence, a CGPDM projects a high-dimensional state space into a smaller dimension latent space in which is feasible to learn the system dynamics from training data. The modeling capacity of CGPDM has been tested in both a simulated and a real scenario, where it proved to be capable of generalizing over a wide range of movements and confidently predicting the cloth motions obtained by previously unseen sequences of control actions.
translated by 谷歌翻译