我们为运动计划问题提出了高斯变异推理框架。在此框架中,运动计划是对轨迹分布的优化,以通过可拖动的高斯分布近似所需的轨迹分布。同等地,提议的框架可以视为具有熵正则化的标准运动计划。因此,获得的解决方案是从最佳确定溶液到随机溶液的过渡,并且所提出的框架可以通过控制随机性水平来恢复确定性解决方案。为了解决这种优化,我们采用了自然梯度下降方案。进一步利用了由分解的目标函数引起的提议配方的稀疏性结构,以提高算法的可扩展性。我们在模拟环境中评估了几个机器人系统的方法,并表明它可以通过平滑的轨迹来避免碰撞,同时为确定性基线结果带来了鲁棒性,尤其是在具有挑战性的环境和任务中。
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
我们为在危险环境中运行的机器人提供最佳运动规划(OMP)算法的新配方,称为自适应高斯过程的随机轨迹优化(AGP-STO)。它首先将加速梯度下降重新启动,通过重新定义的Lipschitz常数(L-REAGD)来提高计算效率,只需要第一个动量。然而,它仍然无法推断出于高斯过程(GP)和障碍物的先前信息的非耦合问题的全球最优。因此,它可以集成L-ReeStimation过程中的自适应随机轨迹优化(ASTO),以通过加速移动平均(AMA)来学习重要样本的GP先前奖励。此外,我们介绍了增量的最佳运动计划(IMPH),将AGP-STO升级到IAGP-STO。它在先前优化的航路点之间逐步地插入轨迹,以确保连续的安全性。最后,我们将IAGP-STO基于数值(CHOMP,TRAJOPT,GPMP)和采样(STOMP,RRT-CONNECT)方法,并进行关键参数的调整实验,以显示L-REAGD,ASTO和IOMP的集成如何提升计算效率和可靠性。此外,在LBR-IIWA,MULTI-AGV和RETHINK-BAXTER上实施IAGP-STO,证明其在操纵,协作和援助中的应用。
translated by 谷歌翻译
在本文中,我们通过概率保证解决了基于采样的运动计划和测量不确定性的问题。我们概括了基于基于树的基于树木的运动计划算法,以确定性系统并提出信念-USHAMCAL {a} $,该框架将任何基于动力学的树的计划者扩展到线性(或可线化)系统的信念空间。我们为信仰空间介绍了适当的抽样技术和距离指标,以保留基础规划师的概率完整性和渐近最佳性能。我们证明了我们在模拟方面对自动化和非全面系统有效和渐近地找到安全低成本路径的疗效。
translated by 谷歌翻译
这项研究提出了一种混合轨迹优化方法,该方法为自动移动机器人生成无冲突的平滑轨迹。混合方法结合了基于采样的模型预测路径积分(MPPI)控制和基于梯度的内点差异动态编程(IPDDP),利用了其探索和平滑的优势。所提出的称为MPPI-IPDDP的方法由三个步骤组成。第一步通过MPPI控件生成了一个粗轨迹,第二步构建了无碰撞凸走道,第三步通过使用第二步中计算的无碰撞凸面走廊来平滑IPDDP的粗轨迹。为了进行演示,将提出的算法应用于用于差速器驾驶的车轮移动机器人和点质量四四个四个方面的轨迹优化。可以在https://youtu.be/-ouat5sd9bk上找到有关模拟的补充视频。
translated by 谷歌翻译
有效可靠的全局路径计划是为了安全执行和部署自主系统。为了产生充分解决给定环境的拓扑的规划图,许多基于样的运动规划师度假胜地,粗略的启发式驱动的策略,这些策略通常不能概括到新的和各种各样的环境。此外,许多这些方法不设计用于抗争于偏心性。我们在环境几何中的这种不确定性实际上可以帮助\ Texit {Drive}在生成可行的采样过程和概率 - 安全规划图中。我们提出了一种概率路线图的方法,其依赖于基于粒子的变分推理,以有效地覆盖配置空间中可行区域的后部分布。我们的方法,Stein变分概率路线图(SV-PRM)导致样品有效地产生规划图和传统采样方法的大量改进。我们展示了各种具有挑战性的规划问题的方法,包括机器人中常见的现实概率占用地图和高速控制问题。
translated by 谷歌翻译
将机器人放置在受控条件外,需要多功能的运动表示,使机器人能够学习新任务并使其适应环境变化。在工作区中引入障碍或额外机器人的位置,由于故障或运动范围限制导致的关节范围的修改是典型的案例,适应能力在安全地执行机器人任务的关键作用。已经提出了代表适应性运动技能的概率动态(PROMP),其被建模为轨迹的高斯分布。这些都是在分析讲道的,可以从少数演示中学习。然而,原始PROMP制定和随后的方法都仅为特定运动适应问题提供解决方案,例如障碍避免,以及普遍的,统一的适应概率方法缺失。在本文中,我们开发了一种用于调整PROMP的通用概率框架。我们统一以前的适应技术,例如,各种类型的避避,通过一个框架,互相避免,在一个框架中,并将它们结合起来解决复杂的机器人问题。另外,我们推导了新颖的适应技术,例如时间上未结合的通量和互相避免。我们制定适应作为约束优化问题,在那里我们最小化适应的分布与原始原始的分布之间的kullback-leibler发散,而我们限制了与不希望的轨迹相关的概率质量为低电平。我们展示了我们在双机器人手臂设置中的模拟平面机器人武器和7-DOF法兰卡 - Emika机器人的若干适应问题的方法。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
神经辐射场(NERF)最近被成为自然,复杂3D场景的代表的强大范例。 NERFS表示神经网络中的连续体积密度和RGB值,并通过射线跟踪从看不见的相机观点生成照片逼真图像。我们提出了一种算法,用于通过仅使用用于本地化的板载RGB相机表示为NERF的3D环境导航机器人。我们假设现场的NERF已经预先训练了离线,机器人的目标是通过NERF中的未占用空间导航到目标姿势。我们介绍了一种轨迹优化算法,其避免了基于NERF中的高密度区域的碰撞,其基于差分平整度的离散时间版本,其可用于约束机器人的完整姿势和控制输入。我们还介绍了基于优化的过滤方法,以估计单位的RGB相机中的NERF中机器人的6dof姿势和速度。我们将轨迹策划器与在线重新循环中的姿势过滤器相结合,以提供基于视觉的机器人导航管道。我们使用丛林健身房环境,教堂内部和巨石阵线导航的四轮车机器人,使用RGB相机展示仿真结果。我们还展示了通过教会导航的全向地面机器人,要求它重新定位以缩小差距。这项工作的视频可以在https://mikh3x4.github.io/nerf-navigation/找到。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
本文着重于影响弹性的移动机器人的碰撞运动计划和控制的新兴范式转移,并开发了一个统一的层次结构框架,用于在未知和部分观察的杂物空间中导航。在较低级别上,我们开发了一种变形恢复控制和轨迹重新启动策略,该策略处理可能在本地运行时发生的碰撞。低级系统会积极检测碰撞(通过内部内置的移动机器人上的嵌入式霍尔效应传感器),使机器人能够从其内部恢复,并在本地调整后影响后的轨迹。然后,在高层,我们提出了一种基于搜索的计划算法,以确定如何最好地利用潜在的碰撞来改善某些指标,例如控制能量和计算时间。我们的方法建立在A*带有跳跃点的基础上。我们生成了一种新颖的启发式功能,并进行了碰撞检查和调整技术,从而使A*算法通过利用和利用可能的碰撞来更快地收敛到达目标。通过将全局A*算法和局部变形恢复和重新融合策略以及该框架的各个组件相结合而生成的整体分层框架在模拟和实验中都经过了广泛的测试。一项消融研究借鉴了与基于搜索的最先进的避免碰撞计划者(用于整体框架)的链接,以及基于搜索的避免碰撞和基于采样的碰撞 - 碰撞 - 全球规划师(对于更高的较高的碰撞 - 等级)。结果证明了我们的方法在未知环境中具有碰撞的运动计划和控制的功效,在2D中运行的一类撞击弹性机器人具有孤立的障碍物。
translated by 谷歌翻译
We propose a path planning methodology for a mobile robot navigating through an obstacle-filled environment to generate a reference path that is traceable with moderate sensing efforts. The desired reference path is characterized as the shortest path in an obstacle-filled Gaussian belief manifold equipped with a novel information-geometric distance function. The distance function we introduce is shown to be an asymmetric quasi-pseudometric and can be interpreted as the minimum information gain required to steer the Gaussian belief. An RRT*-based numerical solution algorithm is presented to solve the formulated shortest-path problem. To gain insight into the asymptotic optimality of the proposed algorithm, we show that the considered path length function is continuous with respect to the topology of total variation. Simulation results demonstrate that the proposed method is effective in various robot navigation scenarios to reduce sensing costs, such as the required frequency of sensor measurements and the number of sensors that must be operated simultaneously.
translated by 谷歌翻译
当许多机器人必须在狭窄的空间中一起工作时,可以通过向前时间窗口进行精确的协调计划,可以安全,高效的运动,但这通常需要对所有设备的集中控制,这很难扩展。我们演示了GBP计划,这是一种基于高斯信念传播的多机器人计划问题的新型纯粹分布技术,该技术由定义动态和碰撞约束的通用因素图制成。在模拟中,我们表明我们的方法允许极高的性能协作计划,在繁忙,复杂的场景中,机器人能够互相交叉。即使在沟通失败的情况下,它们也比替代分布式计划技术保持更短,更快,更光滑的轨迹。
translated by 谷歌翻译
多机器人系统通过整体对应物提供增强的能力,但它们以增加的协调复杂化。为了减少复杂性并使文献中的多机器人运动规划(MRMP)方法采用牺牲最优性或动态可行性的解耦方法采用解耦方法。在本文中,我们提出了一种凸起方法,即“抛物线弛豫”,为所有机器人的耦合关节空间中MRMP产生最佳和动态可行的轨迹。我们利用建议的放松来解决问题复杂性,并在极端集群环境中规划超过一百个机器人的计算途径。我们采取了一种多级优化方法,包括i)数学地配制MRMP作为非凸优化,II)将问题提升到更高的尺寸空间,III)通过所提出的计算有效的抛物线松弛和IV凸出问题。使用迭代搜索惩罚,以确保对原始问题的可行性和近最佳解决方案的可行性和恢复。我们的数值实验表明,所提出的方法能够在比最先进的成功率上具有更高成功率的挑战运动规划问题的最佳和动态可行的轨迹,但在高度密集的环境中,在一百个机器人中仍然在计算上仍然在计算上。 。
translated by 谷歌翻译
有效的轨迹优化对于避免非结构化环境中的碰撞至关重要,但在解决方案中具有速度和质量仍然具有挑战性。一个原因是二阶最优性需要计算Hessian矩阵,这些矩阵可以使用$ O(n ^ 2)$与航点的数量一起生长。减少航点可以二次降低计算时间。不幸的是,更少的航点导致较低的质量轨迹,可能无法避免碰撞。要拥有密集的航点和计算时间,我们从最近的共识优化研究中获取了灵感,并提出了分布式配方的搭配轨迹优化。它将长期轨迹分成几个段,其中每个段都成为几个航路点的子问题。这些子问题是经典的,但并行解决,并且解决方案与共识约束融合到单个轨迹中,这通过共识更新来强制段的连续性。利用该方案,二次复杂性分布在每个段中,并通过更密集的航点来解决高质量的轨迹。此外,所提出的配方可以使用任何现有的轨迹优化器来解决子问题。我们比较我们对领先运动规划算法的轨迹分裂的实现的性能,并展示了我们方法的改进的计算效率。
translated by 谷歌翻译
我们提出了一种从本地最佳示范中学习被代表为高斯过程(GPS)的学习限制的方法。我们的方法使用Karush-Kuhn-Tucker(KKT)最优状态来确定在该规约紧密的演示中的位置,以及这些状态的约束梯度的缩放。然后,我们训练约束的GP表示,这是一致的,并概括了这些信息。我们进一步表明,GP不确定性可以在Kinodynamic RRT内使用以计划概率 - 安全的轨迹,并且我们可以利用计划者内的GP结构来恰好实现指定的安全概率。我们展示了我们的方法可以学习复杂的非线性约束,在5D非整理车,12D四轮机器和3连杆平面臂上演示,所有这些都是在需要最小的限制信息。我们的结果表明学习的GP约束是准确的,优于先前的约束学习方法,需要更高的先验知识。
translated by 谷歌翻译
我们研究了由测量和过程噪声引起的不确定性的动态系统的规划问题。测量噪声导致系统状态可观察性有限,并且过程噪声在给定控制的结果中导致不确定性。问题是找到一个控制器,保证系统在有限时间内达到所需的目标状态,同时避免障碍物,至少需要一些所需的概率。由于噪音,此问题不承认一般的精确算法或闭合性解决方案。我们的主要贡献是一种新颖的规划方案,采用卡尔曼滤波作为状态估计器,以获得动态系统的有限状态抽象,我们将作为马尔可夫决策过程(MDP)正式化。通过延长概率间隔的MDP,我们可以增强模型对近似过渡概率的数值不精确的鲁棒性。对于这种所谓的间隔MDP(IMDP),我们采用最先进的验证技术来有效地计算最大化目标状态概率的计划。我们展示了抽象的正确性,并提供了几种优化,旨在平衡计划的质量和方法的可扩展性。我们展示我们的方法能够处理具有6维状态的系统,该系统导致具有数万个状态和数百万个过渡的IMDP。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
基于格子的运动规划是一种混合规划方法,在那里同时由离散行动组成的计划是一种物理可行的轨迹。规划考虑了离散和持续的方面,例如在配置空间中的碰撞动作持续时间。安全运动刨削依赖于校准的安全边缘进行碰撞检查。轨迹跟踪控制器必须进一步能够可靠地在此安全裕度内执行动作,以便执行安全。在这项工作中,我们关注的是关于控制器性能随时间的内省学习和推理。使用可靠和不确定性感知的计算机学习技术来学习正常控制器执行不同动作。通过纠正执行偏差,我们可以大大降低运动动作的安全余量。推理到两者都验证学习模型是否安全,并通过使用具有较小安全余量的更准确的执行预测来改善运动计划中的碰撞检查效果。所提出的方法允许在正常情况下明确对控制器性能的认识,并及时检测异常情况下的不正确性能。使用模拟在3D中的Quadcopter的非线性动态进行评估。视频:https://youtu.be/stmzduvsumm.
translated by 谷歌翻译
本文开发了连续的蓬松蛋白可区分编程(连续PDP)的方法,该方法使机器人能够从少数稀疏的关键帧中学习目标函数。带有一些时间戳记的密钥帧是所需的任务空间输出,预计机器人将顺序遵循。密钥帧的时间戳可能与机器人的实际执行时间不同。该方法共同找到一个目标函数和一个盘绕函数,以使机器人的产生轨迹顺序遵循关键帧,并以最小的差异损失。连续的PDP通过有效求解机器人轨迹相对于未知参数的梯度,可以最大程度地减少投影梯度下降的差异损失。该方法首先在模拟机器人臂上进行评估,然后应用于6-DOF四极管,以在未建模的环境中学习目标函数。结果表明,该方法的效率,其处理密钥帧和机器人执行之间的时间错位的能力以及将客观学习对看不见的运动条件的概括。
translated by 谷歌翻译