Today's robots often interface with data-driven perception and planning models with classical model-predictive controllers (MPC). Often, such learned perception/planning models produce erroneous waypoint predictions on out-of-distribution (OoD) or even adversarial visual inputs, which increase control costs. However, today's methods to train robust perception models are largely task-agnostic - they augment a dataset using random image transformations or adversarial examples targeted at the vision model in isolation. As such, they often introduce pixel perturbations that are ultimately benign for control. In contrast to prior work that synthesizes adversarial examples for single-step vision tasks, our key contribution is to synthesize adversarial scenarios tailored to multi-step, model-based control. To do so, we use differentiable MPC methods to calculate the sensitivity of a model-based controller to errors in state estimation. We show that re-training vision models on these adversarial datasets improves control performance on OoD test scenarios by up to 36.2% compared to standard task-agnostic data augmentation. We demonstrate our method on examples of robotic navigation, manipulation in RoboSuite, and control of an autonomous air vehicle.
translated by 谷歌翻译
现代机器人需要准确的预测才能在现实世界中做出最佳决策。例如,自动驾驶汽车需要对其他代理商的未来行动进行准确的预测来计划安全轨迹。当前方法在很大程度上依赖历史时间序列来准确预测未来。但是,完全依靠观察到的历史是有问题的,因为它可能被噪声损坏,有离群值或不能完全代表所有可能的结果。为了解决这个问题,我们提出了一个新的框架,用于生成用于机器人控制的强大预测。为了建模影响未来预测的现实世界因素,我们介绍了对手的概念,对敌人观察到了历史时间序列,以增加机器人的最终控制成本。具体而言,我们将这种交互作用建模为机器人的预报器和这个假设对手之间的零和两人游戏。我们证明,我们建议的游戏可以使用基于梯度的优化技术来解决本地NASH均衡。此外,我们表明,经过我们方法训练的预报员在分布外现实世界中的变化数据上的效果要比基线比基线更好30.14%。
translated by 谷歌翻译
神经辐射场(NERF)最近被成为自然,复杂3D场景的代表的强大范例。 NERFS表示神经网络中的连续体积密度和RGB值,并通过射线跟踪从看不见的相机观点生成照片逼真图像。我们提出了一种算法,用于通过仅使用用于本地化的板载RGB相机表示为NERF的3D环境导航机器人。我们假设现场的NERF已经预先训练了离线,机器人的目标是通过NERF中的未占用空间导航到目标姿势。我们介绍了一种轨迹优化算法,其避免了基于NERF中的高密度区域的碰撞,其基于差分平整度的离散时间版本,其可用于约束机器人的完整姿势和控制输入。我们还介绍了基于优化的过滤方法,以估计单位的RGB相机中的NERF中机器人的6dof姿势和速度。我们将轨迹策划器与在线重新循环中的姿势过滤器相结合,以提供基于视觉的机器人导航管道。我们使用丛林健身房环境,教堂内部和巨石阵线导航的四轮车机器人,使用RGB相机展示仿真结果。我们还展示了通过教会导航的全向地面机器人,要求它重新定位以缩小差距。这项工作的视频可以在https://mikh3x4.github.io/nerf-navigation/找到。
translated by 谷歌翻译
本报告提出了微型航空车辆(MAV)自主导航的组合最优控制和感知框架在新颖的室内封闭环境中,专门用于车载传感器数据。我们使用模拟器的特权信息来为我们的感知系统生成3D空间中的最佳航点,以便我们学会模仿。培训的基于学习的感知模块又能够单独生成类似障碍避免从传感器数据(RGB + IMU)的航点。我们展示了框架跨IGIBSON模拟环境中的新颖场景的功效。
translated by 谷歌翻译
自治车辆的评估和改善规划需要可扩展的长尾交通方案。有用的是,这些情景必须是现实的和挑战性的,但不能安全地开车。在这项工作中,我们介绍努力,一种自动生成具有挑战性的场景的方法,导致给定的计划者产生不良行为,如冲突。为了维护情景合理性,关键的想法是利用基于图形的条件VAE的形式利用学习的交通运动模型。方案生成在该流量模型的潜在空间中制定了优化,通过扰乱初始的真实世界的场景来产生与给定计划者碰撞的轨迹。随后的优化用于找到“解决方案”的场景,确保改进给定的计划者是有用的。进一步的分析基于碰撞类型的群集生成的场景。我们攻击两名策划者并展示争取在这两种情况下成功地产生了现实,具有挑战性的情景。我们另外“关闭循环”并使用这些方案优化基于规则的策划器的超参数。
translated by 谷歌翻译
Sampling-based methods have become a cornerstone of contemporary approaches to Model Predictive Control (MPC), as they make no restrictions on the differentiability of the dynamics or cost function and are straightforward to parallelize. However, their efficacy is highly dependent on the quality of the sampling distribution itself, which is often assumed to be simple, like a Gaussian. This restriction can result in samples which are far from optimal, leading to poor performance. Recent work has explored improving the performance of MPC by sampling in a learned latent space of controls. However, these methods ultimately perform all MPC parameter updates and warm-starting between time steps in the control space. This requires us to rely on a number of heuristics for generating samples and updating the distribution and may lead to sub-optimal performance. Instead, we propose to carry out all operations in the latent space, allowing us to take full advantage of the learned distribution. Specifically, we frame the learning problem as bi-level optimization and show how to train the controller with backpropagation-through-time. By using a normalizing flow parameterization of the distribution, we can leverage its tractable density to avoid requiring differentiability of the dynamics and cost function. Finally, we evaluate the proposed approach on simulated robotics tasks and demonstrate its ability to surpass the performance of prior methods and scale better with a reduced number of samples.
translated by 谷歌翻译
我们为具有高维状态空间的复杂操纵任务的视觉动作计划提供了一个框架,重点是操纵可变形物体。我们为任务计划提出了一个潜在的空间路线图(LSR),这是一个基于图的结构,在全球范围内捕获了低维潜在空间中的系统动力学。我们的框架由三个部分组成:(1)映射模块(mm),该模块以图像的形式映射观测值,以提取各个状态的结构化潜在空间,并从潜在状态产生观测值,(2)LSR,LSR的LSR构建并连接包含相似状态的群集,以找到MM提取的开始和目标状态之间的潜在计划,以及(3)与LSR相应的潜在计划与相应的操作相辅相成的动作提案模块。我们对模拟的盒子堆叠和绳索/盒子操纵任务进行了彻底的调查,以及在真实机器人上执行的折叠任务。
translated by 谷歌翻译
自动车辆(AVS)必须与异构地理区域的多种人类驱动因素互动。理想情况下,AVS的车队应该共享轨迹数据,以持续地从使用基于云的分布式学习的集体经验来重新列车和改进轨迹预测模型。与此同时,这些机器人应该理想地避免上传原始驱动程序交互数据,以保护专有政策(在与其他公司共享时的见解)或保护驾驶员隐私。联合学习(FL)是一种流行的机制,用于在不泄露私人本地数据的情况下从不同的用户学习来自不同用户的云服务器模型。然而,FL通常不是强大的 - 当用户数据来自高度异构的分布时,它会学习次优模型,这是人机交互的关键标志。在本文中,我们提出了一种小型变种的个性化FL,专门从事强大的机器人学习模型到不同的用户分布。我们的算法在实际用户研究中优于2倍的标准FL基准,我们进行了我们进行的人力操作车辆必须优雅地合并标准Carla和Carlo AV模拟器中的模拟AVS。
translated by 谷歌翻译
对于旨在提供家庭服务,搜索和救援,狭窄的检查和医疗援助的机器人来说,在未知,混乱的环境中进行积极的感测和计划是一个公开挑战。尽管存在许多主动感应方法,但它们通常考虑开放空间,假设已知设置,或者大多不概括为现实世界的场景。我们介绍了活跃的神经传感方法,该方法通过手持摄像头生成机器人操纵器的运动学可行视点序列,以收集重建基础环境所需的最小观测值。我们的框架积极收集视觉RGBD观测值,将它们汇总到场景表示中,并执行对象形状推断,以避免与环境的不必要的机器人相互作用。我们使用域随机化训练我们的合成数据方法,并通过SIM到实现的传递成功地执行了其成功执行,以重建狭窄,覆盖的,现实的机柜环境,这些环境杂乱无章。由于周围的障碍物和环境较低的照明条件,自然机柜场景对机器人运动和场景重建构成了重大挑战。然而,尽管设置不利,但就各种环境重建指标(包括计划速度,观点数量和整体场景覆盖)而言,我们的方法与基线相比表现出高性能。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
为了安全操作,机器人必须能够避免在不确定的环境中发生碰撞。现有的不确定性运动计划方法通常会对高斯和障碍几何形状做出保守的假设。尽管视觉感知可以对环境提供更准确的表示,但其用于安全运动计划的使用受到神经网络的固有错误校准的限制以及获得足够数据集的挑战。为了解决这些模仿,我们建议采用经过系统增强数据集训练的深层语义分割网络的合奏,以确保可靠的概率占用信息。为了避免在运动计划中进行保守主义,我们通过基于场景的路径计划方法直接采用了概率感知。速度调度方案被应用于路径上,以确保跟踪不准确的情况。我们证明了系统数据增强与深层合奏结合的有效性以及与最新方法相比的基于方案的计划方法,并在涉及人手的实验中验证了我们的框架。
translated by 谷歌翻译
我们提出了一种从基于隐式对象编码器,神经辐射字段(NERFS)和图神经网络的图像观测值中学习组成多对象动力学模型的方法。由于其强大的3D先验,NERF已成为代表场景的流行选择。但是,大多数NERF方法都在单个场景上进行了训练,以全球模型代表整个场景,从而对新型场景进行概括,其中包含不同数量的对象,具有挑战性。取而代之的是,我们提出了一个以对象为中心的自动编码器框架,该框架将场景的多个视图映射到一组分别表示每个对象的潜在向量。潜在矢量参数化可以从中重建场景的单个nerf。基于那些潜在向量,我们在潜在空间中训练图形神经网络动力学模型,以实现动力学预测的组成性。我们方法的一个关键特征是,潜在向量被迫通过NERF解码器编码3D信息,这使我们能够在学习动力学模型中纳入结构先验,从而使长期预测与多个基线相比更加稳定。模拟和现实世界的实验表明,我们的方法可以建模和学习构图场景的动态,包括刚性和可变形对象。视频:https://dannydriess.github.io/compnerfdyn/
translated by 谷歌翻译
我们考虑空间路径规划问题。与从划痕优化新计划的经典解决方案相比,我们以与地面真理障碍物位置访问完整地图,我们以可分散的方式从数据中学到策划员,允许我们利用过去数据的统计规则。我们提出了空间规划变压器(SPT),给出了障碍地图学习通过规划长期空间依赖性来生成动作,与以迭代方式通过卷积结构传播信息的先前数据驱动规划策规范。在地面真理地图对代理人未知的情况下,我们利用预先训练的SPTS在端到端的框架中,该框架具有映射器和计划内置的映射器和规划仪的结构,允许无缝概括到分配外地图和目标。 SPTS以处理和导航任务的所有设置均优于最先进的可分散规划者,导致7-19%的绝对提高。
translated by 谷歌翻译
机器人的大多数对象操纵策略都是基于以下假设:对象是刚性(即具有固定几何形状),并且目标的细节已完全指定(例如,确切的目标姿势)。但是,有许多任务涉及人类环境中的空间关系,这些条件可能难以满足,例如弯曲和将电缆放入未知容器中。为了在非结构化的环境中开发先进的机器人操纵功能,以避免这些假设,我们提出了一个新颖的长马框架,该框架利用了对比计划来寻找有希望的协作行动。使用随机操作收集的仿真数据,我们以对比方式学习一个嵌入模型,该模型从成功的体验中编码时空信息,从而通过在潜在空间中的聚类来促进次目标计划。基于基于KePoint对应的操作参数化,我们为双臂之间的协作设计了领导者追随者控制方案。我们政策的所有模型均经过模拟自动培训,可以直接传输到现实世界环境中。为了验证所提出的框架,我们对模拟和真实环境中的环境和可及性约束,对复杂场景进行了详细的实验研究。
translated by 谷歌翻译
自然语言是表达人类意图的最直观的方式之一。但是,将指示和命令转换为机器人运动生产以及在现实世界中的部署,远非一件容易的事。的确,将机器人的固有的低水平几何形状和运动动力学约束与人类的高级语义信息相结合,振奋人心,并提出了对任务设计问题的新挑战 - 通常会通过一组静态的动作目标和命令来实现任务或硬件特定的解决方案。相反,这项工作提出了一个灵活的基于语言的框架,该框架允许使用有关先前任务或机器人信息的限制的语言命令修改通用3D机器人轨迹。通过利用预训练的语言模型,我们使用自动回归变压器将自然语言输入和上下文图像映射到3D轨迹中的变化中。我们通过模拟和现实生活实验表明,该模型可以成功遵循人类的意图,从而改变了多个机器人平台和环境的轨迹的形状和速度。这项研究迈出了建立机器人技术的大型预训练的基础模型的一步,并展示了这样的模型如何在人与机器之间建立更直观,更灵活的相互作用。代码库可在以下网址提供:https://github.com/arthurfenderbucker/nl_traimptory_reshaper。
translated by 谷歌翻译
使用深神经网络(DNN)的轨迹预测是自主驾驶(AD)系统的重要组成部分。但是,这些方法容易受到对抗攻击的影响,从而导致严重的后果,例如碰撞。在这项工作中,我们确定了两种关键要素,以捍卫轨迹预测模型,以防止(1)设计有效的对抗训练方法,以及(2)添加特定领域的数据增强以减轻清洁数据的性能降低。我们证明,与经过干净数据训练的模型相比,我们的方法能够在对抗数据上的性能提高46%,而在干净数据上只有3%的性能退化。此外,与现有的强大方法相比,我们的方法可以在对抗性示例中提高21%的性能,而在清洁数据上可以提高9%。我们的健壮模型与计划者一起评估,以研究其下游影响。我们证明我们的模型可以大大降低严重的事故率(例如碰撞和越野驾驶)。
translated by 谷歌翻译
在许多领域,包括强化学习和控制在内的许多领域,从一系列高维观测中学习或识别动力学是一个困难的挑战。最近通过潜在动力学从生成的角度研究了这个问题:将高维观测结果嵌入到较低维的空间中,可以在其中学习动力学。尽管取得了一些成功,但尚未将潜在动力学模型应用于现实世界的机器人系统,在这些机器人系统中,学习的表示形式必须适合各种感知混杂和噪声源。在本文中,我们提出了一种共同学习潜在状态表示的方法以及在感知困难条件下的长期计划和闭环控制的相关动力。作为我们的主要贡献,我们描述了我们的表示如何能够通过检测新颖或分布(OOD)输入来捕获测试时间的异质或输入特异性不确定性的概念。我们介绍了有关两个基于图像的任务的预测和控制实验的结果:一个模拟的摆平衡任务和实现任务的现实世界机器人操纵器。我们证明,与仅在不同程度的输入降解的情况下,我们的模型可产生更准确的预测,并表现出改善的控制性能。
translated by 谷歌翻译
Sociability is essential for modern robots to increase their acceptability in human environments. Traditional techniques use manually engineered utility functions inspired by observing pedestrian behaviors to achieve social navigation. However, social aspects of navigation are diverse, changing across different types of environments, societies, and population densities, making it unrealistic to use hand-crafted techniques in each domain. This paper presents a data-driven navigation architecture that uses state-of-the-art neural architectures, namely Conditional Neural Processes, to learn global and local controllers of the mobile robot from observations. Additionally, we leverage a state-of-the-art, deep prediction mechanism to detect situations not similar to the trained ones, where reactive controllers step in to ensure safe navigation. Our results demonstrate that the proposed framework can successfully carry out navigation tasks regarding social norms in the data. Further, we showed that our system produces fewer personal-zone violations, causing less discomfort.
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
我们介绍了栖息地2.0(H2.0),这是一个模拟平台,用于培训交互式3D环境和复杂物理的场景中的虚拟机器人。我们为体现的AI堆栈 - 数据,仿真和基准任务做出了全面的贡献。具体来说,我们提出:(i)复制:一个由艺术家的,带注释的,可重新配置的3D公寓(匹配真实空间)与铰接对象(例如可以打开/关闭的橱柜和抽屉); (ii)H2.0:一个高性能物理学的3D模拟器,其速度超过8-GPU节点上的每秒25,000个模拟步骤(实时850x实时),代表先前工作的100倍加速;和(iii)家庭助理基准(HAB):一套辅助机器人(整理房屋,准备杂货,设置餐桌)的一套常见任务,以测试一系列移动操作功能。这些大规模的工程贡献使我们能够系统地比较长期结构化任务中的大规模加固学习(RL)和经典的感官平面操作(SPA)管道,并重点是对新对象,容器和布局的概括。 。我们发现(1)与层次结构相比,(1)平面RL政策在HAB上挣扎; (2)具有独立技能的层次结构遭受“交接问题”的困扰,(3)水疗管道比RL政策更脆。
translated by 谷歌翻译