我们解决了在手动操纵期间从触摸跟踪3D对象姿势的问题。具体地,我们使用基于视觉的触觉传感器来看看追踪小物体,该触觉传感器在接触点提供高维触觉图像测量。虽然事先工作依赖于有关已本地化对象的先验信息,但我们删除此要求。我们的关键识别是,一个对象由几个本地曲面修补程序组成,每个界面都足以实现可靠的对象跟踪。此外,我们可以通过提取嵌入在每个触觉图像中的局部表面正常信息在线恢复此本地补丁的几何形状。我们提出了一种新的两阶段方法。首先,我们使用图像翻译网络学习从触觉图像到曲面法线的映射。其次,我们在因子图中使用这些表面法线到两个重建本地补丁映射并使用它来推断3D对象姿势。我们展示了在唯一形状的100多个联系序列中跟踪可靠的对象跟踪,其中仿真中的四个对象和现实世界中的两个对象。补充视频:https://youtu.be/jwntc9_nh8m
translated by 谷歌翻译
在本文中,我们提出了TAC2POSE,这是一种特定于对象的触觉方法,从首次触摸已知对象的触觉估计。鉴于对象几何形状,我们在模拟中学习了一个量身定制的感知模型,该模型估计了给定触觉观察的可能对象姿势的概率分布。为此,我们模拟了一个密集的物体姿势将在传感器上产生的密集对象姿势的接触形状。然后,鉴于从传感器获得的新接触形状,我们使用使用对比度学习学习的对象特定于对象的嵌入式将其与预计集合进行了匹配。我们从传感器中获得接触形状,并具有对象不足的校准步骤,该步骤将RGB触觉观测值映射到二进制接触形状。该映射可以在对象和传感器实例上重复使用,是唯一接受真实传感器数据训练的步骤。这导致了一种感知模型,该模型从第一个真实的触觉观察中定位对象。重要的是,它产生姿势分布,并可以纳入来自其他感知系统,联系人或先验的其他姿势限制。我们为20个对象提供定量结果。 TAC2POSE从独特的触觉观测中提供了高精度的姿势估计,同时回归有意义的姿势分布,以说明可能由不同对象姿势产生的接触形状。我们还测试了从3D扫描仪重建的对象模型上的TAC2POSE,以评估对象模型中不确定性的鲁棒性。最后,我们证明了TAC2POSE的优势与三种基线方法进行触觉姿势估计:直接使用神经网络回归对象姿势,将观察到的接触与使用标准分类神经网络的一组可能的接触匹配,并直接的像素比较比较观察到的一组可能的接触接触。网站:http://mcube.mit.edu/research/tac2pose.html
translated by 谷歌翻译
我们解决了学习观察模型的问题,用于估计的结束到底。在部分可观察环境中运行的机器人必须使用捕捉潜在状态和观察之间的联合分布的观测模型来推断潜在的状态。该推理问题可以作为使用所有先前测量的最可能的状态序列优化的图表中的目标。前工作使用观察模型,即已知先验,或者独立于图形优化器的代理损耗培训。在本文中,我们提出了一种方法,通过在循环中使用图形优化器学习观察模型来直接优化端到端跟踪性能。然而,可能出现这种直接方法,要求推断算法完全可分辨率,这很多最先进的图表优化器不是。我们的主要洞察力是推出作为基于能源学习的问题。我们提出了一种新颖的方法,Leo,用于学习观察模型的结束,具有可能是不可差异的图优化器。 Leo在从图形后面的采样轨迹之间交替,并更新模型以将这些样本与地面真相轨迹匹配。我们建议使用增量高斯牛顿溶剂有效地生成这些样品。我们将Leo与来自两个独特任务的数据集上的基线进行比较:导航和现实世界的平面推动。我们表明Leo能够学习具有较低误差和更少样本的复杂观测模型。补充视频:https://youtu.be/yqzlupudfka
translated by 谷歌翻译
能够重现从光相互作用到接触力学的物理现象,模拟器在越来越多的应用程序域变得越来越有用,而现实世界中的相互作用或标记数据很难获得。尽管最近取得了进展,但仍需要大量的人为努力来配置模拟器以准确地再现现实世界的行为。我们介绍了一条管道,将反向渲染与可区分的模拟相结合,从而从深度或RGB视频中创建数字双铰接式机制。我们的方法自动发现关节类型并估算其运动学参数,而整体机制的动态特性则调整为实现物理准确的模拟。正如我们在模拟系统上所证明的那样,在我们的派生模拟传输中优化的控制策略成功地回到了原始系统。此外,我们的方法准确地重建了由机器人操纵的铰接机制的运动学树,以及现实世界中耦合的摆机制的高度非线性动力学。网站:https://Eric-heiden.github.io/video2sim
translated by 谷歌翻译
我们探索一种新的方法来感知和操纵3D铰接式物体,该物体可以概括地使机器人阐明看不见的对象。我们提出了一个基于视觉的系统,该系统学会预测各种铰接物体的各个部分的潜在运动,以指导系统的下游运动计划以表达对象。为了预测对象运动,我们训练一个神经网络,以输出一个密集的向量场,代表点云中点云中点的点运动方向。然后,我们根据该向量领域部署一个分析运动计划者,以实现产生最大发音的政策。我们完全在模拟中训练视觉系统,并演示了系统在模拟和现实世界中概括的对象实例和新颖类别的能力,并将我们的政策部署在没有任何填充的锯耶机器人上。结果表明,我们的系统在模拟和现实世界实验中都达到了最先进的性能。
translated by 谷歌翻译
共处的触觉传感是一种基本的启发技术,用于灵巧操纵。然而,可变形的传感器在机器人,握住的对象和环境之间引入了复杂的动力学,必须考虑进行精细操纵。在这里,我们提出了一种学习软触觉传感器膜动力学的方法,该动力学解释了由握把对象和环境之间的物理相互作用引起的传感器变形。我们的方法将膜的感知3D几何形状与本体感受反应扳手结合在一起,以预测以机器人作用为条件的未来变形。从膜的几何形状和反应扳手中回收了抓握的物体姿势,从触觉观察模型中解耦相互作用动力学。我们在两个现实世界的接触任务上基准了我们的方法:用握把标记和手中旋转的绘画。我们的结果表明,明确建模膜动力学比基准实现了更好的任务性能和对看不见的对象的概括。
translated by 谷歌翻译
在这项工作中,我们解决了共同跟踪手对象姿势并从野外深度点云序列重建形状的具有挑战性,HandTrackNet,以估计框架间的手动运动。我们的HandTrackNet提出了一个新型的手姿势构成典型化模块,以简化跟踪任务,从而产生准确且稳健的手工关节跟踪。然后,我们的管道通过将预测的手关节转换为基于模板的参数手模型mano来重建全手。对于对象跟踪,我们设计了一个简单而有效的模块,该模块从第一帧估算对象SDF并执行基于优化的跟踪。最后,采用联合优化步骤执行联合手和物体推理,从而减轻了闭塞引起的歧义并进一步完善了手姿势。在训练过程中,整个管道仅看到纯粹的合成数据,这些数据与足够的变化并通过深度模拟合成,以易于概括。整个管道与概括差距有关,因此可以直接传输到真实的野外数据。我们在两个真实的手对象交互数据集上评估我们的方法,例如HO3D和DEXYCB,没有任何填充。我们的实验表明,所提出的方法显着优于先前基于深度的手和对象姿势估计和跟踪方法,以9 fps的帧速率运行。
translated by 谷歌翻译
机器人对高度可变形的布的操纵提供了一个有前途的机会,可以帮助人们完成几项日常任务,例如洗碗;折叠洗衣;或针对患有严重运动障碍的人的敷料,沐浴和卫生援助。在这项工作中,我们介绍了一种公式,该公式使协作机器人能够用布做出视觉触觉推理,这是在物理互动过程中推断应用力的位置和大小的行为。我们提出了两种不同的模型表示,并在物理模拟中训练,它们仅使用视觉和机器人运动学观测来实现触觉推理。我们对这些模型进行了定量评估,以模拟机器人辅助的调味料,沐浴和洗碗任务,并证明训练有素的模型可以通过不同的相互作用,人体大小和物体形状跨越不同的任务。我们还通过现实世界中的移动操纵器提出了结果,该操作器使用我们的模拟训练模型来估计应用接触力,同时用布料执行物理辅助任务。可以在我们的项目网页上找到视频。
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
微弱的物理是计算机视觉和机器人的强大工具,用于了解互动的场景理解和推理。现有方法经常被限于具有预先已知的简单形状或形状的物体。在本文中,我们提出了一种新的方法来具有摩擦触点的可分解物理学,其利用符号距离场(SDF)隐含地表示物理形状。我们的模拟即使涉及的形状为非凸形表示,也支持接触点计算。此外,我们提出了区分对象形状的动力学来利用基于梯度的方法来促进形状优化。在我们的实验中,我们证明我们的方法允许从轨迹和深度图像观察的诸如摩擦系数,质量,力或形状参数的物理参数的基于模型的推断,并且在几个具有挑战性的合成场景和真实图像序列中。
translated by 谷歌翻译
我们呈现虚拟弹性物体(VEOS):虚拟物体,不仅看起来像他们的真实同行,而且也表现得像他们一样,即使在进行新颖的互动时也是如此。实现这一挑战:不仅必须捕获对象,包括对它们上的物理力量,然后忠实地重建和呈现,而且还发现和模拟了合理的材料参数。要创建VEOS,我们构建了一个多视图捕获系统,捕获压缩空气流的影响下的物体。建立近期型号动态神经辐射区域的进步,我们重建了物体和相应的变形字段。我们建议使用可差异的基于粒子的模拟器来使用这些变形字段来查找代表性的材料参数,这使我们能够运行新的模拟。为了渲染模拟对象,我们设计了一种用神经辐射场将模拟结果集成的方法。结果方法适用于各种场景:它可以处理由非均匀材料组成的物体,具有非常不同的形状,它可以模拟与其他虚拟对象的交互。我们在各种力字段下使用12个对象的新收集的数据集介绍了我们的结果,这将与社区共享。
translated by 谷歌翻译
尽管常规机器人系统中的每个不同任务都需要专用的场景表示形式,但本文表明,统一表示形式可以直接用于多个关键任务。我们提出了用于映射,进程和计划(LOG-GPIS-MOP)的log-gaussian过程隐式表面:基于统一表示形式的表面重建,本地化和导航的概率框架。我们的框架将对数转换应用于高斯过程隐式表面(GPIS)公式,以恢复全局表示,该表示可以准确地捕获具有梯度的欧几里得距离场,同时又是隐式表面。通过直接估计距离字段及其通过LOG-GPIS推断的梯度,提出的增量进程技术计算出传入帧的最佳比对,并在全球范围内融合以生成MAP。同时,基于优化的计划者使用相同的LOG-GPIS表面表示计算安全的无碰撞路径。我们根据最先进的方法验证了2D和3D和3D和基准测试的模拟和真实数据集的拟议框架。我们的实验表明,LOG-GPIS-MOP在顺序的音程,表面映射和避免障碍物中产生竞争结果。
translated by 谷歌翻译
我们提出了TOCH,这是一种使用数据先验来完善不正确的3D手对象交互序列的方法。现有的手动跟踪器,尤其是那些依靠很少相机的手动跟踪器,通常会通过手动相交或缺失的触点产生视觉上不切实际的结果。尽管纠正此类错误需要有关交互的时间方面的推理,但大多数以前的作品都集中在静态抓取和触点上。我们方法的核心是Toch Fields,这是一种新颖的时空表示,用于在交互过程中建模手和物体之间的对应关系。 Toch字段是一个以对象为中心的表示,它相对于对象编码手的位置。利用这种新颖的表示,我们学习了具有暂时性的自动编码器的合理象征领域的潜在流形。实验表明,Toch优于最先进的3D手动相互作用模型,这些模型仅限于静态抓取和触点。更重要的是,我们的方法甚至在接触之前和之后都会产生平滑的相互作用。使用单个训练有素的TOCH模型,我们定量和定性地证明了其有用性,可用于纠正现成的RGB/RGB/RGB-D手动重建方法,并跨对象传输grasps。
translated by 谷歌翻译
高分辨率光触觉传感器越来越多地用于机器人学习环境中,因为它们能够捕获与试剂环境相互作用直接相关的大量数据。但是,由于触觉机器人平台的高成本,专业的仿真软件以及在不同传感器之间缺乏通用性的模拟方法,因此在该领域的研究障碍很高。在这封信中,我们将触觉健身房的模拟器扩展到两种最受欢迎​​的类型类型的三个新的光学触觉传感器(Tactip,Digit和Digitac),分别是Gelsight Style(基于图像遮蔽)和Tactip Style(基于标记)。我们证明,尽管实际触觉图像之间存在显着差异,但可以与这三个不同的传感器一起使用单个SIM到实现的方法,以实现强大的现实性能。此外,我们通过将其调整为廉价的4道机器人组来降低对拟议任务的进入障碍,从而进一步使该基准的传播。我们在三个需要触摸感的身体相互交互的任务上验证了扩展环境:对象推动,边缘跟随和表面跟随。我们实验验证的结果突出了这些传感器之间的一些差异,这可能有助于未来的研究人员选择并自定义触觉传感器的物理特征,以进行不同的操纵场景。
translated by 谷歌翻译
通常,非刚性登记的问题是匹配在两个不同点拍摄的动态对象的两个不同扫描。这些扫描可以进行刚性动作和非刚性变形。由于模型的新部分可能进入视图,而其他部件在两个扫描之间堵塞,则重叠区域是两个扫描的子集。在最常规的设置中,没有给出先前的模板形状,并且没有可用的标记或显式特征点对应关系。因此,这种情况是局部匹配问题,其考虑了随后的扫描在具有大量重叠区域的情况下进行的扫描经历的假设[28]。本文在环境中寻址的问题是同时在环境中映射变形对象和本地化摄像机。
translated by 谷歌翻译
触摸感在使人类能够理解和与周围环境互动方面发挥着关键作用。对于机器人,触觉感应也是不可替代的。在与物体交互时,触觉传感器为机器人提供了理解物体的有用信息,例如分布式压力,温度,振动和纹理。在机器人抓住期间,视力通常由其最终效应器封闭,而触觉感应可以测量视觉无法访问的区域。在过去的几十年中,已经为机器人开发了许多触觉传感器,并用于不同的机器人任务。在本章中,我们专注于使用触觉对机器人抓握的触觉,并研究近期对物质性质的触觉趋势。我们首先讨论了术语,即形状,姿势和材料特性对三个重要的物体特性的触觉感知。然后,我们通过触觉感应审查抓握稳定性预测的最新发展。在这些作品中,我们确定了在机器人抓握中协调视觉和触觉感应的要求。为了证明使用触觉传感来提高视觉感知,介绍了我们最近的抗议重建触觉触觉感知的发展。在所提出的框架中,首先利用相机视觉的大型接收领域以便快速搜索含有裂缝的候选区域,然后使用高分辨率光学触觉传感器来检查这些候选区域并重建精制的裂缝形状。实验表明,我们所提出的方法可以实现0.82mm至0.24mm的平均距离误差的显着降低,以便重建。最后,我们在讨论了对机器人任务中施加触觉感应的公开问题和未来方向的讨论。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的对象级映射系统,该系统可以同时在动态场景中分段,跟踪和重建对象。它可以通过对深度输入的重建和类别级别的重建来进一步预测并完成其完整的几何形状,其目的是完成对象几何形状会导致更好的对象重建和跟踪准确性。对于每个传入的RGB-D帧,我们执行实例分割以检测对象并在检测和现有对象图之间构建数据关联。将为每个无与伦比的检测创建一个新的对象映射。对于每个匹配的对象,我们使用几何残差和差分渲染残留物共同优化其姿势和潜在的几何表示形式,并完成其形状之前和完成的几何形状。与使用传统的体积映射或学习形状的先验方法相比,我们的方法显示出更好的跟踪和重建性能。我们通过定量和定性测试合成和现实世界序列来评估其有效性。
translated by 谷歌翻译
增加机器人触觉感应的性能使多功能,手动操纵能够。视觉的触觉传感器已被广泛使用,因为富有的触觉反馈已被证明与操作任务的性能增加相关。具有高分辨率的现有触觉传感器解决方案具有包括低精度,昂贵的组件或缺乏可扩展性的限制。在本文中,提出了具有用于3D传感器表面的高分辨率表面变形建模的廉价,可伸缩和紧凑的触觉传感器。通过测量来自Fisheye相机的图像,表明传感器可以通过使用深卷积神经网络成功地估计实时(1.8ms)的表面变形。该传感器在其设计和传感能力中表示通过高分辨率形状重建实现更好的对象的携手局部定位,分类和表面估计的重要一步。
translated by 谷歌翻译
我们呈现神经描述符字段(NDFS),对象表示,其通过类别级别描述符在对象和目标(例如用于悬挂的机器人夹具或用于悬挂的机架)之间进行编码和相对姿势。我们使用此表示进行对象操作,在这里,在给定任务演示时,我们要在同一类别中对新对象实例重复相同的任务。我们建议通过搜索(通过优化)来实现这一目标,为演示中观察到的描述符匹配的姿势。 NDFS通过不依赖于专家标记的关键点的3D自动编码任务,方便地以自我监督的方式培训。此外,NDFS是SE(3) - 保证在所有可能的3D对象翻译和旋转中推广的性能。我们展示了在仿真和真正的机器人上的少数(5-10)示范中的操纵任务的学习。我们的性能遍历两个对象实例和6-DOF对象姿势,并且显着优于最近依赖于2D描述符的基线。项目网站:https://yilundu.github.io/ndf/。
translated by 谷歌翻译
机器人需要在约束环境(例如架子和橱柜)中操纵物体,以帮助人类在房屋和办公室等日常设置中。这些限制因减少掌握能力而变得难以操纵,因此机器人需要使用非忽视策略来利用对象环境联系来执行操纵任务。为了应对在这种情况下规划和控制接触性富裕行为的挑战,该工作使用混合力量速度控制器(HFVC)作为技能表示和计划的技能序列,并使用学到的先决条件进行了计划。尽管HFVC自然能够实现稳健且合规的富裕行为,但合成它们的求解器传统上依赖于精确的对象模型和对物体姿势的闭环反馈,这些反馈因遮挡而在约束环境中很难获得。我们首先使用HFVC综合框架放松了HFVC对精确模型和反馈的需求,然后学习一个基于点云的前提函数,以对HFVC执行仍将成功地进行分类,尽管建模不正确。最后,我们在基于搜索的任务计划者中使用学到的前提来完成货架域中的接触式操纵任务。我们的方法达到了$ 73.2 \%$的任务成功率,表现优于基线实现的$ 51.5 \%$,而没有学习的先决条件。在模拟中训练了前提函数时,它也可以转移到现实世界中,而无需进行其他微调。
translated by 谷歌翻译