能够重现从光相互作用到接触力学的物理现象,模拟器在越来越多的应用程序域变得越来越有用,而现实世界中的相互作用或标记数据很难获得。尽管最近取得了进展,但仍需要大量的人为努力来配置模拟器以准确地再现现实世界的行为。我们介绍了一条管道,将反向渲染与可区分的模拟相结合,从而从深度或RGB视频中创建数字双铰接式机制。我们的方法自动发现关节类型并估算其运动学参数,而整体机制的动态特性则调整为实现物理准确的模拟。正如我们在模拟系统上所证明的那样,在我们的派生模拟传输中优化的控制策略成功地回到了原始系统。此外,我们的方法准确地重建了由机器人操纵的铰接机制的运动学树,以及现实世界中耦合的摆机制的高度非线性动力学。网站:https://Eric-heiden.github.io/video2sim
translated by 谷歌翻译
作为自治机器人的互动和导航在诸如房屋之类的真实环境中,可靠地识别和操纵铰接物体,例如门和橱柜是有用的。在对象铰接识别中许多先前的作品需要通过机器人或人类操纵物体。虽然最近的作品已经解决了从视觉观测的预测,但他们经常假设根据其运动约束的铰接部件移动的类别级运动模型或观察序列的先验知识。在这项工作中,我们提出了Formnet,是一种神经网络,该神经网络识别来自RGB-D图像和分段掩模的单帧对象部分的对象部分之间的铰接机制。从6个类别的149个铰接对象的100K合成图像培训网络培训。通过具有域随机化的光保护模拟器呈现合成图像。我们所提出的模型预测物体部件的运动残余流动,并且这些流量用于确定铰接类型和参数。该网络在训练有素的类别中的新对象实例上实现了82.5%的铰接式分类精度。实验还展示了该方法如何实现新颖类别的泛化,并且在没有微调的情况下应用于现实世界图像。
translated by 谷歌翻译
我们探索一种新的方法来感知和操纵3D铰接式物体,该物体可以概括地使机器人阐明看不见的对象。我们提出了一个基于视觉的系统,该系统学会预测各种铰接物体的各个部分的潜在运动,以指导系统的下游运动计划以表达对象。为了预测对象运动,我们训练一个神经网络,以输出一个密集的向量场,代表点云中点云中点的点运动方向。然后,我们根据该向量领域部署一个分析运动计划者,以实现产生最大发音的政策。我们完全在模拟中训练视觉系统,并演示了系统在模拟和现实世界中概括的对象实例和新颖类别的能力,并将我们的政策部署在没有任何填充的锯耶机器人上。结果表明,我们的系统在模拟和现实世界实验中都达到了最先进的性能。
translated by 谷歌翻译
微弱的物理是计算机视觉和机器人的强大工具,用于了解互动的场景理解和推理。现有方法经常被限于具有预先已知的简单形状或形状的物体。在本文中,我们提出了一种新的方法来具有摩擦触点的可分解物理学,其利用符号距离场(SDF)隐含地表示物理形状。我们的模拟即使涉及的形状为非凸形表示,也支持接触点计算。此外,我们提出了区分对象形状的动力学来利用基于梯度的方法来促进形状优化。在我们的实验中,我们证明我们的方法允许从轨迹和深度图像观察的诸如摩擦系数,质量,力或形状参数的物理参数的基于模型的推断,并且在几个具有挑战性的合成场景和真实图像序列中。
translated by 谷歌翻译
对于移动机器人而言,与铰接式对象的交互是一项具有挑战性但重要的任务。为了应对这一挑战,我们提出了一条新型的闭环控制管道,该管道将负担能力估计的操纵先验与基于采样的全身控制相结合。我们介绍了完全反映了代理的能力和体现的代理意识提供的概念,我们表明它们的表现优于其最先进的对应物,这些对应物仅以最终效果的几何形状为条件。此外,发现闭环负担推论使代理可以将任务分为多个非连续运动,并从失败和意外状态中恢复。最后,管道能够执行长途移动操作任务,即在现实世界中开放和关闭烤箱,成功率很高(开放:71%,关闭:72%)。
translated by 谷歌翻译
我们提出了体面意识的人类姿势估计,我们根据模拟代理的本体感受和场景意识以及外部第三人称观察来估计3D构成。与经常诉诸多阶段优化的先前方法不同,非因果推理和复杂的接触建模以估计人类姿势和人类场景的相互作用,我们的方法是一个阶段,因果关系,并在模拟环境中恢复全局3D人类姿势。由于2D第三人称观察与相机姿势结合在一起,我们建议解开相机姿势,并使用在全球坐标框架中定义的多步投影梯度作为我们体现的代理的运动提示。利用物理模拟和预先的场景(例如3D网格),我们在日常环境(库,办公室,卧室等)中模拟代理,并为我们的代理配备环境传感器,以智能导航和与场景的几何形状进行智能导航和互动。我们的方法还仅依靠2D关键点,并且可以在来自流行人类运动数据库的合成数据集上进行培训。为了评估,我们使用流行的H36M和Prox数据集,并首次在具有挑战性的Prox数据集中获得96.7%的成功率,而无需使用Prox运动序列进行培训。
translated by 谷歌翻译
运动结构在现实世界中非常普遍。它们范围从简单的铰接物对象到复杂的机械系统。但是,尽管它们相关,但大多数基于模型的3D跟踪方法仅考虑刚性对象。为了克服这一限制,我们提出了一个灵活的框架,该框架允许将现有的6DOF算法扩展到运动结构。我们的方法着重于采用类似牛顿的优化技术的方法,这些方法广泛用于对象跟踪中。该框架考虑了树状和封闭的运动学结构,并允许对关节和约束的灵活配置。为了从单个刚体到多体系统的项目方程式,使用了雅各布人。对于封闭的运动链,开发了一种具有Lagrange乘数的新型配方。在详细的数学证明中,我们表明我们的约束配方会导致精确的运动解,并在单个迭代中收敛。基于提出的框架,我们将ICG扩展到了最新的刚性对象跟踪算法,将其扩展到多体跟踪。为了进行评估,我们创建了一个高度现实的合成数据集,该数据集具有大量序列和各种机器人。基于此数据集,我们进行了多种实验,这些实验证明了开发框架和我们的多体跟踪器的出色性能。
translated by 谷歌翻译
铰接的物体在日常生活中很丰富。发现它们的部位,关节和运动学对于机器人与这些物体相互作用至关重要。我们从Action(SFA)引入结构,该框架通过一系列推断相互作用来发现3D部分的几何形状和未看到的表达对象的关节参数。我们的主要见解是,应考虑构建3D明显的CAD模型的3D相互作用和感知,尤其是在训练过程中未见的类别的情况下。通过选择信息丰富的交互,SFA发现零件并揭示最初遮挡的表面,例如封闭抽屉的内部。通过在3D中汇总视觉观测,SFA可以准确段段多个部分,重建零件几何形状,并在规范坐标框架中渗透所有关节参数。我们的实验表明,在模拟中训练的单个SFA模型可以推广到具有未知运动结构和现实世界对象的许多看不见的对象类别。代码和数据将公开可用。
translated by 谷歌翻译
内部计算模型的物理体是机器人和动物的能力来规划和控制行动的基础。这些“自我模型”允许机器人考虑多种可能的未来行动的结果,而不会在物理现实中尝试。最近的完全数据驱动自建模中的进展使机器能够直接从任务 - 不可行的交互数据学习自己的前瞻性运动学。然而,前进kinema \ -tics模型只能预测形态的有限方面,例如关节和肿块的最终效果或速度的位置。一个关键的挑战是模拟整个形态和运动学,而无需先验知识的形态的哪些方面与未来的任务相关。在这里,我们建议,而不是直接建模前瞻性,更有用的自我建模形式是一个可以回答空间占用查询的形式,而是在机器人的状态下调节空间占用疑问。这种查询驱动的自模型在空间域中是连续的,内存高效,完全可分辨:运动感知。在物理实验中,我们展示了视觉自我模型是如何准确到工作空间的百分比,使机器人能够执行各种运动规划和控制任务。视觉自我建模还可以让机器人从真实世界损坏中检测,本地化和恢复,从而提高机器弹性。我们的项目网站是:https://robot-morphology.cs.columbia.edu/
translated by 谷歌翻译
紧张的机器人由刚性杆和柔性电缆组成,表现出高强度对重的比率和极端变形,使它们能够驾驭非结构化的地形,甚至可以在严酷的冲击力上生存。但是,由于其高维,复杂的动态和耦合体系结构,它们很难控制。基于物理学的仿真是制定运动策略的途径,然后可以将其转移到真实的机器人中,但是建模时态机器人是一项复杂的任务,因此模拟会经历大量的SIM2REAL间隙。为了解决这个问题,本文介绍了台词机器人的真实2SIM2REAL策略。该策略是基于差异物理引擎的,可以在真正的机器人(即离线测量和一个随机轨迹)中进行有限的数据进行训练,并达到足够高的精度以发现可转移的运动策略。除了整体管道之外,这项工作的主要贡献包括在接触点处计算非零梯度,损失函数和轨迹分割技术,该技术避免了训练期间梯度评估的冲突。在实际的3杆张力机器人上证明并评估了所提出的管道。
translated by 谷歌翻译
机器人对高度可变形的布的操纵提供了一个有前途的机会,可以帮助人们完成几项日常任务,例如洗碗;折叠洗衣;或针对患有严重运动障碍的人的敷料,沐浴和卫生援助。在这项工作中,我们介绍了一种公式,该公式使协作机器人能够用布做出视觉触觉推理,这是在物理互动过程中推断应用力的位置和大小的行为。我们提出了两种不同的模型表示,并在物理模拟中训练,它们仅使用视觉和机器人运动学观测来实现触觉推理。我们对这些模型进行了定量评估,以模拟机器人辅助的调味料,沐浴和洗碗任务,并证明训练有素的模型可以通过不同的相互作用,人体大小和物体形状跨越不同的任务。我们还通过现实世界中的移动操纵器提出了结果,该操作器使用我们的模拟训练模型来估计应用接触力,同时用布料执行物理辅助任务。可以在我们的项目网页上找到视频。
translated by 谷歌翻译
在这项工作中,我们解决了共同跟踪手对象姿势并从野外深度点云序列重建形状的具有挑战性,HandTrackNet,以估计框架间的手动运动。我们的HandTrackNet提出了一个新型的手姿势构成典型化模块,以简化跟踪任务,从而产生准确且稳健的手工关节跟踪。然后,我们的管道通过将预测的手关节转换为基于模板的参数手模型mano来重建全手。对于对象跟踪,我们设计了一个简单而有效的模块,该模块从第一帧估算对象SDF并执行基于优化的跟踪。最后,采用联合优化步骤执行联合手和物体推理,从而减轻了闭塞引起的歧义并进一步完善了手姿势。在训练过程中,整个管道仅看到纯粹的合成数据,这些数据与足够的变化并通过深度模拟合成,以易于概括。整个管道与概括差距有关,因此可以直接传输到真实的野外数据。我们在两个真实的手对象交互数据集上评估我们的方法,例如HO3D和DEXYCB,没有任何填充。我们的实验表明,所提出的方法显着优于先前基于深度的手和对象姿势估计和跟踪方法,以9 fps的帧速率运行。
translated by 谷歌翻译
Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.
translated by 谷歌翻译
人类运动合成是机器人技术的图形,游戏和仿真环境中应用的重要问题。现有方法需要准确的运动捕获数据进行培训,这是昂贵的。取而代之的是,我们为直接从单眼RGB视频中训练物理上合理的人类运动的生成模型提出了一个框架,该模型更广泛地可用。我们方法的核心是一种新颖的优化公式,该公式通过以可区分的方式执行物理限制和有关接触的原因来纠正不完美的基于图像的姿势估计。该优化得出校正后的3D姿势和运动及其相应的接触力。结果表明,我们的物理校正运动在姿势估计上显着优于先前的工作。然后,我们可以使用它们来训练生成模型来综合未来的运动。与先前的基于运动学和物理学的方法相比,我们在人类36m数据集中〜\ cite {H36M_P​​AMI}实现了定性和定量改进的运动估计,合成质量和物理合理性。通过从视频中学习运动合成,我们的方法为大规模,现实和多样化的运动合成铺平了道路。项目页面:\ url {https://nv-tlabs.github.io/publication/iccv_2021_physics/}
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
在本文中,我们介绍一种方法来自动重建与来自单个RGB视频相互作用的人的3D运动。我们的方法估计人的3D与物体姿势,接触位置和施加在人体上的接触力的姿势。这项工作的主要贡献是三倍。首先,我们介绍一种通过建模触点和相互作用的动态来联合估计人与人的运动和致动力的方法。这是一个大规模的轨迹优化问题。其次,我们开发一种方法来从输入视频自动识别,从输入视频中识别人和物体或地面之间的2D位置和时序,从而显着简化了优化的复杂性。第三,我们在最近的视频+ Mocap数据集上验证了捕获典型的Parkour行动的方法,并在互联网视频的新数据集上展示其表现,显示人们在不受约束的环境中操纵各种工具。
translated by 谷歌翻译
神经辐射场(NERF)最近被成为自然,复杂3D场景的代表的强大范例。 NERFS表示神经网络中的连续体积密度和RGB值,并通过射线跟踪从看不见的相机观点生成照片逼真图像。我们提出了一种算法,用于通过仅使用用于本地化的板载RGB相机表示为NERF的3D环境导航机器人。我们假设现场的NERF已经预先训练了离线,机器人的目标是通过NERF中的未占用空间导航到目标姿势。我们介绍了一种轨迹优化算法,其避免了基于NERF中的高密度区域的碰撞,其基于差分平整度的离散时间版本,其可用于约束机器人的完整姿势和控制输入。我们还介绍了基于优化的过滤方法,以估计单位的RGB相机中的NERF中机器人的6dof姿势和速度。我们将轨迹策划器与在线重新循环中的姿势过滤器相结合,以提供基于视觉的机器人导航管道。我们使用丛林健身房环境,教堂内部和巨石阵线导航的四轮车机器人,使用RGB相机展示仿真结果。我们还展示了通过教会导航的全向地面机器人,要求它重新定位以缩小差距。这项工作的视频可以在https://mikh3x4.github.io/nerf-navigation/找到。
translated by 谷歌翻译
建设通用机器人在人类水平的各种环境中对大量的任务进行众所周知的复杂。它需要机器人学习是采样的,更概括的,可概括的,组成和增量。在这项工作中,我们介绍了一个称为SAGCI-System的系统学习框架,实现了超过四种要求。我们的系统首先采用由安装在机器人手腕上的摄像机收集的原始点云作为输入,并产生所代表为URDF的周围环境的初始建模。我们的系统采用了一个加载URDF的学习增强的可分辨率模拟。然后,机器人利用交互式感知来与环境交互,并修改URDF。利用模拟,我们提出了一种新的基于模型的RL算法,这些RL算法结合了以上的对象和机器人为中心的方法,以有效地产生完成操纵任务的策略。我们应用我们的系统,以进行仿真和现实世界的铰接物体操纵。广泛的实验表明了我们提出的学习框架的有效性。 https://sites.google.com/view/egci提供了补充材料和视频。
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
Recovering the skeletal shape of an animal from a monocular video is a longstanding challenge. Prevailing animal reconstruction methods often adopt a control-point driven animation model and optimize bone transforms individually without considering skeletal topology, yielding unsatisfactory shape and articulation. In contrast, humans can easily infer the articulation structure of an unknown animal by associating it with a seen articulated character in their memory. Inspired by this fact, we present CASA, a novel Category-Agnostic Skeletal Animal reconstruction method consisting of two major components: a video-to-shape retrieval process and a neural inverse graphics framework. During inference, CASA first retrieves an articulated shape from a 3D character assets bank so that the input video scores highly with the rendered image, according to a pretrained language-vision model. CASA then integrates the retrieved character into an inverse graphics framework and jointly infers the shape deformation, skeleton structure, and skinning weights through optimization. Experiments validate the efficacy of CASA regarding shape reconstruction and articulation. We further demonstrate that the resulting skeletal-animated characters can be used for re-animation.
translated by 谷歌翻译