很难精确地注释对象实例及其在3D空间中的语义,因此,合成数据被广泛用于这些任务,例如类别级别6D对象姿势和大小估计。然而,合成域中的简易注释带来了合成到真实(SIM2REAL)域间隙的下行效应。在这项工作中,我们的目标是在SIM2REAL,无监督的域适应的任务设置中解决此问题,以适应类别级别6D对象姿势和尺寸估计。我们提出了一种基于新型的深层变形网络构建的方法,该网络缩短为DPDN。 DPDN学会了将分类形状先验的变形特征与对象观察的特征相匹配,因此能够在特征空间中建立深层对应,以直接回归对象姿势和尺寸。为了减少SIM2REAL域间隙,我们通过一致性学习在DPDN上制定了一个新颖的自我监督目标。更具体地说,我们对每个对象观察进行了两个刚性转换,并分别将它们送入DPDN以产生双重预测集。除了平行学习之外,还采用了一个矛盾术语来保持双重预测之间的交叉一致性,以提高DPDN对姿势变化的敏感性,而单个的内部矛盾范围则用于在每个学习本身内实施自我适应。我们在合成摄像头25和现实世界Real275数据集的两个训练集上训练DPDN;我们的结果优于无监督和监督设置下的Real275测试集中的现有方法。消融研究还验证了我们设计的功效。我们的代码将在https://github.com/jiehonglin/self-dpdn公开发布。
translated by 谷歌翻译
学习估计对象姿势通常需要地面真理(GT)标签,例如CAD模型和绝对级对象姿势,这在现实世界中获得昂贵且费力。为了解决这个问题,我们为类别级对象姿势估计提出了一个无监督的域适应(UDA),称为\ textbf {uda-cope}。受到最近的多模态UDA技术的启发,所提出的方法利用教师学生自我监督的学习方案来训练姿势估计网络而不使用目标域标签。我们还在预测归一化对象坐标空间(NOCS)地图和观察点云之间引入了双向滤波方法,不仅使我们的教师网络更加强大地对目标域,而且为学生网络培训提供更可靠的伪标签。广泛的实验结果表明了我们所提出的方法的有效性,可以定量和定性。值得注意的是,在不利用目标域GT标签的情况下,我们所提出的方法可以实现与依赖于GT标签的现有方法相当或有时优越的性能。
translated by 谷歌翻译
作为SE(3)的基本组成部分 - Quivariant的深度特色学习,可转向卷积最近展示了其3D语义分析的优势。然而,优点由昂贵的体积数据上的昂贵计算带来,这可以防止其实际用途,以便有效地处理固有的稀疏的3D数据。在本文中,我们提出了一种新颖的稀疏转向卷积(SS-Char)设计,以解决缺点; SS-DIM大大加快了稀疏张量的可操纵卷积,同时严格保留了SE(3)的性质。基于SS-CONV,我们提出了一种用于精确估计对象姿势的一般管道,其中一个关键设计是一种特征转向模块,其具有SE(3)的完全优势,并且能够进行高效的姿势改进。为了验证我们的设计,我们对三个对象语义分析的三个任务进行了彻底的实验,包括实例级别6D姿势估计,类别级别6D姿势和大小估计,以及类别级6D姿态跟踪。我们基于SS-CONV的提议管道优于三个任务评估的几乎所有指标上的现有方法。消融研究还在准确性和效率方面展示了我们的SS-CONVES对替代卷积的优越性。我们的代码在https://github.com/gorilla-lab-scut/ss-conv公开发布。
translated by 谷歌翻译
6D对象姿势估计是计算机视觉和机器人研究中的基本问题之一。尽管最近在同一类别内将姿势估计概括为新的对象实例(即类别级别的6D姿势估计)方面已做出了许多努力,但考虑到有限的带注释数据,它仍然在受限的环境中受到限制。在本文中,我们收集了Wild6D,这是一种具有不同实例和背景的新的未标记的RGBD对象视频数据集。我们利用这些数据在野外概括了类别级别的6D对象姿势效果,并通过半监督学习。我们提出了一个新模型,称为呈现姿势估计网络reponet,该模型使用带有合成数据的自由地面真实性共同训练,以及在现实世界数据上具有轮廓匹配的目标函数。在不使用实际数据上的任何3D注释的情况下,我们的方法优于先前数据集上的最先进方法,而我们的WILD6D测试集(带有手动注释进行评估)则优于较大的边距。带有WILD6D数据的项目页面:https://oasisyang.github.io/semi-pose。
translated by 谷歌翻译
最近,随着重建规范3D表示的发展,类别级别的6D对象姿态估计已经取得了显着的改进。然而,现有方法的重建质量仍远非优秀。在本文中,我们提出了一种名为ACR-POSE的新型对抗性规范代表性重建网络。 ACR-POSE由重建器和鉴别器组成。重建器主要由两种新型子模块组成:姿势 - 无关模块(PIM)和关系重建模块(RRM)。 PIM倾向于学习Canonical相关的功能,使重建者对旋转和翻译不敏感,而RRM探讨不同输入模态之间的基本关系信息以产生高质量功能。随后,采用鉴别器来指导重建器以产生现实的规范表示。重构和鉴别者学会通过对抗性培训进行优化。普遍的NOCS相机和NOCS实际数据集的实验结果表明,我们的方法实现了最先进的性能。
translated by 谷歌翻译
虽然最近出现了类别级的9DOF对象姿势估计,但由于较大的对象形状和颜色等类别内差异,因此,先前基于对应的或直接回归方法的准确性均受到限制。 - 级别的物体姿势和尺寸炼油机Catre,能够迭代地增强点云的姿势估计以产生准确的结果。鉴于初始姿势估计,Catre通过对齐部分观察到的点云和先验的抽象形状来预测初始姿势和地面真理之间的相对转换。具体而言,我们提出了一种新颖的分离体系结构,以了解旋转与翻译/大小估计之间的固有区别。广泛的实验表明,我们的方法在REAL275,Camera25和LM基准测试中的最先进方法高达〜85.32Hz,并在类别级别跟踪上取得了竞争成果。我们进一步证明,Catre可以对看不见的类别进行姿势改进。可以使用代码和训练有素的型号。
translated by 谷歌翻译
最近,基于RGBD的类别级别6D对象姿势估计已实现了有希望的性能提高,但是,深度信息的要求禁止更广泛的应用。为了缓解这个问题,本文提出了一种新的方法,名为“对象级别深度重建网络”(旧网)仅将RGB图像作为类别级别6D对象姿势估计的输入。我们建议通过将类别级别的形状在对象级深度和规范的NOC表示中直接从单眼RGB图像中直接预测对象级的深度。引入了两个名为归一化的全局位置提示(NGPH)和形状吸引的脱钩深度重建(SDDR)模块的模块,以学习高保真对象级的深度和精致的形状表示。最后,通过将预测的规范表示与背面预测的对象级深度对齐来解决6D对象姿势。在具有挑战性的Camera25和Real275数据集上进行了广泛的实验,表明我们的模型虽然很简单,但可以实现最先进的性能。
translated by 谷歌翻译
类别级别的姿势估计是由于类内形状变化而导致的一个具有挑战性的问题。最近的方法变形了预计的形状先验,将观察到的点云映射到归一化对象坐标空间中,然后通过后处理(即Umeyama的算法)检索姿势。这种两阶段策略的缺点在于两个方面:1)中间结果的替代监督无法直接指导姿势的学习,从而导致后期处理后造成了较大的姿势错误。 2)推理速度受后处理步骤的限制。在本文中,为了处理这些缺点,我们为类别级别的姿势估计提出了一个可端到端的可训练网络SSP置换,该网络将Shape Priors整合到直接的姿势回归网络中。 SSP置位堆栈在共享特征提取器上的四个单独分支,其中两个分支旨在变形和匹配先前的模型与观察到的实例,并应用了其他两个分支,以直接回归完全9度的自由度姿势和分别执行对称性重建和点对上的掩码预测。然后,自然利用一致性损失项,以对齐不同分支的产出并促进性能。在推断期间,仅需要直接姿势回归分支。通过这种方式,SSP置态不仅学习类别级别的姿势敏感特征以提高性能,而且还可以保持实时推理速度。此外,我们利用每个类别的对称信息来指导形状事先变形,并提出一种新颖的对称性损失来减轻匹配的歧义。公共数据集的广泛实验表明,与竞争对手相比,SSP置孔在约25Hz的实时推理速度中产生了出色的性能。
translated by 谷歌翻译
While object reconstruction has made great strides in recent years, current methods typically require densely captured images and/or known camera poses, and generalize poorly to novel object categories. To step toward object reconstruction in the wild, this work explores reconstructing general real-world objects from a few images without known camera poses or object categories. The crux of our work is solving two fundamental 3D vision problems -- shape reconstruction and pose estimation -- in a unified approach. Our approach captures the synergies of these two problems: reliable camera pose estimation gives rise to accurate shape reconstruction, and the accurate reconstruction, in turn, induces robust correspondence between different views and facilitates pose estimation. Our method FORGE predicts 3D features from each view and leverages them in conjunction with the input images to establish cross-view correspondence for estimating relative camera poses. The 3D features are then transformed by the estimated poses into a shared space and are fused into a neural radiance field. The reconstruction results are rendered by volume rendering techniques, enabling us to train the model without 3D shape ground-truth. Our experiments show that FORGE reliably reconstructs objects from five views. Our pose estimation method outperforms existing ones by a large margin. The reconstruction results under predicted poses are comparable to the ones using ground-truth poses. The performance on novel testing categories matches the results on categories seen during training. Project page: https://ut-austin-rpl.github.io/FORGE/
translated by 谷歌翻译
类别级的对象姿势估计旨在预测已知类别集的任意对象的6D姿势以及3D度量大小。最近的方法利用了先验改编的形状,以将观察到的点云映射到规范空间中,并应用Umeyama算法以恢复姿势和大小。然而,它们的形状先验整合策略间接增强了姿势估计,从而导致姿势敏感的特征提取和推理速度缓慢。为了解决这个问题,在本文中,我们提出了一个新颖的几何形状引导的残留对象边界框投影网络RBP置rbp置置,该框架共同预测对象的姿势和残留的矢量,描述了从形状优先指示的对象表面投影中的位移迈向真实的表面投影。残留矢量的这种定义本质上是零均值且相对较小,并且明确封装了3D对象的空间提示,以进行稳健和准确的姿势回归。我们强制执行几何学意识的一致性项,以使预测的姿势和残留向量对齐以进一步提高性能。
translated by 谷歌翻译
RGB图像的刚性对象的可伸缩6D构成估计旨在处理多个对象并推广到新物体。我们建立在一个著名的自动编码框架的基础上,以应对对象对称性和缺乏标记的训练数据,我们通过将自动编码器的潜在表示形状分解为形状并构成子空间来实现可伸缩性。潜在形状空间通过对比度度量学习模型不同对象的相似性,并将潜在姿势代码与旋转检索的规范旋转进行比较。由于不同的对象对称会诱导不一致的潜在姿势空间,因此我们用规范旋转重新输入形状表示,以生成形状依赖的姿势代码簿以进行旋转检索。我们在两个基准上显示了最新的性能,其中包含无类别和每日对象的无纹理CAD对象,并通过扩展到跨类别的每日对象的更具挑战性的设置,进一步证明了可扩展性。
translated by 谷歌翻译
我们提出了一种对类别级别的6D对象姿势和大小估计的新方法。为了解决类内的形状变化,我们学习规范形状空间(CASS),统一表示,用于某个对象类别的各种情况。特别地,CASS被建模为具有标准化姿势的规范3D形状深度生成模型的潜在空间。我们训练变形式自动编码器(VAE),用于从RGBD图像中的规范空间中生成3D点云。 VAE培训以跨类方式培训,利用公开的大型3D形状存储库。由于3D点云在归一化姿势(具有实际尺寸)中生成,因此VAE的编码器学习视图分解RGBD嵌入。它将RGBD图像映射到任意视图中以独立于姿势的3D形状表示。然后通过将对象姿势与用单独的深神经网络提取的输入RGBD的姿势相关的特征进行对比姿势估计。我们将CASS和姿势和大小估计的学习集成到最终的培训网络中,实现了最先进的性能。
translated by 谷歌翻译
掌握姿势估计是机器人与现实世界互动的重要问题。但是,大多数现有方法需要事先可用的精确3D对象模型或大量的培训注释。为了避免这些问题,我们提出了transrasp,一种类别级别的rasp姿势估计方法,该方法通过仅标记一个对象实例来预测一类对象的掌握姿势。具体而言,我们根据其形状对应关系进行掌握姿势转移,并提出一个掌握姿势细化模块,以进一步微调抓地力姿势,以确保成功的掌握。实验证明了我们方法对通过转移的抓握姿势实现高质量抓地力的有效性。我们的代码可在https://github.com/yanjh97/transgrasp上找到。
translated by 谷歌翻译
在本文中,我们提出了一个迭代的自我训练框架,用于SIM到现实的6D对象姿势估计,以促进具有成本效益的机器人抓钩。给定bin选择场景,我们建立了一个光真实的模拟器来合成丰富的虚拟数据,并使用它来训练初始姿势估计网络。然后,该网络扮演教师模型的角色,该模型为未标记的真实数据生成了姿势预测。有了这些预测,我们进一步设计了一个全面的自适应选择方案,以区分可靠的结果,并将它们作为伪标签来更新学生模型以估算真实数据。为了不断提高伪标签的质量,我们通过将受过训练的学生模型作为新老师并使用精致的教师模型重新标记实际数据来迭代上述步骤。我们在公共基准和新发布的数据集上评估了我们的方法,分别提高了11.49%和22.62%的方法。我们的方法还能够将机器人箱的成功成功提高19.54%,这表明了对机器人应用的迭代SIM到现实解决方案的潜力。
translated by 谷歌翻译
A key technical challenge in performing 6D object pose estimation from RGB-D image is to fully leverage the two complementary data sources. Prior works either extract information from the RGB image and depth separately or use costly post-processing steps, limiting their performances in highly cluttered scenes and real-time applications. In this work, we present DenseFusion, a generic framework for estimating 6D pose of a set of known objects from RGB-D images. DenseFusion is a heterogeneous architecture that processes the two data sources individually and uses a novel dense fusion network to extract pixel-wise dense feature embedding, from which the pose is estimated. Furthermore, we integrate an end-to-end iterative pose refinement procedure that further improves the pose estimation while achieving near real-time inference. Our experiments show that our method outperforms state-of-the-art approaches in two datasets, YCB-Video and LineMOD. We also deploy our proposed method to a real robot to grasp and manipulate objects based on the estimated pose. Our code and video are available at https://sites.google.com/view/densefusion/.
translated by 谷歌翻译
In this paper, we propose a novel 3D graph convolution based pipeline for category-level 6D pose and size estimation from monocular RGB-D images. The proposed method leverages an efficient 3D data augmentation and a novel vector-based decoupled rotation representation. Specifically, we first design an orientation-aware autoencoder with 3D graph convolution for latent feature learning. The learned latent feature is insensitive to point shift and size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode the rotation information from the latent feature, we design a novel flexible vector-based decomposable rotation representation that employs two decoders to complementarily access the rotation information. The proposed rotation representation has two major advantages: 1) decoupled characteristic that makes the rotation estimation easier; 2) flexible length and rotated angle of the vectors allow us to find a more suitable vector representation for specific pose estimation task. Finally, we propose a 3D deformation mechanism to increase the generalization ability of the pipeline. Extensive experiments show that the proposed pipeline achieves state-of-the-art performance on category-level tasks. Further, the experiments demonstrate that the proposed rotation representation is more suitable for the pose estimation tasks than other rotation representations.
translated by 谷歌翻译
The goal of this paper is to estimate the 6D pose and dimensions of unseen object instances in an RGB-D image. Contrary to "instance-level" 6D pose estimation tasks, our problem assumes that no exact object CAD models are available during either training or testing time. To handle different and unseen object instances in a given category, we introduce Normalized Object Coordinate Space (NOCS)-a shared canonical representation for all possible object instances within a category. Our region-based neural network is then trained to directly infer the correspondence from observed pixels to this shared object representation (NOCS) along with other object information such as class label and instance mask. These predictions can be combined with the depth map to jointly estimate the metric 6D pose and dimensions of multiple objects in a cluttered scene. To train our network, we present a new contextaware technique to generate large amounts of fully annotated mixed reality data. To further improve our model and evaluate its performance on real data, we also provide a fully annotated real-world dataset with large environment and instance variation. Extensive experiments demonstrate that the proposed method is able to robustly estimate the pose and size of unseen object instances in real environments while also achieving state-of-the-art performance on standard 6D pose estimation benchmarks.
translated by 谷歌翻译
In this paper, we introduce neural texture learning for 6D object pose estimation from synthetic data and a few unlabelled real images. Our major contribution is a novel learning scheme which removes the drawbacks of previous works, namely the strong dependency on co-modalities or additional refinement. These have been previously necessary to provide training signals for convergence. We formulate such a scheme as two sub-optimisation problems on texture learning and pose learning. We separately learn to predict realistic texture of objects from real image collections and learn pose estimation from pixel-perfect synthetic data. Combining these two capabilities allows then to synthesise photorealistic novel views to supervise the pose estimator with accurate geometry. To alleviate pose noise and segmentation imperfection present during the texture learning phase, we propose a surfel-based adversarial training loss together with texture regularisation from synthetic data. We demonstrate that the proposed approach significantly outperforms the recent state-of-the-art methods without ground-truth pose annotations and demonstrates substantial generalisation improvements towards unseen scenes. Remarkably, our scheme improves the adopted pose estimators substantially even when initialised with much inferior performance.
translated by 谷歌翻译
我们的方法从单个RGB-D观察中研究了以对象为中心的3D理解的复杂任务。由于这是一个不适的问题,因此现有的方法在3D形状和6D姿势和尺寸估计中都遭受了遮挡的复杂多对象方案的尺寸估计。我们提出了Shapo,这是一种联合多对象检测的方法,3D纹理重建,6D对象姿势和尺寸估计。 Shapo的关键是一条单杆管道,可回归形状,外观和构成潜在的代码以及每个对象实例的口罩,然后以稀疏到密集的方式进一步完善。首先学到了一种新颖的剖面形状和前景数据库,以将对象嵌入各自的形状和外观空间中。我们还提出了一个基于OCTREE的新颖的可区分优化步骤,使我们能够以分析的方式进一步改善对象形状,姿势和外观。我们新颖的联合隐式纹理对象表示使我们能够准确地识别和重建新颖的看不见的对象,而无需访问其3D网格。通过广泛的实验,我们表明我们的方法在模拟的室内场景上进行了训练,可以准确地回归现实世界中新颖物体的形状,外观和姿势,并以最小的微调。我们的方法显着超过了NOCS数据集上的所有基准,对于6D姿势估计,MAP的绝对改进为8%。项目页面:https://zubair-irshad.github.io/projects/shapo.html
translated by 谷歌翻译
从RGB-D图像中对刚性对象的6D姿势估计对于机器人技术中的对象抓握和操纵至关重要。尽管RGB通道和深度(d)通道通常是互补的,分别提供了外观和几何信息,但如何完全从两个跨模式数据中完全受益仍然是非平凡的。从简单而新的观察结果来看,当对象旋转时,其语义标签是姿势不变的,而其关键点偏移方向是姿势的变体。为此,我们提出了So(3)pose,这是一个新的表示学习网络,可以探索SO(3)equivariant和So(3) - 从深度通道中进行姿势估计的特征。 SO(3) - 激素特征有助于学习更独特的表示,以分割来自RGB通道外观相似的对象。 SO(3) - 等级特征与RGB功能通信,以推导(缺失的)几何形状,以检测从深度通道的反射表面的对象的关键点。与大多数现有的姿势估计方法不同,我们的SO(3) - 不仅可以实现RGB和深度渠道之间的信息通信,而且自然会吸收SO(3) - 等级的几何学知识,从深度图像中,导致更好的外观和更好的外观和更好几何表示学习。综合实验表明,我们的方法在三个基准测试中实现了最先进的性能。
translated by 谷歌翻译