我们为3D点云提出了一种自我监督的胶囊架构。我们通过置换等级的注意力计算对象的胶囊分解,并通过用对随机旋转对象的对进行自我监督处理。我们的主要思想是将注意力掩码汇总为语义关键点,并使用这些来监督满足胶囊不变性/设备的分解。这不仅能够培训语义一致的分解,而且还允许我们学习一个能够以对客观的推理的规范化操作。培训我们的神经网络,我们既不需要分类标签也没有手动对齐训练数据集。然而,通过以自我监督方式学习以对象形式的表示,我们的方法在3D点云重建,规范化和无监督的分类上表现出最先进的。
translated by 谷歌翻译
Coordinate-based implicit neural networks, or neural fields, have emerged as useful representations of shape and appearance in 3D computer vision. Despite advances however, it remains challenging to build neural fields for categories of objects without datasets like ShapeNet that provide canonicalized object instances that are consistently aligned for their 3D position and orientation (pose). We present Canonical Field Network (CaFi-Net), a self-supervised method to canonicalize the 3D pose of instances from an object category represented as neural fields, specifically neural radiance fields (NeRFs). CaFi-Net directly learns from continuous and noisy radiance fields using a Siamese network architecture that is designed to extract equivariant field features for category-level canonicalization. During inference, our method takes pre-trained neural radiance fields of novel object instances at arbitrary 3D pose, and estimates a canonical field with consistent 3D pose across the entire category. Extensive experiments on a new dataset of 1300 NeRF models across 13 object categories show that our method matches or exceeds the performance of 3D point cloud-based methods.
translated by 谷歌翻译
我们呈现神经描述符字段(NDFS),对象表示,其通过类别级别描述符在对象和目标(例如用于悬挂的机器人夹具或用于悬挂的机架)之间进行编码和相对姿势。我们使用此表示进行对象操作,在这里,在给定任务演示时,我们要在同一类别中对新对象实例重复相同的任务。我们建议通过搜索(通过优化)来实现这一目标,为演示中观察到的描述符匹配的姿势。 NDFS通过不依赖于专家标记的关键点的3D自动编码任务,方便地以自我监督的方式培训。此外,NDFS是SE(3) - 保证在所有可能的3D对象翻译和旋转中推广的性能。我们展示了在仿真和真正的机器人上的少数(5-10)示范中的操纵任务的学习。我们的性能遍历两个对象实例和6-DOF对象姿势,并且显着优于最近依赖于2D描述符的基线。项目网站:https://yilundu.github.io/ndf/。
translated by 谷歌翻译
在本文中,我们将3D点云的古典表示作为线性形状模型。我们的主要洞察力是利用深度学习,代表一种形状的集合,作为低维线性形状模型的仿射变换。每个线性模型的特征在于形状原型,低维形状基础和两个神经网络。网络以输入点云作为输入,并在线性基础中预测形状的坐标和最能近似输入的仿射变换。使用单一的重建损耗来学习线性模型和神经网络的结束。我们方法的主要优点是,与近期学习基于特征的复杂形状表示的许多深度方法相比,我们的模型是显式的,并且在3D空间中发生每个操作。结果,我们的线性形状模型可以很容易地可视化和注释,并且可以在视觉上了解故障情况。虽然我们的主要目标是引入紧凑且可解释的形状收集表示,但我们表明它导致最新的最先进结果对几次射击分割。
translated by 谷歌翻译
形状空间学习的任务涉及使用良好的概括性属性映射到从潜在表示空间的列车组。通常,真实世界的形状系列具有对称性,可以定义为不改变形状本质的转换。在形状空间学习中纳入对称性的自然方式是要求将其映射到形状空间(编码器)和从形状空间(解码器)映射到相关的对称。在本文中,我们通过引入两个贡献,提出了一种在编码器和解码器中融入设备和解码器的框架:(i)适应建设通用,高效和最大富有表现力的Autorencoders的最近帧平均(FA)框架; (ii)构建自动化器等于分段欧几里德运动的分段应用于形状的不同部分。据我们所知,这是第一个完全分段的欧几里德的欧洲等自动化器建设。培训我们的框架很简单:它使用标准的重建损失,不需要引入新的损失。我们的体系结构由标准(骨干网)架构构成,具有适当的帧平均,使其成为等效。使用隐式的神经表示,在两个刚性形状数据集上测试我们的框架,并使用基于网格的神经网络的铰接形状数据集显示出技术的概括,以通过大边缘改善相关基线。特别地,我们的方法表明了概括铰接姿势的概括性的显着改善。
translated by 谷歌翻译
我们提出了一种从一系列时间演化点云序列中对时间一致的表面序列的无监督重建的方法。它在帧之间产生了密集和语义有意义的对应关系。我们将重建的表面代表由神经网络计算的Atlases,这使我们能够在帧之间建立对应关系。使这些对应关系的关键是语义上有意义的是为了保证在相应点计算的度量张量和尽可能相似。我们设计了一种优化策略,使我们的方法能够强大地对噪声和全局动作,而无需先验的对应关系或预先对准步骤。结果,我们的方法在几个具有挑战性的数据集中占据了最先进的。该代码可在https://github.com/bednarikjan/temporally_coherent_surface_reconstruction附近获得。
translated by 谷歌翻译
点云分析没有姿势前导者在真实应用中非常具有挑战性,因为点云的方向往往是未知的。在本文中,我们提出了一个全新的点集学习框架prin,即点亮旋转不变网络,专注于点云分析中的旋转不变特征提取。我们通过密度意识的自适应采样构建球形信号,以处理球形空间中的扭曲点分布。提出了球形Voxel卷积和点重新采样以提取每个点的旋转不变特征。此外,我们将Prin扩展到称为Sprin的稀疏版本,直接在稀疏点云上运行。 Prin和Sprin都可以应用于从对象分类,部分分割到3D特征匹配和标签对齐的任务。结果表明,在随机旋转点云的数据集上,Sprin比无任何数据增强的最先进方法表现出更好的性能。我们还为我们的方法提供了彻底的理论证明和分析,以实现我们的方法实现的点明智的旋转不变性。我们的代码可在https://github.com/qq456cvb/sprin上找到。
translated by 谷歌翻译
本文提出了一种可对应的点云旋转登记的方法。我们学习为每个点云嵌入保留所以(3)-equivariance属性的特征空间中的嵌入,通过最近的Quifariant神经网络的开发启用。所提出的形状登记方法通过用隐含形状模型结合等分性的特征学习来实现三个主要优点。首先,由于网络架构中类似于PointNet的网络体系结构中的置换不变性,因此删除了数据关联的必要性。其次,由于SO(3)的性能,可以使用喇叭的方法以闭合形式来解决特征空间中的注册。第三,由于注册和隐含形状重建的联合培训,注册对点云中的噪声强大。实验结果显示出优异的性能与现有的无对应的深层登记方法相比。
translated by 谷歌翻译
成功的点云注册依赖于在强大的描述符上建立的准确对应关系。但是,现有的神经描述符要么利用旋转变化的主链,其性能在较大的旋转下下降,要么编码局部几何形状,而局部几何形状不太明显。为了解决这个问题,我们介绍Riga以学习由设计和全球了解的旋转不变的描述符。从稀疏局部区域的点对特征(PPF)中,旋转不变的局部几何形状被编码为几何描述符。随后,全球对3D结构和几何环境的认识都以旋转不变的方式合并。更具体地说,整个框架的3D结构首先由我们的全球PPF签名表示,从中学到了结构描述符,以帮助几何描述符感知本地区域以外的3D世界。然后将整个场景的几何上下文全局汇总到描述符中。最后,将稀疏区域的描述插值到密集的点描述符,从中提取对应关系进行注册。为了验证我们的方法,我们对对象和场景级数据进行了广泛的实验。在旋转较大的情况下,Riga就模型Net40的相对旋转误差而超过了最先进的方法8 \度,并将特征匹配的回忆提高了3DLOMATCH上的至少5个百分点。
translated by 谷歌翻译
在城市环境中导航时,许多需要跟踪和避免的对象严重封闭。使用这些部分扫描的规划和跟踪可能具有挑战性。这项工作的目的是学习完成这些部分点云,让我们仅仅使用部分观测全面了解对象的几何。以前的方法在目标对象的完整地面注释的帮助下实现了此目的,这些方法仅适用于模拟数据集。但是,真实的真相对于现实世界的LIDAR数据不可用。在这项工作中,我们介绍了一个自我监督的点云完成算法,Pointpncnet,仅在部分扫描上培训,而无需采取完整的地面说明注释。我们的方法通过修正来实现这一目标。我们删除了一部分输入数据并培训网络以完成丢失的区域。由于难以确定在初始云中被封闭的区域并且综合地删除了哪些区域,我们的网络了解完成完整的云,包括初始部分云中的缺失区域。我们展示我们的方法优于以前在合成数据集,ShoceEnet和现实世界Lidar DataSet,语义基提上的未经监督和弱监督的方法。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的基于本地描述符的框架,称您仅假设一次(Yoho),以注册两个未对齐的点云。与大多数依赖脆弱的局部参考框架获得旋转不变性的现有局部描述符相反,拟议的描述符通过群体epoivariant特征学习的最新技术实现了旋转不变性,这为点密度和噪声带来了更大的鲁棒性。同时,Yoho中的描述符也有一个旋转模棱两可的部分,这使我们能够从仅一个对应假设估算注册。这样的属性减少了可行变换的搜索空间,因此大大提高了Yoho的准确性和效率。广泛的实验表明,Yoho在四个广泛使用的数据集(3DMATCH/3DLOMATCH数据集,ETH数据集和WHU-TLS数据集)上实现了卓越的性能。更多详细信息在我们的项目页面中显示:https://hpwang-whu.github.io/yoho/。
translated by 谷歌翻译
现有的无监督方法用于关键点学习的方法在很大程度上取决于以下假设:特定关键点类型(例如肘部,数字,抽象几何形状)仅在图像中出现一次。这极大地限制了它们的适用性,因为在应用未经讨论或评估的方法之前必须隔离每个实例。因此,我们提出了一种新的方法来学习任务无关的,无监督的关键点(Tusk),可以处理多个实例。为了实现这一目标,我们使用单个热图检测,而不是常用的多个热图的常用策略,而是专门针对特定的关键点类型,并通过群集实现了对关键点类型的无监督学习。具体来说,我们通过教导它们从一组稀疏的关键点及其描述符中重建图像来编码语义,并在其中被迫在学术原型中形成特征空间中的不同簇。这使我们的方法适合于更广泛的任务范围,而不是以前的任何无监督关键点方法:我们显示了有关多种现实检测和分类,对象发现和地标检测的实验 - 与艺术状况相同的无监督性能,同时也能够处理多个实例。
translated by 谷歌翻译
Shape completion, the problem of estimating the complete geometry of objects from partial observations, lies at the core of many vision and robotics applications. In this work, we propose Point Completion Network (PCN), a novel learning-based approach for shape completion. Unlike existing shape completion methods, PCN directly operates on raw point clouds without any structural assumption (e.g. symmetry) or annotation (e.g. semantic class) about the underlying shape. It features a decoder design that enables the generation of fine-grained completions while maintaining a small number of parameters. Our experiments show that PCN produces dense, complete point clouds with realistic structures in the missing regions on inputs with various levels of incompleteness and noise, including cars from LiDAR scans in the KITTI dataset. Code, data and trained models are available at https://wentaoyuan.github.io/pcn.
translated by 谷歌翻译
机器人可以通过仅仅在单个对象实例上抓住姿势的证明,以任意姿势操纵类别内看不见的对象?在本文中,我们尝试通过使用Useek(一种无监督的SE(3) - 等级关键点方法来应对这一有趣的挑战,该方法在类别中享受整个实例的对齐方式,以执行可推广的操作。 USEEK遵循教师学生的结构,将无监督的关键点发现和SE(3) - 等级关键点检测解除。使用Useek,机器人可以以有效且可解释的方式推断与任务相关的对象框架,从而使任何类别内对象都从任何姿势中操纵。通过广泛的实验,我们证明了Useek产生的关键点具有丰富的语义,因此成功地将功能知识从演示对象转移到了新颖的对象。与其他进行操作的对象表示相比,面对大类别内形状差异,更健壮的演示率更有限,并且在推理时间更有效。
translated by 谷歌翻译
学习3D对象类别的传统方法使用合成数据或手动监控。在本文中,我们提出了一种不需要手动注释的方法,而是通过观察来自移动的有利点的物体来阐述。我们的系统在两种创新上构建:暹罗视点分解网络,不太明确地比较3D形状,强大地对准不同的视频;和3D形状完成网络可以从部分观察中提取对象的完整形状。我们还展示了配置网络来执行概率预测以及几何感知数据增强方案的好处。我们在公开可用的基准上获得最先进的结果。
translated by 谷歌翻译
有效地表示人体诸如人体之类的铰接物体是计算机视觉和图形中的重要问题。为了有效地模拟变形,现有方法使用多边形网格表示3D对象,并使用皮肤技术变形。本文介绍了神经表达的形状近似(NASA),这是一种替代框架,可以使用以姿势调节的神经指示函数有效地表示明显的可变形物体。使用NASA进行的占用测试是直接的,可以规定网格的复杂性和水紧身问题。我们证明了NASA对3D跟踪应用的有效性,并讨论了其他潜在扩展。
translated by 谷歌翻译
Point cloud is an important type of geometric data structure. Due to its irregular format, most researchers transform such data to regular 3D voxel grids or collections of images. This, however, renders data unnecessarily voluminous and causes issues. In this paper, we design a novel type of neural network that directly consumes point clouds, which well respects the permutation invariance of points in the input. Our network, named PointNet, provides a unified architecture for applications ranging from object classification, part segmentation, to scene semantic parsing. Though simple, PointNet is highly efficient and effective. Empirically, it shows strong performance on par or even better than state of the art. Theoretically, we provide analysis towards understanding of what the network has learnt and why the network is robust with respect to input perturbation and corruption.
translated by 谷歌翻译
刚性变换相关的点云的注册是计算机视觉中的基本问题之一。然而,仍然缺乏在存在噪声存在下对准稀疏和不同采样的观察的实际情况的解决方案。我们在这种情况下接近注册,融合封闭形式的通用Mani-折叠嵌入(UME)方法和深神经网络。这两者组合成一个统一的框架,名为Deepume,训练的端到端并以无人监督的方式。为了在存在大转换的情况下成功提供全球解决方案,我们采用So(3) - 识别的坐标系来学习点云的联合重采样策略等(3) - variant功能。然后通过用于转换估计的几何UME方法来利用这些特征。使用度量进行优化的Dewume参数,旨在克服在对称形状的注册中出现的歧义问题,当考虑嘈杂的场景时。我们表明,我们的混合方法在各种场景中优于最先进的注册方法,并概括到未操作数据集。我们的代码公开提供。
translated by 谷歌翻译
近期云的自我监督学习最近取得了很大的关注,因为它在点云任务上解决了标签效率和域间隙问题。在本文中,我们提出了一种新颖的自我监督框架,用于学习部分点云的信息陈述。我们利用包含内容和姿势属性的LIDAR扫描的部分点云,我们表明解开部分点云等两个因素增强了特征表示学习。为此,我们的框架由三个主要部分组成:1)完成网络以捕获点云的整体语义; 2)一个姿势回归网络,了解从扫描部分数据的视角; 3)局部重建网络,以鼓励模型学习内容和构成功能。为了展示学习特征表示的稳健性,我们开展了几个下游任务,包括分类,部分分割和登记,并进行了最先进的方法的比较。我们的方法不仅优于现有的自我监督方法,而且还展示了合成和现实世界数据集的更好普遍性。
translated by 谷歌翻译
最近归一化流量(NFS)在建模3D点云上已经证明了最先进的性能,同时允许在推理时间以任意分辨率进行采样。然而,这些基于流的模型仍然需要长期训练时间和大型模型来代表复杂的几何形状。这项工作通过将NFS的混合物应用于点云来增强它们的代表性。我们展示在更普遍的框架中,每个组件都学会专门以完全无监督的方式专门化对象的特定子区域。通过将每个混合组件与相对小的NF实例化,我们通过更好的细节生成点云,而与基于单流量的模型相比,使用较少的参数,并且大大减少推理运行时。我们进一步证明通过添加数据增强,各个混合组件可以学习以语义有意义的方式专注。基于ShapEnet​​ DataSet评估NFS对生成,自动编码和单视重建的混合物。
translated by 谷歌翻译