在3D点云上的应用程序越来越需要效率和鲁棒性,在自动驾驶和机器人技术等场景中无处不在使用边缘设备,这通常需要实时和可靠的响应。该论文通过设计一个通用框架来应对挑战,以构建具有(3)均衡和网络二元化的3D学习体系结构。然而,模棱两可的网络和二元化的幼稚组合会导致优化的计算效率或几何歧义。我们建议在网络中同时找到标量和向量特征,以避免这两种情况。确切地说,标量特征的存在使网络的主要部分是可动的,而矢量特征则可以保留丰富的结构信息并确保SO(3)均衡。提出的方法可以应用于PointNet和DGCNN等一般骨干。同时,对ModelNet40,Shapenet和现实世界数据集ScanObjectnn进行的实验表明,该方法在效率,旋转稳健性和准确性之间取决于巨大的权衡。这些代码可在https://github.com/zhuoinoulu/svnet上找到。
translated by 谷歌翻译
点云识别是工业机器人和自主驾驶中的重要任务。最近,几个点云处理模型已经实现了最先进的表演。然而,这些方法缺乏旋转稳健性,并且它们的性能严重降低了随机旋转,未能扩展到具有不同方向的现实情景。为此,我们提出了一种名为基于自行轮廓的转换(SCT)的方法,该方法可以灵活地集成到针对任意旋转的各种现有点云识别模型中。 SCT通过引入轮廓感知的转换(CAT)提供有效的旋转和翻译不变性,该转换(CAT)线性地将点数的笛卡尔坐标转换为翻译和旋转 - 不变表示。我们证明猫是一种基于理论分析的旋转和翻译不变的转换。此外,提出了帧对准模块来增强通过捕获轮廓并将基于自平台的帧转换为帧内帧来增强鉴别特征提取。广泛的实验结果表明,SCT在合成和现实世界基准的有效性和效率的任意旋转下表现出最先进的方法。此外,稳健性和一般性评估表明SCT是稳健的,适用于各种点云处理模型,它突出了工业应用中SCT的优势。
translated by 谷歌翻译
本文提出了一种新的点云卷积结构,该结构学习了SE(3) - 等级功能。与现有的SE(3) - 等级网络相比,我们的设计轻巧,简单且灵活,可以合并到一般的点云学习网络中。我们通过为特征地图选择一个非常规域,在模型的复杂性和容量之间取得平衡。我们通过正确离散$ \ mathbb {r}^3 $来完全利用旋转对称性来进一步减少计算负载。此外,我们采用置换层从其商空间中恢复完整的SE(3)组。实验表明,我们的方法在各种任务中实现了可比或卓越的性能,同时消耗的内存和运行速度要比现有工作更快。所提出的方法可以在基于点云的各种实用应用中促进模棱两可的特征学习,并激发现实世界应用的Equivariant特征学习的未来发展。
translated by 谷歌翻译
点云分析没有姿势前导者在真实应用中非常具有挑战性,因为点云的方向往往是未知的。在本文中,我们提出了一个全新的点集学习框架prin,即点亮旋转不变网络,专注于点云分析中的旋转不变特征提取。我们通过密度意识的自适应采样构建球形信号,以处理球形空间中的扭曲点分布。提出了球形Voxel卷积和点重新采样以提取每个点的旋转不变特征。此外,我们将Prin扩展到称为Sprin的稀疏版本,直接在稀疏点云上运行。 Prin和Sprin都可以应用于从对象分类,部分分割到3D特征匹配和标签对齐的任务。结果表明,在随机旋转点云的数据集上,Sprin比无任何数据增强的最先进方法表现出更好的性能。我们还为我们的方法提供了彻底的理论证明和分析,以实现我们的方法实现的点明智的旋转不变性。我们的代码可在https://github.com/qq456cvb/sprin上找到。
translated by 谷歌翻译
几何深度学习,即设计神经网络以处理诸如点云和图形的无处不在的几何数据,在过去十年中取得了巨大的成功。一个关键的归纳偏差是该模型可以维持朝向各种变换的不变性,例如翻译,旋转和缩放。现有的图形神经网络(GNN)方法只能维持置换不变性,不能保证与其他转换的不变性。除了GNN,其他作品设计复杂的变换不变层,这些层是计算昂贵且难以扩展的。为了解决这个问题,我们重新审视为什么在处理几何数据时,现有的神经网络无法维持转换不变性。我们的研究结果表明,变换不变和距离保持距离初始表示足以实现变换不变性,而不是需要复杂的神经层设计。通过这些发现,我们提出了转型不变神经网络(TINVNN),是几何数据的直接和一般框架。具体地,我们通过在将表示形式馈送到神经网络之前来实现通过修改多维缩放来实现转换不变和距离保留初始点表示。我们证明Tinvnn可以严格保证转型不变性,一般而灵活,足以与现有的神经网络相结合。广泛的实验结果对点云分析和组合优化展示了我们提出的方法的有效性和一般适用性。基于实验结果,我们倡导Tinvnn应该被视为新的起点和基本基准,以进一步研究转型不变几何深度学习。
translated by 谷歌翻译
从低级视觉理论中出现,可说的过滤器在先前的卷积神经网络上的工作中发现了对应物,等同于僵化的转换。在我们的工作中,我们提出了一种基于球形决策表面的神经元组成的基于馈送的可转向学习方法,并在点云上运行。这种球形神经元是通过欧几里得空间的共形嵌入来获得的,最近在点集的学习表示中被重新审视。为了关注3D几何形状,我们利用球形神经元的等轴测特性,并得出3D可识别性约束。在训练球形神经元以在规范方向上分类点云之后,我们使用四面体基础来使神经元四倍,并构建旋转 - 等级的球形滤波器库。然后,我们应用派生的约束来插值过滤器库输出,从而获得旋转不变的网络。最后,我们使用合成点集和现实世界3D骨架数据来验证我们的理论发现。该代码可在https://github.com/pavlo-melnyk/steerable-3d-neurons上找到。
translated by 谷歌翻译
在许多实际应用(例如运动预测和3D感知)中,旋转模棱两可是理想的属性,它可以提供样本效率,更好的概括和对输入扰动的鲁棒性等好处。向量神经元(VN)是一个最近开发的框架,它通过将一维标量神经元扩展到三维“向量神经元”,提供一种简单而有效的方法来推导标准机器学习操作的旋转量表类似物。我们介绍了一种新颖的“ VN转换器”体系结构,以解决当前VN模型的几个缺点。我们的贡献是:$(i)$,我们得出了一种旋转等级的注意机制,这消除了原始矢量神经元模型所需的重型功能预处理的需求; $(ii)$我们扩展了VN框架以支持非空间属性,将这些模型的适用性扩展到现实世界数据集; $(iii)$,我们得出了一种旋转等级机制,用于多尺度减少点云的分辨率,从而大大加快了推理和训练; $(iv)$我们表明,可以使用小额折衷($ \ epsilon $ - approximate povrivariance)来获得对加速硬件的数值稳定性和培训鲁棒性的巨大改进,并且我们绑定了我们模型中对等效性侵犯的繁殖。最后,我们将VN转换器应用于3D形状分类和运动预测,并具有令人信服的结果。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
Steerable convolutional neural networks (CNNs) provide a general framework for building neural networks equivariant to translations and other transformations belonging to an origin-preserving group $G$, such as reflections and rotations. They rely on standard convolutions with $G$-steerable kernels obtained by analytically solving the group-specific equivariance constraint imposed onto the kernel space. As the solution is tailored to a particular group $G$, the implementation of a kernel basis does not generalize to other symmetry transformations, which complicates the development of group equivariant models. We propose using implicit neural representation via multi-layer perceptrons (MLPs) to parameterize $G$-steerable kernels. The resulting framework offers a simple and flexible way to implement Steerable CNNs and generalizes to any group $G$ for which a $G$-equivariant MLP can be built. We apply our method to point cloud (ModelNet-40) and molecular data (QM9) and demonstrate a significant improvement in performance compared to standard Steerable CNNs.
translated by 谷歌翻译
从3D点云数据学习迅速获得了势头,这是通过深度学习的成功和图像的增加的3D数据的可用性。在本文中,我们的目标是构建直接在源点云的表面上工作的各向异性卷积。这是具有挑战性的,因为缺乏在表面上的切向方向的全局坐标系。我们介绍一个名为Deltaconv的新卷积运算符,将几何运算符从外部计算结合起来,以便在点云上构建各向异性滤波器。因为这些运算符在标量和向量字段上定义,所以我们将网络分开到标量和矢量流,由运算符连接。矢量流使网络能够明确表示,评估和处理方向信息。我们的卷轴稳健且易于实施,并显示出与最先进的基准相比提高准确性,同时加快培训和推理。
translated by 谷歌翻译
本文提出了一种可对应的点云旋转登记的方法。我们学习为每个点云嵌入保留所以(3)-equivariance属性的特征空间中的嵌入,通过最近的Quifariant神经网络的开发启用。所提出的形状登记方法通过用隐含形状模型结合等分性的特征学习来实现三个主要优点。首先,由于网络架构中类似于PointNet的网络体系结构中的置换不变性,因此删除了数据关联的必要性。其次,由于SO(3)的性能,可以使用喇叭的方法以闭合形式来解决特征空间中的注册。第三,由于注册和隐含形状重建的联合培训,注册对点云中的噪声强大。实验结果显示出优异的性能与现有的无对应的深层登记方法相比。
translated by 谷歌翻译
Recent investigations on rotation invariance for 3D point clouds have been devoted to devising rotation-invariant feature descriptors or learning canonical spaces where objects are semantically aligned. Examinations of learning frameworks for invariance have seldom been looked into. In this work, we review rotation invariance in terms of point cloud registration and propose an effective framework for rotation invariance learning via three sequential stages, namely rotation-invariant shape encoding, aligned feature integration, and deep feature registration. We first encode shape descriptors constructed with respect to reference frames defined over different scales, e.g., local patches and global topology, to generate rotation-invariant latent shape codes. Within the integration stage, we propose Aligned Integration Transformer to produce a discriminative feature representation by integrating point-wise self- and cross-relations established within the shape codes. Meanwhile, we adopt rigid transformations between reference frames to align the shape codes for feature consistency across different scales. Finally, the deep integrated feature is registered to both rotation-invariant shape codes to maximize feature similarities, such that rotation invariance of the integrated feature is preserved and shared semantic information is implicitly extracted from shape codes. Experimental results on 3D shape classification, part segmentation, and retrieval tasks prove the feasibility of our work. Our project page is released at: https://rotation3d.github.io/.
translated by 谷歌翻译
事实证明,与对称性的对称性在深度学习研究中是一种强大的归纳偏见。关于网格处理的最新著作集中在各种天然对称性上,包括翻译,旋转,缩放,节点排列和仪表变换。迄今为止,没有现有的体系结构与所有这些转换都不相同。在本文中,我们提出了一个基于注意力的网格数据的架构,该体系结构与上述所有转换相似。我们的管道依赖于相对切向特征的使用:一种简单,有效,等效性的替代品,可作为输入作为输入。有关浮士德和TOSCA数据集的实验证实,我们提出的架构在这些基准测试中的性能提高了,并且确实是对各种本地/全球转换的均等,因此具有强大的功能。
translated by 谷歌翻译
可进入的模型可以通过在表示理论和特征领域的语言中制定均衡性要求来提供非常通用和灵活的均衡性,这对许多视觉任务都是有效的。但是,由于3D旋转的数学更复杂,因此在2D情况下得出3D旋转模型要困难得多。在这项工作中,我们采用部分差分运算符(PDOS)来模型3D滤波器,并得出了通用的可检测3D CNN,称为PDO-S3DCNNS。我们证明,模棱两可的过滤器受线性约束的约束,可以在各种条件下有效地解决。据我们所知,PDO-S3DCNNS是3D旋转的最通用的CNN,因为它们涵盖了所有$ SO(3)$及其表示的所有常见子组,而现有方法只能应用于特定的组和特定组和表示。广泛的实验表明,我们的模型可以很好地保留在离散域中的均衡性,并且在SHREC'17检索和ISBI 2012分割任务上的表现都超过了以前的网络复杂性。
translated by 谷歌翻译
模棱两可的神经网络,其隐藏的特征根据G组作用于数据的表示,表现出训练效率和提高的概括性能。在这项工作中,我们将群体不变和模棱两可的表示学习扩展到无监督的深度学习领域。我们根据编码器框架提出了一种通用学习策略,其中潜在表示以不变的术语和模棱两可的组动作组件分开。关键的想法是,网络学会通过学习预测适当的小组操作来对齐输入和输出姿势以解决重建任务的适当组动作来编码和从组不变表示形式进行编码和解码数据。我们在Equivariant编码器上得出必要的条件,并提出了对任何G(离散且连续的)有效的构造。我们明确描述了我们的旋转,翻译和排列的构造。我们在采用不同网络体系结构的各种数据类型的各种实验中测试了方法的有效性和鲁棒性。
translated by 谷歌翻译
许多应用程序需要神经网络的鲁棒性或理想的不变性,以使输入数据的某些转换。最常见的是,通过使用对抗性培训或定义包括设计所需不变性的网络体系结构来解决此要求。在这项工作中,我们提出了一种方法,使网络体系结构通过基于固定标准从(可能连续的)轨道中选择一个元素,从而使网络体系结构相对于小组操作证明是不变的。简而言之,我们打算在将数据馈送到实际网络之前“撤消”任何可能的转换。此外,我们凭经验分析了通过训练或体系结构结合不变性的不同方法的特性,并在鲁棒性和计算效率方面证明了我们方法的优势。特别是,我们研究了图像旋转(可以持续到离散化工件)以及3D点云分类的可证明的方向和缩放不变性方面的鲁棒性。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的基于本地描述符的框架,称您仅假设一次(Yoho),以注册两个未对齐的点云。与大多数依赖脆弱的局部参考框架获得旋转不变性的现有局部描述符相反,拟议的描述符通过群体epoivariant特征学习的最新技术实现了旋转不变性,这为点密度和噪声带来了更大的鲁棒性。同时,Yoho中的描述符也有一个旋转模棱两可的部分,这使我们能够从仅一个对应假设估算注册。这样的属性减少了可行变换的搜索空间,因此大大提高了Yoho的准确性和效率。广泛的实验表明,Yoho在四个广泛使用的数据集(3DMATCH/3DLOMATCH数据集,ETH数据集和WHU-TLS数据集)上实现了卓越的性能。更多详细信息在我们的项目页面中显示:https://hpwang-whu.github.io/yoho/。
translated by 谷歌翻译
对于不同的任务,已经越来越多地研究了一般点云,并且提出了最近的基于变换器的网络,用于点云分析。然而,医疗点云几乎没有相关的作品,这对疾病检测和治疗很重要。在这项工作中,我们提出了专门用于医疗点云的关注模型,即3D医疗点变压器(3Dmedpt),以检查复杂的生物结构。通过增强上下文信息并在查询时总结本地响应,我们的注意模块可以捕获本地上下文和全局内容功能交互。然而,医疗数据的培训样本不足可能导致特征学习差,因此我们应用位置嵌入,以学习准确的局部几何和多图形推理(MGR)来检查通过通道图的全局知识传播,以丰富特征表示。在数据集内进行的实验证明了3DMedpt的优越性,在那里我们达到了最佳分类和分割结果。此外,我们的方法的有希望的泛化能力在一般的3D点云基准测试中验证:ModelNet40和ShapenetPart。代码即将发布。
translated by 谷歌翻译
我们介绍了PointConvormer,这是一个基于点云的深神经网络体系结构的新颖构建块。受到概括理论的启发,PointConvormer结合了点卷积的思想,其中滤波器权重仅基于相对位置,而变形金刚则利用了基于功能的注意力。在PointConvormer中,附近点之间的特征差异是重量重量卷积权重的指标。因此,我们从点卷积操作中保留了不变,而注意力被用来选择附近的相关点进行卷积。为了验证PointConvormer的有效性,我们在点云上进行了语义分割和场景流估计任务,其中包括扫描仪,Semantickitti,FlyingThings3D和Kitti。我们的结果表明,PointConvormer具有经典的卷积,常规变压器和Voxelized稀疏卷积方法的表现,具有较小,更高效的网络。可视化表明,PointConvormer的性能类似于在平面表面上的卷积,而邻域选择效果在物体边界上更强,表明它具有两全其美。
translated by 谷歌翻译
包括协调性信息,例如位置,力,速度或旋转在计算物理和化学中的许多任务中是重要的。我们介绍了概括了等级图形网络的可控e(3)的等值图形神经网络(Segnns),使得节点和边缘属性不限于不变的标量,而是可以包含相协同信息,例如矢量或张量。该模型由可操纵的MLP组成,能够在消息和更新功能中包含几何和物理信息。通过可操纵节点属性的定义,MLP提供了一种新的Activation函数,以便与可转向功能字段一般使用。我们讨论我们的镜头通过等级的非线性卷曲镜头讨论我们的相关工作,进一步允许我们引脚点点的成功组件:非线性消息聚集在经典线性(可操纵)点卷积上改善;可操纵的消息在最近发送不变性消息的最近的等价图形网络上。我们展示了我们对计算物理学和化学的若干任务的方法的有效性,并提供了广泛的消融研究。
translated by 谷歌翻译