图像和点云为机器人提供了不同的信息。从不同传感器中找到数据之间的对应关系对于各种任务,例如本地化,映射和导航至关重要。基于学习的描述符已为单个传感器开发;跨模式功能几乎没有工作。这项工作将学习跨模式特征视为一个密集的对比度学习问题。我们为跨模式特征学习提出了元组圆损失函数。此外,为了学习良好的功能而不是失去普遍性,我们开发了用于点云和U-NET CNN体系结构的广泛使用的PointNet ++架构的变体。此外,我们在现实世界数据集上进行实验,以显示损失函数和网络结构的有效性。我们表明,我们的模型确实通过可视化功能从图像和激光雷达学习信息。
translated by 谷歌翻译
Visual localization plays an important role for intelligent robots and autonomous driving, especially when the accuracy of GNSS is unreliable. Recently, camera localization in LiDAR maps has attracted more and more attention for its low cost and potential robustness to illumination and weather changes. However, the commonly used pinhole camera has a narrow Field-of-View, thus leading to limited information compared with the omni-directional LiDAR data. To overcome this limitation, we focus on correlating the information of 360 equirectangular images to point clouds, proposing an end-to-end learnable network to conduct cross-modal visual localization by establishing similarity in high-dimensional feature space. Inspired by the attention mechanism, we optimize the network to capture the salient feature for comparing images and point clouds. We construct several sequences containing 360 equirectangular images and corresponding point clouds based on the KITTI-360 dataset and conduct extensive experiments. The results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
由直觉的激励,即在相应的3D点云中定位2D图像的关键步骤正在建立它们之间的2d-3d对应关系,我们提出了第一个基于特征的密度通信框架,以解决图像到点云注册问题,称为Corri2p,由三个模块组成,即特征嵌入,对称重叠区域检测和通过已建立的对应关系构成估计。具体而言,给定一对2D图像和3D点云,我们首先将它们转换为高维特征空间,并将结果特征馈入对称重叠区域检测器,以确定图像和点云相互重叠的区域。然后,我们使用重叠区域的功能在RANSAC内运行EPNP之前以估算相机的姿势,以建立2D-3D对应关系。 Kitti和Nuscenes数据集的实验结果表明,我们的Corri2p优于最先进的图像到点云注册方法。我们将公开提供代码。
translated by 谷歌翻译
不完整的多视图聚类旨在通过使用来自多种模式的数据来增强聚类性能。尽管已经提出了几种研究此问题的方法,但以下缺点仍然存在:1)很难学习潜在的互补性但不使用标签信息而保持一致性的潜在表示; 2)因此,当完整的数据稀缺时,在不完整的数据中未能充分利用不完整数据中的隐藏信息会导致次优群集性能。在本文中,我们提出了与生成对抗网络(CIMIC-GAN)的对比度不完整的多视图图像聚类,该网络使用GAN填充不完整的数据并使用双对比度学习来学习完整和不完整的数据的一致性。更具体地说,考虑到多种方式之间的多样性和互补信息,我们将完整和不完整数据的自动编码表示为双对比度学习,以实现学习一致性。将gan集成到自动编码过程中不仅可以充分利用不完整数据的新功能,而且可以在存在高数据缺失率的情况下更好地概括该模型。在\ textColor {black} {四}广泛使用的数据集上进行的实验表明,cimic-gan优于最先进的不完整的多视图聚类方法。
translated by 谷歌翻译
您将如何通过一些错过来修复物理物体?您可能会想象它的原始形状从先前捕获的图像中,首先恢复其整体(全局)但粗大的形状,然后完善其本地细节。我们有动力模仿物理维修程序以解决点云完成。为此,我们提出了一个跨模式的形状转移双转化网络(称为CSDN),这是一种带有全循环参与图像的粗到精细范式,以完成优质的点云完成。 CSDN主要由“ Shape Fusion”和“ Dual-Refinect”模块组成,以应对跨模式挑战。第一个模块将固有的形状特性从单个图像传输,以指导点云缺失区域的几何形状生成,在其中,我们建议iPadain嵌入图像的全局特征和部分点云的完成。第二个模块通过调整生成点的位置来完善粗糙输出,其中本地改进单元通过图卷积利用了小说和输入点之间的几何关系,而全局约束单元则利用输入图像来微调生成的偏移。与大多数现有方法不同,CSDN不仅探讨了图像中的互补信息,而且还可以在整个粗到精细的完成过程中有效利用跨模式数据。实验结果表明,CSDN对十个跨模式基准的竞争对手表现出色。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
近年来,3D视觉的自我监督预训练引起了研究的兴趣。为了学习信息的表示,许多以前的作品都利用了3D功能的不向导,\ eg,同一场景的视图之间的透视感,深度和RGB图像之间的模态侵权次数,点云和voxels之间的格式不变。尽管他们取得了令人鼓舞的结果,但以前的研究缺乏对这些不稳定的系统性比较。为了解决这个问题,我们的工作首次引入了一个统一的框架,根据该框架可以研究各种预培训方法。我们进行了广泛的实验,并仔细研究了3D预训练中不同不变的贡献。另外,我们提出了一种简单但有效的方法,该方法可以共同预先培训3D编码器和使用对比度学习的深度图编码器。通过我们的方法进行预训练的模型在下游任务方面具有显着的性能提高。例如,预先训练的投票表现优于Sun RGB-D和扫描对象检测基准的先前方法,并具有明显的利润。
translated by 谷歌翻译
由于缺乏大规模标记的3D数据集,大多数3D神经网络都是从划痕训练。在本文中,我们通过利用来自丰富的2D数据集学习的2D网络来介绍一种新的3D预预测方法。我们提出了通过将像素级和点级别特征映射到同一嵌入空间中的对比度的像素到点知识转移来有效地利用2D信息。由于2D和3D网络之间的异构性质,我们介绍了后投影功能以对准2D和3D之间的功能以使转移成为可能。此外,我们设计了一个上采样功能投影层,以增加高级2D特征图的空间分辨率,这使得能够学习细粒度的3D表示。利用普雷累染的2D网络,所提出的预介绍过程不需要额外的2D或3D标记数据,进一步缓解了昂贵的3D数据注释成本。据我们所知,我们是第一个利用现有的2D培训的权重,以预先rain 3D深度神经网络。我们的密集实验表明,使用2D知识预订的3D模型可以通过各种真实世界3D下游任务进行3D网络的性能。
translated by 谷歌翻译
弱监督的点云语义分割方法需要1 \%或更少的标签,希望实现与完全监督的方法几乎相同的性能,这些方法最近引起了广泛的研究关注。该框架中的一个典型解决方案是使用自我训练或伪标记来从点云本身挖掘监督,但忽略了图像中的关键信息。实际上,在激光雷达场景中广泛存在相机,而这种互补信息对于3D应用似乎非常重要。在本文中,我们提出了一种用于3D分割的新型交叉模式弱监督的方法,并结合了来自未标记图像的互补信息。基本上,我们设计了一个配备有效标签策略的双分支网络,以最大程度地发挥标签的力量,并直接实现2D到3D知识转移。之后,我们以期望最大(EM)的视角建立了一个跨模式的自我训练框架,该框架在伪标签估计和更新参数之间进行了迭代。在M-Step中,我们提出了一个跨模式关联学习,通过增强3D点和2D超级像素之间的周期矛盾性,从图像中挖掘互补的监督。在E-Step中,伪标签的自我校准机制被得出过滤噪声标签,从而为网络提供了更准确的标签,以进行全面训练。广泛的实验结果表明,我们的方法甚至优于最先进的竞争对手,而少于1 \%的主动选择注释。
translated by 谷歌翻译
颅内动脉瘤现在是常见的,以及如何智能地检测它们在数字健康方面具有重要意义。虽然大多数现有的深度学习研究专注于医学图像的监督方式,但我们介绍了基于3D点云数据检测颅内动脉瘤的无监督方法。特别是,我们的方法由两个阶段组成:无监督的预训练和下游任务。至于前者,主要思想是将每个点云与其抖动的对应物配对并最大化它们的对应关系。然后,我们设计具有每个分支的编码器和后续公共投影头的双分支对比度网络。至于后者,我们为监督分类和分割培训设计简单网络。公共数据集(内部)的实验表明,我们的无监督方法比某些最先进的监督技术实现了可比或甚至更好的性能,并且在检测动脉瘤血管中最为突出。 ModelNet40上的实验还表明,我们的方法实现了90.79 \%的准确性,这优于现有的最先进的无监督模型。
translated by 谷歌翻译
随着相机和激光雷达传感器捕获用于自主驾驶的互补信息,已经做出了巨大的努力,通过多模式数据融合来开发语义分割算法。但是,基于融合的方法需要配对的数据,即具有严格的点对像素映射的激光点云和相机图像,因为培训和推理的输入都严重阻碍了在实际情况下的应用。因此,在这项工作中,我们建议通过充分利用具有丰富外观的2D图像来提高对点云上的代表性学习的2D先验辅助语义分割(2DPass),以增强对点云的表示。实际上,通过利用辅助模态融合和多尺度融合到单个知识蒸馏(MSFSKD),2DAPS从多模式数据中获取更丰富的语义和结构信息,然后在线蒸馏到纯3D网络。结果,配备了2DAPS,我们的基线仅使用点云输入显示出显着的改进。具体而言,它在两个大规模的基准(即Semantickitti和Nuscenes)上实现了最先进的方法,其中包括TOP-1的semantickitti的单扫描和多次扫描竞赛。
translated by 谷歌翻译
作为3D对象的两个基本表示方式,2D多视图图像和3D点云反映了来自视觉外观和几何结构各个方面的形状信息。与基于深度学习的2D多视图图像建模不同,该模型在各种3D形状分析任务中展示了领先的性能,基于3D点云的几何建模仍然遭受学习能力不足。在本文中,我们创新地构建了一个统一的跨模式知识转移框架,该框架将2D图像的歧视性视觉描述器提炼成3D点云的几何描述符。从技术上讲,在经典的教师学习范式下,我们提出了多视觉愿景到几何的蒸馏,由深入的2D图像编码器作为老师和深层的3D点云编码器组成。为了实现异质特征对齐,我们进一步提出了可见性感知的特征投影,通过该投影可以通过该投影将每个点嵌入可以汇总到多视图几何描述符中。对3D形状分类,部分分割和无监督学习的广泛实验验证了我们方法的优势。我们将公开提供代码和数据。
translated by 谷歌翻译
随着自动驾驶行业正在缓慢成熟,视觉地图本地化正在迅速成为尽可能准确定位汽车的标准方法。由于相机或激光镜等视觉传感器返回的丰富数据,研究人员能够构建具有各种细节的不同类型的地图,并使用它们来实现高水平的车辆定位准确性和在城市环境中的稳定性。与流行的SLAM方法相反,视觉地图本地化依赖于预先构建的地图,并且仅通过避免误差积累或漂移来提高定位准确性。我们将视觉地图定位定义为两个阶段的过程。在位置识别的阶段,通过将视觉传感器输出与一组地理标记的地图区域进行比较,可以确定车辆在地图中的初始位置。随后,在MAP指标定位的阶段,通过连续将视觉传感器的输出与正在遍历的MAP的当前区域进行对齐,对车辆在地图上移动时进行了跟踪。在本文中,我们调查,讨论和比较两个阶段的基于激光雷达,基于摄像头和跨模式的视觉图本地化的最新方法,以突出每种方法的优势。
translated by 谷歌翻译
我们描述了一种新的方法,该方法是基于与高级隐式语义特征的低级颜色和几何特征的汇总颜色和几何特征的室内识别。它使用了一个2阶段的深度学习框架,其中第一阶段经过了语义分割的辅助任务的训练,第二阶段的第二阶段使用了第一阶段的层中的特征来生成区分描述符以进行位置识别。辅助任务鼓励这些功能在语义上有意义,因此将RGB点云数据中的几何形状和颜色汇总为具有隐式语义信息。我们使用从扫描仪数据集派生的室内识别数据集进行培训和评估,其中一个包括由100个不同房间生成的3,608点云的测试集。与传统的基于功能的方法和四种最先进的深度学习方法进行比较表明,我们的方法显着优于所有五种方法,例如,取得前3名平均召回率为75%,而41%的平均召回率为41%最接近的竞争对手方法。我们的代码可在以下网址找到:https://github.com/yuhangming/semantic-indoor-place-recognition
translated by 谷歌翻译
Reducing the quantity of annotations required for supervised training is vital when labels are scarce and costly. This reduction is especially important for semantic segmentation tasks involving 3D datasets that are often significantly smaller and more challenging to annotate than their image-based counterparts. Self-supervised pre-training on large unlabelled datasets is one way to reduce the amount of manual annotations needed. Previous work has focused on pre-training with point cloud data exclusively; this approach often requires two or more registered views. In the present work, we combine image and point cloud modalities, by first learning self-supervised image features and then using these features to train a 3D model. By incorporating image data, which is often included in many 3D datasets, our pre-training method only requires a single scan of a scene. We demonstrate that our pre-training approach, despite using single scans, achieves comparable performance to other multi-scan, point cloud-only methods.
translated by 谷歌翻译
点云注册是许多应用程序(例如本地化,映射,跟踪和重建)的基本任务。成功的注册依赖于提取鲁棒和歧视性的几何特征。现有的基于学习的方法需要高计算能力来同时处理大量原始点。尽管这些方法取得了令人信服的结果,但由于高计算成本,它们很难在现实情况下应用。在本文中,我们介绍了一个框架,该框架使用图形注意网络有效地从经济上提取密集的特征,以进行点云匹配和注册(DFGAT)。 DFGAT的检测器负责在大型原始数据集中找到高度可靠的关键点。 DFGAT的描述符将这些关键点与邻居相结合,以提取不变的密度特征,以准备匹配。图形注意力网络使用了丰富点云之间关系的注意机制。最后,我们将其视为最佳运输问题,并使用Sinkhorn算法找到正匹配和负面匹配。我们对KITTI数据集进行了彻底的测试,并评估了该方法的有效性。结果表明,与其他最先进的方法相比,使用有效紧凑的关键点选择和描述可以实现最佳性能匹配指标,并达到99.88%注册的最高成功率。
translated by 谷歌翻译
大规模点云的注释仍然耗时,并且对于许多真实世界任务不可用。点云预训练是用于获得快速适配的可扩展模型的一个潜在解决方案。因此,在本文中,我们调查了一种新的自我监督学习方法,称为混合和解除戒(MD),用于点云预培训。顾名思义,我们探索如何将原始点云与混合点云分开,并利用这一具有挑战的任务作为模型培训的借口优化目标。考虑到原始数据集中的有限培训数据,这远低于普遍的想象,混合过程可以有效地产生更高质量的样本。我们构建一个基线网络以验证我们的直觉,只包含两个模块,编码器和解码器。给定混合点云,首先预先训练编码器以提取语义嵌入。然后,利用实例 - 自适应解码器根据嵌入来解除点云。尽管简单,编码器本质上是能够在训练后捕获点云关键点,并且可以快速适应下游任务,包括预先训练和微调范例的分类和分割。在两个数据集上的广泛实验表明编码器+我们的(MD)显着超越了从头划痕培训的编码器和快速收敛的编码器。在消融研究中,我们进一步研究了每个部件的效果,并讨论了拟议的自我监督学习策略的优势。我们希望这种自我监督的学习尝试点云可以铺平了减少对大规模标记数据的深度学习模型依赖的方式,并在将来节省了大量的注释成本。
translated by 谷歌翻译
基于草图的3D形状检索(SBSR)是一项重要但艰巨的任务,近年来引起了越来越多的关注。现有方法在限制设置中解决了该问题,而无需适当模拟真实的应用程序方案。为了模仿现实的设置,在此曲目中,我们采用了不同级别的绘图技能的业余爱好者以及各种3D形状的大规模草图,不仅包括CAD型号,而且还可以从真实对象扫描的模型。我们定义了两个SBSR任务,并构建了两个基准,包括46,000多个CAD型号,1,700个现实型号和145,000个草图。四个团队参加了这一轨道,并为这两个任务提交了15次跑步,由7个常用指标评估。我们希望,基准,比较结果和开源评估法会在3D对象检索社区中促进未来的研究。
translated by 谷歌翻译
许多基于点的语义分割方法是为室内场景设计的,但如果它们被应用于户外环境中的LIDAR传感器捕获的点云,则他们挣扎。为了使这些方法更有效和坚固,使得它们可以处理LIDAR数据,我们介绍了重新建立基于3D点的操作的一般概念,使得它们可以在投影空间中运行。虽然我们通过三个基于点的方法显示了重新计算的版本速度快300到400倍,但实现了更高的准确性,但我们还证明了重新制定基于3D点的操作的概念允许设计统一益处的新架构基于点和基于图像的方法。作为示例,我们介绍一种网络,该网络将基于重新的3D点的操作集成到2D编码器 - 解码器架构中,该架构融合来自不同2D尺度的信息。我们评估了四个具有挑战性的语义LIDAR点云分割的方法,并显示利用基于2D图像的操作的重新推出的基于3D点的操作实现了所有四个数据集的非常好的结果。
translated by 谷歌翻译
近年来,在各种环境中,在城市道路,大型建筑物等各种环境中越来越多的应用,以及室内和户外场所。然而,由于不同传感器的局限性和环境的外观变化,这项任务仍然仍然具有挑战性。目前的作用仅考虑使用各个传感器,或者只是结合不同的传感器,忽略不同传感器的重要性随着环境变化而变化的事实。本文提出了一种名为Adafusion的自适应加权视觉激光融合方法,以了解图像和点云特征的权重。因此,这两个模式的特征根据当前的环境情况不同地贡献。通过网络的注意分支实现权重的学习,然后与多模态特征提取分支融合。此外,为了更好地利用图像和点云之间的潜在关系,我们设计一个突变融合方法来组合2D和3D关注。我们的工作在两个公共数据集上进行了测试,实验表明,自适应权重有助于提高识别准确性和系统鲁棒性与不同的环境。
translated by 谷歌翻译