本文首先提出了一个有效的3D点云学习架构,名为PWCLO-NET的LIDAR ODOMORY。在该架构中,提出了3D点云的投影感知表示来将原始的3D点云组织成有序数据表单以实现效率。 LIDAR ODOMOMERY任务的金字塔,翘曲和成本量(PWC)结构是为估计和优化在分层和高效的粗良好方法中的姿势。建立一个投影感知的细心成本卷,以直接关联两个离散点云并获得嵌入运动模式。然后,提出了一种可训练的嵌入掩模来称量局部运动模式以回归整体姿势和过滤异常值点。可训练的姿势经线细化模块迭代地与嵌入式掩码进行分层优化,使姿势估计对异常值更加强大。整个架构是全能优化的端到端,实现成本和掩码的自适应学习,并且涉及点云采样和分组的所有操作都是通过投影感知的3D特征学习方法加速。在Kitti Ocomatry DataSet上证明了我们的激光乐队内径架构的卓越性能和有效性。我们的方法优于基于学习的所有基于学习的方法,甚至基于几何的方法,在大多数基于Kitti Odomatry数据集的序列上具有映射优化的遗传。
translated by 谷歌翻译
在现有方法中,LIDAR的探测器显示出卓越的性能,但视觉探测器仍被广泛用于其价格优势。从惯例上讲,视觉检验的任务主要依赖于连续图像的输入。但是,探测器网络学习图像提供的异性几何信息非常复杂。在本文中,将伪LIDAR的概念引入了探测器中以解决此问题。伪LIDAR点云背面项目由图像生成的深度图中的3D点云,这改变了图像表示的方式。与立体声图像相比,立体声匹配网络生成的伪lidar点云可以得到显式的3D坐标。由于在3D空间中发生了6个自由度(DOF)姿势转换,因此伪宽点云提供的3D结构信息比图像更直接。与稀疏的激光雷达相比,伪驱动器具有较密集的点云。为了充分利用伪LIDAR提供的丰富点云信息,采用了投射感知的探测管道。以前的大多数基于激光雷达的算法从点云中采样了8192点,作为探视网络的输入。投影感知的密集探测管道采用从图像产生的所有伪lidar点云,除了误差点作为网络的输入。在图像中充分利用3D几何信息时,图像中的语义信息也用于探视任务中。 2D-3D的融合是在仅基于图像的进程中实现的。 Kitti数据集的实验证明了我们方法的有效性。据我们所知,这是使用伪LIDAR的第一种视觉探光法。
translated by 谷歌翻译
场景流表示场景中每个点的3D运动,该动作明确描述了每个点运动的距离和方向。场景流估计用于各种应用,例如自主驾驶场,活动识别和虚拟现实字段。由于对现实世界数据的地面真理的注释场景流动是一项挑战,因此没有可用的现实数据集可提供大量数据,并具有地面真相以进行场景流量估计。因此,许多作品使用合成的数据将其网络和现实世界中的LIDAR数据预先培训。与以前的无监督学习场景流程中的云中的学习流程不同,我们建议使用探空仪信息来帮助无监督的场景流程学习,并使用现实世界中的激光雷达数据来训练我们的网络。有监督的探测器为场景流提供了更准确的共享成本量。此外,拟议的网络具有掩模加权的经线层,以获得更准确的预测点云。经线操作意味着将估计的姿势转换或场景流到源点云中以获得预测的点云,这是精炼场景从粗糙到细小的关键。执行翘曲操作时,不同状态中的点使用不同的权重进行姿势转换和场景流动转换。我们将点状态分类为静态,动态和遮挡,其中静态掩模用于划分静态和动态点,并使用遮挡掩码来划分闭塞点。掩模加权经线表明在执行经线操作时,将静态面膜和遮挡面膜用作权重。我们的设计被证明在消融实验中有效。实验结果表明,在现实世界中,3D场景流的无监督学习方法的前景是有希望的。
translated by 谷歌翻译
点云的3D场景流量估计是计算机视觉中的低级3D运动感知任务。流嵌入是场景流估计中的一种常用技术,它编码两个连续帧之间的点运动。因此,对于流动嵌入捕获运动的正确总体方向是至关重要的。但是,以前的作品仅在本地搜索以确定软信号,而忽略了遥远的点,而遥远的点是实际匹配的点。另外,估计的对应关系通常来自相邻点云的正向,并且可能与从向后方向获得的估计对应关系不一致。为了解决这些问题,我们提出了一个新颖的全能嵌入层,并在初始场景流量估计期间具有向后的可靠性验证。此外,我们研究并比较了3D场景流网络的关键组件中的几个设计选择,包括点相似度计算,预测变量的输入元素以及预测变量和改进级别的设计。仔细选择了最有效的设计后,我们能够提出一个模型,该模型可以在FlyingThings3D和Kitti场景流数据集上实现最新性能。我们提出的模型超过了所有现有方法的FlyterThings3D数据集至少38.2%,而EPE3D Metric的Kitti场景流数据集则超过了24.7%。我们在https://github.com/irmvlab/3dflow上发布代码。
translated by 谷歌翻译
深度和自我运动估计对于自主机器人和自主驾驶的本地化和导航至关重要。最近的研究可以从未标记的单像素视频中学习每个像素深度和自我运动。提出了一种新颖的无监督培训框架,使用显式3D几何进行3D层次细化和增强。在该框架中,深度和姿势估计在分层和相互耦合以通过层改进估计的姿势层。通过用估计的深度和粗姿势翘曲图像中的像素来提出和合成中间视图图像。然后,可以从新视图图像和相邻帧的图像估计残差变换以改进粗糙姿势。迭代细化在本文中以可分散的方式实施,使整个框架均匀优化。同时,提出了一种新的图像增强方法来综合新视图图像来施加姿势估计,这创造性地增强了3D空间中的姿势,而是获得新的增强2D图像。 Kitti的实验表明,我们的深度估计能够实现最先进的性能,甚至超过最近利用其他辅助任务的方法。我们的视觉内径术优于所有最近无监督的单眼学习的方法,并实现了基于几何的方法,ORB-SLAM2的竞争性能,具有后端优化。
translated by 谷歌翻译
特征提取和匹配是许多计算机视觉任务的基本部分,例如2D或3D对象检测,识别和注册。众所周知,2D功能提取和匹配已经取得了巨大的成功。不幸的是,在3D领域,由于描述性和效率低下,目前的方法无法支持3D激光雷达传感器在视觉任务中的广泛应用。为了解决此限制,我们提出了一种新颖的3D特征表示方法:3D激光点云的线性关键点表示,称为link3d。 Link3D的新颖性在于它完全考虑了LiDar Point Cloud的特征(例如稀疏性,场景的复杂性),并用其强大的邻居键盘来表示当前关键点,从而对当前关键点的描述提供了强烈的约束。提出的链接3D已在两个公共数据集(即Kitti,Steven VLP16)上进行了评估,实验结果表明,我们的方法在匹配性能方面的最先进表现都大大优于最先进的方法。更重要的是,Link3D显示出出色的实时性能(基于LIDAR的频率10 Hz)。 Link3D平均仅需32毫秒即可从64射线激光束收集的点云中提取功能,并且仅需大约8毫秒即可匹配两次LIDAR扫描,当时用Intel Core i7 @2.2 GHz处理器执行笔记本。此外,我们的方法可以广泛扩展到各种3D视觉应用。在本文中,我们已将Link3D应用于3D注册,LiDAR ODOMETIRE和放置识别任务,并与最先进的方法相比实现了竞争成果。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
由于激光雷达扫描数据的大规模,噪音和数据不完整,注册Urban Point Clouds是一项艰巨的任务。在本文中,我们提出了SARNET,这是一个新型的语义增强注册网络,旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同,我们的方法完全利用语义特征来提高注册精度。具体而言,我们提取具有高级语义分割网络的每点语义标签,并构建先前的语义零件到部分对应关系。然后,我们将语义信息纳入基于学习的注册管道中,该管道由三个核心模块组成:基于语义的最远点采样模块,以有效地滤除异常值和动态对象;一个语义增强的特征提取模块,用于学习更多的判别点描述符;语义改制的转换估计模块,该模块利用先前的语义匹配作为掩码,通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较,从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。
translated by 谷歌翻译
准确的轨道位置是铁路支持驱动系统的重要组成部分,用于安全监控。激光雷达可以获得携带铁路环境的3D信息的点云,特别是在黑暗和可怕的天气条件下。在本文中,提出了一种基于3D点云的实时轨识别方法来解决挑战,如无序,不均匀的密度和大量点云的挑战。首先呈现Voxel Down-采样方法,用于铁路点云的密度平衡,并且金字塔分区旨在将3D扫描区域划分为具有不同卷的体素。然后,开发了一个特征编码模块以找到最近的邻点并聚合它们的局部几何特征。最后,提出了一种多尺度神经网络以产生每个体素和轨道位置的预测结果。该实验是在铁路的3D点云数据的9个序列下进行的。结果表明,该方法在检测直,弯曲和其他复杂的拓扑轨道方面具有良好的性能。
translated by 谷歌翻译
如何提取重要点云特征并估计它们之间的姿势仍然是一个具有挑战性的问题,因为点云的固有缺乏结构和暧昧的顺序排列。尽管对大多数3D计算机视觉任务的基于深度学习的方法进行了重大改进,例如对象分类,对象分割和点云注册,但功能之间的一致性在现有的基于学习的流水线上仍然没有吸引力。在本文中,我们提出了一种用于复杂对准场景的新型学习的对齐网络,标题为深度特征一致性,并由三个主模块组成:多尺度图形特征合并网络,用于将几何对应集转换为高维特征,对应加权用于构建多个候选内部子集的模块,以及命名为深度特征匹配的Procrustes方法,用于给出闭合方案来估计相对姿势。作为深度特征匹配模块的最重要步骤,构造每个Inlier子集的特征一致性矩阵以获得其主要向量作为相应子集的含义似然性。我们全面地验证了我们在3DMATCH数据集和基提ODOMOTRY数据集中的方法的鲁棒性和有效性。对于大型室内场景,3DMATCH数据集上的注册结果表明,我们的方法优于最先进的传统和基于学习的方法。对于Kitti户外场景,我们的方法仍然能够降低转换错误。我们还在交叉数据集中探讨其强大的泛化能力。
translated by 谷歌翻译
我们提出了一种适用于一般3D点云数据的新型可区分加权的广义最接近点(WGICP)方法,包括来自LIDAR的数据。我们的方法建立在可区分的通用ICP(GICP)的基础上,我们建议使用可区分的k-neartient(KNN)算法来增强可怜性。可区分的GICP算法提供了相对于每个输入点的输出姿势估计的梯度,这使我们能够训练神经网络以预测其在估计正确姿势时的重要性或权重。与其他基于ICP的方法相反,这些方法使用基于体素的下采样或匹配方法来降低计算成本,我们的方法直接通过仅选择具有最高权重并忽略冗余较低权重的人来直接减少GICP使用的点数。我们表明,我们的方法提高了KITTI数据集的GICP算法的准确性和速度,可用于开发更强大,更有效的SLAM系统。
translated by 谷歌翻译
3D场景流动表征了当前时间的点如何流到3D欧几里得空间中的下一次,该空间具有自主推断场景中所有对象的非刚性运动的能力。从图像估算场景流的先前方法具有局限性,该方法通过分别估计光流和差异来划分3D场景流的整体性质。学习3D场景从点云流动也面临着综合数据和真实数据与LIDAR点云的稀疏性之间差距的困难。在本文中,利用生成的密集深度图来获得显式的3D坐标,该坐标可直接从2D图像中学习3D场景流。通过将2D像素的密度性质引入3D空间,可以改善预测场景流的稳定性。通过统计方法消除了生成的3D点云中的离群值,以削弱噪声点对3D场景流估计任务的影响。提出了差异一致性损失,以实现3D场景流的更有效的无监督学习。比较了现实世界图像上3D场景流的自我监督学习方法与在综合数据集中学习的多种方法和在LIDAR点云上学习的方法。显示多个场景流量指标的比较可以证明引入伪LIDAR点云到场景流量估计的有效性和优势。
translated by 谷歌翻译
基于激光雷达的3D单一对象跟踪是机器人技术和自动驾驶中的一个具有挑战性的问题。当前,现有方法通常会遇到长距离对象通常具有非常稀疏或部分倾斜的点云的问题,这使得模型含糊不清。模棱两可的功能将很难找到目标对象,并最终导致不良跟踪结果。为了解决此问题,我们使用功能强大的变压器体系结构,并为基于点云的3D单一对象跟踪任务提出一个点轨转换器(PTT)模块。具体而言,PTT模块通过计算注意力重量来生成微调的注意力特征,该功能指导追踪器的重点关注目标的重要功能,并提高复杂场景中的跟踪能力。为了评估我们的PTT模块,我们将PTT嵌入主要方法中,并构建一个名为PTT-NET的新型3D SOT跟踪器。在PTT-NET中,我们分别将PTT嵌入了投票阶段和提案生成阶段。投票阶段中的PTT模块可以模拟点斑块之间的交互作用,该点贴片学习上下文依赖于上下文。同时,提案生成阶段中的PTT模块可以捕获对象和背景之间的上下文信息。我们在Kitti和Nuscenes数据集上评估了PTT-NET。实验结果证明了PTT模块的有效性和PTT-NET的优越性,PTT-NET的优势超过了基线,在CAR类别中〜10%。同时,我们的方法在稀疏场景中也具有显着的性能提高。通常,变压器和跟踪管道的组合使我们的PTT-NET能够在两个数据集上实现最先进的性能。此外,PTT-NET可以在NVIDIA 1080TI GPU上实时以40fps实时运行。我们的代码是为研究社区开源的,网址为https://github.com/shanjiayao/ptt。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
视觉径图旨在使用视觉传感器捕获的信息跟踪对象的增量运动。在这项工作中,我们研究了点云测量问题,其中仅使用LIDAR(光检测和测距)获得的点云扫描来估计对象的运动轨迹。提出了一种轻量点云测距溶液,并命名为绿点云机径(GPCO)方法。 GPCO是一种无监督的学习方法,可以通过匹配连续点云扫描的特征来预测对象运动。它由三个步骤组成。首先,使用几何特征感知点采样方案来选择来自大点云的判别点。其次,视图被划分为围绕对象的四个区域,并且尖端++方法用于提取点特征。第三,建立点对应,以估计两个连续扫描之间的对象运动。进行了基准数据集的实验,以证明GPCO方法的有效性。据观察,GPCO以准确性的准确性越优于深度学习方法,而模型规模明显较小,培训时间较少。
translated by 谷歌翻译
了解3D场景是自治代理的关键先决条件。最近,LIDAR和其他传感器已经以点云帧的时间序列形式提供了大量数据。在这项工作中,我们提出了一种新的问题 - 顺序场景流量估计(SSFE) - 该旨在预测给定序列中所有点云的3D场景流。这与先前研究的场景流程估计问题不同,这侧重于两个框架。我们介绍SPCM-NET架构,通过计算相邻点云之间的多尺度时空相关性,然后通过订单不变的复制单元计算多级时空相关性来解决这个问题。我们的实验评估证实,与仅使用两个框架相比,点云序列的复发处理导致SSFE明显更好。另外,我们证明可以有效地修改该方法,用于顺序点云预测(SPF),一种需要预测未来点云帧的相关问题。我们的实验结果是使用SSFE和SPF的新基准进行评估,包括合成和实时数据集。以前,场景流估计的数据集仅限于两个帧。我们为这些数据集提供非琐碎的扩展,用于多帧估计和预测。由于难以获得现实世界数据集的地面真理运动,我们使用自我监督的培训和评估指标。我们认为,该基准将在该领域的未来研究中关键。将可访问基准和型号的所有代码。
translated by 谷歌翻译
在本文中,我们介绍了一种新的端到端学习的LIDAR重新定位框架,被称为Pointloc,其仅使用单点云直接姿势作为输入,不需要预先构建的地图。与RGB基于图像的重建化相比,LIDAR帧可以提供有关场景的丰富和强大的几何信息。然而,LIDAR点云是无序的并且非结构化,使得难以为此任务应用传统的深度学习回归模型。我们通过提出一种具有自我关注的小说点风格架构来解决这个问题,从而有效地估计660 {\ DEG} LIDAR输入框架的6-DOF姿势。关于最近发布的巨大恐怖雷达机器人数据集和现实世界机器人实验的扩展实验表明ProposedMethod可以实现准确的重定位化性能。
translated by 谷歌翻译
场景流表示3D空间中点的运动,这是代表2D图像中像素运动的光流的对应物。但是,很难在真实场景中获得场景流的基础真理,并且最近的研究基于培训的合成数据。因此,如何基于实际数据训练场景流网络具有无监督的方法表现出至关重要的意义。本文提出了一种针对场景流的新颖无监督学习方法,该方法利用了单眼相机连续的两个帧的图像,而没有场景流的地面真相进行训练。我们的方法实现了一个目标,即训练场景流通过现实世界数据弥合了训练数据和测试数据之间的差距,并扩大了可用数据的范围以进行培训。本文无监督的场景流程学习主要由两个部分组成:(i)深度估计和摄像头姿势估计,以及(ii)基于四个不同损失功能的场景流估计。深度估计和相机姿势估计获得了两个连续帧之间的深度图和摄像头,这为下一个场景流估计提供了更多信息。之后,我们使用了深度一致性损失,动态静态一致性损失,倒角损失和拉普拉斯正规化损失来对场景流网络进行无监督的训练。据我们所知,这是第一篇意识到从单眼摄像机流动的3D场景流程的无监督学习的论文。 Kitti上的实验结果表明,与传统方法迭代最接近点(ICP)和快速全球注册(FGR)相比,我们无监督学习场景学习的方法符合表现出色。源代码可在以下网址获得:https://github.com/irmvlab/3dunmonoflow。
translated by 谷歌翻译
我们介绍了PointConvormer,这是一个基于点云的深神经网络体系结构的新颖构建块。受到概括理论的启发,PointConvormer结合了点卷积的思想,其中滤波器权重仅基于相对位置,而变形金刚则利用了基于功能的注意力。在PointConvormer中,附近点之间的特征差异是重量重量卷积权重的指标。因此,我们从点卷积操作中保留了不变,而注意力被用来选择附近的相关点进行卷积。为了验证PointConvormer的有效性,我们在点云上进行了语义分割和场景流估计任务,其中包括扫描仪,Semantickitti,FlyingThings3D和Kitti。我们的结果表明,PointConvormer具有经典的卷积,常规变压器和Voxelized稀疏卷积方法的表现,具有较小,更高效的网络。可视化表明,PointConvormer的性能类似于在平面表面上的卷积,而邻域选择效果在物体边界上更强,表明它具有两全其美。
translated by 谷歌翻译
有希望的互补性存在着颜色图像的纹理特征和激光点云的几何信息。但是,在3D对象检测领域中,仍然存在许多挑战,以实现高效且可靠的特征融合。在本文中,首先,在2D平面中填充了非结构化的3D点云,并且使用投影感知的卷积层更快地提取3D点云特征。此外,在数据预处理中提前建立了不同传感器信号之间的相应索引,从而实现更快的交叉模式融合。为了解决LIDAR点和图像像素的未对准问题,提出了两个新的插件融合模块,即licamfuse和bilicamfuse。在Licamfuse中,提出了带有双峰特征的欧几里得距离的软查询权重。在Bilicamfuse中,提出了双重注意的融合模块,以深层关联场景的几何和纹理特征。 KITTI数据集上的定量结果表明,所提出的方法可以实现更好的特征级融合。此外,与现有方法相比,建议的网络显示出更短的运行时间。
translated by 谷歌翻译