场景流估计在场景之间提取点运动的场景估计正在成为许多计算机视觉任务的关键任务。但是,所有现有的估计方法仅利用单向特征,从而限制了准确性和通用性。本文使用双向流嵌入层提出了一种新颖的场景估计架构。所提出的双向层学习沿向前和向后方向的功能,从而增强了估计性能。此外,层次功能提取和翘曲可改善性能并减少计算开销。实验结果表明,拟议的架构通过在FlyingThings3D和Kitti基准测试中优于其他方法,从而实现了新的最新记录。代码可在https://github.com/cwc1260/biflow上找到。
translated by 谷歌翻译
点云的3D场景流量估计是计算机视觉中的低级3D运动感知任务。流嵌入是场景流估计中的一种常用技术,它编码两个连续帧之间的点运动。因此,对于流动嵌入捕获运动的正确总体方向是至关重要的。但是,以前的作品仅在本地搜索以确定软信号,而忽略了遥远的点,而遥远的点是实际匹配的点。另外,估计的对应关系通常来自相邻点云的正向,并且可能与从向后方向获得的估计对应关系不一致。为了解决这些问题,我们提出了一个新颖的全能嵌入层,并在初始场景流量估计期间具有向后的可靠性验证。此外,我们研究并比较了3D场景流网络的关键组件中的几个设计选择,包括点相似度计算,预测变量的输入元素以及预测变量和改进级别的设计。仔细选择了最有效的设计后,我们能够提出一个模型,该模型可以在FlyingThings3D和Kitti场景流数据集上实现最新性能。我们提出的模型超过了所有现有方法的FlyterThings3D数据集至少38.2%,而EPE3D Metric的Kitti场景流数据集则超过了24.7%。我们在https://github.com/irmvlab/3dflow上发布代码。
translated by 谷歌翻译
场景流表示场景中每个点的3D运动,该动作明确描述了每个点运动的距离和方向。场景流估计用于各种应用,例如自主驾驶场,活动识别和虚拟现实字段。由于对现实世界数据的地面真理的注释场景流动是一项挑战,因此没有可用的现实数据集可提供大量数据,并具有地面真相以进行场景流量估计。因此,许多作品使用合成的数据将其网络和现实世界中的LIDAR数据预先培训。与以前的无监督学习场景流程中的云中的学习流程不同,我们建议使用探空仪信息来帮助无监督的场景流程学习,并使用现实世界中的激光雷达数据来训练我们的网络。有监督的探测器为场景流提供了更准确的共享成本量。此外,拟议的网络具有掩模加权的经线层,以获得更准确的预测点云。经线操作意味着将估计的姿势转换或场景流到源点云中以获得预测的点云,这是精炼场景从粗糙到细小的关键。执行翘曲操作时,不同状态中的点使用不同的权重进行姿势转换和场景流动转换。我们将点状态分类为静态,动态和遮挡,其中静态掩模用于划分静态和动态点,并使用遮挡掩码来划分闭塞点。掩模加权经线表明在执行经线操作时,将静态面膜和遮挡面膜用作权重。我们的设计被证明在消融实验中有效。实验结果表明,在现实世界中,3D场景流的无监督学习方法的前景是有希望的。
translated by 谷歌翻译
了解3D场景是自治代理的关键先决条件。最近,LIDAR和其他传感器已经以点云帧的时间序列形式提供了大量数据。在这项工作中,我们提出了一种新的问题 - 顺序场景流量估计(SSFE) - 该旨在预测给定序列中所有点云的3D场景流。这与先前研究的场景流程估计问题不同,这侧重于两个框架。我们介绍SPCM-NET架构,通过计算相邻点云之间的多尺度时空相关性,然后通过订单不变的复制单元计算多级时空相关性来解决这个问题。我们的实验评估证实,与仅使用两个框架相比,点云序列的复发处理导致SSFE明显更好。另外,我们证明可以有效地修改该方法,用于顺序点云预测(SPF),一种需要预测未来点云帧的相关问题。我们的实验结果是使用SSFE和SPF的新基准进行评估,包括合成和实时数据集。以前,场景流估计的数据集仅限于两个帧。我们为这些数据集提供非琐碎的扩展,用于多帧估计和预测。由于难以获得现实世界数据集的地面真理运动,我们使用自我监督的培训和评估指标。我们认为,该基准将在该领域的未来研究中关键。将可访问基准和型号的所有代码。
translated by 谷歌翻译
在本文中,我们研究了从同步2D和3D数据共同估计光流量和场景流的问题。以前的方法使用复杂的管道,将联合任务分成独立阶段,或以“早期融合”或“迟到的”方式“的熔断器2D和3D信息。这种单尺寸适合的方法遭受了未能充分利用每个模态的特征的困境,或者最大化模态互补性。为了解决这个问题,我们提出了一个新的端到端框架,称为Camliflow。它由2D和3D分支组成,在特定层之间具有多个双向连接。与以前的工作不同,我们应用基于点的3D分支以更好地提取几何特征,并设计一个对称的学习操作员以保险熔断致密图像特征和稀疏点特征。我们还提出了一种转换,以解决3D-2D投影的非线性问题。实验表明,Camliflow以更少的参数实现了更好的性能。我们的方法在Kitti场景流基准上排名第一,表现出以1/7参数的前一篇文章。代码将可用。
translated by 谷歌翻译
本文首先提出了一个有效的3D点云学习架构,名为PWCLO-NET的LIDAR ODOMORY。在该架构中,提出了3D点云的投影感知表示来将原始的3D点云组织成有序数据表单以实现效率。 LIDAR ODOMOMERY任务的金字塔,翘曲和成本量(PWC)结构是为估计和优化在分层和高效的粗良好方法中的姿势。建立一个投影感知的细心成本卷,以直接关联两个离散点云并获得嵌入运动模式。然后,提出了一种可训练的嵌入掩模来称量局部运动模式以回归整体姿势和过滤异常值点。可训练的姿势经线细化模块迭代地与嵌入式掩码进行分层优化,使姿势估计对异常值更加强大。整个架构是全能优化的端到端,实现成本和掩码的自适应学习,并且涉及点云采样和分组的所有操作都是通过投影感知的3D特征学习方法加速。在Kitti Ocomatry DataSet上证明了我们的激光乐队内径架构的卓越性能和有效性。我们的方法优于基于学习的所有基于学习的方法,甚至基于几何的方法,在大多数基于Kitti Odomatry数据集的序列上具有映射优化的遗传。
translated by 谷歌翻译
在深入学习革命之前,许多感知算法基于运行时优化与强大的先前/正则化罚款。计算机视觉中的主要示例是光学和场景流。监督学习在很大程度上取代了明确规范化的必要性。相反,它们依靠大量标记的数据来捕获前面的统计数据,这并不总是随时可用的许多问题。虽然采用优化来学习神经网络,但是该网络的权重在运行时冻结。因此,这些学习解决方案是特定于域的,并不概括到其他统计上不同的场景。本文重新审视了依赖于运行时优化和强正规化的现场流动问题。这里的核心创新是在先前包含神经场景流,这利用神经网络的体系结构作为一种新型的隐式规范器。与基于学习的场景流方法不同,优化发生在运行时,并且我们的方法不需要脱机数据集 - 使其成为在自动驾驶等新环境中部署的理想选择。我们表明,专门在多层erceptrons(MLPS)上基于的架构可以用作现场流程。我们的方法持续竞争 - 如果没有更好的 - 结果在场景流基准上。此外,我们的神经先前的隐式和连续场景流量表示允许我们估计一系列点云序列的密集长期对应。密集运动信息由场景流场表示,其中通过积分运动向量可以通过时间传播点。我们通过累积激光雷达云序列来证明这种能力。
translated by 谷歌翻译
我们提出了一种称为基于DNN的基于DNN的框架,称为基于增强的相关匹配的视频帧插值网络,以支持4K的高分辨率,其具有大规模的运动和遮挡。考虑到根据分辨率的网络模型的可扩展性,所提出的方案采用经常性金字塔架构,该架构分享每个金字塔层之间的参数进行光学流量估计。在所提出的流程估计中,通过追踪具有最大相关性的位置来递归地改进光学流。基于前扭曲的相关匹配可以通过排除遮挡区域周围的错误扭曲特征来提高流量更新的准确性。基于最终双向流动,使用翘曲和混合网络合成任意时间位置的中间帧,通过细化网络进一步改善。实验结果表明,所提出的方案在4K视频数据和低分辨率基准数据集中占据了之前的工作,以及具有最小型号参数的客观和主观质量。
translated by 谷歌翻译
场景流表示3D空间中点的运动,这是代表2D图像中像素运动的光流的对应物。但是,很难在真实场景中获得场景流的基础真理,并且最近的研究基于培训的合成数据。因此,如何基于实际数据训练场景流网络具有无监督的方法表现出至关重要的意义。本文提出了一种针对场景流的新颖无监督学习方法,该方法利用了单眼相机连续的两个帧的图像,而没有场景流的地面真相进行训练。我们的方法实现了一个目标,即训练场景流通过现实世界数据弥合了训练数据和测试数据之间的差距,并扩大了可用数据的范围以进行培训。本文无监督的场景流程学习主要由两个部分组成:(i)深度估计和摄像头姿势估计,以及(ii)基于四个不同损失功能的场景流估计。深度估计和相机姿势估计获得了两个连续帧之间的深度图和摄像头,这为下一个场景流估计提供了更多信息。之后,我们使用了深度一致性损失,动态静态一致性损失,倒角损失和拉普拉斯正规化损失来对场景流网络进行无监督的训练。据我们所知,这是第一篇意识到从单眼摄像机流动的3D场景流程的无监督学习的论文。 Kitti上的实验结果表明,与传统方法迭代最接近点(ICP)和快速全球注册(FGR)相比,我们无监督学习场景学习的方法符合表现出色。源代码可在以下网址获得:https://github.com/irmvlab/3dunmonoflow。
translated by 谷歌翻译
Photometric differences are widely used as supervision signals to train neural networks for estimating depth and camera pose from unlabeled monocular videos. However, this approach is detrimental for model optimization because occlusions and moving objects in a scene violate the underlying static scenario assumption. In addition, pixels in textureless regions or less discriminative pixels hinder model training. To solve these problems, in this paper, we deal with moving objects and occlusions utilizing the difference of the flow fields and depth structure generated by affine transformation and view synthesis, respectively. Secondly, we mitigate the effect of textureless regions on model optimization by measuring differences between features with more semantic and contextual information without adding networks. In addition, although the bidirectionality component is used in each sub-objective function, a pair of images are reasoned about only once, which helps reduce overhead. Extensive experiments and visual analysis demonstrate the effectiveness of the proposed method, which outperform existing state-of-the-art self-supervised methods under the same conditions and without introducing additional auxiliary information.
translated by 谷歌翻译
基于激光雷达的3D单一对象跟踪是机器人技术和自动驾驶中的一个具有挑战性的问题。当前,现有方法通常会遇到长距离对象通常具有非常稀疏或部分倾斜的点云的问题,这使得模型含糊不清。模棱两可的功能将很难找到目标对象,并最终导致不良跟踪结果。为了解决此问题,我们使用功能强大的变压器体系结构,并为基于点云的3D单一对象跟踪任务提出一个点轨转换器(PTT)模块。具体而言,PTT模块通过计算注意力重量来生成微调的注意力特征,该功能指导追踪器的重点关注目标的重要功能,并提高复杂场景中的跟踪能力。为了评估我们的PTT模块,我们将PTT嵌入主要方法中,并构建一个名为PTT-NET的新型3D SOT跟踪器。在PTT-NET中,我们分别将PTT嵌入了投票阶段和提案生成阶段。投票阶段中的PTT模块可以模拟点斑块之间的交互作用,该点贴片学习上下文依赖于上下文。同时,提案生成阶段中的PTT模块可以捕获对象和背景之间的上下文信息。我们在Kitti和Nuscenes数据集上评估了PTT-NET。实验结果证明了PTT模块的有效性和PTT-NET的优越性,PTT-NET的优势超过了基线,在CAR类别中〜10%。同时,我们的方法在稀疏场景中也具有显着的性能提高。通常,变压器和跟踪管道的组合使我们的PTT-NET能够在两个数据集上实现最先进的性能。此外,PTT-NET可以在NVIDIA 1080TI GPU上实时以40fps实时运行。我们的代码是为研究社区开源的,网址为https://github.com/shanjiayao/ptt。
translated by 谷歌翻译
场景流程描绘了3D场景的动态,这对于传统上,从诸如自主驾驶,机器人导航,AR / VR等的各种应用来说至关重要。从密集/常规RGB视频帧估计场景流。随着深度感测技术的发展,通过点云可获得精确的3D测量,这在3D场景流中引发了新的研究。然而,由于典型点云采样模式中的稀缺性和不规则性,从点云中提取场景流量仍然具有挑战性。与不规则采样相关的一个主要问题被识别为点设置抽象/特征提取期间的随机性 - 许多流程估计场景中的基本进程。因此,提出了一种注意力(SA ^ 2)层的新型空间抽象,以减轻不稳定的抽象问题。此外,提出了一种注意力(TA ^ 2)层的时间抽象来纠正时间域中的注意力,导致运动中的运动缩放在更大范围内。广泛的分析和实验验证了我们方法的动机和显着性能收益,与空间 - 时间注意(Festa)称为流量估计,与场景流估计的几个最先进的基准相比。
translated by 谷歌翻译
真正的场景流量估计对于3D计算机视觉越来越重要。有些作品成功估计了LIDAR的真实3D场景流。然而,这些无处不在的和昂贵的传感器仍然不太可能被广泛配备用于真实应用。其他作品使用单眼图像来估计场景流,但它们的场景流量估计与比例模糊性归一化,其中需要额外的深度或点云原始事实来恢复实际规模。即使它们在2D中表现良好,这些作品也不提供准确可靠的3D估计。我们在Permutohedral格子上展示了深度学习的建筑 - Monoplflownet。与以前的所有作品不同,我们的monoplflown是第一个工作,其中仅使用两个连续的单眼图像作为输入,而深度和3D场景流程估计是实际规模的。我们的实际场景流量估计优于基于基于尺度的所有最先进的单眼图像基础的作品,并与Lidar方法相媲美。作为副产品,我们的实际深度估计也优于其他最先进的工作。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
3D场景流动表征了当前时间的点如何流到3D欧几里得空间中的下一次,该空间具有自主推断场景中所有对象的非刚性运动的能力。从图像估算场景流的先前方法具有局限性,该方法通过分别估计光流和差异来划分3D场景流的整体性质。学习3D场景从点云流动也面临着综合数据和真实数据与LIDAR点云的稀疏性之间差距的困难。在本文中,利用生成的密集深度图来获得显式的3D坐标,该坐标可直接从2D图像中学习3D场景流。通过将2D像素的密度性质引入3D空间,可以改善预测场景流的稳定性。通过统计方法消除了生成的3D点云中的离群值,以削弱噪声点对3D场景流估计任务的影响。提出了差异一致性损失,以实现3D场景流的更有效的无监督学习。比较了现实世界图像上3D场景流的自我监督学习方法与在综合数据集中学习的多种方法和在LIDAR点云上学习的方法。显示多个场景流量指标的比较可以证明引入伪LIDAR点云到场景流量估计的有效性和优势。
translated by 谷歌翻译
无监督的对光流计算的深度学习取得了令人鼓舞的结果。大多数现有的基于深网的方法都依赖图像亮度一致性和局部平滑度约束来训练网络。他们的性能在发生重复纹理或遮挡的区域降低。在本文中,我们提出了深层的外两极流,这是一种无监督的光流方法,将全局几何约束结合到网络学习中。特别是,我们研究了多种方式在流量估计中强制执行外两极约束。为了减轻在可能存在多个动作的动态场景中遇到的“鸡肉和蛋”类型的问题,我们提出了一个低级别的约束以及对培训的订婚结合的约束。各种基准测试数据集的实验结果表明,与监督方法相比,我们的方法实现了竞争性能,并且优于最先进的无监督深度学习方法。
translated by 谷歌翻译
最近,现场流动估计的神经网络在汽车数据(例如Kitti基准测试)上显示出令人印象深刻的结果。但是,尽管使用了复杂的刚性假设和参数化,但此类网络通常仅限于两个帧对,而这些帧对不允许它们利用时间信息。在我们的论文中,我们通过提出一种新型的多帧方法来解决这一缺点,该方法考虑了前一个立体对。为此,我们采取了两个步骤:首先,基于最近的Raft-3D方法,我们通过合并改进的立体声方法来开发高级的两框基线。其次,甚至更重要的是,利用RAFT-3D的特定建模概念,我们提出了一个像U-NET这样的U-NET架构,该体系结构执行了向前和向后流量估计的融合,因此允许按需将时间信息集成。 KITTI基准测试的实验不仅表明了改进的基线和时间融合方法的优势相互补充,而且还证明了计算的场景流非常准确。更确切地说,我们的方法排名第二,对于更具挑战性的前景对象来说,总的来说,总比原始RAFT-3D方法的表现超过16%。代码可从https://github.com/cv-stuttgart/m-fuse获得。
translated by 谷歌翻译
我们介绍了PointConvormer,这是一个基于点云的深神经网络体系结构的新颖构建块。受到概括理论的启发,PointConvormer结合了点卷积的思想,其中滤波器权重仅基于相对位置,而变形金刚则利用了基于功能的注意力。在PointConvormer中,附近点之间的特征差异是重量重量卷积权重的指标。因此,我们从点卷积操作中保留了不变,而注意力被用来选择附近的相关点进行卷积。为了验证PointConvormer的有效性,我们在点云上进行了语义分割和场景流估计任务,其中包括扫描仪,Semantickitti,FlyingThings3D和Kitti。我们的结果表明,PointConvormer具有经典的卷积,常规变压器和Voxelized稀疏卷积方法的表现,具有较小,更高效的网络。可视化表明,PointConvormer的性能类似于在平面表面上的卷积,而邻域选择效果在物体边界上更强,表明它具有两全其美。
translated by 谷歌翻译
在本文中,我们提出了USEGSCENE,该框架用于使用卷积神经网络对立体声相机图像的深度,光流和自我感动的无监督学习。我们的框架利用语义信息来改善深度和光流图的正则化,多模式融合和遮挡填充考虑动态刚性对象运动作为独立的SE(3)转换。此外,我们与纯照相匹配匹配互补,我们提出了连续图像之间语义特征,像素类别和对象实例边界的匹配。与以前的方法相反,我们提出了一个网络体系结构,该网络体系结构可以使用共享编码器共同预测所有输出,并允许在任务域上传递信息,例如,光流的预测可以从深度的预测中受益。此外,我们明确地了解网络内部的深度和光流遮挡图,这些图被利用,以改善这些区域的预测。我们在流行的Kitti数据集上介绍了结果,并表明我们的方法以大幅度的优于其他方法。
translated by 谷歌翻译
基于学习的光流量估计已经与成本量的管道管道,具有用于流回归的卷曲,其固有地限于本地相关性,因此很难解决大型位移的长期挑战。为了缓解这一点,通过大量迭代细化产生一系列流动更新,实现最先进的方法,即筏,逐渐提高其预测的质量,实现了显着的性能,但减慢推理速度。为了实现高精度和效率的光学流量估计,我们通过将光学流作为全球匹配问题重新重新重新重新匹配,完全改造主导流回归管道。具体而言,我们提出了一个GMFlow框架,它由三个主要组件组成:用于功能增强的自定义变压器,全局特征匹配的相关和软邮件,以及用于流传播的自我注意层。此外,我们进一步介绍了一种改进步骤,该步骤在较高分辨率下重复使用GMFlow以进行残余流量预测。我们的新框架优于32次迭代RAFT在挑战的Sintel基准测试中的性能,同时仅使用一个细化并更快地运行,为高效和准确的光学流量估算提供了新的可能性。代码将在https://github.com/haofeixu/gmflow上使用。
translated by 谷歌翻译