在本文中,我们研究了从同步2D和3D数据共同估计光流量和场景流的问题。以前的方法使用复杂的管道,将联合任务分成独立阶段,或以“早期融合”或“迟到的”方式“的熔断器2D和3D信息。这种单尺寸适合的方法遭受了未能充分利用每个模态的特征的困境,或者最大化模态互补性。为了解决这个问题,我们提出了一个新的端到端框架,称为Camliflow。它由2D和3D分支组成,在特定层之间具有多个双向连接。与以前的工作不同,我们应用基于点的3D分支以更好地提取几何特征,并设计一个对称的学习操作员以保险熔断致密图像特征和稀疏点特征。我们还提出了一种转换,以解决3D-2D投影的非线性问题。实验表明,Camliflow以更少的参数实现了更好的性能。我们的方法在Kitti场景流基准上排名第一,表现出以1/7参数的前一篇文章。代码将可用。
translated by 谷歌翻译
在本文中,我们提出了USEGSCENE,该框架用于使用卷积神经网络对立体声相机图像的深度,光流和自我感动的无监督学习。我们的框架利用语义信息来改善深度和光流图的正则化,多模式融合和遮挡填充考虑动态刚性对象运动作为独立的SE(3)转换。此外,我们与纯照相匹配匹配互补,我们提出了连续图像之间语义特征,像素类别和对象实例边界的匹配。与以前的方法相反,我们提出了一个网络体系结构,该网络体系结构可以使用共享编码器共同预测所有输出,并允许在任务域上传递信息,例如,光流的预测可以从深度的预测中受益。此外,我们明确地了解网络内部的深度和光流遮挡图,这些图被利用,以改善这些区域的预测。我们在流行的Kitti数据集上介绍了结果,并表明我们的方法以大幅度的优于其他方法。
translated by 谷歌翻译
场景流表示3D空间中点的运动,这是代表2D图像中像素运动的光流的对应物。但是,很难在真实场景中获得场景流的基础真理,并且最近的研究基于培训的合成数据。因此,如何基于实际数据训练场景流网络具有无监督的方法表现出至关重要的意义。本文提出了一种针对场景流的新颖无监督学习方法,该方法利用了单眼相机连续的两个帧的图像,而没有场景流的地面真相进行训练。我们的方法实现了一个目标,即训练场景流通过现实世界数据弥合了训练数据和测试数据之间的差距,并扩大了可用数据的范围以进行培训。本文无监督的场景流程学习主要由两个部分组成:(i)深度估计和摄像头姿势估计,以及(ii)基于四个不同损失功能的场景流估计。深度估计和相机姿势估计获得了两个连续帧之间的深度图和摄像头,这为下一个场景流估计提供了更多信息。之后,我们使用了深度一致性损失,动态静态一致性损失,倒角损失和拉普拉斯正规化损失来对场景流网络进行无监督的训练。据我们所知,这是第一篇意识到从单眼摄像机流动的3D场景流程的无监督学习的论文。 Kitti上的实验结果表明,与传统方法迭代最接近点(ICP)和快速全球注册(FGR)相比,我们无监督学习场景学习的方法符合表现出色。源代码可在以下网址获得:https://github.com/irmvlab/3dunmonoflow。
translated by 谷歌翻译
在现有方法中,LIDAR的探测器显示出卓越的性能,但视觉探测器仍被广泛用于其价格优势。从惯例上讲,视觉检验的任务主要依赖于连续图像的输入。但是,探测器网络学习图像提供的异性几何信息非常复杂。在本文中,将伪LIDAR的概念引入了探测器中以解决此问题。伪LIDAR点云背面项目由图像生成的深度图中的3D点云,这改变了图像表示的方式。与立体声图像相比,立体声匹配网络生成的伪lidar点云可以得到显式的3D坐标。由于在3D空间中发生了6个自由度(DOF)姿势转换,因此伪宽点云提供的3D结构信息比图像更直接。与稀疏的激光雷达相比,伪驱动器具有较密集的点云。为了充分利用伪LIDAR提供的丰富点云信息,采用了投射感知的探测管道。以前的大多数基于激光雷达的算法从点云中采样了8192点,作为探视网络的输入。投影感知的密集探测管道采用从图像产生的所有伪lidar点云,除了误差点作为网络的输入。在图像中充分利用3D几何信息时,图像中的语义信息也用于探视任务中。 2D-3D的融合是在仅基于图像的进程中实现的。 Kitti数据集的实验证明了我们方法的有效性。据我们所知,这是使用伪LIDAR的第一种视觉探光法。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
场景流估计在场景之间提取点运动的场景估计正在成为许多计算机视觉任务的关键任务。但是,所有现有的估计方法仅利用单向特征,从而限制了准确性和通用性。本文使用双向流嵌入层提出了一种新颖的场景估计架构。所提出的双向层学习沿向前和向后方向的功能,从而增强了估计性能。此外,层次功能提取和翘曲可改善性能并减少计算开销。实验结果表明,拟议的架构通过在FlyingThings3D和Kitti基准测试中优于其他方法,从而实现了新的最新记录。代码可在https://github.com/cwc1260/biflow上找到。
translated by 谷歌翻译
真正的场景流量估计对于3D计算机视觉越来越重要。有些作品成功估计了LIDAR的真实3D场景流。然而,这些无处不在的和昂贵的传感器仍然不太可能被广泛配备用于真实应用。其他作品使用单眼图像来估计场景流,但它们的场景流量估计与比例模糊性归一化,其中需要额外的深度或点云原始事实来恢复实际规模。即使它们在2D中表现良好,这些作品也不提供准确可靠的3D估计。我们在Permutohedral格子上展示了深度学习的建筑 - Monoplflownet。与以前的所有作品不同,我们的monoplflown是第一个工作,其中仅使用两个连续的单眼图像作为输入,而深度和3D场景流程估计是实际规模的。我们的实际场景流量估计优于基于基于尺度的所有最先进的单眼图像基础的作品,并与Lidar方法相媲美。作为副产品,我们的实际深度估计也优于其他最先进的工作。
translated by 谷歌翻译
自我监督的单眼深度估计使机器人能够从原始视频流中学习3D感知。假设世界主要是静态的,这种可扩展的方法利用了投射的几何形状和自我运动来通过视图综合学习。在自主驾驶和人类机器人相互作用中常见的动态场景违反了这一假设。因此,它们需要明确建模动态对象,例如通过估计像素3D运动,即场景流。但是,同时对深度和场景流的自我监督学习是不适合的,因为有许多无限的组合导致相同的3D点。在本文中,我们提出了一种草稿,这是一种通过将合成数据与几何自学意识相结合的新方法,能够共同学习深度,光流和场景流。在木筏架构的基础上,我们将光流作为中间任务,以通过三角剖分来引导深度和场景流量学习。我们的算法还利用任务之间的时间和几何一致性损失来改善多任务学习。我们的草案在标准Kitti基准的自我监督的单眼环境中,同时在所有三个任务中建立了新的最新技术状态。项目页面:https://sites.google.com/tri.global/draft。
translated by 谷歌翻译
3D场景流动表征了当前时间的点如何流到3D欧几里得空间中的下一次,该空间具有自主推断场景中所有对象的非刚性运动的能力。从图像估算场景流的先前方法具有局限性,该方法通过分别估计光流和差异来划分3D场景流的整体性质。学习3D场景从点云流动也面临着综合数据和真实数据与LIDAR点云的稀疏性之间差距的困难。在本文中,利用生成的密集深度图来获得显式的3D坐标,该坐标可直接从2D图像中学习3D场景流。通过将2D像素的密度性质引入3D空间,可以改善预测场景流的稳定性。通过统计方法消除了生成的3D点云中的离群值,以削弱噪声点对3D场景流估计任务的影响。提出了差异一致性损失,以实现3D场景流的更有效的无监督学习。比较了现实世界图像上3D场景流的自我监督学习方法与在综合数据集中学习的多种方法和在LIDAR点云上学习的方法。显示多个场景流量指标的比较可以证明引入伪LIDAR点云到场景流量估计的有效性和优势。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
最近,现场流动估计的神经网络在汽车数据(例如Kitti基准测试)上显示出令人印象深刻的结果。但是,尽管使用了复杂的刚性假设和参数化,但此类网络通常仅限于两个帧对,而这些帧对不允许它们利用时间信息。在我们的论文中,我们通过提出一种新型的多帧方法来解决这一缺点,该方法考虑了前一个立体对。为此,我们采取了两个步骤:首先,基于最近的Raft-3D方法,我们通过合并改进的立体声方法来开发高级的两框基线。其次,甚至更重要的是,利用RAFT-3D的特定建模概念,我们提出了一个像U-NET这样的U-NET架构,该体系结构执行了向前和向后流量估计的融合,因此允许按需将时间信息集成。 KITTI基准测试的实验不仅表明了改进的基线和时间融合方法的优势相互补充,而且还证明了计算的场景流非常准确。更确切地说,我们的方法排名第二,对于更具挑战性的前景对象来说,总的来说,总比原始RAFT-3D方法的表现超过16%。代码可从https://github.com/cv-stuttgart/m-fuse获得。
translated by 谷歌翻译
场景流表示场景中每个点的3D运动,该动作明确描述了每个点运动的距离和方向。场景流估计用于各种应用,例如自主驾驶场,活动识别和虚拟现实字段。由于对现实世界数据的地面真理的注释场景流动是一项挑战,因此没有可用的现实数据集可提供大量数据,并具有地面真相以进行场景流量估计。因此,许多作品使用合成的数据将其网络和现实世界中的LIDAR数据预先培训。与以前的无监督学习场景流程中的云中的学习流程不同,我们建议使用探空仪信息来帮助无监督的场景流程学习,并使用现实世界中的激光雷达数据来训练我们的网络。有监督的探测器为场景流提供了更准确的共享成本量。此外,拟议的网络具有掩模加权的经线层,以获得更准确的预测点云。经线操作意味着将估计的姿势转换或场景流到源点云中以获得预测的点云,这是精炼场景从粗糙到细小的关键。执行翘曲操作时,不同状态中的点使用不同的权重进行姿势转换和场景流动转换。我们将点状态分类为静态,动态和遮挡,其中静态掩模用于划分静态和动态点,并使用遮挡掩码来划分闭塞点。掩模加权经线表明在执行经线操作时,将静态面膜和遮挡面膜用作权重。我们的设计被证明在消融实验中有效。实验结果表明,在现实世界中,3D场景流的无监督学习方法的前景是有希望的。
translated by 谷歌翻译
点云的3D场景流量估计是计算机视觉中的低级3D运动感知任务。流嵌入是场景流估计中的一种常用技术,它编码两个连续帧之间的点运动。因此,对于流动嵌入捕获运动的正确总体方向是至关重要的。但是,以前的作品仅在本地搜索以确定软信号,而忽略了遥远的点,而遥远的点是实际匹配的点。另外,估计的对应关系通常来自相邻点云的正向,并且可能与从向后方向获得的估计对应关系不一致。为了解决这些问题,我们提出了一个新颖的全能嵌入层,并在初始场景流量估计期间具有向后的可靠性验证。此外,我们研究并比较了3D场景流网络的关键组件中的几个设计选择,包括点相似度计算,预测变量的输入元素以及预测变量和改进级别的设计。仔细选择了最有效的设计后,我们能够提出一个模型,该模型可以在FlyingThings3D和Kitti场景流数据集上实现最新性能。我们提出的模型超过了所有现有方法的FlyterThings3D数据集至少38.2%,而EPE3D Metric的Kitti场景流数据集则超过了24.7%。我们在https://github.com/irmvlab/3dflow上发布代码。
translated by 谷歌翻译
We present a compact but effective CNN model for optical flow, called PWC-Net. PWC-Net has been designed according to simple and well-established principles: pyramidal processing, warping, and the use of a cost volume. Cast in a learnable feature pyramid, PWC-Net uses the current optical flow estimate to warp the CNN features of the second image. It then uses the warped features and features of the first image to construct a cost volume, which is processed by a CNN to estimate the optical flow. PWC-Net is 17 times smaller in size and easier to train than the recent FlowNet2 model. Moreover, it outperforms all published optical flow methods on the MPI Sintel final pass and KITTI 2015 benchmarks, running at about 35 fps on Sintel resolution (1024×436) images. Our models are available on https://github.com/NVlabs/PWC-Net.
translated by 谷歌翻译
This paper proposes a novel model and dataset for 3D scene flow estimation with an application to autonomous driving. Taking advantage of the fact that outdoor scenes often decompose into a small number of independently moving objects, we represent each element in the scene by its rigid motion parameters and each superpixel by a 3D plane as well as an index to the corresponding object. This minimal representation increases robustness and leads to a discrete-continuous CRF where the data term decomposes into pairwise potentials between superpixels and objects. Moreover, our model intrinsically segments the scene into its constituting dynamic components. We demonstrate the performance of our model on existing benchmarks as well as a novel realistic dataset with scene flow ground truth. We obtain this dataset by annotating 400 dynamic scenes from the KITTI raw data collection using detailed 3D CAD models for all vehicles in motion. Our experiments also reveal novel challenges which cannot be handled by existing methods.
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
准确的运动和深度恢复对于包括自动驾驶在内的许多机器人视觉任务很重要。以前的大多数研究都通过预定义的损失函数或跨域预测实现了合作的多任务相互作用。本文提出了一种多任务方案,该方案通过我们的流动深度(F2D),深度流动(D2F)和指数移动平均值(EMA)来实现相互帮助。 F2D和D2F机制可以基于可区分的浅网,可以在光流和深度域之间进行多尺度信息集成。双头机制用于基于分裂方式的刚性和非刚性运动来预测光流,从而显着改善了光流估计的性能。此外,为了使预测更加稳健和稳定,EMA用于我们的多任务培训。 KITTI数据集的实验结果表明,我们的多任务方案优于其他多任务方案,并为预测结果提供了明显的改进。
translated by 谷歌翻译
鉴于其经济性与多传感器设置相比,从单眼输入中感知的3D对象对于机器人系统至关重要。它非常困难,因为单个图像无法提供预测绝对深度值的任何线索。通过双眼方法进行3D对象检测,我们利用了相机自我运动提供的强几何结构来进行准确的对象深度估计和检测。我们首先对此一般的两视案例进行了理论分析,并注意两个挑战:1)来自多个估计的累积错误,这些估计使直接预测棘手; 2)由静态摄像机和歧义匹配引起的固有难题。因此,我们建立了具有几何感知成本量的立体声对应关系,作为深度估计的替代方案,并以单眼理解进一步补偿了它,以解决第二个问题。我们的框架(DFM)命名为深度(DFM),然后使用已建立的几何形状将2D图像特征提升到3D空间并检测到其3D对象。我们还提出了一个无姿势的DFM,以使其在摄像头不可用时可用。我们的框架在Kitti基准测试上的优于最先进的方法。详细的定量和定性分析也验证了我们的理论结论。该代码将在https://github.com/tai-wang/depth-from-motion上发布。
translated by 谷歌翻译
We propose GeoNet, a jointly unsupervised learning framework for monocular depth, optical flow and egomotion estimation from videos. The three components are coupled by the nature of 3D scene geometry, jointly learned by our framework in an end-to-end manner. Specifically, geometric relationships are extracted over the predictions of individual modules and then combined as an image reconstruction loss, reasoning about static and dynamic scene parts separately. Furthermore, we propose an adaptive geometric consistency loss to increase robustness towards outliers and non-Lambertian regions, which resolves occlusions and texture ambiguities effectively. Experimentation on the KITTI driving dataset reveals that our scheme achieves state-of-the-art results in all of the three tasks, performing better than previously unsupervised methods and comparably with supervised ones.
translated by 谷歌翻译