Our long term goal is to use image-based depth completion to quickly create 3D models from sparse point clouds, e.g. from SfM or SLAM. Much progress has been made in depth completion. However, most current works assume well distributed samples of known depth, e.g. Lidar or random uniform sampling, and perform poorly on uneven samples, such as from keypoints, due to the large unsampled regions. To address this problem, we extend CSPN with multiscale prediction and a dilated kernel, leading to much better completion of keypoint-sampled depth. We also show that a model trained on NYUv2 creates surprisingly good point clouds on ETH3D by completing sparse SfM points.
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
建立新型观点综合的最近进展后,我们提出了改善单眼深度估计的应用。特别是,我们提出了一种在三个主要步骤中分开的新颖训练方法。首先,单眼深度网络的预测结果被扭转到额外的视点。其次,我们应用一个额外的图像综合网络,其纠正并提高了翘曲的RGB图像的质量。通过最小化像素-WISE RGB重建误差,该网络的输出需要尽可能类似地查看地面真实性视图。第三,我们将相同的单眼深度估计重新应用于合成的第二视图点,并确保深度预测与相关的地面真理深度一致。实验结果证明,我们的方法在Kitti和Nyu-Deaft-V2数据集上实现了最先进的或可比性,具有轻量级和简单的香草U-Net架构。
translated by 谷歌翻译
在本文中,根据PatchMatch Multi-View Stereo(MVS),提出了针对城市场景的基于图像的3D重建的完整管道。首先,输入图像被馈入现成的视觉大满贯系统中,以提取相机姿势和稀疏关键点,这些镜头用于初始化PatchMatch优化。然后,在具有新颖的深度正常一致性损耗项和全局修复算法的多尺度框架中,对Pixelwise的深度和正态进行了迭代计算,以平衡PatchMatch固有的局部性质。最后,通过在3D中以反向项目的多视图一致估计来生成大规模点云。针对Kitti数据集上的经典MVS算法和单眼深度网络仔细评估了所提出的方法,显示了最先进的性能。
translated by 谷歌翻译
现有的深度完成方法通常以特定的稀疏深度类型为目标,并且在任务域之间概括较差。我们提出了一种方法,可以通过各种范围传感器(包括现代手机中的范围传感器或多视图重建算法)获得稀疏/半密度,嘈杂和潜在的低分辨率深度图。我们的方法利用了在大规模数据集中训练的单个图像深度预测网络的形式的数据驱动的先验,其输出被用作我们模型的输入。我们提出了一个有效的培训计划,我们在典型的任务域中模拟各种稀疏模式。此外,我们设计了两个新的基准测试,以评估深度完成方法的普遍性和鲁棒性。我们的简单方法显示了针对最先进的深度完成方法的优越的跨域泛化能力,从而引入了一种实用的解决方案,以在移动设备上捕获高质量的深度捕获。代码可在以下网址获得:https://github.com/yvanyin/filldepth。
translated by 谷歌翻译
尽管在过去几年中取得了重大进展,但使用单眼图像进行深度估计仍然存在挑战。首先,训练度量深度预测模型的训练是不算气的,该预测模型可以很好地推广到主要由于训练数据有限的不同场景。因此,研究人员建立了大规模的相对深度数据集,这些数据集更容易收集。但是,由于使用相对深度数据训练引起的深度转移,现有的相对深度估计模型通常无法恢复准确的3D场景形状。我们在此处解决此问题,并尝试通过对大规模相对深度数据进行训练并估算深度转移来估计现场形状。为此,我们提出了一个两阶段的框架,该框架首先将深度预测到未知量表并从单眼图像转移,然后利用3D点云数据来预测深度​​移位和相机的焦距,使我们能够恢复恢复3D场景形状。由于两个模块是单独训练的,因此我们不需要严格配对的培训数据。此外,我们提出了图像级的归一化回归损失和基于正常的几何损失,以通过相对深度注释来改善训练。我们在九个看不见的数据集上测试我们的深度模型,并在零拍摄评估上实现最先进的性能。代码可用:https://git.io/depth
translated by 谷歌翻译
稀疏深度测量在许多应用中广泛可用,例如增强现实,视觉惯性机器人和机器人,配备低成本深度传感器。虽然这种稀疏的深度样本适用于运动跟踪等某些应用,但是完整的深度图通常优选用于更广泛的应用,例如3D对象识别,三维重建和自主驾驶。尽管近期从具有更深的神经网络的单个RGB图像深度预测的进步,但现有方法不会产生可靠的实际使用结果。在这项工作中,我们提出了一种具有后优化后的神经网络,它将RGB图像和稀疏深度样本作为输入,并预测完整的深度图。我们提出了三项主要贡献来推进最先进的:一个名为EDNET的改进的骨干网络架构,一个语义边缘加权损失功能和语义网格变形优化方法。我们的评估结果优于在室内和室外数据集中一致地表达现有的工作,并且在NYU-Deaft-V2数据集上的200个稀疏样本的相同设置下,显着降低平均平均误差高达19.5%。
translated by 谷歌翻译
We present a novel depth completion approach agnostic to the sparsity of depth points, that is very likely to vary in many practical applications. State-of-the-art approaches yield accurate results only when processing a specific density and distribution of input points, i.e. the one observed during training, narrowing their deployment in real use cases. On the contrary, our solution is robust to uneven distributions and extremely low densities never witnessed during training. Experimental results on standard indoor and outdoor benchmarks highlight the robustness of our framework, achieving accuracy comparable to state-of-the-art methods when tested with density and distribution equal to the training one while being much more accurate in the other cases. Our pretrained models and further material are available in our project page.
translated by 谷歌翻译
深度完成处理从稀疏的问题恢复密集深度映射,其中彩色图像通常用于促进此任务。最近的方法主要集中在图像引导学习中预测致密结果。然而,图像中的模糊引导和深度不明确的结构仍然妨碍了图像引导框架的性能。灵感来自于观察和思考的流行机制两次,我们探讨了我们的图像引导网络中的重复设计逐渐恢复了深度值。具体地,重复体现在图像引导分支和深度生成分支中。在前一个分支中,我们设计了一种重复的沙漏网络,以提取复杂环境的判别图像特征,这可以为深度预测提供强大的上下文指导。在后一分支中,我们介绍了一种基于动态卷积的重复引导模块,其中提出了高效的卷积分解,以同时降低其复杂性和逐步模型的高频结构。广泛的实验表明,我们的方法在基蒂基准和NYUV2数据集上实现了最先进的结果。
translated by 谷歌翻译
大多数用于增强和虚拟现实的管道通过创建稀疏的3D地标地图来估计相机的自我感动。在本文中,我们解决了深度完成问题的问题,即使用RGB图像作为指导来致密3D地图。由于SFM和SLAM管道产生的低密度,不均匀且容易出现的3D地标,这仍然是一个具有挑战性的问题。我们引入了一个变压器块,跨度形式,该块融合了具有深度视觉特征的3D地标,以产生密集的深度。稀疏形式具有一个全球接收场,使该模块在低密度和不均匀地标的深度完成方面特别有效。为了解决3D地标之间的深度离群值问题,我们引入了一个可训练的改进模块,该模块通过稀疏地标之间的注意来过滤异常值。
translated by 谷歌翻译
We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.
translated by 谷歌翻译
现有的单眼深度估计方法在不同的场景中实现了出色的鲁棒性,但它们只能检索仿射不变的深度,最多可达到未知的规模和变化。但是,在一些基于视频的场景中,例如视频中的视频深度估计和3D场景重建,驻留在人均预测中的未知量表和偏移可能会导致深度不一致。为了解决这个问题,我们提出了一种局部加权的线性回归方法,以恢复比例并以非常稀疏的锚点的转移,从而确保沿连续帧的比例一致性。广泛的实验表明,我们的方法可以在几个零击基准测试中最多将现有最新方法的性能提高50%。此外,我们合并了超过630万个RGBD图像,以训练强大而健壮的深度模型。我们产生的Resnet50-Backbone模型甚至胜过最先进的DPT VIT-LALGE模型。结合基于几何的重建方法,我们制定了一种新的密集3D场景重建管道,该管道受益于稀疏点的比例一致性和单眼方法的鲁棒性。通过对视频进行简单的人均预测,可以恢复准确的3D场景形状。
translated by 谷歌翻译
Monocular depth prediction plays a crucial role in understanding 3D scene geometry. Although recent methods have achieved impressive progress in evaluation metrics such as the pixel-wise relative error, most methods neglect the geometric constraints in the 3D space. In this work, we show the importance of the high-order 3D geometric constraints for depth prediction. By designing a loss term that enforces one simple type of geometric constraints, namely, virtual normal directions determined by randomly sampled three points in the reconstructed 3D space, we can considerably improve the depth prediction accuracy. Significantly, the byproduct of this predicted depth being sufficiently accurate is that we are now able to recover good 3D structures of the scene such as the point cloud and surface normal directly from the depth, eliminating the necessity of training new sub-models as was previously done. Experiments on two benchmarks: NYU Depth-V2 and KITTI demonstrate the effectiveness of our method and state-of-the-art performance.
translated by 谷歌翻译
In this paper, we present a learning-based approach for multi-view stereo (MVS), i.e., estimate the depth map of a reference frame using posed multi-view images. Our core idea lies in leveraging a "learning-to-optimize" paradigm to iteratively index a plane-sweeping cost volume and regress the depth map via a convolutional Gated Recurrent Unit (GRU). Since the cost volume plays a paramount role in encoding the multi-view geometry, we aim to improve its construction both in pixel- and frame- levels. In the pixel level, we propose to break the symmetry of the Siamese network (which is typically used in MVS to extract image features) by introducing a transformer block to the reference image (but not to the source images). Such an asymmetric volume allows the network to extract global features from the reference image to predict its depth map. In view of the inaccuracy of poses between reference and source images, we propose to incorporate a residual pose network to make corrections to the relative poses, which essentially rectifies the cost volume in the frame-level. We conduct extensive experiments on real-world MVS datasets and show that our method achieves state-of-the-art performance in terms of both within-dataset evaluation and cross-dataset generalization.
translated by 谷歌翻译
轻巧的飞行时间(TOF)深度传感器很小,便宜,低能量,并且已在移动设备上大量部署在移动设备上,以进行自动对焦,障碍物检测等。但是,由于其特定的测量值(深度分布)在某个像素时的区域而不是深度值,并且分辨率极低,它们不足以用于需要高保真深度(例如3D重建)的应用。在本文中,我们提出了Deltar,这是一种新颖的方法,可以通过与颜色图像合作来赋予高分辨率和准确深度的能力。作为Deltar的核心,提出了一种用于深度分布的特征提取器,并提出了基于注意力的神经体系结构,以有效地从颜色和TOF域中融合信息。为了在现实世界中评估我们的系统,我们设计了一个数据收集设备,并提出了一种校准RGB摄像头和TOF传感器的新方法。实验表明,我们的方法比旨在使用商品级RGB-D传感器的PAR性能实现的现有框架比现有的框架产生更准确的深度。代码和数据可在https://zju3dv.github.io/deltar/上获得。
translated by 谷歌翻译
由于可靠的3D空间信息,LIDAR传感器广泛用于自动驾驶。然而,LIDAR的数据稀疏,LIDAR的频率低于相机的频率。为了在空间和时间上生成密集点云,我们提出了第一个将来的伪激光框架预测网络。鉴于连续稀疏深度图和RGB图像,我们首先根据动态运动信息粗略地预测未来的密集深度图。为了消除光流量估计的误差,提出了帧间聚合模块,以使具有自适应权重的翘曲深度图熔断。然后,我们使用静态上下文信息优化预测的密集深度图。通过将预测的密集深度图转换为相应的3D点云,可以获得未来的伪激光镜帧。实验结果表明,我们的方法优于流行基准基准的现有解决方案。
translated by 谷歌翻译
机器人技术中的安全运动规划需要已验证的空间规划,这些空间没有障碍。但是,由于其深度测量值的稀疏性,使用LiDARS获得此类环境表示是具有挑战性的。我们提出了一个学习辅助的3D激光雷达重建框架,该框架借助重叠的摄像头图像来为稀疏的激光雷达深度测量,以生成比单独使用原始liDar测量值可以实现更明确的自由空间的较密集的重建。我们使用带有编码器解码器结构的神经网络来预测密集的深度图像以及使用体积映射系统融合的深度不确定性估计。我们在使用手持式传感设备和腿部机器人捕获的现实世界室外数据集上进行实验。我们使用来自16束束激光雷达映射建筑网络的输入数据,我们的实验表明,通过我们的方法,估计的自由空间的量增加了40%以上。我们还表明,我们在合成数据集通用上训练的方法非常适合现实世界户外场景,而无需进行其他微调。最后,我们演示了运动计划任务如何从这些密集的重建中受益。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
透明的物体广泛用于工业自动化和日常生活中。但是,强大的视觉识别和对透明物体的感知一直是一个主要挑战。目前,由于光的折射和反射,大多数商用级深度摄像机仍然不擅长感知透明物体的表面。在这项工作中,我们从单个RGB-D输入中提出了一种基于变压器的透明对象深度估计方法。我们观察到,变压器的全球特征使得更容易提取上下文信息以执行透明区域的深度估计。此外,为了更好地增强细粒度的特征,功能融合模块(FFM)旨在帮助连贯的预测。我们的经验证据表明,与以前的最新基于卷积的数据集相比,我们的模型在最近的流行数据集中有了重大改进,例如RMSE增长25%,RER增长21%。广泛的结果表明,我们的基于变压器的模型可以更好地汇总对象的RGB和不准确的深度信息,以获得更好的深度表示。我们的代码和预培训模型将在https://github.com/yuchendoudou/tode上找到。
translated by 谷歌翻译
多视图立体声(MVS)是精确三维重建的重要任务。最近的研究试图通过设计聚合的3D成本卷及其正则化来提高MV中匹配成本体积的性能。本文侧重于学习强大的特征提取网络,以增强匹配成本的性能,在其他步骤中没有重大计算。特别是,我们提出了一种动态刻度特征提取网络,即CDSFNET。它由多个新颖的卷积层组成,每个卷积层可以为由图像表面的法线曲率指导的每个像素选择适当的补丁比例。因此,CDFSNet可以估计最佳补丁尺度,以学习参考和源图像之间准确匹配计算的判别特征。通过将具有适当成本制定策略的强大提取功能组合,我们的MVS架构可以更精确地估计深度映射。广泛的实验表明,该方法在复杂的户外场景中优于其他最先进的方法。它显着提高了重建模型的完整性。结果,该方法可以在比其他MVS方法更快的运行时间和更低的内存中处理更高的分辨率输入。我们的源代码可用于URL {https:/github.com/truongkhang/cds-mvsnet}。
translated by 谷歌翻译