建立新型观点综合的最近进展后,我们提出了改善单眼深度估计的应用。特别是,我们提出了一种在三个主要步骤中分开的新颖训练方法。首先,单眼深度网络的预测结果被扭转到额外的视点。其次,我们应用一个额外的图像综合网络,其纠正并提高了翘曲的RGB图像的质量。通过最小化像素-WISE RGB重建误差,该网络的输出需要尽可能类似地查看地面真实性视图。第三,我们将相同的单眼深度估计重新应用于合成的第二视图点,并确保深度预测与相关的地面真理深度一致。实验结果证明,我们的方法在Kitti和Nyu-Deaft-V2数据集上实现了最先进的或可比性,具有轻量级和简单的香草U-Net架构。
translated by 谷歌翻译
Per-pixel ground-truth depth data is challenging to acquire at scale. To overcome this limitation, self-supervised learning has emerged as a promising alternative for training models to perform monocular depth estimation. In this paper, we propose a set of improvements, which together result in both quantitatively and qualitatively improved depth maps compared to competing self-supervised methods.Research on self-supervised monocular training usually explores increasingly complex architectures, loss functions, and image formation models, all of which have recently helped to close the gap with fully-supervised methods. We show that a surprisingly simple model, and associated design choices, lead to superior predictions. In particular, we propose (i) a minimum reprojection loss, designed to robustly handle occlusions, (ii) a full-resolution multi-scale sampling method that reduces visual artifacts, and (iii) an auto-masking loss to ignore training pixels that violate camera motion assumptions. We demonstrate the effectiveness of each component in isolation, and show high quality, state-of-the-art results on the KITTI benchmark.
translated by 谷歌翻译
在接受高质量的地面真相(如LiDAR数据)培训时,监督的学习深度估计方法可以实现良好的性能。但是,LIDAR只能生成稀疏的3D地图,从而导致信息丢失。每个像素获得高质量的地面深度数据很难获取。为了克服这一限制,我们提出了一种新颖的方法,将有前途的平面和视差几何管道与深度信息与U-NET监督学习网络相结合的结构信息结合在一起,与现有的基于流行的学习方法相比,这会导致定量和定性的改进。特别是,该模型在两个大规模且具有挑战性的数据集上进行了评估:Kitti Vision Benchmark和CityScapes数据集,并在相对错误方面取得了最佳性能。与纯深度监督模型相比,我们的模型在薄物体和边缘的深度预测上具有令人印象深刻的性能,并且与结构预测基线相比,我们的模型的性能更加强大。
translated by 谷歌翻译
近年来,尤其是在户外环境中,自我监督的单眼深度估计已取得了重大进展。但是,在大多数现有数据被手持设备捕获的室内场景中,深度预测结果无法满足。与室外环境相比,使用自我监督的方法估算室内环境的单眼视频深度,导致了两个额外的挑战:(i)室内视频序列的深度范围在不同的框架上有很大变化,使深度很难进行。网络以促进培训的一致深度线索; (ii)用手持设备记录的室内序列通常包含更多的旋转运动,这使姿势网络难以预测准确的相对摄像头姿势。在这项工作中,我们通过对这些挑战进行特殊考虑并巩固了一系列良好实践,以提高自我监督的单眼深度估计室内环境的表现,从而提出了一种新颖的框架单声道++。首先,提出了具有基于变压器的比例回归网络的深度分解模块,以明确估算全局深度尺度因子,预测的比例因子可以指示最大深度值。其次,我们不像以前的方法那样使用单阶段的姿势估计策略,而是建议利用残留姿势估计模块来估计相对摄像机在连续迭代的跨帧中构成。第三,为了为我们的残留姿势估计模块纳入广泛的坐标指南,我们建议直接在输入上执行坐标卷积编码,以实现姿势网络。提出的方法在各种基准室内数据集(即Euroc Mav,Nyuv2,扫描仪和7片)上进行了验证,证明了最先进的性能。
translated by 谷歌翻译
We address the problem of estimating a high quality dense depth map from a single RGB input image. We start out with a baseline encoder-decoder convolutional neural network architecture and pose the question of how the global processing of information can help improve overall depth estimation. To this end, we propose a transformerbased architecture block that divides the depth range into bins whose center value is estimated adaptively per image. The final depth values are estimated as linear combinations of the bin centers. We call our new building block AdaBins. Our results show a decisive improvement over the state-ofthe-art on several popular depth datasets across all metrics. We also validate the effectiveness of the proposed block with an ablation study and provide the code and corresponding pre-trained weights of the new state-of-the-art model 1 .
translated by 谷歌翻译
Learning based methods have shown very promising results for the task of depth estimation in single images. However, most existing approaches treat depth prediction as a supervised regression problem and as a result, require vast quantities of corresponding ground truth depth data for training. Just recording quality depth data in a range of environments is a challenging problem. In this paper, we innovate beyond existing approaches, replacing the use of explicit depth data during training with easier-to-obtain binocular stereo footage.We propose a novel training objective that enables our convolutional neural network to learn to perform single image depth estimation, despite the absence of ground truth depth data. Exploiting epipolar geometry constraints, we generate disparity images by training our network with an image reconstruction loss. We show that solving for image reconstruction alone results in poor quality depth images. To overcome this problem, we propose a novel training loss that enforces consistency between the disparities produced relative to both the left and right images, leading to improved performance and robustness compared to existing approaches. Our method produces state of the art results for monocular depth estimation on the KITTI driving dataset, even outperforming supervised methods that have been trained with ground truth depth.
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
本文提出了一个开放而全面的框架,以系统地评估对自我监督单眼估计的最新贡献。这包括训练,骨干,建筑设计选择和损失功能。该领域的许多论文在建筑设计或损失配方中宣称新颖性。但是,简单地更新历史系统的骨干会导致25%的相对改善,从而使其胜过大多数现有系统。对该领域论文的系统评估并不直接。在以前的论文中比较类似于类似的需要,这意味着评估协议中的长期错误在现场无处不在。许多论文可能不仅针对特定数据集进行了优化,而且还针对数据和评估标准的错误。为了帮助该领域的未来研究,我们发布了模块化代码库,可以轻松评估针对校正的数据和评估标准的替代设计决策。我们重新实施,验证和重新评估16个最先进的贡献,并引入一个新的数据集(SYNS-Patches),其中包含各种自然和城市场景中的密集室外深度地图。这允许计算复杂区域(例如深度边界)的信息指标。
translated by 谷歌翻译
从单眼图像中学习的自我监督深度学习通常依赖于暂时相邻图像帧之间的2D像素光度关系。但是,他们既没有完全利用3D点的几何对应关系,也没有有效地应对闭塞或照明不一致引起的光度扭曲中的歧义。为了解决这些问题,这项工作提出了密度量构建网络(DEVNET),这是一种新型的自我监管的单眼深度学习框架,可以考虑3D空间信息,并利用相邻的相机flustums中的更强的几何约束。我们的DEVNET不是直接从单个图像中回归像素值,而是将摄像头划分为多个平行的平面,并预测每个平面上的点闭塞概率密度。最终的深度图是通过沿相应射线集成密度来生成的。在训练过程中,引入了新颖的正则化策略和损失功能,以减轻光度歧义和过度拟合。如果没有明显放大的模型参数的大小或运行时间,DEVNET在Kitti-2015室外数据集和NYU-V2室内数据集上均优于几个代表性基准。特别是,在深度估计的任务中,在Kitti-2015和NYU-V2上,DEVNET均减少了4%的根平方。代码可在https://github.com/gitkaichenzhou/devnet上找到。
translated by 谷歌翻译
Although cameras are ubiquitous, robotic platforms typically rely on active sensors like LiDAR for direct 3D perception. In this work, we propose a novel self-supervised monocular depth estimation method combining geometry with a new deep network, PackNet, learned only from unlabeled monocular videos. Our architecture leverages novel symmetrical packing and unpacking blocks to jointly learn to compress and decompress detail-preserving representations using 3D convolutions. Although self-supervised, our method outperforms other self, semi, and fully supervised methods on the KITTI benchmark. The 3D inductive bias in PackNet enables it to scale with input resolution and number of parameters without overfitting, generalizing better on out-of-domain data such as the NuScenes dataset. Furthermore, it does not require large-scale supervised pretraining on ImageNet and can run in real-time. Finally, we release DDAD (Dense Depth for Automated Driving), a new urban driving dataset with more challenging and accurate depth evaluation, thanks to longer-range and denser ground-truth depth generated from high-density LiDARs mounted on a fleet of self-driving cars operating world-wide. †
translated by 谷歌翻译
尽管现有的单眼深度估计方法取得了长足的进步,但由于网络的建模能力有限和规模歧义问题,预测单个图像的准确绝对深度图仍然具有挑战性。在本文中,我们介绍了一个完全视觉上的基于注意力的深度(Vadepth)网络,在该网络中,将空间注意力和通道注意都应用于所有阶段。通过在远距离沿空间和通道维度沿空间和通道维度的特征的依赖关系连续提取,Vadepth网络可以有效地保留重要的细节并抑制干扰特征,以更好地感知场景结构,以获得更准确的深度估计。此外,我们利用几何先验来形成规模约束,以进行比例感知模型培训。具体而言,我们使用摄像机和由地面点拟合的平面之间的距离构建了一种新颖的规模感知损失,该平面与图像底部中间的矩形区域的像素相对应。 Kitti数据集的实验结果表明,该体系结构达到了最新性能,我们的方法可以直接输出绝对深度而无需后处理。此外,我们在Seasondepth数据集上的实验还证明了我们模型对多个看不见的环境的鲁棒性。
translated by 谷歌翻译
Our long term goal is to use image-based depth completion to quickly create 3D models from sparse point clouds, e.g. from SfM or SLAM. Much progress has been made in depth completion. However, most current works assume well distributed samples of known depth, e.g. Lidar or random uniform sampling, and perform poorly on uneven samples, such as from keypoints, due to the large unsampled regions. To address this problem, we extend CSPN with multiscale prediction and a dilated kernel, leading to much better completion of keypoint-sampled depth. We also show that a model trained on NYUv2 creates surprisingly good point clouds on ETH3D by completing sparse SfM points.
translated by 谷歌翻译
深度估计是3D重建的具有挑战性的任务,以提高环境意识的准确性感测。这项工作带来了一系列改进的新解决方案,与现有方法相比,增加了一系列改进,这增加了对深度图的定量和定性理解。最近,卷积神经网络(CNN)展示了估计单眼图象的深度图的非凡能力。然而,传统的CNN不支持拓扑结构,它们只能在具有确定尺寸和重量的常规图像区域上工作。另一方面,图形卷积网络(GCN)可以处理非欧几里德数据的卷积,并且它可以应用于拓扑结构内的不规则图像区域。因此,在这项工作中为了保护对象几何外观和分布,我们的目的是利用GCN进行自我监督的深度估计模型。我们的模型包括两个并行自动编码器网络:第一个是一个自动编码器,它取决于Reset-50,并从输入图像和多尺度GCN上提取功能以估计深度图。反过来,第二网络将用于基于Reset-18的两个连续帧之间估计自我运动矢量(即3D姿势)。估计的3D姿势和深度图都将用于构建目标图像。使用与光度,投影和平滑度相关的损耗函数的组合用于应对不良深度预测,并保持对象的不连续性。特别是,我们的方法提供了可比性和有前途的结果,在公共基准和Make3D数据集中的高预测精度为89%,与最先进的解决方案相比,培训参数的数量减少了40%。源代码在https://github.com/arminmasoumian/gcndepth.git上公开可用
translated by 谷歌翻译
自我监督的学习已经为单眼深度估计显示出非常有希望的结果。场景结构和本地细节都是高质量深度估计的重要线索。最近的作品遭受了场景结构的明确建模,并正确处理细节信息,这导致了预测结果中的性能瓶颈和模糊人工制品。在本文中,我们提出了具有两个有效贡献的通道 - 明智的深度估计网络(Cadepth-Net):1)结构感知模块采用自我关注机制来捕获远程依赖性并聚合在信道中的识别特征尺寸,明确增强了场景结构的感知,获得了更好的场景理解和丰富的特征表示。 2)细节强调模块重新校准通道 - 方向特征映射,并选择性地强调信息性功能,旨在更有效地突出至关重要的本地细节信息和熔断器不同的级别功能,从而更精确,更锐化深度预测。此外,广泛的实验验证了我们方法的有效性,并表明我们的模型在基蒂基准和Make3D数据集中实现了最先进的结果。
translated by 谷歌翻译
深度是自治车辆以感知障碍的重要信息。由于价格相对较低,单目一体相机的小尺寸,从单个RGB图像的深度估计引起了对研究界的兴趣。近年来,深神经网络(DNN)的应用已经显着提高了单眼深度估计(MDE)的准确性。最先进的方法通常设计在复杂和极其深的网络架构之上,需要更多的计算资源,而不使用高端GPU实时运行。虽然一些研究人员试图加速运行速度,但深度估计的准确性降低,因为压缩模型不代表图像。另外,现有方法使用的特征提取器的固有特性导致产生的特征图中的严重空间信息丢失,这也损害了小型图像的深度估计的精度。在本研究中,我们有动力设计一种新颖且有效的卷积神经网络(CNN),其连续地组装两个浅编码器解码器样式子网,以解决这些问题。特别是,我们强调MDE准确性和速度之间的权衡。已经在NYU深度V2,Kitti,Make3D和虚幻数据集上进行了广泛的实验。与拥有极其深层和复杂的架构的最先进的方法相比,所提出的网络不仅可以实现可比性的性能,而且在单个不那么强大的GPU上以更快的速度运行。
translated by 谷歌翻译
跳过连接是编码器网络中的基本单元,能够改善神经网络的特征宣传。但是,大多数带有跳过连接的方法仅连接了编码器和解码器中相同分辨率的连接功能,这忽略了编码器中的信息损失,而图层的进度更深。为了利用编码器较浅层中特征的信息损失,我们提出了一个完整的跳过连接网络(FSCN),以实现单眼深度估计任务。此外,要更接近跳过连接中的功能,我们提出了一个自适应串联模块(ACM)。此外,我们对FSCN和FSCN的室内和室内数据集(即Kitti Dataste和NYU DEPTH DATASET)进行了广泛的实验。
translated by 谷歌翻译
This paper addresses the problem of estimating the depth map of a scene given a single RGB image. We propose a fully convolutional architecture, encompassing residual learning, to model the ambiguous mapping between monocular images and depth maps. In order to improve the output resolution, we present a novel way to efficiently learn feature map up-sampling within the network. For optimization, we introduce the reverse Huber loss that is particularly suited for the task at hand and driven by the value distributions commonly present in depth maps. Our model is composed of a single architecture that is trained end-to-end and does not rely on post-processing techniques, such as CRFs or other additional refinement steps. As a result, it runs in real-time on images or videos. In the evaluation, we show that the proposed model contains fewer parameters and requires fewer training data than the current state of the art, while outperforming all approaches on depth estimation. Code and models are publicly available 5 .
translated by 谷歌翻译
通过探索跨视图一致性,例如,光度计一致性和3D点云的一致性,在自我监督的单眼深度估计(SS-MDE)中取得了显着进步。但是,它们非常容易受到照明差异,遮挡,无纹理区域以及移动对象的影响,使它们不够强大,无法处理各种场景。为了应对这一挑战,我们在本文中研究了两种强大的跨视图一致性。首先,相邻帧之间的空间偏移场是通过通过可变形对齐来从其邻居重建参考框架来获得的,该比对通过深度特征对齐(DFA)损失来对齐时间深度特征。其次,计算每个参考框架及其附近框架的3D点云并转换为体素空间,在其中计算每个体素中的点密度并通过体素密度比对(VDA)损耗对齐。通过这种方式,我们利用了SS-MDE的深度特征空间和3D体素空间的时间连贯性,将“点对点”对齐范式转移到“区域到区域”。与光度一致性损失以及刚性点云对齐损失相比,由于深度特征的强大代表能力以及对上述挑战的素密度的高公差,提出的DFA和VDA损失更加强大。几个户外基准的实验结果表明,我们的方法的表现优于当前最新技术。广泛的消融研究和分析验证了拟议损失的有效性,尤其是在具有挑战性的场景中。代码和型号可在https://github.com/sunnyhelen/rcvc-depth上找到。
translated by 谷歌翻译