对于无人机和电池操作的自动驾驶系统,具有最低计算和能源成本的准确深度估计是至关重要的。机器人应用需要在快速变化的3D周围环境下进行导航和决策的实时深度估算。高精度算法可能会提供最佳的深度估计,但可能会消耗巨大的计算和能源资源。一般的权衡是选择较少准确的方法来进行初始深度估计,并在需要时选择更准确但更加密集的方法。先前的工作表明,可以通过开发最先进的方法(AnyNet)来改善立体声深度估计来改善这种权衡。我们研究了单眼和立体视觉深度估计方法,并研究了降低这些方法计算复杂性的方法。这是我们的基线。因此,我们的实验表明,单眼深度估计模型的大小降低了〜75%,将精度降低了不到2%(SSIM度量)。我们对新型立体声视觉方法(AnyNET)进行的实验表明,尽管模型大小降低了约20%,但深度估计的准确性不会降低3%以上(三个像素误差度量)。我们已经表明,较小的模型确实可以竞争性能。
translated by 谷歌翻译
深度估计是3D重建的具有挑战性的任务,以提高环境意识的准确性感测。这项工作带来了一系列改进的新解决方案,与现有方法相比,增加了一系列改进,这增加了对深度图的定量和定性理解。最近,卷积神经网络(CNN)展示了估计单眼图象的深度图的非凡能力。然而,传统的CNN不支持拓扑结构,它们只能在具有确定尺寸和重量的常规图像区域上工作。另一方面,图形卷积网络(GCN)可以处理非欧几里德数据的卷积,并且它可以应用于拓扑结构内的不规则图像区域。因此,在这项工作中为了保护对象几何外观和分布,我们的目的是利用GCN进行自我监督的深度估计模型。我们的模型包括两个并行自动编码器网络:第一个是一个自动编码器,它取决于Reset-50,并从输入图像和多尺度GCN上提取功能以估计深度图。反过来,第二网络将用于基于Reset-18的两个连续帧之间估计自我运动矢量(即3D姿势)。估计的3D姿势和深度图都将用于构建目标图像。使用与光度,投影和平滑度相关的损耗函数的组合用于应对不良深度预测,并保持对象的不连续性。特别是,我们的方法提供了可比性和有前途的结果,在公共基准和Make3D数据集中的高预测精度为89%,与最先进的解决方案相比,培训参数的数量减少了40%。源代码在https://github.com/arminmasoumian/gcndepth.git上公开可用
translated by 谷歌翻译
这些年来,展示技术已经发展。开发实用的HDR捕获,处理和显示解决方案以将3D技术提升到一个新的水平至关重要。多曝光立体声图像序列的深度估计是开发成本效益3D HDR视频内容的重要任务。在本文中,我们开发了一种新颖的深度体系结构,以进行多曝光立体声深度估计。拟议的建筑有两个新颖的组成部分。首先,对传统立体声深度估计中使用的立体声匹配技术进行了修改。对于我们体系结构的立体深度估计部分,部署了单一到stereo转移学习方法。拟议的配方规避了成本量构造的要求,该要求由基于重新编码的单码编码器CNN取代,具有不同的重量以进行功能融合。基于有效网络的块用于学习差异。其次,我们使用强大的视差特征融合方法组合了从不同暴露水平上从立体声图像获得的差异图。使用针对不同质量度量计算的重量图合并在不同暴露下获得的差异图。获得的最终预测差异图更强大,并保留保留深度不连续性的最佳功能。提出的CNN具有使用标准动态范围立体声数据或具有多曝光低动态范围立体序列的训练的灵活性。在性能方面,所提出的模型超过了最新的单眼和立体声深度估计方法,无论是定量还是质量地,在具有挑战性的场景流以及暴露的Middlebury立体声数据集上。该体系结构在复杂的自然场景中表现出色,证明了其对不同3D HDR应用的有用性。
translated by 谷歌翻译
在本文中,我们解决了单眼散景合成的问题,我们试图从单个全焦点图像中呈现浅深度图像。与DSLR摄像机不同,由于移动光圈的物理限制,这种效果无法直接在移动摄像机中捕获。因此,我们提出了一种基于网络的方法,该方法能够从单个图像输入中渲染现实的单眼散景。为此,我们根据预测的单眼深度图引入了三个新的边缘感知散景损失,该图在模糊背景时锐化了前景边缘。然后,使用对抗性损失对该模型进行固定,从而产生逼真的玻璃效果。实验结果表明,我们的方法能够在处理复杂场景的同时产生令人愉悦的自然散景效果,并具有锋利的边缘。
translated by 谷歌翻译
Learning based methods have shown very promising results for the task of depth estimation in single images. However, most existing approaches treat depth prediction as a supervised regression problem and as a result, require vast quantities of corresponding ground truth depth data for training. Just recording quality depth data in a range of environments is a challenging problem. In this paper, we innovate beyond existing approaches, replacing the use of explicit depth data during training with easier-to-obtain binocular stereo footage.We propose a novel training objective that enables our convolutional neural network to learn to perform single image depth estimation, despite the absence of ground truth depth data. Exploiting epipolar geometry constraints, we generate disparity images by training our network with an image reconstruction loss. We show that solving for image reconstruction alone results in poor quality depth images. To overcome this problem, we propose a novel training loss that enforces consistency between the disparities produced relative to both the left and right images, leading to improved performance and robustness compared to existing approaches. Our method produces state of the art results for monocular depth estimation on the KITTI driving dataset, even outperforming supervised methods that have been trained with ground truth depth.
translated by 谷歌翻译
传统上,来自摆姿势的图像的3D室内场景重建分为两个阶段:人均深度估计,然后进行深度合并和表面重建。最近,出现了一个直接在最终3D体积特征空间中进行重建的方法家族。尽管这些方法显示出令人印象深刻的重建结果,但它们依赖于昂贵的3D卷积层,从而限制了其在资源受限环境中的应用。在这项工作中,我们回到了传统的路线,并展示着专注于高质量的多视图深度预测如何使用简单的现成深度融合来高度准确的3D重建。我们提出了一个简单的最先进的多视图深度估计器,其中有两个主要贡献:1)精心设计的2D CNN,该2D CNN利用强大的图像先验以及平面扫描特征量和几何损失,并结合2)将密钥帧和几何元数据集成到成本量中,这允许知情的深度平面评分。我们的方法在当前的最新估计中获得了重要的领先优势,以进行深度估计,并在扫描仪和7个镜头上进行3D重建,但仍允许在线实时实时低音重建。代码,模型和结果可在https://nianticlabs.github.io/simplerecon上找到
translated by 谷歌翻译
准确估计深度信息的能力对于许多自主应用来识别包围环境并预测重要对象的深度至关重要。最近使用的技术之一是单眼深度估计,其中深度图从单个图像推断出深度图。本文提高了自我监督的深度学习技术,以进行准确的广义单眼深度估计。主要思想是训练深层模型要考虑不同帧的序列,每个帧都是地理标记的位置信息。这使得模型能够增强给定区域语义的深度估计。我们展示了我们模型改善深度估计结果的有效性。该模型在现实环境中受过培训,结果显示在将位置数据添加到模型训练阶段之后的深度图中的改进。
translated by 谷歌翻译
深度估计是需要对环境的3D评估的广大应用程序的基石,例如机器人,增强现实和自主驱动来命名几个。深度估计的一个突出技术是立体声匹配,其具有多种优点:它被认为比其他深度传感技术更容易进入,可以实时产生密集的深度估计,并从近年来深度学习的进步中受益匪浅。然而,用于立体图像的深度估计的当前技术仍然遭受内置缺点。为了重建深度,立体声匹配算法首先在应用几何三角测量之前估计左图像和右图像之间的视差图。一个简单的分析表明,深度误差与对象距离相当成比例。因此,恒定的差异误差被转换为远离相机的物体的大深度误差。为了缓解这种二次关系,我们提出了一种简单但有效的方法,使用细化网络进行深度估计。我们展示了分析和经验结果表明所提出的学习程序减少了这种二次关系。我们评估了众所周知的基准和数据集的提出的细化程序,如演唱者和基提数据集,并在深度精度度量中展示了显着的改进。
translated by 谷歌翻译
建立新型观点综合的最近进展后,我们提出了改善单眼深度估计的应用。特别是,我们提出了一种在三个主要步骤中分开的新颖训练方法。首先,单眼深度网络的预测结果被扭转到额外的视点。其次,我们应用一个额外的图像综合网络,其纠正并提高了翘曲的RGB图像的质量。通过最小化像素-WISE RGB重建误差,该网络的输出需要尽可能类似地查看地面真实性视图。第三,我们将相同的单眼深度估计重新应用于合成的第二视图点,并确保深度预测与相关的地面真理深度一致。实验结果证明,我们的方法在Kitti和Nyu-Deaft-V2数据集上实现了最先进的或可比性,具有轻量级和简单的香草U-Net架构。
translated by 谷歌翻译
我们提出了一种新型算法,用于单眼深度估计,将度量深度图分解为归一化的深度图和尺度特征。所提出的网络由共享编码器和三个解码器组成,称为G-NET,N-NET和M-NET,它们分别估算了梯度图,归一化的深度图和度量深度图。M-NET学习使用G-NET和N-NET提取的相对深度特征更准确地估算度量深度。所提出的算法具有一个优点,即它可以使用无度量深度标签的数据集来提高度量深度估计的性能。各种数据集的实验结果表明,所提出的算法不仅为最先进的算法提供竞争性能,而且即使只有少量的度量深度数据可用于培训,也会产生可接受的结果。
translated by 谷歌翻译
可推广性是机器学习(ML)图像分类器的最终目标,其中噪声和有限的数据集大小是主要问题。我们通过利用深度多任务学习(DMTL)的框架来应对这些挑战,并将图像深度估计作为一项辅助任务。在MNIST数据集的自定义和深度增强的推导下,我们显示a)多任务损耗功能是实施DMTL的最有效方法,b)有限的数据集大小主要导致分类不准确,并且c)深度估计主要受到噪声的影响。 。为了进一步验证结果,我们手动将NYU深度V2数据集标记为场景分类任务。作为对该领域的贡献,我们以Python Antial Format公开提供了作为开源数据集的数据,并提供了场景标签。我们对MNIST和NYU-DEPTH-V2的实验显示了DMTL在数据集嘈杂并且示例的数量受到限制时提高了分类器的普遍性。
translated by 谷歌翻译
A significant weakness of most current deep Convolutional Neural Networks is the need to train them using vast amounts of manually labelled data. In this work we propose a unsupervised framework to learn a deep convolutional neural network for single view depth prediction, without requiring a pre-training stage or annotated ground-truth depths. We achieve this by training the network in a manner analogous to an autoencoder. At training time we consider a pair of images, source and target, with small, known camera motion between the two such as a stereo pair. We train the convolutional encoder for the task of predicting the depth map for the source image. To do so, we explicitly generate an inverse warp of the target image using the predicted depth and known inter-view displacement, to reconstruct the source image; the photometric error in the reconstruction is the reconstruction loss for the encoder. The acquisition of this training data is considerably simpler than for equivalent systems, requiring no manual annotation, nor calibration of depth sensor to camera. We show that our network trained on less than half of the KITTI dataset gives comparable performance to that of the state-of-the-art supervised methods for single view depth estimation. 1 1 Find the model and other imformation on the project github page: https://github. com/Ravi-Garg/Unsupervised_Depth_Estimation
translated by 谷歌翻译
深度估计对于各种重要的现实世界应用至关重要,例如自动驾驶。但是,在高速场景中,它遭受了严重的性能退化,因为传统相机只能捕获模糊的图像。为了解决这个问题,Spike摄像头旨在以高框架速率捕获像素的亮度强度。但是,使用传统的单眼或立体声深度估计算法,使用尖峰摄像机的深度估计仍然非常具有挑战性,这些算法基于光度一致性。在本文中,我们提出了一种新型的不确定性引导深度融合(UGDF)框架,以融合Spike摄像机的单眼和立体声深度估计网络的预测。我们的框架是由于立体声尖峰深度估计在近距离取得更好的结果,而单眼尖峰深度估计获得了更好的结果。因此,我们引入了具有联合培训策略的双任务深度估计结构,并估算了分布式不确定性以融合单眼和立体声结果。为了证明尖峰深度估计比传统的摄像头深度估计的优势,我们为一个名为CitySpike20k的尖峰深度数据集,其中包含20k配对的样品,以进行尖峰深度估计。 UGDF在CitySpike20k上取得了最新的结果,超过了所有单眼或立体声尖峰深度估计基线。我们进行了广泛的实验,以评估我们方法对CitySpike20k的有效性和概括。据我们所知,我们的框架是第一个用于尖峰摄像头深度估算的双任务融合框架。代码和数据集将发布。
translated by 谷歌翻译
本文提出了一个开放而全面的框架,以系统地评估对自我监督单眼估计的最新贡献。这包括训练,骨干,建筑设计选择和损失功能。该领域的许多论文在建筑设计或损失配方中宣称新颖性。但是,简单地更新历史系统的骨干会导致25%的相对改善,从而使其胜过大多数现有系统。对该领域论文的系统评估并不直接。在以前的论文中比较类似于类似的需要,这意味着评估协议中的长期错误在现场无处不在。许多论文可能不仅针对特定数据集进行了优化,而且还针对数据和评估标准的错误。为了帮助该领域的未来研究,我们发布了模块化代码库,可以轻松评估针对校正的数据和评估标准的替代设计决策。我们重新实施,验证和重新评估16个最先进的贡献,并引入一个新的数据集(SYNS-Patches),其中包含各种自然和城市场景中的密集室外深度地图。这允许计算复杂区域(例如深度边界)的信息指标。
translated by 谷歌翻译
从单眼图像中学习的自我监督深度学习通常依赖于暂时相邻图像帧之间的2D像素光度关系。但是,他们既没有完全利用3D点的几何对应关系,也没有有效地应对闭塞或照明不一致引起的光度扭曲中的歧义。为了解决这些问题,这项工作提出了密度量构建网络(DEVNET),这是一种新型的自我监管的单眼深度学习框架,可以考虑3D空间信息,并利用相邻的相机flustums中的更强的几何约束。我们的DEVNET不是直接从单个图像中回归像素值,而是将摄像头划分为多个平行的平面,并预测每个平面上的点闭塞概率密度。最终的深度图是通过沿相应射线集成密度来生成的。在训练过程中,引入了新颖的正则化策略和损失功能,以减轻光度歧义和过度拟合。如果没有明显放大的模型参数的大小或运行时间,DEVNET在Kitti-2015室外数据集和NYU-V2室内数据集上均优于几个代表性基准。特别是,在深度估计的任务中,在Kitti-2015和NYU-V2上,DEVNET均减少了4%的根平方。代码可在https://github.com/gitkaichenzhou/devnet上找到。
translated by 谷歌翻译
最近,以自我监督的方式从单个图像中学习场景深度,最近受到了很多关注,旨在从单一图像中学习场景深度。尽管最近在这一领域做出了努力,但如何学习准确的场景深度并减轻闭塞对自我监督深度估计的负面影响仍然是一个空旷的问题。在解决这个问题时,我们首先凭经验分析了连续和离散深度约束的影响,这些约束在许多现有作品的培训过程中广泛使用。然后受到上述经验分析的启发,我们提出了一个新型网络,以学习一个自我监督的单眼深度估计,称为ocfd-net的咬合意识到的粗到细深度图。给定任意训练的立体声图像对,提议的OCFD-NET不仅在学习粗级深度图上采用离散的深度约束,而且还采用连续的深度约束来学习场景深度残差,从而导致罚款。 - 级别的深度图。此外,在建议的OCFD-NET下设计了一个遮挡感知模块,该模块能够提高学习闭塞的精细级别深度图的能力。 Kitti的实验结果表明,在大多数情况下,所提出的方法在七个常用指标下的比较最先进方法优于比较的最先进方法。此外,对Make3D的实验结果证明了该方法在四个常用指标下的跨数据集泛化能力方面的有效性。该代码可在https://github.com/zm-zhou/ocfd-net_pytorch上找到。
translated by 谷歌翻译
现有的自我监督的单眼估计方法可以摆脱昂贵的注释并获得令人鼓舞的结果。但是,当直接采用接受固定分辨率训练的模型以评估其他不同决议时,这些方法会遭受严重的性能降解。在本文中,我们通过学习场景深度的规模不变性,提出了一个分辨率自适应自我监督的单眼估计方法(RA-DEPTH)。具体而言,我们提出了一种简单而有效的数据增强方法,以生成具有任意尺度的同一场景的图像。然后,我们开发了一个双重高分辨率网络,该网络使用具有密集交互的多路径编码器和解码器来汇总多尺度特征,以进行准确的深度推理。最后,为了明确了解场景深度的规模不变性,我们在具有不同尺度的深度预测上制定了跨尺度的深度一致性损失。对Kitti,Make3D和NYU-V2数据集进行了广泛的实验表明,RA-DEPTH不仅可以实现最新的性能,而且还表现出很好的解决能力。
translated by 谷歌翻译
Per-pixel ground-truth depth data is challenging to acquire at scale. To overcome this limitation, self-supervised learning has emerged as a promising alternative for training models to perform monocular depth estimation. In this paper, we propose a set of improvements, which together result in both quantitatively and qualitatively improved depth maps compared to competing self-supervised methods.Research on self-supervised monocular training usually explores increasingly complex architectures, loss functions, and image formation models, all of which have recently helped to close the gap with fully-supervised methods. We show that a surprisingly simple model, and associated design choices, lead to superior predictions. In particular, we propose (i) a minimum reprojection loss, designed to robustly handle occlusions, (ii) a full-resolution multi-scale sampling method that reduces visual artifacts, and (iii) an auto-masking loss to ignore training pixels that violate camera motion assumptions. We demonstrate the effectiveness of each component in isolation, and show high quality, state-of-the-art results on the KITTI benchmark.
translated by 谷歌翻译
Monocular depth estimation can play an important role in addressing the issue of deriving scene geometry from 2D images. It has been used in a variety of industries, including robots, self-driving cars, scene comprehension, 3D reconstructions, and others. The goal of our method is to create a lightweight machine-learning model in order to predict the depth value of each pixel given only a single RGB image as input with the Unet structure of the image segmentation network. We use the NYU Depth V2 dataset to test the structure and compare the result with other methods. The proposed method achieves relatively high accuracy and low rootmean-square error.
translated by 谷歌翻译
We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.
translated by 谷歌翻译