RGB-D摄像机保持有限的工作范围,难以精确测量远距离的深度信息。此外,RGB-Dcamera很容易受到强光照和其他外部因素的影响,这将导致获得的环境深度信息的准确性差。最近,深度学习技术在视觉SLAM领域取得了巨大成功,可以直接从视觉输入中学习高级特征,提高深度信息的估计精度。因此,深度学习技术保留了扩展深度信息源的潜力。然而,现有的基于深度学习的方法主要受到监督,需要大量的地面实况深度数据,由于存在实际约束而难以获取。在本文中,我们首先提出了一种不受监督的学习框架,该框架不仅使用图像重建功能,而且利用姿态估计方法来增强监督信号,并为单目摄像机运动估计任务增加训练约束。此外,我们成功利用我们的监督学习框架来协助传统的ORB-SLAM系统,因为ORB-SLAM方法的初始化模块无法匹配足够的特征。定性和定量实验表明,我们的无监督学习框架执行与监督方法相当的深度估计任务。在KITTI数据集上优于先前的最新方法$ 13.5 \%$。此外,我们的无监督学习框架可以显着加快ORB-SLAM系统的初始化过程,有效提高强光照和弱纹理场景下环境映射的准确性。
translated by 谷歌翻译
We present an unsupervised learning framework for the task of monocular depth and camera motion estimation from unstructured video sequences. In common with recent work [10, 14, 16], we use an end-to-end learning approach with view synthesis as the supervisory signal. In contrast to the previous work, our method is completely un-supervised, requiring only monocular video sequences for training. Our method uses single-view depth and multi-view pose networks, with a loss based on warping nearby views to the target using the computed depth and pose. The networks are thus coupled by the loss during training, but can be applied independently at test time. Empirical evaluation on the KITTI dataset demonstrates the effectiveness of our approach: 1) monocular depth performs comparably with supervised methods that use either ground-truth pose or depth for training, and 2) pose estimation performs favorably compared to established SLAM systems under comparable input settings.
translated by 谷歌翻译
我们提出了一种新的无监督学习框架,用于使用单目视频进行单视图depthestimation。在3D视觉中众所周知,扩大基线可以提高深度估计精度,并且联合优化一组相机姿势和地标是必不可少的。在先前的单眼无监督学习框架中,序列中仅部分光度和几何约束被用作监督信号。这可能导致短基线和过度拟合。此外,先前的工作通常估计来自低分辨率的图像的低分辨率深度。然后插入低分辨率深度以恢复原始分辨率。该策略可能在对象边界上产生大的误差,因为背景和前景的深度被混合以产生高分辨率深度。在本文中,我们引入了一个捆绑调整框架和一个超分辨率网络来解决上述两个问题。在束调整中,图像序列的深度和姿势被联合优化,这通过建立更远帧之间的关系来增加基线。超分辨率网络学习从低分辨率图像估计高分辨率深度。另外,我们引入剪辑丢失来处理移动对象和遮挡。对数据集KITTI表明,所提出的算法使用单眼序列,以及achievescomparable或甚至更好的结果相比于使用无监督stereosequences方法优于thestate-的最先进的无监督方法Experimentalresults。
translated by 谷歌翻译
Despite learning based methods showing promising results in single view depth estimation and visual odometry, most existing approaches treat the tasks in a supervised manner. Recent approaches to single view depth estimation explore the possibility of learning without full supervision via minimizing photometric error. In this paper, we explore the use of stereo sequences for learning depth and visual odometry. The use of stereo sequences enables the use of both spatial (between left-right pairs) and temporal (forward backward) photometric warp error, and constrains the scene depth and camera motion to be in a common, real-world scale. At test time our framework is able to estimate single view depth and two-view odometry from a monocu-lar sequence. We also show how we can improve on a standard photometric warp loss by considering a warp of deep features. We show through extensive experiments that: (i) jointly training for single view depth and visual odometry improves depth prediction because of the additional constraint imposed on depths and achieves competitive results for visual odometry; (ii) deep feature-based warping loss improves upon simple photometric warp loss for both single view depth estimation and visual odometry. Our method outperforms existing learning based methods on the KITTI driving dataset in both tasks. The source code is available at https://github.com/Huangying-Zhan/ Depth-VO-Feat.
translated by 谷歌翻译
基于无监督学习的单目视觉测距法(VO)最近因其在无标签倾斜能力和对摄像机参数和环境变化的鲁棒性方面的潜力而引起了极大的关注。然而,部分由于缺乏漂移校正技术,这些方法至少远不如用于大规模测距估计的几何方法准确。在本文中,我们建议利用图优化和环路检测来克服基于无监督学习的单目视觉测距的局限性。为此,我们提出了一种混合VO系统,该系统将称为NeuralBundler的无监督单眼VO与姿势图优化后端相结合。 NeuralBundler是一种神经网络结构,它使用时间和空间光度损失作为主要监督,并生成由多视图6DoF约束组成的awindowed姿势图。我们提出了一种新颖的循环一致性损失,以缓解窗口姿势图中的张力,从而提高性能和稳健性。在后端,全局姿势图由本地构建,并且由NeuralBundlerand估计的循环6DoF约束优于SE(3)。对KITTI测距数据的实证评估表明:1)NeuralBundler在无监督的单眼VO估计上实现了最先进的性能,2)我们的整个方法可以实现有效的闭环,并且与已建立的单眼SLAM系统相比显示出良好的整体平移精度。
translated by 谷歌翻译
单眼视觉测距(VO)的大多数几何方法提供了稳健的估计,但是稀疏或半密集的深度估计。通过优化图像之间的光度一致性,深度方法已经在通过单目图像生成密集深度和VO方面表现出良好的性能。尽管直观,但是天真的光度损失并不能确保两个视图之间的正确像素对应,这是准确的相对因素的关键因素。姿势估计。众所周知的事实是,简单地将这种错误最小化很容易失败。我们提出了一种使用极线约束来使学习更具几何声音的方法。我们使用使用Nister的FivePoint算法获得的Essential矩阵,对损失实施有意义的几何约束,而不是将其用作训练标签。我们的方法虽然简单但更具几何意义,但使用较少数量的参数,为使用复杂损失的最先进方法和显示使用极线约束的有效性的大型网络提供了无与伦比的性能。即使在简单地最小化光度误差将失败的情况下,这种年龄测定约束的学习方法也能成功地执行。
translated by 谷歌翻译
通过深度卷积网络观察未标记的视频,学习在单个图像中估计3D几何结构最近取得了重大进展。目前最先进的(SOTA)方法是基于动态结构的学习框架,其中只有3D相机自我运动被建模用于几何估计。然而,移动物体也存在于许多视频中,例如在街道场景中移动汽车。在本文中,我们通过将每像素3D对象运动结合到学习框架中来解决此类运动,该框架提供整体3D场景流理解并帮助单图像几何估计。具体来说,给定来自视频的两个连续帧,我们采用运动网络来预测它们的相对3D相机姿势和区分运动物体和刚性背景的分段掩模。光学流动网络用于估计密集的2D每像素对应。单个图像深度网络预测两个图像的深度图。四种类型的信息,即2D流,相机姿势,分段掩模和深度图,被整合成可微分的整体3D运动分析器(HMP),其中恢复刚性背景和移动物体的单像素3D运动。我们设计各种损失w.r.t.用于训练depthand运动网络的两种类型的3D运动,进一步减少估计几何的误差。最后,为了解决单眼视频的3D运动混淆,我们将立体图像组合成联合训练。在KITTI 2015数据集上的实验表明,我们估计的几何,3D运动和运动物体掩模不仅要求一致,而且要明显优于其他SOTA算法,这证明了我们的方法的好处。
translated by 谷歌翻译
通过深度卷积网络观察未标记的视频,学习估计单帧中的3D几何和来自连续帧的光流,最近取得了重大进展。当前最先进的(SOTA)方法独立地处理任务。当前的depthestimation流水线的一个重要假设是场景不包含移动物体,其可以由光流完成。在本文中,我们建议整体解决这两个问题,即共同理解每像素三维几何和运动。这也消除了静态场景假设的需要,并在学习过程中强制实现几何一致性,从而显着改善了两者的结果。任务。我们称我们的方法为“EveryPixel Counts ++”或“EPC ++”。具体来说,在训练期间,给定视频中的两个连续帧,我们采用三个并行网络分别预测两个帧(FlowNet)之间的摄像机运动(MotionNet),密集深度图(DepthNet)和每像素光学流。在KITTI 2012和KITTI 2015数据集上进行了全面的实验。对深度估计,光流估计,测距,运动目标分割和场景流估计这五项任务的表现表明,超越其他SOTA方法,证明了我们提出的每个模块的有效性。方法。
translated by 谷歌翻译
We propose GeoNet, a jointly unsupervised learning framework for monoculardepth, optical flow and ego-motion estimation from videos. The three componentsare coupled by the nature of 3D scene geometry, jointly learned by ourframework in an end-to-end manner. Specifically, geometric relationships areextracted over the predictions of individual modules and then combined as animage reconstruction loss, reasoning about static and dynamic scene partsseparately. Furthermore, we propose an adaptive geometric consistency loss toincrease robustness towards outliers and non-Lambertian regions, which resolvesocclusions and texture ambiguities effectively. Experimentation on the KITTIdriving dataset reveals that our scheme achieves state-of-the-art results inall of the three tasks, performing better than previously unsupervised methodsand comparably with supervised ones.
translated by 谷歌翻译
纯粹依赖于几何线索的单目视觉测距方法适用于缩放漂移并且在连续帧中需要足够的运动视差以用于运动估计和3D重建。在本文中,我们建议利用深度单眼深度预测来克服基于几何的单眼视觉测距的局限性。为此,我们将深度预测与直接稀疏测距(DSO)结合为直接虚拟立体测量。对于深度预测,我们设计了一个新的深度网络,在两个阶段的过程中从单个图像中精确预测深度。我们以半监督的方式训练我们的网络,用于立体图像中的光子一致性和来自立体声DSO的精确稀疏深度重建的一致性。我们的深度预测在KITTI基准测试中优于单眼深度的最先进方法。此外,我们的Deep Virtual Stereo Odometry显然超出了以前的单眼和深度学习方法的准确性。它甚至可以提供与最先进的立体声方法相媲美的性能,同时仅依靠单个相机。
translated by 谷歌翻译
我们提出了一种新颖的方法,用于无监督学习单眼视频的深度和自我运动。无监督学习消除了对分离监督信号(深度或自我运动地面实况或多视图视频)的需要。无监督深度学习中的先前工作使用基于像素或基于梯度的损失,其仅考虑小局部邻域中的像素。我们的主要贡献是明确地考虑场景的推断3D几何,强制估计的3D点云的一致性和跨连续帧的自我运动。这是一项具有挑战性的任务,并且通过用于对准3D结构的新颖(近似)反向传播算法来解决。我们将这种新颖的基于3D的损失与基于帧重建的光度质量的2D损失相结合,使用估计的深度和自我运动的相邻帧。我们还结合了有效性掩码,以避免惩罚没有有用信息的区域。我们在KITTI数据集和未校准的手机摄像头上捕获的视频数据集上测试我们的算法。我们提出的方法始终如一地改进了两个数据集的深度估计,并且优于深度和自我运动的最新技术。因为我们只需要一个简单的视频,就可以在大型和变化的数据集上学习深度和自我运动。我们通过对低质量未校准视频数据集的培训进行评估,并对KITTI进行评估,将其列为KITTI本身的最佳表现先验方法。
translated by 谷歌翻译
Per-pixel ground-truth depth data is challenging to acquire at scale. To overcome this limitation, self-supervised learning has emerged as a promising alternative for training models to perform monocular depth estimation. In this paper, we propose a set of improvements, which together result in both quantitatively and qualitatively improved depth maps compared to competing self-supervised methods. Research on self-supervised monocular training usually explores increasingly complex architectures, loss functions, and image formation models, all of which have recently helped to close the gap with fully-supervised methods. We show that a surprisingly simple model, and associated design choices, lead to superior predictions. In particular, we propose (i) a minimum reprojection loss, designed to robustly handle occlusions, (ii) a full-resolution multi-scale sampling method that reduces visual artifacts, and (iii) an auto-masking loss to ignore training pixels that violate camera motion assumptions. We demonstrate the effectiveness of each component in isolation, and show high quality, state-of-the-art results on the KITTI benchmark.
translated by 谷歌翻译
由于它们能够从单眼图像产生密集的深度,因此预测单眼深度和自我运动的深层方法已经增长。它们背后的主要思想是通过将一个视图扭曲成另一个视图来优化图像序列的光度一致性,类似于直接视觉odometrymethods。一个主要缺点是这些方法从单个视图推断深度,这可能无法有效地捕获像素之间的关系。此外,简单地最小化光度损失不能确保适当的像素对应,这是精确深度和姿势估计的关键因素。相比之下,我们提出了一种2视图深度网络,用于从连续帧推断出场景深度,从而学习像素间关系。为了确保更好的对应关系,从而更好地进行几何理解,我们建议采用极线约束来使学习更加几何化。我们使用Nist'er的Five PointAlgorithm获得的Essential矩阵来强制执行有意义的几何约束,而不是使用它来实现标注。这允许我们使用较少的号码。可训练参数与最先进的方法相比较。所提出的方法导致更好的深度图像和姿势估计,其以更好的方式捕获场景结构和运动。即使在简单地最小化光度误差的情况下,这种几何约束学习也会成功地进行。
translated by 谷歌翻译
基于深度学习的单视图深度估计方法最近显示出非常有希望的结果。然而,这些方法忽略了用于确定人类视觉系统中的深度的最重要特征之一,即运动。我们提出了一种基于学习的多视图密集深度图和测距估计方法,该方法使用回归神经网络(RNN)并训练多视图图像重投影和前后向流动一致性损失。我们的模型可以在有监督甚至无监督的模式下进行训练。它设计用于视频的深度和视觉测距估计,其中输入帧在时间上相关。然而,它也推广到单视深度估计。我们的方法在KITTI驾驶数据集上为基于单视图和多视图学习的深度估计的最先进方法产生了优异的结果。
translated by 谷歌翻译
We propose a novel monocular visual odometry (VO) system called UnDeepVO in this paper. UnDeepVO is able to estimate the 6-DoF pose of a monocular camera and the depth of its view by using deep neural networks. There are two salient features of the proposed UnDeepVO: one is the unsupervised deep learning scheme, and the other is the absolute scale recovery. Specifically, we train UnDeepVO by using stereo image pairs to recover the scale but test it by using consecutive monocular images. Thus, UnDeepVO is a monocular system. The loss function defined for training the networks is based on spatial and temporal dense information. A system overview is shown in Fig. 1. The experiments on KITTI dataset show our UnDeepVO achieves good performance in terms of pose accuracy.
translated by 谷歌翻译
我们提出了一种无监督学习框架,用于使用未标记的视频序列同时训练单视深度预测和光流估计模型。现有的无监督方法通常利用亮度稳定性和空间平滑度先验来训练深度或流动模型。在本文中,我们建议将几何一致性作为额外的supervisorysignals。我们的核心思想是,对于刚性区域,我们可以使用预测的场景深度和相机运动来通过反投影诱导的3D场景流来合成2D光流。刚性流(来自深度预测和相机运动)与估计流量(来自光流模型)之间的差异使我们能够施加跨任务一致性损失。虽然所有网络在训练期间都是共同优化的,但它们可以在测试时独立应用。大量实验表明,我们的深度和流量模型与最先进的无监督方法相比较。
translated by 谷歌翻译
使用CNN的最新进展,从单个图像预测深度的能力对视觉社区越来越感兴趣。对学习的无监督策略特别有吸引力,因为他们可以在学习期间利用更大和更多的单眼视频数据集而无需地面真实深度或立体声。在以前的工作中,必须确定单独的姿势和深度CNNpredictors,使得它们的联合输出最小化光度误差。受直接视觉测距(DVO)的最新进展的启发,我们认为可以在没有姿势CNNpredictor的情况下学习CNN预测器的深度。此外,我们凭经验证明,结合DVO的可区分实现以及新颖的深度归一化策略 - 大大提高了使用单目视频进行训练的现有技术水平。
translated by 谷歌翻译
人类通过积累从场景的多个相互连接的投影中获得的信息并通过解释它们的对应来自然地感知它们前面的3D场景。这种现象激发了人工智能模型,通过对该场景的不同视图之间的对应关系建模来提取观察场景的深度和视角。我们的论文建立在先前无监督深度领域的工作和使用deeplearning(DL)模型的时间连续视频帧的相对相位姿态估计的基础上。我们的方法使用了最近的一项名为GeoNet的工作中引入的混合学习框架,该工作利用3Dscenes中的几何约束来合成来自基于中间DL的预测depthand相对姿势的新视图。然而,最先进的无监督深度和姿态估计DL模型是在一些可用的户外数据集上进行专门训练/测试的,并且我们已经证明它们很难转移到新的场景,特别是来自室内环境,其中估计需要更高的精度和处理可能的遮挡。本文介绍了“IndoorGeoNet”,一种针对室内场景的弱监督深度和相机姿态估计模型。在室内GeoNet中,我们利用人或机器人导航员收集的各种RGBD数据集的可用性,并在深度训练中将部分(即弱)监督添加到模型中。实验结果表明,我们的模型有效地推广了不同建筑的新场景。与原始GeoNet相比,室内GeoNet显示出显着的深度和姿态估计误差减少,同时在合成印度环境中的新视图时显示出3倍的重建精度。
translated by 谷歌翻译
深度估计是自主车辆理解和重建3D环境以及在执行期间避开障碍的重要能力。诸如LiDAR之类的精确深度传感器通常很重,很昂贵并且只能提供稀疏深度,而诸如立体相机之类的较浅深度传感器则相比较。我们提出了一种端到端学习算法,它能够使用稀疏,噪声的输入深度进行细化和深度完成。我们的模型还生成相机姿势作为副产品,使其成为自主系统的绝佳解决方案。我们在indoorand室外数据集上评估我们的方法。实证结果表明,与其他竞争方法相比,我们的方法在KITTI~ \ cite {kitti_geiger2012we}数据集上表现良好,同时在处理TUM~ \ cite {sturm12iros}数据集上的稀疏,噪声输入深度方面具有卓越的性能。
translated by 谷歌翻译
我们提出DeepV2D,一种端到端可微分深度学习架构,用于预测视频序列的深度。我们通过设计一组可微分的几何模块,将Motion的经典结构元素融入端到端的可训练管道中。我们的完整系统在预测深度和精炼相机姿势之间交替。我们通过在学习特征上构建成本量来估计深度,并应用多尺度3D卷积网络进行立体匹配。然后将预测的深度发送到运动模块,该运动模块通过将光流映射到相机运动更新来执行迭代姿势更新。我们在NYU,KITTI和SUN3D数据集上评估我们提出的系统,并显示出比单眼基线和深度和经典立体重建更好的结果。
translated by 谷歌翻译