本文解决了深度和自我运动的端到端自我监督预测的问题。给定一系列原始图像,其目的是通过自我监督的光度损失预测几何和自我运动。该体系结构是使用卷积和变压器模块设计的。这利用了两个模块的好处:CNN的电感偏置和变压器的多头注意力,从而实现了丰富的时空表示,从而实现了准确的深度预测。先前的工作尝试使用多模式输入/输出使用有监督的地面真实数据来解决此问题,这是不实际的,因为需要大量注释的数据集。另外,本文仅使用自我监督的原始图像作为输入来预测深度​​和自我运动。该方法在KITTI数据集基准上表现出色,几个性能标准甚至可以与先前的非预测自我监督的单眼深度推理方法相提并论。
translated by 谷歌翻译
本文提出了一个自我监督的单眼图像对深度预测框架,该框架经过端到端光度损失的训练,不仅可以处理6-DOF摄像机运动,还可以处理6-DOF移动对象实例。自学是通过使用深度和场景运动(包括对象实例)在视频序列上扭曲图像来执行的。提出方法的一种新颖性是使用变压器网络的多头注意力,该注意与随时间匹配移动对象并建模其相互作用和动力学。这可以为每个对象实例实现准确稳健的姿势估计。大多数图像到深度的谓词框架都可以假设刚性场景,从而在很大程度上降低了它们相对于动态对象的性能。只有少数SOTA论文说明了动态对象。所提出的方法显示出在标准基准上胜过这些方法,而动态运动对这些基准测试的影响也暴露出来。此外,所提出的图像到深度预测框架也被证明与SOTA视频对深度预测框架具有竞争力。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的自我监督方法,可以预测未来,未观察到的现实世界中的深度估计。这项工作是第一个探索自我监督的学习,以估计视频未来未观察到的框架的单眼深度。现有作品依靠大量带注释的样本来生成对看不见框架深度的概率预测。但是,由于需要大量注释的视频样本,因此这使它变得不现实。此外,案件的概率性质,其中一个过去可能会有多个未来结果通常会导致深度估计不正确。与以前的方法不同,我们将未观察到的框架的深度估计作为视图合成问题进行建模,该问题将看不见的视频框架的深度估计视为辅助任务,同时使用学识渊博的姿势将视图恢复回去。这种方法不仅具有成本效益 - 我们不使用任何基础真相深度进行培训(因此实用),而且不使用确定性(过去的框架映射到不久的将来)。为了解决此任务,我们首先开发了一个新颖的深度预测网络DEFNET,该深度通过预测潜在特征来估计未观察到的未来的深度。其次,我们开发了基于渠道注意的姿势估计网络,该网络估计未观察到的框架的姿势。使用这个学到的姿势,将估计的深度图重建回图像域,从而形成一个自我监督的解决方案。我们提出的方法在短期和中期预测环境中与最先进的替代方案相比,ABS REL度量的重大改善,在Kitti和CityScapes上标有标准。代码可从https://github.com/sauradip/depthforecasting获得
translated by 谷歌翻译
Per-pixel ground-truth depth data is challenging to acquire at scale. To overcome this limitation, self-supervised learning has emerged as a promising alternative for training models to perform monocular depth estimation. In this paper, we propose a set of improvements, which together result in both quantitatively and qualitatively improved depth maps compared to competing self-supervised methods.Research on self-supervised monocular training usually explores increasingly complex architectures, loss functions, and image formation models, all of which have recently helped to close the gap with fully-supervised methods. We show that a surprisingly simple model, and associated design choices, lead to superior predictions. In particular, we propose (i) a minimum reprojection loss, designed to robustly handle occlusions, (ii) a full-resolution multi-scale sampling method that reduces visual artifacts, and (iii) an auto-masking loss to ignore training pixels that violate camera motion assumptions. We demonstrate the effectiveness of each component in isolation, and show high quality, state-of-the-art results on the KITTI benchmark.
translated by 谷歌翻译
Although cameras are ubiquitous, robotic platforms typically rely on active sensors like LiDAR for direct 3D perception. In this work, we propose a novel self-supervised monocular depth estimation method combining geometry with a new deep network, PackNet, learned only from unlabeled monocular videos. Our architecture leverages novel symmetrical packing and unpacking blocks to jointly learn to compress and decompress detail-preserving representations using 3D convolutions. Although self-supervised, our method outperforms other self, semi, and fully supervised methods on the KITTI benchmark. The 3D inductive bias in PackNet enables it to scale with input resolution and number of parameters without overfitting, generalizing better on out-of-domain data such as the NuScenes dataset. Furthermore, it does not require large-scale supervised pretraining on ImageNet and can run in real-time. Finally, we release DDAD (Dense Depth for Automated Driving), a new urban driving dataset with more challenging and accurate depth evaluation, thanks to longer-range and denser ground-truth depth generated from high-density LiDARs mounted on a fleet of self-driving cars operating world-wide. †
translated by 谷歌翻译
We present an unsupervised learning framework for the task of monocular depth and camera motion estimation from unstructured video sequences. In common with recent work [10,14,16], we use an end-to-end learning approach with view synthesis as the supervisory signal. In contrast to the previous work, our method is completely unsupervised, requiring only monocular video sequences for training. Our method uses single-view depth and multiview pose networks, with a loss based on warping nearby views to the target using the computed depth and pose. The networks are thus coupled by the loss during training, but can be applied independently at test time. Empirical evaluation on the KITTI dataset demonstrates the effectiveness of our approach: 1) monocular depth performs comparably with supervised methods that use either ground-truth pose or depth for training, and 2) pose estimation performs favorably compared to established SLAM systems under comparable input settings.
translated by 谷歌翻译
自我监督的学习已经为单眼深度估计显示出非常有希望的结果。场景结构和本地细节都是高质量深度估计的重要线索。最近的作品遭受了场景结构的明确建模,并正确处理细节信息,这导致了预测结果中的性能瓶颈和模糊人工制品。在本文中,我们提出了具有两个有效贡献的通道 - 明智的深度估计网络(Cadepth-Net):1)结构感知模块采用自我关注机制来捕获远程依赖性并聚合在信道中的识别特征尺寸,明确增强了场景结构的感知,获得了更好的场景理解和丰富的特征表示。 2)细节强调模块重新校准通道 - 方向特征映射,并选择性地强调信息性功能,旨在更有效地突出至关重要的本地细节信息和熔断器不同的级别功能,从而更精确,更锐化深度预测。此外,广泛的实验验证了我们方法的有效性,并表明我们的模型在基蒂基准和Make3D数据集中实现了最先进的结果。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
自我监督的单眼深度估计是一种有吸引力的解决方案,不需要难以供应的深度标签进行训练。卷积神经网络(CNN)最近在这项任务中取得了巨大成功。但是,他们的受欢迎的领域有限地限制了现有的网络体系结构,以便在本地进行推理,从而抑制了自我监督范式的有效性。鉴于Vision Transformers(VIT)最近取得的成功,我们提出了Monovit,这是一个崭新的框架,结合了VIT模型支持的全球推理以及自我监督的单眼深度估计的灵活性。通过将普通的卷积与变压器块相结合,我们的模型可以在本地和全球范围内推理,从而在较高的细节和准确性上产生深度预测,从而使MonoVit可以在已建立的Kitti数据集中实现最先进的性能。此外,Monovit证明了其在其他数据集(例如Make3D和Drivingstereo)上的出色概括能力。
translated by 谷歌翻译
在接受高质量的地面真相(如LiDAR数据)培训时,监督的学习深度估计方法可以实现良好的性能。但是,LIDAR只能生成稀疏的3D地图,从而导致信息丢失。每个像素获得高质量的地面深度数据很难获取。为了克服这一限制,我们提出了一种新颖的方法,将有前途的平面和视差几何管道与深度信息与U-NET监督学习网络相结合的结构信息结合在一起,与现有的基于流行的学习方法相比,这会导致定量和定性的改进。特别是,该模型在两个大规模且具有挑战性的数据集上进行了评估:Kitti Vision Benchmark和CityScapes数据集,并在相对错误方面取得了最佳性能。与纯深度监督模型相比,我们的模型在薄物体和边缘的深度预测上具有令人印象深刻的性能,并且与结构预测基线相比,我们的模型的性能更加强大。
translated by 谷歌翻译
深度估计是3D重建的具有挑战性的任务,以提高环境意识的准确性感测。这项工作带来了一系列改进的新解决方案,与现有方法相比,增加了一系列改进,这增加了对深度图的定量和定性理解。最近,卷积神经网络(CNN)展示了估计单眼图象的深度图的非凡能力。然而,传统的CNN不支持拓扑结构,它们只能在具有确定尺寸和重量的常规图像区域上工作。另一方面,图形卷积网络(GCN)可以处理非欧几里德数据的卷积,并且它可以应用于拓扑结构内的不规则图像区域。因此,在这项工作中为了保护对象几何外观和分布,我们的目的是利用GCN进行自我监督的深度估计模型。我们的模型包括两个并行自动编码器网络:第一个是一个自动编码器,它取决于Reset-50,并从输入图像和多尺度GCN上提取功能以估计深度图。反过来,第二网络将用于基于Reset-18的两个连续帧之间估计自我运动矢量(即3D姿势)。估计的3D姿势和深度图都将用于构建目标图像。使用与光度,投影和平滑度相关的损耗函数的组合用于应对不良深度预测,并保持对象的不连续性。特别是,我们的方法提供了可比性和有前途的结果,在公共基准和Make3D数据集中的高预测精度为89%,与最先进的解决方案相比,培训参数的数量减少了40%。源代码在https://github.com/arminmasoumian/gcndepth.git上公开可用
translated by 谷歌翻译
尽管现有的单眼深度估计方法取得了长足的进步,但由于网络的建模能力有限和规模歧义问题,预测单个图像的准确绝对深度图仍然具有挑战性。在本文中,我们介绍了一个完全视觉上的基于注意力的深度(Vadepth)网络,在该网络中,将空间注意力和通道注意都应用于所有阶段。通过在远距离沿空间和通道维度沿空间和通道维度的特征的依赖关系连续提取,Vadepth网络可以有效地保留重要的细节并抑制干扰特征,以更好地感知场景结构,以获得更准确的深度估计。此外,我们利用几何先验来形成规模约束,以进行比例感知模型培训。具体而言,我们使用摄像机和由地面点拟合的平面之间的距离构建了一种新颖的规模感知损失,该平面与图像底部中间的矩形区域的像素相对应。 Kitti数据集的实验结果表明,该体系结构达到了最新性能,我们的方法可以直接输出绝对深度而无需后处理。此外,我们在Seasondepth数据集上的实验还证明了我们模型对多个看不见的环境的鲁棒性。
translated by 谷歌翻译
通过探索跨视图一致性,例如,光度计一致性和3D点云的一致性,在自我监督的单眼深度估计(SS-MDE)中取得了显着进步。但是,它们非常容易受到照明差异,遮挡,无纹理区域以及移动对象的影响,使它们不够强大,无法处理各种场景。为了应对这一挑战,我们在本文中研究了两种强大的跨视图一致性。首先,相邻帧之间的空间偏移场是通过通过可变形对齐来从其邻居重建参考框架来获得的,该比对通过深度特征对齐(DFA)损失来对齐时间深度特征。其次,计算每个参考框架及其附近框架的3D点云并转换为体素空间,在其中计算每个体素中的点密度并通过体素密度比对(VDA)损耗对齐。通过这种方式,我们利用了SS-MDE的深度特征空间和3D体素空间的时间连贯性,将“点对点”对齐范式转移到“区域到区域”。与光度一致性损失以及刚性点云对齐损失相比,由于深度特征的强大代表能力以及对上述挑战的素密度的高公差,提出的DFA和VDA损失更加强大。几个户外基准的实验结果表明,我们的方法的表现优于当前最新技术。广泛的消融研究和分析验证了拟议损失的有效性,尤其是在具有挑战性的场景中。代码和型号可在https://github.com/sunnyhelen/rcvc-depth上找到。
translated by 谷歌翻译
除了学习基于外观的特征外,多框架深度估计还通过特征匹配利用图像之间的几何关系来改善单帧方法。在本文中,我们重新访问了与自我监督的单眼深度估计的匹配,并提出了一种新颖的变压器体系结构,以生成成本量。我们使用深度污染的表现采样来选择匹配的候选者,并通过一系列自我和跨注意层来完善预测。这些层增强了像素特征之间的匹配概率,改善了容易歧义和局部最小值的标准相似性指标。精制的成本量被解码为深度估计,整个管道仅使用光度目标从视频端到端训练。 Kitti和DDAD数据集的实验表明,我们的深度构建体在自我监督的单眼估计中建立了新的最新技术,甚至具有高度专业的监督单帧体系结构竞争。我们还表明,我们学到的跨意义网络产生可以在数据集中转移的表示形式,从而提高了训练策略的有效性。项目页面:https://sites.google.com/tri.global/depthformer
translated by 谷歌翻译
We address the problem of depth and ego-motion estimation from image sequences. Recent advances in the domain propose to train a deep learning model for both tasks using image reconstruction in a self-supervised manner. We revise the assumptions and the limitations of the current approaches and propose two improvements to boost the performance of the depth and ego-motion estimation. We first use Lie group properties to enforce the geometric consistency between images in the sequence and their reconstructions. We then propose a mechanism to pay an attention to image regions where the image reconstruction get corrupted. We show how to integrate the attention mechanism in the form of attention gates in the pipeline and use attention coefficients as a mask. We evaluate the new architecture on the KITTI datasets and compare it to the previous techniques. We show that our approach improves the state-of-the-art results for ego-motion estimation and achieve comparable results for depth estimation.
translated by 谷歌翻译
Photometric differences are widely used as supervision signals to train neural networks for estimating depth and camera pose from unlabeled monocular videos. However, this approach is detrimental for model optimization because occlusions and moving objects in a scene violate the underlying static scenario assumption. In addition, pixels in textureless regions or less discriminative pixels hinder model training. To solve these problems, in this paper, we deal with moving objects and occlusions utilizing the difference of the flow fields and depth structure generated by affine transformation and view synthesis, respectively. Secondly, we mitigate the effect of textureless regions on model optimization by measuring differences between features with more semantic and contextual information without adding networks. In addition, although the bidirectionality component is used in each sub-objective function, a pair of images are reasoned about only once, which helps reduce overhead. Extensive experiments and visual analysis demonstrate the effectiveness of the proposed method, which outperform existing state-of-the-art self-supervised methods under the same conditions and without introducing additional auxiliary information.
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
自我监督的单眼方法可以有效地了解弱纹理表面或反射性对象的深度信息。但是,由于单眼几何建模的固有歧义,深度精度受到限制。相反,由于多视图立体声(MVS)的成功,多帧深度估计方法提高了深度准确性,后者直接使用几何约束。不幸的是,MV经常患有无纹理区域,非斜角表面和移动物体,尤其是在没有已知的相机运动和深度监督的现实世界视频序列中。因此,我们提出了MoveEpth,它利用了单眼线索和速度指导来改善多帧深度学习。与现有的MVS深度和单眼深度之间一致性的方法不同,MoveEpth通过直接解决MV的固有问题来增强多帧深度学习。我们方法的关键是利用单眼深度作为几何优先级来构建MVS成本量,并根据预测的相机速度的指导来调整成本量的深度候选。我们通过学习成本量的不确定性来进一步融合单眼深度和MVS深度,从而导致深度估计多视图几何形状的歧义。广泛的实验表明,移动eptth达到了最先进的性能:与monodepth2和packnet相比,我们的方法相对地将深度准确性提高了20 \%和19.8 \%,而Kitti基准测试的方法则提高了。 MoveEpth还推广到更具挑战性的DDAD基准测试,相对超过7.2 \%。该代码可在https://github.com/jeffwang987/movedepth上获得。
translated by 谷歌翻译
自我监督的单眼深度估计使机器人能够从原始视频流中学习3D感知。假设世界主要是静态的,这种可扩展的方法利用了投射的几何形状和自我运动来通过视图综合学习。在自主驾驶和人类机器人相互作用中常见的动态场景违反了这一假设。因此,它们需要明确建模动态对象,例如通过估计像素3D运动,即场景流。但是,同时对深度和场景流的自我监督学习是不适合的,因为有许多无限的组合导致相同的3D点。在本文中,我们提出了一种草稿,这是一种通过将合成数据与几何自学意识相结合的新方法,能够共同学习深度,光流和场景流。在木筏架构的基础上,我们将光流作为中间任务,以通过三角剖分来引导深度和场景流量学习。我们的算法还利用任务之间的时间和几何一致性损失来改善多任务学习。我们的草案在标准Kitti基准的自我监督的单眼环境中,同时在所有三个任务中建立了新的最新技术状态。项目页面:https://sites.google.com/tri.global/draft。
translated by 谷歌翻译
密集的语义预测通过推断未观察到的未来图像的像素级语义来预测视频中的未来事件。我们提出了一种适用于各种单帧架构和任务的新方法。我们的方法包括两个模块。功能 - 动作(F2M)模块预测了密集的变形领域,将过去的功能扭曲到其未来的位置。功能到特征(F2F)模块直接回归未来功能,因此能够考虑紧急风景。化合物F2MF模型以任务 - 不可行的方式与新奇效果的运动效果脱钩。我们的目标是将F2MF预测应用于所需单帧模型的最自述和最抽象的最摘要表示。我们的设计利用了相邻时间瞬间可变形卷曲和空间相关系数。我们在三个密集预测任务中执行实验:语义分割,实例级分割和Panoptic分割。结果介绍了三个密集预测任务的最先进的预测精度。
translated by 谷歌翻译