Per-pixel ground-truth depth data is challenging to acquire at scale. To overcome this limitation, self-supervised learning has emerged as a promising alternative for training models to perform monocular depth estimation. In this paper, we propose a set of improvements, which together result in both quantitatively and qualitatively improved depth maps compared to competing self-supervised methods.Research on self-supervised monocular training usually explores increasingly complex architectures, loss functions, and image formation models, all of which have recently helped to close the gap with fully-supervised methods. We show that a surprisingly simple model, and associated design choices, lead to superior predictions. In particular, we propose (i) a minimum reprojection loss, designed to robustly handle occlusions, (ii) a full-resolution multi-scale sampling method that reduces visual artifacts, and (iii) an auto-masking loss to ignore training pixels that violate camera motion assumptions. We demonstrate the effectiveness of each component in isolation, and show high quality, state-of-the-art results on the KITTI benchmark.
translated by 谷歌翻译
Learning based methods have shown very promising results for the task of depth estimation in single images. However, most existing approaches treat depth prediction as a supervised regression problem and as a result, require vast quantities of corresponding ground truth depth data for training. Just recording quality depth data in a range of environments is a challenging problem. In this paper, we innovate beyond existing approaches, replacing the use of explicit depth data during training with easier-to-obtain binocular stereo footage.We propose a novel training objective that enables our convolutional neural network to learn to perform single image depth estimation, despite the absence of ground truth depth data. Exploiting epipolar geometry constraints, we generate disparity images by training our network with an image reconstruction loss. We show that solving for image reconstruction alone results in poor quality depth images. To overcome this problem, we propose a novel training loss that enforces consistency between the disparities produced relative to both the left and right images, leading to improved performance and robustness compared to existing approaches. Our method produces state of the art results for monocular depth estimation on the KITTI driving dataset, even outperforming supervised methods that have been trained with ground truth depth.
translated by 谷歌翻译
自我监督的学习已经为单眼深度估计显示出非常有希望的结果。场景结构和本地细节都是高质量深度估计的重要线索。最近的作品遭受了场景结构的明确建模,并正确处理细节信息,这导致了预测结果中的性能瓶颈和模糊人工制品。在本文中,我们提出了具有两个有效贡献的通道 - 明智的深度估计网络(Cadepth-Net):1)结构感知模块采用自我关注机制来捕获远程依赖性并聚合在信道中的识别特征尺寸,明确增强了场景结构的感知,获得了更好的场景理解和丰富的特征表示。 2)细节强调模块重新校准通道 - 方向特征映射,并选择性地强调信息性功能,旨在更有效地突出至关重要的本地细节信息和熔断器不同的级别功能,从而更精确,更锐化深度预测。此外,广泛的实验验证了我们方法的有效性,并表明我们的模型在基蒂基准和Make3D数据集中实现了最先进的结果。
translated by 谷歌翻译
Although cameras are ubiquitous, robotic platforms typically rely on active sensors like LiDAR for direct 3D perception. In this work, we propose a novel self-supervised monocular depth estimation method combining geometry with a new deep network, PackNet, learned only from unlabeled monocular videos. Our architecture leverages novel symmetrical packing and unpacking blocks to jointly learn to compress and decompress detail-preserving representations using 3D convolutions. Although self-supervised, our method outperforms other self, semi, and fully supervised methods on the KITTI benchmark. The 3D inductive bias in PackNet enables it to scale with input resolution and number of parameters without overfitting, generalizing better on out-of-domain data such as the NuScenes dataset. Furthermore, it does not require large-scale supervised pretraining on ImageNet and can run in real-time. Finally, we release DDAD (Dense Depth for Automated Driving), a new urban driving dataset with more challenging and accurate depth evaluation, thanks to longer-range and denser ground-truth depth generated from high-density LiDARs mounted on a fleet of self-driving cars operating world-wide. †
translated by 谷歌翻译
本文提出了一个开放而全面的框架,以系统地评估对自我监督单眼估计的最新贡献。这包括训练,骨干,建筑设计选择和损失功能。该领域的许多论文在建筑设计或损失配方中宣称新颖性。但是,简单地更新历史系统的骨干会导致25%的相对改善,从而使其胜过大多数现有系统。对该领域论文的系统评估并不直接。在以前的论文中比较类似于类似的需要,这意味着评估协议中的长期错误在现场无处不在。许多论文可能不仅针对特定数据集进行了优化,而且还针对数据和评估标准的错误。为了帮助该领域的未来研究,我们发布了模块化代码库,可以轻松评估针对校正的数据和评估标准的替代设计决策。我们重新实施,验证和重新评估16个最先进的贡献,并引入一个新的数据集(SYNS-Patches),其中包含各种自然和城市场景中的密集室外深度地图。这允许计算复杂区域(例如深度边界)的信息指标。
translated by 谷歌翻译
Photometric differences are widely used as supervision signals to train neural networks for estimating depth and camera pose from unlabeled monocular videos. However, this approach is detrimental for model optimization because occlusions and moving objects in a scene violate the underlying static scenario assumption. In addition, pixels in textureless regions or less discriminative pixels hinder model training. To solve these problems, in this paper, we deal with moving objects and occlusions utilizing the difference of the flow fields and depth structure generated by affine transformation and view synthesis, respectively. Secondly, we mitigate the effect of textureless regions on model optimization by measuring differences between features with more semantic and contextual information without adding networks. In addition, although the bidirectionality component is used in each sub-objective function, a pair of images are reasoned about only once, which helps reduce overhead. Extensive experiments and visual analysis demonstrate the effectiveness of the proposed method, which outperform existing state-of-the-art self-supervised methods under the same conditions and without introducing additional auxiliary information.
translated by 谷歌翻译
从单目视频重建3D网格的关键元素之一是生成每个帧的深度图。然而,在结肠镜检查视频重建的应用中,产生良好质量的深度估计是具有挑战性的。神经网络可以容易地被光度分散注意力欺骗,或者不能捕获结肠表面的复杂形状,预测导致破碎网格的缺陷形状。旨在从根本上提高结肠镜检查3D重建的深度估计质量,在这项工作中,我们设计了一系列培训损失来应对结肠镜检查数据的特殊挑战。为了更好的培训,使用深度和表面正常信息开发了一组几何一致性目标。而且,经典的光度损耗延伸,具有特征匹配以补偿照明噪声。随着足够强大的培训损失,我们的自我监督框架命名为COLLE,与利用先前的深度知识相比,我们的自我监督框架能够产生更好的结肠镜检查数据地图。用于重建,我们的网络能够实时重建高质量的结肠网格,而无需任何后处理,使其成为第一个在临床上适用。
translated by 谷歌翻译
自我监督的单眼深度估计是一种有吸引力的解决方案,不需要难以供应的深度标签进行训练。卷积神经网络(CNN)最近在这项任务中取得了巨大成功。但是,他们的受欢迎的领域有限地限制了现有的网络体系结构,以便在本地进行推理,从而抑制了自我监督范式的有效性。鉴于Vision Transformers(VIT)最近取得的成功,我们提出了Monovit,这是一个崭新的框架,结合了VIT模型支持的全球推理以及自我监督的单眼深度估计的灵活性。通过将普通的卷积与变压器块相结合,我们的模型可以在本地和全球范围内推理,从而在较高的细节和准确性上产生深度预测,从而使MonoVit可以在已建立的Kitti数据集中实现最先进的性能。此外,Monovit证明了其在其他数据集(例如Make3D和Drivingstereo)上的出色概括能力。
translated by 谷歌翻译
尽管现有的单眼深度估计方法取得了长足的进步,但由于网络的建模能力有限和规模歧义问题,预测单个图像的准确绝对深度图仍然具有挑战性。在本文中,我们介绍了一个完全视觉上的基于注意力的深度(Vadepth)网络,在该网络中,将空间注意力和通道注意都应用于所有阶段。通过在远距离沿空间和通道维度沿空间和通道维度的特征的依赖关系连续提取,Vadepth网络可以有效地保留重要的细节并抑制干扰特征,以更好地感知场景结构,以获得更准确的深度估计。此外,我们利用几何先验来形成规模约束,以进行比例感知模型培训。具体而言,我们使用摄像机和由地面点拟合的平面之间的距离构建了一种新颖的规模感知损失,该平面与图像底部中间的矩形区域的像素相对应。 Kitti数据集的实验结果表明,该体系结构达到了最新性能,我们的方法可以直接输出绝对深度而无需后处理。此外,我们在Seasondepth数据集上的实验还证明了我们模型对多个看不见的环境的鲁棒性。
translated by 谷歌翻译
深度估计是3D重建的具有挑战性的任务,以提高环境意识的准确性感测。这项工作带来了一系列改进的新解决方案,与现有方法相比,增加了一系列改进,这增加了对深度图的定量和定性理解。最近,卷积神经网络(CNN)展示了估计单眼图象的深度图的非凡能力。然而,传统的CNN不支持拓扑结构,它们只能在具有确定尺寸和重量的常规图像区域上工作。另一方面,图形卷积网络(GCN)可以处理非欧几里德数据的卷积,并且它可以应用于拓扑结构内的不规则图像区域。因此,在这项工作中为了保护对象几何外观和分布,我们的目的是利用GCN进行自我监督的深度估计模型。我们的模型包括两个并行自动编码器网络:第一个是一个自动编码器,它取决于Reset-50,并从输入图像和多尺度GCN上提取功能以估计深度图。反过来,第二网络将用于基于Reset-18的两个连续帧之间估计自我运动矢量(即3D姿势)。估计的3D姿势和深度图都将用于构建目标图像。使用与光度,投影和平滑度相关的损耗函数的组合用于应对不良深度预测,并保持对象的不连续性。特别是,我们的方法提供了可比性和有前途的结果,在公共基准和Make3D数据集中的高预测精度为89%,与最先进的解决方案相比,培训参数的数量减少了40%。源代码在https://github.com/arminmasoumian/gcndepth.git上公开可用
translated by 谷歌翻译
We present an unsupervised learning framework for the task of monocular depth and camera motion estimation from unstructured video sequences. In common with recent work [10,14,16], we use an end-to-end learning approach with view synthesis as the supervisory signal. In contrast to the previous work, our method is completely unsupervised, requiring only monocular video sequences for training. Our method uses single-view depth and multiview pose networks, with a loss based on warping nearby views to the target using the computed depth and pose. The networks are thus coupled by the loss during training, but can be applied independently at test time. Empirical evaluation on the KITTI dataset demonstrates the effectiveness of our approach: 1) monocular depth performs comparably with supervised methods that use either ground-truth pose or depth for training, and 2) pose estimation performs favorably compared to established SLAM systems under comparable input settings.
translated by 谷歌翻译
深度和自我运动估计对于自主机器人和自主驾驶的本地化和导航至关重要。最近的研究可以从未标记的单像素视频中学习每个像素深度和自我运动。提出了一种新颖的无监督培训框架,使用显式3D几何进行3D层次细化和增强。在该框架中,深度和姿势估计在分层和相互耦合以通过层改进估计的姿势层。通过用估计的深度和粗姿势翘曲图像中的像素来提出和合成中间视图图像。然后,可以从新视图图像和相邻帧的图像估计残差变换以改进粗糙姿势。迭代细化在本文中以可分散的方式实施,使整个框架均匀优化。同时,提出了一种新的图像增强方法来综合新视图图像来施加姿势估计,这创造性地增强了3D空间中的姿势,而是获得新的增强2D图像。 Kitti的实验表明,我们的深度估计能够实现最先进的性能,甚至超过最近利用其他辅助任务的方法。我们的视觉内径术优于所有最近无监督的单眼学习的方法,并实现了基于几何的方法,ORB-SLAM2的竞争性能,具有后端优化。
translated by 谷歌翻译
建立新型观点综合的最近进展后,我们提出了改善单眼深度估计的应用。特别是,我们提出了一种在三个主要步骤中分开的新颖训练方法。首先,单眼深度网络的预测结果被扭转到额外的视点。其次,我们应用一个额外的图像综合网络,其纠正并提高了翘曲的RGB图像的质量。通过最小化像素-WISE RGB重建误差,该网络的输出需要尽可能类似地查看地面真实性视图。第三,我们将相同的单眼深度估计重新应用于合成的第二视图点,并确保深度预测与相关的地面真理深度一致。实验结果证明,我们的方法在Kitti和Nyu-Deaft-V2数据集上实现了最先进的或可比性,具有轻量级和简单的香草U-Net架构。
translated by 谷歌翻译
深度估计的自我监督学习在图像序列中使用几何体进行监督,并显示有前途的结果。与许多计算机视觉任务一样,深度网络性能是通过从图像中学习准确的空间和语义表示的能力来确定。因此,利用用于深度估计的语义分割网络是自然的。在这项工作中,基于一个发达的语义分割网络HRNET,我们提出了一种新颖的深度估计网络差异,可以利用下式采样过程和上采样过程。通过应用特征融合和注意机制,我们所提出的方法优于基准基准测试的最先进的单眼深度估计方法。我们的方法还展示了更高分辨率培训数据的潜力。我们通过建立一个挑战性案件的测试集,提出了一个额外的扩展评估策略,经验从标准基准源于标准基准。
translated by 谷歌翻译
We propose GeoNet, a jointly unsupervised learning framework for monocular depth, optical flow and egomotion estimation from videos. The three components are coupled by the nature of 3D scene geometry, jointly learned by our framework in an end-to-end manner. Specifically, geometric relationships are extracted over the predictions of individual modules and then combined as an image reconstruction loss, reasoning about static and dynamic scene parts separately. Furthermore, we propose an adaptive geometric consistency loss to increase robustness towards outliers and non-Lambertian regions, which resolves occlusions and texture ambiguities effectively. Experimentation on the KITTI driving dataset reveals that our scheme achieves state-of-the-art results in all of the three tasks, performing better than previously unsupervised methods and comparably with supervised ones.
translated by 谷歌翻译
最近,以自我监督的方式从单个图像中学习场景深度,最近受到了很多关注,旨在从单一图像中学习场景深度。尽管最近在这一领域做出了努力,但如何学习准确的场景深度并减轻闭塞对自我监督深度估计的负面影响仍然是一个空旷的问题。在解决这个问题时,我们首先凭经验分析了连续和离散深度约束的影响,这些约束在许多现有作品的培训过程中广泛使用。然后受到上述经验分析的启发,我们提出了一个新型网络,以学习一个自我监督的单眼深度估计,称为ocfd-net的咬合意识到的粗到细深度图。给定任意训练的立体声图像对,提议的OCFD-NET不仅在学习粗级深度图上采用离散的深度约束,而且还采用连续的深度约束来学习场景深度残差,从而导致罚款。 - 级别的深度图。此外,在建议的OCFD-NET下设计了一个遮挡感知模块,该模块能够提高学习闭塞的精细级别深度图的能力。 Kitti的实验结果表明,在大多数情况下,所提出的方法在七个常用指标下的比较最先进方法优于比较的最先进方法。此外,对Make3D的实验结果证明了该方法在四个常用指标下的跨数据集泛化能力方面的有效性。该代码可在https://github.com/zm-zhou/ocfd-net_pytorch上找到。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
自我监督的单眼深度估计使机器人能够从原始视频流中学习3D感知。假设世界主要是静态的,这种可扩展的方法利用了投射的几何形状和自我运动来通过视图综合学习。在自主驾驶和人类机器人相互作用中常见的动态场景违反了这一假设。因此,它们需要明确建模动态对象,例如通过估计像素3D运动,即场景流。但是,同时对深度和场景流的自我监督学习是不适合的,因为有许多无限的组合导致相同的3D点。在本文中,我们提出了一种草稿,这是一种通过将合成数据与几何自学意识相结合的新方法,能够共同学习深度,光流和场景流。在木筏架构的基础上,我们将光流作为中间任务,以通过三角剖分来引导深度和场景流量学习。我们的算法还利用任务之间的时间和几何一致性损失来改善多任务学习。我们的草案在标准Kitti基准的自我监督的单眼环境中,同时在所有三个任务中建立了新的最新技术状态。项目页面:https://sites.google.com/tri.global/draft。
translated by 谷歌翻译
在接受高质量的地面真相(如LiDAR数据)培训时,监督的学习深度估计方法可以实现良好的性能。但是,LIDAR只能生成稀疏的3D地图,从而导致信息丢失。每个像素获得高质量的地面深度数据很难获取。为了克服这一限制,我们提出了一种新颖的方法,将有前途的平面和视差几何管道与深度信息与U-NET监督学习网络相结合的结构信息结合在一起,与现有的基于流行的学习方法相比,这会导致定量和定性的改进。特别是,该模型在两个大规模且具有挑战性的数据集上进行了评估:Kitti Vision Benchmark和CityScapes数据集,并在相对错误方面取得了最佳性能。与纯深度监督模型相比,我们的模型在薄物体和边缘的深度预测上具有令人印象深刻的性能,并且与结构预测基线相比,我们的模型的性能更加强大。
translated by 谷歌翻译
现有的自我监督的单眼估计方法可以摆脱昂贵的注释并获得令人鼓舞的结果。但是,当直接采用接受固定分辨率训练的模型以评估其他不同决议时,这些方法会遭受严重的性能降解。在本文中,我们通过学习场景深度的规模不变性,提出了一个分辨率自适应自我监督的单眼估计方法(RA-DEPTH)。具体而言,我们提出了一种简单而有效的数据增强方法,以生成具有任意尺度的同一场景的图像。然后,我们开发了一个双重高分辨率网络,该网络使用具有密集交互的多路径编码器和解码器来汇总多尺度特征,以进行准确的深度推理。最后,为了明确了解场景深度的规模不变性,我们在具有不同尺度的深度预测上制定了跨尺度的深度一致性损失。对Kitti,Make3D和NYU-V2数据集进行了广泛的实验表明,RA-DEPTH不仅可以实现最新的性能,而且还表现出很好的解决能力。
translated by 谷歌翻译