从稀疏的LIDAR扫描中恢复密集的深度图像是一个具有挑战性的任务。尽管对稀疏密集深度完成的颜色引导方法的普及,但它们在优化期间平等地处理了像素,忽略了稀疏深度图中的不均匀分布特性和合成的地面真理中的累积异常值。在这项工作中,我们引入了不确定性驱动的损失功能,以提高深度完成的鲁棒性,并处理深度完成的不确定性。具体而言,我们提出了一个明确的不确定性制定,用于与Jeffrey之前的强大深度完成。将参数不确定驱动的损耗引入并转换为对嘈杂或缺少数据的强大的新损耗函数。同时,我们提出了一种多尺度联合预测模型,可以同时预测深度和不确定性地图。估计的不确定性图还用于对具有高不确定性的像素对像素对的自适应预测,导致剩余地图以改进完成结果。我们的方法已经在基蒂深度完成基准上进行了测试,并在Mae,Imae和Irmse指标方面取得了最先进的鲁棒性能。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
Our long term goal is to use image-based depth completion to quickly create 3D models from sparse point clouds, e.g. from SfM or SLAM. Much progress has been made in depth completion. However, most current works assume well distributed samples of known depth, e.g. Lidar or random uniform sampling, and perform poorly on uneven samples, such as from keypoints, due to the large unsampled regions. To address this problem, we extend CSPN with multiscale prediction and a dilated kernel, leading to much better completion of keypoint-sampled depth. We also show that a model trained on NYUv2 creates surprisingly good point clouds on ETH3D by completing sparse SfM points.
translated by 谷歌翻译
由于可靠的3D空间信息,LIDAR传感器广泛用于自动驾驶。然而,LIDAR的数据稀疏,LIDAR的频率低于相机的频率。为了在空间和时间上生成密集点云,我们提出了第一个将来的伪激光框架预测网络。鉴于连续稀疏深度图和RGB图像,我们首先根据动态运动信息粗略地预测未来的密集深度图。为了消除光流量估计的误差,提出了帧间聚合模块,以使具有自适应权重的翘曲深度图熔断。然后,我们使用静态上下文信息优化预测的密集深度图。通过将预测的密集深度图转换为相应的3D点云,可以获得未来的伪激光镜帧。实验结果表明,我们的方法优于流行基准基准的现有解决方案。
translated by 谷歌翻译
深度映射记录场景中的视点和对象之间的距离,这在许多真实应用程序中起着关键作用。然而,消费者级RGB-D相机捕获的深度图遭受了低空间分辨率。引导深度地图超分辨率(DSR)是解决此问题的流行方法,该方法试图从输入的低分辨率(LR)深度及其耦合的HR RGB图像中恢复高分辨率(HR)深度映射和作为指引。引导DSR最具挑战性的问题是如何正确选择一致的结构并传播它们,并正确处理不一致的结构。在本文中,我们提出了一种用于引导DSR的新型关注的分层多模态融合(AHMF)网络。具体地,为了有效地提取和组合来自LR深度和HR引导的相关信息,我们提出了一种基于多模态注意力的融合(MMAF)策略,包括分层卷积层,包括特征增强块,以选择有价值的功能和特征重新校准块来统一不同外观特征的方式的相似性度量。此外,我们提出了一个双向分层特征协作(BHFC)模块,以完全利用多尺度特征之间的低级空间信息和高级结构信息。实验结果表明,在重建精度,运行速度和记忆效率方面,我们的方法优于最先进的方法。
translated by 谷歌翻译
随着对移动平台上对计算摄影和成像的需求不断增长,在相机系统中开发和集成了高级图像传感器与相机系统中新型算法。但是,缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像(MIPI)的发展。为了弥合差距,我们介绍了第一个MIPI挑战,包括五个曲目,这些曲目着重于新型图像传感器和成像算法。在本文中,引入了RGB+TOF深度完成,这是五个曲目之一,其中一条介绍了RGB传感器和TOF传感器(带有点照明)的融合。为参与者提供了一个名为TetrasRGBD的新数据集,其中包含18k对高质量合成RGB+DEPTH训练数据和2.3k对来自混合源的测试数据。所有数据均在室内场景中收集。我们要求所有方法的运行时间都应在桌面GPU上实时。最终结果是使用客观指标和平均意见评分(MOS)主观评估的。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接,请访问https://github.com/mipi-challenge/mipi2022。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
随着稀疏TOF传感器在移动设备中的广泛应用,RGB图像引导的稀疏深度完成最近引起了广泛的关注,但仍然面临一些问题。首先,多模式信息的融合需要更多的网络模块来处理不同的模式。但是,稀疏TOF测量的应用方案通常需要轻巧的结构和低计算成本。其次,将稀疏和嘈杂的深度数据与密集像素的RGB数据融合可能会引入伪影。在本文中,提出了一个光线但有效的深度完成网络,该网络由两个分支的全球和局部深度预测模块和漏斗卷积空间传播网络组成。两分支结构的提取和融合具有轻质骨架的横模特征。改进的空间传播模块可以逐渐完善完整的深度图。此外,针对深度完成问题提出了校正后的梯度损失。实验结果表明,所提出的方法可以胜过一些具有轻量级体系结构的最先进方法。提出的方法还赢得了MIPI2022 RGB+TOF深度完成挑战的冠军。
translated by 谷歌翻译
稀疏深度测量在许多应用中广泛可用,例如增强现实,视觉惯性机器人和机器人,配备低成本深度传感器。虽然这种稀疏的深度样本适用于运动跟踪等某些应用,但是完整的深度图通常优选用于更广泛的应用,例如3D对象识别,三维重建和自主驾驶。尽管近期从具有更深的神经网络的单个RGB图像深度预测的进步,但现有方法不会产生可靠的实际使用结果。在这项工作中,我们提出了一种具有后优化后的神经网络,它将RGB图像和稀疏深度样本作为输入,并预测完整的深度图。我们提出了三项主要贡献来推进最先进的:一个名为EDNET的改进的骨干网络架构,一个语义边缘加权损失功能和语义网格变形优化方法。我们的评估结果优于在室内和室外数据集中一致地表达现有的工作,并且在NYU-Deaft-V2数据集上的200个稀疏样本的相同设置下,显着降低平均平均误差高达19.5%。
translated by 谷歌翻译
在本文中,我们制定了一个潜在的有价值的全景深度完成(PDC)任务,因为全景3D摄像机通常会产生360 {\ deg}深度,而在复杂场景中缺少数据。它的目标是从原始的稀疏图像和全景RGB图像中恢复密集的全景深度。为了处理PDC任务,我们训练一个深度网络,该网络将深度和图像作为密集的全景深度恢复的输入。但是,由于其非凸目标函数,它需要面对网络参数的具有挑战性的优化问题。为了解决这个问题,我们提出了一种简单而有效的方法,称为m {^3} pt:多模式掩盖的预训练。具体而言,在预训练期间,我们同时覆盖了全景RGB图像和通过共享随机掩码的稀疏深度的斑块,然后重建掩盖区域中的稀疏深度。据我们所知,这是我们第一次在多模式视觉任务中展示蒙版预训练的有效性,而不是蒙版自动编码器(MAE)解决的单模式任务。与MAE进行微调完全丢弃了预训练的解码器部分,在我们的M $^{3} $ pt中的预训练和微调阶段之间没有建筑差异,因为它们在预测密度方面只有不同,这有可能使转移学习更加方便和有效。广泛的实验验证了三个全景数据集上M {^3} PT的有效性。值得注意的是,我们在RMSE中平均将最先进的基线提高了26.2%,MRE的51.7%,MAE为49.7%,在三个基准数据集中将RMSelog的RMSelog在37.5%中提高了37.5%。
translated by 谷歌翻译
机器人技术中的安全运动规划需要已验证的空间规划,这些空间没有障碍。但是,由于其深度测量值的稀疏性,使用LiDARS获得此类环境表示是具有挑战性的。我们提出了一个学习辅助的3D激光雷达重建框架,该框架借助重叠的摄像头图像来为稀疏的激光雷达深度测量,以生成比单独使用原始liDar测量值可以实现更明确的自由空间的较密集的重建。我们使用带有编码器解码器结构的神经网络来预测密集的深度图像以及使用体积映射系统融合的深度不确定性估计。我们在使用手持式传感设备和腿部机器人捕获的现实世界室外数据集上进行实验。我们使用来自16束束激光雷达映射建筑网络的输入数据,我们的实验表明,通过我们的方法,估计的自由空间的量增加了40%以上。我们还表明,我们在合成数据集通用上训练的方法非常适合现实世界户外场景,而无需进行其他微调。最后,我们演示了运动计划任务如何从这些密集的重建中受益。
translated by 谷歌翻译
现有的深度完成方法通常以特定的稀疏深度类型为目标,并且在任务域之间概括较差。我们提出了一种方法,可以通过各种范围传感器(包括现代手机中的范围传感器或多视图重建算法)获得稀疏/半密度,嘈杂和潜在的低分辨率深度图。我们的方法利用了在大规模数据集中训练的单个图像深度预测网络的形式的数据驱动的先验,其输出被用作我们模型的输入。我们提出了一个有效的培训计划,我们在典型的任务域中模拟各种稀疏模式。此外,我们设计了两个新的基准测试,以评估深度完成方法的普遍性和鲁棒性。我们的简单方法显示了针对最先进的深度完成方法的优越的跨域泛化能力,从而引入了一种实用的解决方案,以在移动设备上捕获高质量的深度捕获。代码可在以下网址获得:https://github.com/yvanyin/filldepth。
translated by 谷歌翻译
本文提出了一个开放而全面的框架,以系统地评估对自我监督单眼估计的最新贡献。这包括训练,骨干,建筑设计选择和损失功能。该领域的许多论文在建筑设计或损失配方中宣称新颖性。但是,简单地更新历史系统的骨干会导致25%的相对改善,从而使其胜过大多数现有系统。对该领域论文的系统评估并不直接。在以前的论文中比较类似于类似的需要,这意味着评估协议中的长期错误在现场无处不在。许多论文可能不仅针对特定数据集进行了优化,而且还针对数据和评估标准的错误。为了帮助该领域的未来研究,我们发布了模块化代码库,可以轻松评估针对校正的数据和评估标准的替代设计决策。我们重新实施,验证和重新评估16个最先进的贡献,并引入一个新的数据集(SYNS-Patches),其中包含各种自然和城市场景中的密集室外深度地图。这允许计算复杂区域(例如深度边界)的信息指标。
translated by 谷歌翻译
We present a novel depth completion approach agnostic to the sparsity of depth points, that is very likely to vary in many practical applications. State-of-the-art approaches yield accurate results only when processing a specific density and distribution of input points, i.e. the one observed during training, narrowing their deployment in real use cases. On the contrary, our solution is robust to uneven distributions and extremely low densities never witnessed during training. Experimental results on standard indoor and outdoor benchmarks highlight the robustness of our framework, achieving accuracy comparable to state-of-the-art methods when tested with density and distribution equal to the training one while being much more accurate in the other cases. Our pretrained models and further material are available in our project page.
translated by 谷歌翻译
尽管在过去几年中取得了重大进展,但使用单眼图像进行深度估计仍然存在挑战。首先,训练度量深度预测模型的训练是不算气的,该预测模型可以很好地推广到主要由于训练数据有限的不同场景。因此,研究人员建立了大规模的相对深度数据集,这些数据集更容易收集。但是,由于使用相对深度数据训练引起的深度转移,现有的相对深度估计模型通常无法恢复准确的3D场景形状。我们在此处解决此问题,并尝试通过对大规模相对深度数据进行训练并估算深度转移来估计现场形状。为此,我们提出了一个两阶段的框架,该框架首先将深度预测到未知量表并从单眼图像转移,然后利用3D点云数据来预测深度​​移位和相机的焦距,使我们能够恢复恢复3D场景形状。由于两个模块是单独训练的,因此我们不需要严格配对的培训数据。此外,我们提出了图像级的归一化回归损失和基于正常的几何损失,以通过相对深度注释来改善训练。我们在九个看不见的数据集上测试我们的深度模型,并在零拍摄评估上实现最先进的性能。代码可用:https://git.io/depth
translated by 谷歌翻译
引导过滤器是计算机视觉和计算机图形中的基本工具,旨在将结构信息从引导图像传输到目标图像。大多数现有方法构造来自指导本身的滤波器内核,而不考虑指导和目标之间的相互依赖性。然而,由于两种图像中通常存在显着不同的边沿,只需将引导的所有结构信息传送到目标即将导致各种伪像。要应对这个问题,我们提出了一个名为Deep Enterponal引导图像过滤的有效框架,其过滤过程可以完全集成两个图像中包含的互补信息。具体地,我们提出了一种注意力内核学习模块,分别从引导和目标生成双组滤波器内核,然后通过在两个图像之间建模像素方向依赖性来自适应地组合它们。同时,我们提出了一种多尺度引导图像滤波模块,以粗略的方式通过所构造的内核逐渐产生滤波结果。相应地,引入了多尺度融合策略以重用中间导点在粗略的过程中。广泛的实验表明,所提出的框架在广泛的引导图像滤波应用中,诸如引导超分辨率,横向模态恢复,纹理拆除和语义分割的最先进的方法。
translated by 谷歌翻译
Monocular depth estimation is a challenging problem on which deep neural networks have demonstrated great potential. However, depth maps predicted by existing deep models usually lack fine-grained details due to the convolution operations and the down-samplings in networks. We find that increasing input resolution is helpful to preserve more local details while the estimation at low resolution is more accurate globally. Therefore, we propose a novel depth map fusion module to combine the advantages of estimations with multi-resolution inputs. Instead of merging the low- and high-resolution estimations equally, we adopt the core idea of Poisson fusion, trying to implant the gradient domain of high-resolution depth into the low-resolution depth. While classic Poisson fusion requires a fusion mask as supervision, we propose a self-supervised framework based on guided image filtering. We demonstrate that this gradient-based composition performs much better at noisy immunity, compared with the state-of-the-art depth map fusion method. Our lightweight depth fusion is one-shot and runs in real-time, making our method 80X faster than a state-of-the-art depth fusion method. Quantitative evaluations demonstrate that the proposed method can be integrated into many fully convolutional monocular depth estimation backbones with a significant performance boost, leading to state-of-the-art results of detail enhancement on depth maps.
translated by 谷歌翻译
依靠深度​​监督或自我监督的学习,近年来,成对的单图像和稀疏深度数据的深度完成方法的先前方法令人印象深刻。但是,面对一个新的环境,该环境在网上发生测试数据,并且与RGB图像内容和深度稀疏性中的训练数据不同,受过训练的模型可能会遭受严重的性能下降。为了鼓励训练有素的模型在这种情况下运行良好,我们希望它能够连续有效地适应新的环境。为了实现这一目标,我们提出了Metacomp。它利用元学习技术在训练阶段模拟适应策略,然后以自我监督的方式将模型适应新环境。考虑到输入是多模式数据,由于两个模态数据的结构和形式存在显着差异,因此将模型同时改编到两个模态的变化将是一项挑战。因此,我们进一步建议将基本元学习训练中的适应程序分为两个步骤,第一个小时重点放在深度稀疏性上,而第二次参与图像含量。在测试过程中,我们采取相同的策略将模型在线调整为新的多模式数据。实验结果和全面的消融表明,我们的元素能够有效地适应新环境中的深度完成,并适应不同方式的变化。
translated by 谷歌翻译
自我监督的单眼深度预测提供了一种经济有效的解决方案,以获得每个像素的3D位置。然而,现有方法通常会导致不满意的准确性,这对于自治机器人至关重要。在本文中,我们提出了一种新的两级网络,通过利用低成本稀疏(例如4梁)LIDAR来推进自我监督单眼密集深度学习。与使用稀疏激光雷达的现有方法不同,主要以耗时的迭代后处理,我们的模型保留单眼图像特征和稀疏的LIDAR功能,以预测初始深度图。然后,有效的前馈细化网络进一步设计为校正伪3D空间中这些初始深度图中的错误,其具有实时性能。广泛的实验表明,我们所提出的模型显着优于所有最先进的自我监控方法,以及基于稀疏的激光器的方法,以及对自我监督单眼深度预测和完成任务。通过精确的密集深度预测,我们的模型优于基于最先进的稀疏激光雷达的方法(伪LIDAR ++)在Kitti排行榜上下游任务单眼3D对象检测超过68%。代码可在https://github.com/autoailab/fusiondepth获得
translated by 谷歌翻译
轻巧的飞行时间(TOF)深度传感器很小,便宜,低能量,并且已在移动设备上大量部署在移动设备上,以进行自动对焦,障碍物检测等。但是,由于其特定的测量值(深度分布)在某个像素时的区域而不是深度值,并且分辨率极低,它们不足以用于需要高保真深度(例如3D重建)的应用。在本文中,我们提出了Deltar,这是一种新颖的方法,可以通过与颜色图像合作来赋予高分辨率和准确深度的能力。作为Deltar的核心,提出了一种用于深度分布的特征提取器,并提出了基于注意力的神经体系结构,以有效地从颜色和TOF域中融合信息。为了在现实世界中评估我们的系统,我们设计了一个数据收集设备,并提出了一种校准RGB摄像头和TOF传感器的新方法。实验表明,我们的方法比旨在使用商品级RGB-D传感器的PAR性能实现的现有框架比现有的框架产生更准确的深度。代码和数据可在https://zju3dv.github.io/deltar/上获得。
translated by 谷歌翻译