随着对移动平台上对计算摄影和成像的需求不断增长,在相机系统中开发和集成了高级图像传感器与相机系统中新型算法。但是,缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像(MIPI)的发展。为了弥合差距,我们介绍了第一个MIPI挑战,包括五个曲目,这些曲目着重于新型图像传感器和成像算法。在本文中,引入了RGB+TOF深度完成,这是五个曲目之一,其中一条介绍了RGB传感器和TOF传感器(带有点照明)的融合。为参与者提供了一个名为TetrasRGBD的新数据集,其中包含18k对高质量合成RGB+DEPTH训练数据和2.3k对来自混合源的测试数据。所有数据均在室内场景中收集。我们要求所有方法的运行时间都应在桌面GPU上实时。最终结果是使用客观指标和平均意见评分(MOS)主观评估的。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接,请访问https://github.com/mipi-challenge/mipi2022。
translated by 谷歌翻译
随着稀疏TOF传感器在移动设备中的广泛应用,RGB图像引导的稀疏深度完成最近引起了广泛的关注,但仍然面临一些问题。首先,多模式信息的融合需要更多的网络模块来处理不同的模式。但是,稀疏TOF测量的应用方案通常需要轻巧的结构和低计算成本。其次,将稀疏和嘈杂的深度数据与密集像素的RGB数据融合可能会引入伪影。在本文中,提出了一个光线但有效的深度完成网络,该网络由两个分支的全球和局部深度预测模块和漏斗卷积空间传播网络组成。两分支结构的提取和融合具有轻质骨架的横模特征。改进的空间传播模块可以逐渐完善完整的深度图。此外,针对深度完成问题提出了校正后的梯度损失。实验结果表明,所提出的方法可以胜过一些具有轻量级体系结构的最先进方法。提出的方法还赢得了MIPI2022 RGB+TOF深度完成挑战的冠军。
translated by 谷歌翻译
随着移动平台上对计算摄影和成像的需求不断增长,在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是,缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像(MIPI)的发展。为了弥合差距,我们引入了第一个MIPI挑战,其中包括五个专注于新型图像传感器和成像算法的曲目。在本文中,引入了RGBW关节融合和Denoise,这是五个曲目之一,其中一条致力于将Binning模式RGBW融合到拜耳。为参与者提供了一个新的数据集,其中包括70(培训)和15个(验证)高质量RGBW和拜耳对的场景。此外,对于每个场景,在24dB和42dB处提供不同噪声水平的RGBW。所有数据均在室外和室内条件下使用RGBW传感器捕获。最终结果使用客观指标,包括PSNR,SSIM},LPIPS和KLD评估。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接,请访问https://github.com/mipi-challenge/mipi2022。
translated by 谷歌翻译
随着移动平台上对计算摄影和成像的需求不断增长,在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是,缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像(MIPI)的发展。为了弥合差距,我们引入了第一个MIPI挑战,其中包括五个专注于新型图像传感器和成像算法的曲目。在本文中,引入了QUAD Remosaic和Denoise,这是五个曲目之一,在完全分辨率上进行了四QFA插值向拜耳进行插值。为参与者提供了一个新的数据集,包括70(培训)和15个(验证)高品质四边形和拜耳对的场景。此外,对于每个场景,在0dB,24dB和42dB上提供了不同噪声水平的四边形。所有数据均在室外和室内条件下使用四边形传感器捕获。最终结果使用客观指标,包括PSNR,SSIM,LPIPS和KLD。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接,请访问https://github.com/mipi-challenge/mipi2022。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
随着移动平台上对计算摄影和成像的需求不断增长,在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是,缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像(MIPI)的发展。为了弥合差距,我们介绍了第一个MIPI挑战,包括五个曲目,这些曲目着重于新型图像传感器和成像算法。在本文中,我们总结并审查了MIPI 2022上的分配摄像头(UDC)图像恢复轨道。总共,成功注册了167名参与者,并在最终测试阶段提交了19个团队。在这项挑战中开发的解决方案在播放摄像头映像修复局上实现了最新的性能。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接,请访问https://github.com/mipi-challenge/mipi2022。
translated by 谷歌翻译
随着移动平台上对计算摄影和成像的需求不断增长,在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是,缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像(MIPI)的发展。为了弥合差距,我们介绍了第一个MIPI挑战,包括五个曲目,这些曲目着重于新型图像传感器和成像算法。在本文中,引入了RGBW关节Remosaic和Denoise,这是五个曲目之一,在全面分辨率上进行了RGBW CFA插值的插值。为参与者提供了一个新的数据集,其中包括70(培训)和15个(验证)高质量RGBW和拜耳对的场景。此外,对于每个场景,在0dB,24dB和42dB上提供了不同噪声水平的RGBW。所有数据均在室外和室内条件下使用RGBW传感器捕获。最终结果是使用PSNR,SSIM,LPIPS和KLD在内的客观指标评估的。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接,请访问https://github.com/mipi-challenge/mipi2022。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
从稀疏的LIDAR扫描中恢复密集的深度图像是一个具有挑战性的任务。尽管对稀疏密集深度完成的颜色引导方法的普及,但它们在优化期间平等地处理了像素,忽略了稀疏深度图中的不均匀分布特性和合成的地面真理中的累积异常值。在这项工作中,我们引入了不确定性驱动的损失功能,以提高深度完成的鲁棒性,并处理深度完成的不确定性。具体而言,我们提出了一个明确的不确定性制定,用于与Jeffrey之前的强大深度完成。将参数不确定驱动的损耗引入并转换为对嘈杂或缺少数据的强大的新损耗函数。同时,我们提出了一种多尺度联合预测模型,可以同时预测深度和不确定性地图。估计的不确定性图还用于对具有高不确定性的像素对像素对的自适应预测,导致剩余地图以改进完成结果。我们的方法已经在基蒂深度完成基准上进行了测试,并在Mae,Imae和Irmse指标方面取得了最先进的鲁棒性能。
translated by 谷歌翻译
在本文中,我们的目标是在各种照明条件下解决复杂场景中一致的深度预测问题。现有的基于RGB-D传感器或虚拟渲染的室内数据集具有两个关键限制 - 稀疏深度映射(NYU深度V2)和非现实照明(Sun CG,SceneNet RGB-D)。我们建议使用Internet 3D室内场景并手动调整其照明,以呈现照片逼真的RGB照片及其相应的深度和BRDF地图,获取名为Vari DataSet的新室内深度数据集。通过在编码特征上应用深度可分离扩张的卷积来处理全局信息并减少参数,提出了一个名为DCA的简单卷积块。我们对这些扩张的特征进行横向关注,以保留不同照明下深度预测的一致性。通过将其与Vari数据集上的当前最先进的方法进行比较来评估我们的方法,并且在我们的实验中观察到显着改善。我们还开展了融合研究,Finetune我们的NYU深度V2模型,并评估了真实数据,以进一步验证我们的DCA块的有效性。代码,预先训练的权重和vari数据集是开放的。
translated by 谷歌翻译
Our long term goal is to use image-based depth completion to quickly create 3D models from sparse point clouds, e.g. from SfM or SLAM. Much progress has been made in depth completion. However, most current works assume well distributed samples of known depth, e.g. Lidar or random uniform sampling, and perform poorly on uneven samples, such as from keypoints, due to the large unsampled regions. To address this problem, we extend CSPN with multiscale prediction and a dilated kernel, leading to much better completion of keypoint-sampled depth. We also show that a model trained on NYUv2 creates surprisingly good point clouds on ETH3D by completing sparse SfM points.
translated by 谷歌翻译
The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
translated by 谷歌翻译
由于可靠的3D空间信息,LIDAR传感器广泛用于自动驾驶。然而,LIDAR的数据稀疏,LIDAR的频率低于相机的频率。为了在空间和时间上生成密集点云,我们提出了第一个将来的伪激光框架预测网络。鉴于连续稀疏深度图和RGB图像,我们首先根据动态运动信息粗略地预测未来的密集深度图。为了消除光流量估计的误差,提出了帧间聚合模块,以使具有自适应权重的翘曲深度图熔断。然后,我们使用静态上下文信息优化预测的密集深度图。通过将预测的密集深度图转换为相应的3D点云,可以获得未来的伪激光镜帧。实验结果表明,我们的方法优于流行基准基准的现有解决方案。
translated by 谷歌翻译
现有的深度完成方法通常以特定的稀疏深度类型为目标,并且在任务域之间概括较差。我们提出了一种方法,可以通过各种范围传感器(包括现代手机中的范围传感器或多视图重建算法)获得稀疏/半密度,嘈杂和潜在的低分辨率深度图。我们的方法利用了在大规模数据集中训练的单个图像深度预测网络的形式的数据驱动的先验,其输出被用作我们模型的输入。我们提出了一个有效的培训计划,我们在典型的任务域中模拟各种稀疏模式。此外,我们设计了两个新的基准测试,以评估深度完成方法的普遍性和鲁棒性。我们的简单方法显示了针对最先进的深度完成方法的优越的跨域泛化能力,从而引入了一种实用的解决方案,以在移动设备上捕获高质量的深度捕获。代码可在以下网址获得:https://github.com/yvanyin/filldepth。
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
深度映射记录场景中的视点和对象之间的距离,这在许多真实应用程序中起着关键作用。然而,消费者级RGB-D相机捕获的深度图遭受了低空间分辨率。引导深度地图超分辨率(DSR)是解决此问题的流行方法,该方法试图从输入的低分辨率(LR)深度及其耦合的HR RGB图像中恢复高分辨率(HR)深度映射和作为指引。引导DSR最具挑战性的问题是如何正确选择一致的结构并传播它们,并正确处理不一致的结构。在本文中,我们提出了一种用于引导DSR的新型关注的分层多模态融合(AHMF)网络。具体地,为了有效地提取和组合来自LR深度和HR引导的相关信息,我们提出了一种基于多模态注意力的融合(MMAF)策略,包括分层卷积层,包括特征增强块,以选择有价值的功能和特征重新校准块来统一不同外观特征的方式的相似性度量。此外,我们提出了一个双向分层特征协作(BHFC)模块,以完全利用多尺度特征之间的低级空间信息和高级结构信息。实验结果表明,在重建精度,运行速度和记忆效率方面,我们的方法优于最先进的方法。
translated by 谷歌翻译
Monocular depth estimation is a challenging problem on which deep neural networks have demonstrated great potential. However, depth maps predicted by existing deep models usually lack fine-grained details due to the convolution operations and the down-samplings in networks. We find that increasing input resolution is helpful to preserve more local details while the estimation at low resolution is more accurate globally. Therefore, we propose a novel depth map fusion module to combine the advantages of estimations with multi-resolution inputs. Instead of merging the low- and high-resolution estimations equally, we adopt the core idea of Poisson fusion, trying to implant the gradient domain of high-resolution depth into the low-resolution depth. While classic Poisson fusion requires a fusion mask as supervision, we propose a self-supervised framework based on guided image filtering. We demonstrate that this gradient-based composition performs much better at noisy immunity, compared with the state-of-the-art depth map fusion method. Our lightweight depth fusion is one-shot and runs in real-time, making our method 80X faster than a state-of-the-art depth fusion method. Quantitative evaluations demonstrate that the proposed method can be integrated into many fully convolutional monocular depth estimation backbones with a significant performance boost, leading to state-of-the-art results of detail enhancement on depth maps.
translated by 谷歌翻译
深度完成处理从稀疏的问题恢复密集深度映射,其中彩色图像通常用于促进此任务。最近的方法主要集中在图像引导学习中预测致密结果。然而,图像中的模糊引导和深度不明确的结构仍然妨碍了图像引导框架的性能。灵感来自于观察和思考的流行机制两次,我们探讨了我们的图像引导网络中的重复设计逐渐恢复了深度值。具体地,重复体现在图像引导分支和深度生成分支中。在前一个分支中,我们设计了一种重复的沙漏网络,以提取复杂环境的判别图像特征,这可以为深度预测提供强大的上下文指导。在后一分支中,我们介绍了一种基于动态卷积的重复引导模块,其中提出了高效的卷积分解,以同时降低其复杂性和逐步模型的高频结构。广泛的实验表明,我们的方法在基蒂基准和NYUV2数据集上实现了最先进的结果。
translated by 谷歌翻译
尽管在过去几年中取得了重大进展,但使用单眼图像进行深度估计仍然存在挑战。首先,训练度量深度预测模型的训练是不算气的,该预测模型可以很好地推广到主要由于训练数据有限的不同场景。因此,研究人员建立了大规模的相对深度数据集,这些数据集更容易收集。但是,由于使用相对深度数据训练引起的深度转移,现有的相对深度估计模型通常无法恢复准确的3D场景形状。我们在此处解决此问题,并尝试通过对大规模相对深度数据进行训练并估算深度转移来估计现场形状。为此,我们提出了一个两阶段的框架,该框架首先将深度预测到未知量表并从单眼图像转移,然后利用3D点云数据来预测深度​​移位和相机的焦距,使我们能够恢复恢复3D场景形状。由于两个模块是单独训练的,因此我们不需要严格配对的培训数据。此外,我们提出了图像级的归一化回归损失和基于正常的几何损失,以通过相对深度注释来改善训练。我们在九个看不见的数据集上测试我们的深度模型,并在零拍摄评估上实现最先进的性能。代码可用:https://git.io/depth
translated by 谷歌翻译
间接飞行时间(I-TOF)成像是由于其小尺寸和价格合理的价格导致移动设备的深度估计方式。以前的作品主要专注于I-TOF成像的质量改进,特别是固化多路径干扰(MPI)的效果。这些调查通常在特定约束的场景中进行,在近距离,室内和小环境光下。令人惊讶的一点工作已经调查了现实生活场景的I-TOF质量改善,其中强烈的环境光线和远距离由于具有限制传感器功率和光散射而导致的诱导射击噪声和信号稀疏引起的困难。在这项工作中,我们提出了一种基于新的学习的端到端深度预测网络,其噪声原始I-TOF信号以及RGB图像基于涉及隐式和显式对齐的多步方法来解决它们的潜在表示。预测与RGB视点对齐的高质量远程深度图。与基线方法相比,我们在挑战真实世界场景中测试了挑战性质场景的方法,并在最终深度地图上显示了超过40%的RMSE改进。
translated by 谷歌翻译