单眼深度估计和散焦估计是计算机视觉中的两个基本任务。大多数现有方法将深度估计和散焦估计视为两个独立的任务,忽略了它们之间的牢固联系。在这项工作中,我们提出了一个由编码器组成的多任务学习网络,该网络具有两个解码器,以估算单个集中图像的深度和散焦图。通过多任务网络,深度估计促进了散焦估计,从而在弱纹理区域中获得更好的结果,而散焦估计促进了通过两个地图之间强烈的物理连接的深度估计。我们设置了一个数据集(名为All-3D数据集),该数据集是第一个由100K的全焦点图像组成的全真实图像数据集,具有焦点深度,深度图和Defocus映射的集中图像。它使网络能够学习深度和真实散焦图像之间的功能和固体物理连接。实验表明,与合成的图像相比,网络从实际集中图像中学习更多的固体特征。从这种多任务结构中受益,不同的任务相互促进,我们的深度和散焦估计的性能明显优于其他最新算法。代码和数据集将在https://github.com/cubhe/mddnet上公开可用。
translated by 谷歌翻译
该点扩散函数(PSF)在许多计算成像应用中起着至关重要的作用,例如焦点/散焦,深度估计和荧光显微镜的形状。但是,散焦过程的数学模型尚不清楚。在这项工作中,我们开发了一种替代方法来估计点扩散函数的精确数学模型来描述散焦过程。我们首先得出PSF的数学算法,该算法用于生成不同的焦点深度的模拟聚焦图像。然后,我们计算模拟的聚焦图像与真实聚焦图像之间的相似性损耗函数,在该图像中,我们根据Docus直方图设计了一种新颖有效的度量,以评估聚焦图像之间的差异。在解决损耗函数的最小值后,这意味着我们找到了PSF的最佳参数。我们还构建了一个由聚焦系统和结构化的光系统组成的硬件系统,以获取全焦点图像,具有相应焦点深度的聚焦图像以及相同视图中的深度图。作为数据集的三种类型的图像用于获得精确的PSF。我们对标准平面和实际对象的实验表明,所提出的算法可以准确描述散焦过程。通过评估实际集中图像之间的差异,即我们的算法生成的焦点图像,即其他人生成的焦点图像,进一步证明了我们算法的准确性。结果表明,我们算法的损失平均比其他算法少40%。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
我们提出了一种新型算法,用于单眼深度估计,将度量深度图分解为归一化的深度图和尺度特征。所提出的网络由共享编码器和三个解码器组成,称为G-NET,N-NET和M-NET,它们分别估算了梯度图,归一化的深度图和度量深度图。M-NET学习使用G-NET和N-NET提取的相对深度特征更准确地估算度量深度。所提出的算法具有一个优点,即它可以使用无度量深度标签的数据集来提高度量深度估计的性能。各种数据集的实验结果表明,所提出的算法不仅为最先进的算法提供竞争性能,而且即使只有少量的度量深度数据可用于培训,也会产生可接受的结果。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
尽管现有的单眼深度估计方法取得了长足的进步,但由于网络的建模能力有限和规模歧义问题,预测单个图像的准确绝对深度图仍然具有挑战性。在本文中,我们介绍了一个完全视觉上的基于注意力的深度(Vadepth)网络,在该网络中,将空间注意力和通道注意都应用于所有阶段。通过在远距离沿空间和通道维度沿空间和通道维度的特征的依赖关系连续提取,Vadepth网络可以有效地保留重要的细节并抑制干扰特征,以更好地感知场景结构,以获得更准确的深度估计。此外,我们利用几何先验来形成规模约束,以进行比例感知模型培训。具体而言,我们使用摄像机和由地面点拟合的平面之间的距离构建了一种新颖的规模感知损失,该平面与图像底部中间的矩形区域的像素相对应。 Kitti数据集的实验结果表明,该体系结构达到了最新性能,我们的方法可以直接输出绝对深度而无需后处理。此外,我们在Seasondepth数据集上的实验还证明了我们模型对多个看不见的环境的鲁棒性。
translated by 谷歌翻译
深度估计的自我监督学习在图像序列中使用几何体进行监督,并显示有前途的结果。与许多计算机视觉任务一样,深度网络性能是通过从图像中学习准确的空间和语义表示的能力来确定。因此,利用用于深度估计的语义分割网络是自然的。在这项工作中,基于一个发达的语义分割网络HRNET,我们提出了一种新颖的深度估计网络差异,可以利用下式采样过程和上采样过程。通过应用特征融合和注意机制,我们所提出的方法优于基准基准测试的最先进的单眼深度估计方法。我们的方法还展示了更高分辨率培训数据的潜力。我们通过建立一个挑战性案件的测试集,提出了一个额外的扩展评估策略,经验从标准基准源于标准基准。
translated by 谷歌翻译
建立新型观点综合的最近进展后,我们提出了改善单眼深度估计的应用。特别是,我们提出了一种在三个主要步骤中分开的新颖训练方法。首先,单眼深度网络的预测结果被扭转到额外的视点。其次,我们应用一个额外的图像综合网络,其纠正并提高了翘曲的RGB图像的质量。通过最小化像素-WISE RGB重建误差,该网络的输出需要尽可能类似地查看地面真实性视图。第三,我们将相同的单眼深度估计重新应用于合成的第二视图点,并确保深度预测与相关的地面真理深度一致。实验结果证明,我们的方法在Kitti和Nyu-Deaft-V2数据集上实现了最先进的或可比性,具有轻量级和简单的香草U-Net架构。
translated by 谷歌翻译
我们提出了自我监督单眼深度估计(SDE)的通用多任务培训框架。深入培训的深度模型,具有在标准单任务SDE框架中培训的相同型号。通过将额外的自蒸馏任务引入标准的SDE训练框架,低置训练深度网络,不仅可以预测图像重建任务的深度图,而且还用于从培训的教师网络蒸馏出具有未标记数据的知识。为了利用这种多任务设置,我们为每个任务提出了同性恋的不确定性配方,以惩罚可能受教师网络噪声影响的区域,或违反SDE假设。我们对Kitti提供了广泛的评估,以展示使用拟议框架培训一系列现有网络实现的改进,我们在此任务上实现了最先进的表现。此外,子深度使模型能够估计深度输出的不确定性。
translated by 谷歌翻译
We address the problem of estimating a high quality dense depth map from a single RGB input image. We start out with a baseline encoder-decoder convolutional neural network architecture and pose the question of how the global processing of information can help improve overall depth estimation. To this end, we propose a transformerbased architecture block that divides the depth range into bins whose center value is estimated adaptively per image. The final depth values are estimated as linear combinations of the bin centers. We call our new building block AdaBins. Our results show a decisive improvement over the state-ofthe-art on several popular depth datasets across all metrics. We also validate the effectiveness of the proposed block with an ablation study and provide the code and corresponding pre-trained weights of the new state-of-the-art model 1 .
translated by 谷歌翻译
为了获得更好的摄影,包括智能手机在内的最新商业摄像机要么采用大孔镜来收集更多的光线,要么使用突发模式在短时间内拍摄多个图像。这些有趣的功能使我们检查了焦点/散焦的深度。在这项工作中,我们提出了来自单个焦点堆栈的基于卷积神经网络的深度估计。我们的方法不同于相关的最新方法,具有三个独特的功能。首先,我们的方法允许以端到端方式推断深度图,即使图像对齐方式也是如此。其次,我们提出了一个尖锐的区域检测模块,以减少焦点变化和无纹理的区域中的模糊歧义。第三,我们设计了一个有效的下采样模块,以减轻特征提取中焦点信息的流动。此外,为了概括拟议的网络,我们开发了一个模拟器来实际重现商用摄像机的特征,例如视野的变化,焦点长度和主要点。通过有效合并这三个独特功能,我们的网络在大多数指标上达到了DDFF 12场景基准的最高等级。我们还证明了所提出的方法对与最新方法相比,从各种现成的摄像机拍摄的各种定量评估和现实世界图像的有效性。我们的源代码可在https://github.com/wcy199705/dffinthewild上公开获得。
translated by 谷歌翻译
深度估计是3D重建的具有挑战性的任务,以提高环境意识的准确性感测。这项工作带来了一系列改进的新解决方案,与现有方法相比,增加了一系列改进,这增加了对深度图的定量和定性理解。最近,卷积神经网络(CNN)展示了估计单眼图象的深度图的非凡能力。然而,传统的CNN不支持拓扑结构,它们只能在具有确定尺寸和重量的常规图像区域上工作。另一方面,图形卷积网络(GCN)可以处理非欧几里德数据的卷积,并且它可以应用于拓扑结构内的不规则图像区域。因此,在这项工作中为了保护对象几何外观和分布,我们的目的是利用GCN进行自我监督的深度估计模型。我们的模型包括两个并行自动编码器网络:第一个是一个自动编码器,它取决于Reset-50,并从输入图像和多尺度GCN上提取功能以估计深度图。反过来,第二网络将用于基于Reset-18的两个连续帧之间估计自我运动矢量(即3D姿势)。估计的3D姿势和深度图都将用于构建目标图像。使用与光度,投影和平滑度相关的损耗函数的组合用于应对不良深度预测,并保持对象的不连续性。特别是,我们的方法提供了可比性和有前途的结果,在公共基准和Make3D数据集中的高预测精度为89%,与最先进的解决方案相比,培训参数的数量减少了40%。源代码在https://github.com/arminmasoumian/gcndepth.git上公开可用
translated by 谷歌翻译
这些年来,展示技术已经发展。开发实用的HDR捕获,处理和显示解决方案以将3D技术提升到一个新的水平至关重要。多曝光立体声图像序列的深度估计是开发成本效益3D HDR视频内容的重要任务。在本文中,我们开发了一种新颖的深度体系结构,以进行多曝光立体声深度估计。拟议的建筑有两个新颖的组成部分。首先,对传统立体声深度估计中使用的立体声匹配技术进行了修改。对于我们体系结构的立体深度估计部分,部署了单一到stereo转移学习方法。拟议的配方规避了成本量构造的要求,该要求由基于重新编码的单码编码器CNN取代,具有不同的重量以进行功能融合。基于有效网络的块用于学习差异。其次,我们使用强大的视差特征融合方法组合了从不同暴露水平上从立体声图像获得的差异图。使用针对不同质量度量计算的重量图合并在不同暴露下获得的差异图。获得的最终预测差异图更强大,并保留保留深度不连续性的最佳功能。提出的CNN具有使用标准动态范围立体声数据或具有多曝光低动态范围立体序列的训练的灵活性。在性能方面,所提出的模型超过了最新的单眼和立体声深度估计方法,无论是定量还是质量地,在具有挑战性的场景流以及暴露的Middlebury立体声数据集上。该体系结构在复杂的自然场景中表现出色,证明了其对不同3D HDR应用的有用性。
translated by 谷歌翻译
随着计算智能算法的发展,由扭曲的光度一致性驱动的无监督的单眼深度和姿势估计框架在白天场景中表现出色。尽管在一些具有挑战性的环境中,例如夜晚和雨天之夜,但由于复杂的照明和反射,基本的光度一致性假设是站不住脚的,因此上述无监督的框架不能直接应用于这些复杂的情况。在本文中,我们研究了高度复杂的情景中无监督的单眼深度估计的问题,并通过采用基于图像传输的域适应框架来解决这个具有挑战性的问题。我们适应了在白天场景中训练的深度模型,适用于夜间场景,并且对特征空间和输出空间的约束促进了框架,以了解深度解码的关键功能。同时,我们进一步解决了不稳定图像转移质量对域适应的影响,并提出了图像适应方法来评估转移图像的质量并重新进行相应的损失,以提高适应深度模型的性能。广泛的实验显示了所提出的无监督框架在估计高度复杂图像的密集深度图方面的有效性。
translated by 谷歌翻译
自我监督的单眼深度估计使机器人能够从原始视频流中学习3D感知。假设世界主要是静态的,这种可扩展的方法利用了投射的几何形状和自我运动来通过视图综合学习。在自主驾驶和人类机器人相互作用中常见的动态场景违反了这一假设。因此,它们需要明确建模动态对象,例如通过估计像素3D运动,即场景流。但是,同时对深度和场景流的自我监督学习是不适合的,因为有许多无限的组合导致相同的3D点。在本文中,我们提出了一种草稿,这是一种通过将合成数据与几何自学意识相结合的新方法,能够共同学习深度,光流和场景流。在木筏架构的基础上,我们将光流作为中间任务,以通过三角剖分来引导深度和场景流量学习。我们的算法还利用任务之间的时间和几何一致性损失来改善多任务学习。我们的草案在标准Kitti基准的自我监督的单眼环境中,同时在所有三个任务中建立了新的最新技术状态。项目页面:https://sites.google.com/tri.global/draft。
translated by 谷歌翻译
在接受高质量的地面真相(如LiDAR数据)培训时,监督的学习深度估计方法可以实现良好的性能。但是,LIDAR只能生成稀疏的3D地图,从而导致信息丢失。每个像素获得高质量的地面深度数据很难获取。为了克服这一限制,我们提出了一种新颖的方法,将有前途的平面和视差几何管道与深度信息与U-NET监督学习网络相结合的结构信息结合在一起,与现有的基于流行的学习方法相比,这会导致定量和定性的改进。特别是,该模型在两个大规模且具有挑战性的数据集上进行了评估:Kitti Vision Benchmark和CityScapes数据集,并在相对错误方面取得了最佳性能。与纯深度监督模型相比,我们的模型在薄物体和边缘的深度预测上具有令人印象深刻的性能,并且与结构预测基线相比,我们的模型的性能更加强大。
translated by 谷歌翻译
从单目视频重建3D网格的关键元素之一是生成每个帧的深度图。然而,在结肠镜检查视频重建的应用中,产生良好质量的深度估计是具有挑战性的。神经网络可以容易地被光度分散注意力欺骗,或者不能捕获结肠表面的复杂形状,预测导致破碎网格的缺陷形状。旨在从根本上提高结肠镜检查3D重建的深度估计质量,在这项工作中,我们设计了一系列培训损失来应对结肠镜检查数据的特殊挑战。为了更好的培训,使用深度和表面正常信息开发了一组几何一致性目标。而且,经典的光度损耗延伸,具有特征匹配以补偿照明噪声。随着足够强大的培训损失,我们的自我监督框架命名为COLLE,与利用先前的深度知识相比,我们的自我监督框架能够产生更好的结肠镜检查数据地图。用于重建,我们的网络能够实时重建高质量的结肠网格,而无需任何后处理,使其成为第一个在临床上适用。
translated by 谷歌翻译
图像的深度估计是自动驾驶3D感知的基本步骤,并且是LIDAR等昂贵深度传感器的经济替代方案。时间光度限制可实现无标签的自制深度估计,从而进一步促进其应用。但是,大多数现有方法仅根据每个单眼图像来预测深度​​,并忽略多个周围相机之间的相关性,这些相机通常可用于现代自动驾驶车辆。在本文中,我们提出了一种环绕方法,以合并来自多个周围视图的信息,以预测跨相机的深度图。具体来说,我们采用联合网络来处理所有周围的观点,并提出跨视图变压器,从多个视图中有效融合信息。我们应用跨视图自我注意力,有效地实现多相机特征图之间的全局相互作用。与自我监督的单眼深度估计不同,我们能够预测给定多相机外部矩阵的现实世界量表。为了实现这一目标,我们采用了两框结构,从而提取尺度感知的伪深度以预处理模型。此外,我们没有预测每个摄像机的自我运动,而是估计车辆的普遍自我运动并将其传输到每种视图中以实现多视图的自我运动一致性。在实验中,我们的方法在具有挑战性的多相机深度估计数据集DDAD和NUSCENES上实现了最新的性能。
translated by 谷歌翻译
自我监督的学习已经为单眼深度估计显示出非常有希望的结果。场景结构和本地细节都是高质量深度估计的重要线索。最近的作品遭受了场景结构的明确建模,并正确处理细节信息,这导致了预测结果中的性能瓶颈和模糊人工制品。在本文中,我们提出了具有两个有效贡献的通道 - 明智的深度估计网络(Cadepth-Net):1)结构感知模块采用自我关注机制来捕获远程依赖性并聚合在信道中的识别特征尺寸,明确增强了场景结构的感知,获得了更好的场景理解和丰富的特征表示。 2)细节强调模块重新校准通道 - 方向特征映射,并选择性地强调信息性功能,旨在更有效地突出至关重要的本地细节信息和熔断器不同的级别功能,从而更精确,更锐化深度预测。此外,广泛的实验验证了我们方法的有效性,并表明我们的模型在基蒂基准和Make3D数据集中实现了最先进的结果。
translated by 谷歌翻译
全景图像可以同时展示周围环境的完整信息,并且在虚拟旅游,游戏,机器人技术等方面具有许多优势。但是,全景深度估计的进度无法完全解决由常用的投射方法引起的失真和不连续性问题。本文提出了SphereDepth,这是一种新型的全景深度估计方法,该方法可直接预测球形网格的深度而无需投影预处理。核心思想是建立全景图像与球形网格之间的关系,然后使用深层神经网络在球形域上提取特征以预测深度。为了解决高分辨率全景数据带来的效率挑战,我们介绍了两个超参数,以平衡推理速度和准确性。在三个公共全景数据集中验证,SphereDepth通过全景深度估算的最新方法实现了可比的结果。从球形域设置中受益,球形部可以产生高质量的点云,并显着缓解失真和不连续性问题。
translated by 谷歌翻译