全景图像可以同时展示周围环境的完整信息,并且在虚拟旅游,游戏,机器人技术等方面具有许多优势。但是,全景深度估计的进度无法完全解决由常用的投射方法引起的失真和不连续性问题。本文提出了SphereDepth,这是一种新型的全景深度估计方法,该方法可直接预测球形网格的深度而无需投影预处理。核心思想是建立全景图像与球形网格之间的关系,然后使用深层神经网络在球形域上提取特征以预测深度。为了解决高分辨率全景数据带来的效率挑战,我们介绍了两个超参数,以平衡推理速度和准确性。在三个公共全景数据集中验证,SphereDepth通过全景深度估算的最新方法实现了可比的结果。从球形域设置中受益,球形部可以产生高质量的点云,并显着缓解失真和不连续性问题。
translated by 谷歌翻译
由于球形摄像机的兴起,单眼360深度估计成为许多应用(例如自主系统)的重要技术。因此,提出了针对单眼360深度估计的最新框架,例如Bifuse中的双预测融合。为了训练这样的框架,需要大量全景以及激光传感器捕获的相应深度地面真相,这极大地增加了数据收集成本。此外,由于这样的数据收集过程是耗时的,因此将这些方法扩展到不同场景的可扩展性成为一个挑战。为此,从360个视频中进行单眼深度估计网络的自我培训是减轻此问题的一种方法。但是,没有现有的框架将双投射融合融合到自我训练方案中,这极大地限制了自我监督的性能,因为Bi-Prodoction Fusion可以利用来自不同投影类型的信息。在本文中,我们建议Bifuse ++探索双投影融合和自我训练场景的组合。具体来说,我们提出了一个新的融合模块和对比度感知的光度损失,以提高Bifuse的性能并提高对现实世界视频的自我训练的稳定性。我们在基准数据集上进行了监督和自我监督的实验,并实现最先进的性能。
translated by 谷歌翻译
深度估计是近年来全景图像3D重建的关键步骤。 Panorama图像保持完整的空间信息,但与互联的投影引入失真。在本文中,我们提出了一种基于自适应组合扩张的卷积的ACDNet,以预测单眼地全景图像的密集深度图。具体地,我们将卷积核与不同的扩张相结合,以延长昼夜投影中的接收领域。同时,我们介绍了一个自适应渠道 - 明智的融合模块,总结了特征图,并在频道的接收领域中获得不同的关注区域。由于利用通道的注意力构建自适应通道 - 明智融合模块,网络可以有效地捕获和利用跨通道上下文信息。最后,我们对三个数据集(虚拟和现实世界)进行深度估计实验,实验结果表明,我们所提出的ACDNET基本上优于当前的最先进(SOTA)方法。我们的代码和模型参数在https://github.com/zcq15/acdnet中访问。
translated by 谷歌翻译
360 {\ DEG}相机可以在单次拍摄中捕获完整的环境,这使得在许多计算机视觉任务中制作360 {\ DEG}图像诱人。然而,单眼深度估计仍然是360 {\ DEG}数据的挑战,特别是对于2K(2048 $ \倍1024美元)的高分辨率,这对于新颖的综合和虚拟现实应用很重要。基于CNN的基于CNN的方法不支持由于GPU存储器有限而导致的这种高分辨率。在这项工作中,我们提出了一种灵活的框架,用于使用切线图像的高分辨率360 {\ DEG}图像的单眼深度估计框架。我们将360 {\ DEG}输入图像投影到一组切线,产生透视图,这适用于最新,最准确的最先进的透视单眼深度估计器。我们使用可变形的多尺度对准再次重新组合各个深度估计,然后通过梯度域混合来提高视差估计的一致性。结果是具有高细节水平的密集,高分辨率360 {\ DEG}深度图,也适用于现有方法不支持的户外场景。
translated by 谷歌翻译
现有的全景深度估计方法基于卷积神经网络(CNN)的重点是消除全景畸变,由于CNN中的固定接受场而无法有效地感知全景结构。本文提出了全景变压器(名为PanoFormer),以估计全景图像中的深度,并带有球形域,可学习的令牌流和全景特定指标的切线斑块。特别是,我们将球形切线结构域上的斑块划分为令牌,以减少全景畸变的负面影响。由于几何结构对于深度估计是必不可少的,因此自我发项式模块通过额外的可学习令牌流重新设计。此外,考虑到球形域的特征,我们提出了两个全景特异性指标,以全面评估全景深度估计模型的性能。广泛的实验表明,我们的方法显着优于最先进的方法(SOTA)方法。此外,可以有效地扩展提出的方法以求解语义全景分割,这是类似的Pixel2像素任务。代码将可用。
translated by 谷歌翻译
对于单眼360图像,深度估计是一个具有挑战性的,因为失真沿纬度增加。为了感知失真,现有方法致力于设计深层且复杂的网络体系结构。在本文中,我们提供了一种新的观点,该视角为360图像构建了可解释且稀疏的表示形式。考虑到几何结构在深度估计中的重要性,我们利用Contourlet变换来捕获光谱域中的显式几何提示,并将其与空间域中的隐含提示集成在一起。具体而言,我们提出了一个由卷积神经网络和Contourlet变换分支组成的神经轮廓网络。在编码器阶段,我们设计了一个空间光谱融合模块,以有效融合两种类型的提示。与编码器相反,我们采用了逆向方形变换,并通过学习的低通子带和带通道的定向子带来构成解码器中的深度。在三个流行的全景图像数据集上进行的实验表明,所提出的方法的表现优于最先进的方案,其收敛速度更快。代码可在https://github.com/zhijieshen-bjtu/neural-contourlet-network-for-mode上找到。
translated by 谷歌翻译
深度估计是3D重建的具有挑战性的任务,以提高环境意识的准确性感测。这项工作带来了一系列改进的新解决方案,与现有方法相比,增加了一系列改进,这增加了对深度图的定量和定性理解。最近,卷积神经网络(CNN)展示了估计单眼图象的深度图的非凡能力。然而,传统的CNN不支持拓扑结构,它们只能在具有确定尺寸和重量的常规图像区域上工作。另一方面,图形卷积网络(GCN)可以处理非欧几里德数据的卷积,并且它可以应用于拓扑结构内的不规则图像区域。因此,在这项工作中为了保护对象几何外观和分布,我们的目的是利用GCN进行自我监督的深度估计模型。我们的模型包括两个并行自动编码器网络:第一个是一个自动编码器,它取决于Reset-50,并从输入图像和多尺度GCN上提取功能以估计深度图。反过来,第二网络将用于基于Reset-18的两个连续帧之间估计自我运动矢量(即3D姿势)。估计的3D姿势和深度图都将用于构建目标图像。使用与光度,投影和平滑度相关的损耗函数的组合用于应对不良深度预测,并保持对象的不连续性。特别是,我们的方法提供了可比性和有前途的结果,在公共基准和Make3D数据集中的高预测精度为89%,与最先进的解决方案相比,培训参数的数量减少了40%。源代码在https://github.com/arminmasoumian/gcndepth.git上公开可用
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
Existing learning-based multi-view stereo (MVS) methods rely on the depth range to build the 3D cost volume and may fail when the range is too large or unreliable. To address this problem, we propose a disparity-based MVS method based on the epipolar disparity flow (E-flow), called DispMVS, which infers the depth information from the pixel movement between two views. The core of DispMVS is to construct a 2D cost volume on the image plane along the epipolar line between each pair (between the reference image and several source images) for pixel matching and fuse uncountable depths triangulated from each pair by multi-view geometry to ensure multi-view consistency. To be robust, DispMVS starts from a randomly initialized depth map and iteratively refines the depth map with the help of the coarse-to-fine strategy. Experiments on DTUMVS and Tanks\&Temple datasets show that DispMVS is not sensitive to the depth range and achieves state-of-the-art results with lower GPU memory.
translated by 谷歌翻译
球形摄像机以整体方式捕获场景,并已用于房间布局估计。最近,随着适当数据集的可用性,从单个全向图像中的深度估计也取得了进展。尽管这两个任务是互补的,但很少有作品能够并行探索它们以提高室内几何感知,而那些这样做的人则依靠合成数据或使用过的小型数据集,因为很少有选项可供选择,包括两个布局。在真实场景中的注释和密集的深度图。这部分是由于需要对房间布局进行手动注释。在这项工作中,我们超越了此限制,并生成360几何视觉(360V)数据集,该数据集包括多种模式,多视图立体声数据并自动生成弱布局提示。我们还探索了两个任务之间的明确耦合,以将它们集成到经过单打的训练模型中。我们依靠基于深度的布局重建和基于布局的深度注意,这表明了两项任务的性能提高。通过使用单个360摄像机扫描房间,出现了便利和快速建筑规模3D扫描的机会。
translated by 谷歌翻译
尽管在过去几年中取得了重大进展,但使用单眼图像进行深度估计仍然存在挑战。首先,训练度量深度预测模型的训练是不算气的,该预测模型可以很好地推广到主要由于训练数据有限的不同场景。因此,研究人员建立了大规模的相对深度数据集,这些数据集更容易收集。但是,由于使用相对深度数据训练引起的深度转移,现有的相对深度估计模型通常无法恢复准确的3D场景形状。我们在此处解决此问题,并尝试通过对大规模相对深度数据进行训练并估算深度转移来估计现场形状。为此,我们提出了一个两阶段的框架,该框架首先将深度预测到未知量表并从单眼图像转移,然后利用3D点云数据来预测深度​​移位和相机的焦距,使我们能够恢复恢复3D场景形状。由于两个模块是单独训练的,因此我们不需要严格配对的培训数据。此外,我们提出了图像级的归一化回归损失和基于正常的几何损失,以通过相对深度注释来改善训练。我们在九个看不见的数据集上测试我们的深度模型,并在零拍摄评估上实现最先进的性能。代码可用:https://git.io/depth
translated by 谷歌翻译
Monocular depth estimation can play an important role in addressing the issue of deriving scene geometry from 2D images. It has been used in a variety of industries, including robots, self-driving cars, scene comprehension, 3D reconstructions, and others. The goal of our method is to create a lightweight machine-learning model in order to predict the depth value of each pixel given only a single RGB image as input with the Unet structure of the image segmentation network. We use the NYU Depth V2 dataset to test the structure and compare the result with other methods. The proposed method achieves relatively high accuracy and low rootmean-square error.
translated by 谷歌翻译
深度估计的自我监督学习在图像序列中使用几何体进行监督,并显示有前途的结果。与许多计算机视觉任务一样,深度网络性能是通过从图像中学习准确的空间和语义表示的能力来确定。因此,利用用于深度估计的语义分割网络是自然的。在这项工作中,基于一个发达的语义分割网络HRNET,我们提出了一种新颖的深度估计网络差异,可以利用下式采样过程和上采样过程。通过应用特征融合和注意机制,我们所提出的方法优于基准基准测试的最先进的单眼深度估计方法。我们的方法还展示了更高分辨率培训数据的潜力。我们通过建立一个挑战性案件的测试集,提出了一个额外的扩展评估策略,经验从标准基准源于标准基准。
translated by 谷歌翻译
自我监督的学习已经为单眼深度估计显示出非常有希望的结果。场景结构和本地细节都是高质量深度估计的重要线索。最近的作品遭受了场景结构的明确建模,并正确处理细节信息,这导致了预测结果中的性能瓶颈和模糊人工制品。在本文中,我们提出了具有两个有效贡献的通道 - 明智的深度估计网络(Cadepth-Net):1)结构感知模块采用自我关注机制来捕获远程依赖性并聚合在信道中的识别特征尺寸,明确增强了场景结构的感知,获得了更好的场景理解和丰富的特征表示。 2)细节强调模块重新校准通道 - 方向特征映射,并选择性地强调信息性功能,旨在更有效地突出至关重要的本地细节信息和熔断器不同的级别功能,从而更精确,更锐化深度预测。此外,广泛的实验验证了我们方法的有效性,并表明我们的模型在基蒂基准和Make3D数据集中实现了最先进的结果。
translated by 谷歌翻译
Monocular depth prediction plays a crucial role in understanding 3D scene geometry. Although recent methods have achieved impressive progress in evaluation metrics such as the pixel-wise relative error, most methods neglect the geometric constraints in the 3D space. In this work, we show the importance of the high-order 3D geometric constraints for depth prediction. By designing a loss term that enforces one simple type of geometric constraints, namely, virtual normal directions determined by randomly sampled three points in the reconstructed 3D space, we can considerably improve the depth prediction accuracy. Significantly, the byproduct of this predicted depth being sufficiently accurate is that we are now able to recover good 3D structures of the scene such as the point cloud and surface normal directly from the depth, eliminating the necessity of training new sub-models as was previously done. Experiments on two benchmarks: NYU Depth-V2 and KITTI demonstrate the effectiveness of our method and state-of-the-art performance.
translated by 谷歌翻译
360 {\ Deg}成像最近遭受了很大的关注;然而,其角度分辨率比窄视野(FOV)透视图像相对较低,因为它通过使用具有相同传感器尺寸的鱼眼透镜而被捕获。因此,它有利于超声解析360 {\ DEG}图像。已经制造了一些尝试,但大多数是常规的投影(ERP),尽管尽管存在纬度依赖性失真,但仍然是360 {\ DEG}图像表示的方式之一。在这种情况下,随着输出高分辨率(HR)图像始终处于与低分辨率(LR)输入相同的ERP格式,当将HR图像转换为其他投影类型时可能发生另一信息丢失。在本文中,我们提出了从LR 360 {\ Deg}图像产生连续球面图像表示的新颖框架,旨在通过任意360 {\ deg}预测给定球形坐标处的RGB值。图像投影。具体地,我们首先提出了一种特征提取模块,该特征提取模块表示基于IcosaheDron的球面数据,并有效地提取球面上的特征。然后,我们提出了一种球形本地隐式图像功能(SLIIF)来预测球形坐标处的RGB值。这样,Spheresr在任意投影型下灵活地重建HR图像。各种基准数据集的实验表明,我们的方法显着超越了现有方法。
translated by 谷歌翻译
由于他们越来越多的可负担性,可移植性和360 {\ DEG}视野,全向360 {\ DEG}图像在计算机视觉,机器人和其他领域找到了许多有希望和激动人心的应用。用于存储,处理和可视化360 {\ DEG}图像的最常用格式是互连的投影(ERP)。然而,由360 {\ DEG}图像引入的非线性映射引入到ERP图像的失真仍然是一种屏障,其容纳作为传统透视图像的易于用作易用的屏障。当估计360 {\ DEG}光流时,这尤其相关,因为需要适当地减去失真。在本文中,我们提出了一种基于切线图像的360 {\ DEG}光学流量。我们的方法利用GNOMONIC投影将ERP图像局部转换为透视图像,并且通过投影将ERP图像均匀地对准CUBEMAP和常规ICOSAHEDRON顶点来逐步地进行逐步改进估计的360 {\ DEG}流场。我们的实验表明了我们所提出的方法的益处,这些方法都是定量和定性的。
translated by 谷歌翻译
尽管现有的单眼深度估计方法取得了长足的进步,但由于网络的建模能力有限和规模歧义问题,预测单个图像的准确绝对深度图仍然具有挑战性。在本文中,我们介绍了一个完全视觉上的基于注意力的深度(Vadepth)网络,在该网络中,将空间注意力和通道注意都应用于所有阶段。通过在远距离沿空间和通道维度沿空间和通道维度的特征的依赖关系连续提取,Vadepth网络可以有效地保留重要的细节并抑制干扰特征,以更好地感知场景结构,以获得更准确的深度估计。此外,我们利用几何先验来形成规模约束,以进行比例感知模型培训。具体而言,我们使用摄像机和由地面点拟合的平面之间的距离构建了一种新颖的规模感知损失,该平面与图像底部中间的矩形区域的像素相对应。 Kitti数据集的实验结果表明,该体系结构达到了最新性能,我们的方法可以直接输出绝对深度而无需后处理。此外,我们在Seasondepth数据集上的实验还证明了我们模型对多个看不见的环境的鲁棒性。
translated by 谷歌翻译
We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.
translated by 谷歌翻译
精确地重建由单个图像的各种姿势和服装引起的精确复杂的人类几何形状非常具有挑战性。最近,基于像素对齐的隐式函数(PIFU)的作品已迈出了一步,并在基于图像的3D人数数字化上实现了最先进的保真度。但是,PIFU的培训在很大程度上取决于昂贵且有限的3D地面真相数据(即合成数据),从而阻碍了其对更多样化的现实世界图像的概括。在这项工作中,我们提出了一个名为selfpifu的端到端自我监督的网络,以利用丰富和多样化的野外图像,在对无约束的内部图像进行测试时,在很大程度上改善了重建。 SelfPifu的核心是深度引导的体积/表面感知的签名距离领域(SDF)学习,它可以自欺欺人地学习PIFU,而无需访问GT网格。整个框架由普通估计器,深度估计器和基于SDF的PIFU组成,并在训练过程中更好地利用了额外的深度GT。广泛的实验证明了我们自我监督框架的有效性以及使用深度作为输入的优越性。在合成数据上,与PIFUHD相比,我们的交叉点(IOU)达到93.5%,高18%。对于野外图像,我们对重建结果进行用户研究,与其他最先进的方法相比,我们的结果的选择率超过68%。
translated by 谷歌翻译