深度学习对多视图立体声系统产生了重大影响。最先进的方法通常涉及构建成本量,然后是多个3D卷积操作来恢复输入图像的像素方面深度。虽然这种平面扫描立体声的最终学习推进了公共基准的准确性,但它们通常很慢。我们展示了一个高效的多视图立体声算法,通过注意机制将多视图约束无缝地集成到单视网中。由于\ Ouralg仅在2D卷积上建立,它比所有值得注意的对应物更快2美元。此外,我们的算法产生精确的深度估计和3D重建,实现最先进的结果,以具有挑战性的基准剪刀,Sun3D,RGBD和古典DTU数据集。我们的算法还在Inexact相机姿势的设置中进行了所有其他算法。我们的代码在\ url {https:/github.com/zhenpeiyang/mvs2d}释放
translated by 谷歌翻译
We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.
translated by 谷歌翻译
In this paper, we present a learning-based approach for multi-view stereo (MVS), i.e., estimate the depth map of a reference frame using posed multi-view images. Our core idea lies in leveraging a "learning-to-optimize" paradigm to iteratively index a plane-sweeping cost volume and regress the depth map via a convolutional Gated Recurrent Unit (GRU). Since the cost volume plays a paramount role in encoding the multi-view geometry, we aim to improve its construction both in pixel- and frame- levels. In the pixel level, we propose to break the symmetry of the Siamese network (which is typically used in MVS to extract image features) by introducing a transformer block to the reference image (but not to the source images). Such an asymmetric volume allows the network to extract global features from the reference image to predict its depth map. In view of the inaccuracy of poses between reference and source images, we propose to incorporate a residual pose network to make corrections to the relative poses, which essentially rectifies the cost volume in the frame-level. We conduct extensive experiments on real-world MVS datasets and show that our method achieves state-of-the-art performance in terms of both within-dataset evaluation and cross-dataset generalization.
translated by 谷歌翻译
多视图立体声(MVS)是精确三维重建的重要任务。最近的研究试图通过设计聚合的3D成本卷及其正则化来提高MV中匹配成本体积的性能。本文侧重于学习强大的特征提取网络,以增强匹配成本的性能,在其他步骤中没有重大计算。特别是,我们提出了一种动态刻度特征提取网络,即CDSFNET。它由多个新颖的卷积层组成,每个卷积层可以为由图像表面的法线曲率指导的每个像素选择适当的补丁比例。因此,CDFSNet可以估计最佳补丁尺度,以学习参考和源图像之间准确匹配计算的判别特征。通过将具有适当成本制定策略的强大提取功能组合,我们的MVS架构可以更精确地估计深度映射。广泛的实验表明,该方法在复杂的户外场景中优于其他最先进的方法。它显着提高了重建模型的完整性。结果,该方法可以在比其他MVS方法更快的运行时间和更低的内存中处理更高的分辨率输入。我们的源代码可用于URL {https:/github.com/truongkhang/cds-mvsnet}。
translated by 谷歌翻译
在本文中,我们基于我们对多视图立体声(MVS)中的特征匹配的探索来呈现TransVSNet。我们将MVS模拟返回其特征匹配任务的性质,因此提出了一个强大的功能匹配变换器(FMT),以利用(自我)和(交叉)关注(交叉)在图像内和跨越图像中聚合的长程上下文信息。为了便于更好地调整FMT,我们利用自适应接收领域(ARF)模块,以确保在特征范围内平滑过境,并使用特征途径桥接不同阶段,以通过不同尺度的转换特征和梯度。此外,我们应用配对特征相关性以测量特征之间的相似性,并采用歧义降低焦损,以加强监管。据我们所知,TransmVSNet首次尝试将变压器利用到MV的任务。因此,我们的方法在DTU数据集,坦克和寺庙基准测试和BlendedMVS数据集中实现了最先进的性能。我们的方法代码将在https://github.com/megviirobot/transmvsnet中提供。
translated by 谷歌翻译
传统上,来自摆姿势的图像的3D室内场景重建分为两个阶段:人均深度估计,然后进行深度合并和表面重建。最近,出现了一个直接在最终3D体积特征空间中进行重建的方法家族。尽管这些方法显示出令人印象深刻的重建结果,但它们依赖于昂贵的3D卷积层,从而限制了其在资源受限环境中的应用。在这项工作中,我们回到了传统的路线,并展示着专注于高质量的多视图深度预测如何使用简单的现成深度融合来高度准确的3D重建。我们提出了一个简单的最先进的多视图深度估计器,其中有两个主要贡献:1)精心设计的2D CNN,该2D CNN利用强大的图像先验以及平面扫描特征量和几何损失,并结合2)将密钥帧和几何元数据集成到成本量中,这允许知情的深度平面评分。我们的方法在当前的最新估计中获得了重要的领先优势,以进行深度估计,并在扫描仪和7个镜头上进行3D重建,但仍允许在线实时实时低音重建。代码,模型和结果可在https://nianticlabs.github.io/simplerecon上找到
translated by 谷歌翻译
在本文中,我们串联串联一个实时单手抄语和密集的测绘框架。对于姿势估计,串联基于关键帧的滑动窗口执行光度束调整。为了增加稳健性,我们提出了一种新颖的跟踪前端,使用从全局模型中呈现的深度图来执行密集的直接图像对齐,该模型从密集的深度预测逐渐构建。为了预测密集的深度映射,我们提出了通过分层构造具有自适应视图聚合的3D成本卷来平衡关键帧之间的不同立体声基线的3D成本卷来使用整个活动密钥帧窗口的级联视图 - 聚合MVSNet(CVA-MVSNET)。最后,将预测的深度映射融合到表示为截短的符号距离函数(TSDF)体素网格的一致的全局映射中。我们的实验结果表明,在相机跟踪方面,串联优于其他最先进的传统和学习的单眼视觉径管(VO)方法。此外,串联示出了最先进的实时3D重建性能。
translated by 谷歌翻译
我们展示了MVLayoutNet,是来自多视图全景的整体三维重建端到端网络。我们的核心贡献是无缝地将学习的单目布局估计和多视图立体声(MV)结合起来,以便在3D和图像空间中准确地重建。我们共同列出布局模块以产生初始布局和新型MVS模块,以获得精确的布局几何形状。与标准MVSNET [33]不同,我们的MVS模块采用新建的布局成本卷,其在相同的深度层中聚合到相应的布局元件中的多视图成本。我们还提供了一种基于注意的方案,指导MVS模块专注于结构区域。这种设计考虑了本地像素级成本和全球整体信息,以便更好地重建。实验表明,我们的方法在2D-3D-S [1]和Zind [5]数据集中,在深度RMSE方面以21.7%和20.6%表示最先进的。最后,我们的方法导致连贯的布局几何,使整个场景的重建能够。
translated by 谷歌翻译
We present a unified formulation and model for three motion and 3D perception tasks: optical flow, rectified stereo matching and unrectified stereo depth estimation from posed images. Unlike previous specialized architectures for each specific task, we formulate all three tasks as a unified dense correspondence matching problem, which can be solved with a single model by directly comparing feature similarities. Such a formulation calls for discriminative feature representations, which we achieve using a Transformer, in particular the cross-attention mechanism. We demonstrate that cross-attention enables integration of knowledge from another image via cross-view interactions, which greatly improves the quality of the extracted features. Our unified model naturally enables cross-task transfer since the model architecture and parameters are shared across tasks. We outperform RAFT with our unified model on the challenging Sintel dataset, and our final model that uses a few additional task-specific refinement steps outperforms or compares favorably to recent state-of-the-art methods on 10 popular flow, stereo and depth datasets, while being simpler and more efficient in terms of model design and inference speed.
translated by 谷歌翻译
在不同观点之间找到准确的对应关系是无监督的多视图立体声(MVS)的跟腱。现有方法是基于以下假设:相应的像素具有相似的光度特征。但是,在实际场景中,多视图图像观察到非斜面的表面和经验遮挡。在这项工作中,我们提出了一种新颖的方法,即神经渲染(RC-MVSNET),以解决观点之间对应关系的歧义问题。具体而言,我们施加了一个深度渲染一致性损失,以限制靠近对象表面的几何特征以减轻遮挡。同时,我们引入了参考视图综合损失,以产生一致的监督,即使是针对非兰伯特表面。关于DTU和TANKS \&Temples基准测试的广泛实验表明,我们的RC-MVSNET方法在无监督的MVS框架上实现了最先进的性能,并对许多有监督的方法进行了竞争性能。该代码在https://github.com/上发布。 BOESE0601/RC-MVSNET
translated by 谷歌翻译
多视图深度估计方法通常需要计算多视图成本体积,这导致巨大的内存消耗和慢速推断。此外,多视图匹配可以失败,对于纹理的表面,反射表面和移动物体。对于这种故障模式,单视深度估计方法通常更可靠。为此,我们提出磁铁,这是一种用多视图几何熔断单视图深度概率的新颖框架,以提高多视图深度估计的精度,稳健性和效率。对于每个帧,磁体估计单视深度概率分布,参数化为像素 - WISE高斯。然后使用对参考帧估计的分布用于对每个像素深度候选进行采样。这种概率采样使网络能够在评估更少的深度候选时获得更高的准确性。我们还提出了对多视图匹配分数的深度一致性加权,以确保多视图深度与单视图预测一致。该方法在SCANNET,7场景和基提上实现了最先进的性能。定性评估表明,我们的方法对抗诸如纹理/反射表面和移动物体的挑战性伪影更加稳健。
translated by 谷歌翻译
我们呈现ITEMVS,一种用于高分辨率多视图立体声的新数据驱动方法。我们提出了一种基于GRU的基于GRU的估计器,其在其隐藏状态下编码深度的像素明显概率分布。摄入多尺度匹配信息,我们的模型将这些分布物流在多个迭代和Infers深度和信心上。要提取深度图,我们以新颖的方式结合传统的分类和回归。我们验证了我们对DTU,坦克和寺庙和ETH3D的方法的效率和有效性。虽然成为内存和运行时最有效的方法,但我们的模型在DTU和坦克和寺庙的更好的泛化能力方面取得了竞争性能,以及Eth3D而不是最先进的方法。代码可在https://github.com/fangjinhuawang/Itermvs获得。
translated by 谷歌翻译
本文提出了一种网络,称为MVSTR,用于多视图立体声(MV)。它建在变压器上,并能够用全局上下文和3D一致性提取密集的功能,这对于实现MV的可靠匹配至关重要。具体地,为了解决现有的基于CNN的MVS方法的有限接收领域的问题,首先提出全局上下文变换器模块来探索视图内的全局上下文。另外,为了进一步实现致密功能,以3D一致,通过精心设计的巧妙机制构建了3D几何变压器模块,以便于观看互联信息交互。实验结果表明,建议的MVSTR在DTU数据集中实现了最佳的整体性能,并在坦克和寺庙基准数据集上的强大泛化。
translated by 谷歌翻译
基于图像的3D重建是计算机视觉中最重要的任务之一,在过去的几十年中提出了许多解决方案。目的是从图像直接提取场景对象的几何形状。然后可以将它们用于广泛的应用程序,例如电影,游戏,虚拟现实等。最近,已经提出了深度学习技术来解决这个问题。他们依靠对大量数据进行培训,以学会通过深层卷积神经网络在图像之间关联特征,并已被证明超过了传统的程序技术。在本文中,我们通过合并4D相关量来改进[11]的最新两视频结构(SFM)方法,以进行更准确的特征匹配和重建。此外,我们将其扩展到一般的多视图案例,并在复杂的基准数据集DTU [4]上对其进行评估。定量评估和与最先进的多视图3D重建方法的比较证明了其在重建的准确性方面的优势。
translated by 谷歌翻译
我们提出了一个有效的多视角立体声(MVS)网络,用于从多个RGB图像中推断深度值。最近的研究表明,将实际空间中的几何关系映射到神经网络是MVS问题的重要主题。具体而言,这些方法着重于如何通过构造出色的成本量来表达不同视图之间的对应关系。在本文中,我们提出了一种基于吸收先前经验的更完整的成本量构建方法。首先,我们介绍了自我发挥的机制,以完全汇总输入图像的主导信息,并准确地对远程依赖性进行建模,以选择性地汇总参考特征。其次,我们将小组相关性引入特征聚合,从而大大减轻了记忆和计算负担。同时,此方法增强了不同特征通道之间的信息相互作用。通过这种方法,构建了更轻巧,更有效的成本量。最后,我们遵循粗略的策略,并借助不确定性估计,根据规模完善深度采样范围。我们进一步结合了以前的步骤,以获取注意力较薄。提出了定量和定性实验,以证明我们的模型的性能。
translated by 谷歌翻译
Existing learning-based multi-view stereo (MVS) methods rely on the depth range to build the 3D cost volume and may fail when the range is too large or unreliable. To address this problem, we propose a disparity-based MVS method based on the epipolar disparity flow (E-flow), called DispMVS, which infers the depth information from the pixel movement between two views. The core of DispMVS is to construct a 2D cost volume on the image plane along the epipolar line between each pair (between the reference image and several source images) for pixel matching and fuse uncountable depths triangulated from each pair by multi-view geometry to ensure multi-view consistency. To be robust, DispMVS starts from a randomly initialized depth map and iteratively refines the depth map with the help of the coarse-to-fine strategy. Experiments on DTUMVS and Tanks\&Temple datasets show that DispMVS is not sensitive to the depth range and achieves state-of-the-art results with lower GPU memory.
translated by 谷歌翻译
这些年来,展示技术已经发展。开发实用的HDR捕获,处理和显示解决方案以将3D技术提升到一个新的水平至关重要。多曝光立体声图像序列的深度估计是开发成本效益3D HDR视频内容的重要任务。在本文中,我们开发了一种新颖的深度体系结构,以进行多曝光立体声深度估计。拟议的建筑有两个新颖的组成部分。首先,对传统立体声深度估计中使用的立体声匹配技术进行了修改。对于我们体系结构的立体深度估计部分,部署了单一到stereo转移学习方法。拟议的配方规避了成本量构造的要求,该要求由基于重新编码的单码编码器CNN取代,具有不同的重量以进行功能融合。基于有效网络的块用于学习差异。其次,我们使用强大的视差特征融合方法组合了从不同暴露水平上从立体声图像获得的差异图。使用针对不同质量度量计算的重量图合并在不同暴露下获得的差异图。获得的最终预测差异图更强大,并保留保留深度不连续性的最佳功能。提出的CNN具有使用标准动态范围立体声数据或具有多曝光低动态范围立体序列的训练的灵活性。在性能方面,所提出的模型超过了最新的单眼和立体声深度估计方法,无论是定量还是质量地,在具有挑战性的场景流以及暴露的Middlebury立体声数据集上。该体系结构在复杂的自然场景中表现出色,证明了其对不同3D HDR应用的有用性。
translated by 谷歌翻译
除了学习基于外观的特征外,多框架深度估计还通过特征匹配利用图像之间的几何关系来改善单帧方法。在本文中,我们重新访问了与自我监督的单眼深度估计的匹配,并提出了一种新颖的变压器体系结构,以生成成本量。我们使用深度污染的表现采样来选择匹配的候选者,并通过一系列自我和跨注意层来完善预测。这些层增强了像素特征之间的匹配概率,改善了容易歧义和局部最小值的标准相似性指标。精制的成本量被解码为深度估计,整个管道仅使用光度目标从视频端到端训练。 Kitti和DDAD数据集的实验表明,我们的深度构建体在自我监督的单眼估计中建立了新的最新技术,甚至具有高度专业的监督单帧体系结构竞争。我们还表明,我们学到的跨意义网络产生可以在数据集中转移的表示形式,从而提高了训练策略的有效性。项目页面:https://sites.google.com/tri.global/depthformer
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
我们呈现3DVNET,一种新型多视图立体声(MVS)深度预测方法,该方法结合了基于深度和体积的MVS方法的优点。我们的关键思想是使用3D场景建模网络,可迭代地更新一组粗略深度预测,从而产生高度准确的预测,它达成底层场景几何形状。与现有的深度预测技术不同,我们的方法使用体积3D卷积神经网络(CNN),该网络(CNN)在所有深度图中共同地在世界空间上运行。因此,网络可以学习有意义的场景级别。此外,与现有的体积MVS技术不同,我们的3D CNN在特征增强点云上运行,允许有效地聚合多视图信息和灵活的深度映射的迭代细化。实验结果表明,我们的方法超过了Scannet DataSet的深度预测和3D重建度量的最先进的准确性,以及来自Tum-RGBD和ICL-Nuim数据集的一系列场景。这表明我们的方法既有效又推广到新设置。
translated by 谷歌翻译