We propose a novel approach for deep learning-based Multi-View Stereo (MVS). For each pixel in the reference image, our method leverages a deep architecture to search for the corresponding point in the source image directly along the corresponding epipolar line. We denote our method DELS-MVS: Deep Epipolar Line Search Multi-View Stereo. Previous works in deep MVS select a range of interest within the depth space, discretize it, and sample the epipolar line according to the resulting depth values: this can result in an uneven scanning of the epipolar line, hence of the image space. Instead, our method works directly on the epipolar line: this guarantees an even scanning of the image space and avoids both the need to select a depth range of interest, which is often not known a priori and can vary dramatically from scene to scene, and the need for a suitable discretization of the depth space. In fact, our search is iterative, which avoids the building of a cost volume, costly both to store and to process. Finally, our method performs a robust geometry-aware fusion of the estimated depth maps, leveraging a confidence predicted alongside each depth. We test DELS-MVS on the ETH3D, Tanks and Temples and DTU benchmarks and achieve competitive results with respect to state-of-the-art approaches.
translated by 谷歌翻译
我们提出了一种基于深度学习的基于深度学习的多视图立体声方法。我们的方法通过以二进制决策方式遍历每个像素处的可行深度值的连续空间来估计高分辨率和高度精确的深度映射。决策过程利用了深网络架构:这计算了一个像素的二进制掩模,该屏蔽建立每个像素实际深度是否在其当前迭代单独深度假设的前面或后面。此外,为了处理闭塞区域,在每次迭代时,使用由第二网络估计的像素重量融合不同源图像的结果。由于采用的二元决策策略,这允许有效探索深度空间,我们的方法可以在不交易分辨率和精度的情况下处理高分辨率图像。这使其与大多数基于学习的多视图立体声方法相比,深度空间的明确离散化需要处理大的成本卷。我们将我们的方法与DTU,坦克和寺庙的最先进的多视图立体声方法进行比较,以及具有挑战性的Eth3D基准测试,并表现出竞争力的结果。
translated by 谷歌翻译
我们呈现ITEMVS,一种用于高分辨率多视图立体声的新数据驱动方法。我们提出了一种基于GRU的基于GRU的估计器,其在其隐藏状态下编码深度的像素明显概率分布。摄入多尺度匹配信息,我们的模型将这些分布物流在多个迭代和Infers深度和信心上。要提取深度图,我们以新颖的方式结合传统的分类和回归。我们验证了我们对DTU,坦克和寺庙和ETH3D的方法的效率和有效性。虽然成为内存和运行时最有效的方法,但我们的模型在DTU和坦克和寺庙的更好的泛化能力方面取得了竞争性能,以及Eth3D而不是最先进的方法。代码可在https://github.com/fangjinhuawang/Itermvs获得。
translated by 谷歌翻译
具有已知相机参数的多视图立体声(MVS)基本上是有效深度范围内的1D搜索问题。最近的基于深度学习的MVS方法通常在深度范围内密集地样本深度假设,然后构造对深度预测的预测存储器消耗的3D成本卷。虽然粗细的抽样策略在一定程度上缓解了这个开销问题,但MVS的效率仍然是一个开放的挑战。在这项工作中,我们提出了一种用于高效MV的新方法,其显着降低了内存足迹,同时明显推进最先进的深度预测性能。考虑到效率和有效性,我们调查搜索策略可以合理地最佳地最佳。我们首先将MVS制定为二进制搜索问题,因此提出了用于MV的广义二进制搜索网络。具体地,在每个步骤中,深度范围被分成2个箱,两侧具有额外的1个误差容差箱。执行分类以确定哪个箱包含真实深度。我们还将三种机制分别设计为分别处理分类错误,处理超出范围的样本并降低培训记忆。新配方使我们的方法仅在每个步骤中示出非常少量的深度假设,这是高度记忆效率,并且还极大地促进了快速训练收敛。竞争力基准的实验表明,我们的方法达到了最先进的准确性,内存要少得多。特别是,我们的方法在DTU数据集中获得0.289的总分,并在所有基于学习的方法中排列在具有挑战性的坦克和寺庙高级数据集上的第一名。训练有素的型号和代码将在https://github.com/mizhenxing/gbi-net发布。
translated by 谷歌翻译
在简单的数据集中,在简单的数据集中开发和广泛地进行了深度多视图立体声(MVS)方法,在那里他们现在优于经典方法。在本文中,我们询问控制方案中达到的结论是否仍然有效,在使用互联网照片集合时仍然有效。我们提出了一种评估方法,探讨了深度MVS方法的三个方面的影响:网络架构,培训数据和监督。我们进行了几个关键观察,我们广泛地定量和定性地验证,无论是深度预测和完整的3D重建。首先,复杂的无监督方法无法在野外训练数据。我们的新方法使三个关键要素成为可能:上采样输出,基于Softmin的聚合和单一的重建损失。其次,监督基于深度堤map的MVS方法是用于重建几个互联网图像的最新技术。最后,我们的评估提供了比通常的结果非常不同。这表明在不受控制的方案中的评估对于新架构很重要。
translated by 谷歌翻译
We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.
translated by 谷歌翻译
In this paper, we present a learning-based approach for multi-view stereo (MVS), i.e., estimate the depth map of a reference frame using posed multi-view images. Our core idea lies in leveraging a "learning-to-optimize" paradigm to iteratively index a plane-sweeping cost volume and regress the depth map via a convolutional Gated Recurrent Unit (GRU). Since the cost volume plays a paramount role in encoding the multi-view geometry, we aim to improve its construction both in pixel- and frame- levels. In the pixel level, we propose to break the symmetry of the Siamese network (which is typically used in MVS to extract image features) by introducing a transformer block to the reference image (but not to the source images). Such an asymmetric volume allows the network to extract global features from the reference image to predict its depth map. In view of the inaccuracy of poses between reference and source images, we propose to incorporate a residual pose network to make corrections to the relative poses, which essentially rectifies the cost volume in the frame-level. We conduct extensive experiments on real-world MVS datasets and show that our method achieves state-of-the-art performance in terms of both within-dataset evaluation and cross-dataset generalization.
translated by 谷歌翻译
在不同观点之间找到准确的对应关系是无监督的多视图立体声(MVS)的跟腱。现有方法是基于以下假设:相应的像素具有相似的光度特征。但是,在实际场景中,多视图图像观察到非斜面的表面和经验遮挡。在这项工作中,我们提出了一种新颖的方法,即神经渲染(RC-MVSNET),以解决观点之间对应关系的歧义问题。具体而言,我们施加了一个深度渲染一致性损失,以限制靠近对象表面的几何特征以减轻遮挡。同时,我们引入了参考视图综合损失,以产生一致的监督,即使是针对非兰伯特表面。关于DTU和TANKS \&Temples基准测试的广泛实验表明,我们的RC-MVSNET方法在无监督的MVS框架上实现了最先进的性能,并对许多有监督的方法进行了竞争性能。该代码在https://github.com/上发布。 BOESE0601/RC-MVSNET
translated by 谷歌翻译
Deep learning has recently demonstrated its excellent performance for multi-view stereo (MVS). However, one major limitation of current learned MVS approaches is the scalability: the memory-consuming cost volume regularization makes the learned MVS hard to be applied to highresolution scenes. In this paper, we introduce a scalable multi-view stereo framework based on the recurrent neural network. Instead of regularizing the entire 3D cost volume in one go, the proposed Recurrent Multi-view Stereo Network (R-MVSNet) sequentially regularizes the 2D cost maps along the depth direction via the gated recurrent unit (GRU). This reduces dramatically the memory consumption and makes high-resolution reconstruction feasible. We first show the state-of-the-art performance achieved by the proposed R-MVSNet on the recent MVS benchmarks. Then, we further demonstrate the scalability of the proposed method on several large-scale scenarios, where previous learned approaches often fail due to the memory constraint. Code is available at https://github.com/ YoYo000/MVSNet.
translated by 谷歌翻译
我们呈现3DVNET,一种新型多视图立体声(MVS)深度预测方法,该方法结合了基于深度和体积的MVS方法的优点。我们的关键思想是使用3D场景建模网络,可迭代地更新一组粗略深度预测,从而产生高度准确的预测,它达成底层场景几何形状。与现有的深度预测技术不同,我们的方法使用体积3D卷积神经网络(CNN),该网络(CNN)在所有深度图中共同地在世界空间上运行。因此,网络可以学习有意义的场景级别。此外,与现有的体积MVS技术不同,我们的3D CNN在特征增强点云上运行,允许有效地聚合多视图信息和灵活的深度映射的迭代细化。实验结果表明,我们的方法超过了Scannet DataSet的深度预测和3D重建度量的最先进的准确性,以及来自Tum-RGBD和ICL-Nuim数据集的一系列场景。这表明我们的方法既有效又推广到新设置。
translated by 谷歌翻译
多视图立体声(MVS)是精确三维重建的重要任务。最近的研究试图通过设计聚合的3D成本卷及其正则化来提高MV中匹配成本体积的性能。本文侧重于学习强大的特征提取网络,以增强匹配成本的性能,在其他步骤中没有重大计算。特别是,我们提出了一种动态刻度特征提取网络,即CDSFNET。它由多个新颖的卷积层组成,每个卷积层可以为由图像表面的法线曲率指导的每个像素选择适当的补丁比例。因此,CDFSNet可以估计最佳补丁尺度,以学习参考和源图像之间准确匹配计算的判别特征。通过将具有适当成本制定策略的强大提取功能组合,我们的MVS架构可以更精确地估计深度映射。广泛的实验表明,该方法在复杂的户外场景中优于其他最先进的方法。它显着提高了重建模型的完整性。结果,该方法可以在比其他MVS方法更快的运行时间和更低的内存中处理更高的分辨率输入。我们的源代码可用于URL {https:/github.com/truongkhang/cds-mvsnet}。
translated by 谷歌翻译
在本文中,我们基于我们对多视图立体声(MVS)中的特征匹配的探索来呈现TransVSNet。我们将MVS模拟返回其特征匹配任务的性质,因此提出了一个强大的功能匹配变换器(FMT),以利用(自我)和(交叉)关注(交叉)在图像内和跨越图像中聚合的长程上下文信息。为了便于更好地调整FMT,我们利用自适应接收领域(ARF)模块,以确保在特征范围内平滑过境,并使用特征途径桥接不同阶段,以通过不同尺度的转换特征和梯度。此外,我们应用配对特征相关性以测量特征之间的相似性,并采用歧义降低焦损,以加强监管。据我们所知,TransmVSNet首次尝试将变压器利用到MV的任务。因此,我们的方法在DTU数据集,坦克和寺庙基准测试和BlendedMVS数据集中实现了最先进的性能。我们的方法代码将在https://github.com/megviirobot/transmvsnet中提供。
translated by 谷歌翻译
Existing learning-based multi-view stereo (MVS) methods rely on the depth range to build the 3D cost volume and may fail when the range is too large or unreliable. To address this problem, we propose a disparity-based MVS method based on the epipolar disparity flow (E-flow), called DispMVS, which infers the depth information from the pixel movement between two views. The core of DispMVS is to construct a 2D cost volume on the image plane along the epipolar line between each pair (between the reference image and several source images) for pixel matching and fuse uncountable depths triangulated from each pair by multi-view geometry to ensure multi-view consistency. To be robust, DispMVS starts from a randomly initialized depth map and iteratively refines the depth map with the help of the coarse-to-fine strategy. Experiments on DTUMVS and Tanks\&Temple datasets show that DispMVS is not sensitive to the depth range and achieves state-of-the-art results with lower GPU memory.
translated by 谷歌翻译
Our long term goal is to use image-based depth completion to quickly create 3D models from sparse point clouds, e.g. from SfM or SLAM. Much progress has been made in depth completion. However, most current works assume well distributed samples of known depth, e.g. Lidar or random uniform sampling, and perform poorly on uneven samples, such as from keypoints, due to the large unsampled regions. To address this problem, we extend CSPN with multiscale prediction and a dilated kernel, leading to much better completion of keypoint-sampled depth. We also show that a model trained on NYUv2 creates surprisingly good point clouds on ETH3D by completing sparse SfM points.
translated by 谷歌翻译
最新的多视图深度估计方法是在深度视频或多视图立体设置中采用的。尽管设置不同,但这些方法在技术上是相似的:它们将多个源视图与关键视图相关联,以估算关键视图的深度图。在这项工作中,我们介绍了强大的多视图深度基准,该基准构建在一组公共数据集上,并允许在两个设置中对来自不同域的数据进行评估。我们评估了最近的方法,并发现跨领域的性能不平衡。此外,我们考虑了第三个设置,可以使用相机姿势,目的是用正确的尺度估算相应的深度图。我们表明,最近的方法不会在这种情况下跨数据集概括。这是因为它们的成本量输出不足。为了解决这一问题,我们介绍了多视图深度估计的强大MVD基线模型,该模型构建在现有组件上,但采用了新颖的规模增强程序。它可以应用于与目标数据无关的强大多视图深度估计。我们在https://github.com/lmb-freiburg/robustmvd上为建议的基准模型提供了代码。
translated by 谷歌翻译
我们提出了一个有效的多视角立体声(MVS)网络,用于从多个RGB图像中推断深度值。最近的研究表明,将实际空间中的几何关系映射到神经网络是MVS问题的重要主题。具体而言,这些方法着重于如何通过构造出色的成本量来表达不同视图之间的对应关系。在本文中,我们提出了一种基于吸收先前经验的更完整的成本量构建方法。首先,我们介绍了自我发挥的机制,以完全汇总输入图像的主导信息,并准确地对远程依赖性进行建模,以选择性地汇总参考特征。其次,我们将小组相关性引入特征聚合,从而大大减轻了记忆和计算负担。同时,此方法增强了不同特征通道之间的信息相互作用。通过这种方法,构建了更轻巧,更有效的成本量。最后,我们遵循粗略的策略,并借助不确定性估计,根据规模完善深度采样范围。我们进一步结合了以前的步骤,以获取注意力较薄。提出了定量和定性实验,以证明我们的模型的性能。
translated by 谷歌翻译
深度学习对多视图立体声系统产生了重大影响。最先进的方法通常涉及构建成本量,然后是多个3D卷积操作来恢复输入图像的像素方面深度。虽然这种平面扫描立体声的最终学习推进了公共基准的准确性,但它们通常很慢。我们展示了一个高效的多视图立体声算法,通过注意机制将多视图约束无缝地集成到单视网中。由于\ Ouralg仅在2D卷积上建立,它比所有值得注意的对应物更快2美元。此外,我们的算法产生精确的深度估计和3D重建,实现最先进的结果,以具有挑战性的基准剪刀,Sun3D,RGBD和古典DTU数据集。我们的算法还在Inexact相机姿势的设置中进行了所有其他算法。我们的代码在\ url {https:/github.com/zhenpeiyang/mvs2d}释放
translated by 谷歌翻译
使用FASS-MVS,我们提出了一种具有表面感知半全局匹配的快速多视图立体声的方法,其允许从UAV捕获的单眼航空视频数据中快速深度和正常地图估计。反过来,由FASS-MVS估计的数据促进在线3D映射,这意味着在获取或接收到图像数据时立即和递增地生成场景的3D地图。 FASS-MVS由分层处理方案组成,其中深度和正常数据以及相应的置信度分数以粗略的方式估计,允许有效地处理由倾斜图像所固有的大型场景深度低无人机。实际深度估计采用用于致密多图像匹配的平面扫描算法,以产生深度假设,通过表面感知半全局优化来提取实际深度图,从而减少了SGM的正平行偏压。给定估计的深度图,然后通过将深度图映射到点云中并计算狭窄的本地邻域内的普通向量来计算像素 - 方面正常信息。在彻底的定量和消融研究中,我们表明,由FASS-MV计算的3D信息的精度接近离线多视图立体声的最先进方法,误差甚至没有一个幅度而不是科麦。然而,同时,FASS-MVS的平均运行时间估计单个深度和正常地图的距离小于ColMAP的14%,允许在1-中执行全高清图像的在线和增量处理2 Hz。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
深度估计在现有的基于学习的多视图立体声方法中解决了作为回归或分类问题。虽然这两种表示最近展示了它们的优异性能,但它们仍然具有明显的缺点,例如,由于间接学习成本量,回归方法往往会过度装备,并且由于其离散预测而不能直接推断出精确深度的分类方法。在本文中,我们提出了一种新的代表性,称为统一,统一回归和分类的优势。它可以直接限制等级的成本量,但也实现了像回归方法的子像素深度预测。为了挖掘统一的潜力,我们设计了一个名为统一焦点损失的新损失函数,这更加统一,合理地打击样本不平衡的挑战。结合这两个负担的模块,我们提出了一个粗略的框架,我们称之为UNIMVSNet。首先在DTU和坦克和寺庙和寺庙基准测试的结果验证了我们的模型不仅执行最佳,还具有最佳的概括能力。
translated by 谷歌翻译