在本文中,我们基于我们对多视图立体声(MVS)中的特征匹配的探索来呈现TransVSNet。我们将MVS模拟返回其特征匹配任务的性质,因此提出了一个强大的功能匹配变换器(FMT),以利用(自我)和(交叉)关注(交叉)在图像内和跨越图像中聚合的长程上下文信息。为了便于更好地调整FMT,我们利用自适应接收领域(ARF)模块,以确保在特征范围内平滑过境,并使用特征途径桥接不同阶段,以通过不同尺度的转换特征和梯度。此外,我们应用配对特征相关性以测量特征之间的相似性,并采用歧义降低焦损,以加强监管。据我们所知,TransmVSNet首次尝试将变压器利用到MV的任务。因此,我们的方法在DTU数据集,坦克和寺庙基准测试和BlendedMVS数据集中实现了最先进的性能。我们的方法代码将在https://github.com/megviirobot/transmvsnet中提供。
translated by 谷歌翻译
本文提出了一种网络,称为MVSTR,用于多视图立体声(MV)。它建在变压器上,并能够用全局上下文和3D一致性提取密集的功能,这对于实现MV的可靠匹配至关重要。具体地,为了解决现有的基于CNN的MVS方法的有限接收领域的问题,首先提出全局上下文变换器模块来探索视图内的全局上下文。另外,为了进一步实现致密功能,以3D一致,通过精心设计的巧妙机制构建了3D几何变压器模块,以便于观看互联信息交互。实验结果表明,建议的MVSTR在DTU数据集中实现了最佳的整体性能,并在坦克和寺庙基准数据集上的强大泛化。
translated by 谷歌翻译
基于学习的多视图立体声(MVS)方法取得了令人印象深刻的进步,并且近年来超越了传统方法。但是,它们的准确性和完整性仍在挣扎。在本文中,我们提出了一种新方法,以增强受对比度学习和功能匹配启发的现有网络的性能。首先,我们提出了一个对比匹配损失(CML),该损失将正确的匹配点视为正样品,将正确的匹配点视为正样本,并将其他点视为阴性样本,并根据特征的相似性计算对比度损失。我们进一步提出了一个加权局灶性损失(WFL),以提高分类能力,从而削弱了根据预测的置信度,在不重要的区域中低信任像素对损失的贡献。在DTU,坦克和寺庙和混合MVS数据集上进行的广泛实验表明,我们的方法可实现最先进的性能,并在基线网络上取得了重大改进。
translated by 谷歌翻译
功能表示学习是基于学习的多视图立体声(MVS)的关键配方。作为基于学习的MVS的共同特征提取器,香草特征金字塔网络(FPN)遭受了灰心的功能表示形式,用于反射和无纹理区域,这限制了MV的概括。即使是FPN与预训练的卷积神经网络(CNN)一起工作,也无法解决这些问题。另一方面,视觉变形金刚(VIT)在许多2D视觉任务中取得了突出的成功。因此,我们问VIT是否可以促进MV中的功能学习?在本文中,我们提出了一个名为MVSFormer的预先培训的VIT增强MVS网络,该网络可以学习更多可靠的功能表示,从VIT提供的信息学先验受益。然后,分别使用固定的VIT权重和可训练的MVSFormer-P和MVSFormer-H进一步提出。 MVSFormer-P更有效,而MVSFormer-H可以实现卓越的性能。为了使VIT对MVS任务的任意分辨率进行强大的vits,我们建议使用有效的多尺度培训并积累梯度。此外,我们讨论了分类和基于回归的MVS方法的优点和缺点,并进一步建议将其统一使用基于温度的策略。 MVSFormer在DTU数据集上实现最先进的性能。特别是,与其他已发表的作品相比,我们对MVSFormer的匿名提交在中级和高级坦克排行榜上排名最高的位置。代码和模型将发布。
translated by 谷歌翻译
We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.
translated by 谷歌翻译
具有已知相机参数的多视图立体声(MVS)基本上是有效深度范围内的1D搜索问题。最近的基于深度学习的MVS方法通常在深度范围内密集地样本深度假设,然后构造对深度预测的预测存储器消耗的3D成本卷。虽然粗细的抽样策略在一定程度上缓解了这个开销问题,但MVS的效率仍然是一个开放的挑战。在这项工作中,我们提出了一种用于高效MV的新方法,其显着降低了内存足迹,同时明显推进最先进的深度预测性能。考虑到效率和有效性,我们调查搜索策略可以合理地最佳地最佳。我们首先将MVS制定为二进制搜索问题,因此提出了用于MV的广义二进制搜索网络。具体地,在每个步骤中,深度范围被分成2个箱,两侧具有额外的1个误差容差箱。执行分类以确定哪个箱包含真实深度。我们还将三种机制分别设计为分别处理分类错误,处理超出范围的样本并降低培训记忆。新配方使我们的方法仅在每个步骤中示出非常少量的深度假设,这是高度记忆效率,并且还极大地促进了快速训练收敛。竞争力基准的实验表明,我们的方法达到了最先进的准确性,内存要少得多。特别是,我们的方法在DTU数据集中获得0.289的总分,并在所有基于学习的方法中排列在具有挑战性的坦克和寺庙高级数据集上的第一名。训练有素的型号和代码将在https://github.com/mizhenxing/gbi-net发布。
translated by 谷歌翻译
深度估计在现有的基于学习的多视图立体声方法中解决了作为回归或分类问题。虽然这两种表示最近展示了它们的优异性能,但它们仍然具有明显的缺点,例如,由于间接学习成本量,回归方法往往会过度装备,并且由于其离散预测而不能直接推断出精确深度的分类方法。在本文中,我们提出了一种新的代表性,称为统一,统一回归和分类的优势。它可以直接限制等级的成本量,但也实现了像回归方法的子像素深度预测。为了挖掘统一的潜力,我们设计了一个名为统一焦点损失的新损失函数,这更加统一,合理地打击样本不平衡的挑战。结合这两个负担的模块,我们提出了一个粗略的框架,我们称之为UNIMVSNet。首先在DTU和坦克和寺庙和寺庙基准测试的结果验证了我们的模型不仅执行最佳,还具有最佳的概括能力。
translated by 谷歌翻译
我们提出了一个有效的多视角立体声(MVS)网络,用于从多个RGB图像中推断深度值。最近的研究表明,将实际空间中的几何关系映射到神经网络是MVS问题的重要主题。具体而言,这些方法着重于如何通过构造出色的成本量来表达不同视图之间的对应关系。在本文中,我们提出了一种基于吸收先前经验的更完整的成本量构建方法。首先,我们介绍了自我发挥的机制,以完全汇总输入图像的主导信息,并准确地对远程依赖性进行建模,以选择性地汇总参考特征。其次,我们将小组相关性引入特征聚合,从而大大减轻了记忆和计算负担。同时,此方法增强了不同特征通道之间的信息相互作用。通过这种方法,构建了更轻巧,更有效的成本量。最后,我们遵循粗略的策略,并借助不确定性估计,根据规模完善深度采样范围。我们进一步结合了以前的步骤,以获取注意力较薄。提出了定量和定性实验,以证明我们的模型的性能。
translated by 谷歌翻译
我们呈现ITEMVS,一种用于高分辨率多视图立体声的新数据驱动方法。我们提出了一种基于GRU的基于GRU的估计器,其在其隐藏状态下编码深度的像素明显概率分布。摄入多尺度匹配信息,我们的模型将这些分布物流在多个迭代和Infers深度和信心上。要提取深度图,我们以新颖的方式结合传统的分类和回归。我们验证了我们对DTU,坦克和寺庙和ETH3D的方法的效率和有效性。虽然成为内存和运行时最有效的方法,但我们的模型在DTU和坦克和寺庙的更好的泛化能力方面取得了竞争性能,以及Eth3D而不是最先进的方法。代码可在https://github.com/fangjinhuawang/Itermvs获得。
translated by 谷歌翻译
In this paper, we present a learning-based approach for multi-view stereo (MVS), i.e., estimate the depth map of a reference frame using posed multi-view images. Our core idea lies in leveraging a "learning-to-optimize" paradigm to iteratively index a plane-sweeping cost volume and regress the depth map via a convolutional Gated Recurrent Unit (GRU). Since the cost volume plays a paramount role in encoding the multi-view geometry, we aim to improve its construction both in pixel- and frame- levels. In the pixel level, we propose to break the symmetry of the Siamese network (which is typically used in MVS to extract image features) by introducing a transformer block to the reference image (but not to the source images). Such an asymmetric volume allows the network to extract global features from the reference image to predict its depth map. In view of the inaccuracy of poses between reference and source images, we propose to incorporate a residual pose network to make corrections to the relative poses, which essentially rectifies the cost volume in the frame-level. We conduct extensive experiments on real-world MVS datasets and show that our method achieves state-of-the-art performance in terms of both within-dataset evaluation and cross-dataset generalization.
translated by 谷歌翻译
多视图立体声(MVS)是精确三维重建的重要任务。最近的研究试图通过设计聚合的3D成本卷及其正则化来提高MV中匹配成本体积的性能。本文侧重于学习强大的特征提取网络,以增强匹配成本的性能,在其他步骤中没有重大计算。特别是,我们提出了一种动态刻度特征提取网络,即CDSFNET。它由多个新颖的卷积层组成,每个卷积层可以为由图像表面的法线曲率指导的每个像素选择适当的补丁比例。因此,CDFSNet可以估计最佳补丁尺度,以学习参考和源图像之间准确匹配计算的判别特征。通过将具有适当成本制定策略的强大提取功能组合,我们的MVS架构可以更精确地估计深度映射。广泛的实验表明,该方法在复杂的户外场景中优于其他最先进的方法。它显着提高了重建模型的完整性。结果,该方法可以在比其他MVS方法更快的运行时间和更低的内存中处理更高的分辨率输入。我们的源代码可用于URL {https:/github.com/truongkhang/cds-mvsnet}。
translated by 谷歌翻译
Deep learning has recently demonstrated its excellent performance for multi-view stereo (MVS). However, one major limitation of current learned MVS approaches is the scalability: the memory-consuming cost volume regularization makes the learned MVS hard to be applied to highresolution scenes. In this paper, we introduce a scalable multi-view stereo framework based on the recurrent neural network. Instead of regularizing the entire 3D cost volume in one go, the proposed Recurrent Multi-view Stereo Network (R-MVSNet) sequentially regularizes the 2D cost maps along the depth direction via the gated recurrent unit (GRU). This reduces dramatically the memory consumption and makes high-resolution reconstruction feasible. We first show the state-of-the-art performance achieved by the proposed R-MVSNet on the recent MVS benchmarks. Then, we further demonstrate the scalability of the proposed method on several large-scale scenarios, where previous learned approaches often fail due to the memory constraint. Code is available at https://github.com/ YoYo000/MVSNet.
translated by 谷歌翻译
近年来,与传统方法相比,受监督或无监督的基于学习的MVS方法的性能出色。但是,这些方法仅使用成本量正规化计算的概率量来预测参考深度,这种方式无法从概率量中挖掘出足够的信息。此外,无监督的方法通常尝试使用两步或其他输入进行训练,从而使过程更加复杂。在本文中,我们提出了DS-MVSNET,这是一种具有源深度合成的端到端无监督的MVS结构。为了挖掘概率量的信息,我们通过将概率量和深度假设推向源视图来创造性地综合源深度。同时,我们提出了自适应高斯采样和改进的自适应垃圾箱采样方法,以改善深度假设精度。另一方面,我们利用源深度渲染参考图像,并提出深度一致性损失和深度平滑度损失。这些可以根据不同视图的光度和几何一致性提供其他指导,而无需其他输入。最后,我们在DTU数据集和储罐数据集上进行了一系列实验,这些实验证明了与最先进的方法相比,DS-MVSNET的效率和鲁棒性。
translated by 谷歌翻译
在不同观点之间找到准确的对应关系是无监督的多视图立体声(MVS)的跟腱。现有方法是基于以下假设:相应的像素具有相似的光度特征。但是,在实际场景中,多视图图像观察到非斜面的表面和经验遮挡。在这项工作中,我们提出了一种新颖的方法,即神经渲染(RC-MVSNET),以解决观点之间对应关系的歧义问题。具体而言,我们施加了一个深度渲染一致性损失,以限制靠近对象表面的几何特征以减轻遮挡。同时,我们引入了参考视图综合损失,以产生一致的监督,即使是针对非兰伯特表面。关于DTU和TANKS \&Temples基准测试的广泛实验表明,我们的RC-MVSNET方法在无监督的MVS框架上实现了最先进的性能,并对许多有监督的方法进行了竞争性能。该代码在https://github.com/上发布。 BOESE0601/RC-MVSNET
translated by 谷歌翻译
监督的多视图立体声(MVS)方法在重建质量方面取得了显着进步,但遭受了收集大规模基础真相深度的挑战。在本文中,我们提出了一种基于知识蒸馏的MVS的新型自我监督培训管道,称为\ textit {kd-Mvs},主要由自我监督的教师培训和基于蒸馏的学生培训组成。具体而言,使用光度和特征一致性同时以自学的方式对教师模型进行了训练。然后,我们通过概率知识转移将教师模型的知识提炼为学生模型。在对经过验证的知识的监督下,学生模型能够以很大的优势优于其老师。在多个数据集上进行的广泛实验表明,我们的方法甚至可以胜过监督方法。
translated by 谷歌翻译
深度学习对多视图立体声系统产生了重大影响。最先进的方法通常涉及构建成本量,然后是多个3D卷积操作来恢复输入图像的像素方面深度。虽然这种平面扫描立体声的最终学习推进了公共基准的准确性,但它们通常很慢。我们展示了一个高效的多视图立体声算法,通过注意机制将多视图约束无缝地集成到单视网中。由于\ Ouralg仅在2D卷积上建立,它比所有值得注意的对应物更快2美元。此外,我们的算法产生精确的深度估计和3D重建,实现最先进的结果,以具有挑战性的基准剪刀,Sun3D,RGBD和古典DTU数据集。我们的算法还在Inexact相机姿势的设置中进行了所有其他算法。我们的代码在\ url {https:/github.com/zhenpeiyang/mvs2d}释放
translated by 谷歌翻译
在图像之间生成健壮和可靠的对应关系是多种应用程序的基本任务。为了在全球和局部粒度上捕获上下文,我们提出了Aspanformer,这是一种基于变压器的无探测器匹配器,建立在层次的注意力结构上,采用了一种新颖的注意操作,能够以自适应方式调整注意力跨度。为了实现这一目标,首先,在每个跨注意阶段都会回归流图,以定位搜索区域的中心。接下来,在中心周围生成一个采样网格,其大小不是根据固定的经验配置为固定的,而是根据与流图一起估计的像素不确定性的自适应计算。最后,在派生区域内的两个图像上计算注意力,称为注意跨度。通过这些方式,我们不仅能够维持长期依赖性,而且能够在高相关性的像素之间获得细粒度的注意,从而补偿基本位置和匹配任务中的零件平滑度。在广泛的评估基准上的最新准确性验证了我们方法的强匹配能力。
translated by 谷歌翻译
We present a novel method for local image feature matching. Instead of performing image feature detection, description, and matching sequentially, we propose to first establish pixel-wise dense matches at a coarse level and later refine the good matches at a fine level. In contrast to dense methods that use a cost volume to search correspondences, we use self and cross attention layers in Transformer to obtain feature descriptors that are conditioned on both images. The global receptive field provided by Transformer enables our method to produce dense matches in low-texture areas, where feature detectors usually struggle to produce repeatable interest points. The experiments on indoor and outdoor datasets show that LoFTR outperforms state-of-the-art methods by a large margin. LoFTR also ranks first on two public benchmarks of visual localization among the published methods. Code is available at our project page: https://zju3dv.github.io/loftr/.
translated by 谷歌翻译
在简单的数据集中,在简单的数据集中开发和广泛地进行了深度多视图立体声(MVS)方法,在那里他们现在优于经典方法。在本文中,我们询问控制方案中达到的结论是否仍然有效,在使用互联网照片集合时仍然有效。我们提出了一种评估方法,探讨了深度MVS方法的三个方面的影响:网络架构,培训数据和监督。我们进行了几个关键观察,我们广泛地定量和定性地验证,无论是深度预测和完整的3D重建。首先,复杂的无监督方法无法在野外训练数据。我们的新方法使三个关键要素成为可能:上采样输出,基于Softmin的聚合和单一的重建损失。其次,监督基于深度堤map的MVS方法是用于重建几个互联网图像的最新技术。最后,我们的评估提供了比通常的结果非常不同。这表明在不受控制的方案中的评估对于新架构很重要。
translated by 谷歌翻译
我们提出了一种基于深度学习的基于深度学习的多视图立体声方法。我们的方法通过以二进制决策方式遍历每个像素处的可行深度值的连续空间来估计高分辨率和高度精确的深度映射。决策过程利用了深网络架构:这计算了一个像素的二进制掩模,该屏蔽建立每个像素实际深度是否在其当前迭代单独深度假设的前面或后面。此外,为了处理闭塞区域,在每次迭代时,使用由第二网络估计的像素重量融合不同源图像的结果。由于采用的二元决策策略,这允许有效探索深度空间,我们的方法可以在不交易分辨率和精度的情况下处理高分辨率图像。这使其与大多数基于学习的多视图立体声方法相比,深度空间的明确离散化需要处理大的成本卷。我们将我们的方法与DTU,坦克和寺庙的最先进的多视图立体声方法进行比较,以及具有挑战性的Eth3D基准测试,并表现出竞争力的结果。
translated by 谷歌翻译