在受监督和无监督的设置的基于学习的多视图立体声(MV)中,已经看到了重大进展。为了结合其在准确性和完整性方面的优点,同时减少了对昂贵标签数据的需求,本文探讨了一种新型的基于学习的MVS问题的新型半监督设置,该设置只有MVS数据的一小部分与密集的深度地面真相相连。但是,由于方案和视图中灵活的设置的巨大变化,半监督的MVS问题(半MV)可能会破坏经典的半监督学习中的基本假设,该假设未标记的数据和标记的数据共享相同的标签空间和数据分布。为了解决这些问题,我们提出了一个新颖的半监督MVS框架,即SE-MVS。对于基本假设在MVS数据中起作用的简单情况,一致性正则化鼓励模型预测在原始样本和随机增强样品之间通过KL差异的限制保持一致。对于MVS数据中基本假设有冲突的进一步麻烦案例,我们提出了一种新型的样式一致性损失,以减轻分布差距引起的负面影响。未标记的样品的视觉样式被转移到标记的样品中以缩小差距,并且在原始标记的样品中使用标签进一步监督了生成样品的模型预测。 DTU,BlendenDMV,GTA-SFM和Tanks \&Temples数据集的实验结果显示了该方法的出色性能。在骨干网络中使用相同的设置,我们提出的SE-MV优于其完全监督和无监督的基线。
translated by 谷歌翻译
在不同观点之间找到准确的对应关系是无监督的多视图立体声(MVS)的跟腱。现有方法是基于以下假设:相应的像素具有相似的光度特征。但是,在实际场景中,多视图图像观察到非斜面的表面和经验遮挡。在这项工作中,我们提出了一种新颖的方法,即神经渲染(RC-MVSNET),以解决观点之间对应关系的歧义问题。具体而言,我们施加了一个深度渲染一致性损失,以限制靠近对象表面的几何特征以减轻遮挡。同时,我们引入了参考视图综合损失,以产生一致的监督,即使是针对非兰伯特表面。关于DTU和TANKS \&Temples基准测试的广泛实验表明,我们的RC-MVSNET方法在无监督的MVS框架上实现了最先进的性能,并对许多有监督的方法进行了竞争性能。该代码在https://github.com/上发布。 BOESE0601/RC-MVSNET
translated by 谷歌翻译
近年来,与传统方法相比,受监督或无监督的基于学习的MVS方法的性能出色。但是,这些方法仅使用成本量正规化计算的概率量来预测参考深度,这种方式无法从概率量中挖掘出足够的信息。此外,无监督的方法通常尝试使用两步或其他输入进行训练,从而使过程更加复杂。在本文中,我们提出了DS-MVSNET,这是一种具有源深度合成的端到端无监督的MVS结构。为了挖掘概率量的信息,我们通过将概率量和深度假设推向源视图来创造性地综合源深度。同时,我们提出了自适应高斯采样和改进的自适应垃圾箱采样方法,以改善深度假设精度。另一方面,我们利用源深度渲染参考图像,并提出深度一致性损失和深度平滑度损失。这些可以根据不同视图的光度和几何一致性提供其他指导,而无需其他输入。最后,我们在DTU数据集和储罐数据集上进行了一系列实验,这些实验证明了与最先进的方法相比,DS-MVSNET的效率和鲁棒性。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.
translated by 谷歌翻译
监督的多视图立体声(MVS)方法在重建质量方面取得了显着进步,但遭受了收集大规模基础真相深度的挑战。在本文中,我们提出了一种基于知识蒸馏的MVS的新型自我监督培训管道,称为\ textit {kd-Mvs},主要由自我监督的教师培训和基于蒸馏的学生培训组成。具体而言,使用光度和特征一致性同时以自学的方式对教师模型进行了训练。然后,我们通过概率知识转移将教师模型的知识提炼为学生模型。在对经过验证的知识的监督下,学生模型能够以很大的优势优于其老师。在多个数据集上进行的广泛实验表明,我们的方法甚至可以胜过监督方法。
translated by 谷歌翻译
在简单的数据集中,在简单的数据集中开发和广泛地进行了深度多视图立体声(MVS)方法,在那里他们现在优于经典方法。在本文中,我们询问控制方案中达到的结论是否仍然有效,在使用互联网照片集合时仍然有效。我们提出了一种评估方法,探讨了深度MVS方法的三个方面的影响:网络架构,培训数据和监督。我们进行了几个关键观察,我们广泛地定量和定性地验证,无论是深度预测和完整的3D重建。首先,复杂的无监督方法无法在野外训练数据。我们的新方法使三个关键要素成为可能:上采样输出,基于Softmin的聚合和单一的重建损失。其次,监督基于深度堤map的MVS方法是用于重建几个互联网图像的最新技术。最后,我们的评估提供了比通常的结果非常不同。这表明在不受控制的方案中的评估对于新架构很重要。
translated by 谷歌翻译
本文提出了一种网络,称为MVSTR,用于多视图立体声(MV)。它建在变压器上,并能够用全局上下文和3D一致性提取密集的功能,这对于实现MV的可靠匹配至关重要。具体地,为了解决现有的基于CNN的MVS方法的有限接收领域的问题,首先提出全局上下文变换器模块来探索视图内的全局上下文。另外,为了进一步实现致密功能,以3D一致,通过精心设计的巧妙机制构建了3D几何变压器模块,以便于观看互联信息交互。实验结果表明,建议的MVSTR在DTU数据集中实现了最佳的整体性能,并在坦克和寺庙基准数据集上的强大泛化。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
Deep learning has recently demonstrated its excellent performance for multi-view stereo (MVS). However, one major limitation of current learned MVS approaches is the scalability: the memory-consuming cost volume regularization makes the learned MVS hard to be applied to highresolution scenes. In this paper, we introduce a scalable multi-view stereo framework based on the recurrent neural network. Instead of regularizing the entire 3D cost volume in one go, the proposed Recurrent Multi-view Stereo Network (R-MVSNet) sequentially regularizes the 2D cost maps along the depth direction via the gated recurrent unit (GRU). This reduces dramatically the memory consumption and makes high-resolution reconstruction feasible. We first show the state-of-the-art performance achieved by the proposed R-MVSNet on the recent MVS benchmarks. Then, we further demonstrate the scalability of the proposed method on several large-scale scenarios, where previous learned approaches often fail due to the memory constraint. Code is available at https://github.com/ YoYo000/MVSNet.
translated by 谷歌翻译
Semi-Supervised Learning (SSL) has recently accomplished successful achievements in various fields such as image classification, object detection, and semantic segmentation, which typically require a lot of labour to construct ground-truth. Especially in the depth estimation task, annotating training data is very costly and time-consuming, and thus recent SSL regime seems an attractive solution. In this paper, for the first time, we introduce a novel framework for semi-supervised learning of monocular depth estimation networks, using consistency regularization to mitigate the reliance on large ground-truth depth data. We propose a novel data augmentation approach, called K-way disjoint masking, which allows the network for learning how to reconstruct invisible regions so that the model not only becomes robust to perturbations but also generates globally consistent output depth maps. Experiments on the KITTI and NYU-Depth-v2 datasets demonstrate the effectiveness of each component in our pipeline, robustness to the use of fewer and fewer annotated images, and superior results compared to other state-of-the-art, semi-supervised methods for monocular depth estimation. Our code is available at https://github.com/KU-CVLAB/MaskingDepth.
translated by 谷歌翻译
With the development of convolutional neural networks, hundreds of deep learning based dehazing methods have been proposed. In this paper, we provide a comprehensive survey on supervised, semi-supervised, and unsupervised single image dehazing. We first discuss the physical model, datasets, network modules, loss functions, and evaluation metrics that are commonly used. Then, the main contributions of various dehazing algorithms are categorized and summarized. Further, quantitative and qualitative experiments of various baseline methods are carried out. Finally, the unsolved issues and challenges that can inspire the future research are pointed out. A collection of useful dehazing materials is available at \url{https://github.com/Xiaofeng-life/AwesomeDehazing}.
translated by 谷歌翻译
While deep learning has recently achieved great success on multi-view stereo (MVS), limited training data makes the trained model hard to be generalized to unseen scenarios. Compared with other computer vision tasks, it is rather difficult to collect a large-scale MVS dataset as it requires expensive active scanners and labor-intensive process to obtain ground truth 3D structures. In this paper, we introduce BlendedMVS, a novel large-scale dataset, to provide sufficient training ground truth for learning-based MVS. To create the dataset, we apply a 3D reconstruction pipeline to recover high-quality textured meshes from images of well-selected scenes. Then, we render these mesh models to color images and depth maps. To introduce the ambient lighting information during training, the rendered color images are further blended with the input images to generate the training input. Our dataset contains over 17k high-resolution images covering a variety of scenes, including cities, architectures, sculptures and small objects. Extensive experiments demonstrate that BlendedMVS endows the trained model with significantly better generalization ability compared with other MVS datasets. The dataset and pretrained models are available at https: //github.com/YoYo000/BlendedMVS.
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
Existing learning-based multi-view stereo (MVS) methods rely on the depth range to build the 3D cost volume and may fail when the range is too large or unreliable. To address this problem, we propose a disparity-based MVS method based on the epipolar disparity flow (E-flow), called DispMVS, which infers the depth information from the pixel movement between two views. The core of DispMVS is to construct a 2D cost volume on the image plane along the epipolar line between each pair (between the reference image and several source images) for pixel matching and fuse uncountable depths triangulated from each pair by multi-view geometry to ensure multi-view consistency. To be robust, DispMVS starts from a randomly initialized depth map and iteratively refines the depth map with the help of the coarse-to-fine strategy. Experiments on DTUMVS and Tanks\&Temple datasets show that DispMVS is not sensitive to the depth range and achieves state-of-the-art results with lower GPU memory.
translated by 谷歌翻译
我们呈现ITEMVS,一种用于高分辨率多视图立体声的新数据驱动方法。我们提出了一种基于GRU的基于GRU的估计器,其在其隐藏状态下编码深度的像素明显概率分布。摄入多尺度匹配信息,我们的模型将这些分布物流在多个迭代和Infers深度和信心上。要提取深度图,我们以新颖的方式结合传统的分类和回归。我们验证了我们对DTU,坦克和寺庙和ETH3D的方法的效率和有效性。虽然成为内存和运行时最有效的方法,但我们的模型在DTU和坦克和寺庙的更好的泛化能力方面取得了竞争性能,以及Eth3D而不是最先进的方法。代码可在https://github.com/fangjinhuawang/Itermvs获得。
translated by 谷歌翻译
具有已知相机参数的多视图立体声(MVS)基本上是有效深度范围内的1D搜索问题。最近的基于深度学习的MVS方法通常在深度范围内密集地样本深度假设,然后构造对深度预测的预测存储器消耗的3D成本卷。虽然粗细的抽样策略在一定程度上缓解了这个开销问题,但MVS的效率仍然是一个开放的挑战。在这项工作中,我们提出了一种用于高效MV的新方法,其显着降低了内存足迹,同时明显推进最先进的深度预测性能。考虑到效率和有效性,我们调查搜索策略可以合理地最佳地最佳。我们首先将MVS制定为二进制搜索问题,因此提出了用于MV的广义二进制搜索网络。具体地,在每个步骤中,深度范围被分成2个箱,两侧具有额外的1个误差容差箱。执行分类以确定哪个箱包含真实深度。我们还将三种机制分别设计为分别处理分类错误,处理超出范围的样本并降低培训记忆。新配方使我们的方法仅在每个步骤中示出非常少量的深度假设,这是高度记忆效率,并且还极大地促进了快速训练收敛。竞争力基准的实验表明,我们的方法达到了最先进的准确性,内存要少得多。特别是,我们的方法在DTU数据集中获得0.289的总分,并在所有基于学习的方法中排列在具有挑战性的坦克和寺庙高级数据集上的第一名。训练有素的型号和代码将在https://github.com/mizhenxing/gbi-net发布。
translated by 谷歌翻译
多视图立体声(MVS)是精确三维重建的重要任务。最近的研究试图通过设计聚合的3D成本卷及其正则化来提高MV中匹配成本体积的性能。本文侧重于学习强大的特征提取网络,以增强匹配成本的性能,在其他步骤中没有重大计算。特别是,我们提出了一种动态刻度特征提取网络,即CDSFNET。它由多个新颖的卷积层组成,每个卷积层可以为由图像表面的法线曲率指导的每个像素选择适当的补丁比例。因此,CDFSNet可以估计最佳补丁尺度,以学习参考和源图像之间准确匹配计算的判别特征。通过将具有适当成本制定策略的强大提取功能组合,我们的MVS架构可以更精确地估计深度映射。广泛的实验表明,该方法在复杂的户外场景中优于其他最先进的方法。它显着提高了重建模型的完整性。结果,该方法可以在比其他MVS方法更快的运行时间和更低的内存中处理更高的分辨率输入。我们的源代码可用于URL {https:/github.com/truongkhang/cds-mvsnet}。
translated by 谷歌翻译
对于单眼深度估计,获取真实数据的地面真相并不容易,因此通常使用监督的合成数据采用域适应方法。但是,由于缺乏实际数据的监督,这仍然可能会导致较大的域间隙。在本文中,我们通过从真实数据中生成可靠的伪基础真理来开发一个域适应框架,以提供直接的监督。具体而言,我们提出了两种用于伪标记的机制:1)通过测量图像具有相同内容但不同样式的深度预测的一致性,通过测量深度预测的一致性; 2)通过点云完成网络的3D感知伪标记,该网络学会完成3D空间中的深度值,从而在场景中提供更多的结构信息,以完善并生成更可靠的伪标签。在实验中,我们表明我们的伪标记方法改善了各种环境中的深度估计,包括在训练过程中使用立体声对。此外,该提出的方法对现实世界数据集中的几种最新无监督域的适应方法表现出色。
translated by 谷歌翻译
在移动摄影和AR / VR中,视觉内容创建刺激了飙升的兴趣。作为两个代表性任务的样式转移和单像3D摄影迄今为止独立发展。在本文中,我们在两者之间进行了联系,并解决了3D照片风格化的具有挑战性的任务 - 从单个图像中生成了一个任意映像的程式化的小说视图。我们的关键直观是,风格转移和视图综合必须为此任务共同建模。为此,我们提出了一个深入的模型,可以从场景的点云表示,从场景的点云表示,学习几何风格感知内容特征,从而导致跨视图一致的高质量风格化图像。此外,我们介绍了一种新颖的训练协议,以使学习仅使用2D图像。我们通过广泛的定性和定量研究展示了我们的方法的优越性,以及鉴于从2D图像资产的3D内容创建的需求不断增长,展示我们方法的关键应用。
translated by 谷歌翻译