最近,立体声匹配基准的记录由端到端视差网络不断破碎。但是,这些深层模型的域适应能力非常有限。解决此类问题,我们提出了一种名为ADASTEREO的新型域自适应方法,该方法旨在对准深度立体声匹配网络的多级表示。与以前的方法相比,我们的ADASTEREO实现了更标准,完整有效的域适应管道。首先,我们提出了一种用于输入图像级对准的非对抗渐进颜色传输算法。其次,我们设计一个有效的无参数成本归一化层,用于内部特征级别对齐。最后,提出了一种高效的辅助任务,自我监督的遮挡感知重建以缩小输出空间中的间隙。我们进行密集的消融研究和分解比较,以验证每个提出的模块的有效性。没有额外推断开销,只有略微增加训练复杂性,我们的Adastereo模型在多个基准上实现了最先进的跨领域性能,包括Kitti,Middrbury,Eth3D和驾驶员,甚至优于一些状态 - 与目标域的地面真相Fineetuned的差异网络。此外,基于两个额外的评估指标,从更多的观点进一步揭示了我们域 - 自适应立体声匹配管道的优越性。最后,我们证明我们的方法对各种域适配设置具有强大,并且可以轻松地集成到快速适应应用方案和现实世界部署中。
translated by 谷歌翻译
Existing deep learning based stereo matching methods either focus on achieving optimal performances on the target dataset while with poor generalization for other datasets or focus on handling the cross-domain generalization by suppressing the domain sensitive features which results in a significant sacrifice on the performance. To tackle these problems, we propose PCW-Net, a Pyramid Combination and Warping cost volume-based network to achieve good performance on both cross-domain generalization and stereo matching accuracy on various benchmarks. In particular, our PCW-Net is designed for two purposes. First, we construct combination volumes on the upper levels of the pyramid and develop a cost volume fusion module to integrate them for initial disparity estimation. Multi-scale receptive fields can be covered by fusing multi-scale combination volumes, thus, domain-invariant features can be extracted. Second, we construct the warping volume at the last level of the pyramid for disparity refinement. The proposed warping volume can narrow down the residue searching range from the initial disparity searching range to a fine-grained one, which can dramatically alleviate the difficulty of the network to find the correct residue in an unconstrained residue searching space. When training on synthetic datasets and generalizing to unseen real datasets, our method shows strong cross-domain generalization and outperforms existing state-of-the-arts with a large margin. After fine-tuning on the real datasets, our method ranks first on KITTI 2012, second on KITTI 2015, and first on the Argoverse among all published methods as of 7, March 2022. The code will be available at https://github.com/gallenszl/PCWNet.
translated by 谷歌翻译
Unsupervised domain adaptation (UDA) for semantic segmentation is a promising task freeing people from heavy annotation work. However, domain discrepancies in low-level image statistics and high-level contexts compromise the segmentation performance over the target domain. A key idea to tackle this problem is to perform both image-level and feature-level adaptation jointly. Unfortunately, there is a lack of such unified approaches for UDA tasks in the existing literature. This paper proposes a novel UDA pipeline for semantic segmentation that unifies image-level and feature-level adaptation. Concretely, for image-level domain shifts, we propose a global photometric alignment module and a global texture alignment module that align images in the source and target domains in terms of image-level properties. For feature-level domain shifts, we perform global manifold alignment by projecting pixel features from both domains onto the feature manifold of the source domain; and we further regularize category centers in the source domain through a category-oriented triplet loss and perform target domain consistency regularization over augmented target domain images. Experimental results demonstrate that our pipeline significantly outperforms previous methods. In the commonly tested GTA5$\rightarrow$Cityscapes task, our proposed method using Deeplab V3+ as the backbone surpasses previous SOTA by 8%, achieving 58.2% in mIoU.
translated by 谷歌翻译
仅在合成数据上培训的最先进的立体声匹配网络通常无法概括到更具挑战性的真实数据域。在本文中,我们试图展开阻碍网络从跨域推广网络的重要因素:通过快捷学习的镜头。我们证明了立体声匹配网络中的特征表示的学习受合成数据伪影(快捷键属性)的严重影响。为了缓解此问题,我们提出了一种信息 - 理论快捷方式避免〜(ITSA)方法,以自动限制与要素表示的快捷键相关信息。因此,我们的提出方法通过最大限度地减少潜在特征的灵敏度来了解强大而快捷的不变性功能。为避免直接输入灵敏度优化的禁止计算成本,我们提出了一种有效但可行的算法来实现鲁棒性。我们表明,使用这种方法,纯粹对合成数据训练的最先进的立体声匹配网络可以有效地推广到具有挑战性和以前看不见的真实数据场景。重要的是,所提出的方法可以增强合成训练网络的鲁棒性,以至于它们优于他们的微调对应物(在实际数据上)以充分挑战域外立体数据集。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
对于单眼深度估计,获取真实数据的地面真相并不容易,因此通常使用监督的合成数据采用域适应方法。但是,由于缺乏实际数据的监督,这仍然可能会导致较大的域间隙。在本文中,我们通过从真实数据中生成可靠的伪基础真理来开发一个域适应框架,以提供直接的监督。具体而言,我们提出了两种用于伪标记的机制:1)通过测量图像具有相同内容但不同样式的深度预测的一致性,通过测量深度预测的一致性; 2)通过点云完成网络的3D感知伪标记,该网络学会完成3D空间中的深度值,从而在场景中提供更多的结构信息,以完善并生成更可靠的伪标签。在实验中,我们表明我们的伪标记方法改善了各种环境中的深度估计,包括在训练过程中使用立体声对。此外,该提出的方法对现实世界数据集中的几种最新无监督域的适应方法表现出色。
translated by 谷歌翻译
立体声匹配是许多视觉和机器人应用程序的基本构建块。信息性和简洁的成本量表示对于高准确性和效率的立体声匹配至关重要。在本文中,我们提出了一种新颖的成本量构建方法,称为“注意串联量”(ACV),该方法从相关线索中产生了注意力权重,以抑制冗余信息并增强串联体积中与匹配相关的信息。 ACV可以无缝嵌入大多数立体声匹配网络中,所得网络可以使用更轻巧的聚合网络,同时获得更高的精度。我们进一步设计了快速版本的ACV版本以实现实时性能,名为FAST-ACV,它产生了很高的可能性差异假设,以及来自低分辨率相关线索的相应注意力权重,可显着降低计算和记忆成本,同时保持令人满意的精度。我们快速ACV的核心思想是音量注意传播(VAP),它可以自动从上采样相关量中选择准确的相关值,并将这些准确的值传播到周围环境像素具有模棱两可的相关线索。此外,我们分别基于我们的ACV和Fast-ACV设计了高度准确的网络ACVNET和实时网络快速ACVNET,该网络在几个基准上实现了最新性能(即,我们的ACVNET排名第二,第二名在Kitti 2015和场景流以及所有已发布方法中的Kitti 2012和Eth3d的第三次;我们的快速ACVNET几乎优于现场流的所有最新实时方法,Kitti 2012和2015年,与此同时,与此同时更好的概括能力)
translated by 谷歌翻译
立体声匹配是许多视觉和机器人应用程序的基本构建块。信息性和简洁的成本量表示对于高准确性和效率的立体声匹配至关重要。在本文中,我们提出了一种新颖的成本量构建方法,该方法从相关线索中产生了注意力,以抑制冗余信息并增强串联量中与匹配相关的信息。为了产生可靠的注意力权重,我们提出了多层次自适应补丁匹配,以提高在不同差异区域以不同差异的匹配成本的独特性。提出的成本量被命名为注意串联量(ACV),可以将其无缝嵌入大多数立体声匹配网络中,结果网络可以使用更轻巧的聚合网络,同时实现更高的精度,例如。仅使用聚合网络的1/25参数可以实现GWCNET的更高精度。此外,我们根据ACV设计了一个高度准确的网络(ACVNET),该网络(ACVNET)在几个基准上实现了最先进的性能。
translated by 谷歌翻译
Recent work has shown that depth estimation from a stereo pair of images can be formulated as a supervised learning task to be resolved with convolutional neural networks (CNNs). However, current architectures rely on patch-based Siamese networks, lacking the means to exploit context information for finding correspondence in illposed regions. To tackle this problem, we propose PSM-Net, a pyramid stereo matching network consisting of two main modules: spatial pyramid pooling and 3D CNN. The spatial pyramid pooling module takes advantage of the capacity of global context information by aggregating context in different scales and locations to form a cost volume. The 3D CNN learns to regularize cost volume using stacked multiple hourglass networks in conjunction with intermediate supervision. The proposed approach was evaluated on several benchmark datasets. Our method ranked first in the KITTI 2012 and 2015 leaderboards before March 18, 2018. The codes of PSMNet are available at: https: //github.com/JiaRenChang/PSMNet.
translated by 谷歌翻译
现有的基于深度学习的变更检测方法试图精心设计具有功能强大特征表示的复杂神经网络,但忽略了随时间变化的土地覆盖变化引起的通用域转移,包括亮度波动和事件前和事后图像之间的季节变化,从而产生亚最佳结果。在本文中,我们提出了一个端到端监督域的适应框架,用于跨域变更检测,即SDACD,以有效地减轻双期颞图像之间的域移位,以更好地变更预测。具体而言,我们的SDACD通过有监督的学习从图像和特征角度介绍了合作改编。图像适应性利用了具有循环矛盾的限制来利用生成的对抗学习,以执行跨域样式转换,从而有效地以两边的方式缩小了域间隙。为了特征适应性,我们提取域不变特征以对齐特征空间中的不同特征分布,这可以进一步减少跨域图像的域间隙。为了进一步提高性能,我们结合了三种类型的双颞图像,以进行最终变化预测,包括初始输入双期图像和两个来自事件前和事后域的生成的双颞图像。对两个基准的广泛实验和分析证明了我们提出的框架的有效性和普遍性。值得注意的是,我们的框架将几个代表性的基线模型推向了新的最先进的记录,分别在CDD和WHU建筑数据集上分别达到97.34%和92.36%。源代码和模型可在https://github.com/perfect-you/sdacd上公开获得。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
在线立体声适应解决了由合成(训练)和真实(测试)数据集之间的不同环境引起的域移位问题,以迅速适应动态现实世界应用程序(例如自动驾驶)中的立体声模型。但是,以前的方法通常无法抵消与动态物体有关的特定区域,并具有更严重的环境变化。为了减轻此问题,我们建议将辅助点选择性网络纳入称为PointFix的元学习框架中,以提供对在线立体声适应的立体声模型的强大初始化。简而言之,我们的辅助网络学会通过通过元级别有效地反向传播局部信息来固定局部变体,从而实现基线模型的稳健初始化。该网络是模型 - 不合时宜的,因此可以以任何插件的方式以任何形式的架构使用。我们进行了广泛的实验,以在三个适应设置(例如短期,中和长期序列)下验证我们的方法的有效性。实验结果表明,辅助网络对基本立体声模型的适当初始化使我们的学习范式在推理时达到了最新的性能。
translated by 谷歌翻译
Domain adaptation aims to bridge the domain shifts between the source and the target domain. These shifts may span different dimensions such as fog, rainfall, etc. However, recent methods typically do not consider explicit prior knowledge about the domain shifts on a specific dimension, thus leading to less desired adaptation performance. In this paper, we study a practical setting called Specific Domain Adaptation (SDA) that aligns the source and target domains in a demanded-specific dimension. Within this setting, we observe the intra-domain gap induced by different domainness (i.e., numerical magnitudes of domain shifts in this dimension) is crucial when adapting to a specific domain. To address the problem, we propose a novel Self-Adversarial Disentangling (SAD) framework. In particular, given a specific dimension, we first enrich the source domain by introducing a domainness creator with providing additional supervisory signals. Guided by the created domainness, we design a self-adversarial regularizer and two loss functions to jointly disentangle the latent representations into domainness-specific and domainness-invariant features, thus mitigating the intra-domain gap. Our method can be easily taken as a plug-and-play framework and does not introduce any extra costs in the inference time. We achieve consistent improvements over state-of-the-art methods in both object detection and semantic segmentation.
translated by 谷歌翻译
立体声Vision是一种有效的深度估算技术,具有广泛适用性在自主城市和公路驾驶中。虽然已经为立体声开发了各种基于深度学习的方法,但是具有固定基线的双目设置的输入数据受到限制。解决这样的问题,我们介绍了一个端到端网络,用于处理来自三曲面的数据,这是窄和宽立体对的组合。在这种设计中,用网络的共享权重和中间融合处理两对具有公共参考图像的双目数据。我们还提出了一种用于合并两个基线的4D数据的引导添加方法。此外,介绍了实际和合成数据集的迭代顺序自我监督和监督学习,使三曲系统的训练实用,无需实际数据集的地面真实数据。实验结果表明,三曲差距网络超越了个别对被馈送到类似架构中的场景。代码和数据集:https://github.com/cogsys-tuebingen/tristeReonet。
translated by 谷歌翻译
Learning based methods have shown very promising results for the task of depth estimation in single images. However, most existing approaches treat depth prediction as a supervised regression problem and as a result, require vast quantities of corresponding ground truth depth data for training. Just recording quality depth data in a range of environments is a challenging problem. In this paper, we innovate beyond existing approaches, replacing the use of explicit depth data during training with easier-to-obtain binocular stereo footage.We propose a novel training objective that enables our convolutional neural network to learn to perform single image depth estimation, despite the absence of ground truth depth data. Exploiting epipolar geometry constraints, we generate disparity images by training our network with an image reconstruction loss. We show that solving for image reconstruction alone results in poor quality depth images. To overcome this problem, we propose a novel training loss that enforces consistency between the disparities produced relative to both the left and right images, leading to improved performance and robustness compared to existing approaches. Our method produces state of the art results for monocular depth estimation on the KITTI driving dataset, even outperforming supervised methods that have been trained with ground truth depth.
translated by 谷歌翻译
最近的高级研究花费了大量的人类努力来优化网络体系结构进行立体声匹配,但几乎无法实现高精度和快速推理速度。为了简化网络设计中的工作量,神经体系结构搜索(NAS)已在各种稀疏预测任务(例如图像分类和对象检测)上获得了巨大成功。但是,现有关于密集预测任务的NAS研究,尤其是立体声匹配,仍然无法在不同计算功能的设备上有效地部署。为此,我们建议对具有不同计算功能的设备上的各种3D体系结构设置进行立体匹配(EASNET)训练弹性和准确的网络,以支持各种3D体系结构设置。考虑到目标设备的部署延迟约束,我们可以在无需额外培训的情况下快速从全部EASNET中提取子网络,而仍可以维护子网的准确性。广泛的实验表明,在模型的准确性和推理速度方面,我们的Easnet优于现场流和MPI Sintel数据集的最先进的人设计和基于NAS的体系结构。特别是,部署在推理GPU上,Easnet在场景流数据集中以100毫秒的价格获得了新的SOTA EPE,比具有更好质量型号的Leastereo快4.5 $ \ times $。
translated by 谷歌翻译
单眼深度估计(MDE)由于其低成本和机器人任务的关键功能,例如定位,映射和障碍物检测而吸引了激烈的研究。经过深入学习的发展,监督的方法已取得了巨大的成功,但它们依靠大量的地面深度注释,这些深度昂贵。无监督的域适应性(UDA)将知识从标记的源数据转移到未标记的目标数据,以放大监督学习的约束。但是,由于域移位问题,现有的UDA方法可能无法完全跨不同数据集的域差距对齐。我们认为,可以通过精心设计的特征分解来实现更好的域对齐。在本文中,我们提出了一种针对MDE的新型UDA方法,称为适应的学习功能分解(LFDA),该方法学会将功能空间分解为内容和样式组件。 LFDA仅尝试对齐内容组件,因为它具有较小的域间隙。同时,它不包括针对源域的样式组件,而不是训练主要任务。此外,LFDA使用单独的特征分布估计来进一步弥合域间隙。在三个域适应性MDE方案上进行了广泛的实验表明,与最先进的方法相比,所提出的方法可实现卓越的准确性和较低的计算成本。
translated by 谷歌翻译
在本文中,我们提出了USEGSCENE,该框架用于使用卷积神经网络对立体声相机图像的深度,光流和自我感动的无监督学习。我们的框架利用语义信息来改善深度和光流图的正则化,多模式融合和遮挡填充考虑动态刚性对象运动作为独立的SE(3)转换。此外,我们与纯照相匹配匹配互补,我们提出了连续图像之间语义特征,像素类别和对象实例边界的匹配。与以前的方法相反,我们提出了一个网络体系结构,该网络体系结构可以使用共享编码器共同预测所有输出,并允许在任务域上传递信息,例如,光流的预测可以从深度的预测中受益。此外,我们明确地了解网络内部的深度和光流遮挡图,这些图被利用,以改善这些区域的预测。我们在流行的Kitti数据集上介绍了结果,并表明我们的方法以大幅度的优于其他方法。
translated by 谷歌翻译
传统的深度传感器产生准确的真实世界深度估计,即使仅在仿真域训练的最先进的学习方法也会超越。由于在模拟域中容易获得地面真理深度,但在真实域中很难获得,因此我们提出了一种利用两个世界的最佳方法的方法。在本文中,我们展示了一个新的框架,ActiveZero,这是一个混合域学习解决方案,适用于不需要真实世界深度注释的活动立体宽度系统。首先,我们通过使用混合域学习策略来证明我们的方法对分发外数据的可转换性。在仿真域中,我们在形状原语数据集上使用监督差异丢失和自我监督损失的组合。相比之下,在真实域中,我们只在数据集中使用自我监督损失,这些损失是从培训仿真数据或测试真实数据的分发。其次,我们的方法介绍了一种名为Temporal IR的自我监督损失,以增加我们在难以感知地区的重新注入的鲁棒性和准确性。最后,我们展示了如何训练该方法的端到端,并且每个模块对于获得最终结果很重要。关于真实数据的广泛定性和定量评估表明了甚至可以击败商业深度传感器的最新状态。
translated by 谷歌翻译
本文提出了一个开放而全面的框架,以系统地评估对自我监督单眼估计的最新贡献。这包括训练,骨干,建筑设计选择和损失功能。该领域的许多论文在建筑设计或损失配方中宣称新颖性。但是,简单地更新历史系统的骨干会导致25%的相对改善,从而使其胜过大多数现有系统。对该领域论文的系统评估并不直接。在以前的论文中比较类似于类似的需要,这意味着评估协议中的长期错误在现场无处不在。许多论文可能不仅针对特定数据集进行了优化,而且还针对数据和评估标准的错误。为了帮助该领域的未来研究,我们发布了模块化代码库,可以轻松评估针对校正的数据和评估标准的替代设计决策。我们重新实施,验证和重新评估16个最先进的贡献,并引入一个新的数据集(SYNS-Patches),其中包含各种自然和城市场景中的密集室外深度地图。这允许计算复杂区域(例如深度边界)的信息指标。
translated by 谷歌翻译