在线立体声适应解决了由合成(训练)和真实(测试)数据集之间的不同环境引起的域移位问题,以迅速适应动态现实世界应用程序(例如自动驾驶)中的立体声模型。但是,以前的方法通常无法抵消与动态物体有关的特定区域,并具有更严重的环境变化。为了减轻此问题,我们建议将辅助点选择性网络纳入称为PointFix的元学习框架中,以提供对在线立体声适应的立体声模型的强大初始化。简而言之,我们的辅助网络学会通过通过元级别有效地反向传播局部信息来固定局部变体,从而实现基线模型的稳健初始化。该网络是模型 - 不合时宜的,因此可以以任何插件的方式以任何形式的架构使用。我们进行了广泛的实验,以在三个适应设置(例如短期,中和长期序列)下验证我们的方法的有效性。实验结果表明,辅助网络对基本立体声模型的适当初始化使我们的学习范式在推理时达到了最新的性能。
translated by 谷歌翻译
依靠深度​​监督或自我监督的学习,近年来,成对的单图像和稀疏深度数据的深度完成方法的先前方法令人印象深刻。但是,面对一个新的环境,该环境在网上发生测试数据,并且与RGB图像内容和深度稀疏性中的训练数据不同,受过训练的模型可能会遭受严重的性能下降。为了鼓励训练有素的模型在这种情况下运行良好,我们希望它能够连续有效地适应新的环境。为了实现这一目标,我们提出了Metacomp。它利用元学习技术在训练阶段模拟适应策略,然后以自我监督的方式将模型适应新环境。考虑到输入是多模式数据,由于两个模态数据的结构和形式存在显着差异,因此将模型同时改编到两个模态的变化将是一项挑战。因此,我们进一步建议将基本元学习训练中的适应程序分为两个步骤,第一个小时重点放在深度稀疏性上,而第二次参与图像含量。在测试过程中,我们采取相同的策略将模型在线调整为新的多模式数据。实验结果和全面的消融表明,我们的元素能够有效地适应新环境中的深度完成,并适应不同方式的变化。
translated by 谷歌翻译
最近,立体声匹配基准的记录由端到端视差网络不断破碎。但是,这些深层模型的域适应能力非常有限。解决此类问题,我们提出了一种名为ADASTEREO的新型域自适应方法,该方法旨在对准深度立体声匹配网络的多级表示。与以前的方法相比,我们的ADASTEREO实现了更标准,完整有效的域适应管道。首先,我们提出了一种用于输入图像级对准的非对抗渐进颜色传输算法。其次,我们设计一个有效的无参数成本归一化层,用于内部特征级别对齐。最后,提出了一种高效的辅助任务,自我监督的遮挡感知重建以缩小输出空间中的间隙。我们进行密集的消融研究和分解比较,以验证每个提出的模块的有效性。没有额外推断开销,只有略微增加训练复杂性,我们的Adastereo模型在多个基准上实现了最先进的跨领域性能,包括Kitti,Middrbury,Eth3D和驾驶员,甚至优于一些状态 - 与目标域的地面真相Fineetuned的差异网络。此外,基于两个额外的评估指标,从更多的观点进一步揭示了我们域 - 自适应立体声匹配管道的优越性。最后,我们证明我们的方法对各种域适配设置具有强大,并且可以轻松地集成到快速适应应用方案和现实世界部署中。
translated by 谷歌翻译
仅在合成数据上培训的最先进的立体声匹配网络通常无法概括到更具挑战性的真实数据域。在本文中,我们试图展开阻碍网络从跨域推广网络的重要因素:通过快捷学习的镜头。我们证明了立体声匹配网络中的特征表示的学习受合成数据伪影(快捷键属性)的严重影响。为了缓解此问题,我们提出了一种信息 - 理论快捷方式避免〜(ITSA)方法,以自动限制与要素表示的快捷键相关信息。因此,我们的提出方法通过最大限度地减少潜在特征的灵敏度来了解强大而快捷的不变性功能。为避免直接输入灵敏度优化的禁止计算成本,我们提出了一种有效但可行的算法来实现鲁棒性。我们表明,使用这种方法,纯粹对合成数据训练的最先进的立体声匹配网络可以有效地推广到具有挑战性和以前看不见的真实数据场景。重要的是,所提出的方法可以增强合成训练网络的鲁棒性,以至于它们优于他们的微调对应物(在实际数据上)以充分挑战域外立体数据集。
translated by 谷歌翻译
Existing deep learning based stereo matching methods either focus on achieving optimal performances on the target dataset while with poor generalization for other datasets or focus on handling the cross-domain generalization by suppressing the domain sensitive features which results in a significant sacrifice on the performance. To tackle these problems, we propose PCW-Net, a Pyramid Combination and Warping cost volume-based network to achieve good performance on both cross-domain generalization and stereo matching accuracy on various benchmarks. In particular, our PCW-Net is designed for two purposes. First, we construct combination volumes on the upper levels of the pyramid and develop a cost volume fusion module to integrate them for initial disparity estimation. Multi-scale receptive fields can be covered by fusing multi-scale combination volumes, thus, domain-invariant features can be extracted. Second, we construct the warping volume at the last level of the pyramid for disparity refinement. The proposed warping volume can narrow down the residue searching range from the initial disparity searching range to a fine-grained one, which can dramatically alleviate the difficulty of the network to find the correct residue in an unconstrained residue searching space. When training on synthetic datasets and generalizing to unseen real datasets, our method shows strong cross-domain generalization and outperforms existing state-of-the-arts with a large margin. After fine-tuning on the real datasets, our method ranks first on KITTI 2012, second on KITTI 2015, and first on the Argoverse among all published methods as of 7, March 2022. The code will be available at https://github.com/gallenszl/PCWNet.
translated by 谷歌翻译
尽管用被动传感器的深度提取的深度提取可以通过深度学习的显着改善,但是如果在训练过程中未观察到的环境,这些方法可能无法获得正确的深度。在部署时神经网络训练的在线改编,通过自我监督的学习提供了方便的解决方案,因为网络可以从不外部监督的情况下从部署的场景中学习。但是,在线适应会导致神经网络忘记了过去。因此,过去的培训浪费了,如果网络观察到过去的场景,该网络将无法提供良好的结果。这项工作涉及实用的在线适应,其中输入是在线且与时间相关的,并且培训是完全自欺欺人的。提出了没有任务界限的基于正规化和基于重播的方法,以避免在适应在线数据时灾难性遗忘。已经努力使建议的方法适合实际使用。我们将我们的方法应用于结构 - 动作和立体声深度估计。我们评估了包括室外,室内和合成场景在内的不同公共数据集的方法。与最近的方法相比,结构上的定性和定量结果既显示出较高的遗忘以及适应性的表现。此外,与在线适应进行微调相比,提出的方法会忽略不计的间接费用,这在可塑性,稳定性和适用性方面是一个适当的选择。当神经网络不受监督而不断学习时,提出的方法与人工通用情报范式更加内联。源代码可从https://github.com/umarkarim/cou_sfm和https://github.com/umarkarim/cou_stereo获得。
translated by 谷歌翻译
不同的环境对长期自主驾驶的户外强大的视觉感知构成了巨大挑战,以及对不同环境影响的学习算法的概括仍然是一个公开问题。虽然最近单眼深度预测得到了很好的研究,但很少有很多工作,专注于不同环境的强大的基于学习的深度预测,例如,由于缺乏如此多环境的现实世界数据集和基准测试,不断变化照明和季节。为此,基于CMU Visual Location DataSet建立了第一个跨赛季单眼深度预测数据集和基准赛季。为了基准不同环境下的深度估计性能,我们使用几个新配制的指标调查来自Kitti基准的代表性和最近的最先进的开源监督,自我监督和域适应深度预测方法。通过对所提出的数据集进行广泛的实验评估,定性和定量分析了多种环境对性能和鲁棒性的影响,表明即使微调,长期单眼深度预测也仍然具有挑战性。我们进一步提供了承诺的途径,即自我监督的培训和立体声几何约束有助于提高改变环境的鲁棒性。数据集可在https://seasondepth.github.io上找到,并且在https://github.com/seasondepth/seasondepth上提供基准工具包。
translated by 谷歌翻译
立体声匹配是许多视觉和机器人应用程序的基本构建块。信息性和简洁的成本量表示对于高准确性和效率的立体声匹配至关重要。在本文中,我们提出了一种新颖的成本量构建方法,该方法从相关线索中产生了注意力,以抑制冗余信息并增强串联量中与匹配相关的信息。为了产生可靠的注意力权重,我们提出了多层次自适应补丁匹配,以提高在不同差异区域以不同差异的匹配成本的独特性。提出的成本量被命名为注意串联量(ACV),可以将其无缝嵌入大多数立体声匹配网络中,结果网络可以使用更轻巧的聚合网络,同时实现更高的精度,例如。仅使用聚合网络的1/25参数可以实现GWCNET的更高精度。此外,我们根据ACV设计了一个高度准确的网络(ACVNET),该网络(ACVNET)在几个基准上实现了最先进的性能。
translated by 谷歌翻译
在开放世界中运行的机器人会遇到各种不同的环境,这些环境可能彼此之间有很大的不同。该域差距也对同时本地化和映射(SLAM)构成了挑战,它是导航的基本任务之一。尤其是,已知基于学习的大满贯方法概括地概括了看不见的环境,阻碍了其一般采用。在这项工作中,我们介绍了连续猛击的新任务,即从单个动态变化的环境扩展到终生的概念到几个截然不同的环境中的顺序部署。为了解决这一任务,我们提出了CL-SLAM利用双NETWORK体系结构来适应新环境,并保留有关先前访问的环境的知识。我们将CL-SLAM与基于学习的和经典的大满贯方法进行比较,并显示了利用在线数据的优势。我们在三个不同的数据集上广泛评估CL-SLAM,并证明它的表现优于几个受到现有基于基于学习的视觉探测方法的基准。我们在http://continual-slam.cs.uni-freiburg.de上公开提供工作代码。
translated by 谷歌翻译
Learning based methods have shown very promising results for the task of depth estimation in single images. However, most existing approaches treat depth prediction as a supervised regression problem and as a result, require vast quantities of corresponding ground truth depth data for training. Just recording quality depth data in a range of environments is a challenging problem. In this paper, we innovate beyond existing approaches, replacing the use of explicit depth data during training with easier-to-obtain binocular stereo footage.We propose a novel training objective that enables our convolutional neural network to learn to perform single image depth estimation, despite the absence of ground truth depth data. Exploiting epipolar geometry constraints, we generate disparity images by training our network with an image reconstruction loss. We show that solving for image reconstruction alone results in poor quality depth images. To overcome this problem, we propose a novel training loss that enforces consistency between the disparities produced relative to both the left and right images, leading to improved performance and robustness compared to existing approaches. Our method produces state of the art results for monocular depth estimation on the KITTI driving dataset, even outperforming supervised methods that have been trained with ground truth depth.
translated by 谷歌翻译
We present a unified formulation and model for three motion and 3D perception tasks: optical flow, rectified stereo matching and unrectified stereo depth estimation from posed images. Unlike previous specialized architectures for each specific task, we formulate all three tasks as a unified dense correspondence matching problem, which can be solved with a single model by directly comparing feature similarities. Such a formulation calls for discriminative feature representations, which we achieve using a Transformer, in particular the cross-attention mechanism. We demonstrate that cross-attention enables integration of knowledge from another image via cross-view interactions, which greatly improves the quality of the extracted features. Our unified model naturally enables cross-task transfer since the model architecture and parameters are shared across tasks. We outperform RAFT with our unified model on the challenging Sintel dataset, and our final model that uses a few additional task-specific refinement steps outperforms or compares favorably to recent state-of-the-art methods on 10 popular flow, stereo and depth datasets, while being simpler and more efficient in terms of model design and inference speed.
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
立体声匹配是许多视觉和机器人应用程序的基本构建块。信息性和简洁的成本量表示对于高准确性和效率的立体声匹配至关重要。在本文中,我们提出了一种新颖的成本量构建方法,称为“注意串联量”(ACV),该方法从相关线索中产生了注意力权重,以抑制冗余信息并增强串联体积中与匹配相关的信息。 ACV可以无缝嵌入大多数立体声匹配网络中,所得网络可以使用更轻巧的聚合网络,同时获得更高的精度。我们进一步设计了快速版本的ACV版本以实现实时性能,名为FAST-ACV,它产生了很高的可能性差异假设,以及来自低分辨率相关线索的相应注意力权重,可显着降低计算和记忆成本,同时保持令人满意的精度。我们快速ACV的核心思想是音量注意传播(VAP),它可以自动从上采样相关量中选择准确的相关值,并将这些准确的值传播到周围环境像素具有模棱两可的相关线索。此外,我们分别基于我们的ACV和Fast-ACV设计了高度准确的网络ACVNET和实时网络快速ACVNET,该网络在几个基准上实现了最新性能(即,我们的ACVNET排名第二,第二名在Kitti 2015和场景流以及所有已发布方法中的Kitti 2012和Eth3d的第三次;我们的快速ACVNET几乎优于现场流的所有最新实时方法,Kitti 2012和2015年,与此同时,与此同时更好的概括能力)
translated by 谷歌翻译
时间一致的深度估计对于诸如增强现实之类的实时应用至关重要。虽然立体声深度估计已经接受了显着的注意,导致逐帧的改进,虽然相对较少的工作集中在跨越帧的时间一致性。实际上,基于我们的分析,当前立体声深度估计技术仍然遭受不良时间一致性。由于并发对象和摄像机运动,在动态场景中稳定深度是挑战。在在线设置中,此过程进一步加剧,因为只有过去的帧可用。在本文中,我们介绍了一种技术,在线设置中的动态场景中产生时间一致的深度估计。我们的网络增强了具有新颖运动和融合网络的当前每帧立体声网络。通过预测每个像素SE3变换,运动网络占对象和相机运动。融合网络通过用回归权重聚合当前和先前预测来提高预测的一致性。我们在各种数据集中进行广泛的实验(合成,户外,室内和医疗)。在零射泛化和域微调中,我们证明我们所提出的方法在数量和定性的时间稳定和每个帧精度方面优于竞争方法。我们的代码将在线提供。
translated by 谷歌翻译
立体声Vision是一种有效的深度估算技术,具有广泛适用性在自主城市和公路驾驶中。虽然已经为立体声开发了各种基于深度学习的方法,但是具有固定基线的双目设置的输入数据受到限制。解决这样的问题,我们介绍了一个端到端网络,用于处理来自三曲面的数据,这是窄和宽立体对的组合。在这种设计中,用网络的共享权重和中间融合处理两对具有公共参考图像的双目数据。我们还提出了一种用于合并两个基线的4D数据的引导添加方法。此外,介绍了实际和合成数据集的迭代顺序自我监督和监督学习,使三曲系统的训练实用,无需实际数据集的地面真实数据。实验结果表明,三曲差距网络超越了个别对被馈送到类似架构中的场景。代码和数据集:https://github.com/cogsys-tuebingen/tristeReonet。
translated by 谷歌翻译
从测试阶段的单个初始示例跟踪视觉对象已被广泛地作为一个/几次射击问题,即初始适应的一次性学习和在线适应的少量学习。近期几次拍摄的在线适应方法通过在离线阶段的复杂元学习优化中,从大量注释的训练数据中纳入了现有知识。这有助于在线深度跟踪器实现快速适应并降低跟踪的过度风险。在本文中,我们提出了一个简单但有效的递归最小二乘估计估计者辅助在线学习方法,但在不需要离线培训的情况下进行了几次拍摄的在线适应。它允许内置的内存保留机制进行模型,以记住关于之前看到的对象的知识,因此可以安全地从训练中安全地移除所看到的数据。这也与在防止灾难性遗忘的新出现的连续学习领域带有某些相似之处。这种机制使我们能够揭示现代在线深度跟踪器的力量,而不会产生过多的计算成本。我们根据在线学习家庭中的两个网络评估我们的方法,即在RT-MDNET中的多层的rceptrons和DIMP中的卷积神经网络。对若干具有挑战性的跟踪基准的一致性改进展示了其有效性和效率。
translated by 谷歌翻译
在立体声视觉中,自相似或平淡的区域可能使得很难匹配两个图像之间的补丁。基于主动立体声的方法通过在场景上投射伪随机模式来减轻此问题,以便可以在没有歧义的情况下识别图像对的每个贴片。但是,投影模式显着改变了图像的外观。如果这种模式充当对抗性噪声的一种形式,则可能对基于深度学习的方法的性能产生负面影响,这现在是密集立体声视觉的事实上的标准。在本文中,我们提出了Active-Passive Simstereo数据集和相应的基准测试,以评估立体声匹配算法的被动立体声和活动立体声图像之间的性能差距。使用提出的基准测试和额外的消融研究,我们表明特征提取和匹配的模块选择了20个选择的基于深度学习的立体声匹配方法,可以推广到主动立体声,没有问题。但是,由于二十个体系结构(ACVNet,Cascadestereo和Stereonet)中三个的差异细化模块由于对输入图像的外观的依赖而受到主动立体声模式的负面影响。
translated by 谷歌翻译
从视频中获得地面真相标签很具有挑战性,因为在像素流标签的手动注释非常昂贵且费力。此外,现有的方法试图将合成数据集的训练模型调整到真实的视频中,该视频不可避免地遭受了域差异并阻碍了现实世界应用程序的性能。为了解决这些问题,我们提出了RealFlow,这是一个基于期望最大化的框架,可以直接从任何未标记的现实视频中创建大规模的光流数据集。具体而言,我们首先估计一对视频帧之间的光流,然后根据预测流从该对中合成新图像。因此,新图像对及其相应的流可以被视为新的训练集。此外,我们设计了一种逼真的图像对渲染(RIPR)模块,该模块采用软磁性裂口和双向孔填充技术来减轻图像合成的伪像。在E-Step中,RIPR呈现新图像以创建大量培训数据。在M-Step中,我们利用生成的训练数据来训练光流网络,该数据可用于估计下一个E步骤中的光流。在迭代学习步骤中,流网络的能力逐渐提高,流量的准确性以及合成数据集的质量也是如此。实验结果表明,REALFLOW的表现优于先前的数据集生成方法。此外,基于生成的数据集,我们的方法与受监督和无监督的光流方法相比,在两个标准基准测试方面达到了最先进的性能。我们的代码和数据集可从https://github.com/megvii-research/realflow获得
translated by 谷歌翻译
本文提出了一个开放而全面的框架,以系统地评估对自我监督单眼估计的最新贡献。这包括训练,骨干,建筑设计选择和损失功能。该领域的许多论文在建筑设计或损失配方中宣称新颖性。但是,简单地更新历史系统的骨干会导致25%的相对改善,从而使其胜过大多数现有系统。对该领域论文的系统评估并不直接。在以前的论文中比较类似于类似的需要,这意味着评估协议中的长期错误在现场无处不在。许多论文可能不仅针对特定数据集进行了优化,而且还针对数据和评估标准的错误。为了帮助该领域的未来研究,我们发布了模块化代码库,可以轻松评估针对校正的数据和评估标准的替代设计决策。我们重新实施,验证和重新评估16个最先进的贡献,并引入一个新的数据集(SYNS-Patches),其中包含各种自然和城市场景中的密集室外深度地图。这允许计算复杂区域(例如深度边界)的信息指标。
translated by 谷歌翻译
传统的深度传感器产生准确的真实世界深度估计,即使仅在仿真域训练的最先进的学习方法也会超越。由于在模拟域中容易获得地面真理深度,但在真实域中很难获得,因此我们提出了一种利用两个世界的最佳方法的方法。在本文中,我们展示了一个新的框架,ActiveZero,这是一个混合域学习解决方案,适用于不需要真实世界深度注释的活动立体宽度系统。首先,我们通过使用混合域学习策略来证明我们的方法对分发外数据的可转换性。在仿真域中,我们在形状原语数据集上使用监督差异丢失和自我监督损失的组合。相比之下,在真实域中,我们只在数据集中使用自我监督损失,这些损失是从培训仿真数据或测试真实数据的分发。其次,我们的方法介绍了一种名为Temporal IR的自我监督损失,以增加我们在难以感知地区的重新注入的鲁棒性和准确性。最后,我们展示了如何训练该方法的端到端,并且每个模块对于获得最终结果很重要。关于真实数据的广泛定性和定量评估表明了甚至可以击败商业深度传感器的最新状态。
translated by 谷歌翻译