Optical flow, which computes the apparent motion from a pair of video frames, is a critical tool for scene motion estimation. Correlation volume is the central component of optical flow computational neural models. It estimates the pairwise matching costs between cross-frame features, and is then used to decode optical flow. However, traditional correlation volume is frequently noisy, outlier-prone, and sensitive to motion blur. We observe that, although the recent RAFT algorithm also adopts the traditional correlation volume, its additional context encoder provides semantically representative features to the flow decoder, implicitly compensating for the deficiency of the correlation volume. However, the benefits of this context encoder has been barely discussed or exploited. In this paper, we first investigate the functionality of RAFT's context encoder, then propose a new Context Guided Correlation Volume (CGCV) via gating and lifting schemes. CGCV can be universally integrated with RAFT-based flow computation methods for enhanced performance, especially effective in the presence of motion blur, de-focus blur and atmospheric effects. By incorporating the proposed CGCV with previous Global Motion Aggregation (GMA) method, at a minor cost of 0.5% extra parameters, the rank of GMA is lifted by 23 places on KITTI 2015 Leader Board, and 3 places on Sintel Leader Board. Moreover, at a similar model size, our correlation volume achieves competitive or superior performance to state of the art peer supervised models that employ Transformers or Graph Reasoning, as verified by extensive experiments.
translated by 谷歌翻译
We introduce Recurrent All-Pairs Field Transforms (RAFT), a new deep network architecture for optical flow. RAFT extracts perpixel features, builds multi-scale 4D correlation volumes for all pairs of pixels, and iteratively updates a flow field through a recurrent unit that performs lookups on the correlation volumes. RAFT achieves stateof-the-art performance. On KITTI, RAFT achieves an F1-all error of 5.10%, a 16% error reduction from the best published result (6.10%). On Sintel (final pass), RAFT obtains an end-point-error of 2.855 pixels, a 30% error reduction from the best published result (4.098 pixels). In addition, RAFT has strong cross-dataset generalization as well as high efficiency in inference time, training speed, and parameter count. Code is available at https://github.com/princeton-vl/RAFT.
translated by 谷歌翻译
基于学习的光流量估计已经与成本量的管道管道,具有用于流回归的卷曲,其固有地限于本地相关性,因此很难解决大型位移的长期挑战。为了缓解这一点,通过大量迭代细化产生一系列流动更新,实现最先进的方法,即筏,逐渐提高其预测的质量,实现了显着的性能,但减慢推理速度。为了实现高精度和效率的光学流量估计,我们通过将光学流作为全球匹配问题重新重新重新重新匹配,完全改造主导流回归管道。具体而言,我们提出了一个GMFlow框架,它由三个主要组件组成:用于功能增强的自定义变压器,全局特征匹配的相关和软邮件,以及用于流传播的自我注意层。此外,我们进一步介绍了一种改进步骤,该步骤在较高分辨率下重复使用GMFlow以进行残余流量预测。我们的新框架优于32次迭代RAFT在挑战的Sintel基准测试中的性能,同时仅使用一个细化并更快地运行,为高效和准确的光学流量估算提供了新的可能性。代码将在https://github.com/haofeixu/gmflow上使用。
translated by 谷歌翻译
我们介绍了光流变压器,被称为流动型,这是一种基于变压器的神经网络体系结构,用于学习光流。流动形式将图像对构建的4D成本量构成,将成本令牌编码为成本记忆,并在新颖的潜在空间中使用备用组变压器(AGT)层编码成本记忆,并通过反复的变压器解码器与动态位置成本查询来解码成本记忆。在SINTEL基准测试中,流动型在干净和最终通行证上达到1.144和2.183平均末端PONIT-ERROR(AEPE),从最佳发布的结果(1.388和2.47)降低了17.6%和11.6%的误差。此外,流程度还达到了强大的概括性能。在不接受Sintel的培训的情况下,FlowFormer在Sintel训练套装清洁通行证上达到了0.95 AEPE,优于最佳发布结果(1.29),提高了26.9%。
translated by 谷歌翻译
We present a unified formulation and model for three motion and 3D perception tasks: optical flow, rectified stereo matching and unrectified stereo depth estimation from posed images. Unlike previous specialized architectures for each specific task, we formulate all three tasks as a unified dense correspondence matching problem, which can be solved with a single model by directly comparing feature similarities. Such a formulation calls for discriminative feature representations, which we achieve using a Transformer, in particular the cross-attention mechanism. We demonstrate that cross-attention enables integration of knowledge from another image via cross-view interactions, which greatly improves the quality of the extracted features. Our unified model naturally enables cross-task transfer since the model architecture and parameters are shared across tasks. We outperform RAFT with our unified model on the challenging Sintel dataset, and our final model that uses a few additional task-specific refinement steps outperforms or compares favorably to recent state-of-the-art methods on 10 popular flow, stereo and depth datasets, while being simpler and more efficient in terms of model design and inference speed.
translated by 谷歌翻译
光学流量估计是视频分析领域的一个重要而有挑战性问题。卷积神经网络的不同语义级别/层的特征可以提供不同粒度的信息。为了利用如此灵活和全面的信息,我们提出了一个半监督的特征金字塔形相关和残余重建网络(FPCR-Net),用于框架对的光学流量估计。它由两个主要模块组成:金字塔相关映射和剩余重建。金字塔相关映射模块利用全局/本地补丁的多尺度相关性来通过聚合不同尺度的特征来形成多级成本卷。剩余重建模块旨在重建每个阶段中更精细的光学流的子带高频残差。基于金字塔相关映射,我们进一步提出了相关 - 扭曲 - 归一化(CWN)模块,以有效地利用相关性依赖性。实验结果表明,该方案在针对竞争基线方法的平均终点误差(AEE)方面,实现了最先进的性能,改善了0.80,1.15和0.10 - Flownet2,LiteFlowNet和PWC-Net Sintel DataSet的最终通过。
translated by 谷歌翻译
We present a compact but effective CNN model for optical flow, called PWC-Net. PWC-Net has been designed according to simple and well-established principles: pyramidal processing, warping, and the use of a cost volume. Cast in a learnable feature pyramid, PWC-Net uses the current optical flow estimate to warp the CNN features of the second image. It then uses the warped features and features of the first image to construct a cost volume, which is processed by a CNN to estimate the optical flow. PWC-Net is 17 times smaller in size and easier to train than the recent FlowNet2 model. Moreover, it outperforms all published optical flow methods on the MPI Sintel final pass and KITTI 2015 benchmarks, running at about 35 fps on Sintel resolution (1024×436) images. Our models are available on https://github.com/NVlabs/PWC-Net.
translated by 谷歌翻译
Optical flow estimation is a classical yet challenging task in computer vision. One of the essential factors in accurately predicting optical flow is to alleviate occlusions between frames. However, it is still a thorny problem for current top-performing optical flow estimation methods due to insufficient local evidence to model occluded areas. In this paper, we propose the Super Kernel Flow Network (SKFlow), a CNN architecture to ameliorate the impacts of occlusions on optical flow estimation. SKFlow benefits from the super kernels which bring enlarged receptive fields to complement the absent matching information and recover the occluded motions. We present efficient super kernel designs by utilizing conical connections and hybrid depth-wise convolutions. Extensive experiments demonstrate the effectiveness of SKFlow on multiple benchmarks, especially in the occluded areas. Without pre-trained backbones on ImageNet and with a modest increase in computation, SKFlow achieves compelling performance and ranks $\textbf{1st}$ among currently published methods on the Sintel benchmark. On the challenging Sintel clean and final passes (test), SKFlow surpasses the best-published result in the unmatched areas ($7.96$ and $12.50$) by $9.09\%$ and $7.92\%$. The code is available at \href{https://github.com/littlespray/SKFlow}{https://github.com/littlespray/SKFlow}.
translated by 谷歌翻译
在本文中,通过以自我监督的方式将基于几何的方法纳入深度学习架构来实现强大的视觉测量(VO)的基本问题。通常,基于纯几何的算法与特征点提取和匹配中的深度学习不那么稳健,但由于其成熟的几何理论,在自我运动估计中表现良好。在这项工作中,首先提出了一种新颖的光学流量网络(PANET)内置于位置感知机构。然后,提出了一种在没有典型网络的情况下共同估计深度,光学流动和自我运动来学习自我运动的新系统。所提出的系统的关键组件是一种改进的束调节模块,其包含多个采样,初始化的自我运动,动态阻尼因子调整和Jacobi矩阵加权。另外,新颖的相对光度损耗函数先进以提高深度估计精度。该实验表明,所提出的系统在基于基于基于基于基于基于基于基于学习的基于学习的方法之间的深度,流量和VO估计方面不仅优于其他最先进的方法,而且与几何形状相比,也显着提高了鲁棒性 - 基于,基于学习和混合VO系统。进一步的实验表明,我们的模型在挑战室内(TMU-RGBD)和室外(KAIST)场景中实现了出色的泛化能力和性能。
translated by 谷歌翻译
点云的3D场景流量估计是计算机视觉中的低级3D运动感知任务。流嵌入是场景流估计中的一种常用技术,它编码两个连续帧之间的点运动。因此,对于流动嵌入捕获运动的正确总体方向是至关重要的。但是,以前的作品仅在本地搜索以确定软信号,而忽略了遥远的点,而遥远的点是实际匹配的点。另外,估计的对应关系通常来自相邻点云的正向,并且可能与从向后方向获得的估计对应关系不一致。为了解决这些问题,我们提出了一个新颖的全能嵌入层,并在初始场景流量估计期间具有向后的可靠性验证。此外,我们研究并比较了3D场景流网络的关键组件中的几个设计选择,包括点相似度计算,预测变量的输入元素以及预测变量和改进级别的设计。仔细选择了最有效的设计后,我们能够提出一个模型,该模型可以在FlyingThings3D和Kitti场景流数据集上实现最新性能。我们提出的模型超过了所有现有方法的FlyterThings3D数据集至少38.2%,而EPE3D Metric的Kitti场景流数据集则超过了24.7%。我们在https://github.com/irmvlab/3dflow上发布代码。
translated by 谷歌翻译
时间一致的深度估计对于诸如增强现实之类的实时应用至关重要。虽然立体声深度估计已经接受了显着的注意,导致逐帧的改进,虽然相对较少的工作集中在跨越帧的时间一致性。实际上,基于我们的分析,当前立体声深度估计技术仍然遭受不良时间一致性。由于并发对象和摄像机运动,在动态场景中稳定深度是挑战。在在线设置中,此过程进一步加剧,因为只有过去的帧可用。在本文中,我们介绍了一种技术,在线设置中的动态场景中产生时间一致的深度估计。我们的网络增强了具有新颖运动和融合网络的当前每帧立体声网络。通过预测每个像素SE3变换,运动网络占对象和相机运动。融合网络通过用回归权重聚合当前和先前预测来提高预测的一致性。我们在各种数据集中进行广泛的实验(合成,户外,室内和医疗)。在零射泛化和域微调中,我们证明我们所提出的方法在数量和定性的时间稳定和每个帧精度方面优于竞争方法。我们的代码将在线提供。
translated by 谷歌翻译
培训细节和数据集对于筏等最新的光流模型有多重要?它们会概括吗?为了探索这些问题,而不是开发新的模型,我们将重新访问三个突出的模型,即PWC-NET,IRR-PWC和RAFT,并采用一组常见的现代培训技术和数据集,并观察到显着的性能增长,证明了重要性和普遍性这些培训细节。我们新训练的PWC-NET和IRR-PWC模型显示出惊人的改进,与Sintel和Kitti 2015 Benchmarks相比,最高30%的结果与原始发布的结果相比。他们的表现胜过2015年Kitti的最新流程1D,而推断过程中的速度快3倍。我们新训练的筏子在2015年的Kitti上获得了4.31%的成绩,比写作时所有已发表的光流方法更准确。我们的结果表明,分析光流方法的性能提高时,分离模型,训练技术和数据集的贡献的好处。我们的源代码将公开可用。
translated by 谷歌翻译
Recent works have shown that optical flow can be learned by deep networks from unlabelled image pairs based on brightness constancy assumption and smoothness prior. Current approaches additionally impose an augmentation regularization term for continual self-supervision, which has been proved to be effective on difficult matching regions. However, this method also amplify the inevitable mismatch in unsupervised setting, blocking the learning process towards optimal solution. To break the dilemma, we propose a novel mutual distillation framework to transfer reliable knowledge back and forth between the teacher and student networks for alternate improvement. Concretely, taking estimation of off-the-shelf unsupervised approach as pseudo labels, our insight locates at defining a confidence selection mechanism to extract relative good matches, and then add diverse data augmentation for distilling adequate and reliable knowledge from teacher to student. Thanks to the decouple nature of our method, we can choose a stronger student architecture for sufficient learning. Finally, better student prediction is adopted to transfer knowledge back to the efficient teacher without additional costs in real deployment. Rather than formulating it as a supervised task, we find that introducing an extra unsupervised term for multi-target learning achieves best final results. Extensive experiments show that our approach, termed MDFlow, achieves state-of-the-art real-time accuracy and generalization ability on challenging benchmarks. Code is available at https://github.com/ltkong218/MDFlow.
translated by 谷歌翻译
立体声匹配是许多视觉和机器人应用程序的基本构建块。信息性和简洁的成本量表示对于高准确性和效率的立体声匹配至关重要。在本文中,我们提出了一种新颖的成本量构建方法,称为“注意串联量”(ACV),该方法从相关线索中产生了注意力权重,以抑制冗余信息并增强串联体积中与匹配相关的信息。 ACV可以无缝嵌入大多数立体声匹配网络中,所得网络可以使用更轻巧的聚合网络,同时获得更高的精度。我们进一步设计了快速版本的ACV版本以实现实时性能,名为FAST-ACV,它产生了很高的可能性差异假设,以及来自低分辨率相关线索的相应注意力权重,可显着降低计算和记忆成本,同时保持令人满意的精度。我们快速ACV的核心思想是音量注意传播(VAP),它可以自动从上采样相关量中选择准确的相关值,并将这些准确的值传播到周围环境像素具有模棱两可的相关线索。此外,我们分别基于我们的ACV和Fast-ACV设计了高度准确的网络ACVNET和实时网络快速ACVNET,该网络在几个基准上实现了最新性能(即,我们的ACVNET排名第二,第二名在Kitti 2015和场景流以及所有已发布方法中的Kitti 2012和Eth3d的第三次;我们的快速ACVNET几乎优于现场流的所有最新实时方法,Kitti 2012和2015年,与此同时,与此同时更好的概括能力)
translated by 谷歌翻译
视频对象细分(VOS)是视频理解的基础。基于变压器的方法在半监督VOS上显示出显着的性能改善。但是,现有的工作面临着挑战在彼此近距离接近视觉上类似对象的挑战。在本文中,我们提出了一种新型的双边注意力变压器,以进行半监督VO的运动出现空间(蝙蝠侠)。它通过新型的光流校准模块在视频中捕获对象运动,该模块将分割面膜与光流估计融合在一起,以改善对象内光流平滑度并减少物体边界处的噪声。然后在我们的新型双边注意力中采用了这种校准的光流,该流动流在相邻双边空间中的查询和参考帧之间的对应关系考虑,考虑到运动和外观。广泛的实验通过在所有四个流行的VOS基准上胜过所有现有最新的实验:YouTube-VOS 2019(85.0%),YouTube-VOS 2018(85.3%),Davis 2017VAL/TESTDEV(86.2.2 %/82.2%)和戴维斯(Davis)2016(92.5%)。
translated by 谷歌翻译
半监督视频对象分割(VOS)的任务已经大大提升,最先进的性能是通过密集的基于匹配的方法进行的。最近的方法利用时空存储器(STM)网络并学习从所有可用源检索相关信息,其中使用对象掩模的过去帧形成外部存储器,并且使用存储器中的掩码信息分段为查询作为查询的当前帧进行分割。然而,当形成存储器并执行匹配时,这些方法仅在忽略运动信息的同时利用外观信息。在本文中,我们倡导\ emph {motion信息}的返回,并提出了一个用于半监督VOS的运动不确定性感知框架(MUMET)。首先,我们提出了一种隐含的方法来学习相邻帧之间的空间对应,构建相关成本卷。在构建密集的对应期间处理遮挡和纹理区域的挑战性案例,我们将不确定性纳入密集匹配并实现运动不确定性感知特征表示。其次,我们介绍了运动感知的空间注意模块,以有效地融合了语义特征的运动功能。关于具有挑战性的基准的综合实验表明,\ TextBF {\ Textit {使用少量数据并将其与强大的动作信息组合可以带来显着的性能Boost}}。我们只使用Davis17达到$ \ Mathcal {} $培训{76.5 \%} $ \ mathcal {f} $培训,这显着优于低数据协议下的\ texit {sota}方法。 \ textit {代码将被释放。}
translated by 谷歌翻译
了解3D场景是自治代理的关键先决条件。最近,LIDAR和其他传感器已经以点云帧的时间序列形式提供了大量数据。在这项工作中,我们提出了一种新的问题 - 顺序场景流量估计(SSFE) - 该旨在预测给定序列中所有点云的3D场景流。这与先前研究的场景流程估计问题不同,这侧重于两个框架。我们介绍SPCM-NET架构,通过计算相邻点云之间的多尺度时空相关性,然后通过订单不变的复制单元计算多级时空相关性来解决这个问题。我们的实验评估证实,与仅使用两个框架相比,点云序列的复发处理导致SSFE明显更好。另外,我们证明可以有效地修改该方法,用于顺序点云预测(SPF),一种需要预测未来点云帧的相关问题。我们的实验结果是使用SSFE和SPF的新基准进行评估,包括合成和实时数据集。以前,场景流估计的数据集仅限于两个帧。我们为这些数据集提供非琐碎的扩展,用于多帧估计和预测。由于难以获得现实世界数据集的地面真理运动,我们使用自我监督的培训和评估指标。我们认为,该基准将在该领域的未来研究中关键。将可访问基准和型号的所有代码。
translated by 谷歌翻译
我们提出了一种称为基于DNN的基于DNN的框架,称为基于增强的相关匹配的视频帧插值网络,以支持4K的高分辨率,其具有大规模的运动和遮挡。考虑到根据分辨率的网络模型的可扩展性,所提出的方案采用经常性金字塔架构,该架构分享每个金字塔层之间的参数进行光学流量估计。在所提出的流程估计中,通过追踪具有最大相关性的位置来递归地改进光学流。基于前扭曲的相关匹配可以通过排除遮挡区域周围的错误扭曲特征来提高流量更新的准确性。基于最终双向流动,使用翘曲和混合网络合成任意时间位置的中间帧,通过细化网络进一步改善。实验结果表明,所提出的方案在4K视频数据和低分辨率基准数据集中占据了之前的工作,以及具有最小型号参数的客观和主观质量。
translated by 谷歌翻译
尽管运动补偿大大提高了视频质量,但单独执行运动补偿和视频脱张需要大量的计算开销。本文提出了一个实时视频Deblurring框架,该框架由轻巧的多任务单元组成,该单元以有效的方式支持视频脱张和运动补偿。多任务单元是专门设计的,用于使用单个共享网络处理两个任务的大部分,并由多任务详细网络和简单的网络组成,用于消除和运动补偿。多任务单元最大程度地减少了将运动补偿纳入视频Deblurring的成本,并实现了实时脱毛。此外,通过堆叠多个多任务单元,我们的框架在成本和过度质量之间提供了灵活的控制。我们通过实验性地验证了方法的最先进的质量,与以前的方法相比,该方法的运行速度要快得多,并显示了实时的实时性能(在DVD数据集中测量了30.99db@30fps)。
translated by 谷歌翻译
我们提出了一个新颖的建筑,以实现密集的对应关系。当前的最新方法是基于变压器的方法,它们专注于功能描述符或成本量集合。但是,尽管关节聚集会通过提供一个人(即图像的结构或语义信息)或像素匹配的相似性来提高一个或另一个,但并非两者都聚集,但并非两者都汇总,尽管关节聚集会相互促进。在这项工作中,我们提出了一个基于变压器的新型网络,该网络以利用其互补信息的方式交织了两种形式的聚合。具体而言,我们设计了一个自我发项层,该层利用描述符来消除嘈杂的成本量,并且还利用成本量以促进准确匹配的方式汇总特征。随后的跨意思层执行进一步的聚合,该聚集在图像的描述上,并由早期层的聚合输出有助于。我们通过层次处理进一步提高了性能,在该处理中,更粗糙的聚合指导那些处于优质水平的过程。我们评估了所提出的方法对密集匹配任务的有效性,并在所有主要基准上实现最先进的性能。还提供了广泛的消融研究来验证我们的设计选择。
translated by 谷歌翻译