智能论文笔记

Less is More: Consistent Video Depth Estimation with Masked Frames Modeling

Yiran Wang , Zhiyu Pan , Xingyi Li , Zhiguo Cao , Ke Xian , Jianming Zhang

分类：计算机视觉

2022-07-31

时间一致性是视频深度估计的主要挑战。以前的作品基于额外的光流或相机姿势，这是耗时的。相比之下，我们获得了较少信息的一致性。由于固有的视频存在着沉重的时间冗余，因此可以从附近的框架中恢复缺失的框架。受此启发的启发，我们提出了框架屏蔽网络（FMNET），这是一种空间 - 速度变压器网络，可根据其相邻框架预测蒙版框架的深度。通过重建掩盖的时间特征，FMNET可以学习固有的框架间相关性，从而导致一致性。与先前的艺术相比，实验结果表明，我们的方法可以达到可比的空间准确性和更高的时间一致性，而没有任何其他信息。我们的工作为一致的视频深度估计提供了新的视角。

translated by 谷歌翻译

MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth Estimation for Indoor Environments

Runze Li , Pan Ji , Yi Xu , Bir Bhanu

分类：计算机视觉

2022-07-18

近年来，尤其是在户外环境中，自我监督的单眼深度估计已取得了重大进展。但是，在大多数现有数据被手持设备捕获的室内场景中，深度预测结果无法满足。与室外环境相比，使用自我监督的方法估算室内环境的单眼视频深度，导致了两个额外的挑战：（i）室内视频序列的深度范围在不同的框架上有很大变化，使深度很难进行。网络以促进培训的一致深度线索；（ii）用手持设备记录的室内序列通常包含更多的旋转运动，这使姿势网络难以预测准确的相对摄像头姿势。在这项工作中，我们通过对这些挑战进行特殊考虑并巩固了一系列良好实践，以提高自我监督的单眼深度估计室内环境的表现，从而提出了一种新颖的框架单声道++。首先，提出了具有基于变压器的比例回归网络的深度分解模块，以明确估算全局深度尺度因子，预测的比例因子可以指示最大深度值。其次，我们不像以前的方法那样使用单阶段的姿势估计策略，而是建议利用残留姿势估计模块来估计相对摄像机在连续迭代的跨帧中构成。第三，为了为我们的残留姿势估计模块纳入广泛的坐标指南，我们建议直接在输入上执行坐标卷积编码，以实现姿势网络。提出的方法在各种基准室内数据集（即Euroc Mav，Nyuv2，扫描仪和7片）上进行了验证，证明了最先进的性能。

translated by 谷歌翻译

P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose Estimation

Wenkang Shan , Zhenhua Liu , Xinfeng Zhang , Shanshe Wang , Siwei Ma , Wen Gao

分类：计算机视觉

2022-03-15

本文介绍了一个新型的预训练的空间时间多对一（p-STMO）模型，用于2D到3D人类姿势估计任务。为了减少捕获空间和时间信息的困难，我们将此任务分为两个阶段：预训练（I期）和微调（II阶段）。在第一阶段，提出了一个自我监督的预训练子任务，称为蒙面姿势建模。输入序列中的人关节在空间和时间域中随机掩盖。利用denoising自动编码器的一般形式以恢复原始的2D姿势，并且编码器能够以这种方式捕获空间和时间依赖性。在第二阶段，将预训练的编码器加载到STMO模型并进行微调。编码器之后是一个多对一的框架聚合器，以预测当前帧中的3D姿势。尤其是，MLP块被用作STMO中的空间特征提取器，其性能比其他方法更好。此外，提出了一种时间下采样策略，以减少数据冗余。在两个基准上进行的广泛实验表明，我们的方法优于较少参数和较少计算开销的最先进方法。例如，我们的P-STMO模型在使用CPN作为输入的2D姿势时，在Human3.6M数据集上达到42.1mm MPJPE。同时，它为最新方法带来了1.5-7.1倍的速度。代码可在https://github.com/patrick-swk/p-stmo上找到。

translated by 谷歌翻译

On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation

Haimei Zhao , Jing Zhang , Zhuo Chen , Bo Yuan , Dacheng Tao

分类：计算机视觉

2022-09-19

通过探索跨视图一致性，例如，光度计一致性和3D点云的一致性，在自我监督的单眼深度估计（SS-MDE）中取得了显着进步。但是，它们非常容易受到照明差异，遮挡，无纹理区域以及移动对象的影响，使它们不够强大，无法处理各种场景。为了应对这一挑战，我们在本文中研究了两种强大的跨视图一致性。首先，相邻帧之间的空间偏移场是通过通过可变形对齐来从其邻居重建参考框架来获得的，该比对通过深度特征对齐（DFA）损失来对齐时间深度特征。其次，计算每个参考框架及其附近框架的3D点云并转换为体素空间，在其中计算每个体素中的点密度并通过体素密度比对（VDA）损耗对齐。通过这种方式，我们利用了SS-MDE的深度特征空间和3D体素空间的时间连贯性，将“点对点”对齐范式转移到“区域到区域”。与光度一致性损失以及刚性点云对齐损失相比，由于深度特征的强大代表能力以及对上述挑战的素密度的高公差，提出的DFA和VDA损失更加强大。几个户外基准的实验结果表明，我们的方法的表现优于当前最新技术。广泛的消融研究和分析验证了拟议损失的有效性，尤其是在具有挑战性的场景中。代码和型号可在https://github.com/sunnyhelen/rcvc-depth上找到。

translated by 谷歌翻译

CbwLoss: Constrained Bidirectional Weighted Loss for Self-supervised Learning of Depth and Pose

Fei Wang , Jun Cheng , Penglei Liu

分类：计算机视觉

2022-12-12

Photometric differences are widely used as supervision signals to train neural networks for estimating depth and camera pose from unlabeled monocular videos. However, this approach is detrimental for model optimization because occlusions and moving objects in a scene violate the underlying static scenario assumption. In addition, pixels in textureless regions or less discriminative pixels hinder model training. To solve these problems, in this paper, we deal with moving objects and occlusions utilizing the difference of the flow fields and depth structure generated by affine transformation and view synthesis, respectively. Secondly, we mitigate the effect of textureless regions on model optimization by measuring differences between features with more semantic and contextual information without adding networks. In addition, although the bidirectionality component is used in each sub-objective function, a pair of images are reasoned about only once, which helps reduce overhead. Extensive experiments and visual analysis demonstrate the effectiveness of the proposed method, which outperform existing state-of-the-art self-supervised methods under the same conditions and without introducing additional auxiliary information.

translated by 谷歌翻译

Channel-Wise Attention-Based Network for Self-Supervised Monocular Depth Estimation

Jiaxing Yan , Hong Zhao , Penghui Bu , YuSheng Jin

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-24

自我监督的学习已经为单眼深度估计显示出非常有希望的结果。场景结构和本地细节都是高质量深度估计的重要线索。最近的作品遭受了场景结构的明确建模，并正确处理细节信息，这导致了预测结果中的性能瓶颈和模糊人工制品。在本文中，我们提出了具有两个有效贡献的通道 - 明智的深度估计网络（Cadepth-Net）：1）结构感知模块采用自我关注机制来捕获远程依赖性并聚合在信道中的识别特征尺寸，明确增强了场景结构的感知，获得了更好的场景理解和丰富的特征表示。 2）细节强调模块重新校准通道 - 方向特征映射，并选择性地强调信息性功能，旨在更有效地突出至关重要的本地细节信息和熔断器不同的级别功能，从而更精确，更锐化深度预测。此外，广泛的实验验证了我们方法的有效性，并表明我们的模型在基蒂基准和Make3D数据集中实现了最先进的结果。

translated by 谷歌翻译

Digging Into Self-Supervised Monocular Depth Estimation

Clément Godard , Oisin Mac Aodha , Michael Firman , Gabriel Brostow

分类：

2018-06-04

Per-pixel ground-truth depth data is challenging to acquire at scale. To overcome this limitation, self-supervised learning has emerged as a promising alternative for training models to perform monocular depth estimation. In this paper, we propose a set of improvements, which together result in both quantitatively and qualitatively improved depth maps compared to competing self-supervised methods.Research on self-supervised monocular training usually explores increasingly complex architectures, loss functions, and image formation models, all of which have recently helped to close the gap with fully-supervised methods. We show that a surprisingly simple model, and associated design choices, lead to superior predictions. In particular, we propose (i) a minimum reprojection loss, designed to robustly handle occlusions, (ii) a full-resolution multi-scale sampling method that reduces visual artifacts, and (iii) an auto-masking loss to ignore training pixels that violate camera motion assumptions. We demonstrate the effectiveness of each component in isolation, and show high quality, state-of-the-art results on the KITTI benchmark.

translated by 谷歌翻译

NVS-MonoDepth: Improving Monocular Depth Prediction with Novel View Synthesis

Zuria Bauer , Zuoyue Li , Sergio Orts-Escolano , Miguel Cazorla , Marc Pollefeys , Martin R. Oswald

分类：计算机视觉

2021-12-22

建立新型观点综合的最近进展后，我们提出了改善单眼深度估计的应用。特别是，我们提出了一种在三个主要步骤中分开的新颖训练方法。首先，单眼深度网络的预测结果被扭转到额外的视点。其次，我们应用一个额外的图像综合网络，其纠正并提高了翘曲的RGB图像的质量。通过最小化像素-WISE RGB重建误差，该网络的输出需要尽可能类似地查看地面真实性视图。第三，我们将相同的单眼深度估计重新应用于合成的第二视图点，并确保深度预测与相关的地面真理深度一致。实验结果证明，我们的方法在Kitti和Nyu-Deaft-V2数据集上实现了最先进的或可比性，具有轻量级和简单的香草U-Net架构。

translated by 谷歌翻译

SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation

Yi Wei , Linqing Zhao , Wenzhao Zheng , Zheng Zhu , Yongming Rao , Guan Huang , Jiwen Lu , Jie Zhou

分类：计算机视觉

2022-04-07

图像的深度估计是自动驾驶3D感知的基本步骤，并且是LIDAR等昂贵深度传感器的经济替代方案。时间光度限制可实现无标签的自制深度估计，从而进一步促进其应用。但是，大多数现有方法仅根据每个单眼图像来预测深度，并忽略多个周围相机之间的相关性，这些相机通常可用于现代自动驾驶车辆。在本文中，我们提出了一种环绕方法，以合并来自多个周围视图的信息，以预测跨相机的深度图。具体来说，我们采用联合网络来处理所有周围的观点，并提出跨视图变压器，从多个视图中有效融合信息。我们应用跨视图自我注意力，有效地实现多相机特征图之间的全局相互作用。与自我监督的单眼深度估计不同，我们能够预测给定多相机外部矩阵的现实世界量表。为了实现这一目标，我们采用了两框结构，从而提取尺度感知的伪深度以预处理模型。此外，我们没有预测每个摄像机的自我运动，而是估计车辆的普遍自我运动并将其传输到每种视图中以实现多视图的自我运动一致性。在实验中，我们的方法在具有挑战性的多相机深度估计数据集DDAD和NUSCENES上实现了最新的性能。

translated by 谷歌翻译

Self-Supervised Monocular Depth Estimation with Internal Feature Fusion

Hang Zhou , David Greenwood , Sarah Taylor

分类：计算机视觉

2021-10-18

深度估计的自我监督学习在图像序列中使用几何体进行监督，并显示有前途的结果。与许多计算机视觉任务一样，深度网络性能是通过从图像中学习准确的空间和语义表示的能力来确定。因此，利用用于深度估计的语义分割网络是自然的。在这项工作中，基于一个发达的语义分割网络HRNET，我们提出了一种新颖的深度估计网络差异，可以利用下式采样过程和上采样过程。通过应用特征融合和注意机制，我们所提出的方法优于基准基准测试的最先进的单眼深度估计方法。我们的方法还展示了更高分辨率培训数据的潜力。我们通过建立一个挑战性案件的测试集，提出了一个额外的扩展评估策略，经验从标准基准源于标准基准。

translated by 谷歌翻译

Towards Real-Time Monocular Depth Estimation for Robotics: A Survey

Xingshuai Dong , Matthew A. Garratt , Sreenatha G. Anavatti , Hussein A. Abbass

分类：机器人

2021-11-16

作为许多自主驾驶和机器人活动的基本组成部分，如自我运动估计，障碍避免和场景理解，单眼深度估计（MDE）引起了计算机视觉和机器人社区的极大关注。在过去的几十年中，已经开发了大量方法。然而，据我们所知，对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是，我们为涵盖各种方法的MDE提供了全面的调查，介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现，并比较了他们的表演。此外，我们在一些重要的机器人任务中审查了MDE的应用。最后，我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。

translated by 谷歌翻译

Learning Human Kinematics by Modeling Temporal Correlations between Joints for Video-based Human Pose Estimation

Yonghao Dang , Jianqin Yin , Shaojie Zhang , Jiping Liu , Yanzhu Hu

分类：计算机视觉

2022-07-22

从视频中估算人的姿势对于人类计算机相互作用至关重要。通过精确估计人类姿势，机器人可以对人类提供适当的反应。大多数现有方法都使用光流，RNN或CNN从视频中提取时间功能。尽管这些尝试取得了积极的结果，但其中大多数仅直接整合沿时间维度的特征，而忽略了关节之间的时间相关性。与以前的方法相反，我们提出了一个基于域交叉注意机制的插件运动学建模模块（KMM），以对不同帧的关节之间的时间相关性进行建模。具体而言，提出的KMM通过计算其时间相似性来模拟任意两个关节之间的时间相关性。这样，KMM可以学习每个关节的运动提示。使用运动提示（时间域）和关节的历史位置（空间域），KMM可以提前推断关节的初始位置。此外，我们还基于KMM提出了一个运动学建模网络（KIMNET），用于通过结合姿势特征和关节的初始位置来获得关节的最终位置。通过对关节之间的时间相关性进行显式建模，Kimnet可以根据前一刻的所有关节来推断遮挡的关节。此外，KMM是通过注意机制实现的，该机制使其能够保持高度分辨率。因此，它可以将丰富的历史姿势信息转移到当前框架上，该信息为定位遮挡关节提供了有效的姿势信息。我们的方法在两个基于视频的姿势估计基准的基准上实现了最新的结果。此外，提出的Kimnet对闭塞显示了一些鲁棒性，证明了所提出的方法的有效性。

translated by 谷歌翻译

Auto-Rectify Network for Unsupervised Indoor Depth Estimation

Jia-Wang Bian , Huangying Zhan , Naiyan Wang , Tat-Jun Chin , Chunhua Shen , Ian Reid

分类：计算机视觉

2020-06-04

使用从未标识的视频培训的CNNS的单视深度估计显示了重要的承诺。然而，街头场景驾驶场景中主要获得了优异的结果，并且此类方法通常在其他设置中失败，特别是手持设备采取的室内视频。在这项工作中，我们建立了手持式环境中展出的复杂自我动作是学习深度的关键障碍。我们的基本分析表明，旋转在训练期间的噪声表现在训练期间，而不是提供监督信号的翻译（基线）。为了解决挑战，我们提出了一种数据预处理方法，可以通过去除其有效学习的相对旋转来整流训练图像。显着提高的性能验证了我们的动机。在不需要预处理的情况下，我们向端到端学习，我们提出了一种具有新型损失功能的自动整流网络，可以自动学习在训练期间纠正图像。因此，我们的结果在挑战NYUV2数据集中的大幅度上以较大的余量优于先前的无监督的SOTA方法。我们还展示了我们在Scannet和Make3D中培训模型的概括，以及我们提出的7场景和基蒂数据集的建议学习方法的普遍性。

translated by 谷歌翻译

Temporal View Synthesis of Dynamic Scenes through 3D Object Motion Estimation with Multi-Plane Images

Nagabhushan Somraj , Pranali Sancheti , Rajiv Soundararajan

分类：计算机视觉

2022-08-19

可以通过定期预测未来的框架以增强虚拟现实应用程序中的用户体验，从而解决了低计算设备上图形渲染高帧速率视频的挑战。这是通过时间视图合成（TVS）的问题来研究的，该问题的目标是预测给定上一个帧的视频的下一个帧以及上一个和下一个帧的头部姿势。在这项工作中，我们考虑了用户和对象正在移动的动态场景的电视。我们设计了一个将运动解散到用户和对象运动中的框架，以在预测下一帧的同时有效地使用可用的用户运动。我们通过隔离和估计过去框架的3D对象运动，然后推断它来预测对象的运动。我们使用多平面图像（MPI）作为场景的3D表示，并将对象运动作为MPI表示中相应点之间的3D位移建模。为了在估计运动时处理MPI中的稀疏性，我们将部分卷积和掩盖的相关层纳入了相应的点。然后将预测的对象运动与给定的用户或相机运动集成在一起，以生成下一帧。使用不合格的填充模块，我们合成由于相机和对象运动而发现的区域。我们为动态场景的电视开发了一个新的合成数据集，该数据集由800个以全高清分辨率组成的视频组成。我们通过数据集和MPI Sintel数据集上的实验表明我们的模型优于文献中的所有竞争方法。

translated by 谷歌翻译

Joint Prediction of Monocular Depth and Structure using Planar and Parallax Geometry

Hao Xing , Yifan Cao , Maximilian Biber , Mingchuan Zhou , Darius Burschka

分类：计算机视觉

2022-07-13

在接受高质量的地面真相（如LiDAR数据）培训时，监督的学习深度估计方法可以实现良好的性能。但是，LIDAR只能生成稀疏的3D地图，从而导致信息丢失。每个像素获得高质量的地面深度数据很难获取。为了克服这一限制，我们提出了一种新颖的方法，将有前途的平面和视差几何管道与深度信息与U-NET监督学习网络相结合的结构信息结合在一起，与现有的基于流行的学习方法相比，这会导致定量和定性的改进。特别是，该模型在两个大规模且具有挑战性的数据集上进行了评估：Kitti Vision Benchmark和CityScapes数据集，并在相对错误方面取得了最佳性能。与纯深度监督模型相比，我们的模型在薄物体和边缘的深度预测上具有令人印象深刻的性能，并且与结构预测基线相比，我们的模型的性能更加强大。

translated by 谷歌翻译

How Far Can I Go ? : A Self-Supervised Approach for Deterministic Video Depth Forecasting

Suaradip Nag , Nisarg Shah , Anran Qi , Raghavendra Ramachandra

分类：计算机视觉

2022-07-01

在本文中，我们提出了一种新颖的自我监督方法，可以预测未来，未观察到的现实世界中的深度估计。这项工作是第一个探索自我监督的学习，以估计视频未来未观察到的框架的单眼深度。现有作品依靠大量带注释的样本来生成对看不见框架深度的概率预测。但是，由于需要大量注释的视频样本，因此这使它变得不现实。此外，案件的概率性质，其中一个过去可能会有多个未来结果通常会导致深度估计不正确。与以前的方法不同，我们将未观察到的框架的深度估计作为视图合成问题进行建模，该问题将看不见的视频框架的深度估计视为辅助任务，同时使用学识渊博的姿势将视图恢复回去。这种方法不仅具有成本效益 - 我们不使用任何基础真相深度进行培训（因此实用），而且不使用确定性（过去的框架映射到不久的将来）。为了解决此任务，我们首先开发了一个新颖的深度预测网络DEFNET，该深度通过预测潜在特征来估计未观察到的未来的深度。其次，我们开发了基于渠道注意的姿势估计网络，该网络估计未观察到的框架的姿势。使用这个学到的姿势，将估计的深度图重建回图像域，从而形成一个自我监督的解决方案。我们提出的方法在短期和中期预测环境中与最先进的替代方案相比，ABS REL度量的重大改善，在Kitti和CityScapes上标有标准。代码可从https://github.com/sauradip/depthforecasting获得

translated by 谷歌翻译

DevNet: Self-supervised Monocular Depth Learning via Density Volume Construction

Kaichen Zhou , Lanqing Hong , Changhao Chen , Hang Xu , Chaoqiang Ye , Qingyong Hu , Zhenguo Li

分类：计算机视觉

2022-09-14

从单眼图像中学习的自我监督深度学习通常依赖于暂时相邻图像帧之间的2D像素光度关系。但是，他们既没有完全利用3D点的几何对应关系，也没有有效地应对闭塞或照明不一致引起的光度扭曲中的歧义。为了解决这些问题，这项工作提出了密度量构建网络（DEVNET），这是一种新型的自我监管的单眼深度学习框架，可以考虑3D空间信息，并利用相邻的相机flustums中的更强的几何约束。我们的DEVNET不是直接从单个图像中回归像素值，而是将摄像头划分为多个平行的平面，并预测每个平面上的点闭塞概率密度。最终的深度图是通过沿相应射线集成密度来生成的。在训练过程中，引入了新颖的正则化策略和损失功能，以减轻光度歧义和过度拟合。如果没有明显放大的模型参数的大小或运行时间，DEVNET在Kitti-2015室外数据集和NYU-V2室内数据集上均优于几个代表性基准。特别是，在深度估计的任务中，在Kitti-2015和NYU-V2上，DEVNET均减少了4％的根平方。代码可在https://github.com/gitkaichenzhou/devnet上找到。

translated by 谷歌翻译

SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes

Libo Sun , Jia-Wang Bian , Huangying Zhan , Wei Yin , Ian Reid , Chunhua Shen

分类：计算机视觉

2022-11-07

Self-supervised monocular depth estimation has shown impressive results in static scenes. It relies on the multi-view consistency assumption for training networks, however, that is violated in dynamic object regions and occlusions. Consequently, existing methods show poor accuracy in dynamic scenes, and the estimated depth map is blurred at object boundaries because they are usually occluded in other training views. In this paper, we propose SC-DepthV3 for addressing the challenges. Specifically, we introduce an external pretrained monocular depth estimation model for generating single-image depth prior, namely pseudo-depth, based on which we propose novel losses to boost self-supervised training. As a result, our model can predict sharp and accurate depth maps, even when training from monocular videos of highly-dynamic scenes. We demonstrate the significantly superior performance of our method over previous methods on six challenging datasets, and we provide detailed ablation studies for the proposed terms. Source code and data will be released at https://github.com/JiawangBian/sc_depth_pl

translated by 谷歌翻译

SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised Skeleton Action Recognition

Wenhan Wu , Yilei Hua , Ce zheng , Shiqian Wu , Chen Chen , Aidong Lu

分类：计算机视觉

2022-09-01

通过深度学习技术的开花，完全有监督的基于骨架的动作识别取得了巨大进步。但是，这些方法需要足够的标记数据，这不容易获得。相比之下，基于自我监督的骨骼的动作识别引起了更多的关注。通过利用未标记的数据，可以学会更多可概括的功能来减轻过度拟合的问题并减少大规模标记的培训数据的需求。受到MAE的启发，我们提出了一个空间式蒙面的自动编码器框架，用于基于3D骨架的自我监管的动作识别（Skeletonmae）。在MAE的掩蔽和重建管道之后，我们利用基于骨架的编码器变压器体系结构来重建蒙版的骨架序列。一种新颖的掩蔽策略，称为时空掩蔽，是根据骨架序列的联合级别和框架级别引入的。这种预训练策略使编码器输出可推广的骨骼特征具有空间和时间依赖性。给定未掩盖的骨架序列，编码器用于动作识别任务。广泛的实验表明，我们的骨架达到了出色的性能，并优于NTU RGB+D和NTU RGB+D 120数据集的最新方法。

translated by 谷歌翻译

MAR: Masked Autoencoders for Efficient Action Recognition

Zhiwu Qing , Shiwei Zhang , Ziyuan Huang , Xiang Wang , Yuehuan Wang , Yiliang Lv , Changxin Gao , Nong Sang

分类：计算机视觉

2022-07-24

视频识别的标准方法通常在完整的输入视频上运行，由于视频中的时空冗余率广泛，因此效率低下。蒙版视频建模（即视频）的最新进展表明，香草视觉变压器（VIT）仅具有有限的视觉内容来补充时空上下文的能力。受到这一点的启发，我们提出了建议的蒙版动作识别（MAR），该识别（MAR）通过丢弃一定比例的补丁并仅在视频的一部分上操作来减少冗余计算。 MAR包含以下两个必不可少的组件：单元运行掩盖和桥接分类器。具体而言，为了使VIT轻松地感知细节以外的细节，并且会呈现单元格的掩蔽，以保留视频中的时空相关性，从而确保可以在同一空间位置观察到在同一空间位置的贴片，以便轻松地重建。此外，我们注意到，尽管部分观察到的特征可以重建语义上明确的隐形贴片，但它们无法实现准确的分类。为了解决这个问题，提出了一个桥接分类器，以弥合重建的VIT编码功能与专门用于分类的功能之间的语义差距。我们提出的MAR将VIT的计算成本降低了53％，并且广泛的实验表明，MAR始终以明显的边距优于现有的VIT模型。尤其是，我们发现由MAR训练的Vit-Lage胜过由标准培训方案训练的Vit-Bugue，这是通过说服Kinetics-400和某些v2数据集中的利润率，而VIT-LARGE的计算开销仅为14.5％。维特（Vit-Huge）。

translated by 谷歌翻译