半监控视频动作识别倾向于使深神经网络能够实现显着性能,即使具有非常有限的标记数据。然而,现有方法主要从当前的基于图像的方法转移(例如,FixMatch)。不具体利用时间动态和固有的多模式属性,它们的结果可能是次优。为了更好地利用视频中的编码的时间信息,我们将时间梯度引入了本文中的更多细小特征提取的额外模态。具体而言,我们的方法明确地蒸馏从时间梯度(TG)的细粒度运动表示,并施加不同方式的一致性(即RGB和TG)。在推理期间,没有额外的计算或参数,在没有额外的计算或参数的情况下显着提高了半监督动作识别的性能。我们的方法在若干典型的半监督设置(即标记数据的不同比率)下实现三个视频动作识别基准(即动态-400,UCF-101和HMDB-51)的最先进的性能。
translated by 谷歌翻译
由于数据注释的高成本,半监督行动识别是一个具有挑战性的,但重要的任务是。这个问题的常见方法是用伪标签分配未标记的数据,然后将其作为训练中的额外监督。通常在最近的工作中,通过在标记数据上训练模型来获得伪标签,然后使用模型的自信预测来教授自己。在这项工作中,我们提出了一种更有效的伪标签方案,称为跨模型伪标记(CMPL)。具体地,除了主要骨干内,我们还介绍轻量级辅助网络,并要求他们互相预测伪标签。我们观察到,由于其不同的结构偏差,这两种模型倾向于学习来自同一视频剪辑的互补表示。因此,通过利用跨模型预测作为监督,每个模型都可以受益于其对应物。对不同数据分区协议的实验表明我们对现有替代方案框架的重大改进。例如,CMPL在Kinetics-400和UCF-101上实现了17.6 \%$ 17.6 \%$ 25.1 \%$ 25.使用RGB模态和1 \%$标签数据,优于我们的基线模型,FIXMATCT,以$ 9.0 \% $和10.3美元\%$。
translated by 谷歌翻译
We present a self-supervised Contrastive Video Representation Learning (CVRL) method to learn spatiotemporal visual representations from unlabeled videos. Our representations are learned using a contrastive loss, where two augmented clips from the same short video are pulled together in the embedding space, while clips from different videos are pushed away. We study what makes for good data augmentations for video self-supervised learning and find that both spatial and temporal information are crucial. We carefully design data augmentations involving spatial and temporal cues. Concretely, we propose a temporally consistent spatial augmentation method to impose strong spatial augmentations on each frame of the video while maintaining the temporal consistency across frames. We also propose a sampling-based temporal augmentation method to avoid overly enforcing invariance on clips that are distant in time. On Kinetics-600, a linear classifier trained on the representations learned by CVRL achieves 70.4% top-1 accuracy with a 3D-ResNet-50 (R3D-50) backbone, outperforming ImageNet supervised pre-training by 15.7% and SimCLR unsupervised pre-training by 18.8% using the same inflated R3D-50. The performance of CVRL can be further improved to 72.9% with a larger R3D-152 (2× filters) backbone, significantly closing the gap between unsupervised and supervised video representation learning. Our code and models will be available at https://github.com/tensorflow/models/tree/master/official/.
translated by 谷歌翻译
对比学习在视频表示学习中表现出了巨大的潜力。但是,现有方法无法充分利用短期运动动态,这对于各种下游视频理解任务至关重要。在本文中,我们提出了运动敏感的对比度学习(MSCL),该学习将光学流捕获的运动信息注入RGB帧中,以增强功能学习。为了实现这一目标,除了剪辑级全球对比度学习外,我们还开发了局部运动对比度学习(LMCL),具有两种模式的框架级对比目标。此外,我们引入流动旋转增强(FRA),以生成额外的运动除件负面样品和运动差分采样(MDS)以准确筛选训练样品。对标准基准测试的广泛实验验证了该方法的有效性。以常用的3D RESNET-18为骨干,我们在UCF101上获得了91.5 \%的前1个精度,而在视频分类中进行了一些v2的v2,以及65.6 \%的top-1 top-1召回ucf1011对于视频检索,特别是改善了最新的。
translated by 谷歌翻译
在3D动作识别中,存在骨骼模式之间的丰富互补信息。然而,如何建模和利用这些信息仍然是一个充满挑战的3D动作表示学习的问题。在这项工作中,我们将交叉模式相互作用作为双向知识蒸馏问题。不同于经典的蒸馏解决方案,这些解决方案将固定和预训练的教师的知识转移到学生中,在这项工作中,知识在模式之间不断更新和双向蒸馏。为此,我们提出了一个新的跨模式相互蒸馏(CMD)框架,并采用以下设计。一方面,引入了相邻的相似性分布来对每种模式中学习的知识进行建模,其中关系信息自然适合对比框架。另一方面,不对称的配置用于教师和学生来稳定蒸馏过程并在模式之间传递高信心信息。通过派生,我们发现以前作品中的跨模式阳性采矿可以被视为我们CMD的退化版本。我们对NTU RGB+D 60,NTU RGB+D 120和PKU-MMD II数据集执行了广泛的实验。我们的方法的表现优于现有的自我监督方法,并设置了一系列新记录。该代码可在以下网址找到:https://github.com/maoyunyao/cmd
translated by 谷歌翻译
Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.
translated by 谷歌翻译
我们提出了MACLR,这是一种新颖的方法,可显式执行从视觉和运动方式中学习的跨模式自我监督的视频表示。与以前的视频表示学习方法相比,主要关注学习运动线索的研究方法是隐含的RGB输入,MACLR丰富了RGB视频片段的标准对比度学习目标,具有运动途径和视觉途径之间的跨模式学习目标。我们表明,使用我们的MACLR方法学到的表示形式更多地关注前景运动区域,因此可以更好地推广到下游任务。为了证明这一点,我们在五个数据集上评估了MACLR,以进行动作识别和动作检测,并在所有数据集上展示最先进的自我监督性能。此外,我们表明MACLR表示可以像在UCF101和HMDB51行动识别的全面监督下所学的表示一样有效,甚至超过了对Vidsitu和SSV2的行动识别的监督表示,以及对AVA的动作检测。
translated by 谷歌翻译
从未标记的视频中学习时间通信对于计算机视觉至关重要,并且已经通过各种自我监督的借口来解决。对于自我监督的学习,最近的研究表明,尽管经过培训成本,但使用大型视频数据集。我们提出了一个时空的借口任务来解决培训数据成本问题。该任务由两个步骤组成。首先,我们使用来自未标记的静止图像数据的对比度学习来获得对外观敏感的特征。然后,我们切换到未标记的视频数据,并通过重建帧来学习运动敏感的功能。在第二步中,我们提出了一个全局相关蒸馏损失,以保留第一步中学到的外观灵敏度,以及金字塔结构中的局部相关蒸馏损失以应对时间不连续性。实验结果表明,我们的方法超过了一系列基于对应的任务的最新自我监督方法。进行的消融研究验证了提出的两步任务和损失功能的有效性。
translated by 谷歌翻译
给定文本描述,时间语言接地(TLG)旨在本地化包含未经监控视频中指定语义的段的时间边界。 TLG本质上是一个具有挑战性的任务,因为它需要全面了解句子语义和视频内容。以前的作品可以在完全监督的设置中解决此任务,需要大量的时间注释或在通常无法实现令人满意的性能的弱监管设置中。由于手动注释是昂贵的,以应对有限的注释,我们通过纳入自我监督的学习以半监督方式解决TLG,并提出自我监督的半监督时间语言接地(S ^ 4TLG)。 S ^ 4TLG由两部分组成:(1)基于来自教师模型的预测,自适应为未标记的样本进行自适应生产即时伪标签的伪标签生成模块; (2)具有模态和模态对比度损耗的自我监督特征学习模块,以在视频内容一致性和视频文本对齐的约束下学习视频特征表示。我们对ActivityNet-CD-OOD和Charades-CD-OOD数据集进行了广泛的实验。结果表明,与完全监督的最新方法相比,我们所提出的S ^ 4TLG可以实现竞争性能,同时只需要一小部分时间注释。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
对比学习表明,在自我监督时空表示学习中有希望的潜力。大多数作品天真地采样不同的剪辑以构建正面和负对。但是,我们观察到该公式将模型倾向于背景场景偏见。根本原因是双重的。首先,场景差异通常比运动差异更明显,更容易区分。其次,从同一视频中采样的剪辑通常具有相似的背景,但具有不同的动作。仅将它们作为正对就可以将模型绘制为静态背景而不是运动模式。为了应对这一挑战,本文提出了一种新颖的双重对比配方。具体而言,我们将输入RGB视频序列分解为两种互补模式,静态场景和动态运动。然后,将原始的RGB功能分别靠近静态特征和对齐动态特征。这样,将静态场景和动态运动同时编码为紧凑的RGB表示。我们通过激活图进一步进行特征空间解耦,以提炼静态和动态相关的特征。我们将我们的方法称为\ textbf {d} ual \ textbf {c} intrastive \ textbf {l} ginal for spatio-tempormal \ textbf {r} ePresentation(dclr)。广泛的实验表明,DCLR学习有效的时空表示,并在UCF-101,HMDB-51和潜水-48数据集中获得最先进或可比性的性能。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
这项工作提出了一个名为TEG的自我监督的学习框架,探讨学习视频表示中的时间粒度。在TEG中,我们从视频中抽出一个长剪辑,以及在长夹内部的短夹。然后我们提取密集的时间嵌入品。培训目标由两部分组成:一个细粒度的时间学习目的,以最大化短夹和长剪辑中的相应时间嵌入之间的相似性,以及持续的时间学习目标,以将两个剪辑的全局嵌入在一起。我们的研究揭示了时间粒度与三个主要发现的影响。 1)不同的视频任务可能需要不同时间粒度的特征。 2)有趣的是,广泛认为需要时间感知的一些任务实际上可以通过时间持久的功能来解决。 3)TEG的灵活性对8个视频基准测试产生最先进的结果,在大多数情况下优于监督预训练。
translated by 谷歌翻译
Large-scale labeled data are generally required to train deep neural networks in order to obtain better performance in visual feature learning from images or videos for computer vision applications. To avoid extensive cost of collecting and annotating large-scale datasets, as a subset of unsupervised learning methods, self-supervised learning methods are proposed to learn general image and video features from large-scale unlabeled data without using any human-annotated labels. This paper provides an extensive review of deep learning-based self-supervised general visual feature learning methods from images or videos. First, the motivation, general pipeline, and terminologies of this field are described. Then the common deep neural network architectures that used for self-supervised learning are summarized. Next, the schema and evaluation metrics of self-supervised learning methods are reviewed followed by the commonly used image and video datasets and the existing self-supervised visual feature learning methods. Finally, quantitative performance comparisons of the reviewed methods on benchmark datasets are summarized and discussed for both image and video feature learning. At last, this paper is concluded and lists a set of promising future directions for self-supervised visual feature learning.
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
The objective of this paper is visual-only self-supervised video representation learning. We make the following contributions: (i) we investigate the benefit of adding semantic-class positives to instance-based Info Noise Contrastive Estimation (In-foNCE) training, showing that this form of supervised contrastive learning leads to a clear improvement in performance; (ii) we propose a novel self-supervised co-training scheme to improve the popular infoNCE loss, exploiting the complementary information from different views, RGB streams and optical flow, of the same data source by using one view to obtain positive class samples for the other; (iii) we thoroughly evaluate the quality of the learnt representation on two different downstream tasks: action recognition and video retrieval. In both cases, the proposed approach demonstrates state-of-the-art or comparable performance with other self-supervised approaches, whilst being significantly more efficient to train, i.e. requiring far less training data to achieve similar performance.
translated by 谷歌翻译
通过自学学习的视觉表示是一项极具挑战性的任务,因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强,大规模数据集和过量量的计算来实现的。视频自我监督学习(SSL)面临着额外的挑战:视频数据集通常不如图像数据集那么大,计算是一个数量级,并且优化器所必须通过的伪造模式数量乘以几倍。因此,直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题,我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型,并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此,我们修改了典型的基于视频的SSL设计和目标,以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容,该模型在通用域上训练。所提出的算法被证明可以更有效地学习(即在较小的时期和较小的批次中),并在单模式SSL方法中对标准下游任务进行了新的最新性能。
translated by 谷歌翻译
Left-ventricular ejection fraction (LVEF) is an important indicator of heart failure. Existing methods for LVEF estimation from video require large amounts of annotated data to achieve high performance, e.g. using 10,030 labeled echocardiogram videos to achieve mean absolute error (MAE) of 4.10. Labeling these videos is time-consuming however and limits potential downstream applications to other heart diseases. This paper presents the first semi-supervised approach for LVEF prediction. Unlike general video prediction tasks, LVEF prediction is specifically related to changes in the left ventricle (LV) in echocardiogram videos. By incorporating knowledge learned from predicting LV segmentations into LVEF regression, we can provide additional context to the model for better predictions. To this end, we propose a novel Cyclical Self-Supervision (CSS) method for learning video-based LV segmentation, which is motivated by the observation that the heartbeat is a cyclical process with temporal repetition. Prediction masks from our segmentation model can then be used as additional input for LVEF regression to provide spatial context for the LV region. We also introduce teacher-student distillation to distill the information from LV segmentation masks into an end-to-end LVEF regression model that only requires video inputs. Results show our method outperforms alternative semi-supervised methods and can achieve MAE of 4.17, which is competitive with state-of-the-art supervised performance, using half the number of labels. Validation on an external dataset also shows improved generalization ability from using our method. Our code is available at https://github.com/xmed-lab/CSS-SemiVideo.
translated by 谷歌翻译
鉴于在图像领域的对比学习的成功,目前的自我监督视频表示学习方法通​​常采用对比损失来促进视频表示学习。然而,当空闲地拉动视频的两个增强视图更接近时,该模型倾向于将常见的静态背景作为快捷方式学习但不能捕获运动信息,作为背景偏置的现象。这种偏差使模型遭受弱泛化能力,导致在等下游任务中的性能较差,例如动作识别。为了减轻这种偏见,我们提出\ textbf {f} Oreground-b \ textbf {a} ckground \ textbf {me} rging(sm} rging(fame)故意将所选视频的移动前景区域故意构成到其他人的静态背景上。具体而言,没有任何非货架探测器,我们通过帧差和颜色统计从背景区域中提取移动前景,并在视频中擦拭背景区域。通过利用原始剪辑和熔融夹之间的语义一致性,该模型更多地关注运动模式,并从背景快捷方式中脱位。广泛的实验表明,FAME可以有效地抵抗背景作弊,从而在UCF101,HMDB51和Diving48数据集中实现了最先进的性能。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译