尽管对视频表示学习的自我监督预先预测方法的突出成功,但在未标记的预测数据集很小或源任务(预先训练)中的未标记数据和目标任务中标记的数据(Fineetuning)之间的域差异。为了缓解这些问题,我们提出了一种新的方法来通过基于知识相似性蒸馏,Auxskd的辅助预押阶段补充自我监督预测,以便更好地推广,具有明显较少量的视频数据,例如,动力学-100而不是动力学-400。我们的方法通过捕获未标记的视频数据的段之间的相似信息,将其知识迭代地将其知识蒸发到学生模型。然后,学生模型通过利用此先验知识来解决借口任务。我们还介绍了一种新颖的借口任务,视频段速度预测或VSPP,这需要我们的模型来预测输入视频的随机选择段的播放速度,以提供更可靠的自我监督的表示。我们的实验结果表明,在K100上预先训练时,UCF101和HMDB51数据集的最先进结果卓越。此外,我们表明我们的辅助辅助辅助持久性辅助阶段作为最近的艺术的自我监督方法(例如VideOpace和Rspnet),可以在UCF101和HMDB51上提高结果。我们的代码即将发布。
translated by 谷歌翻译
我们介绍了一种对比视频表示方法,它使用课程学习在对比度培训中施加动态抽样策略。更具体地说,Concur以易于正面样本(在时间上和语义上相似的剪辑上)开始对比度训练,并且随着训练的进行,它会有效地提高时间跨度,从而有效地采样了硬质阳性(时间为时间和语义上不同)。为了学习更好的上下文感知表示形式,我们还提出了一个辅助任务,以预测积极剪辑之间的时间距离。我们对两个流行的动作识别数据集进行了广泛的实验,即UCF101和HMDB51,我们提出的方法在两项视频动作识别和视频检索的基准任务上实现了最新的性能。我们通过使用R(2+1)D和C3D编码器以及对Kinetics-400和Kinetics-200200数据集的R(2+1)D和C3D编码器以及预训练的影响来探讨编码器骨架和预训练策略的影响。此外,一项详细的消融研究显示了我们提出的方法的每个组成部分的有效性。
translated by 谷歌翻译
时空表示学习对于视频自我监督的表示至关重要。最近的方法主要使用对比学习和借口任务。然而,这些方法通过在潜在空间中的特征相似性判断所学习表示的中间状态的同时通过潜伏空间中的特征相似性来学习表示,这限制了整体性能。在这项工作中,考虑到采样实例的相似性作为中级状态,我们提出了一种新的借口任务 - 时空 - 时间重叠速率(Stor)预测。它源于观察到,人类能够区分空间和时间在视频中的重叠率。此任务鼓励模型区分两个生成的样本的存储来学习表示。此外,我们采用了联合优化,将借口任务与对比学习相结合,以进一步增强时空表示学习。我们还研究了所提出的计划中每个组分的相互影响。广泛的实验表明,我们的拟议Stor任务可以赞成对比学习和借口任务。联合优化方案可以显着提高视频理解中的时空表示。代码可在https://github.com/katou2/cstp上获得。
translated by 谷歌翻译
自我监督的学习在视力和NLP方面取得了巨大进展。最近,它也引起了人们对X射线,CT和MRI等各种医学成像方式的广泛关注。现有方法主要集中于构建新的借口自学任务,例如根据医学图像的属性进行重建,方向和掩盖识别。但是,并未完全利用公开可用的自我实施模型。在本文中,我们提出了一个强大而有效的自学框架,用于外科视频理解。我们的主要见解是将知识从大型通用数据集中培训的公开模型中提取知识,以促进对手术视频的自我监督学习。为此,我们首先引入了一种传承语义的培训计划,以获取我们的教师模型,该模型不仅包含了公开可用模型的语义,而且还可以为手术数据提供准确的知识。除了仅具有对比度学习的培训外,我们还引入了一个蒸馏目标,将丰富的学习信息从教师模型转移到手术数据上的自学学习。对两个手术期识别基准的广泛实验表明,我们的框架可以显着提高现有的自我监督学习方法的性能。值得注意的是,我们的框架在低DATA制度下表现出了令人信服的优势。我们的代码可在https://github.com/xmed-lab/distillingself上找到。
translated by 谷歌翻译
在本文中,我们向使用未标记的视频数据提出了用于视频变压器的自我监督培训。从给定的视频,我们创建了不同的空间尺寸和帧速率的本地和全球时空视图。我们的自我监督目标旨在匹配这些不同视图的特征,代表相同的视频,以不变于动作的时空变化。据我们所知,所提出的方法是第一个缓解对自我监督视频变压器(SVT)中的负样本或专用内存库的依赖。此外,由于变压器模型的灵活性,SVT使用动态调整的位置编码在单个架构内支持慢速视频处理,并支持沿着时空尺寸的长期关系建模。我们的方法在四个动作识别基准(动力学-400,UCF-101,HMDB-51和SSV2)上执行良好,并通过小批量尺寸更快地收敛。代码:https://git.io/j1juj.
translated by 谷歌翻译
通过自学学习的视觉表示是一项极具挑战性的任务,因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强,大规模数据集和过量量的计算来实现的。视频自我监督学习(SSL)面临着额外的挑战:视频数据集通常不如图像数据集那么大,计算是一个数量级,并且优化器所必须通过的伪造模式数量乘以几倍。因此,直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题,我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型,并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此,我们修改了典型的基于视频的SSL设计和目标,以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容,该模型在通用域上训练。所提出的算法被证明可以更有效地学习(即在较小的时期和较小的批次中),并在单模式SSL方法中对标准下游任务进行了新的最新性能。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
最近的自我监督视频表示学习方法通​​过探索视频的基本属性,例如探讨了视频的基本属性。速度,时间顺序等。这项工作利用了一个必不可少的视频,\ Texit {视频连续性}的必要性,以获取自我监督表示学习的监督信号。具体而言,我们制定了三个新的连续性相关的借口任务,即连续性理由,不连续的本地化和缺失部分近似,该近似地监督用于视频表示学习的共享骨干。这种自我监督方法被称为连续性感知网络(CPNet),解决了三个任务,并鼓励骨干网络学习本地和长距离的运动和情境表示。它在多个下游任务中优于现有技术,例如动作识别,视频检索和动作定位。另外,视频连续性可以与其他粗粒度视频属性互补,用于表示学习的其他粗粒视频属性,并将所提出的借口任务集成到现有技术中,可以产生很大的性能增益。
translated by 谷歌翻译
知识蒸馏是从重型网络(教师)到小型网络(学生)的有效转移,以提高学生的表现。自我知识蒸馏是知识蒸馏的一种特殊情况,已提出在保持学生表现的同时删除大型教师网络培训过程。本文通过暹罗代表学习介绍了一种新型的自我知识蒸馏方法,该方法最大程度地减少了给定样本的两个不同观点的两个表示矢量之间的差异。我们提出的方法SKD-SRL使用了软标签蒸馏和表示向量的相似性。因此,SKD-SRL可以在同一数据点的各种视图中生成更一致的预测和表示。我们的基准已在各种标准数据集上进行了评估。实验结果表明,与现有的监督学习和知识蒸馏方法相比,SKD-SRL显着提高了准确性。
translated by 谷歌翻译
神经网络可以从单个图像中了解视觉世界的内容是什么?虽然它显然不能包含存在的可能对象,场景和照明条件 - 在所有可能的256 ^(3x224x224)224尺寸的方形图像中,它仍然可以在自然图像之前提供强大的。为了分析这一假设,我们通过通过监控掠夺教师的知识蒸馏来制定一种训练神经网络的培训神经网络。有了这个,我们发现上述问题的答案是:“令人惊讶的是,很多”。在定量术语中,我们在CiFar-10/100上找到了94%/ 74%的前1个精度,在想象中,通过将这种方法扩展到音频,84%的语音组合。在广泛的分析中,我们解除了增强,源图像和网络架构的选择,以及在从未见过熊猫的网络中发现“熊猫神经元”。这项工作表明,一个图像可用于推断成千上万的对象类,并激励关于增强和图像的基本相互作用的更新的研究议程。
translated by 谷歌翻译
尽管自我监督的表示学习(SSL)受到社区的广泛关注,但最近的研究认为,当模型大小降低时,其性能将遭受悬崖的下降。当前的方法主要依赖于对比度学习来训练网络,在这项工作中,我们提出了一种简单而有效的蒸馏对比学习(Disco),以大幅度减轻问题。具体而言,我们发现主流SSL方法获得的最终嵌入包含最富有成果的信息,并建议提炼最终的嵌入,以最大程度地将教师的知识传播到轻量级模型中,通过约束学生的最后嵌入与学生的最后嵌入,以使其与该模型保持一致。老师。此外,在实验中,我们发现存在一种被称为蒸馏瓶颈的现象,并存在以扩大嵌入尺寸以减轻此问题。我们的方法在部署过程中不会向轻型模型引入任何额外的参数。实验结果表明,我们的方法在所有轻型模型上都达到了最先进的作用。特别是,当使用RESNET-101/RESNET-50用作教师教授有效网络-B0时,Imagenet上有效网络B0的线性结果非常接近Resnet-101/Resnet-50,但是有效网络B0的参数数量仅为9.4 \%/16.3 \%Resnet-101/resnet-50。代码可从https:// github获得。 com/yuting-gao/disco-pytorch。
translated by 谷歌翻译
Learning effective motion features is an essential pursuit of video representation learning. This paper presents a simple yet effective sample construction strategy to boost the learning of motion features in video contrastive learning. The proposed method, dubbed Motion-focused Quadruple Construction (MoQuad), augments the instance discrimination by meticulously disturbing the appearance and motion of both the positive and negative samples to create a quadruple for each video instance, such that the model is encouraged to exploit motion information. Unlike recent approaches that create extra auxiliary tasks for learning motion features or apply explicit temporal modelling, our method keeps the simple and clean contrastive learning paradigm (i.e.,SimCLR) without multi-task learning or extra modelling. In addition, we design two extra training strategies by analyzing initial MoQuad experiments. By simply applying MoQuad to SimCLR, extensive experiments show that we achieve superior performance on downstream tasks compared to the state of the arts. Notably, on the UCF-101 action recognition task, we achieve 93.7% accuracy after pre-training the model on Kinetics-400 for only 200 epochs, surpassing various previous methods
translated by 谷歌翻译
医学图像分析的申请遭受了医学专家正确注释的大量数据的急性短缺。监督的学习算法需要大量平衡数据才能学习稳健的表示。经常有监督的学习算法需要各种技术来处理不平衡的数据。另一方面,自我监督的学习算法在数据中是强大的,并且能够学习强大的表示。在这项工作中,我们使用梯度积累技术训练3D BYOL自制模型,以处理自我监督算法中通常需要的批处理中的大量样品。据我们所知,这项工作是该领域中第一个此类工作之一。我们比较了通过当代自我监督预训练的预训练方法以及用动力学400预训练的预训练的RESNET3D-18比较通过实验在ACL泪受损伤检测的下游任务中获得的结果。从下游任务实验中,很明显,所提出的框架优于现有基线。
translated by 谷歌翻译
We present a self-supervised Contrastive Video Representation Learning (CVRL) method to learn spatiotemporal visual representations from unlabeled videos. Our representations are learned using a contrastive loss, where two augmented clips from the same short video are pulled together in the embedding space, while clips from different videos are pushed away. We study what makes for good data augmentations for video self-supervised learning and find that both spatial and temporal information are crucial. We carefully design data augmentations involving spatial and temporal cues. Concretely, we propose a temporally consistent spatial augmentation method to impose strong spatial augmentations on each frame of the video while maintaining the temporal consistency across frames. We also propose a sampling-based temporal augmentation method to avoid overly enforcing invariance on clips that are distant in time. On Kinetics-600, a linear classifier trained on the representations learned by CVRL achieves 70.4% top-1 accuracy with a 3D-ResNet-50 (R3D-50) backbone, outperforming ImageNet supervised pre-training by 15.7% and SimCLR unsupervised pre-training by 18.8% using the same inflated R3D-50. The performance of CVRL can be further improved to 72.9% with a larger R3D-152 (2× filters) backbone, significantly closing the gap between unsupervised and supervised video representation learning. Our code and models will be available at https://github.com/tensorflow/models/tree/master/official/.
translated by 谷歌翻译
鉴于在图像领域的对比学习的成功,目前的自我监督视频表示学习方法通​​常采用对比损失来促进视频表示学习。然而,当空闲地拉动视频的两个增强视图更接近时,该模型倾向于将常见的静态背景作为快捷方式学习但不能捕获运动信息,作为背景偏置的现象。这种偏差使模型遭受弱泛化能力,导致在等下游任务中的性能较差,例如动作识别。为了减轻这种偏见,我们提出\ textbf {f} Oreground-b \ textbf {a} ckground \ textbf {me} rging(sm} rging(fame)故意将所选视频的移动前景区域故意构成到其他人的静态背景上。具体而言,没有任何非货架探测器,我们通过帧差和颜色统计从背景区域中提取移动前景,并在视频中擦拭背景区域。通过利用原始剪辑和熔融夹之间的语义一致性,该模型更多地关注运动模式,并从背景快捷方式中脱位。广泛的实验表明,FAME可以有效地抵抗背景作弊,从而在UCF101,HMDB51和Diving48数据集中实现了最先进的性能。
translated by 谷歌翻译
特征回归是将大型神经网络模型蒸馏到较小的功能回归。我们表明,随着网络架构的简单变化,回归可能会优于自我监督模型的知识蒸馏更复杂的最先进方法。令人惊讶的是,即使仅在蒸馏过程中仅使用并且在下游任务中丢弃时,将多层的Perceptron头部添加到CNN骨架上是有益的。因此,更深的非线性投影可以使用在不改变推理架构和时间的情况下准确地模仿老师。此外,我们利用独立的投影头来同时蒸馏多个教师网络。我们还发现,使用与教师和学生网络的输入相同的弱增强图像辅助蒸馏。Imagenet DataSet上的实验证明了各种自我监督蒸馏环境中提出的变化的功效。
translated by 谷歌翻译
近年来,随着深度神经网络方法的普及,手术计算机视觉领域经历了相当大的突破。但是,用于培训的标准全面监督方法需要大量的带注释的数据,从而实现高昂的成本;特别是在临床领域。已经开始在一般计算机视觉社区中获得吸引力的自我监督学习(SSL)方法代表了对这些注释成本的潜在解决方案,从而使仅从未标记的数据中学习有用的表示形式。尽管如此,SSL方法在更复杂和有影响力的领域(例如医学和手术)中的有效性仍然有限且未开发。在这项工作中,我们通过在手术计算机视觉的背景下研究了四种最先进的SSL方法(Moco V2,Simclr,Dino,SWAV),以解决这一关键需求。我们对这些方法在cholec80数据集上的性能进行了广泛的分析,以在手术环境理解,相位识别和工具存在检测中为两个基本和流行的任务。我们检查了它们的参数化,然后在半监督设置中相对于训练数据数量的行为。如本工作所述和进行的那样,将这些方法的正确转移到手术中,可以使SSL的一般用途获得可观的性能 - 相位识别率高达7%,而在工具存在检测方面,则具有20% - 半监督相位识别方法高达14%。该代码将在https://github.com/camma-public/selfsupsurg上提供。
translated by 谷歌翻译
Contrastive representation learning has proven to be an effective self-supervised learning method for images and videos. Most successful approaches are based on Noise Contrastive Estimation (NCE) and use different views of an instance as positives that should be contrasted with other instances, called negatives, that are considered as noise. However, several instances in a dataset are drawn from the same distribution and share underlying semantic information. A good data representation should contain relations between the instances, or semantic similarity and dissimilarity, that contrastive learning harms by considering all negatives as noise. To circumvent this issue, we propose a novel formulation of contrastive learning using semantic similarity between instances called Similarity Contrastive Estimation (SCE). Our training objective is a soft contrastive one that brings the positives closer and estimates a continuous distribution to push or pull negative instances based on their learned similarities. We validate empirically our approach on both image and video representation learning. We show that SCE performs competitively with the state of the art on the ImageNet linear evaluation protocol for fewer pretraining epochs and that it generalizes to several downstream image tasks. We also show that SCE reaches state-of-the-art results for pretraining video representation and that the learned representation can generalize to video downstream tasks.
translated by 谷歌翻译
这项工作提出了一个名为TEG的自我监督的学习框架,探讨学习视频表示中的时间粒度。在TEG中,我们从视频中抽出一个长剪辑,以及在长夹内部的短夹。然后我们提取密集的时间嵌入品。培训目标由两部分组成:一个细粒度的时间学习目的,以最大化短夹和长剪辑中的相应时间嵌入之间的相似性,以及持续的时间学习目标,以将两个剪辑的全局嵌入在一起。我们的研究揭示了时间粒度与三个主要发现的影响。 1)不同的视频任务可能需要不同时间粒度的特征。 2)有趣的是,广泛认为需要时间感知的一些任务实际上可以通过时间持久的功能来解决。 3)TEG的灵活性对8个视频基准测试产生最先进的结果,在大多数情况下优于监督预训练。
translated by 谷歌翻译
现有的少量学习(FSL)方法依赖于具有大型标记数据集的培训,从而阻止它们利用丰富的未标记数据。从信息理论的角度来看,我们提出了一种有效的无监督的FSL方法,并以自学意义进行学习表示。遵循信息原理,我们的方法通过捕获数据的内在结构来学习全面的表示。具体而言,我们以低偏置的MI估计量来最大化实例及其表示的相互信息(MI),以执行自我监督的预训练。我们的自我监督模型对所见类别的可区分特征的监督预训练没有针对可见的阶级的偏见,从而对看不见的类别进行了更好的概括。我们解释说,受监督的预训练和自我监督的预训练实际上正在最大化不同的MI目标。进一步进行了广泛的实验,以通过各种训练环境分析其FSL性能。令人惊讶的是,结果表明,在适当条件下,自我监管的预训练可以优于监督预训练。与最先进的FSL方法相比,我们的方法在没有基本类别的任何标签的情况下,在广泛使用的FSL基准上实现了可比的性能。
translated by 谷歌翻译