通用事件边界检测(GEBD)是一个新建议的视频了解任务,旨在找到事件的一个级别更深入的语义边界。桥接自然人感知和视频理解之间的差距,它具有各种潜在的应用,包括可解释和语义有效的视频解析。仍处于早期发展阶段,现有的Gebd求解器是相关视频理解任务的简单扩展,无视Gebd的独特特征。在本文中,我们向无监督/监督Gebd提出了一种新颖的框架,通过使用时间自相似性矩阵(TSM)作为视频表示。新的递归TSM解析(RTP)算法利用TSM中的本地对角线模式来检测边界,与边界对比(BOCO)丢失相结合,以培训我们的编码器以产生更多的信息性TSM。我们的框架可以应用于无监督和监督的设置,通过Gebd基准的巨大边缘实现最先进的性能。特别是,我们无监督的方法优于以前的最先进的“监督”模型,这意味着它的卓越效果。
translated by 谷歌翻译
Temporal Action Localization (TAL) methods typically operate on top of feature sequences from a frozen snippet encoder that is pretrained with the Trimmed Action Classification (TAC) tasks, resulting in a task discrepancy problem. While existing TAL methods mitigate this issue either by retraining the encoder with a pretext task or by end-to-end fine-tuning, they commonly require an overload of high memory and computation. In this work, we introduce Soft-Landing (SoLa) strategy, an efficient yet effective framework to bridge the transferability gap between the pretrained encoder and the downstream tasks by incorporating a light-weight neural network, i.e., a SoLa module, on top of the frozen encoder. We also propose an unsupervised training scheme for the SoLa module; it learns with inter-frame Similarity Matching that uses the frame interval as its supervisory signal, eliminating the need for temporal annotations. Experimental evaluation on various benchmarks for downstream TAL tasks shows that our method effectively alleviates the task discrepancy problem with remarkable computational efficiency.
translated by 谷歌翻译
这项工作提出了一个名为TEG的自我监督的学习框架,探讨学习视频表示中的时间粒度。在TEG中,我们从视频中抽出一个长剪辑,以及在长夹内部的短夹。然后我们提取密集的时间嵌入品。培训目标由两部分组成:一个细粒度的时间学习目的,以最大化短夹和长剪辑中的相应时间嵌入之间的相似性,以及持续的时间学习目标,以将两个剪辑的全局嵌入在一起。我们的研究揭示了时间粒度与三个主要发现的影响。 1)不同的视频任务可能需要不同时间粒度的特征。 2)有趣的是,广泛认为需要时间感知的一些任务实际上可以通过时间持久的功能来解决。 3)TEG的灵活性对8个视频基准测试产生最先进的结果,在大多数情况下优于监督预训练。
translated by 谷歌翻译
Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.
translated by 谷歌翻译
Temporal action segmentation tags action labels for every frame in an input untrimmed video containing multiple actions in a sequence. For the task of temporal action segmentation, we propose an encoder-decoder-style architecture named C2F-TCN featuring a "coarse-to-fine" ensemble of decoder outputs. The C2F-TCN framework is enhanced with a novel model agnostic temporal feature augmentation strategy formed by the computationally inexpensive strategy of the stochastic max-pooling of segments. It produces more accurate and well-calibrated supervised results on three benchmark action segmentation datasets. We show that the architecture is flexible for both supervised and representation learning. In line with this, we present a novel unsupervised way to learn frame-wise representation from C2F-TCN. Our unsupervised learning approach hinges on the clustering capabilities of the input features and the formation of multi-resolution features from the decoder's implicit structure. Further, we provide the first semi-supervised temporal action segmentation results by merging representation learning with conventional supervised learning. Our semi-supervised learning scheme, called ``Iterative-Contrastive-Classify (ICC)'', progressively improves in performance with more labeled data. The ICC semi-supervised learning in C2F-TCN, with 40% labeled videos, performs similar to fully supervised counterparts.
translated by 谷歌翻译
未来的活动预期是在Egocentric视觉中具有挑战性问题。作为标准的未来活动预期范式,递归序列预测遭受错误的累积。为了解决这个问题,我们提出了一个简单有效的自我监管的学习框架,旨在使中间表现为连续调节中间代表性,以产生表示(a)与先前观察到的对比的当前时间戳框架中的新颖信息内容和(b)反映其与先前观察到的帧的相关性。前者通过最小化对比损失来实现,并且后者可以通过动态重量机制来实现在观察到的内容中的信息帧中,具有当前帧的特征与观察到的帧之间的相似性比较。通过多任务学习可以进一步增强学习的最终视频表示,该多任务学习在目标活动标签上执行联合特征学习和自动检测到的动作和对象类令牌。在大多数自我传统视频数据集和两个第三人称视频数据集中,SRL在大多数情况下急剧表现出现有的现有最先进。通过实验性事实,还可以准确识别支持活动语义的行动和对象概念的实验性。
translated by 谷歌翻译
通用事件边界检测是视频理解中重要但具有挑战性的任务,旨在检测人类自然感知事件界限的时刻。这项任务的主要挑战是察觉各种事件边界的各种时间变化。为此,本文提出了一个有效和最终的学习框架(DDM-Net)。为了解决事件边界的多样性和复杂的语义,我们提出了三个显着的改进。首先,我们构建一个功能银行来存储空间和时间的多级功能,为多个尺度进行差异计算。其次,为了减轻先前方法的时间模型不足,我们呈现密集差异图(DDM)以全面地表征运动模式。最后,我们利用逐步关注多级DDM,共同聚集出外观和运动线索。因此,DDM-Net分别在Kinetics-Gebd和TapCOS基准上实现了14%和8%的显着提高,并且优于Loveu挑战@ CVPR 2021的前1名获胜者解决方案而没有钟声和吹口哨。最先进的结果展示了更丰富的运动表示和更复杂的聚合的有效性,在处理通用事件边界检测的多样性方面。我们的代码将很快推出。
translated by 谷歌翻译
对于人类的行动理解,流行的研究方向是分析具有明确的语义含量的短视频剪辑,例如跳跃和饮酒。然而,了解短语行动的方法不能直接翻译成长期以来的人类动态,如跳舞,即使在语义上也是挑战的挑战。同时,自然语言处理(NLP)社区通过大规模预培训解决了稀缺的类似挑战,这改善了一种模型的几个下游任务。在这项工作中,我们研究如何以自我监督的方式进行分段和群集视频,即Acton Discovery,朝向视频标记的主要障碍。我们提出了一种两级框架,首先通过对应于它们的时间上下文的视频帧的两个增强视图对比其次的视频帧的两个增强视图来获得帧智表示。然后通过k-means群集视频集集中的帧展表示。然后通过从同一簇内的帧形成连续的运动序列来自动提取actons。通过标准化的相互信息和语言熵,我们通过Kendall的Tau和Lexicon构建步骤进行评估框架明智的表现。我们还研究了这个标记化的三种应用:类型分类,行动细分和行动组成。在AIST ++和PKU-MMD数据集上,与几个基线相比,Actons带来了显着的性能改进。
translated by 谷歌翻译
我们为视频对象分割(VOS)提出了一种对无监督学习的新方法。与以前的工作不同,我们的配方允许直接在完全卷积的制度中学习密集特征表示。我们依靠统一的网格采样来提取一组锚点并培训我们的模型,以消除它们之间的间间和视频间级别之间的消除。然而,训练这种模型的天真的方案导致退化的解决方案。我们建议使用简单的正则化方案来防止这种情况,将分段任务的标准性属性与相似性转换的平衡性。我们的培训目标承认有效实施并展示快速培训趋同。在已建立的VOS基准测试中,我们的方法尽管使用明显更少的培训数据和计算能力,但我们的方法超出了以前的工作的分割准确性。
translated by 谷歌翻译
We present a self-supervised Contrastive Video Representation Learning (CVRL) method to learn spatiotemporal visual representations from unlabeled videos. Our representations are learned using a contrastive loss, where two augmented clips from the same short video are pulled together in the embedding space, while clips from different videos are pushed away. We study what makes for good data augmentations for video self-supervised learning and find that both spatial and temporal information are crucial. We carefully design data augmentations involving spatial and temporal cues. Concretely, we propose a temporally consistent spatial augmentation method to impose strong spatial augmentations on each frame of the video while maintaining the temporal consistency across frames. We also propose a sampling-based temporal augmentation method to avoid overly enforcing invariance on clips that are distant in time. On Kinetics-600, a linear classifier trained on the representations learned by CVRL achieves 70.4% top-1 accuracy with a 3D-ResNet-50 (R3D-50) backbone, outperforming ImageNet supervised pre-training by 15.7% and SimCLR unsupervised pre-training by 18.8% using the same inflated R3D-50. The performance of CVRL can be further improved to 72.9% with a larger R3D-152 (2× filters) backbone, significantly closing the gap between unsupervised and supervised video representation learning. Our code and models will be available at https://github.com/tensorflow/models/tree/master/official/.
translated by 谷歌翻译
时间动作分割对(长)视频序列中的每个帧的动作进行分类。由于框架明智标签的高成本,我们提出了第一种用于时间动作分割的半监督方法。我们对无监督的代表学习铰接,对于时间动作分割,造成独特的挑战。未经目针视频中的操作长度变化,并且具有未知的标签和开始/结束时间。跨视频的行动订购也可能有所不同。我们提出了一种新颖的方式,通过聚类输入特征来学习来自时间卷积网络(TCN)的帧智表示,其中包含增加的时间接近条件和多分辨率相似性。通过与传统的监督学习合并表示学习,我们开发了一个“迭代 - 对比 - 分类(ICC)”半监督学习计划。通过更多标记的数据,ICC逐步提高性能; ICC半监督学习,具有40%标记的视频,执行类似于完全监督的对应物。我们的ICC分别通过{+1.8,+ 5.6,+2.5}%的{+1.8,+ 5.6,+2.5}%分别改善了100%标记的视频。
translated by 谷歌翻译
本文在完全和时间戳监督的设置中介绍了通过序列(SEQ2SEQ)翻译序列(SEQ2SEQ)翻译的统一框架。与当前的最新帧级预测方法相反,我们将动作分割视为SEQ2SEQ翻译任务,即将视频帧映射到一系列动作段。我们提出的方法涉及在标准变压器SEQ2SEQ转换模型上进行一系列修改和辅助损失函数,以应对与短输出序列相对的长输入序列,相对较少的视频。我们通过框架损失为编码器合并了一个辅助监督信号,并在隐式持续时间预测中提出了单独的对齐解码器。最后,我们通过提出的约束K-Medoids算法将框架扩展到时间戳监督设置,以生成伪分段。我们提出的框架在完全和时间戳监督的设置上始终如一地表现,在几个数据集上表现优于或竞争的最先进。
translated by 谷歌翻译
动作理解已经演变成精细粒度的时代,因为现实生活中的大多数人类行为只有很小的差异。为了以标签有效的方式准确检测这些细粒度的动作,我们首次解决了视频中弱监督的细粒度临时动作检测问题。如果没有仔细的设计来捕获细粒度的动作之间的细微差异,先前的一般动作检测模型在细粒度的环境中不能很好地表现。我们建议将动作建模为可重复使用的原子动作的组合,这些动作是通过自我监督聚类自动从数据中自动发现的,以捕获细颗粒动作的共同点和个性。以视觉概念为代表的学识渊博的原子动作进一步映射到利用语义标签层次结构的细细作用标签。我们的方法构建了四个级别的视觉表示层次结构:剪辑级别,原子动作级别,精细动作类别和粗糙的动作类别水平,并在每个级别进行监督。对两个大规模细颗粒视频数据集(Fineaction和FineGym)进行了广泛的实验,显示了我们提出的弱监督模型的好处,以实现细粒度的动作检测,并实现了最先进的结果。
translated by 谷歌翻译
现代自我监督的学习算法通常强制执行跨视图实例的表示的持久性。虽然非常有效地学习整体图像和视频表示,但这种方法成为在视频中学习时空时间细粒度的特征的子最优,其中场景和情况通过空间和时间演变。在本文中,我们介绍了上下文化的时空对比学习(Const-CL)框架,以利用自我监督有效学习时空时间细粒度的表示。我们首先设计一种基于区域的自我监督的借口任务,该任务要求模型从一个视图中学习将实例表示转换为上下文特征的另一个视图。此外,我们介绍了一个简单的网络设计,有效地调和了整体和本地表示的同时学习过程。我们评估我们对各种下游任务和CONST-CL的学习表现,实现了四个数据集的最先进结果。对于时空行动本地化,Const-CL可以使用AVA-Kinetics验证集的检测到框实现39.4%的地图和30.5%地图。对于对象跟踪,Const-CL在OTB2015上实现了78.1%的精度和55.2%的成功分数。此外,Const-CL分别在视频动作识别数据集,UCF101和HMDB51上实现了94.8%和71.9%的前1个微调精度。我们计划向公众发布我们的代码和模型。
translated by 谷歌翻译
手术场景细分对于促使机器人手术的认知援助至关重要。但是,以逐帧方式以像素为单位的注释视频是昂贵且耗时的。为了大大减轻标签负担,在这项工作中,我们从机器人手术视频中研究了半监督的场景细分,这实际上是必不可少的,但以前很少探索。我们考虑在等距采样下的临床上适当的注释情况。然后,我们提出了PGV-CL,这是一种新型的伪标签引导的跨视频对比学习方法,以增强场景分割。它有效地利用了未标记的数据来实现可信赖和全球模型的正则化,从而产生更具歧视性的特征表示。具体来说,对于可信赖的表示学习,我们建议合并伪标签以指导对选择,从而获得更可靠的代表对像素对比度。此外,我们将代表学习空间从以前的图像级扩展到交叉视频,该图像可以捕获全球语义以使学习过程受益。我们广泛评估了公共机器人手术数据集Edovis18和公共白内障数据集Cadis的方法。实验结果证明了我们方法的有效性,在不同的标签比下始终超过了最先进的半监督方法,甚至超过了10.1%标签的destovis18上的全面监督培训。
translated by 谷歌翻译
由于水下环境复杂,水下鱼类分割以估计鱼体测量值仍然无法解决。依靠完全监督的分割模型需要收集每个像素标签,这很耗时且容易过度拟合。自我监督的学习方法可以帮助避免大型注释的培训数据集的要求,但是,在现实世界中,它们应该达到良好的细分质量。在本文中,我们介绍了一种基于变压器的方法,该方法使用自学意义重大的鱼类分割。我们提出的模型对视频进行了培训 - 没有任何注释,可以在野外现场拍摄的水下视频中进行鱼类分割。我们表明,当对一个数据集的一系列水下视频进行培训时,该建议的模型超过了以前的基于CNN的基于CNN和基于变压器的自我监督方法,并在两个未见的水下视频数据集中相对接近具有监督方法的性能。这表明了我们的模型的概括性以及它不需要预培训模型的事实。此外,我们表明,由于其密集的表示学习,我们的模型是计算效率的。我们提供定量和定性的结果,以证明我们的模型的重要功能。
translated by 谷歌翻译
视频内容是多方面的,由对象,场景,交互或操作组成。现有数据集主要标记为模型培训的一个方面,导致视频表示根据训练数据集仅偏置为一个小平面。目前还没有研究如何学习来自多方面标签的视频表示,以及多方面的信息是否有助于视频表示学习。在本文中,我们提出了一种新的学习框架,多朝向集成(MUFI),以聚合来自不同数据集的面部,以学习可以反映视频内容的全频谱的表示。从技术上讲,MUFI将问题交流为视觉语义嵌入学习,该问题将视频表示映射到丰富的语义嵌入空间中,并从两个角度联合优化视频表示。一个是利用每个视频和自己的标签描述之间的小型内部监督,第二个是从其他数据集的小平面预测每个视频的“语义表示”作为刻面监控。广泛的实验表明,通过我们的MUFI框架在四个大型视频数据集加上两个图像数据集的联盟上学习3D CNN,导致视频表示的优异能力。具有MUFI的预先学习的3D CNN还显示出在几个下游视频应用上的其他方法的清晰改进。更值得注意的是,MUFI在UCF101 / HMDB51上实现98.1%/ 80.9%,用于行动识别和101.5%,在MSVD上的浏览器D得分为视频字幕。
translated by 谷歌翻译
视频自我监督的学习是一项挑战的任务,这需要模型的显着表达力量来利用丰富的空间时间知识,并从大量未标记的视频产生有效的监督信号。但是,现有方法未能提高未标记视频的时间多样性,并以明确的方式忽略精心建模的多尺度时间依赖性。为了克服这些限制,我们利用视频中的多尺度时间依赖性,并提出了一个名为时间对比图学习(TCGL)的新型视频自我监督学习框架,该框架共同模拟了片段间和片段间的时间依赖性用混合图对比学习策略学习的时间表示学习。具体地,首先引入空间 - 时间知识发现(STKD)模块以基于离散余弦变换的频域分析从视频中提取运动增强的空间时间表。为了显式模拟未标记视频的多尺度时间依赖性,我们的TCGL将关于帧和片段命令的先前知识集成到图形结构中,即片段/间隙间时间对比图(TCG)。然后,特定的对比学习模块旨在最大化不同图形视图中节点之间的协议。为了为未标记的视频生成监控信号,我们介绍了一种自适应片段订购预测(ASOP)模块,它利用视频片段之间的关系知识来学习全局上下文表示并自适应地重新校准通道明智的功能。实验结果表明我们的TCGL在大规模行动识别和视频检索基准上的最先进方法中的优势。
translated by 谷歌翻译
视频突出对象检测旨在在视频中找到最具视觉上的对象。为了探索时间依赖性,现有方法通常是恢复性的神经网络或光学流量。然而,这些方法需要高计算成本,并且往往会随着时间的推移积累不准确性。在本文中,我们提出了一种带有注意模块的网络,以学习视频突出物体检测的对比特征,而没有高计算时间建模技术。我们开发了非本地自我关注方案,以捕获视频帧中的全局信息。共注意配方用于结合低级和高级功能。我们进一步应用了对比学学习以改善来自相同视频的前景区域对的特征表示,并将前景 - 背景区域对被推除在潜在的空间中。帧内对比损失有助于将前景和背景特征分开,并且帧间的对比损失提高了时间的稠度。我们对多个基准数据集进行广泛的实验,用于视频突出对象检测和无监督的视频对象分割,并表明所提出的方法需要较少的计算,并且对最先进的方法进行有利地执行。
translated by 谷歌翻译
通用事件边界检测(GEBD)是视频理解中的一项重要但挑战性的任务,该任务旨在检测人类自然感知事件边界的时刻。在本文中,我们为GEBD任务提供了本地上下文建模和全局边界解码方法。提出了局部上下文建模子网络来感知通用事件边界的各种模式,并生成强大的视频表示和可靠的边界信心。基于它们,全局边界解码子网络被利用为从全局视图解码事件边界。我们提出的方法在动力学-GEBD测试集上达到了85.13%的F1得分,与基线方法相比,它实现了22%以上的F1得分增强。该代码可从https://github.com/jackytown/gebd_challenge_cvpr2022获得。
translated by 谷歌翻译