我们为无监督活动分割提出了一种新方法,它使用视频帧聚类作为借口任务,并同时执行表示学习和在线群集。这与先前作品相反,其中通常顺序地执行表示学习和聚类。我们通过采用时间最优运输来利用视频中的时间信息。特别是,我们纳入了一个时间正则化术语,其将活动的时间顺序保留到用于计算伪标签群集分配的标准最佳传输模块中。时间最优传输模块使我们的方法能够学习无监督活动细分的有效陈述。此外,先前的方法需要在以离线方式培养它们之前对整个数据集的学习功能存储在整个数据集中,而我们的方法在在线方式一次处理一个迷你批次。在三个公共数据集,即50沙拉,YouTube说明和早餐以及我们的数据集,即桌面装配的广泛评估表明,我们的方法在PAR或更优于以前的无监督活动分割方法,尽管内存限制显着较低。
translated by 谷歌翻译
我们提出了一种用于少量视频分类的新方法,该方法可以执行外观和时间对齐。特别是,给定一对查询和支持视频,我们通过框架级功能匹配进行外观对齐,以在视频之间达到外观相似性得分,同时利用时间订单保留的先验来获得视频之间的时间相似性得分。此外,我们介绍了一些视频分类框架,该框架利用了多个步骤的上述外观和时间相似性得分,即基于原型的训练和测试,以及电感和thresductive和转导的原型细化。据我们所知,我们的工作是第一个探索跨传感器的视频分类的工作。动力学和某些事物的V2数据集进行了广泛的实验表明,外观和时间对齐对于具有时间订单敏感性的数据集至关重要。我们的方法与两个数据集上的以前方法相似或更好的结果。我们的代码可在https://github.com/vinairesearch/fsvc-ata上找到。
translated by 谷歌翻译
时间动作细分任务段视频暂时,并预测所有帧的动作标签。充分监督这种细分模型需要密集的框架动作注释,这些注释既昂贵又乏味。这项工作是第一个提出一个组成动作发现(CAD)框架的工作,该框架仅需要视频高级复杂活动标签作为时间动作分割的监督。提出的方法会自动使用活动分类任务发现组成视频动作。具体而言,我们定义了有限数量的潜在作用原型来构建视频级别的双重表示,通过活动分类培训共同学习了这些原型。这种设置赋予我们的方法,可以在多个复杂活动中发现潜在的共享动作。由于缺乏行动水平的监督,我们采用匈牙利匹配算法将潜在的动作原型与地面真理语义类别进行评估联系起来。我们表明,通过高级监督,匈牙利的匹配可以从现有的视频和活动级别扩展到全球水平。全球级别的匹配允许跨活动进行行动共享,这在文献中从未考虑过。广泛的实验表明,我们发现的动作可以帮助执行时间动作细分和活动识别任务。
translated by 谷歌翻译
我们介绍了一种新颖的方法,用于使用时间戳监督进行时间戳分割。我们的主要贡献是图形卷积网络,该网络以端到端方式学习,以利用相邻帧之间的帧功能和连接,以从稀疏的时间戳标签中生成密集的框架标签。然后可以使用生成的密集框架标签来训练分割模型。此外,我们为分割模型和图形卷积模型进行交替学习的框架,该模型首先初始化,然后迭代地完善学习模型。在四个公共数据集上进行了详细的实验,包括50种沙拉,GTEA,早餐和桌面组件,表明我们的方法优于多层感知器基线,同时在时间活动中表现出色或更好地表现出色或更好在时间戳监督下。
translated by 谷歌翻译
用于自我监督的顺序行动对齐的最先进方法依赖于在时间上跨越视频的对应关系的深网络。它们要么学习横跨序列的帧到帧映射,但不利用时间信息,或者在每个视频对之间采用单调对齐,这忽略了动作顺序的变化。因此,这些方法无法处理涉及包含非单调动作序列的背景帧或视频的常见现实情景。在本文中,我们提出了一种方法来对齐野生序列动作,涉及不同的时间变化。为此,我们提出了一种方法来强制在最佳传输矩阵上强制执行时间前导者,该矩阵利用时间一致性,同时允许动作顺序变化。我们的模型占单调和非单调序列,并处理不应对齐的背景框架。我们展示了我们的方法在四个不同的基准数据集中始终如一地始终优于自我监督的顺序行动表示学习的最先进。
translated by 谷歌翻译
过程学习涉及确定键步并确定其逻辑顺序以执行任务。现有方法通常使用第三人称视频来学习该过程,使操纵对象的外观很小,并且经常被演员遮住,从而导致重大错误。相比之下,我们观察到从第一人称(Egentric)可穿戴摄像机获得的视频提供了对动作的毫无开创且清晰的视野。但是,从以eg中心视频学习的程序学习是具有挑战性的,因为(a)由于佩戴者的头部运动,相机视图发生了极端变化,并且(b)由于视频的不受约束性质而存在无关的框架。因此,当前的最新方法的假设是,该动作大约同时发生并且持续时间相同,因此不持有。取而代之的是,我们建议使用视频键位之间的时间对应关系提供的信号。为此,我们提出了一个新颖的自我监督对应和剪切(CNC),用于程序学习。 CNC识别并利用多个视频的键步之间的时间对应关系来学习该过程。我们的实验表明,CNC的表现分别优于基准Procel和Crosstask数据集上的最先进,分别为5.2%和6.3%。此外,对于使用以Egentric视频为中心的程序学习,我们建议使用Egoprocel数据集,该数据集由130名受试者捕获的62个小时的视频组成,执行16个任务。源代码和数据集可在项目页面https://sid2697.github.io/egoprocel/上获得。
translated by 谷歌翻译
聚类是无监督学习中无处不在的工具。大多数现有的自我监督表示方法通常基于视觉上的特征聚类样本。尽管这对于基于图像的自我审视非常有效,但它通常会失败,因为视频需要理解运动而不是专注于背景。将光流作为与RGB的互补信息可以减轻此问题。但是,我们观察到,两种观点的幼稚组合并不能带来有意义的收益。在本文中,我们提出了一种结合两种观点的原则方法。具体而言,我们提出了一种新颖的聚类策略,在该策略中,我们将每个视图的初始群集分配作为指导其他视图的最终群集分配。这个想法将对这两种视图强制执行类似的群集结构,并且形成的簇在语义上是抽象的,并且对来自每个单独视图的嘈杂输入。此外,我们提出了一种新颖的正则化策略来解决特征崩溃问题,这在基于聚类的自学学习方法中很常见。我们的广泛评估表明,我们学到的表示对下游任务的有效性,例如视频检索和动作识别。具体来说,我们在UCF上胜过7%,在HMDB上胜过4%,用于视频检索,而在UCF上的最高状态为5%,而HMDB则在HMDB上进行视频分类6%
translated by 谷歌翻译
时间动作分割对(长)视频序列中的每个帧的动作进行分类。由于框架明智标签的高成本,我们提出了第一种用于时间动作分割的半监督方法。我们对无监督的代表学习铰接,对于时间动作分割,造成独特的挑战。未经目针视频中的操作长度变化,并且具有未知的标签和开始/结束时间。跨视频的行动订购也可能有所不同。我们提出了一种新颖的方式,通过聚类输入特征来学习来自时间卷积网络(TCN)的帧智表示,其中包含增加的时间接近条件和多分辨率相似性。通过与传统的监督学习合并表示学习,我们开发了一个“迭代 - 对比 - 分类(ICC)”半监督学习计划。通过更多标记的数据,ICC逐步提高性能; ICC半监督学习,具有40%标记的视频,执行类似于完全监督的对应物。我们的ICC分别通过{+1.8,+ 5.6,+2.5}%的{+1.8,+ 5.6,+2.5}%分别改善了100%标记的视频。
translated by 谷歌翻译
Temporal action segmentation tags action labels for every frame in an input untrimmed video containing multiple actions in a sequence. For the task of temporal action segmentation, we propose an encoder-decoder-style architecture named C2F-TCN featuring a "coarse-to-fine" ensemble of decoder outputs. The C2F-TCN framework is enhanced with a novel model agnostic temporal feature augmentation strategy formed by the computationally inexpensive strategy of the stochastic max-pooling of segments. It produces more accurate and well-calibrated supervised results on three benchmark action segmentation datasets. We show that the architecture is flexible for both supervised and representation learning. In line with this, we present a novel unsupervised way to learn frame-wise representation from C2F-TCN. Our unsupervised learning approach hinges on the clustering capabilities of the input features and the formation of multi-resolution features from the decoder's implicit structure. Further, we provide the first semi-supervised temporal action segmentation results by merging representation learning with conventional supervised learning. Our semi-supervised learning scheme, called ``Iterative-Contrastive-Classify (ICC)'', progressively improves in performance with more labeled data. The ICC semi-supervised learning in C2F-TCN, with 40% labeled videos, performs similar to fully supervised counterparts.
translated by 谷歌翻译
本文在完全和时间戳监督的设置中介绍了通过序列(SEQ2SEQ)翻译序列(SEQ2SEQ)翻译的统一框架。与当前的最新帧级预测方法相反,我们将动作分割视为SEQ2SEQ翻译任务,即将视频帧映射到一系列动作段。我们提出的方法涉及在标准变压器SEQ2SEQ转换模型上进行一系列修改和辅助损失函数,以应对与短输出序列相对的长输入序列,相对较少的视频。我们通过框架损失为编码器合并了一个辅助监督信号,并在隐式持续时间预测中提出了单独的对齐解码器。最后,我们通过提出的约束K-Medoids算法将框架扩展到时间戳监督设置,以生成伪分段。我们提出的框架在完全和时间戳监督的设置上始终如一地表现,在几个数据集上表现优于或竞争的最先进。
translated by 谷歌翻译
在本文中,我们考虑了从长时间的视频到几分钟的长视频进行分类的问题(例如,烹饪不同的食谱,烹饪不同的食谱,进行不同的家庭装修,创建各种形式的艺术和手工艺品)。准确地对这些活动进行分类,不仅需要识别构成任务的单个步骤,还需要捕获其时间依赖性。这个问题与传统的动作分类大不相同,在传统的动作分类中,模型通常在跨越几秒钟的视频上进行了优化,并且手动修剪以包含简单的原子动作。虽然步骤注释可以使模型的培训能够识别程序活动的各个步骤,但由于长时间视频中手动注释时间界的超级注释,因此该领域的现有大规模数据集不包括此类段标签。为了解决这个问题,我们建议通过利用文本知识库(Wikihow)的遥远监督来自动确定教学视频中的步骤,其中包括对执行各种复杂活动所需的步骤的详细描述。我们的方法使用语言模型来匹配视频中自动转录的语音,以在知识库中逐步描述。我们证明,经过训练的视频模型可以识别这些自动标记的步骤(无手动监督)产生了在四个下游任务上实现卓越的概括性能的表示:识别程序活动,步骤分类,步骤预测和以自我为中心的视频分类。
translated by 谷歌翻译
我们为视频对象分割(VOS)提出了一种对无监督学习的新方法。与以前的工作不同,我们的配方允许直接在完全卷积的制度中学习密集特征表示。我们依靠统一的网格采样来提取一组锚点并培训我们的模型,以消除它们之间的间间和视频间级别之间的消除。然而,训练这种模型的天真的方案导致退化的解决方案。我们建议使用简单的正则化方案来防止这种情况,将分段任务的标准性属性与相似性转换的平衡性。我们的培训目标承认有效实施并展示快速培训趋同。在已建立的VOS基准测试中,我们的方法尽管使用明显更少的培训数据和计算能力,但我们的方法超出了以前的工作的分割准确性。
translated by 谷歌翻译
近年来,已经开发了几种无监督和自我监督的方法,以从大规模未标记的数据集中学习视觉功能。然而,它们的主要缺点是,如果简单地旋转或相机的视角更改,这些方法几乎无法识别同一对象的视觉特征。为了克服此限制,同时利用有用的监督来源,我们考虑了视频对象轨道。遵循直觉,轨道中的两个补丁应该在学习的特征空间中具有相似的视觉表示形式,我们采用了一种无监督的基于群集的方法,并约束此类表示为同一类别,因为它们可能属于同一对象或对象零件。与先前的工作相比,不同数据集上两个下游任务的实验结果证明了我们在线深度聚类(ODCT)方法的有效性,而视频轨道一致性(ODCT)方法没有利用时间信息。此外,我们表明,与依靠昂贵和精确的轨道注释相比,利用无监督的类不知所措但嘈杂的轨道生成器的产量提高了准确性。
translated by 谷歌翻译
数据驱动的方法来协助手术室(OR)工作流程分析取决于耗时且收集昂贵的大型策划数据集。另一方面,我们看到最近从监督学习转变为可以从未标记数据集中学习表示的自我监督和/或无监督学习方法。在本文中,我们利用机器人手术中捕获的未标记数据,并提出了一种新颖的方法,以融合单个视频框架或图像的多模式数据。我们将多模式数据视为不同的观点,而不是同一图像或视频框架的不同图像或视频框架的不同增强(或“视图”)作为不同的观点,可以通过聚类以无监督的方式训练模型。我们将我们的方法与其他最新方法进行了比较,结果表明,我们的方法在手术视频活动识别和语义细分方面的表现出色。
translated by 谷歌翻译
We address the problem of extracting key steps from unlabeled procedural videos, motivated by the potential of Augmented Reality (AR) headsets to revolutionize job training and performance. We decompose the problem into two steps: representation learning and key steps extraction. We employ self-supervised representation learning via a training strategy that adapts off-the-shelf video features using a temporal module. Training implements self-supervised learning losses involving multiple cues such as appearance, motion and pose trajectories extracted from videos to learn generalizable representations. Our method extracts key steps via a tunable algorithm that clusters the representations extracted from procedural videos. We quantitatively evaluate our approach with key step localization and also demonstrate the effectiveness of the extracted representations on related downstream tasks like phase classification. Qualitative results demonstrate that the extracted key steps are meaningful to succinctly represent the procedural tasks.
translated by 谷歌翻译
Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.
translated by 谷歌翻译
Visual and audio modalities are highly correlated, yet they contain different information. Their strong correlation makes it possible to predict the semantics of one from the other with good accuracy. Their intrinsic differences make cross-modal prediction a potentially more rewarding pretext task for self-supervised learning of video and audio representations compared to within-modality learning. Based on this intuition, we propose Cross-Modal Deep Clustering (XDC), a novel selfsupervised method that leverages unsupervised clustering in one modality (e.g., audio) as a supervisory signal for the other modality (e.g., video). This cross-modal supervision helps XDC utilize the semantic correlation and the differences between the two modalities. Our experiments show that XDC outperforms single-modality clustering and other multi-modal variants. XDC achieves state-of-the-art accuracy among self-supervised methods on multiple video and audio benchmarks. Most importantly, our video model pretrained on large-scale unlabeled data significantly outperforms the same model pretrained with full-supervision on ImageNet and Kinetics for action recognition on HMDB51 and UCF101. To the best of our knowledge, XDC is the first self-supervised learning method that outperforms large-scale fully-supervised pretraining for action recognition on the same architecture.
translated by 谷歌翻译
对于人类的行动理解,流行的研究方向是分析具有明确的语义含量的短视频剪辑,例如跳跃和饮酒。然而,了解短语行动的方法不能直接翻译成长期以来的人类动态,如跳舞,即使在语义上也是挑战的挑战。同时,自然语言处理(NLP)社区通过大规模预培训解决了稀缺的类似挑战,这改善了一种模型的几个下游任务。在这项工作中,我们研究如何以自我监督的方式进行分段和群集视频,即Acton Discovery,朝向视频标记的主要障碍。我们提出了一种两级框架,首先通过对应于它们的时间上下文的视频帧的两个增强视图对比其次的视频帧的两个增强视图来获得帧智表示。然后通过k-means群集视频集集中的帧展表示。然后通过从同一簇内的帧形成连续的运动序列来自动提取actons。通过标准化的相互信息和语言熵,我们通过Kendall的Tau和Lexicon构建步骤进行评估框架明智的表现。我们还研究了这个标记化的三种应用:类型分类,行动细分和行动组成。在AIST ++和PKU-MMD数据集上,与几个基线相比,Actons带来了显着的性能改进。
translated by 谷歌翻译
区分动作是按预期执行的,还是预期的动作失败是人类不仅具有的重要技能,而且对于在人类环境中运行的智能系统也很重要。但是,由于缺乏带注释的数据,认识到一项行动是无意的还是预期的,是否会失败。尽管可以在互联网中发现无意或失败动作的视频,但高注释成本是学习网络的主要瓶颈。因此,在这项工作中,我们研究了对无意采取行动预测的自学代表学习的问题。虽然先前的作品学习基于本地时间社区的表示形式,但我们表明需要视频的全局上下文来学习三个下游任务的良好表示:无意的动作分类,本地化和预期。在补充材料中,我们表明学习的表示形式也可用于检测视频中的异常情况。
translated by 谷歌翻译
我们为视频中的无监督对象细分提出了一种简单而强大的方法。我们引入了一个目标函数,其最小值代表输入序列上主要显着对象的掩码。它仅依赖于独立的图像特征和光流,可以使用现成的自我监督方法获得。它以序列的长度缩放,不需要超级像素或稀疏,并且在没有任何特定培训的情况下将其推广到不同的数据集。该目标函数实际上可以从应用于整个视频的光谱群集形式得出。我们的方法通过标准基准(Davis2016,segtrack-v2,fbms59)实现了PAR的性能,同时在概念上且实际上更简单。代码可从https://ponimatkin.github.io/ssl-vos获得。
translated by 谷歌翻译