本文在完全和时间戳监督的设置中介绍了通过序列(SEQ2SEQ)翻译序列(SEQ2SEQ)翻译的统一框架。与当前的最新帧级预测方法相反,我们将动作分割视为SEQ2SEQ翻译任务,即将视频帧映射到一系列动作段。我们提出的方法涉及在标准变压器SEQ2SEQ转换模型上进行一系列修改和辅助损失函数,以应对与短输出序列相对的长输入序列,相对较少的视频。我们通过框架损失为编码器合并了一个辅助监督信号,并在隐式持续时间预测中提出了单独的对齐解码器。最后,我们通过提出的约束K-Medoids算法将框架扩展到时间戳监督设置,以生成伪分段。我们提出的框架在完全和时间戳监督的设置上始终如一地表现,在几个数据集上表现优于或竞争的最先进。
translated by 谷歌翻译
Temporally locating and classifying action segments in long untrimmed videos is of particular interest to many applications like surveillance and robotics. While traditional approaches follow a two-step pipeline, by generating framewise probabilities and then feeding them to high-level temporal models, recent approaches use temporal convolutions to directly classify the video frames. In this paper, we introduce a multi-stage architecture for the temporal action segmentation task. Each stage features a set of dilated temporal convolutions to generate an initial prediction that is refined by the next one. This architecture is trained using a combination of a classification loss and a proposed smoothing loss that penalizes over-segmentation errors. Extensive evaluation shows the effectiveness of the proposed model in capturing long-range dependencies and recognizing action segments. Our model achieves state-of-the-art results on three challenging datasets: 50Salads, Georgia Tech Egocentric Activities (GTEA), and the Breakfast dataset.
translated by 谷歌翻译
Recent temporal action segmentation approaches need frame annotations during training to be effective. These annotations are very expensive and time-consuming to obtain. This limits their performances when only limited annotated data is available. In contrast, we can easily collect a large corpus of in-domain unannotated videos by scavenging through the internet. Thus, this paper proposes an approach for the temporal action segmentation task that can simultaneously leverage knowledge from annotated and unannotated video sequences. Our approach uses multi-stream distillation that repeatedly refines and finally combines their frame predictions. Our model also predicts the action order, which is later used as a temporal constraint while estimating frames labels to counter the lack of supervision for unannotated videos. In the end, our evaluation of the proposed approach on two different datasets demonstrates its capability to achieve comparable performance to the full supervision despite limited annotation.
translated by 谷歌翻译
Temporal action segmentation tags action labels for every frame in an input untrimmed video containing multiple actions in a sequence. For the task of temporal action segmentation, we propose an encoder-decoder-style architecture named C2F-TCN featuring a "coarse-to-fine" ensemble of decoder outputs. The C2F-TCN framework is enhanced with a novel model agnostic temporal feature augmentation strategy formed by the computationally inexpensive strategy of the stochastic max-pooling of segments. It produces more accurate and well-calibrated supervised results on three benchmark action segmentation datasets. We show that the architecture is flexible for both supervised and representation learning. In line with this, we present a novel unsupervised way to learn frame-wise representation from C2F-TCN. Our unsupervised learning approach hinges on the clustering capabilities of the input features and the formation of multi-resolution features from the decoder's implicit structure. Further, we provide the first semi-supervised temporal action segmentation results by merging representation learning with conventional supervised learning. Our semi-supervised learning scheme, called ``Iterative-Contrastive-Classify (ICC)'', progressively improves in performance with more labeled data. The ICC semi-supervised learning in C2F-TCN, with 40% labeled videos, performs similar to fully supervised counterparts.
translated by 谷歌翻译
Video action segmentation aims to slice the video into several action segments. Recently, timestamp supervision has received much attention due to lower annotation costs. We find the frames near the boundaries of action segments are in the transition region between two consecutive actions and have unclear semantics, which we call ambiguous intervals. Most existing methods iteratively generate pseudo-labels for all frames in each video to train the segmentation model. However, ambiguous intervals are more likely to be assigned with noisy and incorrect pseudo-labels, which leads to performance degradation. We propose a novel framework to train the model under timestamp supervision including the following two parts. First, pseudo-label ensembling generates pseudo-label sequences with ambiguous intervals, where the frames have no pseudo-labels. Second, iterative clustering iteratively propagates the pseudo-labels to the ambiguous intervals by clustering, and thus updates the pseudo-label sequences to train the model. We further introduce a clustering loss, which encourages the features of frames within the same action segment more compact. Extensive experiments show the effectiveness of our method.
translated by 谷歌翻译
手卫生是世界卫生组织(WHO)提出的标准六步洗手行动。但是,没有很好的方法来监督医务人员进行手卫生,这带来了疾病传播的潜在风险。在这项工作中,我们提出了一项新的计算机视觉任务,称为手动卫生评估,以为医务人员提供手动卫生的明智监督。现有的行动评估工作通常在整个视频上做出总体质量预测。但是,手动卫生作用的内部结构在手工卫生评估中很重要。因此,我们提出了一个新颖的细粒学习框架,以联合方式进行步骤分割和关键动作得分手,以进行准确的手部卫生评估。现有的时间分割方法通常采用多阶段卷积网络来改善分割的鲁棒性,但由于缺乏远距离依赖性,因此很容易导致过度分割。为了解决此问题,我们设计了一个多阶段卷积转换器网络,以进行步骤细分。基于这样的观察,每个手洗步骤都涉及确定手洗质量的几个关键动作,我们设计了一组关键的动作得分手,以评估每个步骤中关键动作的质量。此外,在手工卫生评估中缺乏统一的数据集。因此,在医务人员的监督下,我们贡献了一个视频数据集,其中包含300个带有细粒注释的视频序列。数据集上的广泛实验表明,我们的方法很好地评估了手动卫生视频并取得了出色的性能。
translated by 谷歌翻译
时间动作检测(TAD)旨在确定未修剪视频中每个动作实例的语义标签和边界。先前的方法通过复杂的管道来解决此任务。在本文中,我们提出了一个具有简单集的预测管道的端到端时间动作检测变压器(TADTR)。给定一组名为“动作查询”的可学习嵌入,Tadtr可以从每个查询的视频中自适应提取时间上下文,并直接预测动作实例。为了适应TAD的变压器,我们提出了三个改进,以提高其所在地意识。核心是一个时间可变形的注意模块,在视频中有选择地参加一组稀疏的密钥片段。片段的完善机制和动作回归头旨在完善预测实例的边界和信心。 TADTR需要比以前的检测器更低的计算成本,同时保留了出色的性能。作为一个独立的检测器,它在Thumos14(56.7%地图)和HACS段(32.09%地图)上实现了最先进的性能。结合一个额外的动作分类器,它在ActivityNet-1.3上获得了36.75%的地图。我们的代码可在\ url {https://github.com/xlliu7/tadtr}上获得。
translated by 谷歌翻译
我们为时间动作细分任务提供了半监督的学习方法。该任务的目的是在长时间的未修剪程序视频中暂时检测和细分动作,其中只有一小部分视频被密集标记,并且没有标记的大量视频。为此,我们为未标记的数据提出了两个新的损失函数:动作亲和力损失和动作连续性损失。动作亲和力损失通过施加从标记的集合引起的动作先验来指导未标记的样品学习。动作连续性损失强制执行动作的时间连续性,这也提供了框架分类的监督。此外,我们提出了一种自适应边界平滑(ABS)方法,以建立更粗糙的动作边界,以实现更健壮和可靠的学习。在三个基准上评估了拟议的损失函数和ABS。结果表明,它们以较低的标记数据(5%和10%)的数据显着改善了动作细分性能,并获得了与50%标记数据的全面监督相当的结果。此外,当将ABS整合到完全监督的学习中时,ABS成功地提高了性能。
translated by 谷歌翻译
时间动作分割对(长)视频序列中的每个帧的动作进行分类。由于框架明智标签的高成本,我们提出了第一种用于时间动作分割的半监督方法。我们对无监督的代表学习铰接,对于时间动作分割,造成独特的挑战。未经目针视频中的操作长度变化,并且具有未知的标签和开始/结束时间。跨视频的行动订购也可能有所不同。我们提出了一种新颖的方式,通过聚类输入特征来学习来自时间卷积网络(TCN)的帧智表示,其中包含增加的时间接近条件和多分辨率相似性。通过与传统的监督学习合并表示学习,我们开发了一个“迭代 - 对比 - 分类(ICC)”半监督学习计划。通过更多标记的数据,ICC逐步提高性能; ICC半监督学习,具有40%标记的视频,执行类似于完全监督的对应物。我们的ICC分别通过{+1.8,+ 5.6,+2.5}%的{+1.8,+ 5.6,+2.5}%分别改善了100%标记的视频。
translated by 谷歌翻译
我们介绍了一种新颖的方法,用于使用时间戳监督进行时间戳分割。我们的主要贡献是图形卷积网络,该网络以端到端方式学习,以利用相邻帧之间的帧功能和连接,以从稀疏的时间戳标签中生成密集的框架标签。然后可以使用生成的密集框架标签来训练分割模型。此外,我们为分割模型和图形卷积模型进行交替学习的框架,该模型首先初始化,然后迭代地完善学习模型。在四个公共数据集上进行了详细的实验,包括50种沙拉,GTEA,早餐和桌面组件,表明我们的方法优于多层感知器基线,同时在时间活动中表现出色或更好地表现出色或更好在时间戳监督下。
translated by 谷歌翻译
时间动作细分任务段视频暂时,并预测所有帧的动作标签。充分监督这种细分模型需要密集的框架动作注释,这些注释既昂贵又乏味。这项工作是第一个提出一个组成动作发现(CAD)框架的工作,该框架仅需要视频高级复杂活动标签作为时间动作分割的监督。提出的方法会自动使用活动分类任务发现组成视频动作。具体而言,我们定义了有限数量的潜在作用原型来构建视频级别的双重表示,通过活动分类培训共同学习了这些原型。这种设置赋予我们的方法,可以在多个复杂活动中发现潜在的共享动作。由于缺乏行动水平的监督,我们采用匈牙利匹配算法将潜在的动作原型与地面真理语义类别进行评估联系起来。我们表明,通过高级监督,匈牙利的匹配可以从现有的视频和活动级别扩展到全球水平。全球级别的匹配允许跨活动进行行动共享,这在文献中从未考虑过。广泛的实验表明,我们发现的动作可以帮助执行时间动作细分和活动识别任务。
translated by 谷歌翻译
视频中的时间动作细分最近引起了很多关注。时间戳监督是完成此任务的一种经济高效的方式。为了获得更多信息以优化模型,现有方法生成的伪框架根据分割模型和时间戳注释的输出进行了迭代标签。但是,这种做法可能在训练过程中引入噪声和振荡,并导致性能变性。为了解决这个问题,我们通过引入与分割模型平行的教师模型来帮助稳定模型优化的过程,为时间戳监督的暂时行动细分提出了一个新的框架。教师模型可以看作是分割模型的合奏,有助于抑制噪声并提高伪标签的稳定性。我们进一步引入了一个分段平滑的损失,该损失更加集中和凝聚力,以实现动作实例中预测概率的平稳过渡。三个数据集的实验表明,我们的方法的表现优于最新方法,并且以较低的注释成本与完全监督的方法相当地执行。
translated by 谷歌翻译
在时间动作细分中,时间戳监督只需要每个视频序列的少数标记帧。对于未标记的框架,以前的作品依靠分配硬标签,并且在微妙的违反注释假设的情况下,性能迅速崩溃。我们提出了一种基于新型的期望最大化方法(EM)方法,该方法利用了未标记框架的标签不确定性,并且足够强大以适应可能的注释误差。有了准确的时间戳注释,我们提出的方法会产生SOTA结果,甚至超过了几个指标和数据集中完全监督的设置。当应用于缺少动作段的时间戳注释时,我们的方法呈现出稳定的性能。为了进一步测试我们的配方稳健性,我们介绍了Skip-Tag监督的新挑战性注释设置。此设置会放松约束,并需要对视频中任何固定数量的随机帧进行注释,从而使其比时间戳监督更灵活,同时保持竞争力。
translated by 谷歌翻译
密集的预期旨在预测未来的行为及其持续的持续时间。现有方法依赖于完全标记的数据,即标有所有未来行动及其持续时间的序列。我们仅使用少量全标记的序列呈现(半)弱监督方法,主要是序列,其中仅标记即将到来的动作。为此,我们提出了一个框架,为未来的行动及其持续时间产生伪标签,并通过细化模块自适应地改进它们。仅考虑到即将到来的动作标签作为输入,这些伪标签指南对未来的动作/持续时间预测。我们进一步设计了注意力机制,以预测背景感知的持续时间。早餐和50salads基准测试的实验验证了我们的方法的效率;与完全监督最先进的模型相比,我们竞争甚至。我们将在:https://github.com/zhanghaotong1/wslvideodenseantication提供我们的代码。
translated by 谷歌翻译
视频摘要旨在自动生成视频的摘要(故事板或视频浏览器),这可以促进大规模视频检索和浏览。大多数现有方法对单个视频进行视频摘要,这些视频忽略了相似视频之间的相关性。然而,这种相关性也是视频理解和视频摘要的信息。为了解决此限制,我们提出了基于分层变压器(VJMHT)的视频联合建模,共综合化,这考虑了跨视频的语义依赖关系。具体而言,VJMHT由两层变压器组成:第一层从类似视频的各个拍摄提取语义表示,而第二层执行射门视频联合建模以聚合交叉视频语义信息。通过这种方式,可以明确建模并学习完整的跨视频高级模式,以便为个人视频的摘要而学习。此外,引入了基于变压器的视频表示重建,以最大化摘要和原始视频之间的高电平相似性。进行广泛的实验以验证所提出的模块的有效性以及VJMHT在F测量和基于秩的评估方面的优越性。
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
自动外科阶段识别在机器人辅助手术中起着重要作用。现有方法忽略了一个关键问题,即外科阶段应该通过学习段级语义来分类,而不是仅仅依赖于框架明智的信息。在本文中,我们提出了一种段 - 细分分层一致性网络(SAHC),用于来自视频的外科阶段识别。关键的想法是提取分层高级语义 - 一致的段,并使用它们来优化由暧昧帧引起的错误预测。为实现它,我们设计一个时间分层网络以生成分层高级段。然后,我们引入分层段帧注意力(SFA)模块,以捕获低级帧和高级段之间的关系。通过通过一致性损耗来规则地规范帧及其对应段的预测,网络可以生成语义 - 一致的段,然后纠正由模糊的低级帧引起的错误分类预测。我们在两个公共外科视频数据集上验证SAHC,即M2CAI16挑战数据集和CholeC80数据集。实验结果表明,我们的方法优于以前的最先进的余量,显着达到M2Cai16的4.1%。代码将在验收时在Github发布。
translated by 谷歌翻译
时间动作本地化(TAL)是识别视频中一组动作的任务,该任务涉及将开始和终点定位并对每个操作实例进行分类。现有方法通过使用预定义的锚窗或启发式自下而上的边界匹配策略来解决此任务,这些策略是推理时间的主要瓶颈。此外,主要的挑战是由于缺乏全球上下文信息而无法捕获远程动作。在本文中,我们介绍了一个无锚的框架,称为HTNET,该框架预测了一组<开始时间,结束时间,类,类>三胞胎,这些视频基于变压器体系结构。在预测粗边界之后,我们通过背景特征采样(BFS)模块和分层变压器对其进行完善,这使我们的模型能够汇总全局上下文信息,并有效利用视频中固有的语义关系。我们演示了我们的方法如何在两个TAL基准数据集上定位准确的动作实例并实现最先进的性能:Thumos14和ActivityNet 1.3。
translated by 谷歌翻译
我们为无监督活动分割提出了一种新方法,它使用视频帧聚类作为借口任务,并同时执行表示学习和在线群集。这与先前作品相反,其中通常顺序地执行表示学习和聚类。我们通过采用时间最优运输来利用视频中的时间信息。特别是,我们纳入了一个时间正则化术语,其将活动的时间顺序保留到用于计算伪标签群集分配的标准最佳传输模块中。时间最优传输模块使我们的方法能够学习无监督活动细分的有效陈述。此外,先前的方法需要在以离线方式培养它们之前对整个数据集的学习功能存储在整个数据集中,而我们的方法在在线方式一次处理一个迷你批次。在三个公共数据集,即50沙拉,YouTube说明和早餐以及我们的数据集,即桌面装配的广泛评估表明,我们的方法在PAR或更优于以前的无监督活动分割方法,尽管内存限制显着较低。
translated by 谷歌翻译
在线行动检测旨在基于长期的历史观察结果对当前框架进行准确的行动预测。同时,它需要对在线流视频进行实时推断。在本文中,我们主张一个新颖有效的在线行动检测原则。它仅在一个窗口中更新最新,最古老的历史表示,但重复了已经计算的中间图表。基于这一原则,我们引入了一个基于窗口的级联变压器,带有圆形历史队列,在每个窗口上都进行了多阶段的注意力和级联精炼。我们还探讨了在线操作检测与其脱机行动分段作为辅助任务之间的关联。我们发现,这种额外的监督有助于判别历史的聚类,并充当功能增强,以更好地培训分类器和级联改善。我们提出的方法在三个具有挑战性的数据集Thumos'14,TVSeries和HDD上实现了最新的表演。接受后将可用。
translated by 谷歌翻译