弱监督的动作本地化旨在仅使用视频级别的分类标签在给定的视频中进行本地化和分类。因此,现有的弱监督行动定位方法的关键问题是从弱注释中对精确预测的有限监督。在这项工作中,我们提出了视频级别和摘要级别的举止,即等级的层次策略,即等级监督和等级一致性挖掘,以最大程度地利用给定的注释和预测一致性。为此,提出了一个分层采矿网络(HIM-NET)。具体而言,它在两种谷物中挖掘了分类的层次监督:一个是通过多个实例学习捕获的地面真理类别的视频级别存在;另一个是从互补标签的角度来看,每个负标签类别的摘要级别不存在,这是通过我们提出的互补标签学习优化的。至于层次结构的一致性,HIM-NET探讨了视频级别的共同作用具有相似性和摘要级别的前景背景对立,以进行判别表示学习和一致的前景背景分离。具体而言,预测差异被视为不确定性,可以选择对拟议的前后背景协作学习的高共识。全面的实验结果表明,HIM-NET优于Thumos14和ActivityNet1.3数据集的现有方法,该数据集具有较大的利润率,通过层次挖掘监督和一致性。代码将在GitHub上提供。
translated by 谷歌翻译
借助视频级标签,弱监督的时间动作本地化(WTAL)应用逐个分类的本地化范式来检测和分类该动作在未修剪的视频中。由于分类的特征,不可避免地会误导特定的背景片段以提高分类器在WTAL中的可区分性。为了减轻背景的干扰,现有的方法试图通过用伪snippet级注释对背景片段进行建模,从而扩大动作和背景之间的差异,这在很大程度上依赖于人工假设。与以前的作品不同,我们提出了一种对抗性学习策略,以打破采矿伪背景片段的局限性。具体而言,背景分类损失迫使整个视频被背景梯度增强策略视为背景,从而使识别模型混淆。相反,前景(动作)损失指导模型在这种情况下关注动作片段。结果,两个分类损失之间的竞争驱动了模型以提高其行动建模能力。同时,一个新型的时间增强网络旨在促进该模型基于提议的策略来构建亲和力摘要的时间关系,以进一步改善动作定位的性能。最后,在Thumos14和ActivationNet1.2上进行的广泛实验证明了该方法的有效性。
translated by 谷歌翻译
弱监督的时间行动本地化旨在从视频级标签学习实例级别动作模式,其中重大挑战是动作情境混淆。为了克服这一挑战,最近的一个工作建立了一个动作单击监督框。它需要类似的注释成本,但与传统的弱势监督方法相比,可以稳步提高本地化性能。在本文中,通过揭示现有方法的性能瓶颈主要来自后台错误,我们发现更强大的动作定位器可以在背景视频帧上的标签上培训,而不是动作帧上的标签。为此,我们将动作单击监控转换为背景单击监控,并开发一种名为Backtal的新方法。具体地,背塔在背景视频帧上实现两倍建模,即位置建模和特征建模。在适当的建模中,我们不仅在带注释的视频帧上进行监督学习,而且还设计得分分离模块,以扩大潜在的动作帧和背景之间的分数差异。在特征建模中,我们提出了一个亲和力模块,以在计算时间卷积时测量相邻帧之间的特定于帧特定的相似性,并在计算时间卷积时动态地参加信息邻居。进行了三个基准测试的广泛实验,展示了建立的背部的高性能和所提出的背景下单击监督的合理性。代码可用于https://github.com/vididle/backtal。
translated by 谷歌翻译
Weakly-supervised temporal action localization (WTAL) learns to detect and classify action instances with only category labels. Most methods widely adopt the off-the-shelf Classification-Based Pre-training (CBP) to generate video features for action localization. However, the different optimization objectives between classification and localization, make temporally localized results suffer from the serious incomplete issue. To tackle this issue without additional annotations, this paper considers to distill free action knowledge from Vision-Language Pre-training (VLP), since we surprisingly observe that the localization results of vanilla VLP have an over-complete issue, which is just complementary to the CBP results. To fuse such complementarity, we propose a novel distillation-collaboration framework with two branches acting as CBP and VLP respectively. The framework is optimized through a dual-branch alternate training strategy. Specifically, during the B step, we distill the confident background pseudo-labels from the CBP branch; while during the F step, the confident foreground pseudo-labels are distilled from the VLP branch. And as a result, the dual-branch complementarity is effectively fused to promote a strong alliance. Extensive experiments and ablation studies on THUMOS14 and ActivityNet1.2 reveal that our method significantly outperforms state-of-the-art methods.
translated by 谷歌翻译
To balance the annotation labor and the granularity of supervision, single-frame annotation has been introduced in temporal action localization. It provides a rough temporal location for an action but implicitly overstates the supervision from the annotated-frame during training, leading to the confusion between actions and backgrounds, i.e., action incompleteness and background false positives. To tackle the two challenges, in this work, we present the Snippet Classification model and the Dilation-Erosion module. In the Dilation-Erosion module, we expand the potential action segments with a loose criterion to alleviate the problem of action incompleteness and then remove the background from the potential action segments to alleviate the problem of action incompleteness. Relying on the single-frame annotation and the output of the snippet classification, the Dilation-Erosion module mines pseudo snippet-level ground-truth, hard backgrounds and evident backgrounds, which in turn further trains the Snippet Classification model. It forms a cyclic dependency. Furthermore, we propose a new embedding loss to aggregate the features of action instances with the same label and separate the features of actions from backgrounds. Experiments on THUMOS14 and ActivityNet 1.2 validate the effectiveness of the proposed method. Code has been made publicly available (https://github.com/LingJun123/single-frame-TAL).
translated by 谷歌翻译
弱监督的时间动作本地化(WSTAL)旨在仅使用视频级别标签将动作定位在未修剪的视频中。当前,大多数最先进的WSTAL方法遵循多实施学习(MIL)管道:首先产生摘要级预测,然后汇总到视频级别的预测。但是,我们认为现有的方法忽略了两个重要的缺点:1)使用运动信息不足和2)盛行的跨凝结训练损失的不相容性。在本文中,我们分析了光流功能背后的运动提示是互补的信息。受到这一点的启发,我们建议建立一个与上下文有关的运动,称为运动性。具体而言,将运动图引入基于局部运动载体(例如光流)的模型运动性。此外,为了突出显示更多信息的视频片段,提出了运动引导的损失,以调节运动性得分条件的网络训练。广泛的消融研究证实,运动性有效地模拟了利益的作用,运动引导的损失会导致更准确的结果。此外,我们的运动引导损失是插件损失功能,适用于现有的WSTAL方法。基于标准的MIL管道,我们的方法在不丧失的情况下,我们的方法在三个具有挑战性的基准上实现了新的最新性能,包括Thumos'14,ActivityNet v1.2和v1.3。
translated by 谷歌翻译
动作理解已经演变成精细粒度的时代,因为现实生活中的大多数人类行为只有很小的差异。为了以标签有效的方式准确检测这些细粒度的动作,我们首次解决了视频中弱监督的细粒度临时动作检测问题。如果没有仔细的设计来捕获细粒度的动作之间的细微差异,先前的一般动作检测模型在细粒度的环境中不能很好地表现。我们建议将动作建模为可重复使用的原子动作的组合,这些动作是通过自我监督聚类自动从数据中自动发现的,以捕获细颗粒动作的共同点和个性。以视觉概念为代表的学识渊博的原子动作进一步映射到利用语义标签层次结构的细细作用标签。我们的方法构建了四个级别的视觉表示层次结构:剪辑级别,原子动作级别,精细动作类别和粗糙的动作类别水平,并在每个级别进行监督。对两个大规模细颗粒视频数据集(Fineaction和FineGym)进行了广泛的实验,显示了我们提出的弱监督模型的好处,以实现细粒度的动作检测,并实现了最先进的结果。
translated by 谷歌翻译
现有的时间动作检测(TAD)方法依赖于带有细分级注释的大量培训数据。因此,收集和注释这样的训练集非常昂贵且不可计入。半监督的TAD(SS-TAD)通过利用规模自由的未标记视频来减轻此问题。但是,SS-Tad也比有监督的TAD更具挑战性的问题,因此研究得多。先前的SS-TAD方法直接结合了现有的基于建议的TAD方法和SSL方法。由于它们的顺序定位(例如,提案生成)和分类设计,它们很容易出现误差传播。为了克服这一局限性,在这项工作中,我们提出了一种基于无建议的时间掩模(点)的新型半监督时间动作检测模型,并具有平行的定位(掩码生成)和分类体系结构。这种新颖的设计通过切断介于两者之间的错误传播途径来有效地消除了定位和分类之间的依赖性。我们进一步介绍了用于预测细化的分类和本地化之间的交互机制,以及用于自我监督模型预训练的新借口任务。对两个标准基准测试的广泛实验表明,我们的现场表现要优于最先进的替代方案,通常是很大的边距。 pytorch实施现场可在https://github.com/sauradip/spot上获得
translated by 谷歌翻译
时间动作本地化的主要挑战是在未修剪的视频中从各种共同出现的成分(例如上下文和背景)中获取细微的人类行为。尽管先前的方法通过设计高级动作探测器取得了重大进展,但它们仍然遭受这些共发生的成分,这些成分通常占据视频中实际动作内容。在本文中,我们探讨了视频片段的两个正交但互补的方面,即动作功能和共存功能。尤其是,我们通过在视频片段中解开这两种功能并重新组合它们来生成具有更明显的动作信息以进行准确的动作本地化的新功能表示形式,从而开发了一项新颖的辅助任务。我们称我们的方法重新处理,该方法首先显式将动作内容分解并正规化其共发生的特征,然后合成新的动作主导的视频表示形式。对Thumos14和ActivityNet V1.3的广泛实验结果和消融研究表明,我们的新表示形式与简单的动作检测器相结合可以显着改善动作定位性能。
translated by 谷歌翻译
现有的时间动作检测(TAD)方法依赖于每个视频产生大量的建议。这导致由于提案生成和/或主张行动实例评估以及最终的高计算成本而导致复杂的模型设计。在这项工作中,我们首次提出了一个带有全局分割掩码(TAG)的无建议的时间动作检测模型。我们的核心想法是以完整的视频长度共同学习每个操作实例的全局细分面具。标签模型与基于常规建议的方法有显着不同,通过关注全球时间表示学习,直接在没有建议的情况下直接检测本地起点和终点的行动点。此外,通过对TAD进行整体建模,而不是在单个建议级别上进行本地建模,标签需要更简单的模型体系结构,计算成本较低。广泛的实验表明,尽管设计更简单,但标签的表现优于现有的TAD方法,在两个基准上实现了新的最新性能。重要的是,训练的速度更快约20倍,推理效率更高。我们的标签的Pytorch实现可在https://github.com/sauradip/tags上获得。
translated by 谷歌翻译
Weakly supervised video anomaly detection aims to identify abnormal events in videos using only video-level labels. Recently, two-stage self-training methods have achieved significant improvements by self-generating pseudo labels and self-refining anomaly scores with these labels. As the pseudo labels play a crucial role, we propose an enhancement framework by exploiting completeness and uncertainty properties for effective self-training. Specifically, we first design a multi-head classification module (each head serves as a classifier) with a diversity loss to maximize the distribution differences of predicted pseudo labels across heads. This encourages the generated pseudo labels to cover as many abnormal events as possible. We then devise an iterative uncertainty pseudo label refinement strategy, which improves not only the initial pseudo labels but also the updated ones obtained by the desired classifier in the second stage. Extensive experimental results demonstrate the proposed method performs favorably against state-of-the-art approaches on the UCF-Crime, TAD, and XD-Violence benchmark datasets.
translated by 谷歌翻译
时间动作定位(TAL)旨在预测未修剪视频(即开始和结束时间)中动作实例的动作类别和时间边界。通常在大多数现有作品中都采用了完全监督的解决方案,并被证明是有效的。这些解决方案中的实际瓶颈之一是所需的大量标记培训数据。为了降低昂贵的人类标签成本,本文着重于很少调查但实用的任务,称为半监督TAL,并提出了一种有效的主动学习方法,名为Al-Stal。我们利用四个步骤来积极选择具有很高信息性的视频样本,并培训本地化模型,名为\ emph {火车,查询,注释,附加}。考虑定位模型的不确定性的两个评分函数配备了ALSTAL,从而促进了视频样本等级和选择。一个人将预测标签分布的熵作为不确定性的度量,称为时间提案熵(TPE)。另一个引入了基于相邻行动建议之间的共同信息的新指标,并评估视频样本的信息性,称为时间上下文不一致(TCI)。为了验证拟议方法的有效性,我们在两个基准数据集Thumos'14和ActivityNet 1.3上进行了广泛的实验。实验结果表明,与完全监督的学习相比,AL-Stal的表现优于现有竞争对手,并实现令人满意的表现。
translated by 谷歌翻译
了解人类情绪是智能机器人提供更好的人类机器人相互作用的关键能力。现有作品仅限于修剪视频级别的情感分类,无法找到与情感相对应的时间窗口。在本文中,我们介绍了一项新任务,称为视频中的时间情感本地化(TEL),该任务旨在检测人类的情感并将其相应的时间边界定位在带有校准字幕的未修剪视频中。与时间动作本地化相比,TEL提出了三个独特的挑战:1)情绪的时间动态极为多样; 2)情绪提示都嵌入了外观和复杂的情节中; 3)细粒度的时间注释是复杂且劳动密集型的。为了应对前两个挑战,我们提出了一个新颖的扩张上下文集成网络,该网络与粗细的两流体系结构。粗流通过建模多粒性时间上下文来捕获各种时间动力学。细流通过推理从粗流的多晶格时间上下文之间的依赖性来实现复杂的理解,并将它们自适应地集成到细粒度的视频段特征中。为了应对第三个挑战,我们引入了跨模式共识学习范式,该范式利用了对齐视频和字幕之间的固有语义共识,以实现弱监督的学习。我们为新的测试集提供了3,000个手动注释的时间边界,因此可以对TEL问题进行未来的研究进行定量评估。广泛的实验显示了我们方法对时间情绪定位的有效性。这项工作的存储库位于https://github.com/yyjmjc/temporal-emotion-localization-in-videos。
translated by 谷歌翻译
未经监控视频中的弱监督时间行动本地化(WTAL)已成为实际但具有挑战性的任务,因为只有视频级标签。现有方法通常利用现成的分段级别特征,这些特征患有空间不完整性和时间不一致,从而限制了它们的性能。在本文中,我们通过使用简单但有效的图表卷积网络增强段级表示,即动作补充图网络(ACGNET)来从新的角度来解决这个问题。它促进了当前的视频段来从其他潜在传达互补线索的其他人感知空间时间依赖性,隐含地减轻由上述两个问题引起的负面影响。通过这种方式,分段级别特征是对空间时间变化的更具判别和鲁棒性的,有助于较高的定位精度。更重要的是,所提出的ACGNET作为通用模块,可以灵活插入不同的WTAL框架,同时保持端到端的培训方式。在Thumos'14和ActivityNET1.2基准上进行了广泛的实验,其中最先进的结果清楚地证明了所提出的方法的优越性。
translated by 谷歌翻译
视频瞬间检索旨在找到给定自然语言查询描述的片刻的开始和结束时间戳(视频的一部分)。全面监督的方法需要完整的时间边界注释才能获得有希望的结果,这是昂贵的,因为注释者需要关注整个时刻。弱监督的方法仅依赖于配对的视频和查询,但性能相对较差。在本文中,我们仔细研究了注释过程,并提出了一种称为“ Glance注释”的新范式。该范式需要一个只有一个随机框架的时间戳,我们将其称为“目光”,在完全监督的对应物的时间边界内。我们认为这是有益的,因为与弱监督相比,添加了琐碎的成本,还提供了更大的潜力。在一眼注释设置下,我们提出了一种基于对比度学习的一眼注释(VIGA),称为视频力矩检索的方法。 Viga将输入视频切成片段,并在剪辑和查询之间形成对比,其中一眼指导的高斯分布重量被分配给所有夹子。我们的广泛实验表明,VIGA通过很大的边距较小的弱监督方法获得了更好的结果,甚至可以在某些情况下与完全监督的方法相媲美。
translated by 谷歌翻译
Existing Temporal Action Detection (TAD) methods typically take a pre-processing step in converting an input varying-length video into a fixed-length snippet representation sequence, before temporal boundary estimation and action classification. This pre-processing step would temporally downsample the video, reducing the inference resolution and hampering the detection performance in the original temporal resolution. In essence, this is due to a temporal quantization error introduced during the resolution downsampling and recovery. This could negatively impact the TAD performance, but is largely ignored by existing methods. To address this problem, in this work we introduce a novel model-agnostic post-processing method without model redesign and retraining. Specifically, we model the start and end points of action instances with a Gaussian distribution for enabling temporal boundary inference at a sub-snippet level. We further introduce an efficient Taylor-expansion based approximation, dubbed as Gaussian Approximated Post-processing (GAP). Extensive experiments demonstrate that our GAP can consistently improve a wide variety of pre-trained off-the-shelf TAD models on the challenging ActivityNet (+0.2% -0.7% in average mAP) and THUMOS (+0.2% -0.5% in average mAP) benchmarks. Such performance gains are already significant and highly comparable to those achieved by novel model designs. Also, GAP can be integrated with model training for further performance gain. Importantly, GAP enables lower temporal resolutions for more efficient inference, facilitating low-resource applications. The code will be available in https://github.com/sauradip/GAP
translated by 谷歌翻译
时间动作本地化(TAL)是识别视频中一组动作的任务,该任务涉及将开始和终点定位并对每个操作实例进行分类。现有方法通过使用预定义的锚窗或启发式自下而上的边界匹配策略来解决此任务,这些策略是推理时间的主要瓶颈。此外,主要的挑战是由于缺乏全球上下文信息而无法捕获远程动作。在本文中,我们介绍了一个无锚的框架,称为HTNET,该框架预测了一组<开始时间,结束时间,类,类>三胞胎,这些视频基于变压器体系结构。在预测粗边界之后,我们通过背景特征采样(BFS)模块和分层变压器对其进行完善,这使我们的模型能够汇总全局上下文信息,并有效利用视频中固有的语义关系。我们演示了我们的方法如何在两个TAL基准数据集上定位准确的动作实例并实现最先进的性能:Thumos14和ActivityNet 1.3。
translated by 谷歌翻译
为了帮助客户做出更有信息的观看选择,视频流服务试图调整其内容,并提供更多可见性,以了解其电影和电视节目的哪些部分包含适合年龄的材料(例如,裸体,性,暴力或毒品使用, )。监督的模型以本地化这些敏感活动需要大量的剪辑级标记数据,而这些数据很难获得,而弱监督的模型通常不提供竞争性的准确性。为了应对这一挑战,我们提出了一个新颖的粗2鱼网络,旨在利用易于获得的视频级弱标签,并结合稀疏的适合年龄的活动的剪辑级标签。我们的模型汇总了框架级预测,以进行视频级分类,因此能够利用稀疏的剪辑级标签以及视频级别的标签。此外,通过以层次结构进行框架级别的预测,我们的方法能够克服由于适合年龄的含量的罕见发生性质引起的标签不足问题。我们使用41,234部电影和电视剧集(〜3年的视频访问)和250个国家 /地区的250个国家 /地区提出了方法的比较结果视频曾经出版过。我们的方法提供了107.2%的相对地图改进(从5.5%到11.4%),比现有的最新活动 - 定位方法。
translated by 谷歌翻译
弱监督的点云语义分割方法需要1 \%或更少的标签,希望实现与完全监督的方法几乎相同的性能,这些方法最近引起了广泛的研究关注。该框架中的一个典型解决方案是使用自我训练或伪标记来从点云本身挖掘监督,但忽略了图像中的关键信息。实际上,在激光雷达场景中广泛存在相机,而这种互补信息对于3D应用似乎非常重要。在本文中,我们提出了一种用于3D分割的新型交叉模式弱监督的方法,并结合了来自未标记图像的互补信息。基本上,我们设计了一个配备有效标签策略的双分支网络,以最大程度地发挥标签的力量,并直接实现2D到3D知识转移。之后,我们以期望最大(EM)的视角建立了一个跨模式的自我训练框架,该框架在伪标签估计和更新参数之间进行了迭代。在M-Step中,我们提出了一个跨模式关联学习,通过增强3D点和2D超级像素之间的周期矛盾性,从图像中挖掘互补的监督。在E-Step中,伪标签的自我校准机制被得出过滤噪声标签,从而为网络提供了更准确的标签,以进行全面训练。广泛的实验结果表明,我们的方法甚至优于最先进的竞争对手,而少于1 \%的主动选择注释。
translated by 谷歌翻译
弱监督的视频对象本地化(WSVOL)允许仅使用全局视频标签(例如对象类)在视频中找到对象。最先进的方法依赖于多个独立阶段,其中最初的时空建议是使用视觉和运动提示生成的,然后确定和完善了突出的对象。本地化是通过在一个或多个视频上解决优化问题来完成的,并且视频标签通常用于视频集群。这需要每件型号或每类制造代价高昂的推理。此外,由于无监督的运动方法(如光流)或视频标签是从优化中丢弃的,因此本地化区域不是必需的判别。在本文中,我们利用成功的类激活映射(CAM)方法,该方法是基于静止图像而设计的。引入了一种新的时间凸轮(TCAM)方法,以训练一种判别深度学习(DL)模型,以使用称为CAM-Temporal Max Max Pooling(CAM-TMP)的聚集机制在视频中利用时空信息,而不是连续的凸轮。特别是,感兴趣区域的激活(ROI)是从审计的CNN分类器生成的CAM中收集的,以构建Pseudo-Labels构建用于训练DL模型的伪标记。此外,使用全局无监督的尺寸约束和诸如CRF之类的局部约束来产生更准确的凸轮。对单个独立帧的推断允许并行处理框架片段和实时定位。在两个挑战性的YouTube-Objects数据集上进行无限制视频的广泛实验,表明CAM方法(在独立框架上训练)可以产生不错的定位精度。我们提出的TCAM方法在WSVOL准确性方面达到了新的艺术品,并且视觉结果表明它可以适用于后续任务,例如视觉对象跟踪和检测。代码公开可用。
translated by 谷歌翻译