未经监控视频中的弱监督时间行动本地化(WTAL)已成为实际但具有挑战性的任务,因为只有视频级标签。现有方法通常利用现成的分段级别特征,这些特征患有空间不完整性和时间不一致,从而限制了它们的性能。在本文中,我们通过使用简单但有效的图表卷积网络增强段级表示,即动作补充图网络(ACGNET)来从新的角度来解决这个问题。它促进了当前的视频段来从其他潜在传达互补线索的其他人感知空间时间依赖性,隐含地减轻由上述两个问题引起的负面影响。通过这种方式,分段级别特征是对空间时间变化的更具判别和鲁棒性的,有助于较高的定位精度。更重要的是,所提出的ACGNET作为通用模块,可以灵活插入不同的WTAL框架,同时保持端到端的培训方式。在Thumos'14和ActivityNET1.2基准上进行了广泛的实验,其中最先进的结果清楚地证明了所提出的方法的优越性。
translated by 谷歌翻译
在计算机视觉中长期以来一直研究了时间行动定位。现有的最先进的动作定位方法将每个视频划分为多个动作单位(即,在一级方法中的两级方法和段中的提案),然后单独地对每个视频进行操作,而不明确利用他们在学习期间的关系。在本文中,我们声称,动作单位之间的关系在行动定位中发挥着重要作用,并且更强大的动作探测器不仅应捕获每个动作单元的本地内容,还应允许更广泛的视野与相关的上下文它。为此,我们提出了一般图表卷积模块(GCM),可以轻松插入现有的动作本地化方法,包括两阶段和单级范式。具体而言,我们首先构造一个图形,其中每个动作单元被表示为节点,并且两个动作单元之间作为边缘之间的关系。在这里,我们使用两种类型的关系,一个类型的关系,用于捕获不同动作单位之间的时间连接,另一类是用于表征其语义关系的另一个关系。特别是对于两级方法中的时间连接,我们进一步探索了两种不同的边缘,一个连接重叠动作单元和连接周围但脱节的单元的另一个。在我们构建的图表上,我们将图形卷积网络(GCNS)应用于模拟不同动作单位之间的关系,这能够了解更有信息的表示来增强动作本地化。实验结果表明,我们的GCM始终如一地提高了现有行动定位方法的性能,包括两阶段方法(例如,CBR和R-C3D)和一级方法(例如,D-SSAD),验证我们的一般性和有效性GCM。
translated by 谷歌翻译
To balance the annotation labor and the granularity of supervision, single-frame annotation has been introduced in temporal action localization. It provides a rough temporal location for an action but implicitly overstates the supervision from the annotated-frame during training, leading to the confusion between actions and backgrounds, i.e., action incompleteness and background false positives. To tackle the two challenges, in this work, we present the Snippet Classification model and the Dilation-Erosion module. In the Dilation-Erosion module, we expand the potential action segments with a loose criterion to alleviate the problem of action incompleteness and then remove the background from the potential action segments to alleviate the problem of action incompleteness. Relying on the single-frame annotation and the output of the snippet classification, the Dilation-Erosion module mines pseudo snippet-level ground-truth, hard backgrounds and evident backgrounds, which in turn further trains the Snippet Classification model. It forms a cyclic dependency. Furthermore, we propose a new embedding loss to aggregate the features of action instances with the same label and separate the features of actions from backgrounds. Experiments on THUMOS14 and ActivityNet 1.2 validate the effectiveness of the proposed method. Code has been made publicly available (https://github.com/LingJun123/single-frame-TAL).
translated by 谷歌翻译
弱监督的时间动作本地化(WSTAL)旨在仅使用视频级别标签将动作定位在未修剪的视频中。当前,大多数最先进的WSTAL方法遵循多实施学习(MIL)管道:首先产生摘要级预测,然后汇总到视频级别的预测。但是,我们认为现有的方法忽略了两个重要的缺点:1)使用运动信息不足和2)盛行的跨凝结训练损失的不相容性。在本文中,我们分析了光流功能背后的运动提示是互补的信息。受到这一点的启发,我们建议建立一个与上下文有关的运动,称为运动性。具体而言,将运动图引入基于局部运动载体(例如光流)的模型运动性。此外,为了突出显示更多信息的视频片段,提出了运动引导的损失,以调节运动性得分条件的网络训练。广泛的消融研究证实,运动性有效地模拟了利益的作用,运动引导的损失会导致更准确的结果。此外,我们的运动引导损失是插件损失功能,适用于现有的WSTAL方法。基于标准的MIL管道,我们的方法在不丧失的情况下,我们的方法在三个具有挑战性的基准上实现了新的最新性能,包括Thumos'14,ActivityNet v1.2和v1.3。
translated by 谷歌翻译
弱监督的时间行动本地化旨在从视频级标签学习实例级别动作模式,其中重大挑战是动作情境混淆。为了克服这一挑战,最近的一个工作建立了一个动作单击监督框。它需要类似的注释成本,但与传统的弱势监督方法相比,可以稳步提高本地化性能。在本文中,通过揭示现有方法的性能瓶颈主要来自后台错误,我们发现更强大的动作定位器可以在背景视频帧上的标签上培训,而不是动作帧上的标签。为此,我们将动作单击监控转换为背景单击监控,并开发一种名为Backtal的新方法。具体地,背塔在背景视频帧上实现两倍建模,即位置建模和特征建模。在适当的建模中,我们不仅在带注释的视频帧上进行监督学习,而且还设计得分分离模块,以扩大潜在的动作帧和背景之间的分数差异。在特征建模中,我们提出了一个亲和力模块,以在计算时间卷积时测量相邻帧之间的特定于帧特定的相似性,并在计算时间卷积时动态地参加信息邻居。进行了三个基准测试的广泛实验,展示了建立的背部的高性能和所提出的背景下单击监督的合理性。代码可用于https://github.com/vididle/backtal。
translated by 谷歌翻译
我们提出了一个临时投票网络(TVNet),用于在未经监控的视频中进行行动定位。这包括一个新的投票证据模块来定位时间边界,更准确地,其中累积时间上下侧证据以预测开始和结束动作边界的帧级概率。我们独立于行动的证据模块纳入管道内,以计算置信度分数和行动课程。我们在ActivityNet-1.3上达到34.6%的平均地图,特别优于以前的方法0.95。TVNET在与PGCN结合和59.1%时,TVCN在0.5 IOU上的PGCN和59.1%上的距离在Thumos14上的距离和所有阈值以前的工作。我们的代码可在https://github.com/hanielwang/tvnet上获得。
translated by 谷歌翻译
对于弱监督的异常检测,由于无法对长期上下文信息进行建模,大多数现有工作仅限于视频表示不足的问题。为了解决这个问题,我们提出了一个新型弱监督的自适应图卷积网络(WAGCN),以模拟视频片段之间复杂的上下文关系。通过此,我们完全考虑了其他视频片段对当前段的影响,在为每个段的异常概率分数生成当前段。首先,我们结合了视频片段的时间一致性以及功能相似性来构建全局图,该图可以充分利用视频中异常事件的时空特征之间的关联信息。其次,我们提出了一个图形学习层,以打破手动设置拓扑的限制,该拓扑可以根据数据自适应地提取图形邻接矩阵。在两个公共数据集(即UCF-Crime数据集和Shanghaitech数据集)上进行了广泛的实验,证明了我们的方法的有效性,从而实现了最先进的性能。
translated by 谷歌翻译
Temporal action detection (TAD) is extensively studied in the video understanding community by generally following the object detection pipeline in images. However, complex designs are not uncommon in TAD, such as two-stream feature extraction, multi-stage training, complex temporal modeling, and global context fusion. In this paper, we do not aim to introduce any novel technique for TAD. Instead, we study a simple, straightforward, yet must-known baseline given the current status of complex design and low detection efficiency in TAD. In our simple baseline (termed BasicTAD), we decompose the TAD pipeline into several essential components: data sampling, backbone design, neck construction, and detection head. We extensively investigate the existing techniques in each component for this baseline, and more importantly, perform end-to-end training over the entire pipeline thanks to the simplicity of design. As a result, this simple BasicTAD yields an astounding and real-time RGB-Only baseline very close to the state-of-the-art methods with two-stream inputs. In addition, we further improve the BasicTAD by preserving more temporal and spatial information in network representation (termed as PlusTAD). Empirical results demonstrate that our PlusTAD is very efficient and significantly outperforms the previous methods on the datasets of THUMOS14 and FineAction. Meanwhile, we also perform in-depth visualization and error analysis on our proposed method and try to provide more insights on the TAD problem. Our approach can serve as a strong baseline for future TAD research. The code and model will be released at https://github.com/MCG-NJU/BasicTAD.
translated by 谷歌翻译
借助视频级标签,弱监督的时间动作本地化(WTAL)应用逐个分类的本地化范式来检测和分类该动作在未修剪的视频中。由于分类的特征,不可避免地会误导特定的背景片段以提高分类器在WTAL中的可区分性。为了减轻背景的干扰,现有的方法试图通过用伪snippet级注释对背景片段进行建模,从而扩大动作和背景之间的差异,这在很大程度上依赖于人工假设。与以前的作品不同,我们提出了一种对抗性学习策略,以打破采矿伪背景片段的局限性。具体而言,背景分类损失迫使整个视频被背景梯度增强策略视为背景,从而使识别模型混淆。相反,前景(动作)损失指导模型在这种情况下关注动作片段。结果,两个分类损失之间的竞争驱动了模型以提高其行动建模能力。同时,一个新型的时间增强网络旨在促进该模型基于提议的策略来构建亲和力摘要的时间关系,以进一步改善动作定位的性能。最后,在Thumos14和ActivationNet1.2上进行的广泛实验证明了该方法的有效性。
translated by 谷歌翻译
时间动作本地化旨在预测未修剪长视频中每个动作实例的边界和类别。基于锚或建议的大多数先前方法忽略了整个视频序列中的全局本地上下文相互作用。此外,他们的多阶段设计无法直接生成动作边界和类别。为了解决上述问题,本文提出了一种新颖的端到端模型,称为自适应感知变压器(简称apperformer)。具体而言,Adaperformer探索了双支球多头的自我发项机制。一个分支会照顾全球感知的关注,该注意力可以模拟整个视频序列并汇总全球相关环境。而其他分支集中于局部卷积转移,以通过我们的双向移动操作来汇总框架内和框架间信息。端到端性质在没有额外步骤的情况下产生视频动作的边界和类别。提供了广泛的实验以及消融研究,以揭示我们设计的有效性。我们的方法在Thumos14数据集上实现了最先进的准确性(根据map@0.5、42.6 \%map@0.7和62.7 \%map@avg),并在活动网络上获得竞争性能, -1.3数据集,平均地图为36.1 \%。代码和型号可在https://github.com/soupero/adaperformer上找到。
translated by 谷歌翻译
translated by 谷歌翻译
时间动作本地化的主要挑战是在未修剪的视频中从各种共同出现的成分(例如上下文和背景)中获取细微的人类行为。尽管先前的方法通过设计高级动作探测器取得了重大进展,但它们仍然遭受这些共发生的成分,这些成分通常占据视频中实际动作内容。在本文中,我们探讨了视频片段的两个正交但互补的方面,即动作功能和共存功能。尤其是,我们通过在视频片段中解开这两种功能并重新组合它们来生成具有更明显的动作信息以进行准确的动作本地化的新功能表示形式,从而开发了一项新颖的辅助任务。我们称我们的方法重新处理,该方法首先显式将动作内容分解并正规化其共发生的特征,然后合成新的动作主导的视频表示形式。对Thumos14和ActivityNet V1.3的广泛实验结果和消融研究表明,我们的新表示形式与简单的动作检测器相结合可以显着改善动作定位性能。
translated by 谷歌翻译
弱监督的动作本地化旨在仅使用视频级别的分类标签在给定的视频中进行本地化和分类。因此,现有的弱监督行动定位方法的关键问题是从弱注释中对精确预测的有限监督。在这项工作中,我们提出了视频级别和摘要级别的举止,即等级的层次策略,即等级监督和等级一致性挖掘,以最大程度地利用给定的注释和预测一致性。为此,提出了一个分层采矿网络(HIM-NET)。具体而言,它在两种谷物中挖掘了分类的层次监督:一个是通过多个实例学习捕获的地面真理类别的视频级别存在;另一个是从互补标签的角度来看,每个负标签类别的摘要级别不存在,这是通过我们提出的互补标签学习优化的。至于层次结构的一致性,HIM-NET探讨了视频级别的共同作用具有相似性和摘要级别的前景背景对立,以进行判别表示学习和一致的前景背景分离。具体而言,预测差异被视为不确定性,可以选择对拟议的前后背景协作学习的高共识。全面的实验结果表明,HIM-NET优于Thumos14和ActivityNet1.3数据集的现有方法,该数据集具有较大的利润率,通过层次挖掘监督和一致性。代码将在GitHub上提供。
translated by 谷歌翻译
We address temporal action localization in untrimmed long videos. This is important because videos in real applications are usually unconstrained and contain multiple action instances plus video content of background scenes or other activities. To address this challenging issue, we exploit the effectiveness of deep networks in temporal action localization via three segment-based 3D ConvNets: (1) a proposal network identifies candidate segments in a long video that may contain actions; (2) a classification network learns one-vs-all action classification model to serve as initialization for the localization network; and (3) a localization network fine-tunes the learned classification network to localize each action instance. We propose a novel loss function for the localization network to explicitly consider temporal overlap and achieve high temporal localization accuracy. In the end, only the proposal network and the localization network are used during prediction. On two largescale benchmarks, our approach achieves significantly superior performances compared with other state-of-the-art systems: mAP increases from 1.7% to 7.4% on MEXaction2 and increases from 15.0% to 19.0% on THUMOS 2014.
translated by 谷歌翻译
Detecting actions in untrimmed videos is an important yet challenging task. In this paper, we present the structured segment network (SSN), a novel framework which models the temporal structure of each action instance via a structured temporal pyramid. On top of the pyramid, we further introduce a decomposed discriminative model comprising two classifiers, respectively for classifying actions and determining completeness. This allows the framework to effectively distinguish positive proposals from background or incomplete ones, thus leading to both accurate recognition and localization. These components are integrated into a unified network that can be efficiently trained in an end-to-end fashion. Additionally, a simple yet effective temporal action proposal scheme, dubbed temporal actionness grouping (TAG) is devised to generate high quality action proposals. On two challenging benchmarks, THUMOS14 and ActivityNet, our method remarkably outperforms previous state-of-the-art methods, demonstrating superior accuracy and strong adaptivity in handling actions with various temporal structures. 1
translated by 谷歌翻译
我们介绍了一种新颖的方法,用于使用时间戳监督进行时间戳分割。我们的主要贡献是图形卷积网络,该网络以端到端方式学习,以利用相邻帧之间的帧功能和连接,以从稀疏的时间戳标签中生成密集的框架标签。然后可以使用生成的密集框架标签来训练分割模型。此外,我们为分割模型和图形卷积模型进行交替学习的框架,该模型首先初始化,然后迭代地完善学习模型。在四个公共数据集上进行了详细的实验,包括50种沙拉,GTEA,早餐和桌面组件,表明我们的方法优于多层感知器基线,同时在时间活动中表现出色或更好地表现出色或更好在时间戳监督下。
translated by 谷歌翻译
人类对象相互作用(HOI)识别的关键是推断人与物体之间的关系。最近,该图像的人类对象相互作用(HOI)检测取得了重大进展。但是,仍然有改善视频HOI检测性能的空间。现有的一阶段方法使用精心设计的端到端网络来检测视频段并直接预测交互。它使网络的模型学习和进一步的优化更加复杂。本文介绍了空间解析和动态时间池(SPDTP)网络,该网络将整个视频作为时空图作为人类和对象节点作为输入。与现有方法不同,我们提出的网络通过显式空间解析预测交互式和非相互作用对之间的差异,然后执行交互识别。此外,我们提出了一个可学习且可区分的动态时间模块(DTM),以强调视频的关键帧并抑制冗余帧。此外,实验结果表明,SPDTP可以更多地关注主动的人类对象对和有效的密钥帧。总体而言,我们在CAD-1220数据集和某些ELSE数据集上实现了最先进的性能。
translated by 谷歌翻译
已经发现,旨在在未修剪视频的开始和终点范围内发现的时间动作实例的时间动作提案生成可以在很大程度上受益于适当的时间和语义上下文的剥削。最新的努力致力于通过自我发项模块来考虑基于时间的环境和基于相似性的语义上下文。但是,他们仍然遭受混乱的背景信息和有限的上下文特征学习的困扰。在本文中,我们提出了一个基于金字塔区域的新型插槽注意(PRSLOT)模块来解决这些问题。我们的PRSLOT模块不使用相似性计算,而是直接以编码器方式来学习本地关系,并基于注意力输入功能(称为\ textit {slot}}的注意力输入功能,生成了局部区域的表示。具体而言,在输入段级级别上,PRSLOT模块将目标段作为\ textIt {query},其周围区域为\ textit {key},然后通过聚集每个\ textit {query-key}插槽来生成插槽表示。具有平行金字塔策略的本地摘要上下文。基于PRSLOT模块,我们提出了一种基于金字塔区域的新型插槽注意网络,称为PRSA-NET,以学习具有丰富的时间和语义上下文的统一视觉表示,以获得更好的建议生成。广泛的实验是在两个广泛采用的Thumos14和ActivityNet-1.3基准上进行的。我们的PRSA-NET优于其他最先进的方法。特别是,我们将AR@100从以前的最佳50.67%提高到56.12%,以生成提案,并在0.5 TIOU下将地图从51.9 \%\%提高到58.7 \%\%\%\%\%,以在Thumos14上进行动作检测。 \ textit {代码可在} \ url {https://github.com/handhand123/prsa-net}中获得
translated by 谷歌翻译
本文解决了自然语言视频本地化(NLVL)的问题。几乎所有现有的作品都遵循“仅一次外观”框架,该框架利用单个模型直接捕获视频疑问对之间的复杂跨和自模式关系并检索相关段。但是,我们认为这些方法忽略了理想本地化方法的两个必不可少的特征:1)帧差异:考虑正/负视频帧的不平衡,在本地化过程中突出显示正帧并削弱负面框架是有效的。 2)边界优先:为了预测确切的段边界,该模型应捕获连续帧之间更细粒度的差异,因为它们的变化通常是平滑的。为此,我们灵感来自于人类如何看待和定位一个细分市场,我们提出了一个两步的人类框架,称为掠夺 - 储存式融合(SLP)。 SLP由脱脂和排列(SL)模块和双向仔细(BP)模块组成。 SL模块首先是指查询语义,并在滤除无关的帧时从视频中选择最佳匹配的帧。然后,BP模块基于此框架构造了初始段,并通过探索其相邻帧来动态更新它,直到没有帧共享相同的活动语义为止。三个具有挑战性的基准测试的实验结果表明,我们的SLP优于最新方法,并将其定位更精确的段边界。
translated by 谷歌翻译
本文解决了颞句的接地。以前的作品通常通过学习帧级视频功能来解决此任务并将其与文本信息对齐。这些作品的一个主要限制是,由于帧级特征提取,它们未能利用具有微妙的外观差异的模糊视频帧。最近,一些方法采用更快的R-CNN来提取每帧中的详细物体特征来区分细粒的外观相似性。然而,由于对象检测模型缺乏时间建模,因此通过更快的R-CNN提取的对象级别特征遭受缺失的运动分析。为了解决这个问题,我们提出了一种新颖的运动外观推理网络(MARN),其包括动作感知和外观感知对象特征,以更好的原因对象关系来建立连续帧之间的活动。具体而言,我们首先介绍两个单独的视频编码器以将视频嵌入到相应的主导和外观 - 方面对象表示中。然后,我们开发单独的运动和外观分支,以分别学习运动引导和外观引导的对象关系。最后,来自两个分支的运动和外观信息都与用于最终接地的更多代表性的特征相关联。对两个具有挑战性的数据集(Chardes-Sta和Tacos)的广泛实验表明,我们提出的马恩在以前的最先进的方法中大大优于大幅度。
translated by 谷歌翻译