在计算机视觉中长期以来一直研究了时间行动定位。现有的最先进的动作定位方法将每个视频划分为多个动作单位(即,在一级方法中的两级方法和段中的提案),然后单独地对每个视频进行操作,而不明确利用他们在学习期间的关系。在本文中,我们声称,动作单位之间的关系在行动定位中发挥着重要作用,并且更强大的动作探测器不仅应捕获每个动作单元的本地内容,还应允许更广泛的视野与相关的上下文它。为此,我们提出了一般图表卷积模块(GCM),可以轻松插入现有的动作本地化方法,包括两阶段和单级范式。具体而言,我们首先构造一个图形,其中每个动作单元被表示为节点,并且两个动作单元之间作为边缘之间的关系。在这里,我们使用两种类型的关系,一个类型的关系,用于捕获不同动作单位之间的时间连接,另一类是用于表征其语义关系的另一个关系。特别是对于两级方法中的时间连接,我们进一步探索了两种不同的边缘,一个连接重叠动作单元和连接周围但脱节的单元的另一个。在我们构建的图表上,我们将图形卷积网络(GCNS)应用于模拟不同动作单位之间的关系,这能够了解更有信息的表示来增强动作本地化。实验结果表明,我们的GCM始终如一地提高了现有行动定位方法的性能,包括两阶段方法(例如,CBR和R-C3D)和一级方法(例如,D-SSAD),验证我们的一般性和有效性GCM。
translated by 谷歌翻译
弱监督的时间动作本地化(WSTAL)旨在仅使用视频级别标签将动作定位在未修剪的视频中。当前,大多数最先进的WSTAL方法遵循多实施学习(MIL)管道:首先产生摘要级预测,然后汇总到视频级别的预测。但是,我们认为现有的方法忽略了两个重要的缺点:1)使用运动信息不足和2)盛行的跨凝结训练损失的不相容性。在本文中,我们分析了光流功能背后的运动提示是互补的信息。受到这一点的启发,我们建议建立一个与上下文有关的运动,称为运动性。具体而言,将运动图引入基于局部运动载体(例如光流)的模型运动性。此外,为了突出显示更多信息的视频片段,提出了运动引导的损失,以调节运动性得分条件的网络训练。广泛的消融研究证实,运动性有效地模拟了利益的作用,运动引导的损失会导致更准确的结果。此外,我们的运动引导损失是插件损失功能,适用于现有的WSTAL方法。基于标准的MIL管道,我们的方法在不丧失的情况下,我们的方法在三个具有挑战性的基准上实现了新的最新性能,包括Thumos'14,ActivityNet v1.2和v1.3。
translated by 谷歌翻译
时间动作本地化的主要挑战是在未修剪的视频中从各种共同出现的成分(例如上下文和背景)中获取细微的人类行为。尽管先前的方法通过设计高级动作探测器取得了重大进展,但它们仍然遭受这些共发生的成分,这些成分通常占据视频中实际动作内容。在本文中,我们探讨了视频片段的两个正交但互补的方面,即动作功能和共存功能。尤其是,我们通过在视频片段中解开这两种功能并重新组合它们来生成具有更明显的动作信息以进行准确的动作本地化的新功能表示形式,从而开发了一项新颖的辅助任务。我们称我们的方法重新处理,该方法首先显式将动作内容分解并正规化其共发生的特征,然后合成新的动作主导的视频表示形式。对Thumos14和ActivityNet V1.3的广泛实验结果和消融研究表明,我们的新表示形式与简单的动作检测器相结合可以显着改善动作定位性能。
translated by 谷歌翻译
已经发现,旨在在未修剪视频的开始和终点范围内发现的时间动作实例的时间动作提案生成可以在很大程度上受益于适当的时间和语义上下文的剥削。最新的努力致力于通过自我发项模块来考虑基于时间的环境和基于相似性的语义上下文。但是,他们仍然遭受混乱的背景信息和有限的上下文特征学习的困扰。在本文中,我们提出了一个基于金字塔区域的新型插槽注意(PRSLOT)模块来解决这些问题。我们的PRSLOT模块不使用相似性计算,而是直接以编码器方式来学习本地关系,并基于注意力输入功能(称为\ textit {slot}}的注意力输入功能,生成了局部区域的表示。具体而言,在输入段级级别上,PRSLOT模块将目标段作为\ textIt {query},其周围区域为\ textit {key},然后通过聚集每个\ textit {query-key}插槽来生成插槽表示。具有平行金字塔策略的本地摘要上下文。基于PRSLOT模块,我们提出了一种基于金字塔区域的新型插槽注意网络,称为PRSA-NET,以学习具有丰富的时间和语义上下文的统一视觉表示,以获得更好的建议生成。广泛的实验是在两个广泛采用的Thumos14和ActivityNet-1.3基准上进行的。我们的PRSA-NET优于其他最先进的方法。特别是,我们将AR@100从以前的最佳50.67%提高到56.12%,以生成提案,并在0.5 TIOU下将地图从51.9 \%\%提高到58.7 \%\%\%\%\%,以在Thumos14上进行动作检测。 \ textit {代码可在} \ url {https://github.com/handhand123/prsa-net}中获得
translated by 谷歌翻译
未经监控视频中的弱监督时间行动本地化(WTAL)已成为实际但具有挑战性的任务,因为只有视频级标签。现有方法通常利用现成的分段级别特征,这些特征患有空间不完整性和时间不一致,从而限制了它们的性能。在本文中,我们通过使用简单但有效的图表卷积网络增强段级表示,即动作补充图网络(ACGNET)来从新的角度来解决这个问题。它促进了当前的视频段来从其他潜在传达互补线索的其他人感知空间时间依赖性,隐含地减轻由上述两个问题引起的负面影响。通过这种方式,分段级别特征是对空间时间变化的更具判别和鲁棒性的,有助于较高的定位精度。更重要的是,所提出的ACGNET作为通用模块,可以灵活插入不同的WTAL框架,同时保持端到端的培训方式。在Thumos'14和ActivityNET1.2基准上进行了广泛的实验,其中最先进的结果清楚地证明了所提出的方法的优越性。
translated by 谷歌翻译
Detecting actions in untrimmed videos is an important yet challenging task. In this paper, we present the structured segment network (SSN), a novel framework which models the temporal structure of each action instance via a structured temporal pyramid. On top of the pyramid, we further introduce a decomposed discriminative model comprising two classifiers, respectively for classifying actions and determining completeness. This allows the framework to effectively distinguish positive proposals from background or incomplete ones, thus leading to both accurate recognition and localization. These components are integrated into a unified network that can be efficiently trained in an end-to-end fashion. Additionally, a simple yet effective temporal action proposal scheme, dubbed temporal actionness grouping (TAG) is devised to generate high quality action proposals. On two challenging benchmarks, THUMOS14 and ActivityNet, our method remarkably outperforms previous state-of-the-art methods, demonstrating superior accuracy and strong adaptivity in handling actions with various temporal structures. 1
translated by 谷歌翻译
Temporal action detection (TAD) is extensively studied in the video understanding community by generally following the object detection pipeline in images. However, complex designs are not uncommon in TAD, such as two-stream feature extraction, multi-stage training, complex temporal modeling, and global context fusion. In this paper, we do not aim to introduce any novel technique for TAD. Instead, we study a simple, straightforward, yet must-known baseline given the current status of complex design and low detection efficiency in TAD. In our simple baseline (termed BasicTAD), we decompose the TAD pipeline into several essential components: data sampling, backbone design, neck construction, and detection head. We extensively investigate the existing techniques in each component for this baseline, and more importantly, perform end-to-end training over the entire pipeline thanks to the simplicity of design. As a result, this simple BasicTAD yields an astounding and real-time RGB-Only baseline very close to the state-of-the-art methods with two-stream inputs. In addition, we further improve the BasicTAD by preserving more temporal and spatial information in network representation (termed as PlusTAD). Empirical results demonstrate that our PlusTAD is very efficient and significantly outperforms the previous methods on the datasets of THUMOS14 and FineAction. Meanwhile, we also perform in-depth visualization and error analysis on our proposed method and try to provide more insights on the TAD problem. Our approach can serve as a strong baseline for future TAD research. The code and model will be released at https://github.com/MCG-NJU/BasicTAD.
translated by 谷歌翻译
时间行动提案生成(TAPG)是一个具有挑战性的任务,旨在在具有时间边界的未经监控视频中找到动作实例。为了评估提案的信任,现有的作品通常预测建议与地面真理之间的时间交叉联盟(TIOO)监督的提案的行动得分。在本文中,我们通过利用背景预测得分来限制提案的信心,创新地提出了一般的辅助背景约束理念,以进一步抑制低质量的建议。以这种方式,可以轻松地将背景约束概念用于现有的TAPG方法(例如,BMN,GTAD)。从这个角度来看,我们提出了背景约束网络(BCNet),以进一步利用行动和背景的丰富信息。具体地,我们介绍了一种动作 - 背景交互模块,用于可靠的置信度评估,它通过帧和剪辑级别的注意机制模拟了动作和背景之间的不一致。在两个流行的基准测试中进行了广泛的实验,即ActivityNet-1.3和Thumos14。结果表明,我们的方法优于最先进的方法。配备现有的Action Classifier,我们的方法还可以在时间动作本地化任务上实现显着性能。
translated by 谷歌翻译
基于文本的视频细分旨在通过用文本查询指定演员及其表演动作来细分视频序列中的演员。由于\ emph {emph {语义不对称}的问题,以前的方法无法根据演员及其动作以细粒度的方式将视频内容与文本查询对齐。 \ emph {语义不对称}意味着在多模式融合过程中包含不同量的语义信息。为了减轻这个问题,我们提出了一个新颖的演员和动作模块化网络,该网络将演员及其动作分别定位在两个单独的模块中。具体来说,我们首先从视频和文本查询中学习与参与者相关的内容,然后以对称方式匹配它们以定位目标管。目标管包含所需的参与者和动作,然后将其送入完全卷积的网络,以预测演员的分割掩模。我们的方法还建立了对象的关联,使其与所提出的时间建议聚合机制交叉多个框架。这使我们的方法能够有效地细分视频并保持预测的时间一致性。整个模型允许联合学习参与者的匹配和细分,并在A2D句子和J-HMDB句子数据集上实现单帧细分和完整视频细分的最新性能。
translated by 谷歌翻译
时间动作检测旨在定位视频中的行动边界。基于边界匹配的当前方法枚举并计算生成提案的所有可能的边界匹配。然而,这些方法忽略了边界预测中的远程上下文聚集。同时,由于相邻匹配的类似语义,局部语义聚集的密集产生的匹配不能改善语义丰富和歧视。在本文中,我们提出了名为Dual Contence聚合网络(DCAN)的端到端提议生成方法以聚合两个级别的上下文,即边界级别和提议级别,用于产生高质量的动作提案,从而提高性能时间作用检测。具体而言,我们设计了多路径时间上下文聚合(MTCA),以实现边界级别的平滑上下文聚合和对边界的精确评估。对于匹配评估,粗细匹配(CFM)旨在聚合上下文,并将匹配的映射从粗内进行精细化。我们对ActivityNet V1.3和Thumos-14进行了广泛的实验。 DCAN在ActivityNet V1.3上获得35.39%的平均地图,在Thumos-14上达到地图54.14%,展示DCAN可以产生高质量的提案,实现最先进的性能。我们在https://github.com/cg1177/dcan发布代码。
translated by 谷歌翻译
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
这项工作旨在使用带有动作查询的编码器框架(类似于DETR)来推进时间动作检测(TAD),该框架在对象检测中表现出了巨大的成功。但是,如果直接应用于TAD,该框架遇到了几个问题:解码器中争论之间关系的探索不足,由于培训样本数量有限,分类培训不足以及推断时不可靠的分类得分。为此,我们首先提出了解码器中的关系注意机制,该机制根据其关系来指导查询之间的注意力。此外,我们提出了两项​​损失,以促进和稳定行动分类的培训。最后,我们建议在推理时预测每个动作查询的本地化质量,以区分高质量的查询。所提出的命名React的方法在Thumos14上实现了最新性能,其计算成本比以前的方法低得多。此外,还进行了广泛的消融研究,以验证每个提出的组件的有效性。该代码可在https://github.com/sssste/reaeact上获得。
translated by 谷歌翻译
时间动作本地化在视频分析中起着重要作用,该视频分析旨在将动作定位和分类在未修剪视频中。先前的方法通常可以预测单个时间尺度的特征空间上的动作。但是,低级量表的时间特征缺乏足够的语义来进行动作分类,而高级尺度则无法提供动作边界的丰富细节。为了解决这个问题,我们建议预测多个颞尺度特征空间的动作。具体而言,我们使用不同尺度的精致特征金字塔将语义从高级尺度传递到低级尺度。此外,为了建立整个视频的长时间尺度,我们使用时空变压器编码器来捕获视频帧的远程依赖性。然后,具有远距离依赖性的精制特征被送入分类器以进行粗糙的动作预测。最后,为了进一步提高预测准确性,我们建议使用框架级别的自我注意模块来完善每个动作实例的分类和边界。广泛的实验表明,所提出的方法可以超越Thumos14数据集上的最先进方法,并在ActivityNet1.3数据集上实现可比性的性能。与A2NET(tip20,avg \ {0.3:0.7 \}),sub-action(csvt2022,avg \ {0.1:0.5 \})和afsd(cvpr21,avg \ {0.3:0.7 \}) ,提出的方法分别可以提高12.6 \%,17.4 \%和2.2 \%
translated by 谷歌翻译
时间动作本地化旨在预测未修剪长视频中每个动作实例的边界和类别。基于锚或建议的大多数先前方法忽略了整个视频序列中的全局本地上下文相互作用。此外,他们的多阶段设计无法直接生成动作边界和类别。为了解决上述问题,本文提出了一种新颖的端到端模型,称为自适应感知变压器(简称apperformer)。具体而言,Adaperformer探索了双支球多头的自我发项机制。一个分支会照顾全球感知的关注,该注意力可以模拟整个视频序列并汇总全球相关环境。而其他分支集中于局部卷积转移,以通过我们的双向移动操作来汇总框架内和框架间信息。端到端性质在没有额外步骤的情况下产生视频动作的边界和类别。提供了广泛的实验以及消融研究,以揭示我们设计的有效性。我们的方法在Thumos14数据集上实现了最先进的准确性(根据map@0.5、42.6 \%map@0.7和62.7 \%map@avg),并在活动网络上获得竞争性能, -1.3数据集,平均地图为36.1 \%。代码和型号可在https://github.com/soupero/adaperformer上找到。
translated by 谷歌翻译
时间动作检测(TAD)旨在确定未修剪视频中每个动作实例的语义标签和边界。先前的方法通过复杂的管道来解决此任务。在本文中,我们提出了一个具有简单集的预测管道的端到端时间动作检测变压器(TADTR)。给定一组名为“动作查询”的可学习嵌入,Tadtr可以从每个查询的视频中自适应提取时间上下文,并直接预测动作实例。为了适应TAD的变压器,我们提出了三个改进,以提高其所在地意识。核心是一个时间可变形的注意模块,在视频中有选择地参加一组稀疏的密钥片段。片段的完善机制和动作回归头旨在完善预测实例的边界和信心。 TADTR需要比以前的检测器更低的计算成本,同时保留了出色的性能。作为一个独立的检测器,它在Thumos14(56.7%地图)和HACS段(32.09%地图)上实现了最先进的性能。结合一个额外的动作分类器,它在ActivityNet-1.3上获得了36.75%的地图。我们的代码可在\ url {https://github.com/xlliu7/tadtr}上获得。
translated by 谷歌翻译
动作检测是一项必不可少且具有挑战性的任务,尤其是对于未修剪视频的密集标记的数据集。这些数据集中有许多现实世界中的挑战,例如复合动作,共存在的动作和实例持续时间的高时间变化。为了应对这些挑战,我们建议探索被检测行动的阶级和时间关系。在这项工作中,我们介绍了一个端到端网络:阶级关系网络(CTRN)。它包含三个关键组件:(1)表示变换模块过滤了从混合表示形式中特定的特定功能来构建图形结构化数据。 (2)阶级模块以顺序的方式对类和时间关系进行建模。 (3)G分类器利用摘要的共同出现作用对的特权知识,以进一步改善同时发生的动作检测。我们在三个具有挑战性的密集标签数据集上评估CTRN,并实现最先进的性能,以反映我们方法的有效性和鲁棒性。
translated by 谷歌翻译
少量对象检测(FSOD)旨在使用少数示例来检测从未见过的对象。通过学习如何在查询图像和少量拍摄类示例之间进行匹配,因此可以通过学习如何匹配来实现最近的改进,使得学习模型可以概括为几滴新颖的类。然而,目前,大多数基于元学习的方法分别在查询图像区域(通常是提议)和新颖类之间执行成对匹配,因此无法考虑它们之间的多个关系。在本文中,我们使用异构图卷积网络提出了一种新颖的FSOD模型。通过具有三种不同类型的边缘的所有提议和类节点之间的有效消息,我们可以获得每个类的上下文感知提案功能和查询 - 自适应,多包子增强型原型表示,这可能有助于促进成对匹配和改进的最终决赛FSOD精度。广泛的实验结果表明,我们所提出的模型表示为QA的Qa-Netwet,优于不同拍摄和评估指标下的Pascal VOC和MSCOCO FSOD基准测试的当前最先进的方法。
translated by 谷歌翻译
We propose a novel scene graph generation model called Graph R-CNN, that is both effective and efficient at detecting objects and their relations in images. Our model contains a Relation Proposal Network (RePN) that efficiently deals with the quadratic number of potential relations between objects in an image. We also propose an attentional Graph Convolutional Network (aGCN) that effectively captures contextual information between objects and relations. Finally, we introduce a new evaluation metric that is more holistic and realistic than existing metrics. We report state-of-the-art performance on scene graph generation as evaluated using both existing and our proposed metrics.
translated by 谷歌翻译
我们提出了一个临时投票网络(TVNet),用于在未经监控的视频中进行行动定位。这包括一个新的投票证据模块来定位时间边界,更准确地,其中累积时间上下侧证据以预测开始和结束动作边界的帧级概率。我们独立于行动的证据模块纳入管道内,以计算置信度分数和行动课程。我们在ActivityNet-1.3上达到34.6%的平均地图,特别优于以前的方法0.95。TVNET在与PGCN结合和59.1%时,TVCN在0.5 IOU上的PGCN和59.1%上的距离在Thumos14上的距离和所有阈值以前的工作。我们的代码可在https://github.com/hanielwang/tvnet上获得。
translated by 谷歌翻译