基于姿势的动作识别主要是通过以整体化处理输入骨骼的方法来解决的,即姿势树中的关节是整体处理的。但是,这种方法忽略了这样一个事实,即行动类别通常以局部动力动力学为特征,这些动力动力学仅涉及涉及手(例如“竖起大拇指”)或腿部(例如``踢'')的零件联合组的小子集。尽管存在基于部分组的方法,但在全球姿势框架内并未考虑每个部分组,从而导致这种方法缺乏。此外,常规方法采用独立的方式流(例如关节,骨,关节速度,骨速度),并在这些流中多次训练网络,从而大大增加了训练参数的数量。为了解决这些问题,我们介绍了PSUMNET,这是一种新颖的方法,用于可扩展有效的基于姿势的动作识别。在表示级别,我们提出了一种基于全球框架的部分流方法,而不是基于常规模态流。在每个部分流中,从多种模式的相关数据被处理管道统一和消耗。在实验上,PSumnet在广泛使用的NTURGB+D 60/120数据集和密集的关节骨架数据集NTU 60-X/120-X上实现了最先进的性能。 PSUMNET高效,优于竞争方法,使用100%-400%的参数。 PSUMNET还概括为具有竞争性能的SHREC手势数据集。总体而言,PSUMNET的可伸缩性,性能和效率使其成为动作识别以及在Compute限制的嵌入式和边缘设备上部署的吸引人选择。可以在https://github.com/skelemoa/psumnet上访问代码和预算模型
translated by 谷歌翻译
建模各种时空依赖项是识别骨架序列中人类动作的关键。大多数现有方法过度依赖于遍历规则或图形拓扑的设计,以利用动态关节的依赖性,这是反映远处但重要的关节的关系不足。此外,由于本地采用的操作,因此在现有的工作中探索了重要的远程时间信息。为了解决这个问题,在这项工作中,我们提出了LSTA-Net:一种新型长期短期时空聚合网络,可以以时空的方式有效地捕获长/短距离依赖性。我们将我们的模型设计成纯粹的分解体系结构,可以交替执行空间特征聚合和时间特征聚合。为了改善特征聚合效果,还设计和采用了一种通道明智的注意机制。在三个公共基准数据集中进行了广泛的实验,结果表明,我们的方法可以在空间和时域中捕获长短短程依赖性,从而产生比其他最先进的方法更高的结果。代码可在https://github.com/tailin1009/lsta-net。
translated by 谷歌翻译
图形卷积网络(GCN)优于基于骨架的人类动作识别领域的先前方法,包括人类的互动识别任务。但是,在处理相互作用序列时,基于GCN的当前方法只需将两人骨架分为两个离散序列,然后以单人动作分类的方式分别执行图形卷积。这种操作忽略了丰富的交互信息,并阻碍了语义模式学习的有效空间关系建模。为了克服上述缺点,我们引入了一个新型的统一的两人图,代表关节之间的空间相互作用相关性。此外,提出了适当设计的图形标记策略,以使我们的GCN模型学习判别时空交互特征。实验显示了使用拟议的两人图形拓扑时的相互作用和单个动作的准确性提高。最后,我们提出了一个两人的图形卷积网络(2P-GCN)。提出的2P-GCN在三个相互作用数据集(SBU,NTU-RGB+D和NTU-RGB+D 120)的四个基准测试基准上获得了最新结果。
translated by 谷歌翻译
现有的基于3D骨架的动作识别方法通过将手工制作的动作功能编码为图像格式和CNN解码,从而达到了令人印象深刻的性能。但是,这种方法在两种方面受到限制:a)手工制作的动作功能很难处理具有挑战性的动作,b)通常需要复杂的CNN模型来提高动作识别精度,这通常会发生重大计算负担。为了克服这些局限性,我们引入了一种新颖的AFE-CNN,它致力于增强基于3D骨架的动作的特征,以适应具有挑战性的动作。我们提出了功能增强从关键关节,骨向量,关键框架和时间视角的模块,因此,AFE-CNN对摄像头视图和车身大小变化更为强大,并显着提高了对挑战性动作的识别精度。此外,我们的AFE-CNN采用了轻巧的CNN模型以增强动作功能来解码图像,从而确保了比最新方法低得多的计算负担。我们在三个基于基准骨架的动作数据集上评估了AFE-CNN:NTU RGB+D,NTU RGB+D 120和UTKINECT-ACTION3D,并取得了广泛的实验结果,这表明我们对AFE-CNN的出色表现。
translated by 谷歌翻译
骨架数据具有低维度。然而,存在使用非常深刻和复杂的前馈神经网络来模拟骨架序列的趋势,而不考虑近年的复杂性。本文提出了一种简单但有效的多尺度语义引导的神经网络(MS-SGN),用于基于骨架的动作识别。我们明确地将关节(关节类型和帧指数)的高级语义引入网络,以增强关节的特征表示能力。此外,提出了一种多尺度策略对时间尺度变化具有鲁棒。此外,我们通过两个模块分层地利用了关节的关系,即,联合级模块,用于建模同一帧中的关节的相关性和帧级模块,用于建模帧的时间依赖性。 MSSGN在NTU60,NTU120和Sysu数据集上实现了比大多数方法更小的模型尺寸。
translated by 谷歌翻译
基于骨架的动作识别方法受到时空骨骼图的语义提取的限制。但是,当前方法在有效地结合时间和空间图尺寸的特征方面很难,一侧往往厚度厚,另一侧较薄。在本文中,我们提出了一个时间通道聚合图卷积网络(TCA-GCN),以动态有效地学习基于骨架动作识别的不同时间和通道维度中的空间和时间拓扑。我们使用时间聚合模块来学习时间维特征和通道聚合模块,以有效地将空间动态通道拓扑特征与时间动态拓扑特征相结合。此外,我们在时间建模上提取多尺度的骨骼特征,并将其与注意机制融合。广泛的实验表明,在NTU RGB+D,NTU RGB+D 120和NW-UCLA数据集上,我们的模型结果优于最先进的方法。
translated by 谷歌翻译
Skeleton-based action recognition has attracted considerable attention due to its compact skeletal structure of the human body. Many recent methods have achieved remarkable performance using graph convolutional networks (GCNs) and convolutional neural networks (CNNs), which extract spatial and temporal features, respectively. Although spatial and temporal dependencies in the human skeleton have been explored, spatio-temporal dependency is rarely considered. In this paper, we propose the Inter-Frame Curve Network (IFC-Net) to effectively leverage the spatio-temporal dependency of the human skeleton. Our proposed network consists of two novel elements: 1) The Inter-Frame Curve (IFC) module; and 2) Dilated Graph Convolution (D-GC). The IFC module increases the spatio-temporal receptive field by identifying meaningful node connections between every adjacent frame and generating spatio-temporal curves based on the identified node connections. The D-GC allows the network to have a large spatial receptive field, which specifically focuses on the spatial domain. The kernels of D-GC are computed from the given adjacency matrices of the graph and reflect large receptive field in a way similar to the dilated CNNs. Our IFC-Net combines these two modules and achieves state-of-the-art performance on three skeleton-based action recognition benchmarks: NTU-RGB+D 60, NTU-RGB+D 120, and Northwestern-UCLA.
translated by 谷歌翻译
图形卷积网络由于非欧几里得数据的出色建模能力而广泛用于基于骨架的动作识别。由于图形卷积是局部操作,因此它只能利用短距离关节依赖性和短期轨迹,但无法直接建模遥远的关节关系和远程时间信息,这些信息对于区分各种动作至关重要。为了解决此问题,我们提出了多尺度的空间图卷积(MS-GC)模块和一个多尺度的时间图卷积(MT-GC)模块,以在空间和时间尺寸中丰富模型的接受场。具体而言,MS-GC和MT-GC模块将相应的局部图卷积分解为一组子图形卷积,形成了层次的残差体系结构。在不引入其他参数的情况下,该功能将通过一系列子图卷积处理,每个节点都可以与其邻域一起完成多个空间和时间聚集。因此,最终的等效接收场被扩大,能够捕获空间和时间域中的短期和远程依赖性。通过将这两个模块耦合为基本块,我们进一步提出了一个多尺度的空间时间图卷积网络(MST-GCN),该网络(MST-GCN)堆叠了多个块以学习有效的运动表示行动识别的运动表示。拟议的MST-GCN在三个具有挑战性的基准数据集(NTU RGB+D,NTU-1220 RGB+D和动力学 - 骨骼)上实现了出色的性能,用于基于骨架的动作识别。
translated by 谷歌翻译
捕获关节之间的依赖关系对于基于骨架的动作识别任务至关重要。变压器显示出模拟重要关节相关性的巨大潜力。然而,基于变压器的方法不能捕获帧之间的不同关节的相关性,因此相邻帧之间的不同体部(例如在长跳跃中的臂和腿)一起移动的相关性非常有用。专注于这个问题,提出了一种新的时空组元变压器(Sttformer)方法。骨架序列被分成几个部分,并且每个部分包含的几个连续帧被编码。然后提出了一种时空元组的自我关注模块,以捕获连续帧中不同关节的关系。另外,在非相邻帧之间引入特征聚合模块以增强区分类似动作的能力。与最先进的方法相比,我们的方法在两个大型数据集中实现了更好的性能。
translated by 谷歌翻译
人类相互作用的分析是人类运动分析的一个重要研究主题。它已经使用第一人称视觉(FPV)或第三人称视觉(TPV)进行了研究。但是,到目前为止,两种视野的联合学习几乎没有引起关注。原因之一是缺乏涵盖FPV和TPV的合适数据集。此外,FPV或TPV的现有基准数据集具有多个限制,包括样本数量有限,参与者,交互类别和模态。在这项工作中,我们贡献了一个大规模的人类交互数据集,即FT-HID数据集。 FT-HID包含第一人称和第三人称愿景的成对对齐的样本。该数据集是从109个不同受试者中收集的,并具有三种模式的90K样品。该数据集已通过使用几种现有的动作识别方法验证。此外,我们还引入了一种新型的骨骼序列的多视图交互机制,以及针对第一人称和第三人称视野的联合学习多流框架。两种方法都在FT-HID数据集上产生有希望的结果。可以预期,这一视力一致的大规模数据集的引入将促进FPV和TPV的发展,以及他们用于人类行动分析的联合学习技术。该数据集和代码可在\ href {https://github.com/endlichere/ft-hid} {here} {herefichub.com/endlichere.com/endlichere}中获得。
translated by 谷歌翻译
在基于骨架的动作识别的背景下,图表卷积网络(GCNS)已经迅速开发,而卷积神经网络(CNNS)则受到不太关注。一个原因是CNNS在模拟不规则骨架拓​​扑中被认为是差的。为了缓解这一限制,我们提出了一个纯CNN架构,本文提出了名为拓扑信息的CNN(TA-CNN)。特别是,我们开发一种新颖的跨通道功能增强模块,它是地图参加组操作的组合。通过将模块应用于坐标水平并且随后将模块应用于坐标水平,拓扑功能得到有效增强。值得注意的是,我们理论上证明了图形卷积是当关节尺寸被视为通道时正常卷积的特殊情况。这证实了GCN的拓扑建模能力也可以通过使用CNN来实现。此外,我们创造性地设计了一种以独特的方式混合两个人的骨架混合物策略,并进一步提高了性能。广泛的实验是在四个广泛使用的数据集中进行的,即N-UCLA,SBU,NTU RGB + D和NTU RGB + D 120,以验证TA-CNN的有效性。我们显着超过现有的基于CNN的方法。与基于GCN的领先的方法相比,我们在所需的GFLOPS和参数方面实现了相当的性能。
translated by 谷歌翻译
随着姿势估计和图形卷积网络的进步,基于骨架的两人互动识别一直在越来越多的关注。尽管准确性逐渐提高,但计算复杂性的提高使其在现实环境中更不切实际。由于常规方法不能完全代表体内关节之间的关系,因此仍然存在准确性改善的空间。在本文中,我们提出了一个轻巧的模型,以准确识别两人的交互。除了结合了中间融合的体系结构外,我们还引入了一种分解卷积技术,以减少模型的重量参数。我们还引入了一个网络流,该网络说明体内关节之间的相对距离变化以提高准确性。使用两个大规模数据集NTU RGB+D 60和120的实验表明,与常规方法相比,我们的方法同时达到了最高准确性和相对较低的计算复杂性。
translated by 谷歌翻译
图表卷积网络(GCNS)的方法在基于骨架的动作识别任务上实现了高级性能。然而,骨架图不能完全代表骨架数据中包含的运动信息。此外,基于GCN的方法中的骨架图的拓扑是根据自然连接手动设置的,并且它为所有样本都固定,这不能很好地适应不同的情况。在这项工作中,我们提出了一种新的动态超图卷积网络(DHGCN),用于基于骨架的动作识别。 DHGCN使用超图来表示骨架结构,以有效利用人类关节中包含的运动信息。根据其移动动态地分配了骨架超图中的每个接头,并且我们模型中的超图拓扑可以根据关节之间的关系动态调整到不同的样本。实验结果表明,我们的模型的性能在三个数据集中实现了竞争性能:动力学 - 骨架400,NTU RGB + D 60和NTU RGB + D 120。
translated by 谷歌翻译
缺乏细粒度的关节(面部接头,手指)是艺术骨架动作识别模型的基本性能瓶颈。尽管瓶颈,但社区的努力似乎只是在提出新颖的建筑方面投入。为了具体地解决这个瓶颈,我们介绍了两个基于姿势的人类行动数据集 - NTU60-X和NTU120-x。我们的数据集扩展了最大的现有动作识别数据集NTU-RGBD。除了在NTU-RGBD中的每个骨架的25个主体关节之外,NTU60-X和NTU120-X数据集包括手指和面部接头,从而实现更丰富的骨架表示。我们适当地修改现有技术方法以使用引入的数据集实现培训。我们的结果展示了这些NTU-X数据集在克服上述瓶颈方面的有效性,并在先前最糟糕的行动类别中提高了最糟糕的瓶颈。可以在https://github.com/skelemoa/ntu-x找到代码和预磨料模型。
translated by 谷歌翻译
In skeleton-based action recognition, graph convolutional networks (GCNs), which model the human body skeletons as spatiotemporal graphs, have achieved remarkable performance. However, in existing GCN-based methods, the topology of the graph is set manually, and it is fixed over all layers and input samples. This may not be optimal for the hierarchical GCN and diverse samples in action recognition tasks. In addition, the second-order information (the lengths and directions of bones) of the skeleton data, which is naturally more informative and discriminative for action recognition, is rarely investigated in existing methods. In this work, we propose a novel two-stream adaptive graph convolutional network (2s-AGCN) for skeletonbased action recognition. The topology of the graph in our model can be either uniformly or individually learned by the BP algorithm in an end-to-end manner. This data-driven method increases the flexibility of the model for graph construction and brings more generality to adapt to various data samples. Moreover, a two-stream framework is proposed to model both the first-order and the second-order information simultaneously, which shows notable improvement for the recognition accuracy. Extensive experiments on the two large-scale datasets, NTU-RGBD and Kinetics-Skeleton, demonstrate that the performance of our model exceeds the state-of-the-art with a significant margin.
translated by 谷歌翻译
图形卷积网络(GCN)是基于骨架的动作识别的最常用方法,并取得了出色的性能。生成具有语义上有意义的边缘的邻接矩阵对于此任务尤其重要,但是提取此类边缘是具有挑战性的问题。为了解决这个问题,我们提出了一个具有新颖的分层分解图(HD-GRAPH)的分层分解图卷积网络(HD-GCN)结构。拟议的HD-GCN有效地将每个关节节点分解为几组,以提取相邻和远处的主要边缘,并使用它们构造了在人类骨架的同一语义空间中包含这些边缘的HD-GRAPH。此外,我们引入了一个注意引导的层次结构聚合(A-HA)模块,以突出HD图的主要分层边缘集。此外,我们采用了一种新的两链三图集合方法,该方法仅使用没有任何运动流的关节和骨流。评估了所提出的模型,并在三个大型流行数据集上获得最先进的性能:NTU-RGB+D 60,NTU-RGB+D 120和Northwestern-UCLA。最后,我们通过各种比较实验证明了模型的有效性。
translated by 谷歌翻译
骨架序列轻巧且紧凑,因此是在边缘设备上进行动作识别的理想候选者。最新的基于骨架的动作识别方法从3D关节坐标作为时空提示提取特征,在图神经网络中使用这些表示形式来提高识别性能。一阶和二阶特征(即关节和骨骼表示)的使用导致了很高的精度。但是,许多模型仍然被具有相似运动轨迹的动作所困惑。为了解决这些问题,我们建议以角度编码为现代体系结构的形式融合高阶特征,以稳健地捕获关节和身体部位之间的关系。这种与流行的时空图神经网络的简单融合可在包括NTU60和NTU120在内的两个大型基准中实现新的最新精度,同时使用较少的参数和减少的运行时间。我们的源代码可公开可用:https://github.com/zhenyueqin/angular-skeleton-soding。
translated by 谷歌翻译
Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multiscale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model 1 outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.
translated by 谷歌翻译
这项工作的目的是为视障和盲人的触觉设备做出贡献,以便让他们了解周围人的行为并与他们互动。首先,基于来自RGB-D序列的人类行动识别的最先进方法,我们使用Kinect提供的骨架信息,与解开的和统一的多尺度图卷积(MS-G3D)模型识别执行的行动。我们在真实场景中测试了这个模型,发现了一些约束和限制。接下来,我们使用CNN的MS-G3D和深度模态应用骨架模型之间的融合,以绕过讨论的限制。第三,识别的操作是用语义标记的标记,并将被映射到触摸感知的输出设备。
translated by 谷歌翻译
舞蹈挑战现在是Tiktok这样的视频社区中的病毒性。一旦挑战变得流行,就会在几天内上传成千上万的短型视频。因此,来自舞蹈挑战的病毒预测具有很大的商业价值,具有广泛的应用,例如智能推荐和普及促销。本文提出了一种集成骨骼,整体外观,面部和景区提示的新型多模态框架,以综合舞蹈病毒预测。为了模拟身体运动,我们提出了一种层次地改进了时空骨架图的金字塔骨架图卷积网络(PSGCN)。同时,我们介绍了一个关系时间卷积网络(RTCN),以利用非局部时间关系利用外观动态。最终提出了一种细心的融合方法,以自适应地从不同方式汇总预测。为了验证我们的方法,我们介绍了一个大规模的病毒舞蹈视频(VDV)数据集,其中包含超过4,000个病毒舞蹈挑战的舞蹈剪辑。 VDV数据集的广泛实验证明了我们模型的功效。对VDV数据集的广泛实验良好地证明了我们方法的有效性。此外,我们表明,可以从我们的模型中派生类似多维推荐和动作反馈等的短视频应用。
translated by 谷歌翻译