人类骨骼数据由于其背景鲁棒性和高效率而受到行动识别的越来越多。在基于骨架的动作识别中,图形卷积网络(GCN)已成为主流方法。本文分析了基于GCN的模型的基本因素 - 邻接矩阵。我们注意到,大多数基于GCN的方法基于人类天然骨架结构进行其邻接矩阵。根据我们以前的工作和分析,我们建议人类的自然骨骼结构邻接矩阵不适合基于骨架的动作识别。我们提出了一个新的邻接矩阵,该矩阵放弃了所有刚性邻居的连接,但使该模型可以适应地学习关节的关系。我们对两个基于骨架的动作识别数据集(NTURGBD60和FINEGYM)进行了验证模型进行广泛的实验和分析。全面的实验结果和分析表明,1)最广泛使用的人类天然骨骼结构邻接矩阵在基于骨架的动作识别中不适合; 2)所提出的邻接矩阵在模型性能,噪声稳健性和可传递性方面表现出色。
translated by 谷歌翻译
图表卷积网络(GCNS)的方法在基于骨架的动作识别任务上实现了高级性能。然而,骨架图不能完全代表骨架数据中包含的运动信息。此外,基于GCN的方法中的骨架图的拓扑是根据自然连接手动设置的,并且它为所有样本都固定,这不能很好地适应不同的情况。在这项工作中,我们提出了一种新的动态超图卷积网络(DHGCN),用于基于骨架的动作识别。 DHGCN使用超图来表示骨架结构,以有效利用人类关节中包含的运动信息。根据其移动动态地分配了骨架超图中的每个接头,并且我们模型中的超图拓扑可以根据关节之间的关系动态调整到不同的样本。实验结果表明,我们的模型的性能在三个数据集中实现了竞争性能:动力学 - 骨架400,NTU RGB + D 60和NTU RGB + D 120。
translated by 谷歌翻译
图形卷积网络由于非欧几里得数据的出色建模能力而广泛用于基于骨架的动作识别。由于图形卷积是局部操作,因此它只能利用短距离关节依赖性和短期轨迹,但无法直接建模遥远的关节关系和远程时间信息,这些信息对于区分各种动作至关重要。为了解决此问题,我们提出了多尺度的空间图卷积(MS-GC)模块和一个多尺度的时间图卷积(MT-GC)模块,以在空间和时间尺寸中丰富模型的接受场。具体而言,MS-GC和MT-GC模块将相应的局部图卷积分解为一组子图形卷积,形成了层次的残差体系结构。在不引入其他参数的情况下,该功能将通过一系列子图卷积处理,每个节点都可以与其邻域一起完成多个空间和时间聚集。因此,最终的等效接收场被扩大,能够捕获空间和时间域中的短期和远程依赖性。通过将这两个模块耦合为基本块,我们进一步提出了一个多尺度的空间时间图卷积网络(MST-GCN),该网络(MST-GCN)堆叠了多个块以学习有效的运动表示行动识别的运动表示。拟议的MST-GCN在三个具有挑战性的基准数据集(NTU RGB+D,NTU-1220 RGB+D和动力学 - 骨骼)上实现了出色的性能,用于基于骨架的动作识别。
translated by 谷歌翻译
Dynamics of human body skeletons convey significant information for human action recognition. Conventional approaches for modeling skeletons usually rely on hand-crafted parts or traversal rules, thus resulting in limited expressive power and difficulties of generalization. In this work, we propose a novel model of dynamic skeletons called Spatial-Temporal Graph Convolutional Networks (ST-GCN), which moves beyond the limitations of previous methods by automatically learning both the spatial and temporal patterns from data. This formulation not only leads to greater expressive power but also stronger generalization capability. On two large datasets, Kinetics and NTU-RGBD, it achieves substantial improvements over mainstream methods.
translated by 谷歌翻译
In skeleton-based action recognition, graph convolutional networks (GCNs), which model the human body skeletons as spatiotemporal graphs, have achieved remarkable performance. However, in existing GCN-based methods, the topology of the graph is set manually, and it is fixed over all layers and input samples. This may not be optimal for the hierarchical GCN and diverse samples in action recognition tasks. In addition, the second-order information (the lengths and directions of bones) of the skeleton data, which is naturally more informative and discriminative for action recognition, is rarely investigated in existing methods. In this work, we propose a novel two-stream adaptive graph convolutional network (2s-AGCN) for skeletonbased action recognition. The topology of the graph in our model can be either uniformly or individually learned by the BP algorithm in an end-to-end manner. This data-driven method increases the flexibility of the model for graph construction and brings more generality to adapt to various data samples. Moreover, a two-stream framework is proposed to model both the first-order and the second-order information simultaneously, which shows notable improvement for the recognition accuracy. Extensive experiments on the two large-scale datasets, NTU-RGBD and Kinetics-Skeleton, demonstrate that the performance of our model exceeds the state-of-the-art with a significant margin.
translated by 谷歌翻译
骨架数据具有低维度。然而,存在使用非常深刻和复杂的前馈神经网络来模拟骨架序列的趋势,而不考虑近年的复杂性。本文提出了一种简单但有效的多尺度语义引导的神经网络(MS-SGN),用于基于骨架的动作识别。我们明确地将关节(关节类型和帧指数)的高级语义引入网络,以增强关节的特征表示能力。此外,提出了一种多尺度策略对时间尺度变化具有鲁棒。此外,我们通过两个模块分层地利用了关节的关系,即,联合级模块,用于建模同一帧中的关节的相关性和帧级模块,用于建模帧的时间依赖性。 MSSGN在NTU60,NTU120和Sysu数据集上实现了比大多数方法更小的模型尺寸。
translated by 谷歌翻译
图形卷积网络(GCN)优于基于骨架的人类动作识别领域的先前方法,包括人类的互动识别任务。但是,在处理相互作用序列时,基于GCN的当前方法只需将两人骨架分为两个离散序列,然后以单人动作分类的方式分别执行图形卷积。这种操作忽略了丰富的交互信息,并阻碍了语义模式学习的有效空间关系建模。为了克服上述缺点,我们引入了一个新型的统一的两人图,代表关节之间的空间相互作用相关性。此外,提出了适当设计的图形标记策略,以使我们的GCN模型学习判别时空交互特征。实验显示了使用拟议的两人图形拓扑时的相互作用和单个动作的准确性提高。最后,我们提出了一个两人的图形卷积网络(2P-GCN)。提出的2P-GCN在三个相互作用数据集(SBU,NTU-RGB+D和NTU-RGB+D 120)的四个基准测试基准上获得了最新结果。
translated by 谷歌翻译
Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multiscale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model 1 outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.
translated by 谷歌翻译
建模各种时空依赖项是识别骨架序列中人类动作的关键。大多数现有方法过度依赖于遍历规则或图形拓扑的设计,以利用动态关节的依赖性,这是反映远处但重要的关节的关系不足。此外,由于本地采用的操作,因此在现有的工作中探索了重要的远程时间信息。为了解决这个问题,在这项工作中,我们提出了LSTA-Net:一种新型长期短期时空聚合网络,可以以时空的方式有效地捕获长/短距离依赖性。我们将我们的模型设计成纯粹的分解体系结构,可以交替执行空间特征聚合和时间特征聚合。为了改善特征聚合效果,还设计和采用了一种通道明智的注意机制。在三个公共基准数据集中进行了广泛的实验,结果表明,我们的方法可以在空间和时域中捕获长短短程依赖性,从而产生比其他最先进的方法更高的结果。代码可在https://github.com/tailin1009/lsta-net。
translated by 谷歌翻译
在基于骨架的动作识别中,图形卷积网络将人类骨骼关节模拟为顶点,并通过邻接矩阵将其连接起来,可以将其视为局部注意力掩码。但是,在大多数现有的图形卷积网络中,局部注意力面膜是根据人类骨架关节的自然连接来定义的,而忽略了例如头部,手和脚关节之间的动态关系。此外,注意机制已被证明在自然语言处理和图像描述中有效,在现有方法中很少研究。在这项工作中,我们提出了一个新的自适应空间注意层,该层将局部注意力图扩展到基于相对距离和相对角度信息的全局。此外,我们设计了一个连接头部,手脚的新初始图邻接矩阵,该矩阵在动作识别精度方面显示出可见的改进。在日常生活中人类活动领域的两个大规模且挑战性的数据集上,评估了该模型:NTU-RGB+D和动力学骨架。结果表明,我们的模型在两个数据集上都有很强的性能。
translated by 谷歌翻译
这项工作的目的是为视障和盲人的触觉设备做出贡献,以便让他们了解周围人的行为并与他们互动。首先,基于来自RGB-D序列的人类行动识别的最先进方法,我们使用Kinect提供的骨架信息,与解开的和统一的多尺度图卷积(MS-G3D)模型识别执行的行动。我们在真实场景中测试了这个模型,发现了一些约束和限制。接下来,我们使用CNN的MS-G3D和深度模态应用骨架模型之间的融合,以绕过讨论的限制。第三,识别的操作是用语义标记的标记,并将被映射到触摸感知的输出设备。
translated by 谷歌翻译
基于骨架的人类行动识别是由于其复杂的动态而是一项长期挑战。动态的一些细颗粒细节在分类中起着至关重要的作用。现有的工作主要集中在设计带有更复杂的相邻矩阵的增量神经网络上,以捕获关节关系的细节。但是,他们仍然很难区分具有广泛相似运动模式但属于不同类别的动作。有趣的是,我们发现运动模式上的细微差异可以显着放大,并且可以轻松地通过指定的视图方向来区分观众,在这些方向上,该属性以前从未得到充分探索。与以前的工作截然不同,我们通过提出一种概念上简单而有效的多视图策略来提高性能,该策略从一系列动态视图功能中识别动作。具体而言,我们设计了一个新颖的骨骼锚定建议(SAP)模块,该模块包含一个多头结构来学习一组视图。为了学习不同观点的特征学习,我们引入了一个新的角度表示,以在不同视图下的动作转换并将转换归因于基线模型。我们的模块可以与现有的动作分类模型无缝合作。与基线模型合并,我们的SAP模块在许多具有挑战性的基准上展示了明显的性能增长。此外,全面的实验表明,我们的模型始终击败了最新的实验,并且在处理损坏的数据时保持有效和健壮。相关代码将在https://github.com/ideal-idea/sap上提供。
translated by 谷歌翻译
捕获关节之间的依赖关系对于基于骨架的动作识别任务至关重要。变压器显示出模拟重要关节相关性的巨大潜力。然而,基于变压器的方法不能捕获帧之间的不同关节的相关性,因此相邻帧之间的不同体部(例如在长跳跃中的臂和腿)一起移动的相关性非常有用。专注于这个问题,提出了一种新的时空组元变压器(Sttformer)方法。骨架序列被分成几个部分,并且每个部分包含的几个连续帧被编码。然后提出了一种时空元组的自我关注模块,以捕获连续帧中不同关节的关系。另外,在非相邻帧之间引入特征聚合模块以增强区分类似动作的能力。与最先进的方法相比,我们的方法在两个大型数据集中实现了更好的性能。
translated by 谷歌翻译
Skeleton-based action recognition has attracted considerable attention due to its compact skeletal structure of the human body. Many recent methods have achieved remarkable performance using graph convolutional networks (GCNs) and convolutional neural networks (CNNs), which extract spatial and temporal features, respectively. Although spatial and temporal dependencies in the human skeleton have been explored, spatio-temporal dependency is rarely considered. In this paper, we propose the Inter-Frame Curve Network (IFC-Net) to effectively leverage the spatio-temporal dependency of the human skeleton. Our proposed network consists of two novel elements: 1) The Inter-Frame Curve (IFC) module; and 2) Dilated Graph Convolution (D-GC). The IFC module increases the spatio-temporal receptive field by identifying meaningful node connections between every adjacent frame and generating spatio-temporal curves based on the identified node connections. The D-GC allows the network to have a large spatial receptive field, which specifically focuses on the spatial domain. The kernels of D-GC are computed from the given adjacency matrices of the graph and reflect large receptive field in a way similar to the dilated CNNs. Our IFC-Net combines these two modules and achieves state-of-the-art performance on three skeleton-based action recognition benchmarks: NTU-RGB+D 60, NTU-RGB+D 120, and Northwestern-UCLA.
translated by 谷歌翻译
骨架序列轻巧且紧凑,因此是在边缘设备上进行动作识别的理想候选者。最新的基于骨架的动作识别方法从3D关节坐标作为时空提示提取特征,在图神经网络中使用这些表示形式来提高识别性能。一阶和二阶特征(即关节和骨骼表示)的使用导致了很高的精度。但是,许多模型仍然被具有相似运动轨迹的动作所困惑。为了解决这些问题,我们建议以角度编码为现代体系结构的形式融合高阶特征,以稳健地捕获关节和身体部位之间的关系。这种与流行的时空图神经网络的简单融合可在包括NTU60和NTU120在内的两个大型基准中实现新的最新精度,同时使用较少的参数和减少的运行时间。我们的源代码可公开可用:https://github.com/zhenyueqin/angular-skeleton-soding。
translated by 谷歌翻译
本文提出了一种新的图形卷积运算符,称为中央差异图卷积(CDGC),用于基于骨架的动作识别。它不仅能够聚合节点信息,如vanilla图卷积操作,而且还可以介绍梯度信息。在不引入任何其他参数的情况下,CDGC可以在任何现有的图形卷积网络(GCN)中取代VANILLA图表卷积。此外,开发了一种加速版的CDGC,这大大提高了培训速度。两个流行的大型数据集NTU RGB + D 60和120的实验表明了所提出的CDGC的功效。代码可在https://github.com/iesymiao/cd-gcn获得。
translated by 谷歌翻译
由于其轻质和紧凑的特性,骨架序列广泛用于动作识别任务。最近的图表卷积网络(GCN)方法为基于骨架的动作识别取得了巨大的成功,因为它的非欧几里德数据的感激建模能力。 GCN能够利用短程关节依赖性,同时缺乏直接模拟对区分各种行动至关重要的遥感关节关系。因此,许多GCN方法尝试采用分层机制来聚合更广泛的邻域信息。我们提出了一种基于新颖的自我关注的骨架锚提案(SAP)模块,全面模拟人体的内部关系进行运动特征学习。所提出的SAP模块旨在利用通过编码高阶角度信息的三联网形式而不是现有的分层GCN方法中使用的固定对骨连接来探讨人体内的固有关系。基于自我注意的锚选择方法设计在所提出的SAP模块中,用于提取编码角信息的根点。通过耦合具有流行空间 - 时间图神经网络的所提出的SAP模块,例如, MSG3D,它在具有挑战性的基准数据集上实现了新的最先进的准确性。进一步的消融研究表明了我们所提出的SAP模块的有效性,能够明显提高许多流行的基于骨架的动作识别方法的性能。
translated by 谷歌翻译
基于骨架的动作识别方法受到时空骨骼图的语义提取的限制。但是,当前方法在有效地结合时间和空间图尺寸的特征方面很难,一侧往往厚度厚,另一侧较薄。在本文中,我们提出了一个时间通道聚合图卷积网络(TCA-GCN),以动态有效地学习基于骨架动作识别的不同时间和通道维度中的空间和时间拓扑。我们使用时间聚合模块来学习时间维特征和通道聚合模块,以有效地将空间动态通道拓扑特征与时间动态拓扑特征相结合。此外,我们在时间建模上提取多尺度的骨骼特征,并将其与注意机制融合。广泛的实验表明,在NTU RGB+D,NTU RGB+D 120和NW-UCLA数据集上,我们的模型结果优于最先进的方法。
translated by 谷歌翻译
图形卷积网络(GCN)是基于骨架的动作识别的最常用方法,并取得了出色的性能。生成具有语义上有意义的边缘的邻接矩阵对于此任务尤其重要,但是提取此类边缘是具有挑战性的问题。为了解决这个问题,我们提出了一个具有新颖的分层分解图(HD-GRAPH)的分层分解图卷积网络(HD-GCN)结构。拟议的HD-GCN有效地将每个关节节点分解为几组,以提取相邻和远处的主要边缘,并使用它们构造了在人类骨架的同一语义空间中包含这些边缘的HD-GRAPH。此外,我们引入了一个注意引导的层次结构聚合(A-HA)模块,以突出HD图的主要分层边缘集。此外,我们采用了一种新的两链三图集合方法,该方法仅使用没有任何运动流的关节和骨流。评估了所提出的模型,并在三个大型流行数据集上获得最先进的性能:NTU-RGB+D 60,NTU-RGB+D 120和Northwestern-UCLA。最后,我们通过各种比较实验证明了模型的有效性。
translated by 谷歌翻译
图表卷积网络(GCNS)已成为基于骨架的动作识别的主要方法。然而,它们仍然遭受两个问题,即邻域约束和纠缠的时空特征表示。大多数研究侧重于改善图形拓扑的设计,以解决第一个问题,但他们尚未充分探索后者。在这项工作中,我们设计了一个解开的时空变压器(DSTT)块,以克服GCN的上述限制三个步骤:(i)脱离时尚分解的分离;(ii)用于捕获全球背景下的相关性的全球时空注意; (iii)利用更多本地信息的本地信息增强。在其上,我们提出了一种名为分层图卷积件骨架变压器(HGCT)的新型架构,用于采用GCN(即,本地拓扑,时间动态和层级)和变压器的互补优势(即,全球背景和动态注意)。 HGCT轻量级和计算效率。定量分析证明了HGCT的优越性和良好的解释性。
translated by 谷歌翻译