基于骨架的动作识别由于数据集的轻质,紧凑的性质,吸引了从业者和研究人员。与基于RGB视频的动作识别相比,基于骨架的动作识别是一种更安全的方法来保护受试者的隐私,同时具有竞争性识别性能。但是,由于骨架估计算法以及运动和深度传感器的改进,可以在骨架数据集中保留运动特性的更多细节,从而导致数据集的潜在隐私泄漏。要调查骨架数据集的潜在隐私泄漏,我们首先将分类器从关节的轨迹中分类敏感私人信息。实验表明,培训的模型对性别进行分类,可以预测88%的准确性,并重新识别具有82%的准确性的人。我们提出了两个匿名化算法的变体来保护骨架数据集的潜在隐私泄漏。实验结果表明,匿名数据集可以降低隐私泄漏的风险,同时对动作识别性能产生边际影响。
translated by 谷歌翻译
骨架序列是紧凑而轻巧的。已经提出了许多基于骨架的动作识别者来对人类行为进行分类。在这项工作中,我们旨在结合与现有模型兼容的组件,并进一步提高其准确性。为此,我们设计了两个时间配件:离散余弦编码(DCE)和按时间顺序损失(CRL)。DCE促进模型以分析频域的运动模式,同时减轻信号噪声的影响。CRL指导网络明确捕获序列的时间顺序。这两个组件一致地赋予许多最近提供的动作识别器具有准确性的提升,从而在两个大数据集上实现了新的最先进(SOTA)精度。
translated by 谷歌翻译
Action recognition with skeleton data has recently attracted much attention in computer vision. Previous studies are mostly based on fixed skeleton graphs, only capturing local physical dependencies among joints, which may miss implicit joint correlations. To capture richer dependencies, we introduce an encoder-decoder structure, called A-link inference module, to capture action-specific latent dependencies, i.e. actional links, directly from actions. We also extend the existing skeleton graphs to represent higherorder dependencies, i.e. structural links. Combing the two types of links into a generalized skeleton graph, we further propose the actional-structural graph convolution network (AS-GCN), which stacks actional-structural graph convolution and temporal convolution as a basic building block, to learn both spatial and temporal features for action recognition. A future pose prediction head is added in parallel to the recognition head to help capture more detailed action patterns through self-supervision. We validate AS-GCN in action recognition using two skeleton data sets, NTU-RGB+D and Kinetics. The proposed AS-GCN achieves consistently large improvement compared to the state-of-the-art methods. As a side product, AS-GCN also shows promising results for future pose prediction. Our code is available at https://github.com/limaosen0/AS-GCN . 1
translated by 谷歌翻译
骨架序列轻巧且紧凑,因此是在边缘设备上进行动作识别的理想候选者。最新的基于骨架的动作识别方法从3D关节坐标作为时空提示提取特征,在图神经网络中使用这些表示形式来提高识别性能。一阶和二阶特征(即关节和骨骼表示)的使用导致了很高的精度。但是,许多模型仍然被具有相似运动轨迹的动作所困惑。为了解决这些问题,我们建议以角度编码为现代体系结构的形式融合高阶特征,以稳健地捕获关节和身体部位之间的关系。这种与流行的时空图神经网络的简单融合可在包括NTU60和NTU120在内的两个大型基准中实现新的最新精度,同时使用较少的参数和减少的运行时间。我们的源代码可公开可用:https://github.com/zhenyueqin/angular-skeleton-soding。
translated by 谷歌翻译
时间动作分割(TAS)旨在在长期未经修剪的动作序列中对作用进行分类和定位。随着深度学习的成功,出现了许多深入的行动分割模型。但是,很少有TAS仍然是一个具有挑战性的问题。这项研究提出了一个基于少数骨架的TA的有效框架,包括数据增强方法和改进的模型。此处介绍了基于运动插值的数据增强方法,以解决数据不足的问题,并可以通过合成动作序列大大增加样品数量。此外,我们将连接式时间分类(CTC)层与设计用于基于骨架的TA的网络以获得优化的模型。利用CTC可以增强预测和地面真理之间的时间一致性,并进一步改善细分段的分割结果指标。对公共和自我结构的数据集进行了广泛的实验,包括两个小规模数据集和一个大规模数据集,显示了两种建议方法在改善基于少数骨架的TAS任务的性能方面的有效性。
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
基于骨架的动作识别广泛用于各种区域,例如监视和人机相互作用。现有模型主要以监督方式学习,从而根据标签昂贵时可能是不可行的大规模标记数据。在本文中,我们提出了一种新的对比度重建表示学习网络(CRRL),其同时为无监督的基于骨架的动作识别捕获姿势和运动动力学。它主要由三部分组成:序列重建器,对比运动学习者和信息定影器。序列重建者通过重建学习从骨架坐标序列的表示,因此学习的表示倾向于聚焦在琐碎的姿势坐标上并且在运动学习中犹豫不决。为了增强运动的学习,对比运动学习者分别在从坐标序列和附加速度序列中学到的表示之间进行对比学习。最后,在信息定位器中,我们探讨了将序列重建器和对比运动学习者结合的各种策略,并建议通过基于知识蒸馏的融合策略同时捕获姿势和动作,从而将动作学习从对比运动学习者转移到序列中的序列重建者。在若干基准测试中,即NTU RGB + D 60,NTU RGB + D 120,CMU Mocap和NW-UCLA的实验结果证明了所提出的CRRL方法​​的承诺,到目前为止的现有方法。
translated by 谷歌翻译
人类相互作用的分析是人类运动分析的一个重要研究主题。它已经使用第一人称视觉(FPV)或第三人称视觉(TPV)进行了研究。但是,到目前为止,两种视野的联合学习几乎没有引起关注。原因之一是缺乏涵盖FPV和TPV的合适数据集。此外,FPV或TPV的现有基准数据集具有多个限制,包括样本数量有限,参与者,交互类别和模态。在这项工作中,我们贡献了一个大规模的人类交互数据集,即FT-HID数据集。 FT-HID包含第一人称和第三人称愿景的成对对齐的样本。该数据集是从109个不同受试者中收集的,并具有三种模式的90K样品。该数据集已通过使用几种现有的动作识别方法验证。此外,我们还引入了一种新型的骨骼序列的多视图交互机制,以及针对第一人称和第三人称视野的联合学习多流框架。两种方法都在FT-HID数据集上产生有希望的结果。可以预期,这一视力一致的大规模数据集的引入将促进FPV和TPV的发展,以及他们用于人类行动分析的联合学习技术。该数据集和代码可在\ href {https://github.com/endlichere/ft-hid} {here} {herefichub.com/endlichere.com/endlichere}中获得。
translated by 谷歌翻译
通过深度学习技术的开花,完全有监督的基于骨架的动作识别取得了巨大进步。但是,这些方法需要足够的标记数据,这不容易获得。相比之下,基于自我监督的骨骼的动作识别引起了更多的关注。通过利用未标记的数据,可以学会更多可概括的功能来减轻过度拟合的问题并减少大规模标记的培训数据的需求。受到MAE的启发,我们提出了一个空间式蒙面的自动编码器框架,用于基于3D骨架的自我监管的动作识别(Skeletonmae)。在MAE的掩蔽和重建管道之后,我们利用基于骨架的编码器变压器体系结构来重建蒙版的骨架序列。一种新颖的掩蔽策略,称为时空掩蔽,是根据骨架序列的联合级别和框架级别引入的。这种预训练策略使编码器输出可推广的骨骼特征具有空间和时间依赖性。给定未掩盖的骨架序列,编码器用于动作识别任务。广泛的实验表明,我们的骨架达到了出色的性能,并优于NTU RGB+D和NTU RGB+D 120数据集的最新方法。
translated by 谷歌翻译
运动同步反映了相互作用二元组之间身体运动的协调。强大的深度学习模型(例如变压器网络)对运动同步的估计已自动化。但是,与其设计用于运动同步估计的专业网络,不如先前基于变压器的作品从其他任务(例如人类活动识别)中广泛采用了体系结构。因此,本文提出了一种基于骨架的图形变压器来进行运动同步估计。提出的模型应用了ST-GCN,这是一种空间图卷积神经网络,用于骨骼特征提取,然后是用于空间特征生成的空间变压器。空间变压器的指导是由相同的个体相同关节之间共享的独特设计的关节位置嵌入。此外,考虑到身体运动的周期性固有性,我们将时间相似性矩阵纳入了时间注意计算中。此外,与每个关节相关的置信度得分反映了姿势的不确定性,而先前关于运动同步估计的作品尚未充分强调这一点。由于变形金刚网络要求大量的数据进行训练,因此我们使用人类36M,一个用于人类活动识别的基准数据集构建了一个用于运动同步估算的数据集,并使用对比度学习鉴定了我们的模型。我们进一步应用知识蒸馏以减轻姿势探测器失败以隐私的方式引入的信息损失。我们将我们的方法与PT13上的代表性方法进行了比较,PT13是从自闭症治疗干预措施中收集的数据集。我们的方法达到了88.98%的总体准确性,并在保持数据隐私的同时超过了同行。
translated by 谷歌翻译
人类骨骼数据由于其背景鲁棒性和高效率而受到行动识别的越来越多。在基于骨架的动作识别中,图形卷积网络(GCN)已成为主流方法。本文分析了基于GCN的模型的基本因素 - 邻接矩阵。我们注意到,大多数基于GCN的方法基于人类天然骨架结构进行其邻接矩阵。根据我们以前的工作和分析,我们建议人类的自然骨骼结构邻接矩阵不适合基于骨架的动作识别。我们提出了一个新的邻接矩阵,该矩阵放弃了所有刚性邻居的连接,但使该模型可以适应地学习关节的关系。我们对两个基于骨架的动作识别数据集(NTURGBD60和FINEGYM)进行了验证模型进行广泛的实验和分析。全面的实验结果和分析表明,1)最广泛使用的人类天然骨骼结构邻接矩阵在基于骨架的动作识别中不适合; 2)所提出的邻接矩阵在模型性能,噪声稳健性和可传递性方面表现出色。
translated by 谷歌翻译
现有的基于3D骨架的动作识别方法通过将手工制作的动作功能编码为图像格式和CNN解码,从而达到了令人印象深刻的性能。但是,这种方法在两种方面受到限制:a)手工制作的动作功能很难处理具有挑战性的动作,b)通常需要复杂的CNN模型来提高动作识别精度,这通常会发生重大计算负担。为了克服这些局限性,我们引入了一种新颖的AFE-CNN,它致力于增强基于3D骨架的动作的特征,以适应具有挑战性的动作。我们提出了功能增强从关键关节,骨向量,关键框架和时间视角的模块,因此,AFE-CNN对摄像头视图和车身大小变化更为强大,并显着提高了对挑战性动作的识别精度。此外,我们的AFE-CNN采用了轻巧的CNN模型以增强动作功能来解码图像,从而确保了比最新方法低得多的计算负担。我们在三个基于基准骨架的动作数据集上评估了AFE-CNN:NTU RGB+D,NTU RGB+D 120和UTKINECT-ACTION3D,并取得了广泛的实验结果,这表明我们对AFE-CNN的出色表现。
translated by 谷歌翻译
基于骨架的人类动作识别最近引起了人们对外观变化的敏感性和更多骨架数据的可访问性的敏感性。但是,即使在实践中捕获的3D骨骼也对观点和方向仍然敏感,并给出了不同人体关节的阻塞和人类关节定位中的误差。骨骼数据的这种视图差异可能会严重影响动作识别的性能。为了解决这个问题,我们在本文中提出了一种新的视图不变的表示方法,而没有任何手动动作标签,用于基于骨架的人类行动识别。具体而言,我们通过最大化从不同观点提取的表示形式之间的相互信息来利用同一个人同时对同一个人进行的多视图骨架数据,然后提出一个全局 - 局部对比度损失,以模拟多规模CO - 空间和时间域中的发生关系。广泛的实验结果表明,所提出的方法对输入骨骼数据的视图差异是可靠的,并显着提高了基于无监督骨架的人类动作方法的性能,从而在两个具有挑战性的多视图上产生了新的最新精确度Pkummd和NTU RGB+d的基准。
translated by 谷歌翻译
图形卷积网络由于非欧几里得数据的出色建模能力而广泛用于基于骨架的动作识别。由于图形卷积是局部操作,因此它只能利用短距离关节依赖性和短期轨迹,但无法直接建模遥远的关节关系和远程时间信息,这些信息对于区分各种动作至关重要。为了解决此问题,我们提出了多尺度的空间图卷积(MS-GC)模块和一个多尺度的时间图卷积(MT-GC)模块,以在空间和时间尺寸中丰富模型的接受场。具体而言,MS-GC和MT-GC模块将相应的局部图卷积分解为一组子图形卷积,形成了层次的残差体系结构。在不引入其他参数的情况下,该功能将通过一系列子图卷积处理,每个节点都可以与其邻域一起完成多个空间和时间聚集。因此,最终的等效接收场被扩大,能够捕获空间和时间域中的短期和远程依赖性。通过将这两个模块耦合为基本块,我们进一步提出了一个多尺度的空间时间图卷积网络(MST-GCN),该网络(MST-GCN)堆叠了多个块以学习有效的运动表示行动识别的运动表示。拟议的MST-GCN在三个具有挑战性的基准数据集(NTU RGB+D,NTU-1220 RGB+D和动力学 - 骨骼)上实现了出色的性能,用于基于骨架的动作识别。
translated by 谷歌翻译
人类行动识别是计算机视觉中的重要应用领域。它的主要目的是准确地描述人类的行为及其相互作用,从传感器获得的先前看不见的数据序列中。识别,理解和预测复杂人类行动的能力能够构建许多重要的应用,例如智能监视系统,人力计算机界面,医疗保健,安全和军事应用。近年来,计算机视觉社区特别关注深度学习。本文使用深度学习技术的视频分析概述了当前的动作识别最新识别。我们提出了识别人类行为的最重要的深度学习模型,并分析它们,以提供用于解决人类行动识别问题的深度学习算法的当前进展,以突出其优势和缺点。基于文献中报道的识别精度的定量分析,我们的研究确定了动作识别中最新的深层体系结构,然后为该领域的未来工作提供当前的趋势和开放问题。
translated by 谷歌翻译
Recent approaches in depth-based human activity analysis achieved outstanding performance and proved the effectiveness of 3D representation for classification of action classes. Currently available depth-based and RGB+Dbased action recognition benchmarks have a number of limitations, including the lack of training samples, distinct class labels, camera views and variety of subjects. In this paper we introduce a large-scale dataset for RGB+D human action recognition with more than 56 thousand video samples and 4 million frames, collected from 40 distinct subjects. Our dataset contains 60 different action classes including daily, mutual, and health-related actions. In addition, we propose a new recurrent neural network structure to model the long-term temporal correlation of the features for each body part, and utilize them for better action classification. Experimental results show the advantages of applying deep learning methods over state-of-the-art handcrafted features on the suggested cross-subject and crossview evaluation criteria for our dataset. The introduction of this large scale dataset will enable the community to apply, develop and adapt various data-hungry learning techniques for the task of depth-based and RGB+D-based human activity analysis.
translated by 谷歌翻译
Recent approaches in depth-based human activity analysis achieved outstanding performance and proved the effectiveness of 3D representation for classification of action classes. Currently available depth-based and RGB+Dbased action recognition benchmarks have a number of limitations, including the lack of training samples, distinct class labels, camera views and variety of subjects. In this paper we introduce a large-scale dataset for RGB+D human action recognition with more than 56 thousand video samples and 4 million frames, collected from 40 distinct subjects. Our dataset contains 60 different action classes including daily, mutual, and health-related actions. In addition, we propose a new recurrent neural network structure to model the long-term temporal correlation of the features for each body part, and utilize them for better action classification. Experimental results show the advantages of applying deep learning methods over state-of-the-art handcrafted features on the suggested cross-subject and crossview evaluation criteria for our dataset. The introduction of this large scale dataset will enable the community to apply, develop and adapt various data-hungry learning techniques for the task of depth-based and RGB+D-based human activity analysis.
translated by 谷歌翻译
图形卷积网络(GCN)优于基于骨架的人类动作识别领域的先前方法,包括人类的互动识别任务。但是,在处理相互作用序列时,基于GCN的当前方法只需将两人骨架分为两个离散序列,然后以单人动作分类的方式分别执行图形卷积。这种操作忽略了丰富的交互信息,并阻碍了语义模式学习的有效空间关系建模。为了克服上述缺点,我们引入了一个新型的统一的两人图,代表关节之间的空间相互作用相关性。此外,提出了适当设计的图形标记策略,以使我们的GCN模型学习判别时空交互特征。实验显示了使用拟议的两人图形拓扑时的相互作用和单个动作的准确性提高。最后,我们提出了一个两人的图形卷积网络(2P-GCN)。提出的2P-GCN在三个相互作用数据集(SBU,NTU-RGB+D和NTU-RGB+D 120)的四个基准测试基准上获得了最新结果。
translated by 谷歌翻译
随着越来越多的长者独自生活,从远处提供护理就成为了迫切的需求,尤其是为了安全。当发生异常行为或异常活动时,实时监测和行动识别对于及时提高警觉至关重要。尽管可穿戴传感器被广泛认为是有前途的解决方案,但高度取决于用户的能力和意愿,使其效率低下。相比之下,通过非接触式光学相机收集的视频流提供了更丰富的信息,并释放了老年人的负担。在本文中,利用独立的神经网络(INDRNN),我们提出了一种基于轻量级人类行动识别(HAR)技术的新型实时老年人监测高级安全(REMS)。使用捕获的骨架图像,REMS方案能够识别异常行为或动作并保留用户的隐私。为了获得高精度,使用多个数据库对HAR模块进行了训练和微调。一项广泛的实验研究验证了REMS系统可以准确,及时执行动作识别。 REMS作为保存隐私的老年安全监控系统实现了设计目标,并具有在各种智能监控系统中采用的潜力。
translated by 谷歌翻译
这项工作的目的是为视障和盲人的触觉设备做出贡献,以便让他们了解周围人的行为并与他们互动。首先,基于来自RGB-D序列的人类行动识别的最先进方法,我们使用Kinect提供的骨架信息,与解开的和统一的多尺度图卷积(MS-G3D)模型识别执行的行动。我们在真实场景中测试了这个模型,发现了一些约束和限制。接下来,我们使用CNN的MS-G3D和深度模态应用骨架模型之间的融合,以绕过讨论的限制。第三,识别的操作是用语义标记的标记,并将被映射到触摸感知的输出设备。
translated by 谷歌翻译