Human skeleton point clouds are commonly used to automatically classify and predict the behaviour of others. In this paper, we use a contrastive self-supervised learning method, SimCLR, to learn representations that capture the semantics of skeleton point clouds. This work focuses on systematically evaluating the effects that different algorithmic decisions (including augmentations, dataset partitioning and backbone architecture) have on the learned skeleton representations. To pre-train the representations, we normalise six existing datasets to obtain more than 40 million skeleton frames. We evaluate the quality of the learned representations with three downstream tasks: skeleton reconstruction, motion prediction, and activity classification. Our results demonstrate the importance of 1) combining spatial and temporal augmentations, 2) including additional datasets for encoder training, and 3) and using a graph neural network as an encoder.
translated by 谷歌翻译
通过深度学习技术的开花,完全有监督的基于骨架的动作识别取得了巨大进步。但是,这些方法需要足够的标记数据,这不容易获得。相比之下,基于自我监督的骨骼的动作识别引起了更多的关注。通过利用未标记的数据,可以学会更多可概括的功能来减轻过度拟合的问题并减少大规模标记的培训数据的需求。受到MAE的启发,我们提出了一个空间式蒙面的自动编码器框架,用于基于3D骨架的自我监管的动作识别(Skeletonmae)。在MAE的掩蔽和重建管道之后,我们利用基于骨架的编码器变压器体系结构来重建蒙版的骨架序列。一种新颖的掩蔽策略,称为时空掩蔽,是根据骨架序列的联合级别和框架级别引入的。这种预训练策略使编码器输出可推广的骨骼特征具有空间和时间依赖性。给定未掩盖的骨架序列,编码器用于动作识别任务。广泛的实验表明,我们的骨架达到了出色的性能,并优于NTU RGB+D和NTU RGB+D 120数据集的最新方法。
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
基于骨架的人类动作识别最近引起了人们对外观变化的敏感性和更多骨架数据的可访问性的敏感性。但是,即使在实践中捕获的3D骨骼也对观点和方向仍然敏感,并给出了不同人体关节的阻塞和人类关节定位中的误差。骨骼数据的这种视图差异可能会严重影响动作识别的性能。为了解决这个问题,我们在本文中提出了一种新的视图不变的表示方法,而没有任何手动动作标签,用于基于骨架的人类行动识别。具体而言,我们通过最大化从不同观点提取的表示形式之间的相互信息来利用同一个人同时对同一个人进行的多视图骨架数据,然后提出一个全局 - 局部对比度损失,以模拟多规模CO - 空间和时间域中的发生关系。广泛的实验结果表明,所提出的方法对输入骨骼数据的视图差异是可靠的,并显着提高了基于无监督骨架的人类动作方法的性能,从而在两个具有挑战性的多视图上产生了新的最新精确度Pkummd和NTU RGB+d的基准。
translated by 谷歌翻译
当前的骨架动作表示方法学习的方法通常集中在受约束的场景上,其中在实验室环境中记录了视频和骨骼数据。在处理现实世界视频中估计的骨骼数据时,由于受试者和摄像机观点之间的差异很大,因此此类方法的性能差。为了解决这个问题,我们通过一种新颖的视图自动编码器介绍了自我监视的骨架动作表示学习。通过Leverage在不同的人类表演者之间进行运动重新定位作为借口任务,以便在2D或3D骨架序列的视觉表示之上删除潜在的动作特异性“运动”特征。这种“运动”功能对于骨架几何和相机视图是不变的,并允许通过辅助,跨视图和跨视图动作分类任务。我们进行了一项研究,重点是针对基于骨架的动作识别的转移学习,并在现实世界数据(例如Posetics)上进行自我监督的预训练。我们的结果表明,从VIA中学到的骨架表示足以提高最新动作分类精度,不仅在3D实验室数据集(例如NTU-RGB+D 60和NTU-RGB+D 120)上,而且还在在仅准确估计2D数据的现实数据集中,例如Toyota Smarthome,UAV-Human和Penn Action。
translated by 谷歌翻译
基于骨架的动作识别广泛用于各种区域,例如监视和人机相互作用。现有模型主要以监督方式学习,从而根据标签昂贵时可能是不可行的大规模标记数据。在本文中,我们提出了一种新的对比度重建表示学习网络(CRRL),其同时为无监督的基于骨架的动作识别捕获姿势和运动动力学。它主要由三部分组成:序列重建器,对比运动学习者和信息定影器。序列重建者通过重建学习从骨架坐标序列的表示,因此学习的表示倾向于聚焦在琐碎的姿势坐标上并且在运动学习中犹豫不决。为了增强运动的学习,对比运动学习者分别在从坐标序列和附加速度序列中学到的表示之间进行对比学习。最后,在信息定位器中,我们探讨了将序列重建器和对比运动学习者结合的各种策略,并建议通过基于知识蒸馏的融合策略同时捕获姿势和动作,从而将动作学习从对比运动学习者转移到序列中的序列重建者。在若干基准测试中,即NTU RGB + D 60,NTU RGB + D 120,CMU Mocap和NW-UCLA的实验结果证明了所提出的CRRL方法​​的承诺,到目前为止的现有方法。
translated by 谷歌翻译
视频的对比表示高度依赖于数百万未老化视频的可用性。这对于网络上可用的视频来说是实用的,但获取真实应用的大规模视频非常昂贵和费力。因此,在本文中,我们专注于为自我监督学习设计视频增强,首先分析最佳策略来混合视频以创建新的增强视频样本。然后,问题仍然存在,我们可以利用数据混合视频中的其他方式吗?为此,我们提出了跨模块歧管Cutmix(CMMC),其将视频TESSERACT插入到两个不同模式中的特征空间中的另一个视频TESERACT中。我们发现我们的视频混合策略STC-MIX,即视频的初步混合,然后在视频中跨越不同方式的CMMC,提高了学习视频表示的质量。我们对两个下游任务进行了彻底的实验:在两个小型视频数据集UCF101和HMDB51上进行动作识别和视频检索。我们还展示了我们STC-Mix在NTU数据集上的有效性,其中域名知识有限。我们表明,我们对下游任务的STC混合的表现与其他自我监督的方法有关,同时需要较少的培训数据。
translated by 谷歌翻译
帕金森氏病(PD)是一种神经系统疾病,具有各种可观察到的与运动相关的症状,例如运动缓慢,震颤,肌肉僵硬和姿势受损。 PD通常通过评估运动障碍系统(例如运动障碍协会统一帕金森氏病评级量表(MDS-UPDRS))的评分系统来诊断PD。使用个体视频记录的自动严重性预测为无侵入性监测运动障碍提供了有希望的途径。但是,PD步态数据的大小有限阻碍模型能力和临床潜力。由于这种临床数据的稀缺性,并受到自我监督的大规模语言模型(例如GPT-3)的最新进展的启发,我们将人类运动预测用作有效的自我监督预训练的任务来估计运动障碍的严重性。我们介绍步态预测和损伤估计变压器,该变压器首先在公共数据集中进行预测以预测步态运动,然后应用于临床数据以预测MDS-UPDRS步态障碍的严重性。我们的方法的表现优于以前的方法,这些方法仅依赖于临床数据,从而达到了0.76的F1得分,精度为0.79,召回率为0.75。使用GaitForemer,我们展示了公共人类运动数据存储库如何通过学习通用运动表示来帮助临床用例。该代码可从https://github.com/markendo/gaitforemer获得。
translated by 谷歌翻译
学习自我监督的视频表示主要集中在简单数据增强方案中产生的判别实例。然而,学习的表示通常无法通过看不见的相机观点来概括。为此,我们提出了ViewClr,它将自我监督的视频表示不变到相机视点变化。我们介绍了一个视图生成器,可以被视为任何自我监督的预先文本任务的学习增强,以生成视频的潜在视点表示。ViewClr最大化潜像观点表示与原始视点表示的相似性,使学习的视频编码器能够概括未见的相机视点。在跨视图基准数据集的实验,包括NTU RGB + D数据集,显示ViewClr代表了一种最先进的ViewPoint不变自我监控方法。
translated by 谷歌翻译
基于对比度学习的基于自我监督的骨架识别引起了很多关注。最近的文献表明,数据增强和大量对比度对对于学习此类表示至关重要。在本文中,我们发现,基于正常增强的直接扩展对对比对的表现有限,因为随着培训的进展,对比度对从正常数据增强到损失的贡献越小。因此,我们深入研究了对比对比对的,以进行对比学习。由混合增强策略的成功激励,通过综合新样本来改善许多任务的执行,我们提出了Skelemixclr:一种与时空的学习框架,具有时空骨架混合增强(Skelemix),以补充当前的对比样品,以补充当前的对比样品。首先,Skelemix利用骨架数据的拓扑信息将两个骨骼序列混合在一起,通过将裁切的骨骼片段(修剪视图)与其余的骨架序列(截断视图)随机梳理。其次,应用时空掩码池在特征级别上分开这两个视图。第三,我们将对比度对与这两种观点扩展。 SkelemixClr利用修剪和截断的视图来提供丰富的硬对比度对,因为它们由于图形卷积操作而涉及彼此的某些上下文信息,这使模型可以学习更好的运动表示以进行动作识别。在NTU-RGB+D,NTU120-RGB+D和PKU-MMD数据集上进行了广泛的实验表明,SkelemixClr实现了最先进的性能。代码可在https://github.com/czhaneva/skelemixclr上找到。
translated by 谷歌翻译
对于人类的行动理解,流行的研究方向是分析具有明确的语义含量的短视频剪辑,例如跳跃和饮酒。然而,了解短语行动的方法不能直接翻译成长期以来的人类动态,如跳舞,即使在语义上也是挑战的挑战。同时,自然语言处理(NLP)社区通过大规模预培训解决了稀缺的类似挑战,这改善了一种模型的几个下游任务。在这项工作中,我们研究如何以自我监督的方式进行分段和群集视频,即Acton Discovery,朝向视频标记的主要障碍。我们提出了一种两级框架,首先通过对应于它们的时间上下文的视频帧的两个增强视图对比其次的视频帧的两个增强视图来获得帧智表示。然后通过k-means群集视频集集中的帧展表示。然后通过从同一簇内的帧形成连续的运动序列来自动提取actons。通过标准化的相互信息和语言熵,我们通过Kendall的Tau和Lexicon构建步骤进行评估框架明智的表现。我们还研究了这个标记化的三种应用:类型分类,行动细分和行动组成。在AIST ++和PKU-MMD数据集上,与几个基线相比,Actons带来了显着的性能改进。
translated by 谷歌翻译
运动同步反映了相互作用二元组之间身体运动的协调。强大的深度学习模型(例如变压器网络)对运动同步的估计已自动化。但是,与其设计用于运动同步估计的专业网络,不如先前基于变压器的作品从其他任务(例如人类活动识别)中广泛采用了体系结构。因此,本文提出了一种基于骨架的图形变压器来进行运动同步估计。提出的模型应用了ST-GCN,这是一种空间图卷积神经网络,用于骨骼特征提取,然后是用于空间特征生成的空间变压器。空间变压器的指导是由相同的个体相同关节之间共享的独特设计的关节位置嵌入。此外,考虑到身体运动的周期性固有性,我们将时间相似性矩阵纳入了时间注意计算中。此外,与每个关节相关的置信度得分反映了姿势的不确定性,而先前关于运动同步估计的作品尚未充分强调这一点。由于变形金刚网络要求大量的数据进行训练,因此我们使用人类36M,一个用于人类活动识别的基准数据集构建了一个用于运动同步估算的数据集,并使用对比度学习鉴定了我们的模型。我们进一步应用知识蒸馏以减轻姿势探测器失败以隐私的方式引入的信息损失。我们将我们的方法与PT13上的代表性方法进行了比较,PT13是从自闭症治疗干预措施中收集的数据集。我们的方法达到了88.98%的总体准确性,并在保持数据隐私的同时超过了同行。
translated by 谷歌翻译
近年来,已经通过对比学习方法的进展来开发了基于骨架的动作识别的自我监督的代表学习。现有的对比学习方法使用正常的增强来构建类似的正样品,这限制了探索新颖运动模式的能力。在本文中,为了更好地利用极端增强引入的运动模式,提出了利用对自我监督动作表示(AIMCLR)的丰富信息挖掘的对比学习框架。首先,提出了极端的增强和基于能量的注意力指导模块(EADM)来获得各种阳性样本,这带来了新的运动模式来改善学习陈述的普遍性。其次,由于直接使用极端增强可能无法提高由于原始身份的剧烈变化导致的性能,因此提出了双分配发散最小化损失(D $ ^ 3 $ M损失),以最大限度地减少更温和的分配分配大大地。第三,提出了最近的邻居挖掘(NNM)以进一步扩展正样品以使丰富的信息挖掘过程更合理。 NTU RGB + D 60的详尽实验,PKU-MMD,NTU RGB + D 120数据集已经验证,我们的AIMCLR可以在各种评估协议下对最先进的方法进行有利的方法,以观察到更高质量的作用表示。我们的代码可在https://github.com/levigty/aimclr中找到。
translated by 谷歌翻译
最近基于对比的3D动作表示学习取得了长足的进步。但是,严格的正/负约束尚未放松,并且使用非自我阳性的使用尚待探索。在本文中,为无监督的骨骼3D动作表示学习提出了对比度阳性挖掘(CPM)框架。 CPM在上下文队列中识别非自我阳性以提高学习。具体而言,采用和培训了暹罗编码器,以匹配增强实例的相似性分布,以参考上下文队列中的所有实例。通过确定队列中的非自我积极实例,提出了一种积极增强的学习策略,以利用采矿阳性的知识来增强学习潜在空间的稳健性,以抵抗阶级内部和阶层间多样性。实验结果表明,所提出的CPM具有有效性,并且在挑战性的NTU和PKU-MMD数据集上胜过现有的最新无监督方法。
translated by 谷歌翻译
目前,现有的步态识别系统专注于从轮廓图像中提取强大的步态特征的开发方法,他们确实取得了巨大的成功。然而,步态可以对衣服和携带物品等外观特征敏感。与基于外观的方法相比,由于对这些变化的稳健性,基于模型的步态识别是有前途的。近年来,随着人类姿势估计的发展,基于模型的步态识别方法的难度已被减轻。在本文中,为了抵抗受试者的增加和视图变化,建立了局部特征,提出了暹罗网络以最大化来自相同主题的样本的距离。我们利用近期行动识别的进步将人类姿势序列嵌入到向量中,并引入空间 - 时间图卷积块(STGCB),该卷积块(STGCB)已经过去用于步态识别的动作识别。在名为OuMVLP-POSE的非常大的人口数据集的实验和流行的DataSet,Casia-B,表明我们的方法在基于模型的步态识别中归档一些最先进的(SOTA)性能。我们的方法的代码和模型可在接受后的https://github.com/timelesnive/gait-for-large-dataset中获得。
translated by 谷歌翻译
通过自学学习的视觉表示是一项极具挑战性的任务,因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强,大规模数据集和过量量的计算来实现的。视频自我监督学习(SSL)面临着额外的挑战:视频数据集通常不如图像数据集那么大,计算是一个数量级,并且优化器所必须通过的伪造模式数量乘以几倍。因此,直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题,我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型,并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此,我们修改了典型的基于视频的SSL设计和目标,以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容,该模型在通用域上训练。所提出的算法被证明可以更有效地学习(即在较小的时期和较小的批次中),并在单模式SSL方法中对标准下游任务进行了新的最新性能。
translated by 谷歌翻译
We present a self-supervised Contrastive Video Representation Learning (CVRL) method to learn spatiotemporal visual representations from unlabeled videos. Our representations are learned using a contrastive loss, where two augmented clips from the same short video are pulled together in the embedding space, while clips from different videos are pushed away. We study what makes for good data augmentations for video self-supervised learning and find that both spatial and temporal information are crucial. We carefully design data augmentations involving spatial and temporal cues. Concretely, we propose a temporally consistent spatial augmentation method to impose strong spatial augmentations on each frame of the video while maintaining the temporal consistency across frames. We also propose a sampling-based temporal augmentation method to avoid overly enforcing invariance on clips that are distant in time. On Kinetics-600, a linear classifier trained on the representations learned by CVRL achieves 70.4% top-1 accuracy with a 3D-ResNet-50 (R3D-50) backbone, outperforming ImageNet supervised pre-training by 15.7% and SimCLR unsupervised pre-training by 18.8% using the same inflated R3D-50. The performance of CVRL can be further improved to 72.9% with a larger R3D-152 (2× filters) backbone, significantly closing the gap between unsupervised and supervised video representation learning. Our code and models will be available at https://github.com/tensorflow/models/tree/master/official/.
translated by 谷歌翻译
我们提出了一个新的变压器模型,用于无监督学习骨架运动序列的任务。用于基于无监督骨骼的动作学习的现有变压器模型被了解到每个关节从相邻帧的瞬时速度没有全球运动信息。因此,该模型在学习全身运动和暂时遥远的关节方面的关注方面存在困难。此外,模型中尚未考虑人与人之间的互动。为了解决全身运动,远程时间动态和人与人之间的互动的学习,我们设计了一种全球和本地的注意机制,在其中,全球身体动作和本地关节运动相互关注。此外,我们提出了一种新颖的预处理策略,即多间隔姿势位移预测,以在不同的时间范围内学习全球和本地关注。提出的模型成功地学习了关节的局部动力学,并从运动序列中捕获了全局上下文。我们的模型优于代表性基准中明显边缘的最先进模型。代码可在https://github.com/boeun-kim/gl-transformer上找到。
translated by 谷歌翻译
基于骨架的人类行动识别是由于其复杂的动态而是一项长期挑战。动态的一些细颗粒细节在分类中起着至关重要的作用。现有的工作主要集中在设计带有更复杂的相邻矩阵的增量神经网络上,以捕获关节关系的细节。但是,他们仍然很难区分具有广泛相似运动模式但属于不同类别的动作。有趣的是,我们发现运动模式上的细微差异可以显着放大,并且可以轻松地通过指定的视图方向来区分观众,在这些方向上,该属性以前从未得到充分探索。与以前的工作截然不同,我们通过提出一种概念上简单而有效的多视图策略来提高性能,该策略从一系列动态视图功能中识别动作。具体而言,我们设计了一个新颖的骨骼锚定建议(SAP)模块,该模块包含一个多头结构来学习一组视图。为了学习不同观点的特征学习,我们引入了一个新的角度表示,以在不同视图下的动作转换并将转换归因于基线模型。我们的模块可以与现有的动作分类模型无缝合作。与基线模型合并,我们的SAP模块在许多具有挑战性的基准上展示了明显的性能增长。此外,全面的实验表明,我们的模型始终击败了最新的实验,并且在处理损坏的数据时保持有效和健壮。相关代码将在https://github.com/ideal-idea/sap上提供。
translated by 谷歌翻译
机器学习的最新进展表明,通过自我监督的学习获得的预训练表示形式可以通过小型培训数据实现高精度。与视觉和自然语言处理域不同,基于IMU的应用程序的预培训是具有挑战性的,因为只有少数公开可用的数据集具有足够的规模和多样性来学习可推广的表示。为了克服这个问题,我们提出了IMG2IMU,这是一种新颖的方法,可以适应从大规模图像到不同弹药的IMU感应任务的预训练表示。我们将传感器数据转换为可解释的频谱图,以便模型利用从视觉中获得的知识。此外,我们将对比度学习应用于我们旨在学习用于解释传感器数据的表示形式。我们对五个IMU感应任务的广泛评估表明,IMG2IMU始终优于基准,这说明视力知识可以纳入一些用于IMU感应任务的学习环境中。
translated by 谷歌翻译