最近,基于骨架的动作识别已经取得了快速进步和卓越的性能。在本文中,我们在跨数据集设置下调查了这个问题,这是现实情况下的新,务实且具有挑战性的任务。遵循无监督的域适应(UDA)范式,该动作标签仅在源数据集上可用,但在训练阶段的目标数据集中无法使用。与UDA的常规基于对抗性学习的方法不同,我们利用一个自学计划来减少两个基于骨架的动作数据集之间的域移动。我们的灵感来自Compism,Compism是20世纪初期的艺术类型,它破坏并重新组装了物体以传达更大的背景。通过分割和定制时间段或人体部位,我们设计了两个自制的学习分类任务,以探索基于骨架的动作的时间和空间依赖性,并提高模型的概括能力。我们在六个基于骨架的动作识别的数据集上进行实验,包括三个大规模数据集(NTU RGB+D,PKU-MMD和动力学),在其中建立了新的跨数据库设置和基准。广泛的结果表明,我们的方法优于最先进的方法。我们的模型和所有比较方法的源代码均可在https://github.com/shanice-l/st-cubism上获得。
translated by 谷歌翻译
由于快速加工速度和坚固性,它可以实现,最近基于骨架的动作识别得到了计算机视觉社区的注意。基于阵列的卷积神经网络(CNN)的卷积神经网络(CNN)在学习用于骨架序列的时空表示中的值得称谓的性能,它使用骨架图像作为CNN的输入。由于基于CNN的方法,分别主要编码时间和骨架关节作为行和列,因此与所有接头相关的潜在相关性可能丢失由2D卷积引起的。为了解决这个问题,我们提出了一种基于CNN的基于CNN的方法,具有对行动识别的对抗性培训。我们介绍了一种双层域对抗性学习,分别将骨架图像的特征分别与不同视角或受试者分别对齐,从而进一步改善了概括。我们在NTU RGB + D上评估了我们提出的方法。它与最先进的方法和2.4 $ \%$,1.9 $ \%$准确性收益达到竞争力,而不是交叉主题和跨视图的基线。
translated by 谷歌翻译
人类相互作用的分析是人类运动分析的一个重要研究主题。它已经使用第一人称视觉(FPV)或第三人称视觉(TPV)进行了研究。但是,到目前为止,两种视野的联合学习几乎没有引起关注。原因之一是缺乏涵盖FPV和TPV的合适数据集。此外,FPV或TPV的现有基准数据集具有多个限制,包括样本数量有限,参与者,交互类别和模态。在这项工作中,我们贡献了一个大规模的人类交互数据集,即FT-HID数据集。 FT-HID包含第一人称和第三人称愿景的成对对齐的样本。该数据集是从109个不同受试者中收集的,并具有三种模式的90K样品。该数据集已通过使用几种现有的动作识别方法验证。此外,我们还引入了一种新型的骨骼序列的多视图交互机制,以及针对第一人称和第三人称视野的联合学习多流框架。两种方法都在FT-HID数据集上产生有希望的结果。可以预期,这一视力一致的大规模数据集的引入将促进FPV和TPV的发展,以及他们用于人类行动分析的联合学习技术。该数据集和代码可在\ href {https://github.com/endlichere/ft-hid} {here} {herefichub.com/endlichere.com/endlichere}中获得。
translated by 谷歌翻译
Domain adaptation (DA) approaches address domain shift and enable networks to be applied to different scenarios. Although various image DA approaches have been proposed in recent years, there is limited research towards video DA. This is partly due to the complexity in adapting the different modalities of features in videos, which includes the correlation features extracted as long-term dependencies of pixels across spatiotemporal dimensions. The correlation features are highly associated with action classes and proven their effectiveness in accurate video feature extraction through the supervised action recognition task. Yet correlation features of the same action would differ across domains due to domain shift. Therefore we propose a novel Adversarial Correlation Adaptation Network (ACAN) to align action videos by aligning pixel correlations. ACAN aims to minimize the distribution of correlation information, termed as Pixel Correlation Discrepancy (PCD). Additionally, video DA research is also limited by the lack of cross-domain video datasets with larger domain shifts. We, therefore, introduce a novel HMDB-ARID dataset with a larger domain shift caused by a larger statistical difference between domains. This dataset is built in an effort to leverage current datasets for dark video classification. Empirical results demonstrate the state-of-the-art performance of our proposed ACAN for both existing and the new video DA datasets.
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
基于骨架的人类动作识别最近引起了人们对外观变化的敏感性和更多骨架数据的可访问性的敏感性。但是,即使在实践中捕获的3D骨骼也对观点和方向仍然敏感,并给出了不同人体关节的阻塞和人类关节定位中的误差。骨骼数据的这种视图差异可能会严重影响动作识别的性能。为了解决这个问题,我们在本文中提出了一种新的视图不变的表示方法,而没有任何手动动作标签,用于基于骨架的人类行动识别。具体而言,我们通过最大化从不同观点提取的表示形式之间的相互信息来利用同一个人同时对同一个人进行的多视图骨架数据,然后提出一个全局 - 局部对比度损失,以模拟多规模CO - 空间和时间域中的发生关系。广泛的实验结果表明,所提出的方法对输入骨骼数据的视图差异是可靠的,并显着提高了基于无监督骨架的人类动作方法的性能,从而在两个具有挑战性的多视图上产生了新的最新精确度Pkummd和NTU RGB+d的基准。
translated by 谷歌翻译
在过去的几年中,无监督的域适应性(UDA)技术在计算机视觉中具有显着的重要性和流行。但是,与可用于图像的广泛文献相比,视频领域仍然相对尚未探索。另一方面,动作识别模型的性能受到域转移的严重影响。在本文中,我们提出了一种简单新颖的UDA方法,以供视频动作识别。我们的方法利用了时空变压器的最新进展来构建一个强大的源模型,从而更好地概括了目标域。此外,由于引入了来自信息瓶颈原则的新颖对齐损失术语,我们的架构将学习域不变功能。我们报告了UDA的两个视频动作识别基准的结果,显示了HMDB $ \ leftrightArrow $ ucf的最新性能,以及动力学$ \ rightarrow $ nec-Drone,这更具挑战性。这证明了我们方法在处理不同级别的域转移方面的有效性。源代码可在https://github.com/vturrisi/udavt上获得。
translated by 谷歌翻译
这项工作侧重于老年人活动认可的任务,这是一个充满挑战的任务,因为在老年活动中的个人行为和人体对象互动存在。因此,我们试图通过专注地融合多模态特征来有效地聚合来自RGB视频和骨架序列的判别信息和与RGB视频和骨架序列的交互。最近,通过利用从挤压和激励网络(Senet)延伸的非线性关注机制来提出一些非线性多模态融合方法。灵感来自于此,我们提出了一种新颖的扩张 - 挤压激励融合网络(ESE-FN),有效地解决了老年活动识别问题,从而了解模态和渠道 - 明智的膨胀 - 挤压(ESE)注意到术语融合模态和通道方面的多模态特征。此外,我们设计了一种新的多模态损耗(ML),以通过在单个模态的最小预测损失与预测损失之间添加差异之间的差异来保持单模特征和融合多模态特征之间的一致性。融合的方式。最后,我们对最大的老年活动数据集进行实验,即ETRI-Activity3D(包括110,000多个视频和50个类别),以证明建议的ESE-FN与状态相比实现了最佳准确性 - 最新方法。此外,更广泛的实验结果表明,所提出的ESE-FN在正常动作识别任务方面也与其他方法相媲美。
translated by 谷歌翻译
我们提出了一种新的深度学习方法,用于实时3D人类行动从骨骼数据识别,并将其应用于开发基于视觉的智能监视系统。给定骨骼序列,我们建议将骨骼姿势及其运动编码为单个RGB图像。然后将自适应直方图均衡(AHE)算法应用于颜色图像上,以增强其局部模式并产生更多的判别特征。为了学习和分类任务,我们根据密度连接的卷积体系结构(Densenet)设计深神经网络,以从增强色彩图像中提取特征并将其分类为类。两个具有挑战性的数据集的实验结果表明,所提出的方法达到了最先进的准确性,同时需要培训和推理的计算时间较低。本文还介绍了Cemest,Cemest是一种新的RGB-D数据集,描绘了公共交通中的客运行为。它由203个未经修剪的现实世界监视视频,记录了现实的正常事件和异常事件。在支持数据增强和转移学习技术的支持下,我们在该数据集的实际条件下取得了令人鼓舞的结果。这使基于深度学习的现实应用程序的构建可以增强公共交通中的监控和安全性。
translated by 谷歌翻译
基于骨架的人类行动识别是由于其复杂的动态而是一项长期挑战。动态的一些细颗粒细节在分类中起着至关重要的作用。现有的工作主要集中在设计带有更复杂的相邻矩阵的增量神经网络上,以捕获关节关系的细节。但是,他们仍然很难区分具有广泛相似运动模式但属于不同类别的动作。有趣的是,我们发现运动模式上的细微差异可以显着放大,并且可以轻松地通过指定的视图方向来区分观众,在这些方向上,该属性以前从未得到充分探索。与以前的工作截然不同,我们通过提出一种概念上简单而有效的多视图策略来提高性能,该策略从一系列动态视图功能中识别动作。具体而言,我们设计了一个新颖的骨骼锚定建议(SAP)模块,该模块包含一个多头结构来学习一组视图。为了学习不同观点的特征学习,我们引入了一个新的角度表示,以在不同视图下的动作转换并将转换归因于基线模型。我们的模块可以与现有的动作分类模型无缝合作。与基线模型合并,我们的SAP模块在许多具有挑战性的基准上展示了明显的性能增长。此外,全面的实验表明,我们的模型始终击败了最新的实验,并且在处理损坏的数据时保持有效和健壮。相关代码将在https://github.com/ideal-idea/sap上提供。
translated by 谷歌翻译
尽管近年来行动认可取得了令人印象深刻的结果,但视频培训数据的收集和注释仍然很耗时和成本密集。因此,已经提出了图像到视频改编,以利用无标签的Web图像源来适应未标记的目标视频。这提出了两个主要挑战:(1)Web图像和视频帧之间的空间域移动; (2)图像和视频数据之间的模态差距。为了应对这些挑战,我们提出了自行车域的适应(CYCDA),这是一种基于周期的方法,用于通过在图像和视频中利用图像和视频中的联合空间信息来适应无监督的图像到视频域,另一方面,训练一个独立的时空模型,用于弥合模式差距。我们在每个周期中的两者之间的知识转移之间在空间和时空学习之间交替。我们在基准数据集上评估了图像到视频的方法,以及用于实现最新结果的混合源域的适应性,并证明了我们的循环适应性的好处。
translated by 谷歌翻译
图形卷积网络由于非欧几里得数据的出色建模能力而广泛用于基于骨架的动作识别。由于图形卷积是局部操作,因此它只能利用短距离关节依赖性和短期轨迹,但无法直接建模遥远的关节关系和远程时间信息,这些信息对于区分各种动作至关重要。为了解决此问题,我们提出了多尺度的空间图卷积(MS-GC)模块和一个多尺度的时间图卷积(MT-GC)模块,以在空间和时间尺寸中丰富模型的接受场。具体而言,MS-GC和MT-GC模块将相应的局部图卷积分解为一组子图形卷积,形成了层次的残差体系结构。在不引入其他参数的情况下,该功能将通过一系列子图卷积处理,每个节点都可以与其邻域一起完成多个空间和时间聚集。因此,最终的等效接收场被扩大,能够捕获空间和时间域中的短期和远程依赖性。通过将这两个模块耦合为基本块,我们进一步提出了一个多尺度的空间时间图卷积网络(MST-GCN),该网络(MST-GCN)堆叠了多个块以学习有效的运动表示行动识别的运动表示。拟议的MST-GCN在三个具有挑战性的基准数据集(NTU RGB+D,NTU-1220 RGB+D和动力学 - 骨骼)上实现了出色的性能,用于基于骨架的动作识别。
translated by 谷歌翻译
现有的基于3D骨架的动作识别方法通过将手工制作的动作功能编码为图像格式和CNN解码,从而达到了令人印象深刻的性能。但是,这种方法在两种方面受到限制:a)手工制作的动作功能很难处理具有挑战性的动作,b)通常需要复杂的CNN模型来提高动作识别精度,这通常会发生重大计算负担。为了克服这些局限性,我们引入了一种新颖的AFE-CNN,它致力于增强基于3D骨架的动作的特征,以适应具有挑战性的动作。我们提出了功能增强从关键关节,骨向量,关键框架和时间视角的模块,因此,AFE-CNN对摄像头视图和车身大小变化更为强大,并显着提高了对挑战性动作的识别精度。此外,我们的AFE-CNN采用了轻巧的CNN模型以增强动作功能来解码图像,从而确保了比最新方法低得多的计算负担。我们在三个基于基准骨架的动作数据集上评估了AFE-CNN:NTU RGB+D,NTU RGB+D 120和UTKINECT-ACTION3D,并取得了广泛的实验结果,这表明我们对AFE-CNN的出色表现。
translated by 谷歌翻译
在这项工作中,我们考虑了开放式设置中跨域3D动作识别的问题,这是以前很少探索的。具体而言,有一个源域和一个目标域,其中包含具有不同样式和类别的骨架序列,我们的目的是通过使用标记的源数据和未标记的目标数据来聚集目标数据。对于这项具有挑战性的任务,本文提出了一种新颖的方法,称为CODT,以协作聚类域共享的功能和特定于目标的功能。 CODT由两个平行分支组成。一个分支机构旨在通过源域中的有监督学习来学习域共享的特征,而另一个分支是使用目标域中的对比学习来学习针对特定目标的特征。为了聚集功能,我们提出了一种在线聚类算法,该算法可以同时促进可靠的伪标签生成和特征群集。此外,为了利用域共享特征和特定目标特征的互补性,我们提出了一种新颖的协作聚类策略,以在两个分支之间实现配对关系一致性。我们对多个跨域3D动作识别数据集进行了广泛的实验,结果证明了我们方法的有效性。
translated by 谷歌翻译
假设源标签空间集成了目标一个,部分视频域适应(PVDA)是跨域视频分类问题的更一般和实际的场景。 PVDA的主要挑战是减轻由仅源离群类别类别引起的负转移。为了应对这一挑战,一个关键的步骤是通过提高目标类别和下降的异常值类来汇总目标预测,以分配类权重。但是,班级权重的错误预测会误导网络并导致负转移。以前的工作通过使用时间特征和注意力机制来提高类重量的准确性,但是当试图在域移动显着时,尝试产生准确的类重量时,这些方法可能会缺乏,就像在大多数真实世界中一样。为了应对这些挑战,我们提出了多模式集群校准的部分对抗网络(MCAN)。 MCAN通过多个时间尺度的多模式特征增强了视频功能提取,以形成更强大的整体特征。它利用一种新型的类重量校准方法来减轻由不正确的类重量引起的负转移。校准方法试图使用无监督聚类所隐含的分布信息来识别和权衡正确和错误的预测。与最先进的PVDA方法相比,对盛行的PVDA基准进行了广泛的实验,而拟议的MCAN取得了重大改进。
translated by 谷歌翻译
未来的活动预期是在Egocentric视觉中具有挑战性问题。作为标准的未来活动预期范式,递归序列预测遭受错误的累积。为了解决这个问题,我们提出了一个简单有效的自我监管的学习框架,旨在使中间表现为连续调节中间代表性,以产生表示(a)与先前观察到的对比的当前时间戳框架中的新颖信息内容和(b)反映其与先前观察到的帧的相关性。前者通过最小化对比损失来实现,并且后者可以通过动态重量机制来实现在观察到的内容中的信息帧中,具有当前帧的特征与观察到的帧之间的相似性比较。通过多任务学习可以进一步增强学习的最终视频表示,该多任务学习在目标活动标签上执行联合特征学习和自动检测到的动作和对象类令牌。在大多数自我传统视频数据集和两个第三人称视频数据集中,SRL在大多数情况下急剧表现出现有的现有最先进。通过实验性事实,还可以准确识别支持活动语义的行动和对象概念的实验性。
translated by 谷歌翻译
骨架数据具有低维度。然而,存在使用非常深刻和复杂的前馈神经网络来模拟骨架序列的趋势,而不考虑近年的复杂性。本文提出了一种简单但有效的多尺度语义引导的神经网络(MS-SGN),用于基于骨架的动作识别。我们明确地将关节(关节类型和帧指数)的高级语义引入网络,以增强关节的特征表示能力。此外,提出了一种多尺度策略对时间尺度变化具有鲁棒。此外,我们通过两个模块分层地利用了关节的关系,即,联合级模块,用于建模同一帧中的关节的相关性和帧级模块,用于建模帧的时间依赖性。 MSSGN在NTU60,NTU120和Sysu数据集上实现了比大多数方法更小的模型尺寸。
translated by 谷歌翻译
现有的视频域改编(DA)方法需要存储视频帧的所有时间组合或配对源和目标视频,这些视频和目标视频成本昂贵,无法扩展到长时间的视频。为了解决这些局限性,我们建议采用以下记忆高效的基于图形的视频DA方法。首先,我们的方法模型每个源或目标视频通过图:节点表示视频帧和边缘表示帧之间的时间或视觉相似性关系。我们使用图形注意力网络来了解单个帧的重量,并同时将源和目标视频对齐到域不变的图形特征空间中。我们的方法没有存储大量的子视频,而是仅构建一个图形,其中一个视频的图形注意机制,从而大大降低了内存成本。广泛的实验表明,与最先进的方法相比,我们在降低内存成本的同时取得了卓越的性能。
translated by 谷歌翻译
Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.
translated by 谷歌翻译
基于骨架的动作识别广泛用于各种区域,例如监视和人机相互作用。现有模型主要以监督方式学习,从而根据标签昂贵时可能是不可行的大规模标记数据。在本文中,我们提出了一种新的对比度重建表示学习网络(CRRL),其同时为无监督的基于骨架的动作识别捕获姿势和运动动力学。它主要由三部分组成:序列重建器,对比运动学习者和信息定影器。序列重建者通过重建学习从骨架坐标序列的表示,因此学习的表示倾向于聚焦在琐碎的姿势坐标上并且在运动学习中犹豫不决。为了增强运动的学习,对比运动学习者分别在从坐标序列和附加速度序列中学到的表示之间进行对比学习。最后,在信息定位器中,我们探讨了将序列重建器和对比运动学习者结合的各种策略,并建议通过基于知识蒸馏的融合策略同时捕获姿势和动作,从而将动作学习从对比运动学习者转移到序列中的序列重建者。在若干基准测试中,即NTU RGB + D 60,NTU RGB + D 120,CMU Mocap和NW-UCLA的实验结果证明了所提出的CRRL方法​​的承诺,到目前为止的现有方法。
translated by 谷歌翻译