目前,现有的步态识别系统专注于从轮廓图像中提取强大的步态特征的开发方法,他们确实取得了巨大的成功。然而,步态可以对衣服和携带物品等外观特征敏感。与基于外观的方法相比,由于对这些变化的稳健性,基于模型的步态识别是有前途的。近年来,随着人类姿势估计的发展,基于模型的步态识别方法的难度已被减轻。在本文中,为了抵抗受试者的增加和视图变化,建立了局部特征,提出了暹罗网络以最大化来自相同主题的样本的距离。我们利用近期行动识别的进步将人类姿势序列嵌入到向量中,并引入空间 - 时间图卷积块(STGCB),该卷积块(STGCB)已经过去用于步态识别的动作识别。在名为OuMVLP-POSE的非常大的人口数据集的实验和流行的DataSet,Casia-B,表明我们的方法在基于模型的步态识别中归档一些最先进的(SOTA)性能。我们的方法的代码和模型可在接受后的https://github.com/timelesnive/gait-for-large-dataset中获得。
translated by 谷歌翻译
步态识别旨在通过相机来识别一个距离的人。随着深度学习的出现,步态识别的重大进步通过使用深度学习技术在许多情况下取得了鼓舞人心的成功。然而,对视频监视的越来越多的需求引入了更多的挑战,包括在各种方差下进行良好的识别,步态序列中的运动信息建模,由于协议方差,生物量标准安全性和预防隐私而引起的不公平性能比较。本文对步态识别的深度学习进行了全面的调查。我们首先介绍了从传统算法到深层模型的步态识别的奥德赛,从而提供了对步态识别系统的整个工作流程的明确知识。然后,从深度表示和建筑的角度讨论了步态识别的深入学习,并深入摘要。具体而言,深层步态表示分为静态和动态特征,而深度体系结构包括单流和多流架构。遵循我们提出的新颖性分类法,它可能有益于提供灵感并促进对步态认识的感知。此外,我们还提供了所有基于视觉的步态数据集和性能分析的全面摘要。最后,本文讨论了一些潜在潜在前景的开放问题。
translated by 谷歌翻译
基于模型的步态识别方法通常采用行人步行姿势来识别人类。但是,由于摄像头视图的改变,现有方法并未明确解决人类姿势的较大阶层差异。在本文中,我们建议通过通过低UPPER生成的对抗网络(Lugan)学习全级转换矩阵来为每个单视姿势样本生成多视图姿势序列。通过摄像机成像的先验,我们得出的是,跨视图之间的空间坐标满足了全级矩阵的线性转换,因此,本文采用了对抗性训练来从源姿势学习转换矩阵,并获得目标视图以获得目标。目标姿势序列。为此,我们实现了由图形卷积(GCN)层组成的发电机,完全连接(FC)层和两支分支卷积(CNN)层:GCN层和FC层编码源姿势序列和目标视图,然后是CNN分支最后,分别学习一个三角形基质和上三角基质,最后它们被乘以制定全级转换矩阵。出于对抗训练的目的,我们进一步设计了一个条件鉴别因子,该条件区分姿势序列是真实的还是产生的。为了启用高级相关性学习,我们提出了一个名为Multi尺度超图卷积(HGC)的插件播放模块,以替换基线中的空间图卷积层,该层可以同时模拟联合级别的部分,部分部分 - 水平和身体水平的相关性。在两个大型步态识别数据集(即CASIA-B和OUMVLP置位)上进行的广泛实验表明,我们的方法的表现优于基线模型,并以一个较大的边距基于基于姿势的方法。
translated by 谷歌翻译
作为一种新兴的生物识别技术,基于视觉的步态鉴定是生物识别中的重要研究含量。大多数现有的步态识别方法从步态视频提取特征,并通过库中的查询识别探测样本。然而,视频数据包含冗余信息,并且可以容易地受到袋装(BG)和衣服(CL)的影响。由于人体骨架传达了有关人类Gaits的基本信息,因此我们的项目中提出了一种基于骨架的步态识别网络。首先,从视频中提取骨架序列并将它们映射到步态图中。然后,构建基于时空图卷积网络(ST-GCN)的特征提取网络以学习步态表示。最后,通过与画廊中最相似的碎片匹配来识别探针样品。我们在Casia-B数据集上测试了我们的方法。结果表明,我们的方法是高度自适应,并获得BG,CL条件和平均的先进结果。
translated by 谷歌翻译
图表卷积网络(GCNS)的方法在基于骨架的动作识别任务上实现了高级性能。然而,骨架图不能完全代表骨架数据中包含的运动信息。此外,基于GCN的方法中的骨架图的拓扑是根据自然连接手动设置的,并且它为所有样本都固定,这不能很好地适应不同的情况。在这项工作中,我们提出了一种新的动态超图卷积网络(DHGCN),用于基于骨架的动作识别。 DHGCN使用超图来表示骨架结构,以有效利用人类关节中包含的运动信息。根据其移动动态地分配了骨架超图中的每个接头,并且我们模型中的超图拓扑可以根据关节之间的关系动态调整到不同的样本。实验结果表明,我们的模型的性能在三个数据集中实现了竞争性能:动力学 - 骨架400,NTU RGB + D 60和NTU RGB + D 120。
translated by 谷歌翻译
步态情绪识别在智能系统中起着至关重要的作用。大多数现有方法通过随着时间的推移专注于当地行动来识别情绪。但是,他们忽略了时间域中不同情绪的有效距离是不同的,而且步行过程中的当地行动非常相似。因此,情绪应由全球状态而不是间接的本地行动代表。为了解决这些问题,这项工作通过构建动态的时间接受场并设计多尺度信息聚集以识别情绪,从而在这项工作中介绍了新型的多量表自适应图卷积网络(MSA-GCN)。在我们的模型中,自适应选择性时空图卷积旨在动态选择卷积内核,以获得不同情绪的软时空特征。此外,跨尺度映射融合机制(CSFM)旨在构建自适应邻接矩阵,以增强信息相互作用并降低冗余。与以前的最先进方法相比,所提出的方法在两个公共数据集上实现了最佳性能,将地图提高了2 \%。我们还进行了广泛的消融研究,以显示不同组件在我们的方法中的有效性。
translated by 谷歌翻译
步态识别的关键目标是从步态序列中获取框架间的步行习惯代表。但是,与框架内特征相比,框架之间的关系尚未得到足够的关注。在本文中,出于光流的动​​机,提出了双边运动导向的特征,这可以使经典的卷积结构具有直接在功能级别上直接描绘步态运动模式的能力。基于此类特征,我们开发了一组多尺度的时间表示,迫使运动上下文在各个时间分辨率上都可以丰富描述。此外,设计了一个校正块,以消除轮廓的分割噪声,以获取更精确的步态信息。随后,将时间特征集和空间特征组合在一起,以全面地表征步态过程。广泛的实验是在CASIA-B和OU-MVLP数据集上进行的,结果实现了出色的识别性能,这证明了该方法的有效性。
translated by 谷歌翻译
Dynamics of human body skeletons convey significant information for human action recognition. Conventional approaches for modeling skeletons usually rely on hand-crafted parts or traversal rules, thus resulting in limited expressive power and difficulties of generalization. In this work, we propose a novel model of dynamic skeletons called Spatial-Temporal Graph Convolutional Networks (ST-GCN), which moves beyond the limitations of previous methods by automatically learning both the spatial and temporal patterns from data. This formulation not only leads to greater expressive power but also stronger generalization capability. On two large datasets, Kinetics and NTU-RGBD, it achieves substantial improvements over mainstream methods.
translated by 谷歌翻译
人的步态被认为是一种独特的生物识别标识符,其可以在距离处以覆盖方式获取。但是,在受控场景中捕获的现有公共领域步态数据集接受的模型导致应用于现实世界无约束步态数据时的剧烈性能下降。另一方面,视频人员重新识别技术在大规模公共可用数据集中实现了有希望的性能。鉴于服装特性的多样性,衣物提示对于人们的认可不可靠。因此,实际上尚不清楚为什么最先进的人重新识别方法以及他们的工作。在本文中,我们通过从现有的视频人重新识别挑战中提取剪影来构建一个新的步态数据集,该挑战包括1,404人以不受约束的方式行走。基于该数据集,可以进行步态认可与人重新识别之间的一致和比较研究。鉴于我们的实验结果表明,目前在受控情景收集的数据下设计的目前的步态识别方法不适合真实监视情景,我们提出了一种名为Realgait的新型步态识别方法。我们的结果表明,在实际监视情景中识别人的步态是可行的,并且潜在的步态模式可能是视频人重新设计在实践中的真正原因。
translated by 谷歌翻译
图形卷积网络由于非欧几里得数据的出色建模能力而广泛用于基于骨架的动作识别。由于图形卷积是局部操作,因此它只能利用短距离关节依赖性和短期轨迹,但无法直接建模遥远的关节关系和远程时间信息,这些信息对于区分各种动作至关重要。为了解决此问题,我们提出了多尺度的空间图卷积(MS-GC)模块和一个多尺度的时间图卷积(MT-GC)模块,以在空间和时间尺寸中丰富模型的接受场。具体而言,MS-GC和MT-GC模块将相应的局部图卷积分解为一组子图形卷积,形成了层次的残差体系结构。在不引入其他参数的情况下,该功能将通过一系列子图卷积处理,每个节点都可以与其邻域一起完成多个空间和时间聚集。因此,最终的等效接收场被扩大,能够捕获空间和时间域中的短期和远程依赖性。通过将这两个模块耦合为基本块,我们进一步提出了一个多尺度的空间时间图卷积网络(MST-GCN),该网络(MST-GCN)堆叠了多个块以学习有效的运动表示行动识别的运动表示。拟议的MST-GCN在三个具有挑战性的基准数据集(NTU RGB+D,NTU-1220 RGB+D和动力学 - 骨骼)上实现了出色的性能,用于基于骨架的动作识别。
translated by 谷歌翻译
步态识别能够实现长途且无接触式识别,是一项重要的生物识别技术。最近的步态识别方法着重于学习步行过程中人类运动或外观的模式,并构建相应的时空表示。但是,不同的个体有自己的运动模式定律,简单的时空特征很难描述人类部位运动的变化,尤其是当包括服装和携带等混淆变量时,可以降低特征的区分性。在本文中,我们提出了运动激发模块(MEM)来指导时空特征,以专注于具有较大动态变化的人类部位,MEM了解框架和间隔之间的差异信息,以获得时间运动变化的表示形式,值得一提的是,MEM可以适应不确定长度的帧序列,并且不会添加任何其他参数。此外,我们提出了精细的提取器(FFE),该提取器(FFE)独立地根据个体的不同水平部分学习人体的时空表示。受益于MEM和FFE,我们的方法创新地结合了运动变化信息,从而显着改善了在跨外观条件下模型的性能。在流行的数据集Casia-B上,我们提出的运动步态比现有的步态识别方法更好。
translated by 谷歌翻译
步态识别是一项重要的识别技术,因为步态不容易伪装,也不需要合作来识别受试者。但是,许多现有方法在保留时间信息和细粒度信息方面不足,从而减少了其歧视。当发现具有类似步行姿势的受试者时,这个问题更为严重。在本文中,我们试图增强从两个方面的时空步态特征的区分:有效提取时空步态特征和合理的提取特征细化。因此,提出了我们的方法,它由时空特征提取(SFE)和全局距离比对(GDA)组成。 SFE使用时间特征融合(TFF)和细粒特征提取(FFE),从原始轮廓中有效提取时空特征。 GDA在现实生活中使用大量未标记的步态数据作为优化提取的时空特征的基准。 GDA可以使提取的特征具有较低的阶层间相似性和高层的相似性,从而增强了它们的歧视。对Mini-OUMVLP和CASIA-B进行了广泛的实验,证明我们比某些最新方法的结果更好。
translated by 谷歌翻译
现有的步态识别研究以实验室场景为主。由于人们生活在现实世界中,因此野外的步态识别是一个更实用的问题,最近引起了多媒体和计算机视觉社区的关注。在现有基准上获得最先进性能的当前方法在最近提出的野外数据集上的准确性差得多,因为这些方法几乎无法模拟不受约束场景中步态序列的各种时间动力学。因此,本文提出了一种新型的多跳时间开关方法,以实现实际场景中步态模式的有效时间建模。具体来说,我们设计了一个新型的步态识别网络,称为多跳临时交换机网络(MTSGait),以同时学习空间特征和多尺度的时间功能。与现有的3D卷积进行时间建模的方法不同,我们的MTSGAIT通过2D卷积对步态序列的时间动力学进行建模。通过这种方式,与基于3D卷积的模型相比,它以较少的模型参数来达到高效率,并减少了优化的难度。基于2D卷积内核的特定设计,我们的方法可以消除相邻帧之间特征的不对准。此外,提出了一种新的采样策略,即非环保连续采样,以使模型学习更强大的时间特征。最后,与最新方法相比,提出的方法在两个公共步态数据集(即增长和步态3D)上取得了出色的性能。
translated by 谷歌翻译
由于其轻质和紧凑的特性,骨架序列广泛用于动作识别任务。最近的图表卷积网络(GCN)方法为基于骨架的动作识别取得了巨大的成功,因为它的非欧几里德数据的感激建模能力。 GCN能够利用短程关节依赖性,同时缺乏直接模拟对区分各种行动至关重要的遥感关节关系。因此,许多GCN方法尝试采用分层机制来聚合更广泛的邻域信息。我们提出了一种基于新颖的自我关注的骨架锚提案(SAP)模块,全面模拟人体的内部关系进行运动特征学习。所提出的SAP模块旨在利用通过编码高阶角度信息的三联网形式而不是现有的分层GCN方法中使用的固定对骨连接来探讨人体内的固有关系。基于自我注意的锚选择方法设计在所提出的SAP模块中,用于提取编码角信息的根点。通过耦合具有流行空间 - 时间图神经网络的所提出的SAP模块,例如, MSG3D,它在具有挑战性的基准数据集上实现了新的最先进的准确性。进一步的消融研究表明了我们所提出的SAP模块的有效性,能够明显提高许多流行的基于骨架的动作识别方法的性能。
translated by 谷歌翻译
步态识别是指根据人的身体形状和步行方式对人的识别或识别,这些视频数据是从远处捕获的视频数据中得出的,被广泛用于预防犯罪,法医身份和社会保障中。但是,据我们所知,大多数现有方法都使用外观,姿势和时间feautures,而无需考虑用于全球和局部信息融合的学习时间关注机制。在本文中,我们提出了一个新型的步态识别框架,称为“时间关注”和“关键”引导的嵌入(Gaittake),该框架有效地融合了基于时间注意的全球和局部外观特征以及时间聚集的人类姿势特征。实验结果表明,我们所提出的方法在步态识别中获得了新的SOTA,排名1的准确性为98.0%(正常),97.5%(袋)和92.2%(涂层)(涂层)在CASIA-B GAIT数据集中;OU-MVLP步态数据集的精度为90.4%。
translated by 谷歌翻译
现有的步态识别方法要么直接从原始步态序列建立全局特征表示(GFR),要么从几个本地部分生成本地特征表示(LFR)。但是,随着在更深层次的网络层中,GFR倾向于忽略人类姿势的局部细节。尽管LFR允许网络专注于每个局部区域的详细姿势信息,但它忽略了不同地方部分之间的关​​系,因此仅利用了几个特定区域的有限本地信息。为了解决这些问题,我们提出了一个名为GaitGL的基于全球的步态识别网络,以生成更具歧视性的特征表示。具体来说,开发了一个新颖的全球和局部卷积层(GLCL),以充分利用每一层中的全局视觉信息和局部区域细节。 GLCL是一种双支分支结构,由GFR提取器和基于掩模的LFR提取器组成。 GFR提取器旨在提取上下文信息,例如各个身体部位之间的关系,并提出了基于掩码的LFR提取器,以利用当地区域的详细姿势变化。此外,我们引入了一种基于面膜的新型策略,以提高局部特征提取能力。具体而言,我们设计了一对互补口罩以随机遮住特征图,然后在各种封闭的特征图上训练我们的基于面具的LFR提取器。通过这种方式,LFR提取器将学会完全利用本地信息。广泛的实验表明,步态比最先进的步态识别方法更好。 CASIA-B,OU-MVLP,增长和GAIT3D的平均排名准确性分别为93.6%,98.7%,68.0%和63.8%,明显优于竞争方法。拟议的方法在两场比赛中赢得了一等奖:HID 2020和HID 2021。
translated by 谷歌翻译
现有的基于3D骨架的动作识别方法通过将手工制作的动作功能编码为图像格式和CNN解码,从而达到了令人印象深刻的性能。但是,这种方法在两种方面受到限制:a)手工制作的动作功能很难处理具有挑战性的动作,b)通常需要复杂的CNN模型来提高动作识别精度,这通常会发生重大计算负担。为了克服这些局限性,我们引入了一种新颖的AFE-CNN,它致力于增强基于3D骨架的动作的特征,以适应具有挑战性的动作。我们提出了功能增强从关键关节,骨向量,关键框架和时间视角的模块,因此,AFE-CNN对摄像头视图和车身大小变化更为强大,并显着提高了对挑战性动作的识别精度。此外,我们的AFE-CNN采用了轻巧的CNN模型以增强动作功能来解码图像,从而确保了比最新方法低得多的计算负担。我们在三个基于基准骨架的动作数据集上评估了AFE-CNN:NTU RGB+D,NTU RGB+D 120和UTKINECT-ACTION3D,并取得了广泛的实验结果,这表明我们对AFE-CNN的出色表现。
translated by 谷歌翻译
步态识别旨在识别个人特定的步行模式,这高度取决于观察到每个身体部分的不同周期运动。但是,大多数现有方法都平等处理每个部分,并忽略了由于步态序列的高采样率而忽略了数据冗余。在这项工作中,我们提出了一个细粒运动表示网络(GAITFM),以提高三个方面的步态识别性能。首先,细粒部分序列学习(FPSL)模块旨在探索独立于部分的时空表示。其次,一种称为局部运动聚集(LMA)的框架压缩策略用于增强运动变化。最后,加权的广义平均池(WGEM)层可自适应地在空间下采样中保持更多的判别信息。在两个公共数据集Casia-B和OUMVLP上进行的实验表明,我们的方法达到了最先进的表现。在CASIA-B数据集上,我们的方法可实现正常步行,袋装行走和带外套行走的98.0%,95.7%和87.9%的排名1精度。在OUMVLP数据集上,我们的方法的排名准确性为90.5%。
translated by 谷歌翻译
图形卷积网络(GCN)优于基于骨架的人类动作识别领域的先前方法,包括人类的互动识别任务。但是,在处理相互作用序列时,基于GCN的当前方法只需将两人骨架分为两个离散序列,然后以单人动作分类的方式分别执行图形卷积。这种操作忽略了丰富的交互信息,并阻碍了语义模式学习的有效空间关系建模。为了克服上述缺点,我们引入了一个新型的统一的两人图,代表关节之间的空间相互作用相关性。此外,提出了适当设计的图形标记策略,以使我们的GCN模型学习判别时空交互特征。实验显示了使用拟议的两人图形拓扑时的相互作用和单个动作的准确性提高。最后,我们提出了一个两人的图形卷积网络(2P-GCN)。提出的2P-GCN在三个相互作用数据集(SBU,NTU-RGB+D和NTU-RGB+D 120)的四个基准测试基准上获得了最新结果。
translated by 谷歌翻译
基于骨架的人类行动识别是由于其复杂的动态而是一项长期挑战。动态的一些细颗粒细节在分类中起着至关重要的作用。现有的工作主要集中在设计带有更复杂的相邻矩阵的增量神经网络上,以捕获关节关系的细节。但是,他们仍然很难区分具有广泛相似运动模式但属于不同类别的动作。有趣的是,我们发现运动模式上的细微差异可以显着放大,并且可以轻松地通过指定的视图方向来区分观众,在这些方向上,该属性以前从未得到充分探索。与以前的工作截然不同,我们通过提出一种概念上简单而有效的多视图策略来提高性能,该策略从一系列动态视图功能中识别动作。具体而言,我们设计了一个新颖的骨骼锚定建议(SAP)模块,该模块包含一个多头结构来学习一组视图。为了学习不同观点的特征学习,我们引入了一个新的角度表示,以在不同视图下的动作转换并将转换归因于基线模型。我们的模块可以与现有的动作分类模型无缝合作。与基线模型合并,我们的SAP模块在许多具有挑战性的基准上展示了明显的性能增长。此外,全面的实验表明,我们的模型始终击败了最新的实验,并且在处理损坏的数据时保持有效和健壮。相关代码将在https://github.com/ideal-idea/sap上提供。
translated by 谷歌翻译