步态描绘了个人独特而区别的步行模式,并已成为人类识别最有希望的生物识别特征之一。作为一项精细的识别任务,步态识别很容易受到许多因素的影响,并且通常需要大量完全注释的数据,这些数据是昂贵且无法满足的。本文提出了一个大规模的自我监督基准,以通过对比度学习进行步态识别,旨在通过提供信息丰富的步行先验和各种现实世界中的多样化的变化,从大型的无标记的步行视频中学习一般步态代表。具体而言,我们收集了一个由1.02m步行序列组成的大规模的无标记的步态数据集gaitu-1m,并提出了一个概念上简单而经验上强大的基线模型步态。在实验上,我们在四个广泛使用的步态基准(Casia-B,Ou-Mvlp,Grew and Grew and Gait3d)上评估了预训练的模型,或者在不转移学习的情况下。无监督的结果与基于早期模型和基于GEI的早期方法相当甚至更好。在转移学习后,我们的方法在大多数情况下都超过现有方法。从理论上讲,我们讨论了步态特异性对比框架的关键问题,并提供了一些进一步研究的见解。据我们所知,Gaitlu-1M是第一个大规模未标记的步态数据集,而GaitSSB是第一种在上述基准测试基准上取得显着无监督结果的方法。 GaitSSB的源代码将集成到OpenGait中,可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
步态识别旨在通过相机来识别一个距离的人。随着深度学习的出现,步态识别的重大进步通过使用深度学习技术在许多情况下取得了鼓舞人心的成功。然而,对视频监视的越来越多的需求引入了更多的挑战,包括在各种方差下进行良好的识别,步态序列中的运动信息建模,由于协议方差,生物量标准安全性和预防隐私而引起的不公平性能比较。本文对步态识别的深度学习进行了全面的调查。我们首先介绍了从传统算法到深层模型的步态识别的奥德赛,从而提供了对步态识别系统的整个工作流程的明确知识。然后,从深度表示和建筑的角度讨论了步态识别的深入学习,并深入摘要。具体而言,深层步态表示分为静态和动态特征,而深度体系结构包括单流和多流架构。遵循我们提出的新颖性分类法,它可能有益于提供灵感并促进对步态认识的感知。此外,我们还提供了所有基于视觉的步态数据集和性能分析的全面摘要。最后,本文讨论了一些潜在潜在前景的开放问题。
translated by 谷歌翻译
步态是长距离识别个体的最有前途的生物识别技术之一。尽管大多数以前的方法都集中在识别轮廓上,但直接从RGB图像中提取步态特征的几种端到端方法表现更好。但是,我们证明了这些端到端方法可能不可避免地会遭受步态液化的噪音,即低级纹理和丰富多彩的信息。在实验上,我们设计了跨域评估以支持这种观点。在这项工作中,我们提出了一个名为Gaitedge的新颖端到端框架,该框架可以有效地阻止步态 - 近距离信息并发布端到端训练潜力。具体而言,Gaitede合成了行人分割网络的输出,然后将其馈送到随后的识别网络中,在该网络中,合成轮廓由身体的可训练边缘和固定内部室内装饰组成,以限制识别网络接收的信息。此外,对齐轮廓的步态嵌入了盖地,而不会失去不同的性能。关于CASIA-B和我们新建的TTG-200的实验结果表明,Gaitedge明显优于先前的方法,并提供了更实用的端到端范式。所有源代码均可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
人的步态被认为是一种独特的生物识别标识符,其可以在距离处以覆盖方式获取。但是,在受控场景中捕获的现有公共领域步态数据集接受的模型导致应用于现实世界无约束步态数据时的剧烈性能下降。另一方面,视频人员重新识别技术在大规模公共可用数据集中实现了有希望的性能。鉴于服装特性的多样性,衣物提示对于人们的认可不可靠。因此,实际上尚不清楚为什么最先进的人重新识别方法以及他们的工作。在本文中,我们通过从现有的视频人重新识别挑战中提取剪影来构建一个新的步态数据集,该挑战包括1,404人以不受约束的方式行走。基于该数据集,可以进行步态认可与人重新识别之间的一致和比较研究。鉴于我们的实验结果表明,目前在受控情景收集的数据下设计的目前的步态识别方法不适合真实监视情景,我们提出了一种名为Realgait的新型步态识别方法。我们的结果表明,在实际监视情景中识别人的步态是可行的,并且潜在的步态模式可能是视频人重新设计在实践中的真正原因。
translated by 谷歌翻译
In this paper, we are interested in learning a generalizable person re-identification (re-ID) representation from unlabeled videos. Compared with 1) the popular unsupervised re-ID setting where the training and test sets are typically under the same domain, and 2) the popular domain generalization (DG) re-ID setting where the training samples are labeled, our novel scenario combines their key challenges: the training samples are unlabeled, and collected form various domains which do no align with the test domain. In other words, we aim to learn a representation in an unsupervised manner and directly use the learned representation for re-ID in novel domains. To fulfill this goal, we make two main contributions: First, we propose Cycle Association (CycAs), a scalable self-supervised learning method for re-ID with low training complexity; and second, we construct a large-scale unlabeled re-ID dataset named LMP-video, tailored for the proposed method. Specifically, CycAs learns re-ID features by enforcing cycle consistency of instance association between temporally successive video frame pairs, and the training cost is merely linear to the data size, making large-scale training possible. On the other hand, the LMP-video dataset is extremely large, containing 50 million unlabeled person images cropped from over 10K Youtube videos, therefore is sufficient to serve as fertile soil for self-supervised learning. Trained on LMP-video, we show that CycAs learns good generalization towards novel domains. The achieved results sometimes even outperform supervised domain generalizable models. Remarkably, CycAs achieves 82.2% Rank-1 on Market-1501 and 49.0% Rank-1 on MSMT17 with zero human annotation, surpassing state-of-the-art supervised DG re-ID methods. Moreover, we also demonstrate the superiority of CycAs under the canonical unsupervised re-ID and the pretrain-and-finetune scenarios.
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
布换人员重新识别(CC-REID)旨在在长时间匹配不同地点的同一个人,例如,超过日子,因此不可避免地满足换衣服的挑战。在本文中,我们专注于处理更具有挑战性的环境下的CC-Reid问题,即,只有一个图像,它可以实现高效和延迟的行人确定实时监控应用。具体而言,我们将步态识别作为辅助任务来驱动图像Reid模型来通过利用个人独特和独立布的步态信息来学习布不可知的表现,我们将此框架命名为Gi-Reid。 Gi-Reid采用两流架构,该架构由图像Reid-Stream和辅助步态识别流(步态流)组成。在推理的高计算效率中丢弃的步态流充当调节器,以鼓励在训练期间捕获捕获布不变的生物识别运动特征。为了从单个图像获取时间连续运动提示,我们设计用于步态流的步态序列预测(GSP)模块,以丰富步态信息。最后,为有效的知识正则化强制执行两个流的高级语义一致性。基于多种图像的布更换Reid基准测试的实验,例如LTCC,PRCC,Real28和VC衣服,证明了GI-REID对最先进的人来说。代码在https://github.com/jinx-ustc/gi -reid提供。
translated by 谷歌翻译
步态识别的关键目标是从步态序列中获取框架间的步行习惯代表。但是,与框架内特征相比,框架之间的关系尚未得到足够的关注。在本文中,出于光流的动​​机,提出了双边运动导向的特征,这可以使经典的卷积结构具有直接在功能级别上直接描绘步态运动模式的能力。基于此类特征,我们开发了一组多尺度的时间表示,迫使运动上下文在各个时间分辨率上都可以丰富描述。此外,设计了一个校正块,以消除轮廓的分割噪声,以获取更精确的步态信息。随后,将时间特征集和空间特征组合在一起,以全面地表征步态过程。广泛的实验是在CASIA-B和OU-MVLP数据集上进行的,结果实现了出色的识别性能,这证明了该方法的有效性。
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
现有的步态识别研究以实验室场景为主。由于人们生活在现实世界中,因此野外的步态识别是一个更实用的问题,最近引起了多媒体和计算机视觉社区的关注。在现有基准上获得最先进性能的当前方法在最近提出的野外数据集上的准确性差得多,因为这些方法几乎无法模拟不受约束场景中步态序列的各种时间动力学。因此,本文提出了一种新型的多跳时间开关方法,以实现实际场景中步态模式的有效时间建模。具体来说,我们设计了一个新型的步态识别网络,称为多跳临时交换机网络(MTSGait),以同时学习空间特征和多尺度的时间功能。与现有的3D卷积进行时间建模的方法不同,我们的MTSGAIT通过2D卷积对步态序列的时间动力学进行建模。通过这种方式,与基于3D卷积的模型相比,它以较少的模型参数来达到高效率,并减少了优化的难度。基于2D卷积内核的特定设计,我们的方法可以消除相邻帧之间特征的不对准。此外,提出了一种新的采样策略,即非环保连续采样,以使模型学习更强大的时间特征。最后,与最新方法相比,提出的方法在两个公共步态数据集(即增长和步态3D)上取得了出色的性能。
translated by 谷歌翻译
通过3D骨骼重新识别人的重新识别(RE-ID)是一个重要的新兴话题,具有许多优点。现有的解决方案很少探索骨骼结构或运动中有价值的身体成分关系,并且它们通常缺乏通过无标记的骨骼数据来学习人Re-ID的通用表示的能力。本文提出了一个通用的无监督骨骼原型对比度学习范式,其多级图关系学习(SPC-MGR),以从无标记的骨骼中学习有效的表示,以执行人员重新ID。具体而言,我们首先构建统一的多级骨架图,以完全模拟骨骼内的身体结构。然后,我们提出了一个多头结构关系层,以全面捕获图中物理连接的身体分量节点的关系。利用全层协作关系层来推断与运动相关的身体部位之间的协作,以捕获丰富的身体特征和可识别的步行模式。最后,我们提出了一个骨骼原型对比学习方案,该方案具有未标记的图表表达的相关实例,并将其固有的相似性与代表性的骨骼特征(“骨架原型”)进行对比,以学习人重新ID的歧视性骨骼表示。经验评估表明,SPC-MGR明显优于几种基于最新的骨架方法,并且还可以实现竞争激烈的人重新绩效,以实现更多的一般情况。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
步态识别在预防犯罪和社会保障方面起了重要作用,因为它可以在不合作的情况下以远距离进行。但是,现有的数据集和方法无法有效地处理实际步态识别中最具挑战性的问题:穿着不同的衣服行走(CL)。为了解决这个问题,我们提出了两个基准:CASIA-BN-RCC和OUMVLP-RCC,以模拟实践中的布换状态。这两个基准可以迫使该算法与两个子数据集实现交叉视图和交叉插入。此外,我们提出了一个新框架,可以使用现成的骨干进行应用,以在渐进式功能学习中改善其在逼真的换衣服问题中的性能。具体而言,在我们的框架中,我们设计了渐进式映射和渐进的不确定性,以提取交叉视图功能,然后根据基础提取交叉插入功能。通过这种方式,跨视图子数据库的特征首先可以主导特征空间,并缓解由跨夹子子数据库的不良效应引起的不均匀分布。基准上的实验表明,我们的框架可以有效地改善CL条件下的识别性能。接受后,我们的代码和数据集将在接受后发布。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
由于其前所未有的优势,在规模,移动,部署和隐蔽观察能力方面,空中平台和成像传感器的快速出现是实现新的空中监测形式。本文从计算机视觉和模式识别的角度来看,全面概述了以人为本的空中监控任务。它旨在为读者提供使用无人机,无人机和其他空中平台的空中监测任务当前状态的深入系统审查和技术分析。感兴趣的主要对象是人类,其中要检测单个或多个受试者,识别,跟踪,重新识别并进行其行为。更具体地,对于这四项任务中的每一个,我们首先讨论与基于地面的设置相比在空中环境中执行这些任务的独特挑战。然后,我们审查和分析公共可用于每项任务的航空数据集,并深入了解航空文学中的方法,并调查他们目前如何应对鸟瞰挑战。我们在讨论缺失差距和开放研究问题的讨论中得出结论,告知未来的研究途径。
translated by 谷歌翻译
Person recognition at a distance entails recognizing the identity of an individual appearing in images or videos collected by long-range imaging systems such as drones or surveillance cameras. Despite recent advances in deep convolutional neural networks (DCNNs), this remains challenging. Images or videos collected by long-range cameras often suffer from atmospheric turbulence, blur, low-resolution, unconstrained poses, and poor illumination. In this paper, we provide a brief survey of recent advances in person recognition at a distance. In particular, we review recent work in multi-spectral face verification, person re-identification, and gait-based analysis techniques. Furthermore, we discuss the merits and drawbacks of existing approaches and identify important, yet under explored challenges for deploying remote person recognition systems in-the-wild.
translated by 谷歌翻译
对比学习在视频表示学习中表现出了巨大的潜力。但是,现有方法无法充分利用短期运动动态,这对于各种下游视频理解任务至关重要。在本文中,我们提出了运动敏感的对比度学习(MSCL),该学习将光学流捕获的运动信息注入RGB帧中,以增强功能学习。为了实现这一目标,除了剪辑级全球对比度学习外,我们还开发了局部运动对比度学习(LMCL),具有两种模式的框架级对比目标。此外,我们引入流动旋转增强(FRA),以生成额外的运动除件负面样品和运动差分采样(MDS)以准确筛选训练样品。对标准基准测试的广泛实验验证了该方法的有效性。以常用的3D RESNET-18为骨干,我们在UCF101上获得了91.5 \%的前1个精度,而在视频分类中进行了一些v2的v2,以及65.6 \%的top-1 top-1召回ucf1011对于视频检索,特别是改善了最新的。
translated by 谷歌翻译
现有的步态识别方法要么直接从原始步态序列建立全局特征表示(GFR),要么从几个本地部分生成本地特征表示(LFR)。但是,随着在更深层次的网络层中,GFR倾向于忽略人类姿势的局部细节。尽管LFR允许网络专注于每个局部区域的详细姿势信息,但它忽略了不同地方部分之间的关​​系,因此仅利用了几个特定区域的有限本地信息。为了解决这些问题,我们提出了一个名为GaitGL的基于全球的步态识别网络,以生成更具歧视性的特征表示。具体来说,开发了一个新颖的全球和局部卷积层(GLCL),以充分利用每一层中的全局视觉信息和局部区域细节。 GLCL是一种双支分支结构,由GFR提取器和基于掩模的LFR提取器组成。 GFR提取器旨在提取上下文信息,例如各个身体部位之间的关系,并提出了基于掩码的LFR提取器,以利用当地区域的详细姿势变化。此外,我们引入了一种基于面膜的新型策略,以提高局部特征提取能力。具体而言,我们设计了一对互补口罩以随机遮住特征图,然后在各种封闭的特征图上训练我们的基于面具的LFR提取器。通过这种方式,LFR提取器将学会完全利用本地信息。广泛的实验表明,步态比最先进的步态识别方法更好。 CASIA-B,OU-MVLP,增长和GAIT3D的平均排名准确性分别为93.6%,98.7%,68.0%和63.8%,明显优于竞争方法。拟议的方法在两场比赛中赢得了一等奖:HID 2020和HID 2021。
translated by 谷歌翻译
步态识别能够实现长途且无接触式识别,是一项重要的生物识别技术。最近的步态识别方法着重于学习步行过程中人类运动或外观的模式,并构建相应的时空表示。但是,不同的个体有自己的运动模式定律,简单的时空特征很难描述人类部位运动的变化,尤其是当包括服装和携带等混淆变量时,可以降低特征的区分性。在本文中,我们提出了运动激发模块(MEM)来指导时空特征,以专注于具有较大动态变化的人类部位,MEM了解框架和间隔之间的差异信息,以获得时间运动变化的表示形式,值得一提的是,MEM可以适应不确定长度的帧序列,并且不会添加任何其他参数。此外,我们提出了精细的提取器(FFE),该提取器(FFE)独立地根据个体的不同水平部分学习人体的时空表示。受益于MEM和FFE,我们的方法创新地结合了运动变化信息,从而显着改善了在跨外观条件下模型的性能。在流行的数据集Casia-B上,我们提出的运动步态比现有的步态识别方法更好。
translated by 谷歌翻译