无监督的视频人重新识别(Reid)方法通常取决于全局级别功能。许多监督的Reid方法采用了本地级别的功能,并实现了显着的性能改进。但是,将本地级别的功能应用于无监督的方法可能会引入不稳定的性能。为了提高无监督视频REID的性能稳定,本文介绍了一般方案融合零件模型和无监督的学习。在该方案中,全局级别功能分为等于的本地级别。用于探索无监督学习的本地感知模块以探索对本地级别功能的概括。建议克服本地级别特征的缺点来克服全局感知模块。来自这两个模块的功能融合以形成每个输入图像的鲁棒特征表示。此特征表示具有本地级别功能的优点,而不会遭受其缺点。综合实验是在三个基准上进行的,包括PRID2011,ILIDS-VID和Dukemtmc-Videoreid,结果表明,该方法实现了最先进的性能。广泛的消融研究证明了所提出的计划,本地感知模块和全局感知模块的有效性和稳健性。
translated by 谷歌翻译
人重新识别(Reid)任务中存在许多具有挑战性的问题,例如遮挡和比例变化。现有的作品通常试图通过使用单分支网络来解决这些问题。这一分支网络需要对各种具有挑战性的问题强大,这使得该网络覆盖。本文建议分割和征服Reid任务。为此目的,我们采用了几种自我监督操作来模拟不同的具有挑战性问题,并使用不同的网络处理每个具有挑战性的问题。具体地,我们使用随机擦除操作并提出一种新的随机缩放操作来产生具有可控特性的新图像。介绍了一般的多分支网络,包括一个主分支和两个仆人分支,以处理不同的场景。这些分支机构学习协同性并实现不同的感知能力。通过这种方式,Reid任务中的复杂场景得到有效地解散,每个分支的负担都被释放。来自广泛实验的结果表明,该方法在三个Reid基准和两个遮挡的Reid基准上实现了最先进的表演。消融研究还表明,拟议的方案和操作显着提高了各种场景的性能。
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
人重新识别(Reid)旨在从不同摄像机捕获的图像中检索一个人。对于基于深度学习的REID方法,已经证明,使用本地特征与人物图像的全局特征可以帮助为人员检索提供强大的特征表示。人类的姿势信息可以提供人体骨架的位置,有效地指导网络在这些关键领域更加关注这些关键领域,也可能有助于减少来自背景或闭塞的噪音分散。然而,先前与姿势相关的作品提出的方法可能无法充分利用姿势信息的好处,并没有考虑不同当地特征的不同贡献。在本文中,我们提出了一种姿势引导图注意网络,一个多分支架构,包括一个用于全局特征的一个分支,一个用于中粒体特征的一个分支,一个分支用于细粒度关键点特征。我们使用预先训练的姿势估计器来生成本地特征学习的关键点热图,并仔细设计图表卷积层以通过建模相似关系来重新评估提取的本地特征的贡献权重。实验结果表明我们对歧视特征学习的方法的有效性,我们表明我们的模型在几个主流评估数据集上实现了最先进的表演。我们还对我们的网络进行了大量的消融研究和设计不同类型的比较实验,以证明其有效性和鲁棒性,包括整体数据集,部分数据集,遮挡数据集和跨域测试。
translated by 谷歌翻译
最近,无监督的人重新识别(RE-ID)引起了人们的关注,因为其开放世界情景设置有限,可用的带注释的数据有限。现有的监督方法通常无法很好地概括在看不见的域上,而无监督的方法(大多数缺乏多范围的信息),并且容易患有确认偏见。在本文中,我们旨在从两个方面从看不见的目标域上找到更好的特征表示形式,1)在标记的源域上进行无监督的域适应性和2)2)在未标记的目标域上挖掘潜在的相似性。此外,提出了一种协作伪标记策略,以减轻确认偏见的影响。首先,使用生成对抗网络将图像从源域转移到目标域。此外,引入了人身份和身份映射损失,以提高生成图像的质量。其次,我们提出了一个新颖的协作多元特征聚类框架(CMFC),以学习目标域的内部数据结构,包括全局特征和部分特征分支。全球特征分支(GB)在人体图像的全球特征上采用了无监督的聚类,而部分特征分支(PB)矿山在不同人体区域内的相似性。最后,在两个基准数据集上进行的广泛实验表明,在无监督的人重新设置下,我们的方法的竞争性能。
translated by 谷歌翻译
遮挡对人重新识别(Reid)构成了重大挑战。现有方法通常依赖于外部工具来推断可见的身体部位,这在计算效率和Reid精度方面可能是次优。特别是,在面对复杂的闭塞时,它们可能会失败,例如行人之间的遮挡。因此,在本文中,我们提出了一种名为M质量感知部分模型(QPM)的新方法,用于遮挡鲁棒Reid。首先,我们建议共同学习零件特征和预测部分质量分数。由于没有提供质量注释,我们介绍了一种自动将低分分配给闭塞体部位的策略,从而削弱了遮挡体零落在Reid结果上的影响。其次,基于预测部分质量分数,我们提出了一种新颖的身份感知空间关注(ISA)模块。在该模块中,利用粗略标识感知功能来突出目标行人的像素,以便处理行人之间的遮挡。第三,我们设计了一种自适应和有效的方法,用于了解来自每个图像对的共同非遮挡区域的全局特征。这种设计至关重要,但经常被现有方法忽略。 QPM有三个关键优势:1)它不依赖于培训或推理阶段的任何外部工具; 2)它处理由物体和其他行人引起的闭塞; 3)它是高度计算效率。对闭塞Reid的四个流行数据库的实验结果证明QPM始终如一地以显着的利润方式优于最先进的方法。 QPM代码将被释放。
translated by 谷歌翻译
改变布料的人重新识别(REID)是一个新出现的研究主题,旨在检索换衣服的行人。由于带有不同衣服的人类外观表现出较大的变化,因此现有方法很难提取歧视性和健壮的特征表示。当前的作品主要集中在身体形状或轮廓草图上,但是人类的语义信息以及换衣服之前和之后的行人特征的潜在一致性未被充分探索或被忽略。为了解决这些问题,在这项工作中,提出了一种新颖的语义意识到的注意力和视觉屏蔽网络,用于换衣服的人Reid(缩写为SAV),其中关键的想法是屏蔽与衣服外观相关的线索,只关注衣服的外观对视图/姿势变化不敏感的视觉语义信息。具体而言,首先采用了视觉语义编码器来基于人类语义分割信息来定位人体和服装区域。然后,提出了人类的语义注意模块(HSA),以突出显示人类的语义信息并重新授予视觉特征图。此外,视觉服装屏蔽模块(VCS)还旨在通过覆盖衣服区域并将模型集中在与衣服无关的视觉语义信息上来提取更健壮的特征代表。最重要的是,这两个模块在端到端统一框架中共同探索。广泛的实验表明,所提出的方法可以显着胜过最先进的方法,并且可以为换衣的人提取更健壮的特征。与FSAM(在CVPR 2021中发布)相比,该方法可以分别在LTCC和PRCC数据集上以MAP(RANK-1)的形式获得32.7%(16.5%)和14.9%( - )。
translated by 谷歌翻译
最近,由于受监督人员重新识别(REID)的表现不佳,域名概括(DG)人REID引起了很多关注,旨在学习一个不敏感的模型,并可以抵抗域的影响偏见。在本文中,我们首先通过实验验证样式因素是域偏差的重要组成部分。基于这个结论,我们提出了一种样式变量且无关紧要的学习方法(SVIL)方法,以消除样式因素对模型的影响。具体来说,我们在SVIL中设计了样式的抖动模块(SJM)。 SJM模块可以丰富特定源域的样式多样性,并减少各种源域的样式差异。这导致该模型重点关注与身份相关的信息,并对样式变化不敏感。此外,我们将SJM模块与元学习算法有机结合,从而最大程度地提高了好处并进一步提高模型的概括能力。请注意,我们的SJM模块是插件和推理,无需成本。广泛的实验证实了我们的SVIL的有效性,而我们的方法的表现优于DG-REID基准测试的最先进方法。
translated by 谷歌翻译
从图像中学习代表,健壮和歧视性信息对于有效的人重新识别(RE-ID)至关重要。在本文中,我们提出了一种基于身体和手部图像的人重新ID的端到端判别深度学习的复合方法。我们仔细设计了本地感知的全球注意力网络(Laga-Net),这是一个多分支深度网络架构,由一个用于空间注意力的分支组成,一个用于渠道注意。注意分支集中在图像的相关特征上,同时抑制了无关紧要的背景。为了克服注意力机制的弱点,与像素改组一样,我们将相对位置编码整合到空间注意模块中以捕获像素的空间位置。全球分支机构打算保留全球环境或结构信息。对于打算捕获细粒度信息的本地分支,我们进行统一的分区以水平在Conv-Layer上生成条纹。我们通过执行软分区来检索零件,而无需明确分区图像或需要外部线索,例如姿势估计。一组消融研究表明,每个组件都会有助于提高拉加网络的性能。对四个受欢迎的人体重新ID基准和两个公开可用的手数据集的广泛评估表明,我们的建议方法始终优于现有的最新方法。
translated by 谷歌翻译
Object re-identification method is made up of backbone network, feature aggregation, and loss function. However, most backbone networks lack a special mechanism to handle rich scale variations and mine discriminative feature representations. In this paper, we firstly design a hierarchical similarity graph module (HSGM) to reduce the conflict of backbone and re-identification networks. The designed HSGM builds a rich hierarchical graph to mine the mapping relationships between global-local and local-local. Secondly, we divide the feature map along with the spatial and channel directions in each hierarchical graph. The HSGM applies the spatial features and channel features extracted from different locations as nodes, respectively, and utilizes the similarity scores between nodes to construct spatial and channel similarity graphs. During the learning process of HSGM, we utilize a learnable parameter to re-optimize the importance of each position, as well as evaluate the correlation between different nodes. Thirdly, we develop a novel hierarchical similarity graph network (HSGNet) by embedding the HSGM in the backbone network. Furthermore, HSGM can be easily embedded into backbone networks of any depth to improve object re-identification ability. Finally, extensive experiments on three large-scale object datasets demonstrate that the proposed HSGNet is superior to state-of-the-art object re-identification approaches.
translated by 谷歌翻译
In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.
translated by 谷歌翻译
计算机视觉任务可以从估计突出物区域和这些对象区域之间的相互作用中受益。识别对象区域涉及利用预借鉴模型来执行对象检测,对象分割和/或对象姿势估计。但是,由于以下原因,在实践中不可行:1)预用模型的训练数据集的对象类别可能不会涵盖一般计算机视觉任务的所有对象类别,2)佩戴型模型训练数据集之间的域间隙并且目标任务的数据集可能会影响性能,3)预磨模模型中存在的偏差和方差可能泄漏到导致无意中偏置的目标模型的目标任务中。为了克服这些缺点,我们建议利用一系列视频帧捕获一组公共对象和它们之间的相互作用的公共基本原理,因此视频帧特征之间的共分割的概念可以用自动的能力装配模型专注于突出区域,以最终的方式提高潜在的任务的性能。在这方面,我们提出了一种称为“共分割激活模块”(COSAM)的通用模块,其可以被插入任何CNN,以促进基于CNN的任何CNN的概念在一系列视频帧特征中的关注。我们在三个基于视频的任务中展示Cosam的应用即1)基于视频的人Re-ID,2)视频字幕分类,并证明COSAM能够在视频帧中捕获突出区域,从而引导对于显着的性能改进以及可解释的关注图。
translated by 谷歌翻译
可见红外人重新识别(VI RE-ID)旨在使可见和红外模式之间的人物图像匹配。现有的VI RE-ID方法主要集中在图像中提取均匀的结构关系,即局部特征之间的关系,同时忽略不同方式中局部特征的异构相关性。异构结构化关系对于学习有效的身份表示并执行跨模式匹配至关重要。在本文中,我们通过单独的模态的模态特定图来模拟均匀结构关系,然后与可见光和红外模态的模态特定图挖掘异质结构相关性。首先,均匀的结构图(HOSG)占地一流的矿物,任意节点(本地特征)与可见或红外图像中的所有REST节点之间的静态关系,以学习有效的身份表示。其次,为了找到跨型号身份 - 一致的对应关系,异构曲线图对齐模块(HGGAM)进一步测量了通过路由搜索方式的两个模式的局部节点特征之间的关系边缘强度。第三,我们提出了跨模型互相关(CMCC)丢失来提取可见和红外图形的特征​​表示的模态不变性。 CMCC计算模态之间的相互信息,并驱逐语义冗余。对Sysu-MM01和RegDB数据集的广泛实验表明,我们的方法优于最先进的最先进,增益为13.73 \%和9.45 \%Rank1 / Map。该代码可在https://github.com/fegnyujian/homerneous-和 - obeterogeneous-relional-agraphy获得。
translated by 谷歌翻译
监督人员重新识别(RE-ID)方法需要大量的成对手动标记数据,这些数据不适用于重新ID部署的大多数真实情景。另一方面,无监督的RE-ID方法依赖于未标记的数据来培训模型,但与监督的重新ID方法相比,执行差劲。在这项工作中,我们的目标是将无监督的重新识别学习与少数人的注释相结合,以实现竞争性能。为此目标,我们提出了一个无人监督的聚类主动学习(UCAL)重新ID深度学习方法。它能够逐步地发现代表性的质心对并要求人类注释它们。这些标记的代表成对数据可以通过其他大量未标记的数据来改善无监督的表示学习模型。更重要的是,由于选择了代表性质心对注释,UCAL可以使用非常低成本的人力努力工作。广泛的实验表明,在三个重新ID基准数据集上展示了拟议的模型的优越性。
translated by 谷歌翻译
可见红外人重新识别(VI-REID)由于可见和红外模式之间存在较大的差异而受到挑战。大多数开创性方法通过学习模态共享和ID相关的功能来降低类内变型和跨性间差异。但是,在VI-REID中尚未充分利用一个显式模态共享提示。此外,现有特征学习范例在全局特征或分区特征条带上强加约束,忽略了全局和零件特征的预测一致性。为了解决上述问题,我们将构成估算作为辅助学习任务,以帮助vi-reid任务在端到端的框架中。通过以互利的方式联合培训这两个任务,我们的模型学习了更高质量的模态共享和ID相关的功能。在它之上,通过分层特征约束(HFC)无缝同步全局功能和本地特征的学习,前者使用知识蒸馏策略监督后者。两个基准VI-REID数据集的实验结果表明,该方法始终如一地通过显着的利润来改善最先进的方法。具体而言,我们的方法在RegDB数据集上取决于针对最先进的方法的近20美元\%$地图改进。我们的兴趣调查结果突出了vi-reid中辅助任务学习的使用。
translated by 谷歌翻译
The combination of global and partial features has been an essential solution to improve discriminative performances in person re-identification (Re-ID) tasks. Previous part-based methods mainly focus on locating regions with specific pre-defined semantics to learn local representations, which increases learning difficulty but not efficient or robust to scenarios with large variances. In this paper, we propose an end-to-end feature learning strategy integrating discriminative information with various granularities. We carefully design the Multiple Granularity Network (MGN), a multi-branch deep network architecture consisting of one branch for global feature representations and two branches for local feature representations. Instead of learning on semantic regions, we uniformly partition the images into several stripes, and vary the number of parts in different local branches to obtain local feature representations with multiple granularities. Comprehensive experiments implemented on the mainstream evaluation datasets including Market-1501, DukeMTMC-reid and CUHK03 indicate that our method robustly achieves state-of-the-art performances and outperforms any existing approaches by a large margin. For example, on Market-1501 dataset in single query mode, we obtain a top result of Rank-1/mAP=96.6%/94.2% with this method after re-ranking.
translated by 谷歌翻译
学习模态不变功能是可见热跨模板人员重新凝视(VT-REID)问题的核心,其中查询和画廊图像来自不同的模式。现有工作通过使用对抗性学习或仔细设计特征提取模块来隐式地将像素和特征空间中的模态对齐。我们提出了一个简单但有效的框架MMD-REID,通过明确的差异减少约束来降低模态差距。 MMD-REID从最大均值(MMD)中获取灵感,广泛使用的统计工具用于确定两个分布之间的距离。 MMD-REID采用新的基于边缘的配方,以匹配可见和热样品的类条件特征分布,以最大限度地减少级别的距离,同时保持特征辨别性。 MMD-Reid是一个简单的架构和损失制定方面的框架。我们对MMD-REID的有效性进行了广泛的实验,以使MMD-REID对调整边缘和阶级条件分布的有效性,从而学习模型无关和身份的一致特征。所提出的框架显着优于Sysu-MM01和RegDB数据集的最先进的方法。代码将在https://github.com/vcl-iisc/mmd -reid发布
translated by 谷歌翻译
无监督的人重新识别(RE-ID)由于其可扩展性和对现实世界应用的可能性而吸引了增加的研究兴趣。最先进的无监督的重新ID方法通常遵循基于聚类的策略,该策略通过聚类来生成伪标签,并维护存储器以存储实例功能并代表群集的质心进行对比​​学习。这种方法遇到了两个问题。首先,无监督学习产生的质心可能不是一个完美的原型。强迫图像更接近质心,强调了聚类的结果,这可能会在迭代过程中积累聚类错误。其次,以前的方法利用在不同的训练迭代中获得的功能代表一种质心,这与当前的训练样本不一致,因为这些特征不是直接可比的。为此,我们通过随机学习策略提出了一种无监督的重新ID方法。具体来说,我们采用了随机更新的内存,其中使用集群的随机实例来更新群集级内存以进行对比度学习。这样,学会了随机选择的图像对之间的关​​系,以避免由不可靠的伪标签引起的训练偏见。随机内存也始终是最新的,以保持一致性。此外,为了减轻摄像机方差的问题,在聚类过程中提出了一个统一的距离矩阵,其中减少了不同摄像头域的距离偏置,并强调了身份的差异。
translated by 谷歌翻译
Most existing person re-identification methods compute the matching relations between person images across camera views based on the ranking of the pairwise similarities. This matching strategy with the lack of the global viewpoint and the context's consideration inevitably leads to ambiguous matching results and sub-optimal performance. Based on a natural assumption that images belonging to the same person identity should not match with images belonging to multiple different person identities across views, called the unicity of person matching on the identity level, we propose an end-to-end person unicity matching architecture for learning and refining the person matching relations. First, we adopt the image samples' contextual information in feature space to generate the initial soft matching results by using graph neural networks. Secondly, we utilize the samples' global context relationship to refine the soft matching results and reach the matching unicity through bipartite graph matching. Given full consideration to real-world person re-identification applications, we achieve the unicity matching in both one-shot and multi-shot settings of person re-identification and further develop a fast version of the unicity matching without losing the performance. The proposed method is evaluated on five public benchmarks, including four multi-shot datasets MSMT17, DukeMTMC, Market1501, CUHK03, and a one-shot dataset VIPeR. Experimental results show the superiority of the proposed method on performance and efficiency.
translated by 谷歌翻译