人重新识别(REID)与跨不同相机的行人相匹配。采用真实功能描述符的现有REID方法已经达到了很高的精度,但是由于缓慢的欧几里得距离计算以及复杂的快速算法,它们的效率很低。最近,一些作品建议生产二进制编码的人描述符,而这些描述符仅需要快速锤击距离计算和简单的计数算法。但是,考虑到稀疏的二进制空间,这种二进制编码的描述符的性能,尤其是使用短代码(例如32位和64位)的性能几乎是令人满意的。为了在模型的准确性和效率之间取得平衡,我们提出了一种新颖的子空间一致性(SCR)算法,该算法可以比在相同维度下的实现功能,同时维持竞争精度,比实际价值的功能加快REID程序的$ 0.25 $倍。尤其是在简短的代码下。 SCR转换实价特征向量(例如,2048 Float32),带有简短的二进制代码(例如64位),首先将房地产品向量向量向量矢量分为$ M $子空间,每个vector vector vector vector value value value value value value value value value value value value coppection vetor vector vector vector vector vector vection velets velects velects velects velects vare cob $ m $ subpaces。因此,两个样品之间的距离可以表示为与质心相应距离的求和,可以通过离线计算加速并通过查找表维护。另一方面,与使用二进制代码相比,这些真实价值的质心有助于实现明显更高的准确性。最后,我们将距离查找表转换为整数,并应用计数算法以加快排名阶段。我们还提出了一个具有迭代框架的新型一致性正则化。 Market-1501和Dukemtmc-Reid的实验结果显示出令人鼓舞和令人兴奋的结果。在简短的代码下,我们拟议的SCR享有真实价值的准确性和哈希级速度。
translated by 谷歌翻译
在本文中,我们首先尝试调查深度哈希学习与车辆重新识别的集成。我们提出了一个深度哈希的车辆重新识别框架,被称为DVHN,这基本上减少了存储器使用,并在预留最接近的邻居搜索精度的同时提高检索效率。具体地,〜DVHN通过联合优化特征学习网络和哈希码生成模块,直接为每个图像直接学习离散的紧凑型二进制哈希代码。具体地,我们直接将来自卷积神经网络的输出限制为离散二进制代码,并确保学习的二进制代码是对分类的最佳选择。为了优化深度离散散列框架,我们进一步提出了一种用于学习二进制相似性保存散列代码的交替最小化方法。在两个广泛研究的车辆重新识别数据集 - \ textbf {sportid}和\ textbf {veri} - 〜〜\ textbf {veri} - 〜已经证明了我们对最先进的深哈希方法的方法的优越性。 2048美元的TextBF {DVHN}价格可以实现13.94 \%和10.21 \%的准确性改进\ textbf {map}和\ textbf {stuckbf {stank @ 1}的\ textbf {stuckid(800)} dataSet。对于\ textbf {veri},我们分别实现了35.45 \%和32.72 \%\ textbf {rank @ 1}和\​​ textbf {map}的性能增益。
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
无监督的人重新识别(RE-ID)由于其可扩展性和对现实世界应用的可能性而吸引了增加的研究兴趣。最先进的无监督的重新ID方法通常遵循基于聚类的策略,该策略通过聚类来生成伪标签,并维护存储器以存储实例功能并代表群集的质心进行对比​​学习。这种方法遇到了两个问题。首先,无监督学习产生的质心可能不是一个完美的原型。强迫图像更接近质心,强调了聚类的结果,这可能会在迭代过程中积累聚类错误。其次,以前的方法利用在不同的训练迭代中获得的功能代表一种质心,这与当前的训练样本不一致,因为这些特征不是直接可比的。为此,我们通过随机学习策略提出了一种无监督的重新ID方法。具体来说,我们采用了随机更新的内存,其中使用集群的随机实例来更新群集级内存以进行对比度学习。这样,学会了随机选择的图像对之间的关​​系,以避免由不可靠的伪标签引起的训练偏见。随机内存也始终是最新的,以保持一致性。此外,为了减轻摄像机方差的问题,在聚类过程中提出了一个统一的距离矩阵,其中减少了不同摄像头域的距离偏置,并强调了身份的差异。
translated by 谷歌翻译
无监督的人重新识别是计算机视觉中的一项具有挑战性且有前途的任务。如今,无监督的人重新识别方法通过使用伪标签培训取得了巨大进步。但是,如何以无监督的方式进行纯化的特征和标签噪声的显式研究。为了净化功能,我们考虑了来自不同本地视图的两种其他功能,以丰富功能表示。所提出的多视图功能仔细地集成到我们的群体对比度学习中,以利用全球功能容易忽略和偏见的更具歧视性线索。为了净化标签噪声,我们建议在离线方案中利用教师模型的知识。具体来说,我们首先从嘈杂的伪标签培训教师模型,然后使用教师模型指导我们的学生模型的学习。在我们的环境中,学生模型可以在教师模型的监督下快速融合,因此,随着教师模型的影响很大,嘈杂标签的干扰。在仔细处理功能学习中的噪音和偏见之后,我们的纯化模块被证明对无监督的人的重新识别非常有效。对三个受欢迎人重新识别数据集进行的广泛实验证明了我们方法的优势。尤其是,我们的方法在具有挑战性的Market-1501基准中,在完全无监督的环境下,在具有挑战性的Market-1501基准中实现了最先进的精度85.8 \%@map和94.5 \% @rank-1。代码将发布。
translated by 谷歌翻译
The combination of global and partial features has been an essential solution to improve discriminative performances in person re-identification (Re-ID) tasks. Previous part-based methods mainly focus on locating regions with specific pre-defined semantics to learn local representations, which increases learning difficulty but not efficient or robust to scenarios with large variances. In this paper, we propose an end-to-end feature learning strategy integrating discriminative information with various granularities. We carefully design the Multiple Granularity Network (MGN), a multi-branch deep network architecture consisting of one branch for global feature representations and two branches for local feature representations. Instead of learning on semantic regions, we uniformly partition the images into several stripes, and vary the number of parts in different local branches to obtain local feature representations with multiple granularities. Comprehensive experiments implemented on the mainstream evaluation datasets including Market-1501, DukeMTMC-reid and CUHK03 indicate that our method robustly achieves state-of-the-art performances and outperforms any existing approaches by a large margin. For example, on Market-1501 dataset in single query mode, we obtain a top result of Rank-1/mAP=96.6%/94.2% with this method after re-ranking.
translated by 谷歌翻译
最近,无监督的人重新识别(RE-ID)引起了人们的关注,因为其开放世界情景设置有限,可用的带注释的数据有限。现有的监督方法通常无法很好地概括在看不见的域上,而无监督的方法(大多数缺乏多范围的信息),并且容易患有确认偏见。在本文中,我们旨在从两个方面从看不见的目标域上找到更好的特征表示形式,1)在标记的源域上进行无监督的域适应性和2)2)在未标记的目标域上挖掘潜在的相似性。此外,提出了一种协作伪标记策略,以减轻确认偏见的影响。首先,使用生成对抗网络将图像从源域转移到目标域。此外,引入了人身份和身份映射损失,以提高生成图像的质量。其次,我们提出了一个新颖的协作多元特征聚类框架(CMFC),以学习目标域的内部数据结构,包括全局特征和部分特征分支。全球特征分支(GB)在人体图像的全球特征上采用了无监督的聚类,而部分特征分支(PB)矿山在不同人体区域内的相似性。最后,在两个基准数据集上进行的广泛实验表明,在无监督的人重新设置下,我们的方法的竞争性能。
translated by 谷歌翻译
最先进的无监督的RE-ID方法使用基于内存的非参数软制AX丢失训练神经网络。存储在存储器中的实例特征向量通过群集和更新在实例级别中分配伪标签。然而,不同的簇大小导致每个群集的更新进度中的不一致。为了解决这个问题,我们呈现了存储特征向量的集群对比度,并计算群集级别的对比度损耗。我们的方法采用唯一的群集表示来描述每个群集,从而产生群集级存储字典。以这种方式,可以有效地保持聚类的一致性,在整个阶段,可以显着降低GPU存储器消耗。因此,我们的方法可以解决集群不一致的问题,并且适用于较大的数据集。此外,我们采用不同的聚类算法来展示我们框架的鲁棒性和泛化。与标准无监督的重新ID管道的集群对比的应用达到了9.9%,8.3%,12.1%的显着改善,而最新的无人纯粹无监督的重新ID方法和5.5%,4.8%,4.4%地图相比与市场,公爵和MSMT17数据集上的最先进的无监督域适应重新ID方法相比。代码可在https://github.com/alibaba/cluster-contrast获得。
translated by 谷歌翻译
This paper contributes a new high quality dataset for person re-identification, named "Market-1501". Generally, current datasets: 1) are limited in scale; 2) consist of hand-drawn bboxes, which are unavailable under realistic settings; 3) have only one ground truth and one query image for each identity (close environment). To tackle these problems, the proposed Market-1501 dataset is featured in three aspects. First, it contains over 32,000 annotated bboxes, plus a distractor set of over 500K images, making it the largest person re-id dataset to date. Second, images in Market-1501 dataset are produced using the Deformable Part Model (DPM) as pedestrian detector. Third, our dataset is collected in an open system, where each identity has multiple images under each camera.As a minor contribution, inspired by recent advances in large-scale image search, this paper proposes an unsupervised Bag-of-Words descriptor. We view person reidentification as a special task of image search. In experiment, we show that the proposed descriptor yields competitive accuracy on VIPeR, CUHK03, and Market-1501 datasets, and is scalable on the large-scale 500k dataset.
translated by 谷歌翻译
Recent years witnessed the breakthrough of face recognition with deep convolutional neural networks. Dozens of papers in the field of FR are published every year. Some of them were applied in the industrial community and played an important role in human life such as device unlock, mobile payment, and so on. This paper provides an introduction to face recognition, including its history, pipeline, algorithms based on conventional manually designed features or deep learning, mainstream training, evaluation datasets, and related applications. We have analyzed and compared state-of-the-art works as many as possible, and also carefully designed a set of experiments to find the effect of backbone size and data distribution. This survey is a material of the tutorial named The Practical Face Recognition Technology in the Industrial World in the FG2023.
translated by 谷歌翻译
Unsupervised person re-identification (ReID) aims at learning discriminative identity features for person retrieval without any annotations. Recent advances accomplish this task by leveraging clustering-based pseudo labels, but these pseudo labels are inevitably noisy which deteriorate model performance. In this paper, we propose a Neighbour Consistency guided Pseudo Label Refinement (NCPLR) framework, which can be regarded as a transductive form of label propagation under the assumption that the prediction of each example should be similar to its nearest neighbours'. Specifically, the refined label for each training instance can be obtained by the original clustering result and a weighted ensemble of its neighbours' predictions, with weights determined according to their similarities in the feature space. In addition, we consider the clustering-based unsupervised person ReID as a label-noise learning problem. Then, we proposed an explicit neighbour consistency regularization to reduce model susceptibility to over-fitting while improving the training stability. The NCPLR method is simple yet effective, and can be seamlessly integrated into existing clustering-based unsupervised algorithms. Extensive experimental results on five ReID datasets demonstrate the effectiveness of the proposed method, and showing superior performance to state-of-the-art methods by a large margin.
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
Most existing person re-identification methods compute the matching relations between person images across camera views based on the ranking of the pairwise similarities. This matching strategy with the lack of the global viewpoint and the context's consideration inevitably leads to ambiguous matching results and sub-optimal performance. Based on a natural assumption that images belonging to the same person identity should not match with images belonging to multiple different person identities across views, called the unicity of person matching on the identity level, we propose an end-to-end person unicity matching architecture for learning and refining the person matching relations. First, we adopt the image samples' contextual information in feature space to generate the initial soft matching results by using graph neural networks. Secondly, we utilize the samples' global context relationship to refine the soft matching results and reach the matching unicity through bipartite graph matching. Given full consideration to real-world person re-identification applications, we achieve the unicity matching in both one-shot and multi-shot settings of person re-identification and further develop a fast version of the unicity matching without losing the performance. The proposed method is evaluated on five public benchmarks, including four multi-shot datasets MSMT17, DukeMTMC, Market1501, CUHK03, and a one-shot dataset VIPeR. Experimental results show the superiority of the proposed method on performance and efficiency.
translated by 谷歌翻译
最近,通过计算各个特征和集群记忆之间的对比损失,群集对比度学习已被证明对人员Reid有效。但是,使用各个功能以势头更新群集内存的现有方法对嘈杂的样本不稳健,例如具有错误注释标签或伪标签的样本。与基于个人的更新机制不同,基于质心的更新机制应用每个群集的平均特征更新群集内存对少数噪声样本是强大的。因此,我们制定了一个名为双集群对比学习(DCC)的统一集群对比框架中的基于个人的更新和基于质心的更新机制,它维护了两种类型的存储体:个人和质心集群存储库。值得注意的是,基于各个功能更新各个集群内存。质心群集内存应用每个Cluter的平均特征以更新相应的群集内存。除了每个存储器的Vallina对比损耗之外,应用了一致性约束,以保证两个存储器输出的一致性。请注意,通过使用聚类方法生成的地面真理标签或伪标签,可以轻松地应用于无监督或监督人员REID。在监督人员REID和无人监督者REID下的两项基准的大量实验证明了拟议的DCC的优越。代码可用:https://github.com/htyao89/dual-cluster-contrastive/
translated by 谷歌翻译
遮挡对人重新识别(Reid)构成了重大挑战。现有方法通常依赖于外部工具来推断可见的身体部位,这在计算效率和Reid精度方面可能是次优。特别是,在面对复杂的闭塞时,它们可能会失败,例如行人之间的遮挡。因此,在本文中,我们提出了一种名为M质量感知部分模型(QPM)的新方法,用于遮挡鲁棒Reid。首先,我们建议共同学习零件特征和预测部分质量分数。由于没有提供质量注释,我们介绍了一种自动将低分分配给闭塞体部位的策略,从而削弱了遮挡体零落在Reid结果上的影响。其次,基于预测部分质量分数,我们提出了一种新颖的身份感知空间关注(ISA)模块。在该模块中,利用粗略标识感知功能来突出目标行人的像素,以便处理行人之间的遮挡。第三,我们设计了一种自适应和有效的方法,用于了解来自每个图像对的共同非遮挡区域的全局特征。这种设计至关重要,但经常被现有方法忽略。 QPM有三个关键优势:1)它不依赖于培训或推理阶段的任何外部工具; 2)它处理由物体和其他行人引起的闭塞; 3)它是高度计算效率。对闭塞Reid的四个流行数据库的实验结果证明QPM始终如一地以显着的利润方式优于最先进的方法。 QPM代码将被释放。
translated by 谷歌翻译
监督基于深度学习的哈希和矢量量化是实现快速和大规模的图像检索系统。通过完全利用标签注释,与传统方法相比,它们正在实现出色的检索性能。但是,令人生心的是为大量训练数据准确地分配标签,并且还有注释过程易于出错。为了解决这些问题,我们提出了第一款深度无监督的图像检索方法被称为自我监督的产品量化(SPQ)网络,该方法是无标签和以自我监督的方式培训的。我们通过比较单独转换的图像(视图)来设计一个交叉量化的对比学习策略,该横向学习策略共同学习码字和深视觉描述符。我们的方法分析了图像内容以提取描述性功能,允许我们理解图像表示以准确检索。通过对基准进行广泛的实验,我们证明该方法即使没有监督预测,也会产生最先进的结果。
translated by 谷歌翻译
未经监督的人重新识别(重新ID)由于其解决监督重新ID模型的可扩展性问题而吸引了越来越多的关注。大多数现有的无监督方法采用迭代聚类机制,网络基于由无监督群集生成的伪标签进行培训。但是,聚类错误是不可避免的。为了产生高质量的伪标签并减轻聚类错误的影响,我们提出了一种新的群集关系建模框架,用于无监督的人重新ID。具体地,在聚类之前,基于曲线图相关学习(GCL)模块探索未标记图像之间的关系,然后将其用于聚类以产生高质量的伪标签。本,GCL适自适应地挖掘样本之间的关系迷你批次以减少培训时异常聚类的影响。为了更有效地训练网络,我们进一步提出了一种选择性对比学习(SCL)方法,具有选择性存储器银行更新策略。广泛的实验表明,我们的方法比在Market1501,Dukemtmc-Reid和MSMT17数据集上的大多数最先进的无人监督方法显示出更好的结果。我们将发布模型再现的代码。
translated by 谷歌翻译
监督人员重新识别(RE-ID)方法需要大量的成对手动标记数据,这些数据不适用于重新ID部署的大多数真实情景。另一方面,无监督的RE-ID方法依赖于未标记的数据来培训模型,但与监督的重新ID方法相比,执行差劲。在这项工作中,我们的目标是将无监督的重新识别学习与少数人的注释相结合,以实现竞争性能。为此目标,我们提出了一个无人监督的聚类主动学习(UCAL)重新ID深度学习方法。它能够逐步地发现代表性的质心对并要求人类注释它们。这些标记的代表成对数据可以通过其他大量未标记的数据来改善无监督的表示学习模型。更重要的是,由于选择了代表性质心对注释,UCAL可以使用非常低成本的人力努力工作。广泛的实验表明,在三个重新ID基准数据集上展示了拟议的模型的优越性。
translated by 谷歌翻译
无监督的视频人重新识别(Reid)方法通常取决于全局级别功能。许多监督的Reid方法采用了本地级别的功能,并实现了显着的性能改进。但是,将本地级别的功能应用于无监督的方法可能会引入不稳定的性能。为了提高无监督视频REID的性能稳定,本文介绍了一般方案融合零件模型和无监督的学习。在该方案中,全局级别功能分为等于的本地级别。用于探索无监督学习的本地感知模块以探索对本地级别功能的概括。建议克服本地级别特征的缺点来克服全局感知模块。来自这两个模块的功能融合以形成每个输入图像的鲁棒特征表示。此特征表示具有本地级别功能的优点,而不会遭受其缺点。综合实验是在三个基准上进行的,包括PRID2011,ILIDS-VID和Dukemtmc-Videoreid,结果表明,该方法实现了最先进的性能。广泛的消融研究证明了所提出的计划,本地感知模块和全局感知模块的有效性和稳健性。
translated by 谷歌翻译