可见红外人重新识别(VI RE-ID)旨在使可见和红外模式之间的人物图像匹配。现有的VI RE-ID方法主要集中在图像中提取均匀的结构关系,即局部特征之间的关系,同时忽略不同方式中局部特征的异构相关性。异构结构化关系对于学习有效的身份表示并执行跨模式匹配至关重要。在本文中,我们通过单独的模态的模态特定图来模拟均匀结构关系,然后与可见光和红外模态的模态特定图挖掘异质结构相关性。首先,均匀的结构图(HOSG)占地一流的矿物,任意节点(本地特征)与可见或红外图像中的所有REST节点之间的静态关系,以学习有效的身份表示。其次,为了找到跨型号身份 - 一致的对应关系,异构曲线图对齐模块(HGGAM)进一步测量了通过路由搜索方式的两个模式的局部节点特征之间的关系边缘强度。第三,我们提出了跨模型互相关(CMCC)丢失来提取可见和红外图形的特征​​表示的模态不变性。 CMCC计算模态之间的相互信息,并驱逐语义冗余。对Sysu-MM01和RegDB数据集的广泛实验表明,我们的方法优于最先进的最先进,增益为13.73 \%和9.45 \%Rank1 / Map。该代码可在https://github.com/fegnyujian/homerneous-和 - obeterogeneous-relional-agraphy获得。
translated by 谷歌翻译
Visible-Infrared Person Re-Identification (VI-ReID) is a challenging retrieval task under complex modality changes. Existing methods usually focus on extracting discriminative visual features while ignoring the reliability and commonality of visual features between different modalities. In this paper, we propose a novel deep learning framework named Progressive Modality-shared Transformer (PMT) for effective VI-ReID. To reduce the negative effect of modality gaps, we first take the gray-scale images as an auxiliary modality and propose a progressive learning strategy. Then, we propose a Modality-Shared Enhancement Loss (MSEL) to guide the model to explore more reliable identity information from modality-shared features. Finally, to cope with the problem of large intra-class differences and small inter-class differences, we propose a Discriminative Center Loss (DCL) combined with the MSEL to further improve the discrimination of reliable features. Extensive experiments on SYSU-MM01 and RegDB datasets show that our proposed framework performs better than most state-of-the-art methods. For model reproduction, we release the source code at https://github.com/hulu88/PMT.
translated by 谷歌翻译
基于图形的模型最近在人的重新识别任务中取得了巨大的成功,该任务首先计算了不同人之间的图形拓扑结构(亲和力),然后将信息传递给他们的信息以实现更强的功能。但是,我们在可见的红外人员重新识别任务(VI-REID)中发现了现有的基于图的方法,因为有两个问题:1)火车测试模式平衡差距,这是VI-REID任务的属性。两个模式数据的数量在训练阶段平衡,但推理极为不平衡,导致基于图的VI-REID方法的概括较低。 2)由图形模块的端到端学习方式引起的亚最佳拓扑结构。我们分析训练有素的输入特征会削弱图形拓扑的学习,从而使其在推理过程中不够概括。在本文中,我们提出了一种反事实干预特征转移(CIFT)方法来解决这些问题。具体而言,均匀和异质的特征转移(H2FT)旨在通过两种独立的设计的图形模块和不平衡的场景模拟来减少火车测试模态差距。此外,提出了反事实关系干预(CRI)来利用反事实干预和因果效应工具来突出拓扑结构在整个训练过程中的作用,这使图形拓扑结构更加可靠。对标准VI-REID基准测试的广泛实验表明,CIFT在各种设置下都优于最新方法。
translated by 谷歌翻译
除了考虑人类姿势和遮挡引起的识别难度外,还必须解决可见的 - 热跨模式重新识别(VT-REID)任务中不同成像系统引起的模态差异。在本文中,我们提出了跨模式的局部最短路径和全局增强(CM-LSP-GE)模块,这是一个基于本地和全局特征联合学习的两流网络。我们论文的核心思想是使用局部功能对准来解决遮挡问题,并通过增强全球功能来解决模态差异。首先,基于注意力的两流重新系统网络旨在提取双模式特征并映射到统一的特征空间。然后,为了解决跨模式的人姿势和遮挡问题,将图像水平切成几个相等的部分以获得局部特征,并且使用两个图之间的局部特征中最短路径来实现细粒度的局部特征对齐。第三,批归归式化的增强模块应用了全局特征来增强策略,从而导致不同类别之间的差异增强。多粒度损失融合策略进一步提高了算法的性能。最后,使用本地和全球特征的联合学习机制用于提高跨模式的重新识别精度。两个典型数据集的实验结果表明,我们的模型显然优于最先进的方法。尤其是在SYSU-MM01数据集上,我们的模型在Rank-1和MAP的所有搜索术语中都可以获得2.89%和7.96%的增益。源代码将很快发布。
translated by 谷歌翻译
可见的红外人员重新识别(REID)旨在认识到RGB和IR摄像机网络中的同一个人。一些深度学习(DL)模型已直接纳入了两种模式,以在联合表示空间中区分人。但是,由于RGB和IR模式之间数据分布的较大域转移,因此这个跨模式的REID问题仍然具有挑战性。 %本文引入了一种新的方法,用于创建中间虚拟域,该域在训练过程中充当两个主要领域(即RGB和IR模式)之间的桥梁。该中间域被视为在测试时间无法获得的特权信息(PI),并允许将此跨模式匹配任务制定为在特权信息(LUPI)下学习的问题。我们设计了一种新方法,以在可见的和红外域之间生成图像,这些方法提供了其他信息,以通过中间域的适应来训练深层REID模型。特别是,通过在训练过程中采用无色和多步三重态损失目标,我们的方法提供了通用的特征表示空间,这些空间对大型可见的红外域移动具有牢固的功能。 %关于挑战性可见红外REID数据集的实验结果表明,我们提出的方法始终提高匹配的准确性,而在测试时没有任何计算开销。该代码可在:\ href {https://github.com/alehdaghi/cross-modal-re-id-iid-via-lupi} {https://github.com/alehdaghi/alehdaghi/cross-modal-re-re-id-i-id--i- id-i--i- id-id-i--i--via-lupi} { Via-Lupi}
translated by 谷歌翻译
学习模态不变功能是可见热跨模板人员重新凝视(VT-REID)问题的核心,其中查询和画廊图像来自不同的模式。现有工作通过使用对抗性学习或仔细设计特征提取模块来隐式地将像素和特征空间中的模态对齐。我们提出了一个简单但有效的框架MMD-REID,通过明确的差异减少约束来降低模态差距。 MMD-REID从最大均值(MMD)中获取灵感,广泛使用的统计工具用于确定两个分布之间的距离。 MMD-REID采用新的基于边缘的配方,以匹配可见和热样品的类条件特征分布,以最大限度地减少级别的距离,同时保持特征辨别性。 MMD-Reid是一个简单的架构和损失制定方面的框架。我们对MMD-REID的有效性进行了广泛的实验,以使MMD-REID对调整边缘和阶级条件分布的有效性,从而学习模型无关和身份的一致特征。所提出的框架显着优于Sysu-MM01和RegDB数据集的最先进的方法。代码将在https://github.com/vcl-iisc/mmd -reid发布
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
可见红外人重新识别(VI-REID)由于可见和红外模式之间存在较大的差异而受到挑战。大多数开创性方法通过学习模态共享和ID相关的功能来降低类内变型和跨性间差异。但是,在VI-REID中尚未充分利用一个显式模态共享提示。此外,现有特征学习范例在全局特征或分区特征条带上强加约束,忽略了全局和零件特征的预测一致性。为了解决上述问题,我们将构成估算作为辅助学习任务,以帮助vi-reid任务在端到端的框架中。通过以互利的方式联合培训这两个任务,我们的模型学习了更高质量的模态共享和ID相关的功能。在它之上,通过分层特征约束(HFC)无缝同步全局功能和本地特征的学习,前者使用知识蒸馏策略监督后者。两个基准VI-REID数据集的实验结果表明,该方法始终如一地通过显着的利润来改善最先进的方法。具体而言,我们的方法在RegDB数据集上取决于针对最先进的方法的近20美元\%$地图改进。我们的兴趣调查结果突出了vi-reid中辅助任务学习的使用。
translated by 谷歌翻译
可见的红外人员重新识别(VI-REID)是与可见和红外形态相同的个人匹配的任务。它的主要挑战在于由在不同光谱上运行的相机引起的模态差距。现有的VI-Reid方法主要集中于跨模式学习的一般特征,通常是以特征可区分性为代价。为了解决这个问题,我们提出了一个基于周期的新型网络,用于中性但歧视性特征学习,称为环形。具体而言,Cycletrans使用轻巧的知识捕获模块(KCM)根据伪查询从与模态相关的特征地图捕获丰富的语义。之后,根据模态 - 欧罗威兰原型将这些特征转换为中性特征,将差异建模模块(DMM)部署为中性。为了确保特征可区分性,进一步部署了另外两个KCMs以进行特征周期结构。通过自行车结构,我们的方法可以在保留其出色的语义的同时学习有效的中性特征。在SYSU-MM01和REGDB数据集上进行的广泛实验验证了环形验证的优点针对最先进的方法,在SYSU-MM01中排名1的 +4.57%,REGDB中排名1 +2.2%。
translated by 谷歌翻译
感谢您的跨模式检索技术,通过将它们投射到一个共同的空间中,可以在24小时的监视系统中重新进行重新识别,从而实现了可见的信号(RGB-IR)重新识别(RE-ID)。但是,关于探测到探测器,几乎所有现有的基于RGB-IR的跨模式人RE-ID方法都集中在图像到图像匹配上,而视频对视频匹配包含更丰富的空间 - 和时间信息仍未探索。在本文中,我们主要研究基于视频的跨模式人Re-ID方法。为了实现这项任务,构建了一个基于视频的RGB-IR数据集,其中927个有效身份,具有463,259帧和21,863个曲目,由12个RGB/IR摄像机捕获。基于我们构造的数据集,我们证明,随着曲目中帧的增加,该性能确实达到了更多的增强功能,证明了视频对视频匹配在RGB-IR RE-ID中的重要性。此外,进一步提出了一种新颖的方法,不仅将两种模态投射到模态不变子空间,而且还提取了运动不变的时间记忆。多亏了这两种策略,我们基于视频的跨模式人重新ID取得了更好的结果。代码和数据集以:https://github.com/vcmproject233/mitml发布。
translated by 谷歌翻译
由于其实际意义,跨情态人重新识别的问题已得到越来越多的关注。由于人类通常会在比较两个类似的物体时参加差异的事实,我们提出了一种双径跨模型特征学习框架,其保留了内在空间缩小,并参加了输入跨模型图像对的差异。我们的框架由两个主要组件组成:双路径空间结构保留公共空间网络(DSCSN)和对比相关网络(CCN)。前者将跨型号图像嵌入到共同的3D张量空间而不失去空间结构,而后者通过动态比较输入图像对提取对比特征。注意,为输入RGB和红外图像生成的表示彼此相互依赖。我们对两个公共可用RGB-IR REID数据集,SYSU-MM01和REGDB进行了广泛的实验,我们提出的方法优于完整和简化的评估模式的大边距优于最先进的算法。
translated by 谷歌翻译
为了应对复杂的照明环境中的车辆重新识别(RE-ID)的挑战,由于其出色的互补优势,因此考虑了多光谱来源,例如可见和红外信息。然而,多光谱的车辆重新ID遭受了由不同模态的异质特性以及各种身份不同视图的各种外观的巨大挑战引起的交叉模式差异。同时,各种环境干扰会导致每种方式中的样本分布差异很大。在这项工作中,我们提出了一个新型的跨方向一致性网络,以同时克服与模式和样本方面的差异。特别是,我们设计了一个新的跨方向中心损失,以将每个身份的模态中心拉动接近减轻的跨模式差异,而每个身份的样本中心接近减轻样品差异。这种策略可以为车辆重新ID生成歧视性的多光谱特征表示。此外,我们设计一个自适应层归一化单元,以动态调整个体特征分布以处理稳健学习的模式内特征的分布差异。为了提供一个全面的评估平​​台,我们创建了高质量的RGB-NIR TIR多光谱车辆重新ID基准(MSVR310),其中包括从广泛的观点,时间跨度和环境复杂性的310辆不同的车辆。对创建和公共数据集进行的全面实验证明了与最先进方法相比,提出的方法的有效性。
translated by 谷歌翻译
无监督的视频人重新识别(Reid)方法通常取决于全局级别功能。许多监督的Reid方法采用了本地级别的功能,并实现了显着的性能改进。但是,将本地级别的功能应用于无监督的方法可能会引入不稳定的性能。为了提高无监督视频REID的性能稳定,本文介绍了一般方案融合零件模型和无监督的学习。在该方案中,全局级别功能分为等于的本地级别。用于探索无监督学习的本地感知模块以探索对本地级别功能的概括。建议克服本地级别特征的缺点来克服全局感知模块。来自这两个模块的功能融合以形成每个输入图像的鲁棒特征表示。此特征表示具有本地级别功能的优点,而不会遭受其缺点。综合实验是在三个基准上进行的,包括PRID2011,ILIDS-VID和Dukemtmc-Videoreid,结果表明,该方法实现了最先进的性能。广泛的消融研究证明了所提出的计划,本地感知模块和全局感知模块的有效性和稳健性。
translated by 谷歌翻译
基于文本的人搜索是一项具有挑战性的任务,旨在搜索具有查询文本描述的图像库中具有相同身份的行人图像。近年来,基于文本的人搜索取得了良好的进步,而最先进的方法通过学习图像和文本之间的本地细粒度对应来实现出色的性能。但是,现有方法通过手工制作的拆分或外部工具从图像和文本中明确提取图像零件和文本短语,然后进行复杂的跨模式本地匹配。此外,现有方法很少考虑由图像特定信息引起的方式之间的信息不平等问题。在本文中,我们提出了一个有效的联合信息和语义对齐网络(ISANET),用于基于文本的人搜索。具体而言,我们首先设计一个特定图像的信息抑制模块,该模块分别通过关系引导定位和通道注意过滤抑制图像背景和环境因素。该设计可以有效地减轻信息不平等问题,并实现图像和文本之间的信息对齐。其次,我们建议一个隐性的本地对齐模块,以将图像和文本功能适应一组模态共享的语义主题中心,并隐式地学习图像和文本之间的本地细粒度对应关系,而无需其他监督信息和复杂的跨模式互动。此外,引入了全球一致性作为当地观点的补充。在多个数据库上进行的广泛实验证明了所提出的ISANET的有效性和优势。
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
Object re-identification method is made up of backbone network, feature aggregation, and loss function. However, most backbone networks lack a special mechanism to handle rich scale variations and mine discriminative feature representations. In this paper, we firstly design a hierarchical similarity graph module (HSGM) to reduce the conflict of backbone and re-identification networks. The designed HSGM builds a rich hierarchical graph to mine the mapping relationships between global-local and local-local. Secondly, we divide the feature map along with the spatial and channel directions in each hierarchical graph. The HSGM applies the spatial features and channel features extracted from different locations as nodes, respectively, and utilizes the similarity scores between nodes to construct spatial and channel similarity graphs. During the learning process of HSGM, we utilize a learnable parameter to re-optimize the importance of each position, as well as evaluate the correlation between different nodes. Thirdly, we develop a novel hierarchical similarity graph network (HSGNet) by embedding the HSGM in the backbone network. Furthermore, HSGM can be easily embedded into backbone networks of any depth to improve object re-identification ability. Finally, extensive experiments on three large-scale object datasets demonstrate that the proposed HSGNet is superior to state-of-the-art object re-identification approaches.
translated by 谷歌翻译
虽然RGB-Infrared跨型号人重新识别(RGB-IR Reid)在24小时智能监测中启用了巨大进展,但最先进的仍然严重依赖于微调想象的预先训练的网络。由于单模性质,这种大规模的预训练可以产生逆向模态图像检索性能的RGB偏置的表示。本文介绍了一个自我监督的预训练替代品,命名为模态感知多个粒度学习(MMGL),该学习(MMGL)直接从划痕上培训模型,而是在没有外部数据和复杂的调整技巧的情况下实现竞争结果。具体而言,MMGL将RGB-IR图像映射到共享潜在置换空间中,通过最大化循环 - 一致的RGB-IR图像补片之间的协议,进一步提高了局部辨别性。实验表明,MMGL在更快的训练速度(几小时内收敛)和求解数据效率(<5%数据大小)比想象预先训练更好地了解更好的表示(+ 6.47%的秩1)。结果还表明它概括为各种现有模型,损失,并且在数据集中具有有希望的可转换性。代码将被释放。
translated by 谷歌翻译
基于视频的人重新识别(REID)旨在识别多个非重叠摄像机的给定的行人视频序列。为了汇总视频样本的时间和空间特征,引入了图神经网络(GNN)。但是,现有的基于图的模型(例如STGCN)在节点功能上执行\ textIt {mean}/\ textit {max boming}以获取图表表示,该图表忽略了图形拓扑和节点的重要性。在本文中,我们建议图形池网络(GPNET)学习视频检索的多粒度图表示,其中实现了\ textit {Graph boming layer},以简化图形。我们首先构建了一个多粒图,其节点特征表示由骨架学到的图像嵌入,并且在颞和欧几里得邻域节点之间建立了边缘。然后,我们实现多个图形卷积层以在图上执行邻域聚集。为了下图,我们提出了一个多头全注意图池(MHFAPOOL)层,该图集合了现有节点群集和节点选择池的优势。具体而言,MHFAPOOL将全部注意矩阵的主要特征向量作为聚合系数涉及每个汇总节点中的全局图信息。广泛的实验表明,我们的GPNET在四个广泛使用的数据集(即火星,dukemtmc-veneoreid,ilids-vid and Prid-2011)上实现了竞争结果。
translated by 谷歌翻译
未经监督的人重新识别(重新ID)由于其解决监督重新ID模型的可扩展性问题而吸引了越来越多的关注。大多数现有的无监督方法采用迭代聚类机制,网络基于由无监督群集生成的伪标签进行培训。但是,聚类错误是不可避免的。为了产生高质量的伪标签并减轻聚类错误的影响,我们提出了一种新的群集关系建模框架,用于无监督的人重新ID。具体地,在聚类之前,基于曲线图相关学习(GCL)模块探索未标记图像之间的关系,然后将其用于聚类以产生高质量的伪标签。本,GCL适自适应地挖掘样本之间的关系迷你批次以减少培训时异常聚类的影响。为了更有效地训练网络,我们进一步提出了一种选择性对比学习(SCL)方法,具有选择性存储器银行更新策略。广泛的实验表明,我们的方法比在Market1501,Dukemtmc-Reid和MSMT17数据集上的大多数最先进的无人监督方法显示出更好的结果。我们将发布模型再现的代码。
translated by 谷歌翻译
人重新识别(Reid)旨在从不同摄像机捕获的图像中检索一个人。对于基于深度学习的REID方法,已经证明,使用本地特征与人物图像的全局特征可以帮助为人员检索提供强大的特征表示。人类的姿势信息可以提供人体骨架的位置,有效地指导网络在这些关键领域更加关注这些关键领域,也可能有助于减少来自背景或闭塞的噪音分散。然而,先前与姿势相关的作品提出的方法可能无法充分利用姿势信息的好处,并没有考虑不同当地特征的不同贡献。在本文中,我们提出了一种姿势引导图注意网络,一个多分支架构,包括一个用于全局特征的一个分支,一个用于中粒体特征的一个分支,一个分支用于细粒度关键点特征。我们使用预先训练的姿势估计器来生成本地特征学习的关键点热图,并仔细设计图表卷积层以通过建模相似关系来重新评估提取的本地特征的贡献权重。实验结果表明我们对歧视特征学习的方法的有效性,我们表明我们的模型在几个主流评估数据集上实现了最先进的表演。我们还对我们的网络进行了大量的消融研究和设计不同类型的比较实验,以证明其有效性和鲁棒性,包括整体数据集,部分数据集,遮挡数据集和跨域测试。
translated by 谷歌翻译