智能论文笔记

Cross-modal Local Shortest Path and Global Enhancement for Visible-Thermal Person Re-Identification

Xiaohong Wang , Chaoqi Li , Xiangcai Ma

分类：计算机视觉

2022-06-09

除了考虑人类姿势和遮挡引起的识别难度外，还必须解决可见的 - 热跨模式重新识别（VT-REID）任务中不同成像系统引起的模态差异。在本文中，我们提出了跨模式的局部最短路径和全局增强（CM-LSP-GE）模块，这是一个基于本地和全局特征联合学习的两流网络。我们论文的核心思想是使用局部功能对准来解决遮挡问题，并通过增强全球功能来解决模态差异。首先，基于注意力的两流重新系统网络旨在提取双模式特征并映射到统一的特征空间。然后，为了解决跨模式的人姿势和遮挡问题，将图像水平切成几个相等的部分以获得局部特征，并且使用两个图之间的局部特征中最短路径来实现细粒度的局部特征对齐。第三，批归归式化的增强模块应用了全局特征来增强策略，从而导致不同类别之间的差异增强。多粒度损失融合策略进一步提高了算法的性能。最后，使用本地和全球特征的联合学习机制用于提高跨模式的重新识别精度。两个典型数据集的实验结果表明，我们的模型显然优于最先进的方法。尤其是在SYSU-MM01数据集上，我们的模型在Rank-1和MAP的所有搜索术语中都可以获得2.89％和7.96％的增益。源代码将很快发布。

translated by 谷歌翻译

Deep learning-based person re-identification methods: A survey and outlook of recent works

Zhangqiang Ming , Min Zhu , Xiangkun Wang , Jiamin Zhu , Junlong Cheng , Yong Yang , Xiaoyong Wei

分类：计算机视觉

2021-10-10

近年来，随着对公共安全的需求越来越多，智能监测网络的快速发展，人员重新识别（RE-ID）已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是，传统的人重新ID方法需要手动标记人的目标，这消耗了大量的劳动力成本。随着深度神经网络的广泛应用，出现了许多基于深入的基于学习的人物的方法。因此，本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先，我们总结了对几个最近公布的人的研究重新ID调查，并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次，我们提出了一种多维分类，根据度量标准和表示学习，将基于深度学习的人的重新ID方法分为四类，包括深度度量学习，本地特征学习，生成的对抗学习和序列特征学习的方法。此外，我们根据其方法和动机来细分以上四类，讨论部分子类别的优缺点。最后，我们讨论了一些挑战和可能的研究方向的人重新ID。

translated by 谷歌翻译

Homogeneous and Heterogeneous Relational Graph for Visible-infrared Person Re-identification

Yujian Feng , Feng Chen , Jian Yu , Yimu Ji , Fei Wu , Shangdong Liu , Xiao-Yuan Jing

分类：计算机视觉

2021-09-18

可见红外人重新识别（VI RE-ID）旨在使可见和红外模式之间的人物图像匹配。现有的VI RE-ID方法主要集中在图像中提取均匀的结构关系，即局部特征之间的关系，同时忽略不同方式中局部特征的异构相关性。异构结构化关系对于学习有效的身份表示并执行跨模式匹配至关重要。在本文中，我们通过单独的模态的模态特定图来模拟均匀结构关系，然后与可见光和红外模态的模态特定图挖掘异质结构相关性。首先，均匀的结构图（HOSG）占地一流的矿物，任意节点（本地特征）与可见或红外图像中的所有REST节点之间的静态关系，以学习有效的身份表示。其次，为了找到跨型号身份 - 一致的对应关系，异构曲线图对齐模块（HGGAM）进一步测量了通过路由搜索方式的两个模式的局部节点特征之间的关系边缘强度。第三，我们提出了跨模型互相关（CMCC）丢失来提取可见和红外图形的特征表示的模态不变性。 CMCC计算模态之间的相互信息，并驱逐语义冗余。对Sysu-MM01和RegDB数据集的广泛实验表明，我们的方法优于最先进的最先进，增益为13.73 \％和9.45 \％Rank1 / Map。该代码可在https://github.com/fegnyujian/homerneous-和 - obeterogeneous-relional-agraphy获得。

translated by 谷歌翻译

Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-identification

Hu Lu , Xuezhang Zou , Pingping Zhang

分类：计算机视觉

2022-12-01

Visible-Infrared Person Re-Identification (VI-ReID) is a challenging retrieval task under complex modality changes. Existing methods usually focus on extracting discriminative visual features while ignoring the reliability and commonality of visual features between different modalities. In this paper, we propose a novel deep learning framework named Progressive Modality-shared Transformer (PMT) for effective VI-ReID. To reduce the negative effect of modality gaps, we first take the gray-scale images as an auxiliary modality and propose a progressive learning strategy. Then, we propose a Modality-Shared Enhancement Loss (MSEL) to guide the model to explore more reliable identity information from modality-shared features. Finally, to cope with the problem of large intra-class differences and small inter-class differences, we propose a Discriminative Center Loss (DCL) combined with the MSEL to further improve the discrimination of reliable features. Extensive experiments on SYSU-MM01 and RegDB datasets show that our proposed framework performs better than most state-of-the-art methods. For model reproduction, we release the source code at https://github.com/hulu88/PMT.

translated by 谷歌翻译

Visible-Infrared Person Re-Identification Using Privileged Intermediate Information

Mahdi Alehdaghi , Arthur Josi , Rafael M. O. Cruz , Eric Granger

分类：计算机视觉 | 机器学习

2022-09-19

可见的红外人员重新识别（REID）旨在认识到RGB和IR摄像机网络中的同一个人。一些深度学习（DL）模型已直接纳入了两种模式，以在联合表示空间中区分人。但是，由于RGB和IR模式之间数据分布的较大域转移，因此这个跨模式的REID问题仍然具有挑战性。％本文引入了一种新的方法，用于创建中间虚拟域，该域在训练过程中充当两个主要领域（即RGB和IR模式）之间的桥梁。该中间域被视为在测试时间无法获得的特权信息（PI），并允许将此跨模式匹配任务制定为在特权信息（LUPI）下学习的问题。我们设计了一种新方法，以在可见的和红外域之间生成图像，这些方法提供了其他信息，以通过中间域的适应来训练深层REID模型。特别是，通过在训练过程中采用无色和多步三重态损失目标，我们的方法提供了通用的特征表示空间，这些空间对大型可见的红外域移动具有牢固的功能。％关于挑战性可见红外REID数据集的实验结果表明，我们提出的方法始终提高匹配的准确性，而在测试时没有任何计算开销。该代码可在：\ href {https://github.com/alehdaghi/cross-modal-re-id-iid-via-lupi} {https://github.com/alehdaghi/alehdaghi/cross-modal-re-re-id-i-id--i- id-i--i- id-id-i--i--via-lupi} { Via-Lupi}

translated by 谷歌翻译

Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search

Shuanglin Yan , Hao Tang , Liyan Zhang , Jinhui Tang

分类：计算机视觉

2022-08-30

基于文本的人搜索是一项具有挑战性的任务，旨在搜索具有查询文本描述的图像库中具有相同身份的行人图像。近年来，基于文本的人搜索取得了良好的进步，而最先进的方法通过学习图像和文本之间的本地细粒度对应来实现出色的性能。但是，现有方法通过手工制作的拆分或外部工具从图像和文本中明确提取图像零件和文本短语，然后进行复杂的跨模式本地匹配。此外，现有方法很少考虑由图像特定信息引起的方式之间的信息不平等问题。在本文中，我们提出了一个有效的联合信息和语义对齐网络（ISANET），用于基于文本的人搜索。具体而言，我们首先设计一个特定图像的信息抑制模块，该模块分别通过关系引导定位和通道注意过滤抑制图像背景和环境因素。该设计可以有效地减轻信息不平等问题，并实现图像和文本之间的信息对齐。其次，我们建议一个隐性的本地对齐模块，以将图像和文本功能适应一组模态共享的语义主题中心，并隐式地学习图像和文本之间的本地细粒度对应关系，而无需其他监督信息和复杂的跨模式互动。此外，引入了全球一致性作为当地观点的补充。在多个数据库上进行的广泛实验证明了所提出的ISANET的有效性和优势。

translated by 谷歌翻译

HTML版本

MMD-ReID: A Simple but Effective Solution for Visible-Thermal Person ReID

Chaitra Jambigi , Ruchit Rawal , Anirban Chakraborty

分类：计算机视觉 | 机器学习

2021-11-09

学习模态不变功能是可见热跨模板人员重新凝视（VT-REID）问题的核心，其中查询和画廊图像来自不同的模式。现有工作通过使用对抗性学习或仔细设计特征提取模块来隐式地将像素和特征空间中的模态对齐。我们提出了一个简单但有效的框架MMD-REID，通过明确的差异减少约束来降低模态差距。 MMD-REID从最大均值（MMD）中获取灵感，广泛使用的统计工具用于确定两个分布之间的距离。 MMD-REID采用新的基于边缘的配方，以匹配可见和热样品的类条件特征分布，以最大限度地减少级别的距离，同时保持特征辨别性。 MMD-Reid是一个简单的架构和损失制定方面的框架。我们对MMD-REID的有效性进行了广泛的实验，以使MMD-REID对调整边缘和阶级条件分布的有效性，从而学习模型无关和身份的一致特征。所提出的框架显着优于Sysu-MM01和RegDB数据集的最先进的方法。代码将在https://github.com/vcl-iisc/mmd -reid发布

translated by 谷歌翻译

Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation

Shizhou Zhang , Yifei Yang , Peng Wang , Guoqiang Liang , Xiuwei Zhang , Yanning Zhang

分类：计算机视觉

2019-10-25

由于其实际意义，跨情态人重新识别的问题已得到越来越多的关注。由于人类通常会在比较两个类似的物体时参加差异的事实，我们提出了一种双径跨模型特征学习框架，其保留了内在空间缩小，并参加了输入跨模型图像对的差异。我们的框架由两个主要组件组成：双路径空间结构保留公共空间网络（DSCSN）和对比相关网络（CCN）。前者将跨型号图像嵌入到共同的3D张量空间而不失去空间结构，而后者通过动态比较输入图像对提取对比特征。注意，为输入RGB和红外图像生成的表示彼此相互依赖。我们对两个公共可用RGB-IR REID数据集，SYSU-MM01和REGDB进行了广泛的实验，我们提出的方法优于完整和简化的评估模式的大边距优于最先进的算法。

translated by 谷歌翻译

Learning Modal-Invariant and Temporal-Memory for Video-based Visible-Infrared Person Re-Identification

Xinyu Lin , Jinxing Li , Zeyu Ma , Huafeng Li , Shuang Li , Kaixiong Xu , Guangming Lu , David Zhang

分类：计算机视觉

2022-08-04

感谢您的跨模式检索技术，通过将它们投射到一个共同的空间中，可以在24小时的监视系统中重新进行重新识别，从而实现了可见的信号（RGB-IR）重新识别（RE-ID）。但是，关于探测到探测器，几乎所有现有的基于RGB-IR的跨模式人RE-ID方法都集中在图像到图像匹配上，而视频对视频匹配包含更丰富的空间 - 和时间信息仍未探索。在本文中，我们主要研究基于视频的跨模式人Re-ID方法。为了实现这项任务，构建了一个基于视频的RGB-IR数据集，其中927个有效身份，具有463,259帧和21,863个曲目，由12个RGB/IR摄像机捕获。基于我们构造的数据集，我们证明，随着曲目中帧的增加，该性能确实达到了更多的增强功能，证明了视频对视频匹配在RGB-IR RE-ID中的重要性。此外，进一步提出了一种新颖的方法，不仅将两种模态投射到模态不变子空间，而且还提取了运动不变的时间记忆。多亏了这两种策略，我们基于视频的跨模式人重新ID取得了更好的结果。代码和数据集以：https：//github.com/vcmproject233/mitml发布。

translated by 谷歌翻译

On Exploring Pose Estimation as an Auxiliary Learning Task for Visible-Infrared Person Re-identification

Yunqi Miao , Nianchang Huang , Xiao Ma , Qiang Zhang , Jungong Han

分类：计算机视觉

2022-01-11

可见红外人重新识别（VI-REID）由于可见和红外模式之间存在较大的差异而受到挑战。大多数开创性方法通过学习模态共享和ID相关的功能来降低类内变型和跨性间差异。但是，在VI-REID中尚未充分利用一个显式模态共享提示。此外，现有特征学习范例在全局特征或分区特征条带上强加约束，忽略了全局和零件特征的预测一致性。为了解决上述问题，我们将构成估算作为辅助学习任务，以帮助vi-reid任务在端到端的框架中。通过以互利的方式联合培训这两个任务，我们的模型学习了更高质量的模态共享和ID相关的功能。在它之上，通过分层特征约束（HFC）无缝同步全局功能和本地特征的学习，前者使用知识蒸馏策略监督后者。两个基准VI-REID数据集的实验结果表明，该方法始终如一地通过显着的利润来改善最先进的方法。具体而言，我们的方法在RegDB数据集上取决于针对最先进的方法的近20美元\％$地图改进。我们的兴趣调查结果突出了vi-reid中辅助任务学习的使用。

translated by 谷歌翻译

Deep Learning for Person Re-identification: A Survey and Outlook

Mang Ye , Jianbing Shen , Gaojie Lin , Tao Xiang , Ling Shao , Steven C. H. Hoi

分类：

2020-01-13

Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.

translated by 谷歌翻译

Counterfactual Intervention Feature Transfer for Visible-Infrared Person Re-identification

Xulin Li , Yan Lu , Bin Liu , Yating Liu , Guojun Yin , Qi Chu , Jinyang Huang , Feng Zhu , Rui Zhao , Nenghai Yu

分类：计算机视觉

2022-08-01

基于图形的模型最近在人的重新识别任务中取得了巨大的成功，该任务首先计算了不同人之间的图形拓扑结构（亲和力），然后将信息传递给他们的信息以实现更强的功能。但是，我们在可见的红外人员重新识别任务（VI-REID）中发现了现有的基于图的方法，因为有两个问题：1）火车测试模式平衡差距，这是VI-REID任务的属性。两个模式数据的数量在训练阶段平衡，但推理极为不平衡，导致基于图的VI-REID方法的概括较低。 2）由图形模块的端到端学习方式引起的亚最佳拓扑结构。我们分析训练有素的输入特征会削弱图形拓扑的学习，从而使其在推理过程中不够概括。在本文中，我们提出了一种反事实干预特征转移（CIFT）方法来解决这些问题。具体而言，均匀和异质的特征转移（H2FT）旨在通过两种独立的设计的图形模块和不平衡的场景模拟来减少火车测试模态差距。此外，提出了反事实关系干预（CRI）来利用反事实干预和因果效应工具来突出拓扑结构在整个训练过程中的作用，这使图形拓扑结构更加可靠。对标准VI-REID基准测试的广泛实验表明，CIFT在各种设置下都优于最新方法。

translated by 谷歌翻译

Multi-spectral Vehicle Re-identification with Cross-directional Consistency Network and a High-quality Benchmark

Aihua Zheng , Xianpeng Zhu , Chenglong Li , Jin Tang , Jixin Ma

分类：计算机视觉

2022-08-01

为了应对复杂的照明环境中的车辆重新识别（RE-ID）的挑战，由于其出色的互补优势，因此考虑了多光谱来源，例如可见和红外信息。然而，多光谱的车辆重新ID遭受了由不同模态的异质特性以及各种身份不同视图的各种外观的巨大挑战引起的交叉模式差异。同时，各种环境干扰会导致每种方式中的样本分布差异很大。在这项工作中，我们提出了一个新型的跨方向一致性网络，以同时克服与模式和样本方面的差异。特别是，我们设计了一个新的跨方向中心损失，以将每个身份的模态中心拉动接近减轻的跨模式差异，而每个身份的样本中心接近减轻样品差异。这种策略可以为车辆重新ID生成歧视性的多光谱特征表示。此外，我们设计一个自适应层归一化单元，以动态调整个体特征分布以处理稳健学习的模式内特征的分布差异。为了提供一个全面的评估平台，我们创建了高质量的RGB-NIR TIR多光谱车辆重新ID基准（MSVR310），其中包括从广泛的观点，时间跨度和环境复杂性的310辆不同的车辆。对创建和公共数据集进行的全面实验证明了与最先进方法相比，提出的方法的有效性。

translated by 谷歌翻译

CycleTrans: Learning Neutral yet Discriminative Features for Visible-Infrared Person Re-Identification

Qiong Wu , Jiaer Xia , Pingyang Dai , Yiyi Zhou , Yongjian Wu , Rongrong Ji

分类：计算机视觉

2022-08-21

可见的红外人员重新识别（VI-REID）是与可见和红外形态相同的个人匹配的任务。它的主要挑战在于由在不同光谱上运行的相机引起的模态差距。现有的VI-Reid方法主要集中于跨模式学习的一般特征，通常是以特征可区分性为代价。为了解决这个问题，我们提出了一个基于周期的新型网络，用于中性但歧视性特征学习，称为环形。具体而言，Cycletrans使用轻巧的知识捕获模块（KCM）根据伪查询从与模态相关的特征地图捕获丰富的语义。之后，根据模态 - 欧罗威兰原型将这些特征转换为中性特征，将差异建模模块（DMM）部署为中性。为了确保特征可区分性，进一步部署了另外两个KCMs以进行特征周期结构。通过自行车结构，我们的方法可以在保留其出色的语义的同时学习有效的中性特征。在SYSU-MM01和REGDB数据集上进行的广泛实验验证了环形验证的优点针对最先进的方法，在SYSU-MM01中排名1的 +4.57％，REGDB中排名1 +2.2％。

translated by 谷歌翻译

Look Before You Leap: Improving Text-based Person Retrieval by Learning A Consistent Cross-modal Common Manifold

Zijie Wang , Aichun Zhu , Jingyi Xue , Xili Wan , Chao Liu , Tian Wang , Yifeng Li

分类：计算机视觉

2022-09-13

基于文本的人检索的核心问题是如何弥合多模式数据之间的异质差距。以前的许多方法，用于学习以\ textbf {交叉模式分布共识预测（CDCP）}方式学习潜在的常见歧管映射范式。当将某个模态分布到公共歧管中的映射特征时，相反模态的特征分布是完全不可见的。也就是说，如何实现跨模式分布共识，以便将多模式特征嵌入和对齐构建的跨模式公共歧管中，这完全取决于模型本身的经验，而不是实际情况。通过这种方法，不可避免的是，多模式数据在共同的歧管中不能很好地对齐，这最终导致了次优的检索性能。为了克服此\ textbf {CDCP困境}，我们提出了一种称为lbul的新颖算法，以学习基于文本的人检索的一致的跨模式公共歧管（C $^{3} $ M）。正如中文的谚语所说，我们方法的核心思想是``\ textit {san si er hou xing}'，即\ textbf {thee thee thee thee thee you lap leak（lbul）}。 LBUL的常见歧管映射机制包含一个看起来的步骤和跳跃步骤。与基于CDCP的方法相比，LBUL考虑了视觉和文本方式的分布特征，然后将数据从某种模式嵌入到C $^{3} $ M中以获得更固体的交叉模式分布共识，从而获得了优质检索准确性。我们对两个基于文本的人检索数据集Cuhk-Pedes和RSTPREID评估了建议的方法。实验结果表明，所提出的LBUL胜过先前的方法，并实现了最新的性能。

translated by 谷歌翻译

MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting

Pengyu Chen , Junyu Gao , Yuan Yuan , Qi Wang

分类：计算机视觉

2022-08-14

RGB-Thermal（RGB-T）人群计数是一项具有挑战性的任务，它将热图像用作与RGB图像的互补信息，以应对低弹片或类似背景的场景中单峰基于RGB的方法的降低。大多数现有方法提出了精心设计的结构，用于RGB-T人群计数中的跨模式融合。但是，这些方法在编码RGB-T图像对中编码跨模式上下文语义信息方面存在困难。考虑到上述问题，我们提出了一个称为多发意见融合网络（MAFNET）的两流RGB-T人群计数网络，该网络旨在根据注意机制完全捕获RGB和热模式中的远距离上下文信息。具体而言，在编码器部分中，多发融合（MAF）模块嵌入到全球级别的两个特定于模态分支的不同阶段中。此外，引入了多模式多尺度聚合（MMA）回归头，以充分利用跨模态的多尺度和上下文信息，以生成高质量的人群密度图。在两个受欢迎的数据集上进行的广泛实验表明，拟议的MAFNET对RGB-T人群计数有效，并实现了最新的性能。

translated by 谷歌翻译

Self-Supervised Modality-Aware Multiple Granularity Pre-Training for RGB-Infrared Person Re-Identification

Lin Wan , Qianyan Jing , Zongyuan Sun , Chuang Zhang , Zhihang Li , Yehansen Chen

分类：计算机视觉

2021-12-12

虽然RGB-Infrared跨型号人重新识别（RGB-IR Reid）在24小时智能监测中启用了巨大进展，但最先进的仍然严重依赖于微调想象的预先训练的网络。由于单模性质，这种大规模的预训练可以产生逆向模态图像检索性能的RGB偏置的表示。本文介绍了一个自我监督的预训练替代品，命名为模态感知多个粒度学习（MMGL），该学习（MMGL）直接从划痕上培训模型，而是在没有外部数据和复杂的调整技巧的情况下实现竞争结果。具体而言，MMGL将RGB-IR图像映射到共享潜在置换空间中，通过最大化循环 - 一致的RGB-IR图像补片之间的协议，进一步提高了局部辨别性。实验表明，MMGL在更快的训练速度（几小时内收敛）和求解数据效率（<5％数据大小）比想象预先训练更好地了解更好的表示（+ 6.47％的秩1）。结果还表明它概括为各种现有模型，损失，并且在数据集中具有有希望的可转换性。代码将被释放。

translated by 谷歌翻译

Towards Generalizable Person Re-identification with a Bi-stream Generative Model

Xin Xu , Wei Liu , Zheng Wang , Ruiming Hu , Qi Tian

分类：计算机视觉

2022-06-19

由于其在看不见的数据域中的强大适应能力，可普遍的人重新识别（RE-ID）引起了人们的注意力。但是，现有的解决方案通常会忽略穿越摄像机（例如照明和解决方案差异）或行人未对准（例如，观点和姿势差异），这在适应新领域时很容易导致概括能力。在本文中，我们将这些困难提出为：1）相机相机（CC）问题，它表示由不同的相机引起的各种人类外观变化； 2）摄像头（CP）问题，这表明在不同的摄像机观点或更改姿势下，由相同身份人引起的行人未对准。为了解决上述问题，我们提出了一个双流生成模型（BGM），以学习与摄像机不变的全局功能和行人对准本地功能融合的细粒度表示，该功能包含编码网络和两个流解码子网络。在原始的行人图像的指导下，通过过滤跨摄像机干扰因子来学习CC问题的摄像头全局功能。对于CP问题，另一个流可以使用信息完整的语义对齐零件图来学习一个与人行人对齐的本地特征，以进行行人对齐。此外，提出了部分加权损失函数，以减少丢失零件对行人对齐的影响。广泛的实验表明，我们的方法优于大规模概括性重新ID基准的最新方法，涉及域的概括设置和跨域设置。

translated by 谷歌翻译

HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval

Jie Guo , Meiting Wang , Yan Zhou , Bin Song , Yuhao Chi , Wei Fan , Jianglong Chang

分类：计算机视觉

2022-12-16

Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.

translated by 谷歌翻译

Eliminate Deviation with Deviation for Data Augmentation and a General Multi-modal Data Learning Method

Yunpeng Gong , Liqing Huang , Lifei Chen

分类：计算机视觉

2021-01-21

计算机视觉的挑战之一是它需要适应可变环境中的颜色偏差。因此，将颜色偏差对预测的不利影响最小化是视觉任务的主要目标之一。当前的解决方案着重于使用生成模型增强训练数据以增强输入变化的不变性。但是，这种方法通常会引入新的噪声，从而限制了生成数据的增益。为此，本文提出了一种策略，消除了偏差的偏差，该偏差称为随机颜色辍学（RCD）。我们的假设是，如果查询图像和画廊图像之间存在颜色偏差，那么在忽略颜色信息之后，某些示例的检索结果会更好。具体而言，该策略通过在训练数据中辍学的部分颜色信息来平衡神经网络中颜色特征和无关的特征之间的权重，以克服颜色devitaion的效果。所提出的RCD可以与各种现有的REID模型相结合而不更改学习策略，并且可以应用于其他计算机视野字段，例如对象检测。在几个REID基线和三个常见的大规模数据集（例如Market1501，Dukemtmc和MSMT17）上进行的实验已验证了该方法的有效性。跨域测试的实验表明，该策略显着消除了域间隙。此外，为了了解RCD的工作机制，我们从分类的角度分析了该策略的有效性，这表明在具有强大域变化的视觉任务中，最好利用许多而不是所有颜色信息。

translated by 谷歌翻译