给定自然语言描述,基于文本的人检索旨在从大规模人物图像数据库中识别目标人的图像。现有方法通常面对\ textbf {颜色过度盟军问题},这意味着在匹配跨模式数据时,模型在很大程度上依赖颜色信息。实际上,颜色信息是检索的重要决策,但是对颜色的过度依赖会分散模型从其他关键线索(例如纹理信息,结构信息等)中分散注意力,从而导致了次优的检索表现。为了解决这个问题,在本文中,我们建议\ textbf {c} apture \ textbf {a} ll-round \ textbf {i} nformation \ textbf {b} eyond \ textbf {c} olor(c} olor( )通过用于基于文本的人检索的共同优化的多分支体系结构。 CAIBC包含三个分支,包括RGB分支,灰度(GRS)分支和颜色(CLR)分支。此外,为了以平衡和有效的方式充分使用全方位信息,采用了相互学习机制来启用三个分支,这些分支可以参与信息的各个方面,以相互交流和学习。进行了广泛的实验分析,以评估我们在\ textbf {有监督}和\ textbf {弱监督}基于文本的人检索的\ textbf {pertexbf {pertegbf {pertegbf {cuhk-pedes和rstpreid数据集上的提议的CAIBC方法,这表明CAIBC显着超过现有的方法和现有方法。在这三个任务上实现最先进的性能。
translated by 谷歌翻译
基于文本的人检索的核心问题是如何弥合多模式数据之间的异质差距。以前的许多方法,用于学习以\ textbf {交叉模式分布共识预测(CDCP)}方式学习潜在的常见歧管映射范式。当将某个模态分布到公共歧管中的映射特征时,相反模态的特征分布是完全不可见的。也就是说,如何实现跨模式分布共识,以便将多模式特征嵌入和对齐构建的跨模式公共歧管中,这完全取决于模型本身的经验,而不是实际情况。通过这种方法,不可避免的是,多模式数据在共同的歧管中不能很好地对齐,这最终导致了次优的检索性能。为了克服此\ textbf {CDCP困境},我们提出了一种称为lbul的新颖算法,以学习基于文本的人检索的一致的跨模式公共歧管(C $^{3} $ M)。正如中文的谚语所说,我们方法的核心思想是``\ textit {san si er hou xing}',即\ textbf {thee thee thee thee thee you lap leak(lbul)}。 LBUL的常见歧管映射机制包含一个看起来的步骤和跳跃步骤。与基于CDCP的方法相比,LBUL考虑了视觉和文本方式的分布特征,然后将数据从某种模式嵌入到C $^{3} $ M中以获得更固体的交叉模式分布共识,从而获得了优质检索准确性。我们对两个基于文本的人检索数据集Cuhk-Pedes和RSTPREID评估了建议的方法。实验结果表明,所提出的LBUL胜过先前的方法,并实现了最新的性能。
translated by 谷歌翻译
基于文本的人搜索是一项具有挑战性的任务,旨在搜索具有查询文本描述的图像库中具有相同身份的行人图像。近年来,基于文本的人搜索取得了良好的进步,而最先进的方法通过学习图像和文本之间的本地细粒度对应来实现出色的性能。但是,现有方法通过手工制作的拆分或外部工具从图像和文本中明确提取图像零件和文本短语,然后进行复杂的跨模式本地匹配。此外,现有方法很少考虑由图像特定信息引起的方式之间的信息不平等问题。在本文中,我们提出了一个有效的联合信息和语义对齐网络(ISANET),用于基于文本的人搜索。具体而言,我们首先设计一个特定图像的信息抑制模块,该模块分别通过关系引导定位和通道注意过滤抑制图像背景和环境因素。该设计可以有效地减轻信息不平等问题,并实现图像和文本之间的信息对齐。其次,我们建议一个隐性的本地对齐模块,以将图像和文本功能适应一组模态共享的语义主题中心,并隐式地学习图像和文本之间的本地细粒度对应关系,而无需其他监督信息和复杂的跨模式互动。此外,引入了全球一致性作为当地观点的补充。在多个数据库上进行的广泛实验证明了所提出的ISANET的有效性和优势。
translated by 谷歌翻译
基于文本的人检索旨在根据文本描述找到查询人员。关键是学习视觉文本模式之间的常见潜在空间映射。为了实现这一目标,现有的作品采用细分来获得明确的跨模式对齐方式或利用注意力来探索显着对准。这些方法有两个缺点:1)标记交叉模式比对很耗时。 2)注意方法可以探索显着的跨模式对齐,但可能会忽略一些微妙而有价值的对。为了缓解这些问题,我们为基于文本的人检索引入了一个隐式视觉文本(IVT)框架。与以前的模型不同,IVT利用单个网络来学习两种模式的表示形式,这有助于视觉文本相互作用。为了探索细粒的对准,我们进一步提出了两个隐式语义比对范式:多级比对(MLA)和双向掩码建模(BMM)。 MLA模块在句子,短语和单词级别上探索了更精细的匹配,而BMM模块旨在挖掘视觉和文本模态之间的\ textbf {更多}语义对齐。进行了广泛的实验,以评估公共数据集中提出的IVT,即Cuhk-Pedes,RSTPREID和ICFG-PEDES。即使没有明确的身体部位对准,我们的方法仍然可以达到最先进的表现。代码可在以下网址获得:https://github.com/tencentyouturesearch/personretrieval-ivt。
translated by 谷歌翻译
跨模式的人重新识别(RE-ID)对于现代视频监视系统至关重要。关键的挑战是与一个人提供的语义信息引起的跨模式表示,并忽略背景信息。这项工作介绍了一种新型的基于卷积神经网络(CNN)的体系结构,旨在学习语义上的跨模式视觉和文本表示。基础构建块,名为Axm-block,是一个统一的多层网络,该网络会动态利用多尺度知识,并根据共享语义重新校准每种模式。为了补充卷积设计,在文本分支中应用上下文注意力以操纵长期依赖性。此外,我们提出了一种独特的设计,以增强基于视觉零件的功能连贯性和局部性信息。我们的框架具有新颖的能力,可以在功能学习阶段隐式学习模式之间的一致语义。统一的特征学习有效地利用文本数据作为视觉表示学习的超级注释信号,并自动拒绝无关的信息。整个AXM-NET经过Cuhk-Pedes数据的端到端训练。我们报告了两个任务的结果,即人搜索和跨模式重新ID。 AXM-NET优于当前最新方法(SOTA)方法,并在Cuhk-Pedes测试集上获得64.44 \%等级@1。在Crossre-ID和Cuhk-Sysu数据集中,它还胜过竞争对手的竞争对手$> $ 10 \%。
translated by 谷歌翻译
文本对象的重新识别(REID)旨在通过文本描述搜索感兴趣的身份的行人图像。由于丰富的模式内变化和明显的模式间差异,这是具有挑战性的。现有作品通常忽略两种方式之间的特征粒度差异,即,视觉特征通常是细粒度的,而文本特征则粗糙,这主要负责大型模式间间隙。在本文中,我们提出了一个基于变形金刚的端到端框架,以学习两种模式的粒度统一表示,称为LGUR。 LGUR框架包含两个模块:基于字典的粒度比对(DGA)模块和基于原型的粒度统一(PGU)模块。在DGA中,为了使两种模式的粒度对齐,我们引入了一个多模式共享词典(MSD)以重建视觉和文本特征。此外,DGA还具有两个重要因素,即跨模式指导和以前景为中心的重建,以促进MSD的优化。在PGU中,我们采用一组共享和可学习的原型作为查询,以提取粒度统一特征空间中这两种方式的多样化和语义对齐特征,从而进一步促进了REID的性能。综合实验表明,我们的LGUR在Cuhk-Pedes和ICFG-Pedes数据集上始终以大幅度的优势优于最先进的东西。代码将在https://github.com/zhiyinshao-h/lgur上发布。
translated by 谷歌翻译
Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
translated by 谷歌翻译
我们在这项研究中的目标是研究一个更现实的环境,在这种环境中,我们可以为细粒度的产品类别进行弱监督的多模式实例级产品检索。我们首先贡献了product1m数据集,并定义了两个实际实例级检索任务,以实现价格比较和个性化建议的评估。对于两个实例级任务,如何准确地指出视觉语言数据中提到的产品目标并有效地降低了无关紧要的内容的影响非常具有挑战性。为了解决这个问题,我们利用训练一个更有效的跨模式与模型,该模型能够自适应地能够通过使用一个实体图,其节点和边缘分别表示实体和相似性,从而可以从多模式数据中合并来自多模式数据的关键概念信息。实体。具体而言,为实例级别的商品检索提出了一种新型的实体图增强的跨模式预处理(EGE-CMP)模型,该模型明确地将基于节点的基于节点的基于节点和子图的方式显式地注入实体知识。自我监管的混合流变压器可以减少不同对象内容之间的混淆,从而有效地指导网络专注于具有真实语义的实体。实验结果很好地验证了我们的EGE-CMP的功效和概括性,表现优于几个SOTA跨模式基线,例如夹子,Uniter和Capture。
translated by 谷歌翻译
基于文本的人员搜索旨在通过文本描述检索某个行人的图像。此任务的关键挑战是消除模态间隙,并在模态中实现特征对齐。在本文中,我们提出了一种用于基于文本的人员搜索的语义对齐方法,其中通过自动学习语义对齐的视觉特征和文本特征来实现模态的特征对齐。首先,我们介绍了两个变换器的骨干,以编码图像和文本的强大特征表示。其次,我们设计了一个语义对齐的特征聚合网络,以便自适应地选择和聚合具有相同语义的特征,进入部分感知功能,该功能是通过跨模型部分对齐损耗和分集丢失约束的多头注意模块实现的。Cuhk-Pedes和Flickr30K数据集上的实验结果表明,我们的方法实现了最先进的表演。
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
最近,跨模式的预训练任务一直是一个热点,因为它在各种下文研究中广泛应用,包括检索,字幕,问题答案等。然而,退出的方法采用单媒体预训练模型来探索进行跨模式检索的联合视觉表示,这很容易遭受计算爆炸的影响。此外,尽管常规的双流结构非常有效,但它们仍然缺乏重要的跨模式相互作用,导致性能低。在这些挑战的激励下,我们提出了一个对比的跨模式知识共享预训练(Cookie),以掌握联合文本图像表示。从结构上讲,Cookie由于可接受的时间消耗而采用了传统的双流结构。为了克服上述双流结构的固有缺陷,我们精心设计了两个有效的模块。具体而言,第一个模块是一个体重共享的变压器,它构建在视觉和文本编码器的头上,旨在将语义对齐文本和图像对齐。该设计使视觉和文本路径集中在相同的语义上。另一个是三个专门设计的对比学习,旨在分享不同模型之间的知识。共享的跨模式知识大大发展了单峰表示的研究,从而促进了单模式检索任务。对多模式匹配研究的广泛实验结果,包括跨模式检索,文本匹配和图像检索揭示了我们的计算效率和我们预训练模型的统计指标的上级。
translated by 谷歌翻译
基于文本的视频细分旨在通过用文本查询指定演员及其表演动作来细分视频序列中的演员。由于\ emph {emph {语义不对称}的问题,以前的方法无法根据演员及其动作以细粒度的方式将视频内容与文本查询对齐。 \ emph {语义不对称}意味着在多模式融合过程中包含不同量的语义信息。为了减轻这个问题,我们提出了一个新颖的演员和动作模块化网络,该网络将演员及其动作分别定位在两个单独的模块中。具体来说,我们首先从视频和文本查询中学习与参与者相关的内容,然后以对称方式匹配它们以定位目标管。目标管包含所需的参与者和动作,然后将其送入完全卷积的网络,以预测演员的分割掩模。我们的方法还建立了对象的关联,使其与所提出的时间建议聚合机制交叉多个框架。这使我们的方法能够有效地细分视频并保持预测的时间一致性。整个模型允许联合学习参与者的匹配和细分,并在A2D句子和J-HMDB句子数据集上实现单帧细分和完整视频细分的最新性能。
translated by 谷歌翻译
可见红外人重新识别(VI-REID)由于可见和红外模式之间存在较大的差异而受到挑战。大多数开创性方法通过学习模态共享和ID相关的功能来降低类内变型和跨性间差异。但是,在VI-REID中尚未充分利用一个显式模态共享提示。此外,现有特征学习范例在全局特征或分区特征条带上强加约束,忽略了全局和零件特征的预测一致性。为了解决上述问题,我们将构成估算作为辅助学习任务,以帮助vi-reid任务在端到端的框架中。通过以互利的方式联合培训这两个任务,我们的模型学习了更高质量的模态共享和ID相关的功能。在它之上,通过分层特征约束(HFC)无缝同步全局功能和本地特征的学习,前者使用知识蒸馏策略监督后者。两个基准VI-REID数据集的实验结果表明,该方法始终如一地通过显着的利润来改善最先进的方法。具体而言,我们的方法在RegDB数据集上取决于针对最先进的方法的近20美元\%$地图改进。我们的兴趣调查结果突出了vi-reid中辅助任务学习的使用。
translated by 谷歌翻译
感谢您的跨模式检索技术,通过将它们投射到一个共同的空间中,可以在24小时的监视系统中重新进行重新识别,从而实现了可见的信号(RGB-IR)重新识别(RE-ID)。但是,关于探测到探测器,几乎所有现有的基于RGB-IR的跨模式人RE-ID方法都集中在图像到图像匹配上,而视频对视频匹配包含更丰富的空间 - 和时间信息仍未探索。在本文中,我们主要研究基于视频的跨模式人Re-ID方法。为了实现这项任务,构建了一个基于视频的RGB-IR数据集,其中927个有效身份,具有463,259帧和21,863个曲目,由12个RGB/IR摄像机捕获。基于我们构造的数据集,我们证明,随着曲目中帧的增加,该性能确实达到了更多的增强功能,证明了视频对视频匹配在RGB-IR RE-ID中的重要性。此外,进一步提出了一种新颖的方法,不仅将两种模态投射到模态不变子空间,而且还提取了运动不变的时间记忆。多亏了这两种策略,我们基于视频的跨模式人重新ID取得了更好的结果。代码和数据集以:https://github.com/vcmproject233/mitml发布。
translated by 谷歌翻译
人类识别是事件检测,人跟踪和公共安全的重要课题。有许多方法提出了人类识别,例如面部识别,人重新识别和步态识别。通常,现有方法主要将查询图像分类为图像库集合(I2i)中的特定标识。这对场景非常有限,其中仅在广泛的视频监控应用程序(A2i或I2a)中提供了查询或属性库集合的文本描述。然而,非常少量的努力已经致力于无模式识别,即,以可扩展的方式识别在库中设置的查询。在这项工作中,我们采取初步尝试,并以可扩展的方式制定这样一种新的无模式人类识别(命名为MFHI)任务作为通用零射击学习模型。同时,它能够通过学习每个身份的鉴别性原型来弥合视觉和语义模态。此外,在视觉模型上强制执行语义引导的空间注意,以获得具有高全局类别级和本地属性级别辨别的表示。最后,我们在两个共同挑战的识别任务中设计和开展广泛的实验,包括面部识别和人员重新识别,证明我们的方法优于一种在无模式人体识别方面的各种最先进的方法。
translated by 谷歌翻译
The combination of global and partial features has been an essential solution to improve discriminative performances in person re-identification (Re-ID) tasks. Previous part-based methods mainly focus on locating regions with specific pre-defined semantics to learn local representations, which increases learning difficulty but not efficient or robust to scenarios with large variances. In this paper, we propose an end-to-end feature learning strategy integrating discriminative information with various granularities. We carefully design the Multiple Granularity Network (MGN), a multi-branch deep network architecture consisting of one branch for global feature representations and two branches for local feature representations. Instead of learning on semantic regions, we uniformly partition the images into several stripes, and vary the number of parts in different local branches to obtain local feature representations with multiple granularities. Comprehensive experiments implemented on the mainstream evaluation datasets including Market-1501, DukeMTMC-reid and CUHK03 indicate that our method robustly achieves state-of-the-art performances and outperforms any existing approaches by a large margin. For example, on Market-1501 dataset in single query mode, we obtain a top result of Rank-1/mAP=96.6%/94.2% with this method after re-ranking.
translated by 谷歌翻译
细粒度的图像分析(FGIA)是计算机视觉和模式识别中的长期和基本问题,并为一组多种现实世界应用提供了基础。 FGIA的任务是从属类别分析视觉物体,例如汽车或汽车型号的种类。细粒度分析中固有的小阶级和阶级阶级内变异使其成为一个具有挑战性的问题。利用深度学习的进步,近年来,我们在深入学习动力的FGIA中见证了显着进展。在本文中,我们对这些进展的系统进行了系统的调查,我们试图通过巩固两个基本的细粒度研究领域 - 细粒度的图像识别和细粒度的图像检索来重新定义和扩大FGIA领域。此外,我们还审查了FGIA的其他关键问题,例如公开可用的基准数据集和相关域的特定于应用程序。我们通过突出几个研究方向和开放问题,从社区中突出了几个研究方向和开放问题。
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
作为多媒体信息检索中越来越流行的任务,视频瞬间检索(VMR)旨在根据给定的语言查询从未修剪视频中定位目标时刻。以前的大多数方法都在很大程度上取决于众多手动注释(即瞬间边界),在实践中获取非常昂贵。此外,由于不同数据集之间的域间隙,直接将这些预训练的模型应用于看不见的域,这会导致显着的性能下降。在本文中,我们专注于一项新任务:跨域VMR,其中一个域中完全注重数据集(````源域'''),但是感兴趣的域(``目标域'')仅包含未通知的数据集。据我们所知,我们介绍了有关跨域VMR的第一项研究。为了解决这一新任务,我们提出了一个新型的多模式跨域比对(MMCDA)网络,以将注释知识从源域转移到目标域。但是,由于源和目标域之间的域差异以及视频和查询之间的语义差距,直接将经过训练的模型应用于目标域通常会导致性能下降。为了解决这个问题,我们开发了三个新型模块:(i)域对齐模块旨在使每种模式的不同域之间的特征分布对齐; (ii)跨模式对齐模块旨在将视频和查询特征映射到关节嵌入空间中,并将目标域不同模态之间的特征分布对齐; (iii)特定的比对模块试图获得特定帧与给定查询之间的细粒度相似性以进行最佳定位。通过共同训练这三个模块,我们的MMCDA可以学习域不变和语义一致的跨模式表示。
translated by 谷歌翻译
尽管最近在跨模式检索领域取得了进展,但由于缺乏手动注释的数据集,研究的重点较少。在本文中,我们提出了一种用于低资源语言的噪声跨语法跨模式检索方法。为此,我们使用机器翻译(MT)来构建低资源语言的伪并行句子对。但是,由于MT并不完美,因此它倾向于在翻译过程中引入噪音,从而使文本嵌入被损坏,从而损害了检索性能。为了减轻这一点,我们引入了一种多视图自我验证方法来学习噪声稳定目标语言表示,该方法采用了跨注意模块来生成软伪靶标,以从基于相似性的视图和功能 - 功能 - 基于视图。此外,受到无监督的MT的反向翻译的启发,我们最大程度地减少了原点句子和反翻译句子之间的语义差异,以进一步提高文本编码器的噪声稳健性。在三个视频文本和图像文本跨模式检索基准跨不同语言上进行了广泛的实验,结果表明,我们的方法显着改善了整体性能,而无需使用额外的人体标记数据。此外,从最近的视觉和语言预训练框架(即剪辑)中配备了预训练的视觉编码器,我们的模型可实现显着的性能增长,这表明我们的方法与流行的预训练模型兼容。代码和数据可在https://github.com/huiguanlab/nrccr上找到。
translated by 谷歌翻译