基于文本的人员搜索旨在通过文本描述检索某个行人的图像。此任务的关键挑战是消除模态间隙,并在模态中实现特征对齐。在本文中,我们提出了一种用于基于文本的人员搜索的语义对齐方法,其中通过自动学习语义对齐的视觉特征和文本特征来实现模态的特征对齐。首先,我们介绍了两个变换器的骨干,以编码图像和文本的强大特征表示。其次,我们设计了一个语义对齐的特征聚合网络,以便自适应地选择和聚合具有相同语义的特征,进入部分感知功能,该功能是通过跨模型部分对齐损耗和分集丢失约束的多头注意模块实现的。Cuhk-Pedes和Flickr30K数据集上的实验结果表明,我们的方法实现了最先进的表演。
translated by 谷歌翻译
基于文本的人搜索是一项具有挑战性的任务,旨在搜索具有查询文本描述的图像库中具有相同身份的行人图像。近年来,基于文本的人搜索取得了良好的进步,而最先进的方法通过学习图像和文本之间的本地细粒度对应来实现出色的性能。但是,现有方法通过手工制作的拆分或外部工具从图像和文本中明确提取图像零件和文本短语,然后进行复杂的跨模式本地匹配。此外,现有方法很少考虑由图像特定信息引起的方式之间的信息不平等问题。在本文中,我们提出了一个有效的联合信息和语义对齐网络(ISANET),用于基于文本的人搜索。具体而言,我们首先设计一个特定图像的信息抑制模块,该模块分别通过关系引导定位和通道注意过滤抑制图像背景和环境因素。该设计可以有效地减轻信息不平等问题,并实现图像和文本之间的信息对齐。其次,我们建议一个隐性的本地对齐模块,以将图像和文本功能适应一组模态共享的语义主题中心,并隐式地学习图像和文本之间的本地细粒度对应关系,而无需其他监督信息和复杂的跨模式互动。此外,引入了全球一致性作为当地观点的补充。在多个数据库上进行的广泛实验证明了所提出的ISANET的有效性和优势。
translated by 谷歌翻译
基于文本的人检索旨在根据文本描述找到查询人员。关键是学习视觉文本模式之间的常见潜在空间映射。为了实现这一目标,现有的作品采用细分来获得明确的跨模式对齐方式或利用注意力来探索显着对准。这些方法有两个缺点:1)标记交叉模式比对很耗时。 2)注意方法可以探索显着的跨模式对齐,但可能会忽略一些微妙而有价值的对。为了缓解这些问题,我们为基于文本的人检索引入了一个隐式视觉文本(IVT)框架。与以前的模型不同,IVT利用单个网络来学习两种模式的表示形式,这有助于视觉文本相互作用。为了探索细粒的对准,我们进一步提出了两个隐式语义比对范式:多级比对(MLA)和双向掩码建模(BMM)。 MLA模块在句子,短语和单词级别上探索了更精细的匹配,而BMM模块旨在挖掘视觉和文本模态之间的\ textbf {更多}语义对齐。进行了广泛的实验,以评估公共数据集中提出的IVT,即Cuhk-Pedes,RSTPREID和ICFG-PEDES。即使没有明确的身体部位对准,我们的方法仍然可以达到最先进的表现。代码可在以下网址获得:https://github.com/tencentyouturesearch/personretrieval-ivt。
translated by 谷歌翻译
文本对象的重新识别(REID)旨在通过文本描述搜索感兴趣的身份的行人图像。由于丰富的模式内变化和明显的模式间差异,这是具有挑战性的。现有作品通常忽略两种方式之间的特征粒度差异,即,视觉特征通常是细粒度的,而文本特征则粗糙,这主要负责大型模式间间隙。在本文中,我们提出了一个基于变形金刚的端到端框架,以学习两种模式的粒度统一表示,称为LGUR。 LGUR框架包含两个模块:基于字典的粒度比对(DGA)模块和基于原型的粒度统一(PGU)模块。在DGA中,为了使两种模式的粒度对齐,我们引入了一个多模式共享词典(MSD)以重建视觉和文本特征。此外,DGA还具有两个重要因素,即跨模式指导和以前景为中心的重建,以促进MSD的优化。在PGU中,我们采用一组共享和可学习的原型作为查询,以提取粒度统一特征空间中这两种方式的多样化和语义对齐特征,从而进一步促进了REID的性能。综合实验表明,我们的LGUR在Cuhk-Pedes和ICFG-Pedes数据集上始终以大幅度的优势优于最先进的东西。代码将在https://github.com/zhiyinshao-h/lgur上发布。
translated by 谷歌翻译
基于文本的人检索的核心问题是如何弥合多模式数据之间的异质差距。以前的许多方法,用于学习以\ textbf {交叉模式分布共识预测(CDCP)}方式学习潜在的常见歧管映射范式。当将某个模态分布到公共歧管中的映射特征时,相反模态的特征分布是完全不可见的。也就是说,如何实现跨模式分布共识,以便将多模式特征嵌入和对齐构建的跨模式公共歧管中,这完全取决于模型本身的经验,而不是实际情况。通过这种方法,不可避免的是,多模式数据在共同的歧管中不能很好地对齐,这最终导致了次优的检索性能。为了克服此\ textbf {CDCP困境},我们提出了一种称为lbul的新颖算法,以学习基于文本的人检索的一致的跨模式公共歧管(C $^{3} $ M)。正如中文的谚语所说,我们方法的核心思想是``\ textit {san si er hou xing}',即\ textbf {thee thee thee thee thee you lap leak(lbul)}。 LBUL的常见歧管映射机制包含一个看起来的步骤和跳跃步骤。与基于CDCP的方法相比,LBUL考虑了视觉和文本方式的分布特征,然后将数据从某种模式嵌入到C $^{3} $ M中以获得更固体的交叉模式分布共识,从而获得了优质检索准确性。我们对两个基于文本的人检索数据集Cuhk-Pedes和RSTPREID评估了建议的方法。实验结果表明,所提出的LBUL胜过先前的方法,并实现了最新的性能。
translated by 谷歌翻译
跨模式的人重新识别(RE-ID)对于现代视频监视系统至关重要。关键的挑战是与一个人提供的语义信息引起的跨模式表示,并忽略背景信息。这项工作介绍了一种新型的基于卷积神经网络(CNN)的体系结构,旨在学习语义上的跨模式视觉和文本表示。基础构建块,名为Axm-block,是一个统一的多层网络,该网络会动态利用多尺度知识,并根据共享语义重新校准每种模式。为了补充卷积设计,在文本分支中应用上下文注意力以操纵长期依赖性。此外,我们提出了一种独特的设计,以增强基于视觉零件的功能连贯性和局部性信息。我们的框架具有新颖的能力,可以在功能学习阶段隐式学习模式之间的一致语义。统一的特征学习有效地利用文本数据作为视觉表示学习的超级注释信号,并自动拒绝无关的信息。整个AXM-NET经过Cuhk-Pedes数据的端到端训练。我们报告了两个任务的结果,即人搜索和跨模式重新ID。 AXM-NET优于当前最新方法(SOTA)方法,并在Cuhk-Pedes测试集上获得64.44 \%等级@1。在Crossre-ID和Cuhk-Sysu数据集中,它还胜过竞争对手的竞争对手$> $ 10 \%。
translated by 谷歌翻译
最近,跨模式的预训练任务一直是一个热点,因为它在各种下文研究中广泛应用,包括检索,字幕,问题答案等。然而,退出的方法采用单媒体预训练模型来探索进行跨模式检索的联合视觉表示,这很容易遭受计算爆炸的影响。此外,尽管常规的双流结构非常有效,但它们仍然缺乏重要的跨模式相互作用,导致性能低。在这些挑战的激励下,我们提出了一个对比的跨模式知识共享预训练(Cookie),以掌握联合文本图像表示。从结构上讲,Cookie由于可接受的时间消耗而采用了传统的双流结构。为了克服上述双流结构的固有缺陷,我们精心设计了两个有效的模块。具体而言,第一个模块是一个体重共享的变压器,它构建在视觉和文本编码器的头上,旨在将语义对齐文本和图像对齐。该设计使视觉和文本路径集中在相同的语义上。另一个是三个专门设计的对比学习,旨在分享不同模型之间的知识。共享的跨模式知识大大发展了单峰表示的研究,从而促进了单模式检索任务。对多模式匹配研究的广泛实验结果,包括跨模式检索,文本匹配和图像检索揭示了我们的计算效率和我们预训练模型的统计指标的上级。
translated by 谷歌翻译
Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
translated by 谷歌翻译
从文档数据中进行的多模式学习最近取得了巨大的成功,因为它允许将语义有意义的特征预先作为先验的特征,成为可学习的下游方法。在本文中,我们通过使用语言和视觉线索来学习跨模式的表示,考虑了内模式和模式间关系,我们解决了文档分类问题。该方法没有将不同模态的特征合并为一个共同表示空间,而是利用高级相互作用,并从跨模态内外的有效注意流中学习相关的语义信息。提出的学习目标是在内部和模式间比对任务之间设计的,其中每个任务的相似性分布是通过收缩阳性样品对计算的,同时在共同特征表示空间中同时对比}。公共文档分类数据集的广泛实验证明了我们模型对低规模和大规模数据集的有效性和概括能力。
translated by 谷歌翻译
Text-Video Retrieval plays an important role in multi-modal understanding and has attracted increasing attention in recent years. Most existing methods focus on constructing contrastive pairs between whole videos and complete caption sentences, while overlooking fine-grained cross-modal relationships, e.g., clip-phrase or frame-word. In this paper, we propose a novel method, named Hierarchical Cross-Modal Interaction (HCMI), to explore multi-level cross-modal relationships among video-sentence, clip-phrase, and frame-word for text-video retrieval. Considering intrinsic semantic frame relations, HCMI performs self-attention to explore frame-level correlations and adaptively cluster correlated frames into clip-level and video-level representations. In this way, HCMI constructs multi-level video representations for frame-clip-video granularities to capture fine-grained video content, and multi-level text representations at word-phrase-sentence granularities for the text modality. With multi-level representations for video and text, hierarchical contrastive learning is designed to explore fine-grained cross-modal relationships, i.e., frame-word, clip-phrase, and video-sentence, which enables HCMI to achieve a comprehensive semantic comparison between video and text modalities. Further boosted by adaptive label denoising and marginal sample enhancement, HCMI achieves new state-of-the-art results on various benchmarks, e.g., Rank@1 of 55.0%, 58.2%, 29.7%, 52.1%, and 57.3% on MSR-VTT, MSVD, LSMDC, DiDemo, and ActivityNet, respectively.
translated by 谷歌翻译
本文研究了时间句子接地的多媒体问题(TSG),该问题旨在根据给定的句子查询准确地确定未修剪视频中的特定视频段。传统的TSG方法主要遵循自上而下或自下而上的框架,不是端到端。他们严重依靠耗时的后处理来完善接地结果。最近,提出了一些基于变压器的方法来有效地对视频和查询之间的细粒语义对齐进行建模。尽管这些方法在一定程度上达到了显着的性能,但它们同样将视频的框架和查询的单词视为用于关联的变压器输入,未能捕获其不同水平的粒度与独特的语义。为了解决这个问题,在本文中,我们提出了一种新型的等级局部 - 全球变压器(HLGT)来利用这种层次结构信息,并模拟不同粒度的不同级别的相互作用和不同的模态之间的相互作用,以学习更多细粒度的多模式表示。具体而言,我们首先将视频和查询分为单个剪辑和短语,以通过时间变压器学习其本地上下文(相邻依赖关系)和全局相关性(远程依赖)。然后,引入了全球本地变压器,以了解本地级别和全球级别语义之间的相互作用,以提供更好的多模式推理。此外,我们开发了一种新的跨模式周期一致性损失,以在两种模式之间实施相互作用,并鼓励它们之间的语义一致性。最后,我们设计了一个全新的跨模式平行变压器解码器,以集成编码的视觉和文本特征,以进行最终接地。在三个具有挑战性的数据集上进行了广泛的实验表明,我们提出的HLGT实现了新的最新性能。
translated by 谷歌翻译
Video-Text检索是一类跨模式表示学习问题,其目标是选择与给定文本查询和候选视频库之间的文本查询相对应的视频。视觉训练预处理的对比范式在大规模数据集和统一的变压器体系结构中表现出了有希望的成功,并证明了联合潜在空间的力量。尽管如此,视觉域和文本域之间的固有差异仍未被消除,并且将不同的模态投射到联合潜在空间可能会导致单个模式内的信息扭曲。为了克服上述问题,我们提出了一种新的机制,可以学习从源模式空间$ \ mathcal {s} $到目标模态空间$ \ mathcal {t} $的新颖机制桥接视觉和文本域之间的差距。此外,为了保持翻译之间的循环一致性,我们采用了一个循环损失,涉及从$ \ MATHCAL {S} $到预测的目标空间$ \ Mathcal {t'} $的两个前向翻译,以及$ \ Mathcal {t't'的向后翻译} $返回$ \ Mathcal {s} $。在MSR-VTT,MSVD和DIDEMO数据集上进行的广泛实验证明了我们LAT方法的优势和有效性与香草的最新方法相比。
translated by 谷歌翻译
Most existing text-video retrieval methods focus on cross-modal matching between the visual content of offline videos and textual query sentences. However, in real scenarios, online videos are frequently accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This inspires us to generate associated captions from offline videos to help with existing text-video retrieval methods. To do so, we propose to use the zero-shot video captioner with knowledge of pre-trained web-scale models (e.g., CLIP and GPT-2) to generate captions for offline videos without any training. Given the captions, one question naturally arises: what can auxiliary captions do for text-video retrieval? In this paper, we present a novel framework Cap4Video, which makes use of captions from three aspects: i) Input data: The video and captions can form new video-caption pairs as data augmentation for training. ii) Feature interaction: We perform feature interaction between video and caption to yield enhanced video representations. iii) Output score: The Query-Caption matching branch can be complementary to the original Query-Video matching branch for text-video retrieval. We conduct thorough ablation studies to demonstrate the effectiveness of our method. Without any post-processing, our Cap4Video achieves state-of-the-art performance on MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%).
translated by 谷歌翻译
视觉检索中的大多数现有方法是通过比较其全局特征向量的两种方式,该矢量错过了足够的信息并缺乏可解释性,检测图像或视频中的对象,并将文本与依赖复杂的模型设计或建模的精细元素对齐通过较低效率遭受视觉和文本令牌的交叉注意相互作用。为了解决这些局限性,最近的一些作品简单地汇总了代币的相似性以实现细粒度的对齐方式,但它们缺乏直观的解释,并且忽略了令牌级特征和具有高级语义的全球表示之间的关系。在这项工作中,我们重新考虑细粒度的跨模式对准,并为其设计一种新的模型不合命固式配方。我们还揭开了最近的流行作品的神秘面纱,并将其纳入我们的计划。此外,受最佳运输理论的启发,我们引入了\ emph {tokenflow},这是对拟议方案的实例化。通过仅修改相似性函数,我们方法的性能与主要视频文本检索基准上具有重型模型设计的SOTA算法相当。可视化进一步表明\ emph {tokenflow}成功利用细粒度的信息并获得了更好的解释性。
translated by 谷歌翻译
Learning fine-grained interplay between vision and language allows to a more accurate understanding for VisionLanguage tasks. However, it remains challenging to extract key image regions according to the texts for semantic alignments. Most existing works are either limited by textagnostic and redundant regions obtained with the frozen detectors, or failing to scale further due to its heavy reliance on scarce grounding (gold) data to pre-train detectors. To solve these problems, we propose Self-Locator Aided Network (SLAN) for cross-modal understanding tasks without any extra gold data. SLAN consists of a region filter and a region adaptor to localize regions of interest conditioned on different texts. By aggregating cross-modal information, the region filter selects key regions and the region adaptor updates their coordinates with text guidance. With detailed region-word alignments, SLAN can be easily generalized to many downstream tasks. It achieves fairly competitive results on five cross-modal understanding tasks (e.g., 85.7% and 69.2% on COCO image-to-text and text-to-image retrieval, surpassing previous SOTA methods). SLAN also demonstrates strong zero-shot and fine-tuned transferability to two localization tasks.
translated by 谷歌翻译
现代视频文本检索框架基本上由三个部分组成:视频编码器,文本编码器和相似性。随着Visual和Textual表示学习的成功,在视频文本检索领域也采用了基于变压器的编码器和融合方法。在本报告中,我们呈现Clip2TV,旨在探索关键元素在基于变压器的方法中。为实现这一目标,我们首先重新审视一些对多模态学习的工作,然后将一些技术介绍到视频文本检索中,最后通过不同配置的大量实验进行评估。值得注意的是,Clip2TV在MSR-VTT数据集上实现了52.9 @ R1,优先表现出先前的SOTA结果为4.1%。
translated by 谷歌翻译
Video-Text检索(VTR)是多模式理解的一项有吸引力但具有挑战性的任务,该任务旨在在给定查询(视频)的情况下搜索相关的视频(文本)。现有方法通常采用完全异构的视觉文本信息来对齐视频和文本,同时缺乏对这两种模式中均匀的高级语义信息的认识。为了填补这一差距,在这项工作中,我们提出了一个新颖的视觉语言对准模型,名为VTR Hise,该模型通过合并显式高级语义来改善跨模式的表示。首先,我们探讨了显式高级语义的层次结构属性,并将其进一步分为两个级别,即离散的语义和整体语义。具体来说,对于视觉分支,我们利用了现成的语义实体预测器来生成离散的高级语义。同时,采用训练有素的视频字幕模型来输出整体高级语义。至于文本方式,我们将文本分为三个部分,包括发生,动作和实体。特别是,这种情况对应于整体高级语义,同时动作和实体代表离散的语义。然后,利用不同的图推理技术来促进整体和离散的高级语义之间的相互作用。广泛的实验表明,借助明确的高级语义,我们的方法在包括MSR-VTT,MSVD和DIDEMO在内的三个基准数据集上实现了优于最先进方法的卓越性能。
translated by 谷歌翻译
近年来,具有两个较高架构的视觉语言(VL)模型主导了视觉表示的学习。当前的VL模型要么使用轻型Uni-Modal编码器,并在交叉模式编码器中同时提取,对齐和融合这两种模态,或者将最后一层的Uni-Modal-Modal特征直接馈入顶部的交叉模式编码器,而忽略了语义深度单模式编码器中不同级别的信息。两种方法都可能限制视觉表示学习和限制模型性能。在本文中,我们介绍了多个桥梁层,该层在Uni-Modal编码器的顶层和跨模式编码器的每一层之间建立了连接。这可以在不同语义级别的视觉和文本表示之间进行全面的自下而上相互作用,从而导致更有效的跨模式对齐和融合。我们提出的桥梁可以预先训练,仅需$ 4 $ m的图像,可以在各种下游视觉语言任务上实现最先进的性能。在VQAV2 Test-STD集合中,Bridge-Tower的准确性为$ 78.73 \%$,与以前的最先进的仪表型号相同的the Art仪表均优于先前的最先进的仪表\%$ $,并且几乎没有其他参数,并且几乎没有其他参数和其他参数计算成本。值得注意的是,当进一步扩展模型时,桥梁可以达到81.15美元\%$的准确性,超过了在较大的数据集中预先训练的模型。代码可在https://github.com/microsoft/bridgetower上找到。
translated by 谷歌翻译
诸如社交媒体和电子商务等现代网络系统包含在图像和文本中表达的丰富内容。来自多模态的信息可以提高机器学习任务的性能,如分类和推荐。在本文中,我们提出了跨模型注意力对比语言图像预培训(CMA-CLIP),这是一个新的框架,它统一两种类型的跨片状关注,序列明智的关注和模态 - 明智的关注,有效地保险丝来自图像和文本对的信息。序列设计使框架能够捕获图像补丁和文本令牌之间的细粒度的关系,而模态 - 明智的注意力通过与下游任务的相关性重视每个模式。此外,通过添加任务特定的模态 - 明智的关注和多层的感知程序,我们提出的框架能够使用多模态执行多任务分类。我们在主要零售网站产品属性(MRWPA)数据集和两个公共数据集,Food101和Fashion-Gen进行实验。结果表明,CMA-CRIP在MRWPA数据集上的相同精度的预训练和微调剪辑中的平均值为11.9%,在MRWPA数据集中进行多任务分类。它还超越了时尚 - Gen DataSet的最先进的方法,精度为5.5%,实现了Food101数据集的竞争性能。通过详细的烧蚀研究,我们进一步展示了跨模型注意力模块的有效性以及我们的方法对图像和文本输入中的噪声的鲁棒性,这是实践中的共同挑战。
translated by 谷歌翻译
我们在这项研究中的目标是研究一个更现实的环境,在这种环境中,我们可以为细粒度的产品类别进行弱监督的多模式实例级产品检索。我们首先贡献了product1m数据集,并定义了两个实际实例级检索任务,以实现价格比较和个性化建议的评估。对于两个实例级任务,如何准确地指出视觉语言数据中提到的产品目标并有效地降低了无关紧要的内容的影响非常具有挑战性。为了解决这个问题,我们利用训练一个更有效的跨模式与模型,该模型能够自适应地能够通过使用一个实体图,其节点和边缘分别表示实体和相似性,从而可以从多模式数据中合并来自多模式数据的关键概念信息。实体。具体而言,为实例级别的商品检索提出了一种新型的实体图增强的跨模式预处理(EGE-CMP)模型,该模型明确地将基于节点的基于节点的基于节点和子图的方式显式地注入实体知识。自我监管的混合流变压器可以减少不同对象内容之间的混淆,从而有效地指导网络专注于具有真实语义的实体。实验结果很好地验证了我们的EGE-CMP的功效和概括性,表现优于几个SOTA跨模式基线,例如夹子,Uniter和Capture。
translated by 谷歌翻译