有两种流行的损失功能用于视觉检索,即三胞胎损失和对比度学习损失,这两者本质上都可以最大程度地减少负对和正对的相似性之间的差异。更具体地说,在现有的检索模型中广泛使用的硬采矿(三重态HN)的三胞胎损失很容易落入训练中的局部最小值。另一方面,广泛用于视觉的预训练中的视觉对比学习损失(VLC)已被证明可以在视觉语言检索上获得显着的性能提高,但通过使用微调的性能来实现。小型数据集上的VLC并不令人满意。本文提出了对视觉语言检索的统一损失相似性优化,为理解现有的损失功能提供了强大的工具。我们的统一损失包括VLC的硬样品挖掘策略,并引入了三胞胎损失使用的边距,以获得更好的相似性分离。结果表明,三重态HN和VLC都是我们统一损失的特殊形式。与三胞胎-HN相比,我们的统一损失具有快速的收敛速度。与VLC相比,我们的统一损失更具歧视性,可以在下游微调任务中更好地概括。图像文本和视频检索基准测试的实验表明,我们的统一损失可以显着提高最新检索模型的性能。
translated by 谷歌翻译
Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
translated by 谷歌翻译
In this paper, we study the problem of image-text matching. Inferring the latent semantic alignment between objects or other salient stuff (e.g. snow, sky, lawn) and the corresponding words in sentences allows to capture fine-grained interplay between vision and language, and makes image-text matching more interpretable. Prior work either simply aggregates the similarity of all possible pairs of regions and words without attending differentially to more and less important words or regions, or uses a multi-step attentional process to capture limited number of semantic alignments which is less interpretable. In this paper, we present Stacked Cross Attention to discover the full latent alignments using both image regions and words in a sentence as context and infer image-text similarity. Our approach achieves the state-of-the-art results on the MS-COCO and Flickr30K datasets. On Flickr30K, our approach outperforms the current best methods by 22.1% relatively in text retrieval from image query, and 18.2% relatively in image retrieval with text query (based on Recall@1). On MS-COCO, our approach improves sentence retrieval by 17.8% relatively and image retrieval by 16.6% relatively (based on Recall@1 using the 5K test set). Code has been made available at: https: //github.com/kuanghuei/SCAN.
translated by 谷歌翻译
本文旨在通过分析图像文本检索模型的可重复性来为信息检索社区提供对检索学习最新进展的一些思考。由于过去十年中多模式数据的增加,图像文本检索已稳步成为信息检索领域的主要研究方向。许多研究人员使用MS-Coco和FlickR30K等基准数据集训练和评估图像文本检索算法。过去的研究主要集中在绩效上,以多种方式提出了多种最先进的方法。根据他们的断言,这些技术提供了改进的模态相互作用,从而更精确的多模式表示。与以前的作品相反,我们着重于方法的可重复性以及对元素的检查,这些元素通过验证的图像和文本在检索图像和文本时通过预验证和未经预处理的模型提高了性能。更具体地说,我们首先研究了相关的可重复性问题,并解释了为什么我们的重点是图像文本检索任务。其次,我们系统地总结了图像文本检索模型的当前范式以及这些方法的既定贡献。第三,我们分析了预审预测和未进行检索模型的复制的各个方面。为了完成这项工作,我们进行了消融实验,并获得了一些影响检索召回的因素,而不是原始论文中所主张的改进。最后,我们提出了未来检索社区应考虑的一些思考和挑战。我们的源代码可在https://github.com/wangfei-2019/image-text-retrieval上公开获得。
translated by 谷歌翻译
跨模型检索(CMR)是多式化计算和信息检索的重要研究主题,它将一种类型的数据作为查询来检索另一种类型的相关数据,并且已广泛用于许多现实世界应用程序。最近,由剪辑代表的视觉语言预训练模型表明了其在各种视觉和语言相关任务方面学习视觉和文本表示的优势及其令人印象深刻的性能。虽然剪辑以及以前的预训练模型表现出令人遗憾的CMR性能改善,但由于缺乏多式联级关联,很少探索这些预测模型对监督CMR的训练模型的性能和影响。在本文中,我们将剪辑作为当前代表性的视觉 - 语言预训练模型,进行全面的实证研究,并提供对其性能和对监督CMR的影响的见解。为此,我们首先提出了一种新颖的模型剪辑4cmr(\ textBF {Clip for}监督\ textbf {c} ross- \ textbf {m} odal \ textbf {r} etrieval),该剪辑作为骨干网络来执行监督CMR。然后,我们在CMR中重新审视现有的损失函数设计,包括最常见的一对损失,类明智的损失和混合动力车,并提供对应用夹子的见解。此外,我们调查了监督CMR中的几个有关问题,并通过CLIP4CMR为该领域提供了新的视角,包括对模态不平衡的鲁棒性和对超参数的敏感性。广泛的实验结果表明,CLIP4CMR实现了SOTA的结果,在基准数据集维基百科,Nus-rive,Pascal句子和XMediaet上有重大改进。我们的数据和代码在https://github.com/zhixiongz/clip4cmr上公开提供。
translated by 谷歌翻译
最近,跨模式的预训练任务一直是一个热点,因为它在各种下文研究中广泛应用,包括检索,字幕,问题答案等。然而,退出的方法采用单媒体预训练模型来探索进行跨模式检索的联合视觉表示,这很容易遭受计算爆炸的影响。此外,尽管常规的双流结构非常有效,但它们仍然缺乏重要的跨模式相互作用,导致性能低。在这些挑战的激励下,我们提出了一个对比的跨模式知识共享预训练(Cookie),以掌握联合文本图像表示。从结构上讲,Cookie由于可接受的时间消耗而采用了传统的双流结构。为了克服上述双流结构的固有缺陷,我们精心设计了两个有效的模块。具体而言,第一个模块是一个体重共享的变压器,它构建在视觉和文本编码器的头上,旨在将语义对齐文本和图像对齐。该设计使视觉和文本路径集中在相同的语义上。另一个是三个专门设计的对比学习,旨在分享不同模型之间的知识。共享的跨模式知识大大发展了单峰表示的研究,从而促进了单模式检索任务。对多模式匹配研究的广泛实验结果,包括跨模式检索,文本匹配和图像检索揭示了我们的计算效率和我们预训练模型的统计指标的上级。
translated by 谷歌翻译
视觉检索中的大多数现有方法是通过比较其全局特征向量的两种方式,该矢量错过了足够的信息并缺乏可解释性,检测图像或视频中的对象,并将文本与依赖复杂的模型设计或建模的精细元素对齐通过较低效率遭受视觉和文本令牌的交叉注意相互作用。为了解决这些局限性,最近的一些作品简单地汇总了代币的相似性以实现细粒度的对齐方式,但它们缺乏直观的解释,并且忽略了令牌级特征和具有高级语义的全球表示之间的关系。在这项工作中,我们重新考虑细粒度的跨模式对准,并为其设计一种新的模型不合命固式配方。我们还揭开了最近的流行作品的神秘面纱,并将其纳入我们的计划。此外,受最佳运输理论的启发,我们引入了\ emph {tokenflow},这是对拟议方案的实例化。通过仅修改相似性函数,我们方法的性能与主要视频文本检索基准上具有重型模型设计的SOTA算法相当。可视化进一步表明\ emph {tokenflow}成功利用细粒度的信息并获得了更好的解释性。
translated by 谷歌翻译
尽管配备的远景和语言预处理(VLP)在过去两年中取得了显着的进展,但它遭受了重大缺点:VLP型号不断增加的尺寸限制了其部署到现实世界的搜索场景(高潜伏期是不可接受的)。为了减轻此问题,我们提出了一种新颖的插件动态对比度蒸馏(DCD)框架,以压缩ITR任务的大型VLP模型。从技术上讲,我们面临以下两个挑战:1)由于GPU内存有限,在处理交叉模式融合功能期间优化了太多的负样本,因此很难直接应用于跨模式任务,因此很难直接应用于跨模式任务。 。 2)从不同的硬样品中静态优化学生网络的效率效率低下,这些样本对蒸馏学习和学生网络优化具有不同的影响。我们试图从两点克服这些挑战。首先,为了实现多模式对比度学习并平衡培训成本和效果,我们建议使用教师网络估算学生的困难样本,使学生吸收了预培训的老师的强大知识,并掌握知识来自硬样品。其次,要从硬样品对学习动态,我们提出动态蒸馏以动态学习不同困难的样本,从更好地平衡知识和学生的自学能力的困难的角度。我们成功地将我们提出的DCD策略应用于两个最先进的视觉语言预处理模型,即vilt和仪表。关于MS-Coco和FlickR30K基准测试的广泛实验显示了我们DCD框架的有效性和效率。令人鼓舞的是,与现有的ITR型号相比,我们可以至少加快推断至少129美元的$ \ times $。
translated by 谷歌翻译
具有对比目标的训练前视觉模型已显示出令人鼓舞的结果,这些结果既可以扩展到大型未经切割的数据集,又可以传输到许多下游应用程序。以下一些作品针对提高数据效率,通过添加自学意义来提高数据效率,但是在这些作品中的单个空间上定义了对比度损失(图像文本)对比度损失和内域(图像图像)对比度损失,因此许多可行的可行性监督的组合被忽略了。为了克服这个问题,我们提出了Uniclip,这是对对比语言图像预训练的统一框架。 Uniclip将域间对和域内对的对比损失整合到一个单一的通用空间中。 Uniclip的三个关键组成部分解决了整合不同域之间对比度损失时发生的差异:(1)增强感知功能嵌入,(2)MP-NCE损失和(3)域相似性度量。 Uniclip的表现优于以前的视觉语言预训练方法,在下游任务的各种单模式和多模式上。在我们的实验中,我们表明每个组成的分支都对最终性能有很好的贡献。
translated by 谷歌翻译
图像文本匹配是在涉及对视觉和语言的共同理解的任务中发挥领导作用。在文献中,此任务通常被用作培训能够共同处理图像和文本的架构的预训练目标。但是,它具有直接的下游应用程序:跨模式检索,其中包括查找与给定查询文本或反之亦然相关的图像。解决此任务对于跨模式搜索引擎至关重要。许多最近的方法提出了针对图像文本匹配问题的有效解决方案,主要是使用最近的大型视觉语言(VL)变压器网络。但是,这些模型通常在计算上很昂贵,尤其是在推理时间。这样可以防止他们在大规模的跨模式检索场景中采用,几乎应该立即向用户提供结果。在本文中,我们建议通过提出对齐和提炼网络(Aladin)来填补有效性和效率之间的空白。阿拉丁首先通过在细粒度的图像和文本上对齐来产生高效的分数。然后,它通过提炼从细粒对齐方式获得的相关性分数来提炼共享的嵌入空间 - 可以进行有效的KNN搜索。我们在MS-Coco上取得了显着的结果,表明我们的方法可以与最先进的VL变形金刚竞争,同时快了近90倍。复制我们结果的代码可在https://github.com/mesnico/aladin上获得。
translated by 谷歌翻译
图像文本检索(ITR)在桥接视觉和舌形式方面具有挑战性。对比度学习已被大多数先前的艺术所采用。除了有限的负面图像文本对外,约束学习的能力受到手动加权负对以及对外部知识的不认识的限制。在本文中,我们提出了新型耦合多样性敏感的动量约束学习(编码器),以改善跨模式表示。首先,发明了一种新颖的多样性对比度学习(DCL)体系结构。我们引入了两种模式的动态词典,以扩大图像文本对的比例,并且通过自适应负面对加权实现多样性敏感性。此外,编码器设计了两个分支。一个人从图像/文本中学习实例级的嵌入式,它还基于其嵌入为其输入图像/文本生成伪在线聚类标签。同时,另一个分支学会从常识知识图中查询以形成两种模式的概念级描述符。之后,两个分支都利用DCL来对齐跨模式嵌入空间,而额外的伪聚类标签预测损失则用于促进第二个分支的概念级表示学习。在两个流行的基准测试(即Mscoco和Flicker30k)上进行的广泛实验,验证编码器的表现明显优于最先进的方法。
translated by 谷歌翻译
当前现有的视觉和语言预训练(VLP)方法的大多数主要集中在如何提取和调整视觉和文本功能上。与主流VLP方法相反,我们强调指出,在训练预训练期间的两个常规应用步骤对预训练模型的性能至关重要:图像介绍(ITM)的内部硬性负面采样(ITM)并分配大型掩盖掩盖语言建模(MLM)的概率。在经验显示上述两个步骤的意外有效性之后,我们系统地设计了砂粒vlp,该砂粒可适应小型批次,以更有效地为ITM挖掘硬性阴性样品,同时维持预训练的计算成本。我们的方法由三个组成部分组成:1)分组的迷你批次采样(砂砾)策略,该策略在迷你批次中收集了类似的示例,2)ITC一致性损失以提高采矿能力,3)MLM的扩大掩蔽概率。因此,我们显示了我们的砂粒vlp在各种下游任务上实现了新的最新性能,计算成本要少得多。此外,我们证明了我们的模型基本上与以前的最先进的ALBEF相提并论,只有三分之一的训练时代在相同的培训数据上。代码可在https://github.com/jaeseokbyun/grit-vlp上找到。
translated by 谷歌翻译
本文介绍了Omnivl,这是一种新的基础模型,旨在使用一种通用体系结构来支持图像语言和视频语言任务。它为图像和视频输入采用了统一的基于变压器的视觉编码器,因此可以执行联合图像语言和视频语言预处理。我们首次证明了这样的范式受益于图像和视频任务,而不是传统的单向传输(例如,使用图像语言来帮助视频语言)。为此,我们提出了对图像语言和视频语言的脱钩关节预处理,以有效地将视觉模型分解为空间和时间维度,并在图像和视频任务上获得性能提升。此外,我们引入了一种新颖的统一视觉对比度(UNIVLC)损失,以利用图像文本,视频文本,图像标签(例如,图像分类),视频标签(例如,视频动作识别)在一起受到监督和吵闹的监督预处理数据都尽可能多地利用。无需额外的任务适配器,Omnivl可以同时支持仅视觉任务(例如,图像分类,视频操作识别),跨模式对齐任务(例如,图像/视频 - 文本检索)和多模式理解和生成任务(例如,图像/视频问答,字幕)。我们在各种下游任务上评估Omnivl,并以相似的模型大小和数据量表获得最新的或竞争结果。
translated by 谷歌翻译
Text-Video Retrieval plays an important role in multi-modal understanding and has attracted increasing attention in recent years. Most existing methods focus on constructing contrastive pairs between whole videos and complete caption sentences, while overlooking fine-grained cross-modal relationships, e.g., clip-phrase or frame-word. In this paper, we propose a novel method, named Hierarchical Cross-Modal Interaction (HCMI), to explore multi-level cross-modal relationships among video-sentence, clip-phrase, and frame-word for text-video retrieval. Considering intrinsic semantic frame relations, HCMI performs self-attention to explore frame-level correlations and adaptively cluster correlated frames into clip-level and video-level representations. In this way, HCMI constructs multi-level video representations for frame-clip-video granularities to capture fine-grained video content, and multi-level text representations at word-phrase-sentence granularities for the text modality. With multi-level representations for video and text, hierarchical contrastive learning is designed to explore fine-grained cross-modal relationships, i.e., frame-word, clip-phrase, and video-sentence, which enables HCMI to achieve a comprehensive semantic comparison between video and text modalities. Further boosted by adaptive label denoising and marginal sample enhancement, HCMI achieves new state-of-the-art results on various benchmarks, e.g., Rank@1 of 55.0%, 58.2%, 29.7%, 52.1%, and 57.3% on MSR-VTT, MSVD, LSMDC, DiDemo, and ActivityNet, respectively.
translated by 谷歌翻译
The booming development and huge market of micro-videos bring new e-commerce channels for merchants. Currently, more micro-video publishers prefer to embed relevant ads into their micro-videos, which not only provides them with business income but helps the audiences to discover their interesting products. However, due to the micro-video recording by unprofessional equipment, involving various topics and including multiple modalities, it is challenging to locate the products related to micro-videos efficiently, appropriately, and accurately. We formulate the microvideo-product retrieval task, which is the first attempt to explore the retrieval between the multi-modal and multi-modal instances. A novel approach named Multi-Queue Momentum Contrast (MQMC) network is proposed for bidirectional retrieval, consisting of the uni-modal feature and multi-modal instance representation learning. Moreover, a discriminative selection strategy with a multi-queue is used to distinguish the importance of different negatives based on their categories. We collect two large-scale microvideo-product datasets (MVS and MVS-large) for evaluation and manually construct the hierarchical category ontology, which covers sundry products in daily life. Extensive experiments show that MQMC outperforms the state-of-the-art baselines. Our replication package (including code, dataset, etc.) is publicly available at https://github.com/duyali2000/MQMC.
translated by 谷歌翻译
预先训练的图像文本模型(如剪辑)已经证明了从大规模的Web收集的图像文本数据中学到的视觉表示的强大力量。鉴于学习良好的视觉特征,一些现有的作品将图像表示转移到视频域并取得良好的结果。但是,如何利用图像语言预训练的模型(例如,剪辑)进行视频培训(后培训)仍在探索。在本文中,我们研究了两个问题:1)阻碍后期剪辑的因素是什么因素,以进一步提高视频语言任务的性能? 2)如何减轻这些因素的影响?通过一系列比较实验和分析,我们发现语言源之间的数据量表和域间隙具有很大的影响。由这些动机,我们提出了一种配备了视频代理机制的Omnisource跨模式学习方法,即剪辑,即剪辑VIP。广泛的结果表明,我们的方法可以提高视频检索的剪辑的性能。我们的模型还可以在包括MSR-VTT,DIDEMO,LSMDC和ActivityNet在内的各种数据集上实现SOTA结果。我们在https://github.com/microsoft/xpretrain/tree/main/main/main/clip-vip上发布了代码和预训练的剪辑模型。
translated by 谷歌翻译
视频文本检索一直是多模式研究中的至关重要和基本任务。大型多模式对比预训练的发展,视频文本检索的开发已大大促进,这主要侧重于粗粒或细粒对比。然而,在先前的研究中很少探索过跨粒度的对比,这是粗粒表示和细粒度表示之间的对比。与细粒度或粗粒的对比相比,交叉粒度对比度计算了粗粒粒度特征与每个细粒特征之间的相关性,并且能够过滤出不必要的细颗粒特征,这些特征由粗粒度的特征引导相似性计算,从而提高了检索的准确性。为此,本文提出了一种新型的多透明对比模型,即X-CLIP,用于视频文本检索。但是,另一个挑战在于相似性聚集问题,该问题旨在将细粒度和跨粒度相似性矩阵与实例级别的相似性汇总。为了应对这一挑战,我们提出了对相似性矩阵(AOSM)模块的关注,以使模型重点放在基本帧和单词之间的对比度上,从而降低了不必要的帧和单词对检索结果的影响。 X-CLIP具有多透明的对比度和提议的AOSM模块,在五个广泛使用的视频文本检索数据集上取得了出色的性能,包括MSR-VTT(49.3 R@1),MSVD(50.4 R@1),LSMDC(26.11)(26.1 r@1),didemo(47.8 r@1)和ActivityNet(46.2 r@1)。它的表现优于先前的最先前, +6.3%, +6.6%, +11.1%, +6.7%, +3.8%的相对改善对这些基准测试,这表明了多透明的对比度和AOSM的优势。
translated by 谷歌翻译
A family of loss functions built on pair-based computation have been proposed in the literature which provide a myriad of solutions for deep metric learning. In this paper, we provide a general weighting framework for understanding recent pair-based loss functions. Our contributions are three-fold: (1) we establish a General Pair Weighting (GPW) framework, which casts the sampling problem of deep metric learning into a unified view of pair weighting through gradient analysis, providing a powerful tool for understanding recent pair-based loss functions; (2) we show that with GPW, various existing pair-based methods can be compared and discussed comprehensively, with clear differences and key limitations identified; (3) we propose a new loss called multi-similarity loss (MS loss) under the GPW, which is implemented in two iterative steps (i.e., mining and weighting). This allows it to fully consider three similarities for pair weighting, providing a more principled approach for collecting and weighting informative pairs. Finally, the proposed MS loss obtains new state-of-the-art performance on four image retrieval benchmarks, where it outperforms the most recent approaches, such as ABE [14] and HTL [4], by a large margin, e.g., , and 80.9% → 88.0% on In-Shop Clothes Retrieval dataset
translated by 谷歌翻译
我们解决了跨模型检索问题,其中培训仅受数据中相关的多模态对进行监督。对比学习是此任务最受欢迎的方法。然而,其对学习的抽样复杂性是训练数据点数的二次。此外,它可能是错误的假设,即不同对的实例自动无关紧要。为解决这些问题,我们提出了一种基于未知课程的自我标签的新型损失函数。具体而言,我们的目标是预测每个模态中的数据实例的类标签,并将那些标签分配给其他模态中的相应实例(即,交换伪标签)。使用这些交换的标签,我们使用监督的交叉熵丢失来学习每个模态的数据嵌入,因此导致线性采样复杂性。我们还将队列保留用于存储最新批次的嵌入物,其中群集分配和嵌入学习在在线时尚同时完成。这消除了注入用于离线群集的整个训练数据扫描的间歇时期的计算开销。我们在几个真实跨模型检索问题上测试了我们的方法,包括基于文本的视频检索,基于文本的图像检索和图像文本检索,以及我们的方法对对比学习的显着性能提高实现了显着的性能改善。
translated by 谷歌翻译
我们介绍了一个统一的视觉 - 语言普试模型(VLMO),共同学习双编码器和带有模块化变压器网络的融合编码器。具体而言,我们介绍了模态 - 专家(Mome)变压器的混合,其中每个块包含一个模态特定专家和共同的自我注意层。由于Mome的柔性柔韧性,预先调整的VLMO可以精细调整为viSion语言分类任务的融合编码器,或用作双编码器,用于有效的图像文本检索。此外,我们提出了一个航向的预训练策略,它有效地利用了除了图像文本对之外的大规模图像和仅文本数据。实验结果表明,VLMO在各种视觉语言任务上实现了最先进的结果,包括VQA和NLVR2。代码和预用模型可以在https://aka.ms/vlmo获得。
translated by 谷歌翻译