零射击跨模式检索(ZS-CMR)处理了来自看不见类别的异源数据之间的检索问题。通常,为了确保概括,使用自然语言处理(NLP)模型的预定义类嵌入方式用于构建公共空间。在本文中,我们考虑了一种完全不同的方法来从信息理论的角度考虑构造(或学习)通用锤击空间的完全不同的方法,而不是使用额外的NLP模型来定义公共空间。我们将模型称为信息理论哈希(ITH),该图案由两个级联模块组成:一个自适应信息聚合(AIA)模块;和语义保存编码(SPE)模块。具体而言,我们的AIA模块从相关信息的原理(PRI)中汲取灵感来构建一个共同空间,该空间可适应地汇总了不同数据模式的固有语义,并滤除了多余或无关紧要的信息。另一方面,我们的SPE模块通过保留固有语义与元素的Kullback-Leibler(KL)差异的相似性,进一步生成了不同模态的哈希代码。还施加了总相关性项,以减少哈希码不同维度之间的冗余。在三个基准数据集上进行了足够的实验,证明了ZS-CMR中提出的ITH的优势。源代码在补充材料中可用。
translated by 谷歌翻译
哈希(Hashing)将项目数据投入二进制代码已显示出由于其储存量低和高查询速度而显示出跨模式检索的非凡人才。尽管在某些情况下取得了经验成功,但现有的跨模式散列方法通常不存在带有大量标记信息的数据时跨模式差距跨模式差距。为了避免以分裂和纠纷策略的激励,我们提出了深层的歧管散列(DMH),这是一种新颖的方法,是将半分配的无监督的交叉模式检索分为三个子问题,并建立一个简单而又简单而又又有一个简单的方法每个子问题的效率模型。具体而言,第一个模型是通过基于多种学习的半生数据补充的半生数据来构建的,用于获得模态不变的特征,而第二个模型和第三个模型旨在分别学习哈希码和哈希功能。在三个基准上进行的广泛实验表明,与最先进的完全配对和半成本无监督的跨模式散列方法相比,我们的DMH的优势。
translated by 谷歌翻译
在本文中,我们采用了最大化的互信息(MI)方法来解决无监督的二进制哈希代码的问题,以实现高效的跨模型检索。我们提出了一种新颖的方法,被称为跨模型信息最大散列(CMIMH)。首先,要学习可以保留模跨和跨间相似性的信息的信息,我们利用最近估计MI的变分的进步,以最大化二进制表示和输入特征之间的MI以及不同方式的二进制表示之间的MI。通过在假设由多变量Bernoulli分布模型的假设下联合最大化这些MIM,我们可以学习二进制表示,该二进制表示,其可以在梯度下降中有效地以微量批量方式有效地保留帧内和模态的相似性。此外,我们发现尝试通过学习与来自不同模式的相同实例的类似二进制表示来最小化模态差距,这可能导致更少的信息性表示。因此,在减少模态间隙和失去模态 - 私人信息之间平衡对跨模型检索任务很重要。标准基准数据集上的定量评估表明,该方法始终如一地优于其他最先进的跨模型检索方法。
translated by 谷歌翻译
跨模态散列(CMH)是跨模型近似最近邻搜索中最有前途的方法之一。大多数CMH解决方案理想地假设培训和测试集的标签是相同的。但是,通常违反假设,导致零拍摄的CMH问题。最近解决此问题的努力侧重于使用标签属性将知识转移到未见的类。但是,该属性与多模态数据的特征隔离。为了减少信息差距,我们介绍了一种名为LAEH的方法(嵌入零拍跨模型散列的标签属性)。 Laeh首先通过Word2Vec模型获取标签的初始语义属性向量,然后使用转换网络将它们转换为常见的子空间。接下来,它利用散列向量和特征相似矩阵来指导不同方式的特征提取网络。与此同时,Laeh使用属性相似性作为标签相似度的补充,以纠正标签嵌入和常见子空间。实验表明,Laeh优于相关代表零射和跨模态散列方法。
translated by 谷歌翻译
由于在大异构数据上加速查询时间的同时减少存储的优点,已经广泛研究了跨模型散列,以便对多模态数据的近似邻近搜索进行广泛研究。大多数散列方法假设培训数据是类平衡的。但是,在实践中,现实世界数据通常具有长尾的分布。在本文中,我们介绍了一种基于元学习的跨模态散列方法(MetacMH)来处理长尾数据。由于尾部类中缺乏培训样本,MetacMH首先从不同模式中的数据中学习直接功能,然后引入关联内存模块,以了解尾部类别的样本的存储器功能。然后,它结合了直接和内存功能以获得每个样本的元特征。对于长尾分布的头部类别的样本,直接功能的重量越大,因为有足够的训练数据来学习它们;虽然对于罕见的类,但内存功能的重量越大。最后,MetacMH使用似然损耗函数来保持不同模式中的相似性,并以端到端的方式学习哈希函数。长尾数据集的实验表明,MetacMH比最先进的方法表现出明显好,特别是在尾部课上。
translated by 谷歌翻译
由于其在计算和存储的效率,散列广泛应用于大型多媒体数据上的多模式检索。在本文中,我们提出了一种用于可伸缩图像文本和视频文本检索的新型深度语义多模式散列网络(DSMHN)。所提出的深度散列框架利用2-D卷积神经网络(CNN)作为骨干网络,以捕获图像文本检索的空间信息,而3-D CNN作为骨干网络以捕获视频的空间和时间信息 - 文本检索。在DSMHN中,通过显式保留帧间性相似性和岩石性语义标签,共同学习两组模态特定散列函数。具体地,假设学习散列代码应该是对分类任务的最佳选择,通过在所得哈希代码上嵌入语义标签来共同训练两个流网络以学习散列函数。此外,提出了一种统一的深层多模式散列框架,通过利用特征表示学习,互相相似度 - 保存学习,语义标签保留学习和哈希函数学习同时利用不同类型的损耗功能来学习紧凑和高质量的哈希码。该提议的DSMHN方法是用于图像文本和视频文本检索的通用和可扩展的深度散列框架,其可以灵活地集成在不同类型的损耗功能中。我们在四个广泛使用的多媒体检索数据集中对单一模态和跨模型检索任务进行广泛的实验。图像文本和视频文本检索任务的实验结果表明DSMHN显着优于最先进的方法。
translated by 谷歌翻译
Existing Cross Modal Hashing (CMH) methods are mainly designed for balanced data, while imbalanced data with long-tail distribution is more general in real-world. Several long-tail hashing methods have been proposed but they can not adapt for multi-modal data, due to the complex interplay between labels and individuality and commonality information of multi-modal data. Furthermore, CMH methods mostly mine the commonality of multi-modal data to learn hash codes, which may override tail labels encoded by the individuality of respective modalities. In this paper, we propose LtCMH (Long-tail CMH) to handle imbalanced multi-modal data. LtCMH firstly adopts auto-encoders to mine the individuality and commonality of different modalities by minimizing the dependency between the individuality of respective modalities and by enhancing the commonality of these modalities. Then it dynamically combines the individuality and commonality with direct features extracted from respective modalities to create meta features that enrich the representation of tail labels, and binaries meta features to generate hash codes. LtCMH significantly outperforms state-of-the-art baselines on long-tail datasets and holds a better (or comparable) performance on datasets with balanced labels.
translated by 谷歌翻译
跨模式哈希是解决大型多媒体检索问题的成功方法。提出了许多基于矩阵分解的哈希方法。但是,现有方法仍然在一些问题上遇到困难,例如如何有效地生成二元代码,而不是直接放松它们的连续性。此外,大多数现有方法选择使用$ n \ times n $相似性矩阵进行优化,这使得内存和计算无法承受。在本文中,我们提出了一种新型的不对称可伸缩式模式哈希(ASCMH)来解决这些问题。首先,它引入了集体矩阵分解,以从不同模态的内核特征中学习一个共同的潜在空间,然后将相似性矩阵优化转换为距距离距离差异问题,并借助语义标签和共同的潜在空间。因此,$ n \ times n $不对称优化的计算复杂性得到了缓解。在一系列哈希码中,我们还采用了标签信息的正交约束,这对于搜索准确性是必不可少的。因此,可以大大减少计算的冗余。为了有效的优化并可扩展到大规模数据集,我们采用了两步方法,而不是同时优化。在三个基准数据集上进行了广泛的实验:Wiki,Mirflickr-25K和NUS范围内,表明我们的ASCMH在准确性和效率方面表现出了最先进的跨模式散列方法。
translated by 谷歌翻译
我们在这项研究中的目标是研究一个更现实的环境,在这种环境中,我们可以为细粒度的产品类别进行弱监督的多模式实例级产品检索。我们首先贡献了product1m数据集,并定义了两个实际实例级检索任务,以实现价格比较和个性化建议的评估。对于两个实例级任务,如何准确地指出视觉语言数据中提到的产品目标并有效地降低了无关紧要的内容的影响非常具有挑战性。为了解决这个问题,我们利用训练一个更有效的跨模式与模型,该模型能够自适应地能够通过使用一个实体图,其节点和边缘分别表示实体和相似性,从而可以从多模式数据中合并来自多模式数据的关键概念信息。实体。具体而言,为实例级别的商品检索提出了一种新型的实体图增强的跨模式预处理(EGE-CMP)模型,该模型明确地将基于节点的基于节点的基于节点和子图的方式显式地注入实体知识。自我监管的混合流变压器可以减少不同对象内容之间的混淆,从而有效地指导网络专注于具有真实语义的实体。实验结果很好地验证了我们的EGE-CMP的功效和概括性,表现优于几个SOTA跨模式基线,例如夹子,Uniter和Capture。
translated by 谷歌翻译
最近,为了提高无监督的图像检索性能,通过设计语义相似性矩阵提出了许多无监督的哈希方法,该方法基于预先训练的CNN模型提取的图像功能之间的相似性。但是,这些方法中的大多数倾向于忽略图像中包含的高级抽象语义概念。直观地,概念在计算图像之间的相似性中起着重要作用。在实际情况下,每个图像都与某些概念相关联,如果两个图像共享更相同的概念,则两个图像之间的相似性将更大。受到上述直觉的启发,在这项工作中,我们提出了一种带有语义概念挖掘的新颖无监督的散列散布,称为UHSCM,该挖掘利用VLP模型来构建高质量的相似性矩阵。具体而言,首先收集一组随机选择的概念。然后,通过使用及时的工程进行视觉预审进(VLP)模型,该模型在视觉表示学习中表现出强大的力量,根据训练图像将一组概念降低。接下来,提出的方法UHSCM应用了VLP模型,并再次提示挖掘每个图像的概念分布,并基于挖掘的概念分布构建高质量的语义相似性矩阵。最后,以语义相似性矩阵作为指导信息,提出了一种新颖的散列损失,并提出了基于对比度损失的正则化项,以优化哈希网络。在三个基准数据集上进行的大量实验表明,所提出的方法在图像检索任务中优于最新基准。
translated by 谷歌翻译
跨模型检索(CMR)是多式化计算和信息检索的重要研究主题,它将一种类型的数据作为查询来检索另一种类型的相关数据,并且已广泛用于许多现实世界应用程序。最近,由剪辑代表的视觉语言预训练模型表明了其在各种视觉和语言相关任务方面学习视觉和文本表示的优势及其令人印象深刻的性能。虽然剪辑以及以前的预训练模型表现出令人遗憾的CMR性能改善,但由于缺乏多式联级关联,很少探索这些预测模型对监督CMR的训练模型的性能和影响。在本文中,我们将剪辑作为当前代表性的视觉 - 语言预训练模型,进行全面的实证研究,并提供对其性能和对监督CMR的影响的见解。为此,我们首先提出了一种新颖的模型剪辑4cmr(\ textBF {Clip for}监督\ textbf {c} ross- \ textbf {m} odal \ textbf {r} etrieval),该剪辑作为骨干网络来执行监督CMR。然后,我们在CMR中重新审视现有的损失函数设计,包括最常见的一对损失,类明智的损失和混合动力车,并提供对应用夹子的见解。此外,我们调查了监督CMR中的几个有关问题,并通过CLIP4CMR为该领域提供了新的视角,包括对模态不平衡的鲁棒性和对超参数的敏感性。广泛的实验结果表明,CLIP4CMR实现了SOTA的结果,在基准数据集维基百科,Nus-rive,Pascal句子和XMediaet上有重大改进。我们的数据和代码在https://github.com/zhixiongz/clip4cmr上公开提供。
translated by 谷歌翻译
Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
translated by 谷歌翻译
构建一个通用视频语言模型,用于解决各种视频理解任务(例如,文本视频检索,视频问答)是对机器学习领域的开放挑战。为了实现这一目标,最近的尝试训练模型,通常由单峰和跨模式的特征编码器组成,并具有受监督或成对的对比度的预文本任务。尽管提供了有吸引力的通用性,但最终的模型必须在效率和性能之间妥协。我们认为这些缺陷是由它们的预训练策略\ Textemdash引起的,它们不能很好地对齐和融合不同方式的特征。然后,我们将三叶草(一种相关的视频预培训方法)介绍给一个通用的视频语言模型,该模型用于解决既不效率也不妥协的多个视频理解任务。它通过新的三模式比对预训练任务来改善跨模式特征对齐和融合。此外,我们建议通过合并蒙面样品的学习和新颖的成对排名损失来增强三模式对齐。三叶草表现出了出色的一般性。它在多个下游任务上建立了新的最新技术,包括零射击和微调设置的三个检索任务,以及八个视频问答任务。代码和预培训模型将在https://github.com/leeyn-43/clover上发布。
translated by 谷歌翻译
由于有效的检索速度和储存率低,因此学习哈希已被广泛用于视觉检索任务。但是,现有的哈希方法假定查询和检索样品位于同一域内的均匀特征空间中。结果,它们不能直接应用于异质的跨域检索。在本文中,我们提出了一个广义图像转移检索(GITR)问题,该问题遇到了两个关键的瓶颈:1)查询和检索样品可能来自不同的域,导致不可避免的{域分布gap}; 2)两个域的特征可能是异质的或未对准的,从而增加了{特征差距}。为了解决GITR问题,我们提出了一个不对称的转移哈希(ATH)框架,其无监督/半监督/监督的实现。具体而言,ATH通过两个不对称的哈希函数之间的差异来表征域分布差距,并借助于跨域数据构建的新型自适应双分部分图,从而最小化特征差距。通过共同优化不对称的哈希功能和两分图,不仅可以实现知识转移,而且还可以避免由特征比对引起的信息损失。同时,为了减轻负转移,通过涉及域亲和图来保留单域数据的内在几何结构。对不同GITR子任务下的单域和跨域基准测试的广泛实验表明,与最新的哈希方法相比,我们的ATH方法的优越性。
translated by 谷歌翻译
基于信息瓶颈(IB)的多视图学习提供了一种信息理论原则,用于寻找异质数据描述中包含的共享信息。但是,它的巨大成功通常归因于估计网络变得复杂时棘手的多元互助信息。此外,表示折衷的表示,{\ it},预测压缩和足够的一致性权衡,使IB难以同时满足这两个要求。在本文中,我们设计了几种变分信息瓶颈,以利用两个关键特征({\ it,即},充分性和一致性)用于多视图表示学习。具体而言,我们提出了一种多视图变量蒸馏(MV $^2 $ d)策略,以通过给出观点的任意输入,但没有明确估算它,从而为拟合MI提供了可扩展,灵活和分析的解决方案。在严格的理论保证下,我们的方法使IB能够掌握观测和语义标签之间的内在相关性,从而自然产生预测性和紧凑的表示。同样,我们的信息理论约束可以通过消除任务 - 求核和特定信息的信息来有效地中和对异质数据的敏感性,从而阻止在多种视图情况下两种权衡。为了验证理论上的策略,我们将方法应用于三种不同应用下的各种基准。广泛的定量和定性实验证明了我们对最新方法的方法的有效性。
translated by 谷歌翻译
零拍摄对象检测(ZSD),将传统检测模型扩展到检测来自Unseen类别的对象的任务,已成为计算机视觉中的新挑战。大多数现有方法通过严格的映射传输策略来解决ZSD任务,这可能导致次优ZSD结果:1)这些模型的学习过程忽略了可用的看不见的类信息,因此可以轻松地偏向所看到的类别; 2)原始视觉特征空间并不合适,缺乏歧视信息。为解决这些问题,我们开发了一种用于ZSD的新型语义引导的对比网络,命名为Contrastzsd,一种检测框架首先将对比学习机制带入零拍摄检测的领域。特别地,对比度包括两个语义导向的对比学学习子网,其分别与区域类别和区域区域对之间形成对比。成对对比度任务利用从地面真理标签和预定义的类相似性分布派生的附加监督信号。在那些明确的语义监督的指导下,模型可以了解更多关于看不见的类别的知识,以避免看到概念的偏见问题,同时优化视觉功能的数据结构,以更好地辨别更好的视觉语义对齐。广泛的实验是在ZSD,即Pascal VOC和MS Coco的两个流行基准上进行的。结果表明,我们的方法优于ZSD和广义ZSD任务的先前最先进的。
translated by 谷歌翻译
Hashing has been widely researched to solve the large-scale approximate nearest neighbor search problem owing to its time and storage superiority. In recent years, a number of online hashing methods have emerged, which can update the hash functions to adapt to the new stream data and realize dynamic retrieval. However, existing online hashing methods are required to update the whole database with the latest hash functions when a query arrives, which leads to low retrieval efficiency with the continuous increase of the stream data. On the other hand, these methods ignore the supervision relationship among the examples, especially in the multi-label case. In this paper, we propose a novel Fast Online Hashing (FOH) method which only updates the binary codes of a small part of the database. To be specific, we first build a query pool in which the nearest neighbors of each central point are recorded. When a new query arrives, only the binary codes of the corresponding potential neighbors are updated. In addition, we create a similarity matrix which takes the multi-label supervision information into account and bring in the multi-label projection loss to further preserve the similarity among the multi-label data. The experimental results on two common benchmarks show that the proposed FOH can achieve dramatic superiority on query time up to 6.28 seconds less than state-of-the-art baselines with competitive retrieval accuracy.
translated by 谷歌翻译
最近,深度散列方法已广泛用于图像检索任务。大多数现有的深度散列方法采用一对一量化以降低信息损失。然而,这种类无关的量化不能为网络培训提供歧视反馈。此外,这些方法仅利用单个标签来集成散列函数学习数据的监督信息,这可能导致较差的网络泛化性能和相对低质量的散列代码,因为数据的帧间信息完全忽略。在本文中,我们提出了一种双语义非对称散列(DSAH)方法,其在三倍的约束下产生鉴别性哈希码。首先,DSAH在进行类结构量化之前利用类,以便在量化过程中传输类信息。其次,设计简单但有效的标签机制旨在表征类内的紧凑性和数据间数据间可分离性,从而实现了语义敏感的二进制代码学习。最后,设计了一种有意义的成对相似性保存损耗,以最小化基于亲和图的类相关网络输出之间的距离。利用这三个主要组件,可以通过网络生成高质量的哈希代码。在各种数据集上进行的广泛实验表明了DSAH的优越性与最先进的深度散列方法相比。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
在基于哈希的图像检索系统中,原始的变换输入通常会产生不同的代码,降低检索精度。要缓解此问题,可以在培训期间应用数据增强。然而,即使一个内容的增强样本在真实空间中相似,量化也可以在汉明空间远离它们。这导致可以阻碍培训和降低性能的表示差异。在这项工作中,我们提出了一种新型的自蒸馏散列方案,以最小化差异,同时利用增强数据的潜力。通过将弱变换样本的哈希知识转移到强大的样本,我们使哈希代码对各种变换不敏感。我们还引入了基于哈希代理的相似度学习和基于二进制交叉熵的量化损耗,以提供优质的质量哈希代码。最终,我们构建一个深度散列框架,产生鉴别性哈希代码。基准测试的广泛实验验证了我们的自蒸馏改善了现有的深度散列方法,我们的框架达到了最先进的检索结果。代码将很快发布。
translated by 谷歌翻译