哈希(Hashing)将项目数据投入二进制代码已显示出由于其储存量低和高查询速度而显示出跨模式检索的非凡人才。尽管在某些情况下取得了经验成功,但现有的跨模式散列方法通常不存在带有大量标记信息的数据时跨模式差距跨模式差距。为了避免以分裂和纠纷策略的激励,我们提出了深层的歧管散列(DMH),这是一种新颖的方法,是将半分配的无监督的交叉模式检索分为三个子问题,并建立一个简单而又简单而又又有一个简单的方法每个子问题的效率模型。具体而言,第一个模型是通过基于多种学习的半生数据补充的半生数据来构建的,用于获得模态不变的特征,而第二个模型和第三个模型旨在分别学习哈希码和哈希功能。在三个基准上进行的广泛实验表明,与最先进的完全配对和半成本无监督的跨模式散列方法相比,我们的DMH的优势。
translated by 谷歌翻译
零射击跨模式检索(ZS-CMR)处理了来自看不见类别的异源数据之间的检索问题。通常,为了确保概括,使用自然语言处理(NLP)模型的预定义类嵌入方式用于构建公共空间。在本文中,我们考虑了一种完全不同的方法来从信息理论的角度考虑构造(或学习)通用锤击空间的完全不同的方法,而不是使用额外的NLP模型来定义公共空间。我们将模型称为信息理论哈希(ITH),该图案由两个级联模块组成:一个自适应信息聚合(AIA)模块;和语义保存编码(SPE)模块。具体而言,我们的AIA模块从相关信息的原理(PRI)中汲取灵感来构建一个共同空间,该空间可适应地汇总了不同数据模式的固有语义,并滤除了多余或无关紧要的信息。另一方面,我们的SPE模块通过保留固有语义与元素的Kullback-Leibler(KL)差异的相似性,进一步生成了不同模态的哈希代码。还施加了总相关性项,以减少哈希码不同维度之间的冗余。在三个基准数据集上进行了足够的实验,证明了ZS-CMR中提出的ITH的优势。源代码在补充材料中可用。
translated by 谷歌翻译
由于其在计算和存储的效率,散列广泛应用于大型多媒体数据上的多模式检索。在本文中,我们提出了一种用于可伸缩图像文本和视频文本检索的新型深度语义多模式散列网络(DSMHN)。所提出的深度散列框架利用2-D卷积神经网络(CNN)作为骨干网络,以捕获图像文本检索的空间信息,而3-D CNN作为骨干网络以捕获视频的空间和时间信息 - 文本检索。在DSMHN中,通过显式保留帧间性相似性和岩石性语义标签,共同学习两组模态特定散列函数。具体地,假设学习散列代码应该是对分类任务的最佳选择,通过在所得哈希代码上嵌入语义标签来共同训练两个流网络以学习散列函数。此外,提出了一种统一的深层多模式散列框架,通过利用特征表示学习,互相相似度 - 保存学习,语义标签保留学习和哈希函数学习同时利用不同类型的损耗功能来学习紧凑和高质量的哈希码。该提议的DSMHN方法是用于图像文本和视频文本检索的通用和可扩展的深度散列框架,其可以灵活地集成在不同类型的损耗功能中。我们在四个广泛使用的多媒体检索数据集中对单一模态和跨模型检索任务进行广泛的实验。图像文本和视频文本检索任务的实验结果表明DSMHN显着优于最先进的方法。
translated by 谷歌翻译
在本文中,我们采用了最大化的互信息(MI)方法来解决无监督的二进制哈希代码的问题,以实现高效的跨模型检索。我们提出了一种新颖的方法,被称为跨模型信息最大散列(CMIMH)。首先,要学习可以保留模跨和跨间相似性的信息的信息,我们利用最近估计MI的变分的进步,以最大化二进制表示和输入特征之间的MI以及不同方式的二进制表示之间的MI。通过在假设由多变量Bernoulli分布模型的假设下联合最大化这些MIM,我们可以学习二进制表示,该二进制表示,其可以在梯度下降中有效地以微量批量方式有效地保留帧内和模态的相似性。此外,我们发现尝试通过学习与来自不同模式的相同实例的类似二进制表示来最小化模态差距,这可能导致更少的信息性表示。因此,在减少模态间隙和失去模态 - 私人信息之间平衡对跨模型检索任务很重要。标准基准数据集上的定量评估表明,该方法始终如一地优于其他最先进的跨模型检索方法。
translated by 谷歌翻译
跨模式哈希是解决大型多媒体检索问题的成功方法。提出了许多基于矩阵分解的哈希方法。但是,现有方法仍然在一些问题上遇到困难,例如如何有效地生成二元代码,而不是直接放松它们的连续性。此外,大多数现有方法选择使用$ n \ times n $相似性矩阵进行优化,这使得内存和计算无法承受。在本文中,我们提出了一种新型的不对称可伸缩式模式哈希(ASCMH)来解决这些问题。首先,它引入了集体矩阵分解,以从不同模态的内核特征中学习一个共同的潜在空间,然后将相似性矩阵优化转换为距距离距离差异问题,并借助语义标签和共同的潜在空间。因此,$ n \ times n $不对称优化的计算复杂性得到了缓解。在一系列哈希码中,我们还采用了标签信息的正交约束,这对于搜索准确性是必不可少的。因此,可以大大减少计算的冗余。为了有效的优化并可扩展到大规模数据集,我们采用了两步方法,而不是同时优化。在三个基准数据集上进行了广泛的实验:Wiki,Mirflickr-25K和NUS范围内,表明我们的ASCMH在准确性和效率方面表现出了最先进的跨模式散列方法。
translated by 谷歌翻译
跨模态散列(CMH)是跨模型近似最近邻搜索中最有前途的方法之一。大多数CMH解决方案理想地假设培训和测试集的标签是相同的。但是,通常违反假设,导致零拍摄的CMH问题。最近解决此问题的努力侧重于使用标签属性将知识转移到未见的类。但是,该属性与多模态数据的特征隔离。为了减少信息差距,我们介绍了一种名为LAEH的方法(嵌入零拍跨模型散列的标签属性)。 Laeh首先通过Word2Vec模型获取标签的初始语义属性向量,然后使用转换网络将它们转换为常见的子空间。接下来,它利用散列向量和特征相似矩阵来指导不同方式的特征提取网络。与此同时,Laeh使用属性相似性作为标签相似度的补充,以纠正标签嵌入和常见子空间。实验表明,Laeh优于相关代表零射和跨模态散列方法。
translated by 谷歌翻译
由于在大异构数据上加速查询时间的同时减少存储的优点,已经广泛研究了跨模型散列,以便对多模态数据的近似邻近搜索进行广泛研究。大多数散列方法假设培训数据是类平衡的。但是,在实践中,现实世界数据通常具有长尾的分布。在本文中,我们介绍了一种基于元学习的跨模态散列方法(MetacMH)来处理长尾数据。由于尾部类中缺乏培训样本,MetacMH首先从不同模式中的数据中学习直接功能,然后引入关联内存模块,以了解尾部类别的样本的存储器功能。然后,它结合了直接和内存功能以获得每个样本的元特征。对于长尾分布的头部类别的样本,直接功能的重量越大,因为有足够的训练数据来学习它们;虽然对于罕见的类,但内存功能的重量越大。最后,MetacMH使用似然损耗函数来保持不同模式中的相似性,并以端到端的方式学习哈希函数。长尾数据集的实验表明,MetacMH比最先进的方法表现出明显好,特别是在尾部课上。
translated by 谷歌翻译
Existing Cross Modal Hashing (CMH) methods are mainly designed for balanced data, while imbalanced data with long-tail distribution is more general in real-world. Several long-tail hashing methods have been proposed but they can not adapt for multi-modal data, due to the complex interplay between labels and individuality and commonality information of multi-modal data. Furthermore, CMH methods mostly mine the commonality of multi-modal data to learn hash codes, which may override tail labels encoded by the individuality of respective modalities. In this paper, we propose LtCMH (Long-tail CMH) to handle imbalanced multi-modal data. LtCMH firstly adopts auto-encoders to mine the individuality and commonality of different modalities by minimizing the dependency between the individuality of respective modalities and by enhancing the commonality of these modalities. Then it dynamically combines the individuality and commonality with direct features extracted from respective modalities to create meta features that enrich the representation of tail labels, and binaries meta features to generate hash codes. LtCMH significantly outperforms state-of-the-art baselines on long-tail datasets and holds a better (or comparable) performance on datasets with balanced labels.
translated by 谷歌翻译
最近,深度散列方法已广泛用于图像检索任务。大多数现有的深度散列方法采用一对一量化以降低信息损失。然而,这种类无关的量化不能为网络培训提供歧视反馈。此外,这些方法仅利用单个标签来集成散列函数学习数据的监督信息,这可能导致较差的网络泛化性能和相对低质量的散列代码,因为数据的帧间信息完全忽略。在本文中,我们提出了一种双语义非对称散列(DSAH)方法,其在三倍的约束下产生鉴别性哈希码。首先,DSAH在进行类结构量化之前利用类,以便在量化过程中传输类信息。其次,设计简单但有效的标签机制旨在表征类内的紧凑性和数据间数据间可分离性,从而实现了语义敏感的二进制代码学习。最后,设计了一种有意义的成对相似性保存损耗,以最小化基于亲和图的类相关网络输出之间的距离。利用这三个主要组件,可以通过网络生成高质量的哈希代码。在各种数据集上进行的广泛实验表明了DSAH的优越性与最先进的深度散列方法相比。
translated by 谷歌翻译
最近,为了提高无监督的图像检索性能,通过设计语义相似性矩阵提出了许多无监督的哈希方法,该方法基于预先训练的CNN模型提取的图像功能之间的相似性。但是,这些方法中的大多数倾向于忽略图像中包含的高级抽象语义概念。直观地,概念在计算图像之间的相似性中起着重要作用。在实际情况下,每个图像都与某些概念相关联,如果两个图像共享更相同的概念,则两个图像之间的相似性将更大。受到上述直觉的启发,在这项工作中,我们提出了一种带有语义概念挖掘的新颖无监督的散列散布,称为UHSCM,该挖掘利用VLP模型来构建高质量的相似性矩阵。具体而言,首先收集一组随机选择的概念。然后,通过使用及时的工程进行视觉预审进(VLP)模型,该模型在视觉表示学习中表现出强大的力量,根据训练图像将一组概念降低。接下来,提出的方法UHSCM应用了VLP模型,并再次提示挖掘每个图像的概念分布,并基于挖掘的概念分布构建高质量的语义相似性矩阵。最后,以语义相似性矩阵作为指导信息,提出了一种新颖的散列损失,并提出了基于对比度损失的正则化项,以优化哈希网络。在三个基准数据集上进行的大量实验表明,所提出的方法在图像检索任务中优于最新基准。
translated by 谷歌翻译
由于需要经济的储存和二元法规的效率,因此无监督的哈希对二元表示学习引起了很多关注。它旨在编码锤子空间中的高维特征,并在实例之间保持相似性。但是,大多数现有方法在基于多种的方法中学习哈希功能。这些方法捕获了数据的局部几何结构(即成对关系),并且在处理具有不同语义信息的实际特征(例如颜色和形状)的真实情况时缺乏令人满意的性能。为了应对这一挑战,在这项工作中,我们提出了一种有效的无监督方法,即共同个性化的稀疏哈希(JPSH),以进行二进制表示学习。具体来说,首先,我们提出了一个新颖的个性化哈希模块,即个性化的稀疏哈希(PSH)。构建了不同的个性化子空间,以反映不同群集的特定类别属性,同一群集中的自适应映射实例与同一锤子空间。此外,我们为不同的个性化子空间部署稀疏约束来选择重要功能。我们还收集了其他群集的优势,以避免过度拟合,以构建PSH模块。然后,为了在JPSH中同时保留语义和成对的相似性,我们将基于PSH和歧管的哈希学习纳入无缝配方中。因此,JPSH不仅将这些实例与不同的集群区分开,而且还保留了集群中的本地邻里结构。最后,采用了交替优化算法,用于迭代捕获JPSH模型的分析解决方案。在四个基准数据集上进行的大量实验验证了JPSH是否在相似性搜索任务上优于几个哈希算法。
translated by 谷歌翻译
Hashing has been widely researched to solve the large-scale approximate nearest neighbor search problem owing to its time and storage superiority. In recent years, a number of online hashing methods have emerged, which can update the hash functions to adapt to the new stream data and realize dynamic retrieval. However, existing online hashing methods are required to update the whole database with the latest hash functions when a query arrives, which leads to low retrieval efficiency with the continuous increase of the stream data. On the other hand, these methods ignore the supervision relationship among the examples, especially in the multi-label case. In this paper, we propose a novel Fast Online Hashing (FOH) method which only updates the binary codes of a small part of the database. To be specific, we first build a query pool in which the nearest neighbors of each central point are recorded. When a new query arrives, only the binary codes of the corresponding potential neighbors are updated. In addition, we create a similarity matrix which takes the multi-label supervision information into account and bring in the multi-label projection loss to further preserve the similarity among the multi-label data. The experimental results on two common benchmarks show that the proposed FOH can achieve dramatic superiority on query time up to 6.28 seconds less than state-of-the-art baselines with competitive retrieval accuracy.
translated by 谷歌翻译
在本文中,我们首先尝试调查深度哈希学习与车辆重新识别的集成。我们提出了一个深度哈希的车辆重新识别框架,被称为DVHN,这基本上减少了存储器使用,并在预留最接近的邻居搜索精度的同时提高检索效率。具体地,〜DVHN通过联合优化特征学习网络和哈希码生成模块,直接为每个图像直接学习离散的紧凑型二进制哈希代码。具体地,我们直接将来自卷积神经网络的输出限制为离散二进制代码,并确保学习的二进制代码是对分类的最佳选择。为了优化深度离散散列框架,我们进一步提出了一种用于学习二进制相似性保存散列代码的交替最小化方法。在两个广泛研究的车辆重新识别数据集 - \ textbf {sportid}和\ textbf {veri} - 〜〜\ textbf {veri} - 〜已经证明了我们对最先进的深哈希方法的方法的优越性。 2048美元的TextBF {DVHN}价格可以实现13.94 \%和10.21 \%的准确性改进\ textbf {map}和\ textbf {stuckbf {stank @ 1}的\ textbf {stuckid(800)} dataSet。对于\ textbf {veri},我们分别实现了35.45 \%和32.72 \%\ textbf {rank @ 1}和\​​ textbf {map}的性能增益。
translated by 谷歌翻译
由于有效的检索速度和储存率低,因此学习哈希已被广泛用于视觉检索任务。但是,现有的哈希方法假定查询和检索样品位于同一域内的均匀特征空间中。结果,它们不能直接应用于异质的跨域检索。在本文中,我们提出了一个广义图像转移检索(GITR)问题,该问题遇到了两个关键的瓶颈:1)查询和检索样品可能来自不同的域,导致不可避免的{域分布gap}; 2)两个域的特征可能是异质的或未对准的,从而增加了{特征差距}。为了解决GITR问题,我们提出了一个不对称的转移哈希(ATH)框架,其无监督/半监督/监督的实现。具体而言,ATH通过两个不对称的哈希函数之间的差异来表征域分布差距,并借助于跨域数据构建的新型自适应双分部分图,从而最小化特征差距。通过共同优化不对称的哈希功能和两分图,不仅可以实现知识转移,而且还可以避免由特征比对引起的信息损失。同时,为了减轻负转移,通过涉及域亲和图来保留单域数据的内在几何结构。对不同GITR子任务下的单域和跨域基准测试的广泛实验表明,与最新的哈希方法相比,我们的ATH方法的优越性。
translated by 谷歌翻译
图像文本聚类(ITC)的目标是通过整合这些异质样品的多模式的互补和一致信息来找到正确的簇。但是,目前的大多数研究都根据理想的前提分析了ITC,即每种模式中的样本都是完整的。但是,在现实情况下,这种推定并不总是有效的。缺少的数据问题使图像文本特征学习性能退化,并最终会影响ITC任务中的概括能力。尽管已经提出了一系列方法来解决此不完整的图像文本群集问题(IITC),但仍然存在以下问题:1)大多数现有方法几乎不考虑异质特征域之间的明显差距。 2)对于缺少数据,很少保证由现有方法生成的表示形式适合聚类任务。 3)现有方法不利用内部和内部模式的潜在连接。在本文中,我们提出了一个聚类引起的生成不完整的图像文本聚类(CIGIT-C)网络,以应对上述挑战。更具体地说,我们首先使用特定于模态的编码器将原始功能映射到更独特的子空间。通过使用对抗生成网络在另一种模态上产生一种方式,可以彻底探索内部内部和模式之间的潜在连接。最后,我们使用两个KL DiverGence损失更新相应的模态特异性编码器。公共图像文本数据集的实验结果表明,建议的方法优于IITC作业更有效。
translated by 谷歌翻译
通过将高维数据点编码为二进制代码以进行有效检索,深度哈希已被广泛应用于大规模图像检索。与基于成对/三胞胎相似性的哈希学习相比,基于中央相似性的哈希可以更有效地捕获全局数据分布。但是,对于多标签图像检索,以前的方法仅使用具有相等权重的多个哈希中心来生成一个质心作为学习目标,该目标忽略了哈希中心的权重与图像中实例区域的比例之间的关系。为了解决上述问题,我们提出了一种两步的替代优化方法,即实例加权中心相似性(ICS),以自动学习与哈希代码相对应的中心重量。首先,我们应用最大熵正常器来防止一个哈希中心主导损失函数,并通过投影梯度下降计算中心重量。其次,我们通过固定中心权重的标准背部传播来更新神经网络参数。更重要的是,学到的中心重量可以很好地反映图像中前景实例的比例。我们的方法在图像检索基准测试中实现了最先进的性能,尤其是在MS可可数据集中将地图提高了1.6%-6.4%。
translated by 谷歌翻译
Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
translated by 谷歌翻译
跨模型检索(CMR)是多式化计算和信息检索的重要研究主题,它将一种类型的数据作为查询来检索另一种类型的相关数据,并且已广泛用于许多现实世界应用程序。最近,由剪辑代表的视觉语言预训练模型表明了其在各种视觉和语言相关任务方面学习视觉和文本表示的优势及其令人印象深刻的性能。虽然剪辑以及以前的预训练模型表现出令人遗憾的CMR性能改善,但由于缺乏多式联级关联,很少探索这些预测模型对监督CMR的训练模型的性能和影响。在本文中,我们将剪辑作为当前代表性的视觉 - 语言预训练模型,进行全面的实证研究,并提供对其性能和对监督CMR的影响的见解。为此,我们首先提出了一种新颖的模型剪辑4cmr(\ textBF {Clip for}监督\ textbf {c} ross- \ textbf {m} odal \ textbf {r} etrieval),该剪辑作为骨干网络来执行监督CMR。然后,我们在CMR中重新审视现有的损失函数设计,包括最常见的一对损失,类明智的损失和混合动力车,并提供对应用夹子的见解。此外,我们调查了监督CMR中的几个有关问题,并通过CLIP4CMR为该领域提供了新的视角,包括对模态不平衡的鲁棒性和对超参数的敏感性。广泛的实验结果表明,CLIP4CMR实现了SOTA的结果,在基准数据集维基百科,Nus-rive,Pascal句子和XMediaet上有重大改进。我们的数据和代码在https://github.com/zhixiongz/clip4cmr上公开提供。
translated by 谷歌翻译
最近流行的对比学习范式提出了无监督的哈希的发展。但是,以前的基于学习的作品受到(1)基于全球图像表示的数据相似性挖掘的障碍,以及(2)由数据增强引起的哈希代码语义损失。在本文中,我们提出了一种新颖的方法,即加权的伴侣哈希(WCH),以朝着解决这两个问题迈出一步。我们介绍了一个新型的相互注意模块,以减轻由缺失的图像结构引起的网络特征中信息不对称问题的问题。此外,我们探索了图像之间的细粒语义关系,即,我们将图像分为多个斑块并计算斑块之间的相似性。反映深层图像关系的聚合加权相似性是经过蒸馏而来的,以促进哈希码以蒸馏损失的方式学习,从而获得更好的检索性能。广泛的实验表明,所提出的WCH在三个基准数据集上显着优于现有的无监督哈希方法。
translated by 谷歌翻译
大量的现实数据可以由大规模网络自然表示,该网络需要高效有效的学习算法。同时,标签可能仅适用于某些网络,这要求这些算法能够适应未标记的网络。域自适应哈希学习在许多实际任务中在计算机视觉社区中取得了巨大的成功,因为在检索时间和存储足迹中的成本较低。但是,它尚未应用于多域网络。在这项工作中,我们通过为网络(称为Udah)开发无监督的域自适应哈希学习方法来弥合这一差距。具体而言,我们开发了四个{特定于任务但相关的}组件:(1)通过硬组对比损失进行网络结构保存,(2)无放松的监督哈希,(3)跨域相交的歧视者和(4)语义中心对齐。我们进行了广泛的实验,以评估我们方法对包括链接预测,节点分类和邻居建议在内的一系列任务的有效性和效率。我们的评估结果表明,我们的模型比所有任务上最先进的常规离散嵌入方法的性能更好。
translated by 谷歌翻译