监督基于深度学习的哈希和矢量量化是实现快速和大规模的图像检索系统。通过完全利用标签注释,与传统方法相比,它们正在实现出色的检索性能。但是,令人生心的是为大量训练数据准确地分配标签,并且还有注释过程易于出错。为了解决这些问题,我们提出了第一款深度无监督的图像检索方法被称为自我监督的产品量化(SPQ)网络,该方法是无标签和以自我监督的方式培训的。我们通过比较单独转换的图像(视图)来设计一个交叉量化的对比学习策略,该横向学习策略共同学习码字和深视觉描述符。我们的方法分析了图像内容以提取描述性功能,允许我们理解图像表示以准确检索。通过对基准进行广泛的实验,我们证明该方法即使没有监督预测,也会产生最先进的结果。
translated by 谷歌翻译
无监督的图像检索旨在学习有效的检索系统而无需昂贵的数据注释,但是大多数现有方法都严重依赖于手工制作的功能描述符或预训练的功能提取器。为了最大程度地减少人类的监督,最近的Advance提出了深度无监督的图像检索,旨在训练从头开始的深层模型,以共同优化视觉特征和量化代码。但是,现有方法主要集中于实例对比学习,而无需考虑基本的语义结构信息,从而导致了次优的性能。在这项工作中,我们提出了一种新型的自我监督一致的量化方法,以深度无监督的图像检索,该方法由一致的零件量化和全局一致的量化组成。在部分一致的量化中,我们通过CodeWord多样性正规化设计了部分邻居语义一致性学习。这允许将基础化表示的基本邻居结构信息视为自学。在全球一致的量化中,我们对嵌入和量化表示形式采用对比度学习,并将这些表示形式融合在一起,以在实例之间进行一致的对比度正规化。这可以弥补量化过程中有用表示信息的丢失,并在实例之间正规化一致性。我们的方法具有统一的学习目标和全球一致的量化,利用了更丰富的自学线索来促进模型学习。在三个基准数据集上进行的广泛实验表明,我们的方法优于最先进的方法。
translated by 谷歌翻译
在基于哈希的图像检索系统中,原始的变换输入通常会产生不同的代码,降低检索精度。要缓解此问题,可以在培训期间应用数据增强。然而,即使一个内容的增强样本在真实空间中相似,量化也可以在汉明空间远离它们。这导致可以阻碍培训和降低性能的表示差异。在这项工作中,我们提出了一种新型的自蒸馏散列方案,以最小化差异,同时利用增强数据的潜力。通过将弱变换样本的哈希知识转移到强大的样本,我们使哈希代码对各种变换不敏感。我们还引入了基于哈希代理的相似度学习和基于二进制交叉熵的量化损耗,以提供优质的质量哈希代码。最终,我们构建一个深度散列框架,产生鉴别性哈希代码。基准测试的广泛实验验证了我们的自蒸馏改善了现有的深度散列方法,我们的框架达到了最先进的检索结果。代码将很快发布。
translated by 谷歌翻译
最近流行的对比学习范式提出了无监督的哈希的发展。但是,以前的基于学习的作品受到(1)基于全球图像表示的数据相似性挖掘的障碍,以及(2)由数据增强引起的哈希代码语义损失。在本文中,我们提出了一种新颖的方法,即加权的伴侣哈希(WCH),以朝着解决这两个问题迈出一步。我们介绍了一个新型的相互注意模块,以减轻由缺失的图像结构引起的网络特征中信息不对称问题的问题。此外,我们探索了图像之间的细粒语义关系,即,我们将图像分为多个斑块并计算斑块之间的相似性。反映深层图像关系的聚合加权相似性是经过蒸馏而来的,以促进哈希码以蒸馏损失的方式学习,从而获得更好的检索性能。广泛的实验表明,所提出的WCH在三个基准数据集上显着优于现有的无监督哈希方法。
translated by 谷歌翻译
Hierarchical semantic structures, naturally existing in real-world datasets, can assist in capturing the latent distribution of data to learn robust hash codes for retrieval systems. Although hierarchical semantic structures can be simply expressed by integrating semantically relevant data into a high-level taxon with coarser-grained semantics, the construction, embedding, and exploitation of the structures remain tricky for unsupervised hash learning. To tackle these problems, we propose a novel unsupervised hashing method named Hyperbolic Hierarchical Contrastive Hashing (HHCH). We propose to embed continuous hash codes into hyperbolic space for accurate semantic expression since embedding hierarchies in hyperbolic space generates less distortion than in hyper-sphere space and Euclidean space. In addition, we extend the K-Means algorithm to hyperbolic space and perform the proposed hierarchical hyperbolic K-Means algorithm to construct hierarchical semantic structures adaptively. To exploit the hierarchical semantic structures in hyperbolic space, we designed the hierarchical contrastive learning algorithm, including hierarchical instance-wise and hierarchical prototype-wise contrastive learning. Extensive experiments on four benchmark datasets demonstrate that the proposed method outperforms the state-of-the-art unsupervised hashing methods. Codes will be released.
translated by 谷歌翻译
最近,为了提高无监督的图像检索性能,通过设计语义相似性矩阵提出了许多无监督的哈希方法,该方法基于预先训练的CNN模型提取的图像功能之间的相似性。但是,这些方法中的大多数倾向于忽略图像中包含的高级抽象语义概念。直观地,概念在计算图像之间的相似性中起着重要作用。在实际情况下,每个图像都与某些概念相关联,如果两个图像共享更相同的概念,则两个图像之间的相似性将更大。受到上述直觉的启发,在这项工作中,我们提出了一种带有语义概念挖掘的新颖无监督的散列散布,称为UHSCM,该挖掘利用VLP模型来构建高质量的相似性矩阵。具体而言,首先收集一组随机选择的概念。然后,通过使用及时的工程进行视觉预审进(VLP)模型,该模型在视觉表示学习中表现出强大的力量,根据训练图像将一组概念降低。接下来,提出的方法UHSCM应用了VLP模型,并再次提示挖掘每个图像的概念分布,并基于挖掘的概念分布构建高质量的语义相似性矩阵。最后,以语义相似性矩阵作为指导信息,提出了一种新颖的散列损失,并提出了基于对比度损失的正则化项,以优化哈希网络。在三个基准数据集上进行的大量实验表明,所提出的方法在图像检索任务中优于最新基准。
translated by 谷歌翻译
最近,深度散列方法已广泛用于图像检索任务。大多数现有的深度散列方法采用一对一量化以降低信息损失。然而,这种类无关的量化不能为网络培训提供歧视反馈。此外,这些方法仅利用单个标签来集成散列函数学习数据的监督信息,这可能导致较差的网络泛化性能和相对低质量的散列代码,因为数据的帧间信息完全忽略。在本文中,我们提出了一种双语义非对称散列(DSAH)方法,其在三倍的约束下产生鉴别性哈希码。首先,DSAH在进行类结构量化之前利用类,以便在量化过程中传输类信息。其次,设计简单但有效的标签机制旨在表征类内的紧凑性和数据间数据间可分离性,从而实现了语义敏感的二进制代码学习。最后,设计了一种有意义的成对相似性保存损耗,以最小化基于亲和图的类相关网络输出之间的距离。利用这三个主要组件,可以通过网络生成高质量的哈希代码。在各种数据集上进行的广泛实验表明了DSAH的优越性与最先进的深度散列方法相比。
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译
在本文中,我们首先尝试调查深度哈希学习与车辆重新识别的集成。我们提出了一个深度哈希的车辆重新识别框架,被称为DVHN,这基本上减少了存储器使用,并在预留最接近的邻居搜索精度的同时提高检索效率。具体地,〜DVHN通过联合优化特征学习网络和哈希码生成模块,直接为每个图像直接学习离散的紧凑型二进制哈希代码。具体地,我们直接将来自卷积神经网络的输出限制为离散二进制代码,并确保学习的二进制代码是对分类的最佳选择。为了优化深度离散散列框架,我们进一步提出了一种用于学习二进制相似性保存散列代码的交替最小化方法。在两个广泛研究的车辆重新识别数据集 - \ textbf {sportid}和\ textbf {veri} - 〜〜\ textbf {veri} - 〜已经证明了我们对最先进的深哈希方法的方法的优越性。 2048美元的TextBF {DVHN}价格可以实现13.94 \%和10.21 \%的准确性改进\ textbf {map}和\ textbf {stuckbf {stank @ 1}的\ textbf {stuckid(800)} dataSet。对于\ textbf {veri},我们分别实现了35.45 \%和32.72 \%\ textbf {rank @ 1}和\​​ textbf {map}的性能增益。
translated by 谷歌翻译
视觉识别任务通常限于处理小型类的小型,因为剩余类别不可用。我们有兴趣通过基于标记和未标记的示例的表示学习来识别数据集中的新颖概念,并将识别的视野扩展到已知和新型类别。为了解决这一具有挑战性的任务,我们提出了一种组合学习方法,其自然地使用由异构标签空间上的多个监督元分类器给出的组成知识来委托未经组合的类别。组合嵌入给出的表示通过一致性正则化进行了更强大的。我们还介绍了公制学习策略,以估算成对伪标签,以改善未标记的例子的表示,其有效地保护了朝着所知和新型课程的语义关系。该算法通过联合优化提高了看不见的课程的歧视以及学习知名课程的表示,通过联合优化来发现新颖的概念,以便更广泛地提高到新颖的课程。我们广泛的实验通过多种图像检索和新型类发现基准中的提出方法表现出显着的性能。
translated by 谷歌翻译
实例级图像检索(IIR)或简单的实例检索,涉及在数据集中查找包含查询实例(例如对象)的数据集中所有图像的问题。本文首次尝试使用基于实例歧视的对比学习(CL)解决此问题。尽管CL在许多计算机视觉任务中表现出令人印象深刻的性能,但在IIR领域也从未找到过类似的成功。在这项工作中,我们通过探索从预先训练和微调的CL模型中得出判别表示的能力来解决此问题。首先,我们通过比较预先训练的深度神经网络(DNN)分类器与CL模型学到的功能相比,研究了IIR转移学习的功效。这些发现启发了我们提出了一种新的培训策略,该策略通过使用平均精度(AP)损失以及微调方法来学习针对IIR量身定制的对比功能表示形式,从而优化CL以学习为导向IIR的功能。我们的经验评估表明,从挑战性的牛津和巴黎数据集中的预先培训的DNN分类器中学到的现成的特征上的表现显着提高。
translated by 谷歌翻译
哈希(Hashing)将项目数据投入二进制代码已显示出由于其储存量低和高查询速度而显示出跨模式检索的非凡人才。尽管在某些情况下取得了经验成功,但现有的跨模式散列方法通常不存在带有大量标记信息的数据时跨模式差距跨模式差距。为了避免以分裂和纠纷策略的激励,我们提出了深层的歧管散列(DMH),这是一种新颖的方法,是将半分配的无监督的交叉模式检索分为三个子问题,并建立一个简单而又简单而又又有一个简单的方法每个子问题的效率模型。具体而言,第一个模型是通过基于多种学习的半生数据补充的半生数据来构建的,用于获得模态不变的特征,而第二个模型和第三个模型旨在分别学习哈希码和哈希功能。在三个基准上进行的广泛实验表明,与最先进的完全配对和半成本无监督的跨模式散列方法相比,我们的DMH的优势。
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
由顺序训练和元训练阶段组成的两阶段训练范式已广泛用于当前的几次学习(FSL)研究。这些方法中的许多方法都使用自我监督的学习和对比度学习来实现新的最新结果。但是,在FSL培训范式的两个阶段,对比度学习的潜力仍未得到充分利用。在本文中,我们提出了一个新颖的基于学习的框架,该框架将对比度学习无缝地整合到两个阶段中,以提高少量分类的性能。在预训练阶段,我们提出了特征向量与特征映射和特征映射与特征映射的形式的自我监督对比损失,该图形与特征映射使用全局和本地信息来学习良好的初始表示形式。在元训练阶段,我们提出了一种跨视图的情节训练机制,以对同一情节的两个不同视图进行最近的质心分类,并采用基于它们的距离尺度对比度损失。这两种策略迫使模型克服观点之间的偏见并促进表示形式的可转让性。在三个基准数据集上进行的广泛实验表明,我们的方法可以实现竞争成果。
translated by 谷歌翻译
在本文中,我们采用了最大化的互信息(MI)方法来解决无监督的二进制哈希代码的问题,以实现高效的跨模型检索。我们提出了一种新颖的方法,被称为跨模型信息最大散列(CMIMH)。首先,要学习可以保留模跨和跨间相似性的信息的信息,我们利用最近估计MI的变分的进步,以最大化二进制表示和输入特征之间的MI以及不同方式的二进制表示之间的MI。通过在假设由多变量Bernoulli分布模型的假设下联合最大化这些MIM,我们可以学习二进制表示,该二进制表示,其可以在梯度下降中有效地以微量批量方式有效地保留帧内和模态的相似性。此外,我们发现尝试通过学习与来自不同模式的相同实例的类似二进制表示来最小化模态差距,这可能导致更少的信息性表示。因此,在减少模态间隙和失去模态 - 私人信息之间平衡对跨模型检索任务很重要。标准基准数据集上的定量评估表明,该方法始终如一地优于其他最先进的跨模型检索方法。
translated by 谷歌翻译
由于其在计算和存储的效率,散列广泛应用于大型多媒体数据上的多模式检索。在本文中,我们提出了一种用于可伸缩图像文本和视频文本检索的新型深度语义多模式散列网络(DSMHN)。所提出的深度散列框架利用2-D卷积神经网络(CNN)作为骨干网络,以捕获图像文本检索的空间信息,而3-D CNN作为骨干网络以捕获视频的空间和时间信息 - 文本检索。在DSMHN中,通过显式保留帧间性相似性和岩石性语义标签,共同学习两组模态特定散列函数。具体地,假设学习散列代码应该是对分类任务的最佳选择,通过在所得哈希代码上嵌入语义标签来共同训练两个流网络以学习散列函数。此外,提出了一种统一的深层多模式散列框架,通过利用特征表示学习,互相相似度 - 保存学习,语义标签保留学习和哈希函数学习同时利用不同类型的损耗功能来学习紧凑和高质量的哈希码。该提议的DSMHN方法是用于图像文本和视频文本检索的通用和可扩展的深度散列框架,其可以灵活地集成在不同类型的损耗功能中。我们在四个广泛使用的多媒体检索数据集中对单一模态和跨模型检索任务进行广泛的实验。图像文本和视频文本检索任务的实验结果表明DSMHN显着优于最先进的方法。
translated by 谷歌翻译
This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive selfsupervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by Sim-CLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-ofthe-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100× fewer labels. 1
translated by 谷歌翻译
人重新识别(REID)与跨不同相机的行人相匹配。采用真实功能描述符的现有REID方法已经达到了很高的精度,但是由于缓慢的欧几里得距离计算以及复杂的快速算法,它们的效率很低。最近,一些作品建议生产二进制编码的人描述符,而这些描述符仅需要快速锤击距离计算和简单的计数算法。但是,考虑到稀疏的二进制空间,这种二进制编码的描述符的性能,尤其是使用短代码(例如32位和64位)的性能几乎是令人满意的。为了在模型的准确性和效率之间取得平衡,我们提出了一种新颖的子空间一致性(SCR)算法,该算法可以比在相同维度下的实现功能,同时维持竞争精度,比实际价值的功能加快REID程序的$ 0.25 $倍。尤其是在简短的代码下。 SCR转换实价特征向量(例如,2048 Float32),带有简短的二进制代码(例如64位),首先将房地产品向量向量向量矢量分为$ M $子空间,每个vector vector vector vector value value value value value value value value value value value value coppection vetor vector vector vector vector vector vection velets velects velects velects velects vare cob $ m $ subpaces。因此,两个样品之间的距离可以表示为与质心相应距离的求和,可以通过离线计算加速并通过查找表维护。另一方面,与使用二进制代码相比,这些真实价值的质心有助于实现明显更高的准确性。最后,我们将距离查找表转换为整数,并应用计数算法以加快排名阶段。我们还提出了一个具有迭代框架的新型一致性正则化。 Market-1501和Dukemtmc-Reid的实验结果显示出令人鼓舞和令人兴奋的结果。在简短的代码下,我们拟议的SCR享有真实价值的准确性和哈希级速度。
translated by 谷歌翻译
与传统的散列方法相比,深度散列方法生成具有丰富语义信息的哈希代码,大大提高了图像检索场中的性能。然而,对于当前的深度散列方法预测硬示例的相似性是不满意的。它存在影响学习难度示例能力的两个主要因素,这是弱的关键特征提取和硬示例的短缺。在本文中,我们提供了一种新的端到端模型,可以从硬示例中提取关键特征,并使用准确的语义信息获得哈希码。此外,我们还重新设计了一个艰难的成对损失功能,以评估难度和更新的例子罚款。它有效缓解了硬例中的短缺问题。CiFAR-10和Nus-rige的实验结果表明我们的模型表现出基于主流散列的图像检索方法的表现。
translated by 谷歌翻译
图像检索已成为一种越来越有吸引力的技术,具有广泛的多媒体应用前景,在该技术中,深层哈希是朝着低存储和有效检索的主要分支。在本文中,我们对深度学习中的度量学习进行了深入的研究,以在多标签场景中建立强大的度量空间,在多标签场景中,两人的损失遭受了高度计算的开销和汇聚难度,而代理损失理论上是无法表达的。深刻的标签依赖性和在构造的超球场空间中表现出冲突。为了解决这些问题,我们提出了一个新颖的度量学习框架,该框架具有混合代理损失(hyt $^2 $损失),该框架构建了具有高效训练复杂性W.R.T.的表现力度量空间。整个数据集。拟议的催眠$^2 $损失着重于通过可学习的代理和发掘无关的数据与数据相关性来优化超晶体空间,这整合了基于成对方法的足够数据对应关系以及基于代理方法的高效效率。在四个标准的多标签基准上进行的广泛实验证明,所提出的方法优于最先进的方法,在不同的哈希片中具有强大的功能,并且以更快,更稳定的收敛速度实现了显着的性能增长。我们的代码可从https://github.com/jerryxu0129/hyp2-loss获得。
translated by 谷歌翻译