由于多模式遥感(RS)图像档案的可用性,最重要的研究主题之一是开发跨模式RS图像检索(CM-RSIR)方法,该方法可以在不同模态上搜索语义上相似的图像。现有的CM-RSIR方法需要提供高质量和数量的带注释的培训图像。在操作方案中,收集足够数量的可靠标记图像是耗时,复杂且昂贵的,并且可能会显着影响CM-RSIR的最终准确性。在本文中,我们介绍了一种新颖的自我监督的CM-RSIR方法,其目的是:i)以自我监督的方式模拟不同方式之间的相互信息; ii)保留彼此相似的模态特异性特征空间的分布; iii)在每种模式中定义最相似的图像,而无需任何带注释的训练图像。为此,我们提出了一个新的目标,其中包括同时同时使用的三个损失函数:i)最大化不同模态的共同信息以保存模式间相似性; ii)最小化多模式图像元素的角度距离,以消除模式间差异; iii)增加每种模式中最相似图像的余弦相似性,以表征模式内相似性。实验结果表明,与最新方法相比,该方法的有效性。该方法的代码可在https://git.tu-berlin.de/rsim/ss-cm-rsir上公开获得。
translated by 谷歌翻译
The development of deep learning based image representation learning (IRL) methods has attracted great attention in the context of remote sensing (RS) image understanding. Most of these methods require the availability of a high quantity and quality of annotated training images, which can be time-consuming and costly to gather. To reduce labeling costs, publicly available thematic maps, automatic labeling procedures or crowdsourced data can be used. However, such approaches increase the risk of including label noise in training data. It may result in overfitting on noisy labels when discriminative reasoning is employed as in most of the existing methods. This leads to sub-optimal learning procedures, and thus inaccurate characterization of RS images. In this paper, as a first time in RS, we introduce a generative reasoning integrated label noise robust representation learning (GRID) approach. GRID aims to model the complementary characteristics of discriminative and generative reasoning for IRL under noisy labels. To this end, we first integrate generative reasoning into discriminative reasoning through a variational autoencoder. This allows our approach to automatically detect training samples with noisy labels. Then, through our label noise robust hybrid representation learning strategy, GRID adjusts the whole learning procedure for IRL of these samples through generative reasoning and that of the other samples through discriminative reasoning. Our approach learns discriminative image representations while preventing interference of noisy labels during training independently from the IRL method. Thus, unlike the existing methods, GRID does not depend on the type of annotation, label noise, neural network, loss or learning task, and thus can be utilized for various RS image understanding problems. Experimental results show the effectiveness of GRID compared to state-of-the-art methods.
translated by 谷歌翻译
在本文中,我们采用了最大化的互信息(MI)方法来解决无监督的二进制哈希代码的问题,以实现高效的跨模型检索。我们提出了一种新颖的方法,被称为跨模型信息最大散列(CMIMH)。首先,要学习可以保留模跨和跨间相似性的信息的信息,我们利用最近估计MI的变分的进步,以最大化二进制表示和输入特征之间的MI以及不同方式的二进制表示之间的MI。通过在假设由多变量Bernoulli分布模型的假设下联合最大化这些MIM,我们可以学习二进制表示,该二进制表示,其可以在梯度下降中有效地以微量批量方式有效地保留帧内和模态的相似性。此外,我们发现尝试通过学习与来自不同模式的相同实例的类似二进制表示来最小化模态差距,这可能导致更少的信息性表示。因此,在减少模态间隙和失去模态 - 私人信息之间平衡对跨模型检索任务很重要。标准基准数据集上的定量评估表明,该方法始终如一地优于其他最先进的跨模型检索方法。
translated by 谷歌翻译
学习遥感(RS)图像之间的相似性形成基于内容的RS图像检索(CBIR)的基础。最近,将图像的语义相似性映射到嵌入(度量标准)空间的深度度量学习方法已经发现非常流行。学习公制空间的常见方法依赖于将与作为锚称为锚的参考图像的类似(正)和不同(负)图像的三胞胎的选择。选择三胞胎是一个难以为多标签RS CBIR的困难任务,其中每个训练图像由多个类标签注释。为了解决这个问题,在本文中,我们提出了一种在为多标签RS CBIR问题定义的深神经网络(DNN)的框架中提出了一种新颖的三联样品采样方法。该方法基于两个主要步骤选择一小部分最多代表性和信息性三元组。在第一步中,使用迭代算法从当前迷你批量选择在嵌入空间中彼此多样化的一组锚。在第二步中,通过基于新颖的策略评估彼此之间的图像的相关性,硬度和多样性来选择不同的正面和负图像。在两个多标签基准档案上获得的实验结果表明,在DNN的上下文中选择最具信息丰富和代表性的三胞胎,导致:i)降低DNN训练阶段的计算复杂性,而性能没有任何显着损失; ii)由于信息性三元组允许快速收敛,因此学习速度的增加。所提出的方法的代码在https://git.tu-berlin.de/rsim/image-reetrieval-from-tropls上公开使用。
translated by 谷歌翻译
零射击跨模式检索(ZS-CMR)处理了来自看不见类别的异源数据之间的检索问题。通常,为了确保概括,使用自然语言处理(NLP)模型的预定义类嵌入方式用于构建公共空间。在本文中,我们考虑了一种完全不同的方法来从信息理论的角度考虑构造(或学习)通用锤击空间的完全不同的方法,而不是使用额外的NLP模型来定义公共空间。我们将模型称为信息理论哈希(ITH),该图案由两个级联模块组成:一个自适应信息聚合(AIA)模块;和语义保存编码(SPE)模块。具体而言,我们的AIA模块从相关信息的原理(PRI)中汲取灵感来构建一个共同空间,该空间可适应地汇总了不同数据模式的固有语义,并滤除了多余或无关紧要的信息。另一方面,我们的SPE模块通过保留固有语义与元素的Kullback-Leibler(KL)差异的相似性,进一步生成了不同模态的哈希代码。还施加了总相关性项,以减少哈希码不同维度之间的冗余。在三个基准数据集上进行了足够的实验,证明了ZS-CMR中提出的ITH的优势。源代码在补充材料中可用。
translated by 谷歌翻译
图像和点云为机器人提供了不同的信息。从不同传感器中找到数据之间的对应关系对于各种任务,例如本地化,映射和导航至关重要。基于学习的描述符已为单个传感器开发;跨模式功能几乎没有工作。这项工作将学习跨模式特征视为一个密集的对比度学习问题。我们为跨模式特征学习提出了元组圆损失函数。此外,为了学习良好的功能而不是失去普遍性,我们开发了用于点云和U-NET CNN体系结构的广泛使用的PointNet ++架构的变体。此外,我们在现实世界数据集上进行实验,以显示损失函数和网络结构的有效性。我们表明,我们的模型确实通过可视化功能从图像和激光雷达学习信息。
translated by 谷歌翻译
跨模型检索(CMR)是多式化计算和信息检索的重要研究主题,它将一种类型的数据作为查询来检索另一种类型的相关数据,并且已广泛用于许多现实世界应用程序。最近,由剪辑代表的视觉语言预训练模型表明了其在各种视觉和语言相关任务方面学习视觉和文本表示的优势及其令人印象深刻的性能。虽然剪辑以及以前的预训练模型表现出令人遗憾的CMR性能改善,但由于缺乏多式联级关联,很少探索这些预测模型对监督CMR的训练模型的性能和影响。在本文中,我们将剪辑作为当前代表性的视觉 - 语言预训练模型,进行全面的实证研究,并提供对其性能和对监督CMR的影响的见解。为此,我们首先提出了一种新颖的模型剪辑4cmr(\ textBF {Clip for}监督\ textbf {c} ross- \ textbf {m} odal \ textbf {r} etrieval),该剪辑作为骨干网络来执行监督CMR。然后,我们在CMR中重新审视现有的损失函数设计,包括最常见的一对损失,类明智的损失和混合动力车,并提供对应用夹子的见解。此外,我们调查了监督CMR中的几个有关问题,并通过CLIP4CMR为该领域提供了新的视角,包括对模态不平衡的鲁棒性和对超参数的敏感性。广泛的实验结果表明,CLIP4CMR实现了SOTA的结果,在基准数据集维基百科,Nus-rive,Pascal句子和XMediaet上有重大改进。我们的数据和代码在https://github.com/zhixiongz/clip4cmr上公开提供。
translated by 谷歌翻译
自我监督学习(SSL)是一个新的范式,用于学习判别性表示没有标记的数据,并且与受监督的对手相比,已经达到了可比甚至最新的结果。对比度学习(CL)是SSL中最著名的方法之一,试图学习一般性的信息表示数据。 CL方法主要是针对仅使用单个传感器模态的计算机视觉和自然语言处理应用程序开发的。但是,大多数普遍的计算应用程序都从各种不同的传感器模式中利用数据。虽然现有的CL方法仅限于从一个或两个数据源学习,但我们提出了可可(Crockoa)(交叉模态对比度学习),这是一种自我监督的模型,该模型采用新颖的目标函数来通过计算多功能器数据来学习质量表示形式不同的数据方式,并最大程度地减少了无关实例之间的相似性。我们评估可可对八个最近引入最先进的自我监督模型的有效性,以及五个公共数据集中的两个受监督的基线。我们表明,可可与所有其他方法相比,可可的分类表现出色。同样,可可比其他可用标记数据的十分之一的基线(包括完全监督的模型)的标签高得多。
translated by 谷歌翻译
哈希(Hashing)将项目数据投入二进制代码已显示出由于其储存量低和高查询速度而显示出跨模式检索的非凡人才。尽管在某些情况下取得了经验成功,但现有的跨模式散列方法通常不存在带有大量标记信息的数据时跨模式差距跨模式差距。为了避免以分裂和纠纷策略的激励,我们提出了深层的歧管散列(DMH),这是一种新颖的方法,是将半分配的无监督的交叉模式检索分为三个子问题,并建立一个简单而又简单而又又有一个简单的方法每个子问题的效率模型。具体而言,第一个模型是通过基于多种学习的半生数据补充的半生数据来构建的,用于获得模态不变的特征,而第二个模型和第三个模型旨在分别学习哈希码和哈希功能。在三个基准上进行的广泛实验表明,与最先进的完全配对和半成本无监督的跨模式散列方法相比,我们的DMH的优势。
translated by 谷歌翻译
跨模式检索引起了计算机视觉和自然语言处理域的广泛关注。随着卷积和经常性神经网络的发展,跨图像文本模态的检索瓶颈不再是图像和文本特征的提取,而是嵌入空间中有效的损失函数学习。许多损失函数试图从异质方式中更接近成对特征。本文提出了一种使用模式内约束损耗函数学习图像和文本的联合嵌入的方法,以减少从相同均匀模态中违反负面对的侵犯。实验结果表明,我们的方法优于FlickR30K和Microsoft Coco数据集的最先进的双向图像检索方法。我们的代码公开可用:https://github.com/canonchen/imc。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
跨模态散列(CMH)是跨模型近似最近邻搜索中最有前途的方法之一。大多数CMH解决方案理想地假设培训和测试集的标签是相同的。但是,通常违反假设,导致零拍摄的CMH问题。最近解决此问题的努力侧重于使用标签属性将知识转移到未见的类。但是,该属性与多模态数据的特征隔离。为了减少信息差距,我们介绍了一种名为LAEH的方法(嵌入零拍跨模型散列的标签属性)。 Laeh首先通过Word2Vec模型获取标签的初始语义属性向量,然后使用转换网络将它们转换为常见的子空间。接下来,它利用散列向量和特征相似矩阵来指导不同方式的特征提取网络。与此同时,Laeh使用属性相似性作为标签相似度的补充,以纠正标签嵌入和常见子空间。实验表明,Laeh优于相关代表零射和跨模态散列方法。
translated by 谷歌翻译
由于其在计算和存储的效率,散列广泛应用于大型多媒体数据上的多模式检索。在本文中,我们提出了一种用于可伸缩图像文本和视频文本检索的新型深度语义多模式散列网络(DSMHN)。所提出的深度散列框架利用2-D卷积神经网络(CNN)作为骨干网络,以捕获图像文本检索的空间信息,而3-D CNN作为骨干网络以捕获视频的空间和时间信息 - 文本检索。在DSMHN中,通过显式保留帧间性相似性和岩石性语义标签,共同学习两组模态特定散列函数。具体地,假设学习散列代码应该是对分类任务的最佳选择,通过在所得哈希代码上嵌入语义标签来共同训练两个流网络以学习散列函数。此外,提出了一种统一的深层多模式散列框架,通过利用特征表示学习,互相相似度 - 保存学习,语义标签保留学习和哈希函数学习同时利用不同类型的损耗功能来学习紧凑和高质量的哈希码。该提议的DSMHN方法是用于图像文本和视频文本检索的通用和可扩展的深度散列框架,其可以灵活地集成在不同类型的损耗功能中。我们在四个广泛使用的多媒体检索数据集中对单一模态和跨模型检索任务进行广泛的实验。图像文本和视频文本检索任务的实验结果表明DSMHN显着优于最先进的方法。
translated by 谷歌翻译
跨模式的人重新识别(RE-ID)对于现代视频监视系统至关重要。关键的挑战是与一个人提供的语义信息引起的跨模式表示,并忽略背景信息。这项工作介绍了一种新型的基于卷积神经网络(CNN)的体系结构,旨在学习语义上的跨模式视觉和文本表示。基础构建块,名为Axm-block,是一个统一的多层网络,该网络会动态利用多尺度知识,并根据共享语义重新校准每种模式。为了补充卷积设计,在文本分支中应用上下文注意力以操纵长期依赖性。此外,我们提出了一种独特的设计,以增强基于视觉零件的功能连贯性和局部性信息。我们的框架具有新颖的能力,可以在功能学习阶段隐式学习模式之间的一致语义。统一的特征学习有效地利用文本数据作为视觉表示学习的超级注释信号,并自动拒绝无关的信息。整个AXM-NET经过Cuhk-Pedes数据的端到端训练。我们报告了两个任务的结果,即人搜索和跨模式重新ID。 AXM-NET优于当前最新方法(SOTA)方法,并在Cuhk-Pedes测试集上获得64.44 \%等级@1。在Crossre-ID和Cuhk-Sysu数据集中,它还胜过竞争对手的竞争对手$> $ 10 \%。
translated by 谷歌翻译
可见的红外人员重新识别(REID)旨在认识到RGB和IR摄像机网络中的同一个人。一些深度学习(DL)模型已直接纳入了两种模式,以在联合表示空间中区分人。但是,由于RGB和IR模式之间数据分布的较大域转移,因此这个跨模式的REID问题仍然具有挑战性。 %本文引入了一种新的方法,用于创建中间虚拟域,该域在训练过程中充当两个主要领域(即RGB和IR模式)之间的桥梁。该中间域被视为在测试时间无法获得的特权信息(PI),并允许将此跨模式匹配任务制定为在特权信息(LUPI)下学习的问题。我们设计了一种新方法,以在可见的和红外域之间生成图像,这些方法提供了其他信息,以通过中间域的适应来训练深层REID模型。特别是,通过在训练过程中采用无色和多步三重态损失目标,我们的方法提供了通用的特征表示空间,这些空间对大型可见的红外域移动具有牢固的功能。 %关于挑战性可见红外REID数据集的实验结果表明,我们提出的方法始终提高匹配的准确性,而在测试时没有任何计算开销。该代码可在:\ href {https://github.com/alehdaghi/cross-modal-re-id-iid-via-lupi} {https://github.com/alehdaghi/alehdaghi/cross-modal-re-re-id-i-id--i- id-i--i- id-id-i--i--via-lupi} { Via-Lupi}
translated by 谷歌翻译
现代视频文本检索框架基本上由三个部分组成:视频编码器,文本编码器和相似性。随着Visual和Textual表示学习的成功,在视频文本检索领域也采用了基于变压器的编码器和融合方法。在本报告中,我们呈现Clip2TV,旨在探索关键元素在基于变压器的方法中。为实现这一目标,我们首先重新审视一些对多模态学习的工作,然后将一些技术介绍到视频文本检索中,最后通过不同配置的大量实验进行评估。值得注意的是,Clip2TV在MSR-VTT数据集上实现了52.9 @ R1,优先表现出先前的SOTA结果为4.1%。
translated by 谷歌翻译
In this paper, we present a cross-modal recipe retrieval framework, Transformer-based Network for Large Batch Training (TNLBT), which is inspired by ACME~(Adversarial Cross-Modal Embedding) and H-T~(Hierarchical Transformer). TNLBT aims to accomplish retrieval tasks while generating images from recipe embeddings. We apply the Hierarchical Transformer-based recipe text encoder, the Vision Transformer~(ViT)-based recipe image encoder, and an adversarial network architecture to enable better cross-modal embedding learning for recipe texts and images. In addition, we use self-supervised learning to exploit the rich information in the recipe texts having no corresponding images. Since contrastive learning could benefit from a larger batch size according to the recent literature on self-supervised learning, we adopt a large batch size during training and have validated its effectiveness. In the experiments, the proposed framework significantly outperformed the current state-of-the-art frameworks in both cross-modal recipe retrieval and image generation tasks on the benchmark Recipe1M. This is the first work which confirmed the effectiveness of large batch training on cross-modal recipe embeddings.
translated by 谷歌翻译
The heterogeneity gap problem is the main challenge in cross-modal retrieval. Because cross-modal data (e.g. audiovisual) have different distributions and representations that cannot be directly compared. To bridge the gap between audiovisual modalities, we learn a common subspace for them by utilizing the intrinsic correlation in the natural synchronization of audio-visual data with the aid of annotated labels. TNN-CCCA is the best audio-visual cross-modal retrieval (AV-CMR) model so far, but the model training is sensitive to hard negative samples when learning common subspace by applying triplet loss to predict the relative distance between inputs. In this paper, to reduce the interference of hard negative samples in representation learning, we propose a new AV-CMR model to optimize semantic features by directly predicting labels and then measuring the intrinsic correlation between audio-visual data using complete cross-triple loss. In particular, our model projects audio-visual features into label space by minimizing the distance between predicted label features after feature projection and ground label representations. Moreover, we adopt complete cross-triplet loss to optimize the predicted label features by leveraging the relationship between all possible similarity and dissimilarity semantic information across modalities. The extensive experimental results on two audio-visual double-checked datasets have shown an improvement of approximately 2.1% in terms of average MAP over the current state-of-the-art method TNN-CCCA for the AV-CMR task, which indicates the effectiveness of our proposed model.
translated by 谷歌翻译
Existing Cross Modal Hashing (CMH) methods are mainly designed for balanced data, while imbalanced data with long-tail distribution is more general in real-world. Several long-tail hashing methods have been proposed but they can not adapt for multi-modal data, due to the complex interplay between labels and individuality and commonality information of multi-modal data. Furthermore, CMH methods mostly mine the commonality of multi-modal data to learn hash codes, which may override tail labels encoded by the individuality of respective modalities. In this paper, we propose LtCMH (Long-tail CMH) to handle imbalanced multi-modal data. LtCMH firstly adopts auto-encoders to mine the individuality and commonality of different modalities by minimizing the dependency between the individuality of respective modalities and by enhancing the commonality of these modalities. Then it dynamically combines the individuality and commonality with direct features extracted from respective modalities to create meta features that enrich the representation of tail labels, and binaries meta features to generate hash codes. LtCMH significantly outperforms state-of-the-art baselines on long-tail datasets and holds a better (or comparable) performance on datasets with balanced labels.
translated by 谷歌翻译
现有的自我监督学习策略被限制在有限的目标或主要针对单峰应用程序的通用下游任务。对于复杂性和域亲和力(例如模因分析)而言,这对命令性的多模式应用有了孤立的进展。在这里,我们介绍了两种自我监督的预训练方法,即ext-pie-net和mm-simclr(i)在预训练期间使用现成的多模式仇恨语音数据,并且(ii)执行自我 - 通过合并多个专业借口任务,有效地迎合模因分析所需的复杂多模式表示学习,从而有效地迎合了学习。我们实验不同的自我实验策略,包括可以帮助学习丰富的跨模式表示并使用流行的线性探测来评估可恨模因任务的潜在变体。拟议的解决方案通过标签有效的培训与完全监督的基线竞争,同时在梅诺特挑战的所有三个任务上明显优于他们,分别为0.18%,23.64%和0.93%的绩效增长。此外,我们通过在Harmeme任务上报告竞争性能来证明所提出的解决方案的普遍性。最后,我们通过分析特定于任务的学习,使用更少的标记培训样本来建立学习表现的质量,并争辩说,自主策略和手头下游任务的复杂性是相关的。我们的努力强调了更好的多模式自学方法的要求,涉及有效的微调和可推广性能的专业借口任务。
translated by 谷歌翻译