徽标检索是一个具有挑战性的问题,因为与图像检索任务相比,相似性的定义更为主观,并且已知相似性的集合非常稀缺。为了应对这一挑战,在本文中,我们提出了一种简单但有效的基于细分市场的增强策略,以引入人工相似的徽标,以训练徽标检索的深层网络。在这种新颖的增强策略中,我们首先在徽标中找到细分市场,并在细分市场上应用旋转,缩放和颜色变化等转换,这与传统的图像级增强策略不同。此外,我们评估最近引入的基于排名的损失函数Smooth-AP是否是学习徽标检索相似性的更好方法。在大规模的METU商标数据集上,我们表明(i)基于细分市场的增强策略与基线模型或图像级增强策略相比提高了检索性能,并且(ii)平滑 - AP的表现确实比徽标的常规损失更好恢复。
translated by 谷歌翻译
优化平均精度(AP)的近似已被广泛研究图像检索。受AP的定义有限,这些方法考虑在每个阳性实例之前的负数和正面情况。但是,我们声称只在积极的情况下惩罚负面情况,因为损失只来自这些负面情况。为此,我们提出了一种新的损失,即惩罚正面(PNP)的负面情况,这可以直接最小化每个正面前的负实例的数量。此外,基于AP的方法采用固定和次优梯度分配策略。因此,我们通过构建损耗的衍生功能来系统地调查不同的梯度分配解决方案,导致PNP-I具有增加的衍生函数和PNP-D,其具有减小的函数。 PNP-I通过为它们分配更大的渐变并尝试使所有相关实例更近的较大渐变来重点缩影。相比之下,PNP-D对此类实例的关注不那么注意,并慢慢纠正它们。对于大多数真实世界的数据,一类通常包含几个本地群集。 PNP-我盲目地聚集了这些群集,而PNP-D保持它们。因此,PNP-D更优越。三个标准检索数据集的实验显示了上述分析的一致结果。广泛的评估表明PNP-D实现了最先进的性能。代码在https://github.com/interestingzhuo/pnp_loss获得
translated by 谷歌翻译
图像检索通常以平均精度(AP)或召回@k进行评估。但是,这些指标仅限于二进制标签,并且不考虑错误的严重性。本文介绍了一种新的分层AP培训方法,用于相关图像检索(HAP-PIER)。 Happier是基于新的HAP度量,该指标利用概念层次结构来通过整合错误的重要性并更好地评估排名来完善AP。为了用HAP训练深层模型,我们仔细研究了问题的结构,并设计了平滑的下限替代物,并结合了聚类损失,以确保订购一致。在6个数据集上进行的广泛实验表明,更快乐的层次检索的最新方法明显优于最先进的方法,同时在评估细粒度排名表演时与最新方法相当。最后,我们表明更快乐地导致嵌入空间的更好组织,并防止最严重的非等级方法失败案例。我们的代码可在以下网址公开获取:https://github.com/elias-ramzi/happier。
translated by 谷歌翻译
在图像检索中,标准评估度量依赖于分数排名,例如:平均精度(AP)。在本文中,我们介绍了一种稳健和可分解的平均精度(路线图)的方法,解决了对AP的深神经网络的端到端训练的两个主要挑战:非差异性和不分解性。首先,我们提出了一种新的等级函数的新可分辨性近似,这提供了AP损耗的上限并确保了鲁棒训练。其次,我们设计简单但有效的损失功能,以减少整个训练集中的AP之间的分解性差距及其平均批量近似,我们提供理论保证。在三个图像检索数据集上进行的广泛实验表明,路线图优于最近的几种AP近似方法,并突出了我们两个贡献的重要性。最后,使用用于训练的路线图,深度模型产生非常好的表现,表现出三个数据集的最先进结果。
translated by 谷歌翻译
实例级图像检索(IIR)或简单的实例检索,涉及在数据集中查找包含查询实例(例如对象)的数据集中所有图像的问题。本文首次尝试使用基于实例歧视的对比学习(CL)解决此问题。尽管CL在许多计算机视觉任务中表现出令人印象深刻的性能,但在IIR领域也从未找到过类似的成功。在这项工作中,我们通过探索从预先训练和微调的CL模型中得出判别表示的能力来解决此问题。首先,我们通过比较预先训练的深度神经网络(DNN)分类器与CL模型学到的功能相比,研究了IIR转移学习的功效。这些发现启发了我们提出了一种新的培训策略,该策略通过使用平均精度(AP)损失以及微调方法来学习针对IIR量身定制的对比功能表示形式,从而优化CL以学习为导向IIR的功能。我们的经验评估表明,从挑战性的牛津和巴黎数据集中的预先培训的DNN分类器中学到的现成的特征上的表现显着提高。
translated by 谷歌翻译
A family of loss functions built on pair-based computation have been proposed in the literature which provide a myriad of solutions for deep metric learning. In this paper, we provide a general weighting framework for understanding recent pair-based loss functions. Our contributions are three-fold: (1) we establish a General Pair Weighting (GPW) framework, which casts the sampling problem of deep metric learning into a unified view of pair weighting through gradient analysis, providing a powerful tool for understanding recent pair-based loss functions; (2) we show that with GPW, various existing pair-based methods can be compared and discussed comprehensively, with clear differences and key limitations identified; (3) we propose a new loss called multi-similarity loss (MS loss) under the GPW, which is implemented in two iterative steps (i.e., mining and weighting). This allows it to fully consider three similarities for pair weighting, providing a more principled approach for collecting and weighting informative pairs. Finally, the proposed MS loss obtains new state-of-the-art performance on four image retrieval benchmarks, where it outperforms the most recent approaches, such as ABE [14] and HTL [4], by a large margin, e.g., , and 80.9% → 88.0% on In-Shop Clothes Retrieval dataset
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
学习遥感(RS)图像之间的相似性形成基于内容的RS图像检索(CBIR)的基础。最近,将图像的语义相似性映射到嵌入(度量标准)空间的深度度量学习方法已经发现非常流行。学习公制空间的常见方法依赖于将与作为锚称为锚的参考图像的类似(正)和不同(负)图像的三胞胎的选择。选择三胞胎是一个难以为多标签RS CBIR的困难任务,其中每个训练图像由多个类标签注释。为了解决这个问题,在本文中,我们提出了一种在为多标签RS CBIR问题定义的深神经网络(DNN)的框架中提出了一种新颖的三联样品采样方法。该方法基于两个主要步骤选择一小部分最多代表性和信息性三元组。在第一步中,使用迭代算法从当前迷你批量选择在嵌入空间中彼此多样化的一组锚。在第二步中,通过基于新颖的策略评估彼此之间的图像的相关性,硬度和多样性来选择不同的正面和负图像。在两个多标签基准档案上获得的实验结果表明,在DNN的上下文中选择最具信息丰富和代表性的三胞胎,导致:i)降低DNN训练阶段的计算复杂性,而性能没有任何显着损失; ii)由于信息性三元组允许快速收敛,因此学习速度的增加。所提出的方法的代码在https://git.tu-berlin.de/rsim/image-reetrieval-from-tropls上公开使用。
translated by 谷歌翻译
这项工作旨在改善具有自我监督的实例检索。我们发现使用最近开发的自我监督(SSL)学习方法(如SIMCLR和MOCO)的微调未能提高实例检索的性能。在这项工作中,我们确定了例如检索的学习表示应该是不变的视点和背景等的大变化,而当前SSL方法应用的自增强阳性不能为学习强大的实例级别表示提供强大的信号。为了克服这个问题,我们提出了一种在\ texit {实例级别}对比度上建立的新SSL方法,以通过动态挖掘迷你批次和存储库来学习类内不变性训练。广泛的实验表明,insclr在实例检索上实现了比最先进的SSL方法更类似或更好的性能。代码可在https://github.com/zeludeng/insclr获得。
translated by 谷歌翻译
Deep embeddings answer one simple question: How similar are two images? Learning these embeddings is the bedrock of verification, zero-shot learning, and visual search. The most prominent approaches optimize a deep convolutional network with a suitable loss function, such as contrastive loss or triplet loss. While a rich line of work focuses solely on the loss functions, we show in this paper that selecting training examples plays an equally important role. We propose distance weighted sampling, which selects more informative and stable examples than traditional approaches. In addition, we show that a simple margin based loss is sufficient to outperform all other loss functions. We evaluate our approach on the Stanford Online Products, CAR196, and the CUB200-2011 datasets for image retrieval and clustering, and on the LFW dataset for face verification. Our method achieves state-of-the-art performance on all of them.
translated by 谷歌翻译
我们研究人员重新识别(RE-ID)的向后兼容问题,该问题旨在限制更新的新模型的功能,以与画廊中旧模型的现有功能相提并论。大多数现有作品都采用基于蒸馏的方法,这些方法着重于推动新功能模仿旧功能。但是,基于蒸馏的方法本质上是最佳的,因为它迫使新的特征空间模仿旧特征空间。为了解决这个问题,我们提出了基于排名的向后兼容学习(RBCL),该学习直接优化了新功能和旧功能之间的排名指标。与以前的方法不同,RBCL仅推动新功能以在旧功能空间而不是严格对齐中找到最佳的位置,并且与向后检索的最终目标保持一致。但是,用于使排名度量可区分的尖锐的Sigmoid函数也会导致梯度消失的问题,因此在训练后期的时期造成了排名的完善。为了解决这个问题,我们提出了动态梯度重新激活(DGR),可以通过在远期步骤中添加动态计算的常数来重新激活抑制梯度。为了进一步帮助目标最佳位置,我们包括邻居上下文代理(NCAS),以近似训练期间的整个旧特征空间。与以前仅在内域设置上测试的作品不同,我们首次尝试引入跨域设置(包括受监督和无监督的),这更有意义和困难。所有五个设置上的实验结果表明,在所有设置下,提出的RBCL都以大幅度优于先前的最新方法。
translated by 谷歌翻译
深度度量学习(DML)有助于学习嵌入功能,以将语义上的数据投射到附近的嵌入空间中,并在许多应用中起着至关重要的作用,例如图像检索和面部识别。但是,DML方法的性能通常很大程度上取决于采样方法,从训练中的嵌入空间中选择有效的数据。实际上,嵌入空间中的嵌入是通过一些深层模型获得的,其中嵌入空间通常由于缺乏训练点而在贫瘠的区域中,导致所谓的“缺失嵌入”问题。此问题可能会损害样品质量,从而导致DML性能退化。在这项工作中,我们研究了如何减轻“缺失”问题以提高采样质量并实现有效的DML。为此,我们提出了一个密集锚定的采样(DAS)方案,该方案将嵌入的数据点视为“锚”,并利用锚附近的嵌入空间来密集地生成无数据点的嵌入。具体而言,我们建议用判别性特征缩放(DFS)和多个锚点利用单个锚周围的嵌入空间,并具有记忆转换转换(MTS)。通过这种方式,通过有或没有数据点的嵌入方式,我们能够提供更多的嵌入以促进采样过程,从而提高DML的性能。我们的方法毫不费力地集成到现有的DML框架中,并在没有铃铛和哨声的情况下改进了它们。在三个基准数据集上进行的广泛实验证明了我们方法的优势。
translated by 谷歌翻译
Classifying logo images is a challenging task as they contain elements such as text or shapes that can represent anything from known objects to abstract shapes. While the current state of the art for logo classification addresses the problem as a multi-class task focusing on a single characteristic, logos can have several simultaneous labels, such as different colors. This work proposes a method that allows visually similar logos to be classified and searched from a set of data according to their shape, color, commercial sector, semantics, general characteristics, or a combination of features selected by the user. Unlike previous approaches, the proposal employs a series of multi-label deep neural networks specialized in specific attributes and combines the obtained features to perform the similarity search. To delve into the classification system, different existing logo topologies are compared and some of their problems are analyzed, such as the incomplete labeling that trademark registration databases usually contain. The proposal is evaluated considering 76,000 logos (7 times more than previous approaches) from the European Union Trademarks dataset, which is organized hierarchically using the Vienna ontology. Overall, experimentation attains reliable quantitative and qualitative results, reducing the normalized average rank error of the state-of-the-art from 0.040 to 0.018 for the Trademark Image Retrieval task. Finally, given that the semantics of logos can often be subjective, graphic design students and professionals were surveyed. Results show that the proposed methodology provides better labeling than a human expert operator, improving the label ranking average precision from 0.53 to 0.68.
translated by 谷歌翻译
大多数深度度量学习(DML)方法采用了一种策略,该策略迫使所有积极样本在嵌入空间中靠近,同时使它们远离负面样本。但是,这种策略忽略了正(负)样本的内部关系,并且通常导致过度拟合,尤其是在存在硬样品和标签错误的情况下。在这项工作中,我们提出了一个简单而有效的正则化,即列表自我验证(LSD),该化逐渐提炼模型的知识,以适应批处理中每个样本对的更合适的距离目标。LSD鼓励在正(负)样本中更平稳的嵌入和信息挖掘,以减轻过度拟合并从而改善概括。我们的LSD可以直接集成到一般的DML框架中。广泛的实验表明,LSD始终提高多个数据集上各种度量学习方法的性能。
translated by 谷歌翻译
在本文中,我们提出了一种强大的样本生成方案来构建信息性三联网。所提出的硬样品生成是一种两级合成框架,通过两个阶段的有效正和负样品发生器产生硬样品。第一阶段将锚定向对具有分段线性操作,通过巧妙地设计条件生成的对抗网络来提高产生的样本的质量,以降低模式崩溃的风险。第二阶段利用自适应反向度量约束来生成最终的硬样本。在几个基准数据集上进行广泛的实验,验证了我们的方法比现有的硬样生成算法达到卓越的性能。此外,我们还发现,我们建议的硬样品生成方法结合现有的三态挖掘策略可以进一步提高深度度量学习性能。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
Learning the distance metric between pairs of examples is of great importance for learning and visual recognition. With the remarkable success from the state of the art convolutional neural networks, recent works [1, 31] have shown promising results on discriminatively training the networks to learn semantic feature embeddings where similar examples are mapped close to each other and dissimilar examples are mapped farther apart. In this paper, we describe an algorithm for taking full advantage of the training batches in the neural network training by lifting the vector of pairwise distances within the batch to the matrix of pairwise distances. This step enables the algorithm to learn the state of the art feature embedding by optimizing a novel structured prediction objective on the lifted problem. Additionally, we collected Online Products dataset: 120k images of 23k classes of online products for metric learning. Our experiments on the CUB-200-2011 [37], CARS196 [19], and Online Products datasets demonstrate significant improvement over existing deep feature embedding methods on all experimented embedding sizes with the GoogLeNet [33] network.
translated by 谷歌翻译
人重新识别是识别非重叠摄像机的个体的问题。尽管在重新识别问题中取得了显着进展,但由于同一人的外观变化以及其他外观相似的人,这仍然是一个具有挑战性的问题。一些先前的作品通过将正样本的特征与负面的特征分开来解决这些问题。但是,现有模型的性能在很大程度上取决于用于培训的样品的特征和统计数据。因此,我们提出了一个名为“采样独立鲁棒特征表示网络”(sirnet)的新型框架,该框架学习了从随机选择的样品中嵌入的分离特征。对精心设计的采样独立的最大差异损失引入了与集群同一人的模型样本。结果,所提出的框架可以使用学识渊博的功能产生额外的硬质量/积极因素,从而可以更好地辨别其他身份。大规模基准数据集的广泛实验结果验证了所提出的模型比以前的最新模型更有效。
translated by 谷歌翻译
Multi-view projection techniques have shown themselves to be highly effective in achieving top-performing results in the recognition of 3D shapes. These methods involve learning how to combine information from multiple view-points. However, the camera view-points from which these views are obtained are often fixed for all shapes. To overcome the static nature of current multi-view techniques, we propose learning these view-points. Specifically, we introduce the Multi-View Transformation Network (MVTN), which uses differentiable rendering to determine optimal view-points for 3D shape recognition. As a result, MVTN can be trained end-to-end with any multi-view network for 3D shape classification. We integrate MVTN into a novel adaptive multi-view pipeline that is capable of rendering both 3D meshes and point clouds. Our approach demonstrates state-of-the-art performance in 3D classification and shape retrieval on several benchmarks (ModelNet40, ScanObjectNN, ShapeNet Core55). Further analysis indicates that our approach exhibits improved robustness to occlusion compared to other methods. We also investigate additional aspects of MVTN, such as 2D pretraining and its use for segmentation. To support further research in this area, we have released MVTorch, a PyTorch library for 3D understanding and generation using multi-view projections.
translated by 谷歌翻译
本文的重点是具有属性操作的图像检索问题。我们所提出的工作能够在维护其它属性时操纵查询图像的所需属性。例如,查询图像的套环属性可以从圆形到V-N颈改变,以从大型数据集中检索类似的图像。电子商务中的一个关键挑战是图像具有多个属性,用户希望操纵,并且重要的是估计每个属性的判别特征表示。所提出的fashionsearchnet-v2架构能够通过利用其弱监管的本地化模块来学习属性特定表示,该模块忽略了特征空间中属性的不相关特征,从而提高了相似度学习。网络与属性分类和三联排名损失的组合进行了联合培训,以估计本地表示。然后,基于所指的属性操纵,这些本地表示被合并成单个全局表示,其中可以通过距离度量来检索期望的图像。该方法还提供了可解释性,以帮助提供有关网络注意的额外信息。在几个数据集上执行的实验,该数据集在属性的数量方面表明FashionSearchNet-V2优于其他最先进的属性操作技术。与我们之前的工作(FashionsearchNet)不同,我们提出了几种改进了学习程序,并表明所提出的FashionsearchNet-V2可以概括为除了时尚之外的不同域。
translated by 谷歌翻译