使用嘈杂的标签学习是一种用于图像分类的活跃研究区域。然而,研究了噪声标签对图像检索的影响。在这项工作中,我们提出了一种抗噪声的图像检索,名为基于教师的相互作用,T-SINT,它识别噪声交互,即。距离矩阵中的元素,通过使用基于教师的训练设置,在检索损失中选择正确的正面和负相互作用,这些培训设置有助于稳定性。结果,它始终如一地优于具有合成噪声和更现实的噪声的基准数据集的高噪声速率的最先进的方法。
translated by 谷歌翻译
嘈杂的标签通常在现实世界数据中找到,这导致深神经网络的性能下降。手动清洁数据是劳动密集型和耗时的。以前的研究主要侧重于加强对嘈杂标签的分类模型,而对嘈杂标签的深度度量学习(DML)的鲁棒性仍然较少。在本文中,通过提出与DML的内存(棱镜)方法提出基于概率排名的实例选择来弥合这一重要差异。棱镜计算清洁标签的概率,并滤除潜在的噪声样本。具体地,我们提出了一种新方法,即Von Mises-Fisher分配相似性(VMF-SIM),通过估计每个数据类的VON MISES-FISHER(VMF)分布来计算这种概率。与现有的平均相似性方法(AVGSIM)相比,除了平均相似度之外,VMF-SIM还考虑每个类的方差。通过这种设计,所提出的方法可以应对挑战的DML情况,其中大多数样本是嘈杂的。在合成和现实世界嘈杂的数据集中的广泛实验表明,拟议的方法在合理的培训时间内实现了高达@ 1的精度高达8.37%的精度@ 1。
translated by 谷歌翻译
对比损失长期以来一直是深度度量学习的关键成分,现在由于自我监督学习的成功而正在变得越来越受欢迎。最近的研究表明,在学习代表网络时以互补的方式分解这种损失的损失:正期和熵项。虽然因此整体损失被定义为两种术语的组合,但这两个术语的余额通常隐藏在实施细节之后,并且在实践中很大程度上被忽略和次优。在这项工作中,我们将对比损失的平衡作为超参数优化问题,并提出了一种基于坐标的下降的搜索方法,可有效地找到优化评估性能的超参数。在此过程中,我们将现有的余额分析扩展到对比度边缘损失,包括批次大小在余额中,并解释如何从批处理中汇总损耗元素,以在更大范围内保持近最佳性能。来自深度度量学习和自我监督学习的基准的广泛实验表明,使用我们的方法比其他常用搜索方法更快地找到最佳超参数。
translated by 谷歌翻译
Recent methods for deep metric learning have been focusing on designing different contrastive loss functions between positive and negative pairs of samples so that the learned feature embedding is able to pull positive samples of the same class closer and push negative samples from different classes away from each other. In this work, we recognize that there is a significant semantic gap between features at the intermediate feature layer and class labels at the final output layer. To bridge this gap, we develop a contrastive Bayesian analysis to characterize and model the posterior probabilities of image labels conditioned by their features similarity in a contrastive learning setting. This contrastive Bayesian analysis leads to a new loss function for deep metric learning. To improve the generalization capability of the proposed method onto new classes, we further extend the contrastive Bayesian loss with a metric variance constraint. Our experimental results and ablation studies demonstrate that the proposed contrastive Bayesian metric learning method significantly improves the performance of deep metric learning in both supervised and pseudo-supervised scenarios, outperforming existing methods by a large margin.
translated by 谷歌翻译
这项工作旨在改善具有自我监督的实例检索。我们发现使用最近开发的自我监督(SSL)学习方法(如SIMCLR和MOCO)的微调未能提高实例检索的性能。在这项工作中,我们确定了例如检索的学习表示应该是不变的视点和背景等的大变化,而当前SSL方法应用的自增强阳性不能为学习强大的实例级别表示提供强大的信号。为了克服这个问题,我们提出了一种在\ texit {实例级别}对比度上建立的新SSL方法,以通过动态挖掘迷你批次和存储库来学习类内不变性训练。广泛的实验表明,insclr在实例检索上实现了比最先进的SSL方法更类似或更好的性能。代码可在https://github.com/zeludeng/insclr获得。
translated by 谷歌翻译
在本文中,我们通过利用包含来自其他不同但相关类别的图像的标记数据集将来自新类的未标记的图像与新类别分组从新类别分组到不同的语义分区的问题。这是一个比传统的半监督学习更现实和具有挑战性的。我们为这个问题提出了一个双分支学习框架,一个分支专注于本地部分级信息和专注于整体特征的另一个分支。将知识从标记的数据传输到未标记的,我们建议使用两个分支机构的双重排名统计信息来生成伪标签,用于培训未标记的数据。我们进一步介绍了一个相互知识蒸馏方法,以允许信息交流并鼓励两个分支机构之间的协议,以发现新类别,允许我们的模型享受全球和当地特征的好处。我们全面评估了我们在通用对象分类的公共基准上的方法,以及用于细粒度的视觉识别的更具挑战性的数据集,实现最先进的性能。
translated by 谷歌翻译
遥感(RS)图像的多标签分类(MLC)的准确方法的开发是RS中最重要的研究主题之一。基于深度卷积神经网络(CNNS)的方法显示了RS MLC问题的强劲性能。然而,基于CNN的方法通常需要多个陆地覆盖类标签注释的大量可靠的训练图像。收集这些数据是耗时和昂贵的。为了解决这个问题,可包括嘈杂标签的公开专题产品可用于向RS零标记成本注释RS图像。但是,多标签噪声(可能与错误且缺少标签注释相关)可以扭曲MLC算法的学习过程。标签噪声的检测和校正是具有挑战性的任务,尤其是在多标签场景中,其中每个图像可以与多于一个标签相关联。为了解决这个问题,我们提出了一种新的噪声稳健协作多标签学习(RCML)方法,以减轻CNN模型训练期间多标签噪声的不利影响。 RCML在基于三个主模块的RS图像中识别,排名和排除噪声多标签:1)差异模块; 2)组套索模块; 3)交换模块。差异模块确保两个网络了解不同的功能,同时产生相同的预测。组套索模块的任务是检测分配给多标记训练图像的潜在嘈杂的标签,而交换模块任务致力于在两个网络之间交换排名信息。与现有的方法不同,我们提出了关于噪声分布的假设,我们所提出的RCML不会在训练集中的噪声类型之前进行任何先前的假设。我们的代码在线公开提供:http://www.noisy-labels-in-rs.org
translated by 谷歌翻译
传统的计算机视觉模型受过培训,以预测固定的预定义类别。最近,自然语言已被证明是一个更广泛而更丰富的监督来源,为视觉概念提供更精细的描述,而不是监督“黄金”标签。以前的作品,例如剪辑,使用InfoNce丢失来训练模型以预测图像和文本标题之间的配对。然而,剪辑是饥饿的数据,需要超过400米的图像文本对进行培训。效率低下可以归因于图像文本对嘈杂的事实。为了解决这个问题,我们提出了水獭(有效的零射击识别的最佳运输蒸馏),它使用在线熵最佳运输,找到一个软图像文本与标签进行对比学习。基于预磨料的图像和文本编码器,用电站培训的型号实现了强大的性能,只有3M图像文本对。与InfoNce损失相比,标记平滑和知识蒸馏,OTTER始终如一地优于零拍摄图像(19,958类)和来自腾讯ML图像的多标记Imagenet 10k(10032类)的零拍摄评估中的这些基线。在4个不同的数据集/架构设置x 6度量上,OTTER优于(32)或绑定(2)34中的所有基准。
translated by 谷歌翻译
Knowledge distillation aims at transferring knowledge acquired in one model (a teacher) to another model (a student) that is typically smaller. Previous approaches can be expressed as a form of training the student to mimic output activations of individual data examples represented by the teacher. We introduce a novel approach, dubbed relational knowledge distillation (RKD), that transfers mutual relations of data examples instead. For concrete realizations of RKD, we propose distance-wise and angle-wise distillation losses that penalize structural differences in relations. Experiments conducted on different tasks show that the proposed method improves educated student models with a significant margin. In particular for metric learning, it allows students to outperform their teachers' performance, achieving the state of the arts on standard benchmark datasets.
translated by 谷歌翻译
深度学习的最新进展依赖于大型标签的数据集来培训大容量模型。但是,以时间和成本效益的方式收集大型数据集通常会导致标签噪声。我们提出了一种从嘈杂的标签中学习的方法,该方法利用特征空间中的训练示例之间的相似性,鼓励每个示例的预测与其最近的邻居相似。与使用多个模型或不同阶段的训练算法相比,我们的方法采用了简单,附加的正规化项的形式。它可以被解释为经典的,偏置标签传播算法的归纳版本。我们在数据集上彻底评估我们的方法评估合成(CIFAR-10,CIFAR-100)和现实(迷你网络,网络vision,Clotsing1m,Mini-Imagenet-Red)噪声,并实现竞争性或最先进的精度,在所有人之间。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
Although existing semi-supervised learning models achieve remarkable success in learning with unannotated in-distribution data, they mostly fail to learn on unlabeled data sampled from novel semantic classes due to their closed-set assumption. In this work, we target a pragmatic but under-explored Generalized Novel Category Discovery (GNCD) setting. The GNCD setting aims to categorize unlabeled training data coming from known and novel classes by leveraging the information of partially labeled known classes. We propose a two-stage Contrastive Affinity Learning method with auxiliary visual Prompts, dubbed PromptCAL, to address this challenging problem. Our approach discovers reliable pairwise sample affinities to learn better semantic clustering of both known and novel classes for the class token and visual prompts. First, we propose a discriminative prompt regularization loss to reinforce semantic discriminativeness of prompt-adapted pre-trained vision transformer for refined affinity relationships. Besides, we propose a contrastive affinity learning stage to calibrate semantic representations based on our iterative semi-supervised affinity graph generation method for semantically-enhanced prompt supervision. Extensive experimental evaluation demonstrates that our PromptCAL method is more effective in discovering novel classes even with limited annotations and surpasses the current state-of-the-art on generic and fine-grained benchmarks (with nearly $11\%$ gain on CUB-200, and $9\%$ on ImageNet-100) on overall accuracy.
translated by 谷歌翻译
Deep Neural Networks (DNNs) have been shown to be susceptible to memorization or overfitting in the presence of noisily-labelled data. For the problem of robust learning under such noisy data, several algorithms have been proposed. A prominent class of algorithms rely on sample selection strategies wherein, essentially, a fraction of samples with loss values below a certain threshold are selected for training. These algorithms are sensitive to such thresholds, and it is difficult to fix or learn these thresholds. Often, these algorithms also require information such as label noise rates which are typically unavailable in practice. In this paper, we propose an adaptive sample selection strategy that relies only on batch statistics of a given mini-batch to provide robustness against label noise. The algorithm does not have any additional hyperparameters for sample selection, does not need any information on noise rates and does not need access to separate data with clean labels. We empirically demonstrate the effectiveness of our algorithm on benchmark datasets.
translated by 谷歌翻译
除了使用硬标签的标准监督学习外,通常在许多监督学习设置中使用辅助损失来改善模型的概括。例如,知识蒸馏增加了第二个教师模仿模型训练的损失,在该培训中,教师可能是一个验证的模型,可以输出比标签更丰富的分布。同样,在标记数据有限的设置中,弱标记信息以标签函数的形式使用。此处引入辅助损失来对抗标签函数,这些功能可能是基于嘈杂的规则的真实标签近似值。我们解决了学习以原则性方式结合这些损失的问题。我们介绍AMAL,该AMAL使用元学习在验证度量上学习实例特定的权重,以实现损失的最佳混合。在许多知识蒸馏和规则降解域中进行的实验表明,Amal在这些领域中对竞争基准的增长可显着。我们通过经验分析我们的方法,并分享有关其提供性能提升的机制的见解。
translated by 谷歌翻译
遥感(RS)图像的多标签分类(MLC)精确方法的开发是RS中最重要的研究主题之一。为了解决MLC问题,发现需要大量可靠的可靠训练图像,该图像由多个土地覆盖级标签(多标签)注释,这些培训图像在Rs中很受欢迎。但是,收集这种注释是耗时且昂贵的。以零标签成本获得注释的常见程序是依靠主题产品或众包标签。作为缺点,这些过程具有标签噪声的风险,可能会扭曲MLC算法的学习过程。在文献中,大多数标签噪声鲁棒方法都是针对计算机视觉(CV)中单标签分类(SLC)问题设计的,其中每个图像都由单个标签注释。与SLC不同,MLC中的标签噪声可以与:1)减去标签 - 噪声(在图像中存在该类时,未分配土地覆盖类标签为图像); 2)添加标签噪声(尽管该类不存在在给定图像中,但将土地覆盖类标签分配给图像); 3)混合标签 - 噪声(两者的组合)。在本文中,我们研究了三种不同的噪声鲁棒CV SLC方法,并将其适应为RS的多标签噪声场景。在实验过程中,我们研究了不同类型的多标签噪声的影响,并严格评估了适用的方法。为此,我们还引入了一种合成的多标签噪声注入策略,该策略与统一标签噪声注入策略相比,该策略更适合模拟操作场景,在该策略中,缺少和当前类的标签以均匀的概率上翻转。此外,我们研究了噪声多标签下不同评估指标在MLC问题中的相关性。
translated by 谷歌翻译
降低降低方法是无监督的方法,它学习了低维空间,在这些方法中,初始空间的某些特性(通常是“邻居”的概念)被保留。这种方法通常需要在大的K-NN图或复杂的优化求解器上传播。另一方面,通常用于从头开始学习表示形式,依靠简单,更可扩展的框架来学习的自我监督学习方法。在本文中,我们提出了TLDR,这是通用输入空间的一种降低方法,该方法正在移植Zbontar等人的最新自我监督学习框架。 (2021)降低维度的特定任务,超越任意表示。我们建议使用最近的邻居从训练组中构建对,并减少冗余损失,以学习在此类对之间产生表示形式的编码器。 TLDR是一种简单,易于训练和广泛适用性的方法。它由一个离线最近的邻居计算步骤组成,该步骤可以高度近似,并且是一个直接的学习过程。为了提高可伸缩性,我们专注于提高线性维度的降低,并在图像和文档检索任务上显示一致的收益,例如在Roxford上获得PCA的 +4%地图,用于GEM-AP,改善了ImageNet上的Dino的性能或以10倍的压缩保留。
translated by 谷歌翻译
大多数现有的工作在几次学习中,依赖于Meta-Learning网络在大型基础数据集上,该网络通常是与目标数据集相同的域。我们解决了跨域几秒钟的问题,其中基础和目标域之间存在大移位。与未标记的目标数据的跨域几秒识别问题在很大程度上在文献中毫无根据。启动是使用自我训练解决此问题的第一个方法。但是,它使用固定的老师在标记的基础数据集上返回,以为未标记的目标样本创建软标签。由于基本数据集和未标记的数据集来自不同的域,因此将基本数据集的类域中的目标图像投影,具有固定的预制模型可能是子最优的。我们提出了一种简单的动态蒸馏基方法,以方便来自新颖/基础数据集的未标记图像。我们通过从教师网络中的未标记图像的未标记版本的预测计算并将其与来自学生网络相同的相同图像的强大版本匹配来施加一致性正常化。教师网络的参数被更新为学生网络参数的指数移动平均值。我们表明所提出的网络了解可以轻松适应目标域的表示,即使它尚未在预先预测阶段的目标专用类别训练。我们的车型优于当前最先进的方法,在BSCD-FSL基准中的5次分类,3.6%的3.6%,并在传统的域名几枪学习任务中显示出竞争性能。
translated by 谷歌翻译
由于类间的相似性和注释歧义,嘈杂的标签面部表达识别(FER)比传统的嘈杂标签分类任务更具挑战性。最近的作品主要通过过滤大量损坏样本来解决此问题。在本文中,我们从新功能学习的角度探索了嘈杂的标签。我们发现,FER模型通过专注于可以认为与嘈杂标签相关的一部分来记住嘈杂的样本,而不是从导致潜在真理的整个功能中学习。受到的启发,我们提出了一种新颖的擦除注意力一致性(EAC)方法,以自动抑制嘈杂的样品。具体而言,我们首先利用面部图像的翻转语义一致性来设计不平衡的框架。然后,我们随机删除输入图像,并使用翻转注意一致性,以防止模型专注于部分特征。 EAC明显优于最先进的嘈杂标签方法,并将其概括地概括为其他类似CIFAR100和Tiny-Imagenet等类别的任务。该代码可在https://github.com/zyh-uaiaaaa/erasing-prestention-consistency中获得。
translated by 谷歌翻译
Deep metric learning aims to learn an embedding space, where semantically similar samples are close together and dissimilar ones are repelled against. To explore more hard and informative training signals for augmentation and generalization, recent methods focus on generating synthetic samples to boost metric learning losses. However, these methods just use the deterministic and class-independent generations (e.g., simple linear interpolation), which only can cover the limited part of distribution spaces around original samples. They have overlooked the wide characteristic changes of different classes and can not model abundant intra-class variations for generations. Therefore, generated samples not only lack rich semantics within the certain class, but also might be noisy signals to disturb training. In this paper, we propose a novel intra-class adaptive augmentation (IAA) framework for deep metric learning. We reasonably estimate intra-class variations for every class and generate adaptive synthetic samples to support hard samples mining and boost metric learning losses. Further, for most datasets that have a few samples within the class, we propose the neighbor correction to revise the inaccurate estimations, according to our correlation discovery where similar classes generally have similar variation distributions. Extensive experiments on five benchmarks show our method significantly improves and outperforms the state-of-the-art methods on retrieval performances by 3%-6%. Our code is available at https://github.com/darkpromise98/IAA
translated by 谷歌翻译