在缺少标签(MLML)的情况下,多标签学习是一个具有挑战性的问题。现有方法主要关注网络结构或培训方案的设计,这提高了实现的复杂性。这项工作旨在满足MLML中的损失函数的潜力,而不增加程序和复杂性。为此,我们通过鲁棒损失设计提出了两种简单但有效的方法,基于观察到模型可以在高精度训练期间识别丢失的标签。首先是对底层的良好损失,即山损,重量底部以山的形状重量否定,以减轻虚假底片的效果。第二个是自定步损耗校正(SPLC)方法,其利用缺失标签的近似分布下的最大似然标准导出的丢失。在各种多标签图像分类数据集上的综合实验表明,我们的方法可以显着提高MLML的性能,并在MLML中实现新的最先进的损失函数。
translated by 谷歌翻译
由于难以收集详尽的多标签注释,因此多标签数据集通常包含部分标签。我们考虑了这个弱监督的学习问题的极端,称为单个积极的多标签学习(SPML),其中每个多标签训练图像只有一个正标签。传统上,所有未注释的标签都被认为是SPML中的负标签,它引入了假阴性标签,并导致模型训练被假定的负标签所支配。在这项工作中,我们选择从替代角度来对待所有未经注释的标签,即承认它们是未知的。因此,我们提出熵最大化(EM)损失,以达到提供适当监督信号的特殊梯度制度。此外,我们提出了采用不对称耐受性策略和自定进度程序的不对称伪标记(APL),以与EM损失合作,然后提供更精确的监督。实验表明,我们的方法可显着提高性能,并在所有四个基准测试中实现最先进的结果。代码可从https://github.com/correr-zhou/spml-acktheunknown获得。
translated by 谷歌翻译
对比度学习(CL)在任何监督的多级分类或无监督的学习中显示出令人印象深刻的图像表示学习进步。但是,这些CL方法无法直接适应多标签图像分类,因为难以定义正面和负面实例以对比多标签场景中给定的锚图像对比给定的锚图像,让标签单独丢失,这意味着借用了借用的标签通常,从对比度多级学习来定义它们的常用方式将产生许多不利的虚假负面实例。在本文中,通过引入标签校正机制来识别缺失的标签,我们首先优雅地产生了锚映像的单个语义标签的阳性和负面因素,然后定义了带有缺少标签的多标签图像分类的独特对比度损失(CLML) ),损失能够准确地使图像接近其真实的正面图像和虚假的负面图像,远离其真实的负面图像。与现有的多标签CL损失不同,CLML还保留了潜在表示空间中的低排名全球和局部标签依赖关系,在这些空间中,已证明此类依赖性有助于处理缺失的标签。据我们所知,这是在缺失标签方案中的第一个一般多标签CL损失,因此可以通过单个超参数与任何现有多标签学习方法的损失无缝配对。已提出的策略已被证明可以在三个标准数据集(MSCOCO,VOC和NUS范围内)提高RESNET101模型的分类性能,分别为1.2%,1.6%和1.3%。代码可在https://github.com/chuangua/contrastivelossmlml上找到。
translated by 谷歌翻译
弱监督的多标签分类(WSML)任务是使用每个图像的部分观察标签学习多标签分类,由于其巨大的注释成本,它变得越来越重要。在这项工作中,我们首先将未观察到的标签视为负标签,将WSML任务投入到嘈杂的多标签分类中。从这个角度来看,我们从经验上观察到,在多标签环境中也出现了在嘈杂的多级环境中最初发现的记忆效应。也就是说,该模型首先了解清洁标签的表示,然后开始记住嘈杂的标签。基于这一发现,我们提出了WSML的新方法,该方法拒绝或纠正大型损失样品,以防止模型记住嘈杂的标签。如果没有沉重且复杂的组件,我们提出的方法在几种部分标签设置上的先前最先前的WSML方法(包括Pascal VOC 2012,Coco,MS Coco,Nuswide,Cub,Cub和OpenImimages V3数据集)都优于先前的最先前的WSML方法。各种分析还表明,我们的方法实际上效果很好,证实了在弱监督的多标签分类中正确处理大损失的问题。我们的代码可从https://github.com/snucml/largelossmatters获得。
translated by 谷歌翻译
在本文中,我们研究了部分多标签(PML)图像分类问题,其中每个图像都用候选标签集注释,由多个相关标签和其他嘈杂标签组成。现有的PML方法通常会设计一种歧义策略来通过利用具有额外假设的先验知识来滤除嘈杂的标签,但不幸的是,这在许多实际任务中都无法使用。此外,由于歧义的目标函数通常是在整个训练集中精心设计的,因此在小型批次上使用SGD的深层模型中几乎无法优化它。在本文中,我们第一次提出了一个深层模型,以增强表示能力和歧视能力。一方面,我们提出了一种新型的基于课程的放弃策略,以通过融合不同类别的各种困难来逐步识别地面真相标签。另一方面,引入了一个一致性正规化,以供模型重新培训,以平衡拟合的易于标签并利用潜在的相关标签。对常用基准数据集的广泛实验结果表明,所提出的方法显着优于SOTA方法。
translated by 谷歌翻译
我们提出了一种称为分配 - 均衡损失的新损失功能,用于展示长尾类分布的多标签识别问题。与传统的单标分类问题相比,由于两个重要问题,多标签识别问题通常更具挑战性,即标签的共同发生以及负标签的主导地位(当被视为多个二进制分类问题时)。分配 - 平衡损失通过对标准二进制交叉熵丢失的两个关键修改来解决这些问题:1)重新平衡考虑标签共发生造成的影响的重量的新方法,以及2)负耐受规则化以减轻负标签的过度抑制。 Pascal VOC和Coco的实验表明,使用这种新损失功能训练的模型可实现现有方法的显着性能。代码和型号可在:https://github.com/wutong16/distributionbalancedloss。
translated by 谷歌翻译
基于深度学习的组织病理学图像分类是帮助医生提高癌症诊断的准确性和迅速性的关键技术。然而,在复杂的手动注释过程中,嘈杂的标签通常是不可避免的,因此误导了分类模型的培训。在这项工作中,我们介绍了一种用于组织病理学图像分类的新型硬样本感知噪声稳健学习方法。为了区分来自有害嘈杂的内容漏洞,我们通过使用样本培训历史来构建一个简单/硬/噪声(EHN)检测模型。然后,我们将EHN集成到自动训练架构中,通过逐渐校正降低噪声速率。通过获得的几乎干净的数据集,我们进一步提出了一种噪声抑制和硬增强(NSHE)方案来训练噪声鲁棒模型。与以前的作品相比,我们的方法可以节省更多清洁样本,并且可以直接应用于实际嘈杂的数据集场景,而无需使用清洁子集。实验结果表明,该方案在合成和现实世界嘈杂的数据集中优于当前最先进的方法。源代码和数据可在https://github.com/bupt-ai-cz/hsa-nrl/处获得。
translated by 谷歌翻译
多标签图像分类旨在预测图像中的所有可能标签。考虑到在每个培训图像中注释所有标签可能是昂贵的,通常将其作为部分标签的学习问题。关于部分标签学习的现有作品集中在每个训练图像只有其标签的子集注释的情况下。一种特殊情况是在每个训练图像中仅注释一个正标签。为了进一步减轻注释负担并增强了分类器的性能,本文提出了一个新的部分标签设置,其中仅标记了训练图像的一个子集,每个图像只有一个正面标签,而其余的培训图像仍保留未标记。为了处理这个新设置,我们建议一个端到端的深层网络PLMCL(部分标签动量课程学习),可以学会为部分标记和未标记的培训图像生成自信的伪标签。基于动量的新法律通过考虑更新伪标签的速度,更新每个训练图像上的软伪标签,这些标签的更新有助于避免捕获到低信心的本地最低限度,尤其是在培训的早期阶段,由于缺乏观察到的标签和培训的早期阶段对伪标签的信心。此外,我们还提出了一个信心的调度程序,以适应性地对不同标签进行易于锻炼的学习。广泛的实验表明,我们提出的PLMCL在三个不同数据集上的各个部分标签设置下优于许多最先进的多标签分类方法。
translated by 谷歌翻译
应付嘈杂标签的大多数现有方法通常假定类别分布良好,因此无法应对训练样本不平衡分布的实际情况的能力不足。为此,本文尽早努力通过长尾分配和标签噪声来解决图像分类任务。在这种情况下,现有的噪声学习方法无法正常工作,因为将噪声样本与干净的尾巴类别的样本区分开来是具有挑战性的。为了解决这个问题,我们提出了一个新的学习范式,基于对弱数据和强数据扩展的推论,以筛选嘈杂的样本,并引入休假散布的正则化,以消除公认的嘈杂样本的效果。此外,我们基于在线先验分布中纳入了一种新颖的预测惩罚,以避免对头等阶层的偏见。与现有的长尾分类方法相比,这种机制在实时捕获班级拟合度方面具有优越性。详尽的实验表明,所提出的方法优于解决噪声标签下长尾分类中分布不平衡问题的最先进算法。
translated by 谷歌翻译
通常在具有固定预定义类别的完全注销的培训数据上学习对象探测器。但是,通常需要逐步增加类别。通常,在这种情况下,只有用旧课程注释的原始培训集和一些带有新课程的新培训数据。基于有限的数据集,强烈需要一个可以处理所有类别的统一检测器。我们提出了一个实用计划,以实现这项工作。无冲突的损失旨在避免标签歧义,从而在一次训练中导致可接受的探测器。为了进一步提高性能,我们提出了一个重新培训阶段,其中采用蒙特卡洛辍学术来计算定位置信度,以挖掘更准确的边界框,并提出了一种重叠的加权方法,以更好地利用在重新训练期间更好地利用伪注释。广泛的实验证明了我们方法的有效性。
translated by 谷歌翻译
带有嘈杂标签的训练深神经网络(DNN)实际上是具有挑战性的,因为不准确的标签严重降低了DNN的概括能力。以前的努力倾向于通过识别带有粗糙的小损失标准来减轻嘈杂标签的干扰的嘈杂数据来处理统一的denoising流中的零件或完整数据,而忽略了嘈杂样本的困难是不同的,因此是刚性和统一的。数据选择管道无法很好地解决此问题。在本文中,我们首先提出了一种称为CREMA的粗到精细的稳健学习方法,以分裂和串扰的方式处理嘈杂的数据。在粗糙水平中,干净和嘈杂的集合首先从统计意义上就可信度分开。由于实际上不可能正确对所有嘈杂样本进行分类,因此我们通过对每个样本的可信度进行建模来进一步处理它们。具体而言,对于清洁集,我们故意设计了一种基于内存的调制方案,以动态调整每个样本在训练过程中的历史可信度顺序方面的贡献,从而减轻了错误地分组为清洁集中的嘈杂样本的效果。同时,对于分类为嘈杂集的样品,提出了选择性标签更新策略,以纠正嘈杂的标签,同时减轻校正错误的问题。广泛的实验是基于不同方式的基准,包括图像分类(CIFAR,Clothing1M等)和文本识别(IMDB),具有合成或自然语义噪声,表明CREMA的优势和普遍性。
translated by 谷歌翻译
为了训练强大的深神经网络(DNNS),我们系统地研究了几种目标修饰方法,其中包括输出正则化,自我和非自动标签校正(LC)。发现了三个关键问题:(1)自我LC是最吸引人的,因为它利用了自己的知识,不需要额外的模型。但是,在文献中,如何自动确定学习者的信任程度并没有很好地回答。 (2)一些方法会受到惩罚,而另一些方法奖励低渗透预测,促使我们询问哪一种更好。 (3)使用标准训练设置,当存在严重的噪音时,受过训练的网络的信心较低,因此很难利用其高渗透自我知识。为了解决问题(1),采取两个良好接受的命题 - 深度神经网络在拟合噪声和最小熵正则原理之前学习有意义的模式 - 我们提出了一种名为Proselflc的新颖的端到端方法,该方法是根据根据学习时间和熵。具体而言,给定数据点,如果对模型进行了足够的时间训练,并且预测的熵较低(置信度很高),则我们逐渐增加对预测标签分布的信任与其注释的信任。根据ProSelfLC的说法,对于(2),我们从经验上证明,最好重新定义有意义的低渗透状态并优化学习者对其进行优化。这是防御熵最小化的防御。为了解决该问题(3),我们在利用低温以纠正标签之前使用低温降低了自我知识的熵,因此修订后的标签重新定义了低渗透目标状态。我们通过在清洁和嘈杂的环境以及图像和蛋白质数据集中进行广泛的实验来证明ProSelfLC的有效性。此外,我们的源代码可在https://github.com/xinshaoamoswang/proselflc-at上获得。
translated by 谷歌翻译
多标签图像分类允许从给定图像预测一组标签。与多类分类不同,每个图像只有一个标签,此类设置适用于更广泛的应用程序。在这项工作中,我们重新审视了多标签分类的两种流行方法:基于变压器的头和标签关系信息信息图处理分支。尽管基于变压器的头被认为比基于图基的分支更好地取得了更好的结果,但我们认为,使用适当的训练策略,基于图形的方法可以证明精确度的较小,同时将计算资源减少到推理上。在我们的训练策略中,我们在角度空间中引入了其修饰作用,而不是非对称损失(ASL)(ASL),而不是非对称损失(ASL)。与二进制跨熵损失相比,它隐含地学习了每个班级单位超球的代理特征向量,从而提供更好的歧视能力。根据提出的损失和训练策略,我们在单个模态方法中获得SOTA结果,以广泛的多标签分类基准,例如MS-Coco,Pascal-Voc,Nus wide和Visual Genome 500。 OpenVino培训扩展https://github.com/openvinotoolkit/deep-object-reid/tree/tree/multilabel
translated by 谷歌翻译
Object recognition techniques using convolutional neural networks (CNN) have achieved great success. However, state-of-the-art object detection methods still perform poorly on large vocabulary and long-tailed datasets, e.g. LVIS.In this work, we analyze this problem from a novel perspective: each positive sample of one category can be seen as a negative sample for other categories, making the tail categories receive more discouraging gradients. Based on it, we propose a simple but effective loss, named equalization loss, to tackle the problem of long-tailed rare categories by simply ignoring those gradients for rare categories. The equalization loss protects the learning of rare categories from being at a disadvantage during the network parameter updating. Thus the model is capable of learning better discriminative features for objects of rare classes. Without any bells and whistles, our method achieves AP gains of 4.1% and 4.8% for the rare and common categories on the challenging LVIS benchmark, compared to the Mask R-CNN baseline. With the utilization of the effective equalization loss, we finally won the 1st place in the LVIS Challenge 2019. Code has been made available at: https: //github.com/tztztztztz/eql.detectron2
translated by 谷歌翻译
尽管近期长尾对象检测成功,但几乎所有长尾对象探测器都是基于两级范式开发的。在实践中,一阶段探测器在行业中更为普遍,因为它们具有简单而快速的管道,易于部署。然而,在长尾情景中,到目前为止,这项工作尚未探讨。在本文中,我们调查了在这种情况下是否可以良好的单级探测器表现良好。我们发现预防一步检测器实现优异性能的主要障碍是:在长尾数据分布下,类别遭受不同程度的正负不平衡问题。传统的焦点损失与所有类别的调制因子相同的调节因子平衡,因此未能处理长尾问题。为了解决这个问题,我们提出了根据其不平衡程度独立地重新平衡不同类别的正面和负样本的损失贡献的均等的联络损失(EFL)。具体而言,EFL采用类别相关调制因子,可以通过不同类别的培训状态来动态调整。对挑战性的LVIS V1基准进行的广泛实验表明了我们提出的方法的有效性。通过端到端培训管道,EF​​L在整体AP方面实现了29.2%,并对稀有类别进行了显着的性能改进,超越了所有现有的最先进的方法。代码可在https://github.com/modeltc/eod上获得。
translated by 谷歌翻译
Partial label learning (PLL) is a typical weakly supervised learning, where each sample is associated with a set of candidate labels. The basic assumption of PLL is that the ground-truth label must reside in the candidate set. However, this assumption may not be satisfied due to the unprofessional judgment of the annotators, thus limiting the practical application of PLL. In this paper, we relax this assumption and focus on a more general problem, noisy PLL, where the ground-truth label may not exist in the candidate set. To address this challenging problem, we further propose a novel framework called "Automatic Refinement Network (ARNet)". Our method consists of multiple rounds. In each round, we purify the noisy samples through two key modules, i.e., noisy sample detection and label correction. To guarantee the performance of these modules, we start with warm-up training and automatically select the appropriate correction epoch. Meanwhile, we exploit data augmentation to further reduce prediction errors in ARNet. Through theoretical analysis, we prove that our method is able to reduce the noise level of the dataset and eventually approximate the Bayes optimal classifier. To verify the effectiveness of ARNet, we conduct experiments on multiple benchmark datasets. Experimental results demonstrate that our ARNet is superior to existing state-of-the-art approaches in noisy PLL. Our code will be made public soon.
translated by 谷歌翻译
深度学习在大量大数据的帮助下取得了众多域中的显着成功。然而,由于许多真实情景中缺乏高质量标签,数据标签的质量是一个问题。由于嘈杂的标签严重降低了深度神经网络的泛化表现,从嘈杂的标签(强大的培训)学习是在现代深度学习应用中成为一项重要任务。在本调查中,我们首先从监督的学习角度描述了与标签噪声学习的问题。接下来,我们提供62项最先进的培训方法的全面审查,所有这些培训方法都按照其方法论差异分为五个群体,其次是用于评估其优越性的六种性质的系统比较。随后,我们对噪声速率估计进行深入分析,并总结了通常使用的评估方法,包括公共噪声数据集和评估度量。最后,我们提出了几个有前途的研究方向,可以作为未来研究的指导。所有内容将在https://github.com/songhwanjun/awesome-noisy-labels提供。
translated by 谷歌翻译
迄今为止,最强大的半监督对象检测器(SS-OD)基于伪盒,该盒子需要一系列带有微调超参数的后处理。在这项工作中,我们建议用稀疏的伪盒子以伪造的伪标签形式取代稀疏的伪盒。与伪盒相比,我们的密集伪标签(DPL)不涉及任何后处理方法,因此保留了更丰富的信息。我们还引入了一种区域选择技术,以突出关键信息,同时抑制密集标签所携带的噪声。我们将利用DPL作为密集老师的拟议的SS-OD算法命名。在可可和VOC上,密集的老师在各种环境下与基于伪盒的方法相比表现出卓越的表现。
translated by 谷歌翻译
样品选择是减轻标签噪声在鲁棒学习中的影响的有效策略。典型的策略通常应用小损失标准来识别干净的样品。但是,这些样本位于决策边界周围,通常会与嘈杂的例子纠缠在一起,这将被此标准丢弃,从而导致概括性能的严重退化。在本文中,我们提出了一种新颖的选择策略,\ textbf {s} elf- \ textbf {f} il \ textbf {t} ering(sft),它利用历史预测中嘈杂的示例的波动来过滤它们,可以过滤它们,这可以是可以过滤的。避免在边界示例中的小损失标准的选择偏置。具体来说,我们介绍了一个存储库模块,该模块存储了每个示例的历史预测,并动态更新以支持随后的学习迭代的选择。此外,为了减少SFT样本选择偏置的累积误差,我们设计了一个正规化术语来惩罚自信的输出分布。通过通过此术语增加错误分类类别的重量,损失函数在轻度条件下标记噪声是可靠的。我们对具有变化噪声类型的三个基准测试并实现了新的最先进的实验。消融研究和进一步分析验证了SFT在健壮学习中选择样本的优点。
translated by 谷歌翻译
多标签图像识别是一个基本又实用的任务,因为真实世界的图像固有地拥有多个语义标签。然而,由于输入图像和输出标签空间的复杂性,难以收集大规模的多标签注释。为了降低注释成本,我们提出了一种结构化语义传输(SST)框架,使得能够培训具有部分标签的多标签识别模型,即,仅在每个图像中丢失其他标签(也称为未知标签)。该框架由两个互补传输模块组成,探索图像内和交叉图像语义相关性,以传输已知标签的知识,以为未知标签生成伪标签。具体地,一个图像内语义传输模块学习特定于图像的标签共出矩阵,并将已知的标签映射到基于该矩阵的补充未知标签。同时,交叉图像传输模块学习特定于类别的特征相似性,并帮助您具有高相似之处的补充未知标签。最后,已知和生成的标签都用于训练多标签识别模型。对Microsoft Coco,Visual Genome和Pascal VOC数据集的广泛实验表明,所提出的SST框架在当前最先进的算法上获得了卓越的性能。代码可用于\ url {https:/github.com/hcplab-sysu/sst-ml -pl
translated by 谷歌翻译