标签平滑(LS)是一种出现的学习范式,它使用硬训练标签和均匀分布的软标签的正加权平均值。结果表明,LS是带有硬标签的训练数据的常规器,因此改善了模型的概括。后来,据报道,LS甚至有助于用嘈杂的标签学习时改善鲁棒性。但是,我们观察到,当我们以高标签噪声状态运行时,LS的优势就会消失。从直觉上讲,这是由于$ \ mathbb {p}的熵增加(\ text {noisy label} | x)$当噪声速率很高时,在这种情况下,进一步应用LS会倾向于“超平滑”估计后部。我们开始发现,文献中的几种学习与噪声标签的解决方案相反,与负面/不标签平滑(NLS)更紧密地关联,它们与LS相反,并将其定义为使用负重量来结合硬和软标签呢我们在使用嘈杂标签学习时对LS和NLS的性质提供理解。在其他已建立的属性中,我们从理论上表明,当标签噪声速率高时,NLS被认为更有益。我们在多个基准测试中提供了广泛的实验结果,以支持我们的发现。代码可在https://github.com/ucsc-real/negative-label-smooth上公开获取。
translated by 谷歌翻译
原始收集的培训数据通常带有从多个不完美的注释器中收集的单独的嘈杂标签(例如,通过众包)。通常,首先将单独的嘈杂标签汇总为一个,并应用标准培训方法。文献还广泛研究了有效的聚合方法。本文重新审视了此选择,并旨在为一个问题提供一个答案,即是否应该将单独的嘈杂标签汇总为单个单个标签或单独使用它们作为给定标签。我们从理论上分析了许多流行损失功能的经验风险最小化框架下的两种方法的性能,包括专门为使用嘈杂标签学习的问题而设计的损失功能。我们的定理得出的结论是,当噪声速率较高时,标签分离优于标签聚集,或者标记器/注释的数量不足。广泛的经验结果证明了我们的结论。
translated by 谷歌翻译
最近关于使用嘈杂标签的学习的研究通过利用小型干净数据集来显示出色的性能。特别是,基于模型不可知的元学习的标签校正方法进一步提高了性能,通过纠正了嘈杂的标签。但是,标签错误矫予没有保障措施,导致不可避免的性能下降。此外,每个训练步骤都需要至少三个背部传播,显着减慢训练速度。为了缓解这些问题,我们提出了一种强大而有效的方法,可以在飞行中学习标签转换矩阵。采用转换矩阵使分类器对所有校正样本持怀疑态度,这减轻了错误的错误问题。我们还介绍了一个双头架构,以便在单个反向传播中有效地估计标签转换矩阵,使得估计的矩阵紧密地遵循由标签校正引起的移位噪声分布。广泛的实验表明,我们的方法在训练效率方面表现出比现有方法相当或更好的准确性。
translated by 谷歌翻译
作为标签噪声,最受欢迎的分布变化之一,严重降低了深度神经网络的概括性能,具有嘈杂标签的强大训练正在成为现代深度学习中的重要任务。在本文中,我们提出了我们的框架,在子分类器(ALASCA)上创造了自适应标签平滑,该框架提供了具有理论保证和可忽略的其他计算的可靠特征提取器。首先,我们得出标签平滑(LS)会产生隐式Lipschitz正则化(LR)。此外,基于这些推导,我们将自适应LS(ALS)应用于子分类器架构上,以在中间层上的自适应LR的实际应用。我们对ALASCA进行了广泛的实验,并将其与以前的几个数据集上的噪声燃烧方法相结合,并显示我们的框架始终优于相应的基线。
translated by 谷歌翻译
Training accurate deep neural networks (DNNs) in the presence of noisy labels is an important and challenging task. Though a number of approaches have been proposed for learning with noisy labels, many open issues remain. In this paper, we show that DNN learning with Cross Entropy (CE) exhibits overfitting to noisy labels on some classes ("easy" classes), but more surprisingly, it also suffers from significant under learning on some other classes ("hard" classes). Intuitively, CE requires an extra term to facilitate learning of hard classes, and more importantly, this term should be noise tolerant, so as to avoid overfitting to noisy labels. Inspired by the symmetric KL-divergence, we propose the approach of Symmetric cross entropy Learning (SL), boosting CE symmetrically with a noise robust counterpart Reverse Cross Entropy (RCE). Our proposed SL approach simultaneously addresses both the under learning and overfitting problem of CE in the presence of noisy labels. We provide a theoretical analysis of SL and also empirically show, on a range of benchmark and real-world datasets, that SL outperforms state-of-the-art methods. We also show that SL can be easily incorporated into existing methods in order to further enhance their performance.
translated by 谷歌翻译
在标签 - 噪声学习中,估计过渡矩阵是一个热门话题,因为矩阵在构建统计上一致的分类器中起着重要作用。传统上,从干净的标签到嘈杂的标签(即,清洁标签过渡矩阵(CLTM))已被广泛利用,以通过使用嘈杂的数据来学习干净的标签分类器。该分类器的动机主要是输出贝叶斯的最佳预测标签,在本文中,我们研究以直接建模从贝叶斯最佳标签过渡到嘈杂标签(即贝叶斯标签,贝叶斯标签,是BLTM)),并学习分类器以预测贝叶斯最佳的分类器标签。请注意,只有嘈杂的数据,它不足以估计CLTM或BLTM。但是,贝叶斯最佳标签与干净标签相比,贝叶斯最佳标签的不确定性较小,即,贝叶斯最佳标签的类后代是一热矢量,而干净标签的载体则不是。这使两个优点能够估算BLTM,即(a)一组具有理论上保证的贝叶斯最佳标签的示例可以从嘈杂的数据中收集; (b)可行的解决方案空间要小得多。通过利用优势,我们通过采用深层神经网络来估计BLTM参数,从而更好地概括和出色的分类性能。
translated by 谷歌翻译
在本文中,我们回答了插入标签噪声(较少的信息标签)时的问题,而是返回更准确和公平的模型。我们主要通过三次观察启发:1)与降低标签噪声速率相比,增加噪声速率易于实现; 2)增加某类实例的标签噪声以平衡噪声速率(增加到平衡)导致更容易的学习问题; 3)增加对平衡改善了对标签偏差的公平保障。在本文中,我们首先通过增加一组实例的标签噪声率W.r.t.来量化推出的权衡。损失标签信息和降低的学习困难。我们在改善泛化能量或公平保证方面,我们分析了这样的增加是有益的。然后,我们介绍一种方法来正确插入标签噪声,以便与嘈杂的标签学习学习的任务,无论是没有还是公平约束。我们面临的主要技术挑战是由于我们不知道哪些数据实例遭受更高的噪音,而且我们不会有地面真理标签来验证任何可能的假设。我们提出了一种检测方法,可以向我们通知我们,在不使用地面真理标签的情况下,哪一组标签可能会遭受更高的噪音。我们正式建立了提出的解决方案的有效性,并通过广泛的实验证明了它。
translated by 谷歌翻译
样品选择是减轻标签噪声在鲁棒学习中的影响的有效策略。典型的策略通常应用小损失标准来识别干净的样品。但是,这些样本位于决策边界周围,通常会与嘈杂的例子纠缠在一起,这将被此标准丢弃,从而导致概括性能的严重退化。在本文中,我们提出了一种新颖的选择策略,\ textbf {s} elf- \ textbf {f} il \ textbf {t} ering(sft),它利用历史预测中嘈杂的示例的波动来过滤它们,可以过滤它们,这可以是可以过滤的。避免在边界示例中的小损失标准的选择偏置。具体来说,我们介绍了一个存储库模块,该模块存储了每个示例的历史预测,并动态更新以支持随后的学习迭代的选择。此外,为了减少SFT样本选择偏置的累积误差,我们设计了一个正规化术语来惩罚自信的输出分布。通过通过此术语增加错误分类类别的重量,损失函数在轻度条件下标记噪声是可靠的。我们对具有变化噪声类型的三个基准测试并实现了新的最先进的实验。消融研究和进一步分析验证了SFT在健壮学习中选择样本的优点。
translated by 谷歌翻译
标签噪声过渡矩阵,表示从干净标签到嘈杂标签的过渡概率,对于设计统计上强大的解决方案至关重要。噪声过渡矩阵的现有估计器,例如,使用锚点或凝集性,专注于相对容易获得高质量表示的计算机视觉任务。我们观察到,由于非信息和信息性表示的共存,具有较低质量特征的任务无法满足锚点或凝聚力条件。为了解决这个问题,我们提出了一种通用和实用的信息理论方法,以减少质量较低特征的信息不足的部分。这种改进对于识别和估计标签噪声转变矩阵至关重要。显着的技术挑战是仅使用嘈杂标签而不是干净的标签来计算相关的信息理论指标。我们证明,著名的$ f $ - 潮流信息度量通常可以在使用嘈杂标签计算时保留订单。然后,我们使用此蒸馏版本的功能构建过渡矩阵估计器。通过评估具有较低质量特征的各种表格数据和文本分类任务的估计误差,还可以通过评估拟议方法的必要性和有效性。代码可在github.com/ucsc-real/beyondimages上找到。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
Deep neural networks may easily memorize noisy labels present in real-world data, which degrades their ability to generalize. It is therefore important to track and evaluate the robustness of models against noisy label memorization. We propose a metric, called susceptibility, to gauge such memorization for neural networks. Susceptibility is simple and easy to compute during training. Moreover, it does not require access to ground-truth labels and it only uses unlabeled data. We empirically show the effectiveness of our metric in tracking memorization on various architectures and datasets and provide theoretical insights into the design of the susceptibility metric. Finally, we show through extensive experiments on datasets with synthetic and real-world label noise that one can utilize susceptibility and the overall training accuracy to distinguish models that maintain a low memorization on the training set and generalize well to unseen clean data.
translated by 谷歌翻译
The existence of label noise imposes significant challenges (e.g., poor generalization) on the training process of deep neural networks (DNN). As a remedy, this paper introduces a permutation layer learning approach termed PermLL to dynamically calibrate the training process of the DNN subject to instance-dependent and instance-independent label noise. The proposed method augments the architecture of a conventional DNN by an instance-dependent permutation layer. This layer is essentially a convex combination of permutation matrices that is dynamically calibrated for each sample. The primary objective of the permutation layer is to correct the loss of noisy samples mitigating the effect of label noise. We provide two variants of PermLL in this paper: one applies the permutation layer to the model's prediction, while the other applies it directly to the given noisy label. In addition, we provide a theoretical comparison between the two variants and show that previous methods can be seen as one of the variants. Finally, we validate PermLL experimentally and show that it achieves state-of-the-art performance on both real and synthetic datasets.
translated by 谷歌翻译
神经崩溃的概念是指在各种规范分类问题中经验观察到的几种新兴现象。在训练深度神经网络的终端阶段,同一类的所有示例的特征嵌入往往会崩溃为单一表示,而不同类别的特征往往会尽可能分开。通常通过简化的模型(称为无约束的特征表示)来研究神经崩溃,其中假定模型具有“无限表达性”,并且可以将每个数据点映射到任何任意表示。在这项工作中,我们提出了不受约束的功能表示的更现实的变体,该变体考虑到了网络的有限表达性。经验证据表明,嘈杂数据点的记忆导致神经崩溃的降解(扩张)。使用记忆 - 稀释(M-D)现象的模型,我们展示了一种机制,通过该机制,不同的损失导致嘈杂数据上受过训练的网络的不同性能。我们的证据揭示了为什么标签平滑性(经验观察到产生正则化效果的跨凝性的修改)导致分类任务的概括改善的原因。
translated by 谷歌翻译
深度学习在大量大数据的帮助下取得了众多域中的显着成功。然而,由于许多真实情景中缺乏高质量标签,数据标签的质量是一个问题。由于嘈杂的标签严重降低了深度神经网络的泛化表现,从嘈杂的标签(强大的培训)学习是在现代深度学习应用中成为一项重要任务。在本调查中,我们首先从监督的学习角度描述了与标签噪声学习的问题。接下来,我们提供62项最先进的培训方法的全面审查,所有这些培训方法都按照其方法论差异分为五个群体,其次是用于评估其优越性的六种性质的系统比较。随后,我们对噪声速率估计进行深入分析,并总结了通常使用的评估方法,包括公共噪声数据集和评估度量。最后,我们提出了几个有前途的研究方向,可以作为未来研究的指导。所有内容将在https://github.com/songhwanjun/awesome-noisy-labels提供。
translated by 谷歌翻译
学习存在于数据的背景下,但信心的概念通常集中在模型预测上,而不是标签质量上。自信学习(CL)是一种替代方法,它通过根据修剪嘈杂数据的原理来表征和识别数据集中的标签错误来重点关注标签质量,并使用概率阈值来估算噪声,并将示例排名以自信。尽管许多研究已经独立开发了这些原理,但在这里,我们将它们结合起来,建立在类似的噪声过程的基础上,以直接估计嘈杂(给定的)标签和未腐败(未知)标签之间的关节分布。这导致了广义的CL,该CL证明是一致且具有实验性能的。我们提供了足够的条件,CL准确地发现标签错误,并且CL性能超过了CIFAR数据集上使用嘈杂标签的七种近期学习方法。独特的是,CL框架不与特定的数据模式或模型耦合(例如,我们使用CL在假定的无错误MNIST数据集中查找几个标签错误,并在亚马逊评论中对文本数据进行改善的情感分类)。我们还使用Imagenet上的CL来量化本体论类重叠(例如,估计645个“导弹”图像被错误标记为其母体类“弹丸”),并通过清洁训练前清洁数据来提高模型准确性(例如,用于RESNET)。使用开源清洁行释放可以复制这些结果。
translated by 谷歌翻译
深层神经网络能够轻松地使用软磁横层(CE)丢失来记住嘈杂的标签。先前的研究试图解决此问题的重点是将噪声损失函数纳入CE损失。但是,记忆问题得到了缓解,但仍然由于非持鲁棒的损失而造成的。为了解决这个问题,我们专注于学习可靠的对比度表示数据,分类器很难记住CE损失下的标签噪声。我们提出了一种新颖的对比正则化函数,以通过标签噪声不主导表示表示的嘈杂数据来学习此类表示。通过理论上研究由提议的正则化功能引起的表示形式,我们揭示了学识渊博的表示形式将信息保留与真实标签和丢弃与损坏标签相关的信息有关的信息。此外,我们的理论结果还表明,学到的表示形式对标签噪声是可靠的。通过基准数据集的实验证明了该方法的有效性。
translated by 谷歌翻译
In this paper, we present a simple yet effective method (ABSGD) for addressing the data imbalance issue in deep learning. Our method is a simple modification to momentum SGD where we leverage an attentional mechanism to assign an individual importance weight to each gradient in the mini-batch. Unlike many existing heuristic-driven methods for tackling data imbalance, our method is grounded in {\it theoretically justified distributionally robust optimization (DRO)}, which is guaranteed to converge to a stationary point of an information-regularized DRO problem. The individual-level weight of a sampled data is systematically proportional to the exponential of a scaled loss value of the data, where the scaling factor is interpreted as the regularization parameter in the framework of information-regularized DRO. Compared with existing class-level weighting schemes, our method can capture the diversity between individual examples within each class. Compared with existing individual-level weighting methods using meta-learning that require three backward propagations for computing mini-batch stochastic gradients, our method is more efficient with only one backward propagation at each iteration as in standard deep learning methods. To balance between the learning of feature extraction layers and the learning of the classifier layer, we employ a two-stage method that uses SGD for pretraining followed by ABSGD for learning a robust classifier and finetuning lower layers. Our empirical studies on several benchmark datasets demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译
The standard empirical risk minimization (ERM) can underperform on certain minority groups (i.e., waterbirds in lands or landbirds in water) due to the spurious correlation between the input and its label. Several studies have improved the worst-group accuracy by focusing on the high-loss samples. The hypothesis behind this is that such high-loss samples are \textit{spurious-cue-free} (SCF) samples. However, these approaches can be problematic since the high-loss samples may also be samples with noisy labels in the real-world scenarios. To resolve this issue, we utilize the predictive uncertainty of a model to improve the worst-group accuracy under noisy labels. To motivate this, we theoretically show that the high-uncertainty samples are the SCF samples in the binary classification problem. This theoretical result implies that the predictive uncertainty is an adequate indicator to identify SCF samples in a noisy label setting. Motivated from this, we propose a novel ENtropy based Debiasing (END) framework that prevents models from learning the spurious cues while being robust to the noisy labels. In the END framework, we first train the \textit{identification model} to obtain the SCF samples from a training set using its predictive uncertainty. Then, another model is trained on the dataset augmented with an oversampled SCF set. The experimental results show that our END framework outperforms other strong baselines on several real-world benchmarks that consider both the noisy labels and the spurious-cues.
translated by 谷歌翻译
噪声过渡矩阵在使用嘈杂标签的学习问题中起着核心作用。在许多其他原因中,许多现有解决方案都依赖于访问它。在没有地面真相标签的情况下识别和估算过渡矩阵是一项艰巨而挑战的任务。当标签噪声转变取决于每个实例时,识别与实例有关的噪声转变矩阵的问题变得更加具有挑战性。尽管最近的作品提出了从实例依赖性嘈杂标签中学习的解决方案,但该领域仍缺乏对何时仍然可以识别此问题的统一理解。本文的目的是表征标签噪声过渡矩阵的可识别性。在Kruskal的可识别性结果的基础上,我们能够在实例级别识别通用情况的噪声过渡矩阵时表明需要多个嘈杂标签的必要性。我们进一步实例化了结果,以解释最先进的解决方案的成功,以及如何缓解多个嘈杂标签的需求的其他假设。我们的结果还表明,分离的特征对上述标识任务有帮助,我们提供了经验证据。
translated by 谷歌翻译
现实世界数据集中的标签噪声编码错误的相关模式并损害深神经网络(DNNS)的概括。寻找有效的方法来检测损坏的模式至关重要。当前的方法主要着重于设计强大的训练技术,以防止DNN记住损坏的模式。这些方法通常需要定制的培训过程,并可能过度腐败的模式,从而导致检测的性能下降。在本文中,从以数据为中心的角度来看,我们提出了一种无培训的解决方案来检测损坏的标签。直观地,``Closer''实例更有可能共享相同的干净标签。根据邻域信息,我们提出了两种方法:第一种方法通过检查附近功能的嘈杂标签通过``本地投票''使用''本地投票。可能会损坏的实例。我们理论上分析了功能的质量如何影响本地投票并为调整邻里规模提供指南。我们还证明了基于排名的方法的最坏情况错误。合成和真实的实验 - 世界标签噪声表明我们的无训练解决方案始终如一,并显着改善了大多数基于训练的基线。
translated by 谷歌翻译