半监督学习(SSL)证明了其在高质量监督数据受到严重限制时提高各种学习任务的模型准确性的潜力。尽管经常确定,整个数据群的平均准确性得到了改善,但尚不清楚SSL如何具有不同的子人群的票价。当我们旨在公平对待的人口群体定义不同的子人群时,了解上述问题具有很大的公平意义。在本文中,我们揭示了部署SSL的不同影响:在不使用SSL(“ Rich” One)的情况下具有较高基线准确性的子人群倾向于从SSL中受益更多;尽管添加SSL模块后,遭受低基线准确性(“穷”)的子人群甚至可能会观察到性能下降。我们从理论上和经验上为广泛的SSL算法建立上述观察结果,该算法是明确或隐式使用辅助“伪标签”。一组图像和文本分类任务的实验证实了我们的主张。我们介绍了一个新的度量,收益比,并促进对SSL公平性(均等福利比)的评估。我们进一步讨论如何减轻不同的影响。我们希望我们的论文能够震惊使用SSL的潜在陷阱,并鼓励对未来SSL算法进行多方面评估。
translated by 谷歌翻译
虽然神经网络在平均病例的性能方面对分类任务的成功显着,但它们通常无法在某些数据组上表现良好。这样的组信息可能是昂贵的;因此,即使在培训数据不可用的组标签不可用,较稳健性和公平的最新作品也提出了改善最差组性能的方法。然而,这些方法通常在培训时间使用集团信息的表现不佳。在这项工作中,我们假设没有组标签的较大数据集一起访问少量组标签。我们提出了一个简单的两步框架,利用这个部分组信息来提高最差组性能:训练模型以预测训练数据的丢失组标签,然后在强大的优化目标中使用这些预测的组标签。从理论上讲,我们在最差的组性能方面为我们的方法提供泛化界限,展示了泛化误差如何相对于培训点总数和具有组标签的培训点的数量。凭经验,我们的方法优于不使用群组信息的基线表达,即使只有1-33%的积分都有组标签。我们提供消融研究,以支持我们框架的稳健性和可扩展性。
translated by 谷歌翻译
在标签噪声下训练深神网络的能力很有吸引力,因为不完美的注释数据相对便宜。最先进的方法基于半监督学习(SSL),该学习选择小损失示例为清洁,然后应用SSL技术来提高性能。但是,选择步骤主要提供一个中等大小的清洁子集,该子集可俯瞰丰富的干净样品。在这项工作中,我们提出了一个新颖的嘈杂标签学习框架Promix,试图最大程度地提高清洁样品的实用性以提高性能。我们方法的关键是,我们提出了一种匹配的高信心选择技术,该技术选择了那些具有很高置信的示例,并与给定标签进行了匹配的预测。结合小损失选择,我们的方法能够达到99.27的精度,并在检测CIFAR-10N数据集上的干净样品时召回98.22。基于如此大的清洁数据,Promix将最佳基线方法提高了CIFAR-10N的 +2.67%,而CIFAR-100N数据集则提高了 +1.61%。代码和数据可从https://github.com/justherozen/promix获得
translated by 谷歌翻译
最近,公平感知学习已经变得越来越重要,但我们注意到这些方法的大多数方法是通过假设完全注释的组标签的可用性来运作。我们强调,这种假设对于现实世界的应用是不现实的,因为组标签注释昂贵,并且可以与隐私问题冲突。在本文中,我们考虑了一种更实际的场景,称为算法公平,部分注释的组标签(Fair-PG)。我们观察到现有的公平方法,该方法仅使用与组标签的数据,表现比Vanilla培训更糟糕,这仅在Fair-PG下使用目标标签使用完整数据。为了解决这个问题,我们提出了一个简单的基于席信的群标签分配(CGL)策略,这些策略随时适用于任何公平意识的学习方法。我们的CGL利用辅助组分类器分配伪组标签,其中随机标签分配给低自信的样本。我们首先理论上表明,在公平标准方面,我们的方法设计优于香草伪标签策略。然后,我们经验展示了通过组合CGL和最先进的公平性的处理方法,与基线方法相比结合CGL和最先进的公平知识的处理方法,将目标精度和公平度量进行联合改善。此外,我们令人信服地表明,我们的CGL使得自然地将给定的组标记的数据集自然使用外部数据集仅适用于目标标签,以便可以提高精度和公平度量。我们将公开释放我们的实施,以便将来的研究重现我们的结果。
translated by 谷歌翻译
The core issue in semi-supervised learning (SSL) lies in how to effectively leverage unlabeled data, whereas most existing methods tend to put a great emphasis on the utilization of high-confidence samples yet seldom fully explore the usage of low-confidence samples. In this paper, we aim to utilize low-confidence samples in a novel way with our proposed mutex-based consistency regularization, namely MutexMatch. Specifically, the high-confidence samples are required to exactly predict "what it is" by conventional True-Positive Classifier, while the low-confidence samples are employed to achieve a simpler goal -- to predict with ease "what it is not" by True-Negative Classifier. In this sense, we not only mitigate the pseudo-labeling errors but also make full use of the low-confidence unlabeled data by consistency of dissimilarity degree. MutexMatch achieves superior performance on multiple benchmark datasets, i.e., CIFAR-10, CIFAR-100, SVHN, STL-10, mini-ImageNet and Tiny-ImageNet. More importantly, our method further shows superiority when the amount of labeled data is scarce, e.g., 92.23% accuracy with only 20 labeled data on CIFAR-10. Our code and model weights have been released at https://github.com/NJUyued/MutexMatch4SSL.
translated by 谷歌翻译
半监督学习(SSL)从根本上是一个缺失的标签问题,与广泛的随机假设完全既贴心又无标记的标签完全失踪,而不是随机(mnar)问题(mnar)问题更现实和挑战数据共享相同的类分布。与现有的SSL解决方案不同,这些解决方案忽略了“类”在引起非随机性中的作用,例如,用户更有可能将流行类标记为“类别”,我们将“类”明确地纳入SSL。我们的方法是三倍:1)我们建议使用偏置标记的数据来利用未标记的数据来利用未标记的数据来训练改进的分类器。 2)鼓励罕见的课堂培训,其模型是低回调但高精度,丢弃了太多的伪标记的数据,我们提出了类动态降低(或增加)伪标签分配阈值的class感知插补(CAI)稀有(或频繁)的课程。 3)总体而言,我们将CAP和CAI集成到训练无偏的SSL模型的双重稳健估计器中。在各种MNAR设置和消融中,我们的方法不仅显着优于现有基线,而且超过了其他标签偏置删除SSL方法。请通过以下方式查看我们的代码:https://github.com/joyhuyy1412/cadr-fixmatch。
translated by 谷歌翻译
在这项工作中,我们建议相互分布对准(RDA)解决半监督学习(SSL),该学习是一个无主参数框架,与置信阈值无关,并与匹配的(常规)和不匹配的类别分布一起工作。分布不匹配是一个经常被忽略但更通用的SSL场景,在该场景中,标记和未标记的数据不属于相同的类别分布。这可能导致该模型不利用标记的数据可靠,并大大降低SSL方法的性能,而传统的分布对齐无法挽救。在RDA中,我们对来自两个分类器的预测分布进行了相互对准,这些分类器预测了未标记的数据上的伪标签和互补标签。携带补充信息的这两个分布可用于相互正规化,而无需任何课堂分布。此外,我们从理论上显示RDA最大化输入输出互信息。我们的方法在各种不匹配的分布以及常规匹配的SSL设置的情况下,在SSL中实现了有希望的性能。我们的代码可在以下网址提供:https://github.com/njuyued/rda4robustssl。
translated by 谷歌翻译
Semi-supervised learning (SSL) provides a powerful framework for leveraging unlabeled data when labels are limited or expensive to obtain. SSL algorithms based on deep neural networks have recently proven successful on standard benchmark tasks. However, we argue that these benchmarks fail to address many issues that SSL algorithms would face in real-world applications. After creating a unified reimplementation of various widely-used SSL techniques, we test them in a suite of experiments designed to address these issues. We find that the performance of simple baselines which do not use unlabeled data is often underreported, SSL methods differ in sensitivity to the amount of labeled and unlabeled data, and performance can degrade substantially when the unlabeled dataset contains out-ofdistribution examples. To help guide SSL research towards real-world applicability, we make our unified reimplemention and evaluation platform publicly available. 2 * Equal contribution 2 https://github.com/brain-research/realistic-ssl-evaluation 32nd Conference on Neural Information Processing Systems (NeurIPS 2018),
translated by 谷歌翻译
在高风险任务中,对ML模型的依赖越来越多,引起了人们对公平违规行为的重大关注。尽管已经有一系列的工作来改善算法公平,但其中大多数都在相同的培训和测试分布的假设下。但是,在许多现实世界中,这种假设经常被违反,因为以前训练的公平模型经常被部署在不同的环境中,并且已经观察到这种模型的公平性会崩溃。在本文中,我们研究了如何转移分配变化的模型公平性,这是实践中普遍存在的问题。我们对公平模型在不同类型的分布变化下如何影响公平模型进行细粒度分析,并发现域移位比亚群体更具挑战性。受到自我训练在域移动下转移准确性方面的成功的启发,我们得出了一个足够的条件,可以转移群体公平。在它的指导下,我们提出了一种实用算法,其一致性正则化为关键组成部分。涵盖所有类型的分布变化的合成数据集基准,用于对理论发现的实验验证。关于合成和真实数据集(包括图像和表格数据)的实验表明,我们的方法在各种分布变化下有效地传递了公平和准确性。
translated by 谷歌翻译
使用信息理论原理,我们考虑迭代半监督学习(SSL)算法的概括误差(Gen-Error),这些算法迭代地生成了大量未标记数据的伪标记,以逐步完善模型参数。与{\ em绑定} Gen-Error的大多数以前的作品相反,我们为Gen-Error提供了{\ em Exact}的表达,并将其专门为二进制高斯混合模型。我们的理论结果表明,当阶级条件差异不大时,Gen-Error随着迭代次数的数量而减少,但很快就会饱和。另一方面,如果类的条件差异(因此,类别之间的重叠量)很大,则Gen-Error随迭代次数的增加而增加。为了减轻这种不良效果,我们表明正则化可以减少Gen-Error。通过对MNIST和CIFAR数据集进行的广泛实验来证实理论结果,我们注意到,对于易于分类的类别,经过几次伪标记的迭代,Gen-Error会改善,但此后饱和,并且更难难以实现。区分类别,正则化改善了概括性能。
translated by 谷歌翻译
伪标记已被证明是一种有希望的半监督学习(SSL)范式。现有的伪标记方法通常假定培训数据的类别分布是平衡的。但是,这种假设远非现实的场景,现有的伪标记方法在班级不平衡的背景下遭受了严重的性能变性。在这项工作中,我们在半监督设置下研究伪标记。核心思想是使用偏置自适应分类器自动吸收由班级失衡引起的训练偏差,该分类器将原始线性分类器与偏置吸引子配合使用。偏置吸引子设计为适应训练偏见的轻巧残留网络。具体而言,通过双级学习框架来学习偏见吸引子,以便偏见自适应分类器能够符合不平衡的训练数据,而线性分类器可以为每个类提供无偏的标签预测。我们在各种不平衡的半监督设置下进行了广泛的实验,结果表明我们的方法可以适用于不同的伪标记模型,并且优于先前的艺术。
translated by 谷歌翻译
近年来,已取得了巨大进展,以通过半监督学习(SSL)来纳入未标记的数据来克服效率低下的监督问题。大多数最先进的模型是基于对未标记的数据追求一致的模型预测的想法,该模型被称为输入噪声,这称为一致性正则化。尽管如此,对其成功的原因缺乏理论上的见解。为了弥合理论和实际结果之间的差距,我们在本文中提出了SSL的最坏情况一致性正则化技术。具体而言,我们首先提出了针对SSL的概括,该概括由分别在标记和未标记的训练数据上观察到的经验损失项组成。在这种界限的激励下,我们得出了一个SSL目标,该目标可最大程度地减少原始未标记的样本与其多重增强变体之间最大的不一致性。然后,我们提供了一种简单但有效的算法来解决提出的最小问题,从理论上证明它会收敛到固定点。五个流行基准数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
Annotating the dataset with high-quality labels is crucial for performance of deep network, but in real world scenarios, the labels are often contaminated by noise. To address this, some methods were proposed to automatically split clean and noisy labels, and learn a semi-supervised learner in a Learning with Noisy Labels (LNL) framework. However, they leverage a handcrafted module for clean-noisy label splitting, which induces a confirmation bias in the semi-supervised learning phase and limits the performance. In this paper, we for the first time present a learnable module for clean-noisy label splitting, dubbed SplitNet, and a novel LNL framework which complementarily trains the SplitNet and main network for the LNL task. We propose to use a dynamic threshold based on a split confidence by SplitNet to better optimize semi-supervised learner. To enhance SplitNet training, we also present a risk hedging method. Our proposed method performs at a state-of-the-art level especially in high noise ratio settings on various LNL benchmarks.
translated by 谷歌翻译
现实世界数据集中的标签噪声编码错误的相关模式并损害深神经网络(DNNS)的概括。寻找有效的方法来检测损坏的模式至关重要。当前的方法主要着重于设计强大的训练技术,以防止DNN记住损坏的模式。这些方法通常需要定制的培训过程,并可能过度腐败的模式,从而导致检测的性能下降。在本文中,从以数据为中心的角度来看,我们提出了一种无培训的解决方案来检测损坏的标签。直观地,``Closer''实例更有可能共享相同的干净标签。根据邻域信息,我们提出了两种方法:第一种方法通过检查附近功能的嘈杂标签通过``本地投票''使用''本地投票。可能会损坏的实例。我们理论上分析了功能的质量如何影响本地投票并为调整邻里规模提供指南。我们还证明了基于排名的方法的最坏情况错误。合成和真实的实验 - 世界标签噪声表明我们的无训练解决方案始终如一,并显着改善了大多数基于训练的基线。
translated by 谷歌翻译
Semi-supervised learning (SSL) provides an effective means of leveraging unlabeled data to improve a model's performance. This domain has seen fast progress recently, at the cost of requiring more complex methods. In this paper we propose FixMatch, an algorithm that is a significant simplification of existing SSL methods. FixMatch first generates pseudo-labels using the model's predictions on weaklyaugmented unlabeled images. For a given image, the pseudo-label is only retained if the model produces a high-confidence prediction. The model is then trained to predict the pseudo-label when fed a strongly-augmented version of the same image. Despite its simplicity, we show that FixMatch achieves state-of-the-art performance across a variety of standard semi-supervised learning benchmarks, including 94.93% accuracy on CIFAR-10 with 250 labels and 88.61% accuracy with 40 -just 4 labels per class. We carry out an extensive ablation study to tease apart the experimental factors that are most important to FixMatch's success. The code is available at https://github.com/google-research/fixmatch.
translated by 谷歌翻译
标签预测上的一致性正则化成为半监督学习中的一项基本技术,但是它仍然需要大量的训练迭代以进行高性能。在这项研究中,我们分析了一致性正则化限制了由于在模型更新中排除具有不受欢迎的伪标记的样品,因此标记信息的传播限制了。然后,我们提出对比度正则化,以提高未标记数据的群集特征一致性正则化的效率和准确性。在特定的情况下,在通过其伪标签将强大的增强样品分配给群集后,我们的对比度正规化更新了模型,以便具有自信的伪标签的功能在同一集群中汇总了功能,同时将功能推迟了不同的群集中的功能。结果,在培训中,可以有效地将自信的伪标签的信息有效地传播到更无标记的样品中。在半监督学习任务的基准上,我们的对比正则化改善了以前的基于一致性的方法,并取得了最新的结果,尤其是在培训次数较少的情况下。我们的方法还显示了在开放式半监督学习中的稳健性能,其中未标记的数据包括分发样本。
translated by 谷歌翻译
完全监督分类的问题是,它需要大量的注释数据,但是,在许多数据集中,很大一部分数据是未标记的。为了缓解此问题,半监督学习(SSL)利用了标记域上的分类器知识,并将其推送到无标记的域,该域具有与注释数据相似的分布。 SSL方法的最新成功至关重要地取决于阈值伪标记,从而对未标记的域的一致性正则化。但是,现有方法并未在训练过程中纳入伪标签或未标记样品的不确定性,这是由于嘈杂的标签或由于强大的增强而导致的分布样品。受SSL最近发展的启发,我们本文的目标是提出一个新颖的无监督不确定性意识的目标,依赖于核心和认识论不确定性量化。通过提出的不确定性感知损失功能,我们的方法优于标准SSL基准,在计算轻量级的同时,与最新的方法相匹配,或与最先进的方法相提并论。我们的结果优于复杂数据集(例如CIFAR-100和MINI-IMAGENET)的最新结果。
translated by 谷歌翻译
半监督学习(SSL)在标记数据稀缺时,在利用未标记数据的情况下表现出强大的能力。但是,大多数SSL算法在假设中,在培训和测试集中平衡类分布。在这项工作中,我们考虑到SSL对类别不平衡数据的问题,这更好地反映了现实世界的情况。特别是,我们将表示和分类器的训练分离,并系统地在培训包括分类器的整个网络以及仅微调特征提取器的整个网络时进行不同数据重新采样技术的影响。我们发现数据重新采样是重要的,以了解一个良好的分类器,因为它增加了伪标签的准确性,特别是对于未标记数据中的少数群体类别。有趣的是,我们发现准确的伪标签在训练特征提取器时无助于,相反,数据重新采样损害了特征提取器的训练。这一发现是针对错误的伪标签始终损害SSL中的模型性能的通用直觉。基于这些发现,我们建议重新思考具有单个数据重新采样策略的当前范式,并在类上不平衡数据上开发SSL的简单但高效的双采样(BIS)策略。 BIS实现了两种不同的重新采样策略,用于训练特征提取器和分类器,并将这种解耦培训集成到端到端框架中。具体地,BIS逐渐改变训练期间的数据分布,使得在开始时,特征提取器有效地训练,而朝向训练的结束时,数据被重新平衡,使得分类器可靠地训练。我们在广泛的数据集中广泛地基准了我们提出的双采样策略,实现了最先进的表演。
translated by 谷歌翻译
半监督学习(SSL)是规避建立高性能模型的昂贵标签成本的最有前途的范例之一。大多数现有的SSL方法常规假定标记和未标记的数据是从相同(类)分布中绘制的。但是,在实践中,未标记的数据可能包括课外样本;那些不能从标签数据中的封闭类中的单热编码标签,即未标记的数据是开放设置。在本文中,我们介绍了Opencos,这是一种基于最新的自我监督视觉表示学习框架来处理这种现实的半监督学习方案。具体而言,我们首先观察到,可以通过自我监督的对比度学习有效地识别开放式未标记数据集中的类外样本。然后,Opencos利用此信息来克服现有的最新半监督方法中的故障模式,通过利用一式旋转伪标签和软标签来为已识别的识别和外部未标记的标签数据分别。我们广泛的实验结果表明了Opencos的有效性,可以修复最新的半监督方法,适合涉及开放式无标记数据的各种情况。
translated by 谷歌翻译
半监督学习方法已成为对打击获得大量注释数据的挑战的活跃研究领域。为了提高半监督学习方法表现的目标,我们提出了一种新颖的框架,Hiematch,一种半监督方法,利用分层信息来降低标签成本并表现以及vanilla半监督学习方法。分层信息通常是具有细粒标签的粗标签(例如,啄木鸟)的粗标签(例如,啄木鸟)的现有知识(例如,柔软的啄木鸟或金朝啄木鸟)。但是,尚未探讨使用使用粗类标签来改进半监督技术的监督。在没有细粒度的标签的情况下,Himatch利用标签层次结构,并使用粗级标签作为弱监控信号。此外,Himatch是一种改进任何半熟的学习框架的通用方法,我们使用我们的结果在最近的最先进的技术Mixmatch和Fixmatch上展示了这一点。我们评估了在两个基准数据集,即CiFar-100和Nabirds上的Himatch疗效。与MixMatch相比,HOMACHACT可以在CIFAR-100上减少50%的粒度标签50%的用量,仅在前1个精度的边缘下降0.59%。代码:https://github.com/07agarg/hiermatch.
translated by 谷歌翻译