Positive-Unlabeled (PU) learning tries to learn binary classifiers from a few labeled positive examples with many unlabeled ones. Compared with ordinary semi-supervised learning, this task is much more challenging due to the absence of any known negative labels. While existing cost-sensitive-based methods have achieved state-of-the-art performances, they explicitly minimize the risk of classifying unlabeled data as negative samples, which might result in a negative-prediction preference of the classifier. To alleviate this issue, we resort to a label distribution perspective for PU learning in this paper. Noticing that the label distribution of unlabeled data is fixed when the class prior is known, it can be naturally used as learning supervision for the model. Motivated by this, we propose to pursue the label distribution consistency between predicted and ground-truth label distributions, which is formulated by aligning their expectations. Moreover, we further adopt the entropy minimization and Mixup regularization to avoid the trivial solution of the label distribution consistency on unlabeled data and mitigate the consequent confirmation bias. Experiments on three benchmark datasets validate the effectiveness of the proposed method.Code available at: https://github.com/Ray-rui/Dist-PU-Positive-Unlabeled-Learning-from-a-Label-Distribution-Perspective.
translated by 谷歌翻译
近年来,已取得了巨大进展,以通过半监督学习(SSL)来纳入未标记的数据来克服效率低下的监督问题。大多数最先进的模型是基于对未标记的数据追求一致的模型预测的想法,该模型被称为输入噪声,这称为一致性正则化。尽管如此,对其成功的原因缺乏理论上的见解。为了弥合理论和实际结果之间的差距,我们在本文中提出了SSL的最坏情况一致性正则化技术。具体而言,我们首先提出了针对SSL的概括,该概括由分别在标记和未标记的训练数据上观察到的经验损失项组成。在这种界限的激励下,我们得出了一个SSL目标,该目标可最大程度地减少原始未标记的样本与其多重增强变体之间最大的不一致性。然后,我们提供了一种简单但有效的算法来解决提出的最小问题,从理论上证明它会收敛到固定点。五个流行基准数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
从积极和未标记的(PU)数据中学习是各种应用中的重要问题。最近PU分类的大多数方法假设训练未标记的数据集中的课程(正样本的比率)与测试数据的类别相同,这在许多实际情况下不存在。此外,我们通常不知道培训和测试数据的类别,因此我们没有关于如何在没有它们的情况下训练分类器的线索。为了解决这些问题,我们提出了一种基于密度比估计的新型PU分类方法。我们所提出的方法的显着优势在于它不需要训练阶段中的类前沿;先前的换档仅在测试阶段结合。理论上,理论地证明我们提出的方法和实验证明其有效性。
translated by 谷歌翻译
最小化未标记数据的预测不确定性是在半监督学习(SSL)中实现良好性能的关键因素。预测不确定性通常表示为由输出空间中的转换概率计算的\ emph {熵}。大多数现有工程通过接受确定类(具有最大概率)作为真实标签或抑制微妙预测(具有较小概率)来蒸馏低熵预测。无论如何,这些蒸馏策略通常是模型培训的启发式和更少的信息。从这种辨别中,本文提出了一个名为自适应锐化(\ ADS)的双机制,首先将软阈值应用于自适应掩盖确定和可忽略不计的预测,然后无缝地锐化通知的预测,与通知的预测蒸馏出某些预测只要。更重要的是,我们通过与各种蒸馏策略进行比较理论上,从理论上分析\广告的特征。许多实验验证\广告通过使其显着提高了最先进的SSL方法。我们提出的\ ADS为未来蒸馏的SSL研究造成一个基石。
translated by 谷歌翻译
自我培训是半监督学习的有效方法。关键的想法是让学习者本身根据其当前假设而迭代地为未标记的实例生成“伪监督”。结合一致性正则化,伪标签在各个域中显示了有希望的性能,例如在计算机视觉中。为了考虑伪标签的假设性质,这些通常以概率分布的形式提供。仍然可能争辩说,即使是概率分布也代表过多的知情程度,因为它表明学习者精确地了解地面真理的条件概率。在我们的方法中,我们因此允许学习者以债务集的形式标记实例,即(候选人)概率分布。由于这种表现力增加,学习者能够以更加灵活和更忠诚的方式代表不确定性和缺乏知识。要从那种弱标记的数据中学习,我们利用最近在所谓的超集学习领域提出的方法。在详尽的经验评估中,我们将我们的方法与最先进的自我监督方法进行比较,表明竞争优越的性能,尤其是含有高度不确定性的低标签情景。
translated by 谷歌翻译
Partial label learning (PLL) is an important problem that allows each training example to be labeled with a coarse candidate set, which well suits many real-world data annotation scenarios with label ambiguity. Despite the promise, the performance of PLL often lags behind the supervised counterpart. In this work, we bridge the gap by addressing two key research challenges in PLL -- representation learning and label disambiguation -- in one coherent framework. Specifically, our proposed framework PiCO consists of a contrastive learning module along with a novel class prototype-based label disambiguation algorithm. PiCO produces closely aligned representations for examples from the same classes and facilitates label disambiguation. Theoretically, we show that these two components are mutually beneficial, and can be rigorously justified from an expectation-maximization (EM) algorithm perspective. Moreover, we study a challenging yet practical noisy partial label learning setup, where the ground-truth may not be included in the candidate set. To remedy this problem, we present an extension PiCO+ that performs distance-based clean sample selection and learns robust classifiers by a semi-supervised contrastive learning algorithm. Extensive experiments demonstrate that our proposed methods significantly outperform the current state-of-the-art approaches in standard and noisy PLL tasks and even achieve comparable results to fully supervised learning.
translated by 谷歌翻译
伪标记已被证明是一种有希望的半监督学习(SSL)范式。现有的伪标记方法通常假定培训数据的类别分布是平衡的。但是,这种假设远非现实的场景,现有的伪标记方法在班级不平衡的背景下遭受了严重的性能变性。在这项工作中,我们在半监督设置下研究伪标记。核心思想是使用偏置自适应分类器自动吸收由班级失衡引起的训练偏差,该分类器将原始线性分类器与偏置吸引子配合使用。偏置吸引子设计为适应训练偏见的轻巧残留网络。具体而言,通过双级学习框架来学习偏见吸引子,以便偏见自适应分类器能够符合不平衡的训练数据,而线性分类器可以为每个类提供无偏的标签预测。我们在各种不平衡的半监督设置下进行了广泛的实验,结果表明我们的方法可以适用于不同的伪标记模型,并且优于先前的艺术。
translated by 谷歌翻译
近年来,有监督的深度学习取得了巨大的成功,从大量完全标记的数据中,对预测模型进行了培训。但是,实际上,标记这样的大数据可能非常昂贵,甚至出于隐私原因甚至可能是不可能的。因此,在本文中,我们旨在学习一个无需任何类标签的准确分类器。更具体地说,我们考虑了多组未标记的数据及其类先验的情况,即每个类别的比例。在此问题设置下,我们首先得出了对分类风险的无偏估计量,可以从给定未标记的集合中估算,并理论上分析了学习分类器的概括误差。然后,我们发现获得的分类器往往会导致过度拟合,因为其经验风险在训练过程中呈负面。为了防止过度拟合,我们进一步提出了一个部分风险正规化,该风险正规化在某些级别上保持了未标记的数据集和类方面的部分风险。实验表明,我们的方法有效地减轻了过度拟合和优于从多个未标记集中学习的最先进方法。
translated by 谷歌翻译
积极的未标记(PU)学习旨在仅从积极和未标记的培训数据中学习二进制分类器。最近的方法通过发展无偏的损失功能通过对成本敏感的学习解决了这一问题,后来通过迭代伪标记解决方案改善了其性能。但是,这样的两步程序容易受到错误估计的伪标签的影响,因为在以后的错误预测训练新模型时,在以后的迭代中传播了错误。为了防止这种确认偏见,我们提出PUUPL是PU学习的新型损失不足的训练程序,该程序将认知不确定性纳入伪标签选择中。通过使用基于低确定性预测的神经网络的合奏并分配伪标记,我们表明PUUPL提高了伪标签的可靠性,提高了我们方法的预测性能,并导致了新的最先进的结果在自我训练中进行PU学习。通过广泛的实验,我们显示了方法对不同数据集,模式和学习任务的有效性,以及改进的校准,对先前拼写错误的稳健性,偏见的正数据和不平衡数据集。
translated by 谷歌翻译
从积极和未标记的(PU)数据中学习是一种设置,学习者只能访问正面和未标记的样本,而没有关于负面示例的信息。这种PU环境在各种任务中非常重要,例如医学诊断,社交网络分析,金融市场分析和知识基础完成,这些任务也往往本质上是不平衡的,即大多数示例实际上是负面的。但是,大多数现有的PU学习方法仅考虑人工平衡的数据集,目前尚不清楚它们在不平衡和长尾数据分布的现实情况下的表现如何。本文提议通过强大而有效的自我监督预处理来应对这一挑战。但是,培训传统的自我监督学习方法使用高度不平衡的PU分布需要更好的重新重新制定。在本文中,我们提出\ textit {Impulses},这是\ usewanced {im}平衡\下划线{p} osive \ unesive \ usepline {u} nlabeLed \ underline {l}的统一表示的学习框架{p}。 \下划线{s}削弱了debiase预训练。 Impulses使用大规模无监督学习的通用组合以及对比度损失和额外重新持续的PU损失的一般组合。我们在多个数据集上进行了不同的实验,以表明Impuls能够使先前最新的错误率减半,即使与先前给出的真实先验的方法相比。此外,即使在无关的数据集上进行了预处理,我们的方法也表现出对事先错误指定和卓越性能的鲁棒性。我们预计,这种稳健性和效率将使从业者更容易在其他感兴趣的PU数据集上获得出色的结果。源代码可在\ url {https://github.com/jschweisthal/impulses}中获得
translated by 谷歌翻译
Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning -- a setting where not all the data samples are labeled. An underlying issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled ones. We leverage the power of nearest-neighbor classifiers to non-linearly partition the feature space and learn a strong representation for the current task, as well as distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a strong state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations).
translated by 谷歌翻译
在这项工作中,我们建议相互分布对准(RDA)解决半监督学习(SSL),该学习是一个无主参数框架,与置信阈值无关,并与匹配的(常规)和不匹配的类别分布一起工作。分布不匹配是一个经常被忽略但更通用的SSL场景,在该场景中,标记和未标记的数据不属于相同的类别分布。这可能导致该模型不利用标记的数据可靠,并大大降低SSL方法的性能,而传统的分布对齐无法挽救。在RDA中,我们对来自两个分类器的预测分布进行了相互对准,这些分类器预测了未标记的数据上的伪标签和互补标签。携带补充信息的这两个分布可用于相互正规化,而无需任何课堂分布。此外,我们从理论上显示RDA最大化输入输出互信息。我们的方法在各种不匹配的分布以及常规匹配的SSL设置的情况下,在SSL中实现了有希望的性能。我们的代码可在以下网址提供:https://github.com/njuyued/rda4robustssl。
translated by 谷歌翻译
Semi-supervised learning (SSL) provides an effective means of leveraging unlabeled data to improve a model's performance. This domain has seen fast progress recently, at the cost of requiring more complex methods. In this paper we propose FixMatch, an algorithm that is a significant simplification of existing SSL methods. FixMatch first generates pseudo-labels using the model's predictions on weaklyaugmented unlabeled images. For a given image, the pseudo-label is only retained if the model produces a high-confidence prediction. The model is then trained to predict the pseudo-label when fed a strongly-augmented version of the same image. Despite its simplicity, we show that FixMatch achieves state-of-the-art performance across a variety of standard semi-supervised learning benchmarks, including 94.93% accuracy on CIFAR-10 with 250 labels and 88.61% accuracy with 40 -just 4 labels per class. We carry out an extensive ablation study to tease apart the experimental factors that are most important to FixMatch's success. The code is available at https://github.com/google-research/fixmatch.
translated by 谷歌翻译
Semi-supervised learning has proven to be a powerful paradigm for leveraging unlabeled data to mitigate the reliance on large labeled datasets. In this work, we unify the current dominant approaches for semi-supervised learning to produce a new algorithm, MixMatch, that guesses low-entropy labels for data-augmented unlabeled examples and mixes labeled and unlabeled data using MixUp. MixMatch obtains state-of-the-art results by a large margin across many datasets and labeled data amounts. For example, on CIFAR-10 with 250 labels, we reduce error rate by a factor of 4 (from 38% to 11%) and by a factor of 2 on STL-10. We also demonstrate how MixMatch can help achieve a dramatically better accuracy-privacy trade-off for differential privacy. Finally, we perform an ablation study to tease apart which components of MixMatch are most important for its success. We release all code used in our experiments. 1
translated by 谷歌翻译
部分标签学习(PLL)是一个典型的弱监督学习框架,每个培训实例都与候选标签集相关联,其中只有一个标签是有效的。为了解决PLL问题,通常方法试图通过使用先验知识(例如培训数据的结构信息)或以自训练方式提炼模型输出来对候选人集进行歧义。不幸的是,由于在模型训练的早期阶段缺乏先前的信息或不可靠的预测,这些方法通常无法获得有利的性能。在本文中,我们提出了一个新的针对部分标签学习的框架,该框架具有元客观指导性的歧义(MOGD),该框架旨在通过在小验证集中求解元目标来从设置的候选标签中恢复地面真相标签。具体而言,为了减轻假阳性标签的负面影响,我们根据验证集的元损失重新权重。然后,分类器通过最大程度地减少加权交叉熵损失来训练。通过使用普通SGD优化器的各种深网络可以轻松实现所提出的方法。从理论上讲,我们证明了元目标的收敛属性,并得出了所提出方法的估计误差界限。在各种基准数据集和实际PLL数据集上进行的广泛实验表明,与最先进的方法相比,所提出的方法可以实现合理的性能。
translated by 谷歌翻译
为了减轻二进制分类中培训有效二进制分类器的数据要求,已经提出了许多弱监督的学习设置。其中,当由于隐私,机密性或安全原因无法访问时,使用成对但不是尖标签的一些考虑。然而,作为一对标签表示两个数据点是否共享尖点标签,如果任一点同样可能是正的或负数,则不能容易地收集。因此,在本文中,我们提出了一种名为成对比较(PCOMP)分类的新颖设置,在那里我们只有一对未标记的数据,我们知道一个人比另一个更有可能是积极的。首先,我们提供了PCOMP数据生成过程,通过理论上保证导出了无偏的风险估计器(URE),并进一步提高了URE使用校正功能。其次,我们将PCOMP分类链接到嘈杂的标签学习,通过强加一致性正规化来开发渐进式,并改善它。最后,我们通过实验证明了我们的方法的有效性,这表明PCOMP是一种有价值的,实际上有用的成对监督类型,除了一对标签。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译
我们提出了一个新颖的半监督学习框架,该框架巧妙地利用了模型的预测,从两个强烈的图像观点中的预测之间的一致性正则化,并由伪标签的信心加权,称为conmatch。虽然最新的半监督学习方法使用图像的弱和强烈的观点来定义方向的一致性损失,但如何为两个强大的观点之间的一致性定义定义这种方向仍然没有探索。为了解决这个问题,我们通过弱小的观点作为非参数和参数方法中的锚点来提出从强大的观点中对伪标签的新颖置信度度量。特别是,在参数方法中,我们首次介绍了伪标签在网络中的信心,该网络的信心是以端到端方式通过骨干模型学习的。此外,我们还提出了阶段训练,以提高培训的融合。当纳入现有的半监督学习者中时,并始终提高表现。我们进行实验,以证明我们对最新方法的有效性并提供广泛的消融研究。代码已在https://github.com/jiwoncocoder/conmatch上公开提供。
translated by 谷歌翻译
半监督域适应(SSDA)是一种具有挑战性的问题,需要克服1)以朝向域的较差的数据和2)分布换档的方法。不幸的是,由于培训数据偏差朝标标样本训练,域适应(DA)和半监督学习(SSL)方法的简单组合通常无法解决这两个目的。在本文中,我们介绍了一种自适应结构学习方法,以规范SSL和DA的合作。灵感来自多视图学习,我们建议的框架由共享特征编码器网络和两个分类器网络组成,用于涉及矛盾的目的。其中,其中一个分类器被应用于组目标特征以提高级别的密度,扩大了鲁棒代表学习的分类集群的间隙。同时,其他分类器作为符号器,试图散射源功能以增强决策边界的平滑度。目标聚类和源扩展的迭代使目标特征成为相应源点的扩张边界内的封闭良好。对于跨域特征对齐和部分标记的数据学习的联合地址,我们应用最大平均差异(MMD)距离最小化和自培训(ST)将矛盾结构投影成共享视图以进行可靠的最终决定。对标准SSDA基准的实验结果包括Domainnet和Office-Home,展示了我们对最先进的方法的方法的准确性和稳健性。
translated by 谷歌翻译
现实世界数据普遍面对严重的类别 - 不平衡问题,并且展示了长尾分布,即,大多数标签与有限的情况有关。由此类数据集监督的NA \“IVE模型更愿意占主导地位标签,遇到严重的普遍化挑战并变得不佳。我们从先前的角度提出了两种新的方法,以减轻这种困境。首先,我们推导了一个以平衡为导向的数据增强命名均匀的混合物(Unimix)促进长尾情景中的混合,采用先进的混合因子和采样器,支持少数民族。第二,受贝叶斯理论的动机,我们弄清了贝叶斯偏见(北美),是由此引起的固有偏见先前的不一致,并将其补偿为对标准交叉熵损失的修改。我们进一步证明了所提出的方法理论上和经验地确保分类校准。广泛的实验验证我们的策略是否有助于更好校准的模型,以及他们的策略组合在CIFAR-LT,ImageNet-LT和Inattations 2018上实现最先进的性能。
translated by 谷歌翻译