部分标签学习是一种弱监督的学习,不精确的标签,在这里,每个训练示例,我们都有一组候选标签而不是一个真正的标签。最近,在候选标签集的不同一代模型下提出了部分标签学习的各种方法。然而,这些方法需要在生成模型上具有相对强烈的分布假设。当假设不保持时,理论上不保证该方法的性能。在本文中,我们提出了部分标签对适用权的概念。我们表明,这种适当的部分标签学习框架包括许多以前的部分标签学习设置作为特殊情况。然后,我们派生了统一的分类风险估计。我们证明我们的估算器是通过获取其估计误差绑定的风险态度。最后,我们通过实验验证了算法的有效性。
translated by 谷歌翻译
为了减轻二进制分类中培训有效二进制分类器的数据要求,已经提出了许多弱监督的学习设置。其中,当由于隐私,机密性或安全原因无法访问时,使用成对但不是尖标签的一些考虑。然而,作为一对标签表示两个数据点是否共享尖点标签,如果任一点同样可能是正的或负数,则不能容易地收集。因此,在本文中,我们提出了一种名为成对比较(PCOMP)分类的新颖设置,在那里我们只有一对未标记的数据,我们知道一个人比另一个更有可能是积极的。首先,我们提供了PCOMP数据生成过程,通过理论上保证导出了无偏的风险估计器(URE),并进一步提高了URE使用校正功能。其次,我们将PCOMP分类链接到嘈杂的标签学习,通过强加一致性正规化来开发渐进式,并改善它。最后,我们通过实验证明了我们的方法的有效性,这表明PCOMP是一种有价值的,实际上有用的成对监督类型,除了一对标签。
translated by 谷歌翻译
互补标签(CL)只是指示一个示例的不正确类,但是使用CLS学习会导致多类分类器可以预测正确的类。不幸的是,问题设置仅允许每个示例一个CL,这特别限制了其潜力,因为我们的标签可能会轻松地将多个CLS(MCL)识别为一个示例。在本文中,我们提出了一个新颖的问题设置,以允许每个示例的MCL和使用MCL学习的两种方法。首先,我们设计了两个将MCL分解为许多单个CLS的包装器,以便我们可以使用CLS学习任何方法。但是,分解后MCL持有的监督信息在概念上稀释。因此,在第二个方面,我们得出了公正的风险估计器。最小化IT处理每组MCL的整体组合,并具有估计误差的结合。我们进一步改善了第二种方法,以最大程度地减少正确选择的上限。实验表明,以前的方式可以很好地与MCL学习,但后者甚至更好。
translated by 谷歌翻译
近年来,有监督的深度学习取得了巨大的成功,从大量完全标记的数据中,对预测模型进行了培训。但是,实际上,标记这样的大数据可能非常昂贵,甚至出于隐私原因甚至可能是不可能的。因此,在本文中,我们旨在学习一个无需任何类标签的准确分类器。更具体地说,我们考虑了多组未标记的数据及其类先验的情况,即每个类别的比例。在此问题设置下,我们首先得出了对分类风险的无偏估计量,可以从给定未标记的集合中估算,并理论上分析了学习分类器的概括误差。然后,我们发现获得的分类器往往会导致过度拟合,因为其经验风险在训练过程中呈负面。为了防止过度拟合,我们进一步提出了一个部分风险正规化,该风险正规化在某些级别上保持了未标记的数据集和类方面的部分风险。实验表明,我们的方法有效地减轻了过度拟合和优于从多个未标记集中学习的最先进方法。
translated by 谷歌翻译
部分标签学习(PLL)是一个典型的弱监督学习框架,每个培训实例都与候选标签集相关联,其中只有一个标签是有效的。为了解决PLL问题,通常方法试图通过使用先验知识(例如培训数据的结构信息)或以自训练方式提炼模型输出来对候选人集进行歧义。不幸的是,由于在模型训练的早期阶段缺乏先前的信息或不可靠的预测,这些方法通常无法获得有利的性能。在本文中,我们提出了一个新的针对部分标签学习的框架,该框架具有元客观指导性的歧义(MOGD),该框架旨在通过在小验证集中求解元目标来从设置的候选标签中恢复地面真相标签。具体而言,为了减轻假阳性标签的负面影响,我们根据验证集的元损失重新权重。然后,分类器通过最大程度地减少加权交叉熵损失来训练。通过使用普通SGD优化器的各种深网络可以轻松实现所提出的方法。从理论上讲,我们证明了元目标的收敛属性,并得出了所提出方法的估计误差界限。在各种基准数据集和实际PLL数据集上进行的广泛实验表明,与最先进的方法相比,所提出的方法可以实现合理的性能。
translated by 谷歌翻译
互补标签学习(CLL)是弱监督的情况下的常见应用。但是,在实际数据集中,CLL遇到了平衡的培训样本,其中一个类的样品的数量明显低于其他类别的样本。不幸的是,现有的CLL方法尚未探索类饮食样本的问题,从而降低了预测准确性,尤其是在不平衡的类中。在本文中,我们提出了一个新颖的问题设置,以允许从类不平衡的互补标签样品中学习以进行多类分类。因此,为了解决这个新的问题,我们提出了一种新的CLL方法,称为加权互补标签学习(WCLL)。提出的方法通过利用类不平衡互补标记的信息来模拟加权的经验风险损失,这也适用于多类不平衡训练样本。此外,提出的方法的估计误差结合是提供理论保证的。最后,我们对广泛使用的基准数据集进行了广泛的实验,以通过将其与现有最新方法进行比较来验证我们的方法的优势。
translated by 谷歌翻译
从积极和未标记的(PU)数据中学习是各种应用中的重要问题。最近PU分类的大多数方法假设训练未标记的数据集中的课程(正样本的比率)与测试数据的类别相同,这在许多实际情况下不存在。此外,我们通常不知道培训和测试数据的类别,因此我们没有关于如何在没有它们的情况下训练分类器的线索。为了解决这些问题,我们提出了一种基于密度比估计的新型PU分类方法。我们所提出的方法的显着优势在于它不需要训练阶段中的类前沿;先前的换档仅在测试阶段结合。理论上,理论地证明我们提出的方法和实验证明其有效性。
translated by 谷歌翻译
监督学习的关键假设是培训和测试数据遵循相同的概率分布。然而,这种基本假设在实践中并不总是满足,例如,由于不断变化的环境,样本选择偏差,隐私问题或高标签成本。转移学习(TL)放松这种假设,并允许我们在分销班次下学习。通常依赖于重要性加权的经典TL方法 - 基于根据重要性(即测试过度训练密度比率)的训练损失培训预测器。然而,由于现实世界机器学习任务变得越来越复杂,高维和动态,探讨了新的新方法,以应对这些挑战最近。在本文中,在介绍基于重要性加权的TL基础之后,我们根据关节和动态重要预测估计审查最近的进步。此外,我们介绍一种因果机制转移方法,该方法包含T1中的因果结构。最后,我们讨论了TL研究的未来观点。
translated by 谷歌翻译
In this paper, we study a classification problem in which sample labels are randomly corrupted. In this scenario, there is an unobservable sample with noise-free labels. However, before being observed, the true labels are independently flipped with a probability ρ ∈ [0, 0.5), and the random label noise can be class-conditional. Here, we address two fundamental problems raised by this scenario. The first is how to best use the abundant surrogate loss functions designed for the traditional classification problem when there is label noise. We prove that any surrogate loss function can be used for classification with noisy labels by using importance reweighting, with consistency assurance that the label noise does not ultimately hinder the search for the optimal classifier of the noise-free sample. The other is the open problem of how to obtain the noise rate ρ. We show that the rate is upper bounded by the conditional probability P ( Ŷ |X) of the noisy sample. Consequently, the rate can be estimated, because the upper bound can be easily reached in classification problems. Experimental results on synthetic and real datasets confirm the efficiency of our methods.
translated by 谷歌翻译
我们考虑训练在延迟反馈(\ emph {df Learning})下培训二进制分类器。例如,在在线广告中的转换预测中,我们最初收到单击广告但没有购买商品的负样本;随后,其中一些样本购买了一个物品,然后更改为正面。在DF学习的环境中,我们会随着时间的推移观察样本,然后在某个时候学习分类器。我们最初收到负样本;随后,其中一些样本变为正变为正。在各种现实世界中,例如在线广告,在首次单击后很长时间进行用户操作,可以想象此问题。由于反馈的延迟,正对正和负样品的天真分类返回偏置分类器。一种解决方案是使用已正确标记这些样品的样品超过一定时间窗口的样品。但是,现有研究报告说,仅根据时间窗口假设使用所有样本的子集的性能不佳,并且使用所有样本以及时间窗口假设可以提高经验性能。我们扩展了这些现有研究,并提出了一种具有无偏见和凸经验风险的方法,该方法是根据时间窗口假设在所有样本中构建的。为了证明所提出的方法的合理性,我们为在线广告中的真实流量日志数据集提供了合成和开放数据集的实验结果。
translated by 谷歌翻译
在统计学习中,到目前为止已经提出了许多问题公式,例如多级学习,互补的学习,多标签学习,多任务学习,这些学习为各种现实世界任务提供了理论模型。尽管它们已经进行了广泛的研究,但它们之间的关系尚未得到充分研究。在这项工作中,我们专注于一种称为多构想学习(MIL)的特定问题,并证明包括上述所有问题(以及一些新问题)的各种学习问题可以通过理论上保证的概括范围,在其中将一些新问题降低到MIL减少是根据我们作为副产品提供的新还原方案确定的。结果表明,MIL-REDUCTION为设计和分析各种学习问题的算法提供了一个简化而统一的框架。此外,我们证明了还可以将MIL-REDUCTION框架进行内核。
translated by 谷歌翻译
积极的未标记(PU)学习旨在仅从积极和未标记的数据中学习二进制分类器,这在许多现实世界中都被使用。但是,现有的PU学习算法无法在开放且不断变化的情况下应对现实世界中的挑战,在这种情况下,未观察到的增强类的示例可能会在测试阶段出现。在本文中,我们通过利用来自增强类分布的未标记数据来提出一个通过增强类(PUAC)进行PU学习的无偏风险估计器,在许多现实世界中,可以轻松收集这些数据。此外,我们得出了针对拟议估计器的估计误差,该估计量为其融合到最佳解决方案提供了理论保证。多个现实数据集的实验证明了拟议方法的有效性。
translated by 谷歌翻译
部分标签学习是一种弱监督的学习,每个培训实例都对应于一组候选标签,其中只有一个是正确的。在本文中,我们介绍了一种针对此问题的新型概率方法,与现有方法相比,该方法至少具有三个优势:它简化了训练过程,改善了性能并可以应用于任何深层体系结构。对人工和现实世界数据集进行的实验表明,诺言的表现优于现有方法。
translated by 谷歌翻译
补充标签学习(CLL)是一个弱监督的学习问题,旨在仅从互补标签中学习多级分类器,该标签表明一个实例不属于的类。现有方法主要采用简化范式对普通分类的范式,该分类应用了特定的转换和替代损失,以将CLL连接回普通分类。然而,这些方法面临着几个局限性,例如过度合适或挂在深层模型上的趋势。在本文中,我们以一种新颖的视角避开了这些局限性 - 将互补类别的概率估计减少到概率上。我们证明,互补标签的准确概率估计通过一个简单的解码步骤导致良好的分类器。该证明建立了从CLL到概率估计值的还原框架。该框架提供了几种关键CLL方法作为特殊情况的解释,并使我们能够设计一种在嘈杂环境中更强大的改进算法。该框架还提出了基于概率估计质量的验证过程,从而导致了仅使用互补标签验证模型的另一种方法。灵活的框架为使用深层和非深度模型以估算解决CLL问题时开辟了广泛的未开发机会。经验实验进一步验证了该框架在各种环境中的功效和鲁棒性。
translated by 谷歌翻译
当我们配对输入$ x $和输出$ y $的培训数据时,普通监督学习很有用。但是,这种配对数据在实践中可能很难收集。在本文中,我们考虑了当我们没有配对数据时预测$ y $的任务,但是我们有两个单独的独立数据集,分别为$ x $,每个$ $ $ y $ y $ y $ y $ y $ y $ u $ u $ u $ $,也就是说,我们有两个数据集$ s_x = \ {(x_i,u_i)\} $和$ s_y = \ {(u'_j,y'_jj)\} $。一种天真的方法是使用$ s_x $从$ x $中预测$ u $,然后使用$ s_y $从$ u $ $ y $预测$ y $,但我们表明这在统计上不一致。此外,预测$ u $比预测$ y $在实践中更困难,例如$ u $具有更高的维度。为了避免难度,我们提出了一种避免预测$ u $的新方法,但直接通过培训$ f(x)$ $ s_ {x} $来预测$ y = f(x)$,以预测$ h(u)$经过$ s_ {y} $的培训,以近似$ y $。我们证明了我们方法的统计一致性和误差范围,并通过实验确认其实际实用性。
translated by 谷歌翻译
In this paper, we theoretically study the problem of binary classification in the presence of random classification noise -the learner, instead of seeing the true labels, sees labels that have independently been flipped with some small probability. Moreover, random label noise is class-conditional -the flip probability depends on the class. We provide two approaches to suitably modify any given surrogate loss function. First, we provide a simple unbiased estimator of any loss, and obtain performance bounds for empirical risk minimization in the presence of iid data with noisy labels. If the loss function satisfies a simple symmetry condition, we show that the method leads to an efficient algorithm for empirical minimization. Second, by leveraging a reduction of risk minimization under noisy labels to classification with weighted 0-1 loss, we suggest the use of a simple weighted surrogate loss, for which we are able to obtain strong empirical risk bounds. This approach has a very remarkable consequence -methods used in practice such as biased SVM and weighted logistic regression are provably noise-tolerant. On a synthetic non-separable dataset, our methods achieve over 88% accuracy even when 40% of the labels are corrupted, and are competitive with respect to recently proposed methods for dealing with label noise in several benchmark datasets.
translated by 谷歌翻译
标签平滑(LS)是一种出现的学习范式,它使用硬训练标签和均匀分布的软标签的正加权平均值。结果表明,LS是带有硬标签的训练数据的常规器,因此改善了模型的概括。后来,据报道,LS甚至有助于用嘈杂的标签学习时改善鲁棒性。但是,我们观察到,当我们以高标签噪声状态运行时,LS的优势就会消失。从直觉上讲,这是由于$ \ mathbb {p}的熵增加(\ text {noisy label} | x)$当噪声速率很高时,在这种情况下,进一步应用LS会倾向于“超平滑”估计后部。我们开始发现,文献中的几种学习与噪声标签的解决方案相反,与负面/不标签平滑(NLS)更紧密地关联,它们与LS相反,并将其定义为使用负重量来结合硬和软标签呢我们在使用嘈杂标签学习时对LS和NLS的性质提供理解。在其他已建立的属性中,我们从理论上表明,当标签噪声速率高时,NLS被认为更有益。我们在多个基准测试中提供了广泛的实验结果,以支持我们的发现。代码可在https://github.com/ucsc-real/negative-label-smooth上公开获取。
translated by 谷歌翻译
最近关于使用嘈杂标签的学习的研究通过利用小型干净数据集来显示出色的性能。特别是,基于模型不可知的元学习的标签校正方法进一步提高了性能,通过纠正了嘈杂的标签。但是,标签错误矫予没有保障措施,导致不可避免的性能下降。此外,每个训练步骤都需要至少三个背部传播,显着减慢训练速度。为了缓解这些问题,我们提出了一种强大而有效的方法,可以在飞行中学习标签转换矩阵。采用转换矩阵使分类器对所有校正样本持怀疑态度,这减轻了错误的错误问题。我们还介绍了一个双头架构,以便在单个反向传播中有效地估计标签转换矩阵,使得估计的矩阵紧密地遵循由标签校正引起的移位噪声分布。广泛的实验表明,我们的方法在训练效率方面表现出比现有方法相当或更好的准确性。
translated by 谷歌翻译
成对学习正在接受越来越多的关注,因为它涵盖了许多重要的机器学习任务,例如度量学习,AUC最大化和排名。研究成对学习的泛化行为是重要的。然而,现有的泛化分析主要侧重于凸面的目标函数,使非挖掘学习远远较少。此外,导出用于成对学习的泛化性能的当前学习速率主要是较慢的顺序。通过这些问题的动机,我们研究了非透露成对学习的泛化性能,并提供了改进的学习率。具体而言,我们基于其分析经验风险最小化器,梯度下降和随机梯度下降成对比对学习的不同假设,在不同假设下产生不同均匀的梯度梯度收敛。我们首先在一般的非核心环境中成功地为这些算法建立了学习率,在普通非核心环境中,分析揭示了优化和泛化之间的权衡的见解以及早期停止的作用。然后,我们调查非凸起学习的概括性表现,具有梯度优势曲率状态。在此设置中,我们推出了更快的订单$ \ mathcal {o}(1 / n)$的学习速率,其中$ n $是样本大小。如果最佳人口风险很小,我们进一步将学习率提高到$ \ mathcal {o}(1 / n ^ 2)$,这是我们的知识,是第一个$ \ mathcal {o}( 1 / n ^ 2)$ - 成对学习的速率类型,无论是凸面还是非渗透学习。总的来说,我们系统地分析了非凸显成对学习的泛化性能。
translated by 谷歌翻译
随机梯度下降(SGDA)及其变体一直是解决最小值问题的主力。但是,与研究有差异隐私(DP)约束的经过良好研究的随机梯度下降(SGD)相反,在理解具有DP约束的SGDA的概括(实用程序)方面几乎没有工作。在本文中,我们使用算法稳定性方法在不同的设置中建立DP-SGDA的概括(实用程序)。特别是,对于凸 - 凸环设置,我们证明DP-SGDA可以在平滑和非平滑案例中都可以根据弱原始二元人群风险获得最佳的效用率。据我们所知,这是在非平滑案例中DP-SGDA的第一个已知结果。我们进一步在非convex-rong-concave环境中提供了实用性分析,这是原始人口风险的首个已知结果。即使在非私有设置中,此非convex设置的收敛和概括结果也是新的。最后,进行了数值实验,以证明DP-SGDA在凸和非凸病例中的有效性。
translated by 谷歌翻译