在本文中,我们回答了插入标签噪声(较少的信息标签)时的问题,而是返回更准确和公平的模型。我们主要通过三次观察启发:1)与降低标签噪声速率相比,增加噪声速率易于实现; 2)增加某类实例的标签噪声以平衡噪声速率(增加到平衡)导致更容易的学习问题; 3)增加对平衡改善了对标签偏差的公平保障。在本文中,我们首先通过增加一组实例的标签噪声率W.r.t.来量化推出的权衡。损失标签信息和降低的学习困难。我们在改善泛化能量或公平保证方面,我们分析了这样的增加是有益的。然后,我们介绍一种方法来正确插入标签噪声,以便与嘈杂的标签学习学习的任务,无论是没有还是公平约束。我们面临的主要技术挑战是由于我们不知道哪些数据实例遭受更高的噪音,而且我们不会有地面真理标签来验证任何可能的假设。我们提出了一种检测方法,可以向我们通知我们,在不使用地面真理标签的情况下,哪一组标签可能会遭受更高的噪音。我们正式建立了提出的解决方案的有效性,并通过广泛的实验证明了它。
translated by 谷歌翻译
噪声过渡矩阵在使用嘈杂标签的学习问题中起着核心作用。在许多其他原因中,许多现有解决方案都依赖于访问它。在没有地面真相标签的情况下识别和估算过渡矩阵是一项艰巨而挑战的任务。当标签噪声转变取决于每个实例时,识别与实例有关的噪声转变矩阵的问题变得更加具有挑战性。尽管最近的作品提出了从实例依赖性嘈杂标签中学习的解决方案,但该领域仍缺乏对何时仍然可以识别此问题的统一理解。本文的目的是表征标签噪声过渡矩阵的可识别性。在Kruskal的可识别性结果的基础上,我们能够在实例级别识别通用情况的噪声过渡矩阵时表明需要多个嘈杂标签的必要性。我们进一步实例化了结果,以解释最先进的解决方案的成功,以及如何缓解多个嘈杂标签的需求的其他假设。我们的结果还表明,分离的特征对上述标识任务有帮助,我们提供了经验证据。
translated by 谷歌翻译
文献中已经提出了各种公平限制,以减轻小组级统计偏见。它们的影响已在很大程度上评估了与一组敏感属性(例如种族或性别)相对应的不同人群。尽管如此,社区尚未观察到足够的探索,以实例限制公平的限制。基于影响功能的概念,该措施表征了训练示例对目标模型及其预测性能的影响,这项工作研究了施加公平性约束时训练示例的影响。我们发现,在某些假设下,关于公平限制的影响功能可以分解为训练示例的内核组合。提出的公平影响功能的一种有希望的应用是确定可疑的训练示例,这些训练示例可能通过对其影响得分进行排名来导致模型歧视。我们通过广泛的实验证明,对一部分重量数据示例进行培训会导致违反公平性的侵犯,而准确性的权衡。
translated by 谷歌翻译
标签平滑(LS)是一种出现的学习范式,它使用硬训练标签和均匀分布的软标签的正加权平均值。结果表明,LS是带有硬标签的训练数据的常规器,因此改善了模型的概括。后来,据报道,LS甚至有助于用嘈杂的标签学习时改善鲁棒性。但是,我们观察到,当我们以高标签噪声状态运行时,LS的优势就会消失。从直觉上讲,这是由于$ \ mathbb {p}的熵增加(\ text {noisy label} | x)$当噪声速率很高时,在这种情况下,进一步应用LS会倾向于“超平滑”估计后部。我们开始发现,文献中的几种学习与噪声标签的解决方案相反,与负面/不标签平滑(NLS)更紧密地关联,它们与LS相反,并将其定义为使用负重量来结合硬和软标签呢我们在使用嘈杂标签学习时对LS和NLS的性质提供理解。在其他已建立的属性中,我们从理论上表明,当标签噪声速率高时,NLS被认为更有益。我们在多个基准测试中提供了广泛的实验结果,以支持我们的发现。代码可在https://github.com/ucsc-real/negative-label-smooth上公开获取。
translated by 谷歌翻译
原始收集的培训数据通常带有从多个不完美的注释器中收集的单独的嘈杂标签(例如,通过众包)。通常,首先将单独的嘈杂标签汇总为一个,并应用标准培训方法。文献还广泛研究了有效的聚合方法。本文重新审视了此选择,并旨在为一个问题提供一个答案,即是否应该将单独的嘈杂标签汇总为单个单个标签或单独使用它们作为给定标签。我们从理论上分析了许多流行损失功能的经验风险最小化框架下的两种方法的性能,包括专门为使用嘈杂标签学习的问题而设计的损失功能。我们的定理得出的结论是,当噪声速率较高时,标签分离优于标签聚集,或者标记器/注释的数量不足。广泛的经验结果证明了我们的结论。
translated by 谷歌翻译
随着机器学习在高风险决策问题中的不断应用,对某些社会群体的人们的潜在算法偏见对个人和我们的整个社会造成了负面影响。在现实世界中,许多此类问题涉及积极和未标记的数据,例如医学诊断,刑事风险评估和推荐系统。例如,在医学诊断中,仅记录诊断性疾病(阳性),而其他疾病则不会(未标记)。尽管在(半)监督和无监督的环境中进行了大量的现有工作,但公平问题在上述正面和未标记的学习(PUL)上下文中基本上却大大不足。在本文中,为了减轻这种张力,我们提出了一种名为Fairpul的公平意识的PUL方法。特别是,对于来自两个人群的个人的二元分类,我们旨在在两个人群中达到相似的真实正利率和假期的误报。基于对PUL的最佳公平分类器的分析,我们设计了模型不合时宜的后处理框架,利用了积极的示例和未标记的示例。从分类错误和公平度量标准方面,我们的框架在统计上是一致的。关于合成和现实世界数据集的实验表明,我们的框架在PUL和公平分类方面的表现都优于最先进。
translated by 谷歌翻译
Training accurate deep neural networks (DNNs) in the presence of noisy labels is an important and challenging task. Though a number of approaches have been proposed for learning with noisy labels, many open issues remain. In this paper, we show that DNN learning with Cross Entropy (CE) exhibits overfitting to noisy labels on some classes ("easy" classes), but more surprisingly, it also suffers from significant under learning on some other classes ("hard" classes). Intuitively, CE requires an extra term to facilitate learning of hard classes, and more importantly, this term should be noise tolerant, so as to avoid overfitting to noisy labels. Inspired by the symmetric KL-divergence, we propose the approach of Symmetric cross entropy Learning (SL), boosting CE symmetrically with a noise robust counterpart Reverse Cross Entropy (RCE). Our proposed SL approach simultaneously addresses both the under learning and overfitting problem of CE in the presence of noisy labels. We provide a theoretical analysis of SL and also empirically show, on a range of benchmark and real-world datasets, that SL outperforms state-of-the-art methods. We also show that SL can be easily incorporated into existing methods in order to further enhance their performance.
translated by 谷歌翻译
分类,一种重大研究的数据驱动机器学习任务,驱动越来越多的预测系统,涉及批准的人类决策,如贷款批准和犯罪风险评估。然而,分类器经常展示歧视性行为,特别是当呈现有偏置数据时。因此,分类公平已经成为一个高优先级的研究区。数据管理研究显示与数据和算法公平有关的主题的增加和兴趣,包括公平分类的主题。公平分类的跨学科努力,具有最大存在的机器学习研究,导致大量的公平概念和尚未系统地评估和比较的广泛方法。在本文中,我们对13个公平分类方法和额外变种的广泛分析,超越,公平,公平,效率,可扩展性,对数据误差的鲁棒性,对潜在的ML模型,数据效率和使用各种指标的稳定性的敏感性和稳定性现实世界数据集。我们的分析突出了对不同指标的影响的新颖见解和高级方法特征对不同方面的性能方面。我们还讨论了选择适合不同实际设置的方法的一般原则,并确定以数据管理为中心的解决方案可能产生最大影响的区域。
translated by 谷歌翻译
我们考虑为多类分类任务生产公平概率分类器的问题。我们以“投射”预先培训(且可能不公平的)分类器在满足目标群体对要求的一组模型上的“投影”来提出这个问题。新的投影模型是通过通过乘法因子后处理预训练的分类器的输出来给出的。我们提供了一种可行的迭代算法,用于计算投影分类器并得出样本复杂性和收敛保证。与最先进的基准测试的全面数值比较表明,我们的方法在准确性权衡曲线方面保持了竞争性能,同时在大型数据集中达到了有利的运行时。我们还在具有多个类别,多个相互保护组和超过1M样本的开放数据集上评估了我们的方法。
translated by 谷歌翻译
尽管大规模的经验风险最小化(ERM)在各种机器学习任务中取得了高精度,但公平的ERM受到公平限制与随机优化的不兼容的阻碍。我们考虑具有离散敏感属性以及可能需要随机求解器的可能性大型模型和数据集的公平分类问题。现有的内部处理公平算法在大规模设置中要么是不切实际的,因为它们需要在每次迭代时进行大量数据,要么不保证它们会收敛。在本文中,我们开发了第一个具有保证收敛性的随机内处理公平算法。对于人口统计学,均衡的赔率和公平的机会均等的概念,我们提供了算法的略有变化,称为Fermi,并证明这些变化中的每一个都以任何批次大小收敛于随机优化。从经验上讲,我们表明Fermi适合具有多个(非二进制)敏感属性和非二进制目标的随机求解器,即使Minibatch大小也很小,也可以很好地表现。广泛的实验表明,与最先进的基准相比,FERMI实现了所有经过测试的设置之间的公平违规和测试准确性之间最有利的权衡,该基准是人口统计学奇偶校验,均衡的赔率,均等机会,均等机会。这些好处在小批量的大小和非二元分类具有大量敏感属性的情况下尤其重要,这使得费米成为大规模问题的实用公平算法。
translated by 谷歌翻译
我们在禁用的对手存在下研究公平分类,允许获得$ \ eta $,选择培训样本的任意$ \ eta $ -flaction,并任意扰乱受保护的属性。由于战略误报,恶意演员或归责的错误,受保护属性可能不正确的设定。和现有的方法,使随机或独立假设对错误可能不满足其在这种对抗环境中的保证。我们的主要贡献是在这种对抗的环境中学习公平分类器的优化框架,这些普遍存在的准确性和公平性提供了可证明的保证。我们的框架适用于多个和非二进制保护属性,专为大类线性分数公平度量设计,并且还可以处理除了受保护的属性之外的扰动。我们证明了我们框架的近密性,对自然假设类别的保证:没有算法可以具有明显更好的准确性,并且任何具有更好公平性的算法必须具有较低的准确性。凭经验,我们评估了我们对统计率的统计税务统计税率为一个对手的统计税率产生的分类机。
translated by 谷歌翻译
尽管机器学习分类器越来越多地用于高风险决策(例如癌症诊断,刑事起诉决策),但他们表现出了针对代表性不足的群体的偏见。公平性的标准定义需要访问感兴趣的敏感属性(例如性别和种族),这通常不可用。在这项工作中,我们证明了在这些敏感属性未知的情况下,人们仍然可以通过使用从敏感属性预测因子得出的代理敏感属性来可靠地估计并最终控制公平性。具体来说,我们首先表明,只有对完整数据分布的了解,就可以使用敏感属性预测因子获得分类器真实公平度量的上和下限。其次,我们证明了如何通过控制代理敏感属性的公平性来证明人们如何证明对真实敏感属性的公平性。我们的结果在比以前的作品明显温和的假设下得出。我们在一系列合成和真实数据集上说明了结果。
translated by 谷歌翻译
最近关于使用嘈杂标签的学习的研究通过利用小型干净数据集来显示出色的性能。特别是,基于模型不可知的元学习的标签校正方法进一步提高了性能,通过纠正了嘈杂的标签。但是,标签错误矫予没有保障措施,导致不可避免的性能下降。此外,每个训练步骤都需要至少三个背部传播,显着减慢训练速度。为了缓解这些问题,我们提出了一种强大而有效的方法,可以在飞行中学习标签转换矩阵。采用转换矩阵使分类器对所有校正样本持怀疑态度,这减轻了错误的错误问题。我们还介绍了一个双头架构,以便在单个反向传播中有效地估计标签转换矩阵,使得估计的矩阵紧密地遵循由标签校正引起的移位噪声分布。广泛的实验表明,我们的方法在训练效率方面表现出比现有方法相当或更好的准确性。
translated by 谷歌翻译
深度学习在大量大数据的帮助下取得了众多域中的显着成功。然而,由于许多真实情景中缺乏高质量标签,数据标签的质量是一个问题。由于嘈杂的标签严重降低了深度神经网络的泛化表现,从嘈杂的标签(强大的培训)学习是在现代深度学习应用中成为一项重要任务。在本调查中,我们首先从监督的学习角度描述了与标签噪声学习的问题。接下来,我们提供62项最先进的培训方法的全面审查,所有这些培训方法都按照其方法论差异分为五个群体,其次是用于评估其优越性的六种性质的系统比较。随后,我们对噪声速率估计进行深入分析,并总结了通常使用的评估方法,包括公共噪声数据集和评估度量。最后,我们提出了几个有前途的研究方向,可以作为未来研究的指导。所有内容将在https://github.com/songhwanjun/awesome-noisy-labels提供。
translated by 谷歌翻译
随着机器学习变得普遍,减轻培训数据中存在的任何不公平性变得至关重要。在公平的各种概念中,本文的重点是众所周知的个人公平,该公平规定应该对类似的人进行类似的对待。虽然在训练模型(对处理)时可以提高个人公平性,但我们认为在模型培训(预处理)之前修复数据是一个更基本的解决方案。特别是,我们表明标签翻转是改善个人公平性的有效预处理技术。我们的系统IFLIPPER解决了限制了个人公平性违规行为的最小翻转标签的优化问题,当培训数据中的两个类似示例具有不同的标签时,发生违规情况。我们首先证明问题是NP-HARD。然后,我们提出了一种近似的线性编程算法,并提供理论保证其结果与标签翻转数量有关的结果与最佳解决方案有多近。我们还提出了使线性编程解决方案更加最佳的技术,而不会超过违规限制。实际数据集上的实验表明,在看不见的测试集的个人公平和准确性方面,IFLIPPER显着优于其他预处理基线。此外,IFLIPPER可以与处理中的技术结合使用,以获得更好的结果。
translated by 谷歌翻译
数据标签噪声在监督学习应用中长期以来一直是一个重要的问题,因为它影响了许多广泛使用的分类方法的有效性。最近,重要的现实世界应用,如医学诊断和网络安全,已经产生了在Neyman-Pearson(NP)分类范式的重新兴趣,这在优选级别下限制了更严重的错误类型(例如,I错误)虽然最小化另一个(例如,II型错误)。但是,在标签噪声下对NP范例几乎没有研究。它有点令人惊讶的是,即使普通的NP分类器忽略训练阶段中的标签噪声,它们仍然能够控制I型错误,具有高概率。但是,他们支付的价格是I误差类型的过度保守性,因此电源的显着下降(即,1美元,II型错误)。假设领域专家在腐败严重程度上提供下限,我们提出了第一个理论支持算法,它适应NP范例下的训练标签噪声。由此产生的分类器不仅在所需水平下以高概率控制I误差,而且还提高功率。
translated by 谷歌翻译
深度神经网络(DNN)对于对培训期间的样品大大减少的课程进行更多错误是臭名昭着的。这种类别不平衡在临床应用中普遍存在,并且对处理非常重要,因为样品较少的类通常对应于临界病例(例如,癌症),其中错误分类可能具有严重后果。不要错过这种情况,通过设定更高的阈值,需要以高真正的阳性率(TPRS)运行二进制分类器,但这是类别不平衡问题的非常高的假阳性率(FPRS)的成本。在课堂失衡下的现有方法通常不会考虑到这一点。我们认为,通过在高TPRS处于阳性的错误分类时强调减少FPRS,应提高预测准确性,即赋予阳性,即批判性,类样本与更高的成本相关。为此,我们将DNN的训练训练为二进制分类作为约束优化问题,并引入一种新的约束,可以通过在高TPR处优先考虑FPR减少来强制ROC曲线(AUC)下强制实施最大面积的新约束。我们使用增强拉格朗日方法(ALM)解决了由此产生的受限优化问题。超越二进制文件,我们还提出了两个可能的延长了多级分类问题的建议约束。我们使用内部医学成像数据集,CIFAR10和CIFAR100呈现基于图像的二元和多级分类应用的实验结果。我们的结果表明,该方法通过在关键类别的准确性上获得了大多数病例的拟议方法,同时降低了非关键类别样本的错误分类率。
translated by 谷歌翻译
近年来,机器学习算法在多种高风险决策应用程序中变得无处不在。机器学习算法从数据中学习模式的无与伦比的能力也使它们能够融合嵌入的偏差。然后,一个有偏见的模型可以做出不成比例地损害社会中某些群体的决策 - 例如,他们获得金融服务的机会。对这个问题的认识引起了公平ML领域,该领域的重点是研究,衡量和缓解算法预测的不公平性,相对于一组受保护的群体(例如种族或性别)。但是,算法不公平的根本原因仍然难以捉摸,研究人员在指责ML算法或训练的数据之间进行了划分。在这项工作中,我们坚持认为,算法不公平源于数据中模型与偏见之间的相互作用,而不是源于其中任何一个的孤立贡献。为此,我们提出了一种分类法来表征数据偏差,并研究了一系列关于公平盲目的ML算法在不同数据偏见设置下表现出的公平性准确性权衡的假设。在我们的现实帐户开放欺诈用例中,我们发现每个设置都需要特定的权衡,从而影响了预期价值和差异的公平性 - 后者通常没有注意到。此外,我们展示了算法在准确性和公平性方面如何根据影响数据的偏差进行比较。最后,我们注意到,在特定的数据偏见条件下,简单的预处理干预措施可以成功平衡小组错误率,而在更复杂的设置中相同的技术失败。
translated by 谷歌翻译
We introduce a tunable loss function called $\alpha$-loss, parameterized by $\alpha \in (0,\infty]$, which interpolates between the exponential loss ($\alpha = 1/2$), the log-loss ($\alpha = 1$), and the 0-1 loss ($\alpha = \infty$), for the machine learning setting of classification. Theoretically, we illustrate a fundamental connection between $\alpha$-loss and Arimoto conditional entropy, verify the classification-calibration of $\alpha$-loss in order to demonstrate asymptotic optimality via Rademacher complexity generalization techniques, and build-upon a notion called strictly local quasi-convexity in order to quantitatively characterize the optimization landscape of $\alpha$-loss. Practically, we perform class imbalance, robustness, and classification experiments on benchmark image datasets using convolutional-neural-networks. Our main practical conclusion is that certain tasks may benefit from tuning $\alpha$-loss away from log-loss ($\alpha = 1$), and to this end we provide simple heuristics for the practitioner. In particular, navigating the $\alpha$ hyperparameter can readily provide superior model robustness to label flips ($\alpha > 1$) and sensitivity to imbalanced classes ($\alpha < 1$).
translated by 谷歌翻译
标签噪声过渡矩阵,表示从干净标签到嘈杂标签的过渡概率,对于设计统计上强大的解决方案至关重要。噪声过渡矩阵的现有估计器,例如,使用锚点或凝集性,专注于相对容易获得高质量表示的计算机视觉任务。我们观察到,由于非信息和信息性表示的共存,具有较低质量特征的任务无法满足锚点或凝聚力条件。为了解决这个问题,我们提出了一种通用和实用的信息理论方法,以减少质量较低特征的信息不足的部分。这种改进对于识别和估计标签噪声转变矩阵至关重要。显着的技术挑战是仅使用嘈杂标签而不是干净的标签来计算相关的信息理论指标。我们证明,著名的$ f $ - 潮流信息度量通常可以在使用嘈杂标签计算时保留订单。然后,我们使用此蒸馏版本的功能构建过渡矩阵估计器。通过评估具有较低质量特征的各种表格数据和文本分类任务的估计误差,还可以通过评估拟议方法的必要性和有效性。代码可在github.com/ucsc-real/beyondimages上找到。
translated by 谷歌翻译