The standard empirical risk minimization (ERM) can underperform on certain minority groups (i.e., waterbirds in lands or landbirds in water) due to the spurious correlation between the input and its label. Several studies have improved the worst-group accuracy by focusing on the high-loss samples. The hypothesis behind this is that such high-loss samples are \textit{spurious-cue-free} (SCF) samples. However, these approaches can be problematic since the high-loss samples may also be samples with noisy labels in the real-world scenarios. To resolve this issue, we utilize the predictive uncertainty of a model to improve the worst-group accuracy under noisy labels. To motivate this, we theoretically show that the high-uncertainty samples are the SCF samples in the binary classification problem. This theoretical result implies that the predictive uncertainty is an adequate indicator to identify SCF samples in a noisy label setting. Motivated from this, we propose a novel ENtropy based Debiasing (END) framework that prevents models from learning the spurious cues while being robust to the noisy labels. In the END framework, we first train the \textit{identification model} to obtain the SCF samples from a training set using its predictive uncertainty. Then, another model is trained on the dataset augmented with an oversampled SCF set. The experimental results show that our END framework outperforms other strong baselines on several real-world benchmarks that consider both the noisy labels and the spurious-cues.
translated by 谷歌翻译
尽管过度参数化的模型已经在许多机器学习任务上表现出成功,但与培训不同的测试分布的准确性可能会下降。这种准确性下降仍然限制了在野外应用机器学习的限制。同时,重要的加权是一种处理分配转移的传统技术,已被证明在经验和理论上对过度参数化模型的影响较小甚至没有影响。在本文中,我们提出了重要的回火来改善决策界限,并为过度参数化模型取得更好的结果。从理论上讲,我们证明在标签移位和虚假相关设置下,组温度的选择可能不同。同时,我们还证明正确选择的温度可以解脱出少数群体崩溃的分类不平衡。从经验上讲,我们使用重要性回火来实现最严重的小组分类任务的最新结果。
translated by 谷歌翻译
在许多现实世界中的机器学习应用中,亚种群的转移存在着极大地存在,指的是包含相同亚种群组的培训和测试分布,但在亚种群频率中有所不同。重要性重新加权是通过对训练数据集中每个样本施加恒定或自适应抽样权重来处理亚种群转移问题的正常方法。但是,最近的一些研究已经认识到,这些方法中的大多数无法改善性能,而不是经验风险最小化,尤其是当应用于过度参数化的神经网络时。在这项工作中,我们提出了一个简单而实用的框架,称为“不确定性感知混合”(UMIX),以根据样品不确定性重新加权“混合”样品来减轻过度参数化模型中的过度拟合问题。基于训练 - 注射器的不确定性估计为每个样品的拟议UMIX配备,以灵活地表征亚群分布。我们还提供有见地的理论分析,以验证UMIX是否在先前的工作中实现了更好的概括界限。此外,我们在广泛的任务上进行了广泛的经验研究,以验证我们方法的有效性,既有定性和定量。
translated by 谷歌翻译
虽然神经网络在平均病例的性能方面对分类任务的成功显着,但它们通常无法在某些数据组上表现良好。这样的组信息可能是昂贵的;因此,即使在培训数据不可用的组标签不可用,较稳健性和公平的最新作品也提出了改善最差组性能的方法。然而,这些方法通常在培训时间使用集团信息的表现不佳。在这项工作中,我们假设没有组标签的较大数据集一起访问少量组标签。我们提出了一个简单的两步框架,利用这个部分组信息来提高最差组性能:训练模型以预测训练数据的丢失组标签,然后在强大的优化目标中使用这些预测的组标签。从理论上讲,我们在最差的组性能方面为我们的方法提供泛化界限,展示了泛化误差如何相对于培训点总数和具有组标签的培训点的数量。凭经验,我们的方法优于不使用群组信息的基线表达,即使只有1-33%的积分都有组标签。我们提供消融研究,以支持我们框架的稳健性和可扩展性。
translated by 谷歌翻译
最近,对分布(OOD)数据具有相关性转移的概括引起了极大的关注。相关转移是由与类标签相关的虚假属性引起的,因为它们之间的相关性可能在训练和测试数据中有所不同。对于这样一个问题,我们表明,鉴于类标签,有条件独立的虚假属性模型是可推广的。基于此,提出了控制OOD泛化误差的度量条件伪变异(CSV),以衡量这种条件独立性。为了改善OOD的概括,我们将培训过程正常使用拟议的CSV。在温和的假设下,我们的训练目标可以作为非Convex-Concave Mini-Max问题提出。提出了具有可证明的收敛速率的算法来解决该问题。广泛的经验结果验证了我们算法在改善OOD概括方面的功效。
translated by 谷歌翻译
Empirical studies suggest that machine learning models trained with empirical risk minimization (ERM) often rely on attributes that may be spuriously correlated with the class labels. Such models typically lead to poor performance during inference for data lacking such correlations. In this work, we explicitly consider a situation where potential spurious correlations are present in the majority of training data. In contrast with existing approaches, which use the ERM model outputs to detect the samples without spurious correlations, and either heuristically upweighting or upsampling those samples; we propose the logit correction (LC) loss, a simple yet effective improvement on the softmax cross-entropy loss, to correct the sample logit. We demonstrate that minimizing the LC loss is equivalent to maximizing the group-balanced accuracy, so the proposed LC could mitigate the negative impacts of spurious correlations. Our extensive experimental results further reveal that the proposed LC loss outperforms the SoTA solutions on multiple popular benchmarks by a large margin, an average 5.5% absolute improvement, without access to spurious attribute labels. LC is also competitive with oracle methods that make use of the attribute labels. Code is available at https://github.com/shengliu66/LC.
translated by 谷歌翻译
Standard training via empirical risk minimization (ERM) can produce models that achieve high accuracy on average but low accuracy on certain groups, especially in the presence of spurious correlations between the input and label. Prior approaches that achieve high worst-group accuracy, like group distributionally robust optimization (group DRO) require expensive group annotations for each training point, whereas approaches that do not use such group annotations typically achieve unsatisfactory worst-group accuracy. In this paper, we propose a simple two-stage approach, JTT, that first trains a standard ERM model for several epochs, and then trains a second model that upweights the training examples that the first model misclassified. Intuitively, this upweights examples from groups on which standard ERM models perform poorly, leading to improved worst-group performance. Averaged over four image classification and natural language processing tasks with spurious correlations, JTT closes 75% of the gap in worst-group accuracy between standard ERM and group DRO, while only requiring group annotations on a small validation set in order to tune hyperparameters.
translated by 谷歌翻译
证据回归网络(ENET)估计连续的目标及其预测性不确定性,没有昂贵的贝叶斯模型平均。然而,由于eNET的原始损失功能的梯度收缩问题,因此可能是不准确的预测目标,负面日志边缘似然(NLL)丢失。在本文中,目的是通过解决梯度收缩问题来提高eNET的预测精度,同时保持其有效的不确定性估计。提出了一个多任务学习(MTL)框架,称为MT-ENET,以实现此目标。在MTL中,我们将LipsChitz修改的均方误差(MSE)丢失函数定义为另一个损耗并将其添加到现有的NLL损耗中。 Lipschitz修改后的MSE损失旨在通过动态调整其Lipschitz常数,减轻与NLL损耗的渐变冲突。通过这样做,Lipschitz MSE损失不会扰乱NLL损失的不确定性估计。 MT-ENET增强了eNET的预测精度,而不会在合成数据集和现实世界基准上丢失不确定性估计能力,包括药物 - 目标亲和力(DTA)回归。此外,MT-ENET在DTA基准测试中显示出显着的校准和分布外检测能力。
translated by 谷歌翻译
Learned classifiers should often possess certain invariance properties meant to encourage fairness, robustness, or out-of-distribution generalization. However, multiple recent works empirically demonstrate that common invariance-inducing regularizers are ineffective in the over-parameterized regime, in which classifiers perfectly fit (i.e. interpolate) the training data. This suggests that the phenomenon of ``benign overfitting," in which models generalize well despite interpolating, might not favorably extend to settings in which robustness or fairness are desirable. In this work we provide a theoretical justification for these observations. We prove that -- even in the simplest of settings -- any interpolating learning rule (with arbitrarily small margin) will not satisfy these invariance properties. We then propose and analyze an algorithm that -- in the same setting -- successfully learns a non-interpolating classifier that is provably invariant. We validate our theoretical observations on simulated data and the Waterbirds dataset.
translated by 谷歌翻译
最近关于使用嘈杂标签的学习的研究通过利用小型干净数据集来显示出色的性能。特别是,基于模型不可知的元学习的标签校正方法进一步提高了性能,通过纠正了嘈杂的标签。但是,标签错误矫予没有保障措施,导致不可避免的性能下降。此外,每个训练步骤都需要至少三个背部传播,显着减慢训练速度。为了缓解这些问题,我们提出了一种强大而有效的方法,可以在飞行中学习标签转换矩阵。采用转换矩阵使分类器对所有校正样本持怀疑态度,这减轻了错误的错误问题。我们还介绍了一个双头架构,以便在单个反向传播中有效地估计标签转换矩阵,使得估计的矩阵紧密地遵循由标签校正引起的移位噪声分布。广泛的实验表明,我们的方法在训练效率方面表现出比现有方法相当或更好的准确性。
translated by 谷歌翻译
学习不变表示是在数据集中虚假相关驱动的机器学习模型时的重要要求。这些杂散相关性,在输入样本和目标标签之间,错误地指导了神经网络预测,导致某些组的性能差,尤其是少数群体。针对这些虚假相关性的强大培训需要每个样本的组成员资格。这种要求在少数群体或稀有群体的数据标签努力的情况下是显着费力的,或者包括数据集的个人选择隐藏敏感信息的情况。另一方面,存在这种数据收集的存在力度导致包含部分标记的组信息的数据集。最近的作品解决了完全无监督的场景,没有用于组的标签。因此,我们的目标是通过解决更现实的设置来填补文献中的缺失差距,这可以在培训期间利用部分可用的敏感或群体信息。首先,我们构造一个约束集并导出组分配所属的高概率绑定到该集合。其次,我们提出了一种从约束集中优化了优化最严格的组分配的算法。通过对图像和表格数据集的实验,我们显示少数集团的性能的改进,同时在跨组中保持整体汇总精度。
translated by 谷歌翻译
Learning models that gracefully handle distribution shifts is central to research on domain generalization, robust optimization, and fairness. A promising formulation is domain-invariant learning, which identifies the key issue of learning which features are domain-specific versus domaininvariant. An important assumption in this area is that the training examples are partitioned into "domains" or "environments". Our focus is on the more common setting where such partitions are not provided. We propose EIIL, a general framework for domain-invariant learning that incorporates Environment Inference to directly infer partitions that are maximally informative for downstream Invariant Learning. We show that EIIL outperforms invariant learning methods on the CMNIST benchmark without using environment labels, and significantly outperforms ERM on worst-group performance in the Waterbirds and CivilComments datasets. Finally, we establish connections between EIIL and algorithmic fairness, which enables EIIL to improve accuracy and calibration in a fair prediction problem.
translated by 谷歌翻译
监督学习的关键假设是培训和测试数据遵循相同的概率分布。然而,这种基本假设在实践中并不总是满足,例如,由于不断变化的环境,样本选择偏差,隐私问题或高标签成本。转移学习(TL)放松这种假设,并允许我们在分销班次下学习。通常依赖于重要性加权的经典TL方法 - 基于根据重要性(即测试过度训练密度比率)的训练损失培训预测器。然而,由于现实世界机器学习任务变得越来越复杂,高维和动态,探讨了新的新方法,以应对这些挑战最近。在本文中,在介绍基于重要性加权的TL基础之后,我们根据关节和动态重要预测估计审查最近的进步。此外,我们介绍一种因果机制转移方法,该方法包含T1中的因果结构。最后,我们讨论了TL研究的未来观点。
translated by 谷歌翻译
在其表示中,已经发现接受过文本数据训练的神经网络模型编码不希望的语言或敏感属性。删除此类属性是不平凡的,因为属性,文本输入和学习的表示之间存在复杂的关系。最近的工作提出了事后和对抗方法,以从模型的表示中删除此类不需要的属性。通过广泛的理论和经验分析,我们表明这些方法可以适得其反:它们无法完全删除属性,在最坏的情况下,最终可能会破坏所有与任务相关的功能。原因是方法对探测分类器的依赖作为属性的代理。即使在最有利的条件下,当属性在表示空间中的特征可以提供100%的学习探测分类器时,我们证明事后或对抗方法将无法正确删除属性。这些理论含义通过经验实验在合成,多NLI和Twitter数据集的模型上证实。对于敏感的属性去除(例如公平性),我们建议您谨慎使用这些方法,并提出伪造度量,以评估最终分类器的质量。
translated by 谷歌翻译
Overparameterized neural networks can be highly accurate on average on an i.i.d.test set yet consistently fail on atypical groups of the data (e.g., by learning spurious correlations that hold on average but not in such groups). Distributionally robust optimization (DRO) allows us to learn models that instead minimize the worst-case training loss over a set of pre-defined groups. However, we find that naively applying group DRO to overparameterized neural networks fails: these models can perfectly fit the training data, and any model with vanishing average training loss also already has vanishing worst-case training loss. Instead, the poor worst-case performance arises from poor generalization on some groups. By coupling group DRO models with increased regularization-a stronger-than-typical 2 penalty or early stopping-we achieve substantially higher worst-group accuracies, with 10-40 percentage point improvements on a natural language inference task and two image tasks, while maintaining high average accuracies. Our results suggest that regularization is important for worst-group generalization in the overparameterized regime, even if it is not needed for average generalization. Finally, we introduce a stochastic optimization algorithm, with convergence guarantees, to efficiently train group DRO models.
translated by 谷歌翻译
数据增强是机器学习管道的基石,但其理论基础尚不清楚。它只是人为增加数据集大小的一种方法吗?还是鼓励模型满足某些不变性?在这项工作中,我们考虑了另一个角度,我们研究了数据增强对学习过程动态的影响。我们发现,数据增强可以改变各种功能的相对重要性,从而有效地使某些信息性但难以学习的功能更有可能在学习过程中捕获。重要的是,我们表明,对于非线性模型,例如神经网络,这种效果更为明显。我们的主要贡献是对Allen-Zhu和Li [2020]最近提出的多视图数据模型中两层卷积神经网络的学习动态数据的详细分析。我们通过进一步的实验证据来补充这一分析,证明数据增加可以看作是特征操纵。
translated by 谷歌翻译
标签 - 不平衡和组敏感分类中的目标是优化相关的指标,例如平衡错误和相同的机会。经典方法,例如加权交叉熵,在训练深网络到训练(TPT)的终端阶段时,这是超越零训练误差的训练。这种观察发生了最近在促进少数群体更大边值的直观机制之后开发启发式替代品的动力。与之前的启发式相比,我们遵循原则性分析,说明不同的损失调整如何影响边距。首先,我们证明,对于在TPT中训练的所有线性分类器,有必要引入乘法,而不是添加性的Logit调整,以便对杂项边缘进行适当的变化。为了表明这一点,我们发现将乘法CE修改的连接到成本敏感的支持向量机。也许是违反,我们还发现,在培训开始时,相同的乘法权重实际上可以损害少数群体。因此,虽然在TPT中,添加剂调整无效,但我们表明它们可以通过对乘法重量的初始负效应进行抗衡来加速会聚。通过这些发现的动机,我们制定了矢量缩放(VS)丢失,即捕获现有技术作为特殊情况。此外,我们引入了对群体敏感分类的VS损失的自然延伸,从而以统一的方式处理两种常见类型的不平衡(标签/组)。重要的是,我们对最先进的数据集的实验与我们的理论见解完全一致,并确认了我们算法的卓越性能。最后,对于不平衡的高斯 - 混合数据,我们执行泛化分析,揭示平衡/标准错误和相同机会之间的权衡。
translated by 谷歌翻译
域名(ood)概括是机器学习模型的重大挑战。已经提出了许多技术来克服这一挑战,通常专注于具有某些不变性属性的学习模型。在这项工作中,我们绘制了ood性能和模型校准之间的链接,争论跨多个域的校准可以被视为一个特殊的表达,导致更好的EOD泛化。具体而言,我们表明,在某些条件下,实现\ EMPH {多域校准}的模型可被证明无杂散相关性。这导致我们提出多域校准作为分类器的性能的可测量和可训练的代理。因此,我们介绍了易于申请的方法,并允许从业者通过训练或修改现有模型来改善多域校准,从而更好地在看不见的域上的性能。使用最近提出的野外的四个数据集以及彩色的MNIST数据集,我们证明了训练或调整模型,以便在多个域中校准它们导致在看不见的测试域中显着提高性能。我们认为,校准和革建化之间的这种有趣联系是从一个实际和理论的观点出发的。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
最近,提出了不变的风险最小化(IRM)作为解决分布外(OOD)概括的有前途的解决方案。但是,目前尚不清楚何时应优先于广泛的经验风险最小化(ERM)框架。在这项工作中,我们从样本复杂性的角度分析了这两个框架,从而迈出了一个坚定的一步,以回答这个重要问题。我们发现,根据数据生成机制的类型,这两种方法可能具有有限样本和渐近行为。例如,在协变量偏移设置中,我们看到两种方法不仅达到了相同的渐近解决方案,而且具有相似的有限样本行为,没有明显的赢家。但是,对于其他分布变化,例如涉及混杂因素或反毒物变量的变化,两种方法到达不同的渐近解决方案,在这些方法中,保证IRM可以接近有限样品状态中所需的OOD溶液,而ERM甚至偶然地偏向于渐近。我们进一步研究了不同因素(环境的数量,模型的复杂性和IRM惩罚权重)如何影响IRM的样本复杂性与其距离OOD溶液的距离有关
translated by 谷歌翻译