深度神经网络令人惊奇地遭受数据集偏见,这对模型鲁棒性,泛化和公平性有害。在这项工作中,我们提出了一个两级的脱扎方案,以防止顽固的未知偏差。通过分析有偏置模型的存在的因素,我们设计了一种小说学习目标,通过依赖单独的偏见,无法达到。具体而言,使用所提出的梯度对准(GA)实现了脱叠模型,该梯度对准(GA)动态地平衡了偏置对齐和偏见冲突的样本的贡献(在整个整个训练过程中,在整个训练过程中,强制执行模型以利用内部提示进行公平的决定。虽然在真实世界的情景中,潜在的偏差非常难以发现并对手动标记昂贵。我们进一步提出了通过对等挑选和培训集合来提出自动偏见冲突的样本挖掘方法,而无需先前了解偏见信息。各种数据中的多个数据集进行的实验表明了我们拟议计划的有效性和稳健性,该计划成功减轻了未知偏差的负面影响,实现了最先进的性能。
translated by 谷歌翻译
已经发现深层图像分类器可以从数据集中学习偏差。为了减轻偏见,大多数以前的方法都需要标签受保护的属性(例如,年龄,肤色)为全套,这有两个限制:1)当标签不可用时,它是不可行的; 2)它们无法缓解未知的偏见 - 人类没有先入为主的偏见。为了解决这些问题,我们提出了偏见的替代网络(Debian),该网络包括两个网络 - 一个发现者和一个分类器。通过以另一种方式培训,发现者试图找到分类器的多个未知偏见,而无需任何偏见注释,分类器的目的是删除发现者确定的偏见。虽然先前的作品评估了单个偏差的结果,但我们创建了多色MNIST数据集,以更好地缓解多偏差设置中的多个偏差,这不仅揭示了以前的方法中的问题,而且还展示了Debian的优势。在同时识别和减轻多种偏见时。我们进一步对现实世界数据集进行了广泛的实验,表明Debian中的发现者可以识别人类可能很难找到的未知偏见。关于辩护,Debian实现了强烈的偏见缓解绩效。
translated by 谷歌翻译
神经网络通常使预测依赖于数据集的虚假相关性,而不是感兴趣的任务的内在特性,面对分布外(OOD)测试数据的急剧下降。现有的De-Bias学习框架尝试通过偏置注释捕获特定的DataSet偏差,它们无法处理复杂的“ood方案”。其他人在低能力偏置模型或损失上隐含地识别数据集偏置,但在训练和测试数据来自相同分布时,它们会降低。在本文中,我们提出了一般的贪婪去偏见学习框架(GGD),它贪婪地训练偏置模型和基础模型,如功能空间中的梯度下降。它鼓励基础模型专注于用偏置模型难以解决的示例,从而仍然在测试阶段中的杂散相关性稳健。 GGD在很大程度上提高了各种任务的模型的泛化能力,但有时会过度估计偏置水平并降低在分配测试。我们进一步重新分析了GGD的集合过程,并将课程正规化为由课程学习启发的GGD,这取得了良好的分配和分发性能之间的权衡。对图像分类的广泛实验,对抗问题应答和视觉问题应答展示了我们方法的有效性。 GGD可以在特定于特定于任务的偏置模型的设置下学习更强大的基础模型,其中具有现有知识和自组合偏置模型而无需先验知识。
translated by 谷歌翻译
Empirical studies suggest that machine learning models trained with empirical risk minimization (ERM) often rely on attributes that may be spuriously correlated with the class labels. Such models typically lead to poor performance during inference for data lacking such correlations. In this work, we explicitly consider a situation where potential spurious correlations are present in the majority of training data. In contrast with existing approaches, which use the ERM model outputs to detect the samples without spurious correlations, and either heuristically upweighting or upsampling those samples; we propose the logit correction (LC) loss, a simple yet effective improvement on the softmax cross-entropy loss, to correct the sample logit. We demonstrate that minimizing the LC loss is equivalent to maximizing the group-balanced accuracy, so the proposed LC could mitigate the negative impacts of spurious correlations. Our extensive experimental results further reveal that the proposed LC loss outperforms the SoTA solutions on multiple popular benchmarks by a large margin, an average 5.5% absolute improvement, without access to spurious attribute labels. LC is also competitive with oracle methods that make use of the attribute labels. Code is available at https://github.com/shengliu66/LC.
translated by 谷歌翻译
Neural networks trained with ERM (empirical risk minimization) sometimes learn unintended decision rules, in particular when their training data is biased, i.e., when training labels are strongly correlated with undesirable features. To prevent a network from learning such features, recent methods augment training data such that examples displaying spurious correlations (i.e., bias-aligned examples) become a minority, whereas the other, bias-conflicting examples become prevalent. However, these approaches are sometimes difficult to train and scale to real-world data because they rely on generative models or disentangled representations. We propose an alternative based on mixup, a popular augmentation that creates convex combinations of training examples. Our method, coined SelecMix, applies mixup to contradicting pairs of examples, defined as showing either (i) the same label but dissimilar biased features, or (ii) different labels but similar biased features. Identifying such pairs requires comparing examples with respect to unknown biased features. For this, we utilize an auxiliary contrastive model with the popular heuristic that biased features are learned preferentially during training. Experiments on standard benchmarks demonstrate the effectiveness of the method, in particular when label noise complicates the identification of bias-conflicting examples.
translated by 谷歌翻译
在图像分类中,“ debiasing”旨在训练分类器,以免对数据集偏差,数据样本的外围属性与目标类别之间的强相关性。例如,即使数据集中的青蛙类主要由具有沼泽背景的青蛙图像组成(即,偏见与一致的样本),也应该能够在海滩上正确地对青蛙进行正确分类(即,偏见的样品, )。最近的辩论方法通常使用两个组件进行偏见,一个有偏见的模型$ f_b $和一个模型$ f_d $。 $ f_b $经过培训,可以专注于偏见的样本(即过度适合偏见),而$ f_d $主要通过专注于$ f_b $未能学习的样品,主要接受了偏见的样本培训,导致$ f_d $。不太容易受到数据集偏差的影响。虽然最先进的偏见技术旨在更好地培训$ f_d $,但我们专注于培训$ f_b $,这是迄今为止被忽视的组件。我们的实证分析表明,从$ f_b $的培训设置中删除偏见的样本对于改善$ f_d $的偏见性能很重要。这是由于以下事实:偏置冲突样品会干扰$ f_b $的偏见,因为这些样本不包括偏差属性。为此,我们提出了一种简单而有效的数据样本选择方法,该方法可以删除偏置冲突的样本,以构建一个偏置放大数据集用于培训$ f_b $。我们的数据示例选择方法可以直接应用于现有的基于重新加权的偏差方法,从而获得一致的性能提升并实现合成和现实世界数据集的最新性能。
translated by 谷歌翻译
尽管能够与过度能力网络概括,但深神经网络通常会学会滥用数据中的虚假偏见而不是使用实际的任务相关信息。由于此类快捷方式仅在收集的数据集中有效,因此由此产生的偏置模型在现实世界的投入上表现不佳,或导致意外的社交影响,例如性别歧视。为了抵消偏差的影响,现有方法可以利用辅助信息,这在实践中很少可获得,或者在训练数据中的无偏见样本中筛选,希望能够充分存在清洁样品。但是,这些关于数据的推定并不总是保证。在本文中,我们提出了通过生成偏差变换〜(CDVG)对比下展,该〜(CDVG)能够在现有的方法中经营,其中现有方法由于未偏置的偏差样品而不足的预设而下降。通过我们的观察,不仅如前所述的鉴别模型,而且生成模型倾向于关注偏差,CDVG使用翻译模型来将样本中的偏置转换为另一种偏差模式,同时保留任务相关信息。 。通过对比学习,我们将转化的偏见视图与另一个学习偏见,学习偏见不变的表示。综合和现实世界数据集的实验结果表明,我们的框架优于目前的最先进,并且有效地阻止模型即使在无偏差样本极为稀缺时也会被偏置。
translated by 谷歌翻译
图像分类器通常过于依赖于与目标类(即数据集偏差)在预测时具有很强相关性的外围属性。最近,无数的研究着重于缓解此类数据集偏见,其任务被称为偏见。但是,这些偏见方法通常具有不一致的实验设置(例如数据集和神经网络体系结构)。此外,大多数先前关于辩护方面的研究都没有指定它们如何选择涉及早期停止和超参数调整的模型参数。本文的目的是标准化不一致的实验设置,并提出一个用于脱缩的一致模型参数选择标准。基于这种统一的实验设置和模型参数选择标准,我们构建了一个名为DebiasBench的基准测试,其中包括五个数据集和七个Debiasing方法。我们仔细地在各个方面进行了广泛的实验,并表明不同的最新方法分别在不同的数据集中最有效。即使,没有任何依据模块的方法,也显示出低偏置严重程度的数据集中的竞争结果。我们公开释放DebiasBench中现有的辩论方法的实施,以鼓励未来的研究人员进行辩护,以进行公平的比较并进一步推动最先进的表现。
translated by 谷歌翻译
Many datasets are biased, namely they contain easy-to-learn features that are highly correlated with the target class only in the dataset but not in the true underlying distribution of the data. For this reason, learning unbiased models from biased data has become a very relevant research topic in the last years. In this work, we tackle the problem of learning representations that are robust to biases. We first present a margin-based theoretical framework that allows us to clarify why recent contrastive losses (InfoNCE, SupCon, etc.) can fail when dealing with biased data. Based on that, we derive a novel formulation of the supervised contrastive loss (epsilon-SupInfoNCE), providing more accurate control of the minimal distance between positive and negative samples. Furthermore, thanks to our theoretical framework, we also propose FairKL, a new debiasing regularization loss, that works well even with extremely biased data. We validate the proposed losses on standard vision datasets including CIFAR10, CIFAR100, and ImageNet, and we assess the debiasing capability of FairKL with epsilon-SupInfoNCE, reaching state-of-the-art performance on a number of biased datasets, including real instances of biases in the wild.
translated by 谷歌翻译
分布式概括(OOD)都是关于对环境变化的学习不变性。如果每个类中的上下文分布均匀分布,则OOD将是微不足道的,因为由于基本原则,可以轻松地删除上下文:类是上下文不变的。但是,收集这种平衡的数据集是不切实际的。学习不平衡的数据使模型偏见对上下文,从而伤害了OOD。因此,OOD的关键是上下文平衡。我们认为,在先前工作中广泛采用的假设,可以直接从偏见的类预测中注释或估算上下文偏差,从而使上下文不完整甚至不正确。相比之下,我们指出了上述原则的另一面:上下文对于类也不变,这激励我们将类(已经被标记为已标记的)视为不同环境以解决上下文偏见(没有上下文标签)。我们通过最大程度地减少阶级样本相似性的对比损失,同时确保这种相似性在所有类别中不变,从而实现这一想法。在具有各种上下文偏见和域间隙的基准测试中,我们表明,配备了我们上下文估计的简单基于重新加权的分类器实现了最新的性能。我们在https://github.com/simpleshinobu/irmcon上提供了附录中的理论理由和代码。
translated by 谷歌翻译
Improperly constructed datasets can result in inaccurate inferences. For instance, models trained on biased datasets perform poorly in terms of generalization (i.e., dataset bias). Recent debiasing techniques have successfully achieved generalization performance by underestimating easy-to-learn samples (i.e., bias-aligned samples) and highlighting difficult-to-learn samples (i.e., bias-conflicting samples). However, these techniques may fail owing to noisy labels, because the trained model recognizes noisy labels as difficult-to-learn and thus highlights them. In this study, we find that earlier approaches that used the provided labels to quantify difficulty could be affected by the small proportion of noisy labels. Furthermore, we find that running denoising algorithms before debiasing is ineffective because denoising algorithms reduce the impact of difficult-to-learn samples, including valuable bias-conflicting samples. Therefore, we propose an approach called denoising after entropy-based debiasing, i.e., DENEB, which has three main stages. (1) The prejudice model is trained by emphasizing (bias-aligned, clean) samples, which are selected using a Gaussian Mixture Model. (2) Using the per-sample entropy from the output of the prejudice model, the sampling probability of each sample that is proportional to the entropy is computed. (3) The final model is trained using existing denoising algorithms with the mini-batches constructed by following the computed sampling probability. Compared to existing debiasing and denoising algorithms, our method achieves better debiasing performance on multiple benchmarks.
translated by 谷歌翻译
Trying to capture the sample-label relationship, conditional generative models often end up inheriting the spurious correlation in the training dataset, giving label-conditional distributions that are severely imbalanced in another latent attribute. To mitigate such undesirable correlations engraved into generative models, which we call spurious causality, we propose a general two-step strategy. (a) Fairness Intervention (FI): Emphasize the minority samples that are hard to be generated due to the spurious correlation in the training dataset. (b) Corrective Sampling (CS): Filter the generated samples explicitly to follow the desired label-conditional latent attribute distribution. We design the fairness intervention for various degrees of supervision on the spurious attribute, including unsupervised, weakly-supervised, and semi-supervised scenarios. Our experimental results show that the proposed FICS can successfully resolve the spurious correlation in generated samples on various datasets.
translated by 谷歌翻译
数据集偏见和虚假相关性可能会严重损害深层神经网络中的概括。许多先前的努力已经使用替代性损失功能或集中在稀有模式上的采样策略来解决此问题。我们提出了一个新的方向:修改网络体系结构以施加归纳偏见,从而使网络对数据集偏置进行鲁棒性。具体而言,我们提出了OCCAMNET,这些OCCAMNET有偏见以通过设计偏爱更简单的解决方案。 OCCAMNET具有两个电感偏见。首先,他们有偏见地使用单个示例所需的网络深度。其次,它们偏向使用更少的图像位置进行预测。尽管Occamnets偏向更简单的假设,但必要时可以学习更多复杂的假设。在实验中,OCCAMNET的表现优于或竞争对手的最先进方法在不包含这些电感偏见的体系结构上运行。此外,我们证明,当最先进的伪造方法与OCCAMNETS结合使用时,结果进一步改善。
translated by 谷歌翻译
与深层神经网络相比,人类较少依赖虚假的相关性和微不足道的提示,例如纹理,从而导致更好的概括和稳健性。它可以归因于先前的知识或大脑中存在的高级认知诱导偏置。因此,将有意义的归纳偏见引入神经网络可以帮助学习更多通用和高级表示,并减轻一些缺点。我们提出痴迷以提炼感应偏见并为神经网络带来形状意识。我们的方法包括一个偏差对准目标,该目标强制执行网络学习更多的通用表示,这些代表不太容易受到数据中意外提示的影响,从而改善了概括性能。依从性不太容易受到捷径学习的影响,并且表现出较低的质地偏见。更好的表示还有助于提高对对抗性攻击的鲁棒性,因此我们无缝地插入了现有的对抗训练方案,以显示概括和稳健性之间的更好权衡。
translated by 谷歌翻译
最近,公平感知学习已经变得越来越重要,但我们注意到这些方法的大多数方法是通过假设完全注释的组标签的可用性来运作。我们强调,这种假设对于现实世界的应用是不现实的,因为组标签注释昂贵,并且可以与隐私问题冲突。在本文中,我们考虑了一种更实际的场景,称为算法公平,部分注释的组标签(Fair-PG)。我们观察到现有的公平方法,该方法仅使用与组标签的数据,表现比Vanilla培训更糟糕,这仅在Fair-PG下使用目标标签使用完整数据。为了解决这个问题,我们提出了一个简单的基于席信的群标签分配(CGL)策略,这些策略随时适用于任何公平意识的学习方法。我们的CGL利用辅助组分类器分配伪组标签,其中随机标签分配给低自信的样本。我们首先理论上表明,在公平标准方面,我们的方法设计优于香草伪标签策略。然后,我们经验展示了通过组合CGL和最先进的公平性的处理方法,与基线方法相比结合CGL和最先进的公平知识的处理方法,将目标精度和公平度量进行联合改善。此外,我们令人信服地表明,我们的CGL使得自然地将给定的组标记的数据集自然使用外部数据集仅适用于目标标签,以便可以提高精度和公平度量。我们将公开释放我们的实施,以便将来的研究重现我们的结果。
translated by 谷歌翻译
许多数据集被指定:给定任务存在多个同样可行的解决方案。对于学习单个假设的方法,指定的指定可能是有问题的,因为实现低训练损失的不同功能可以集中在不同的预测特征上,从而在分布数据的数据上产生明显变化的预测。我们提出了Divdis,这是一个简单的两阶段框架,首先通过利用测试分布中的未标记数据来学习多种假设,以实现任务。然后,我们通过使用其他标签的形式或检查功能可视化的形式选择最小的其他监督来选择一个发现的假设之一来消除歧义。我们证明了Divdis找到在图像分类中使用强大特征的假设和自然语言处理问题的能力。
translated by 谷歌翻译
我们识别并形式化基本梯度下降现象,导致过度参数化神经网络中的学习倾向。尽管存在对任务相关的特征的子集最小化跨熵损失最小化梯度饥饿,尽管存在是否存在无法被发现的其他预测功能。这项工作为神经网络中这种特征不平衡的出现提供了理论解释。使用来自动态系统理论的工具,我们在梯度下降期间确定了学习动态的简单属性,从而导致这种不平衡,并证明可以预期这种情况在训练数据中提供某些统计结构。根据我们拟议的形式主义,我们为旨在解耦特征学习动态的新型正则化方法,提高患者渐变饥饿阻碍的准确性和鲁棒性的担保。我们用简单和真实的分配(OOD)泛化实验说明了我们的研究结果。
translated by 谷歌翻译
Standard training via empirical risk minimization (ERM) can produce models that achieve high accuracy on average but low accuracy on certain groups, especially in the presence of spurious correlations between the input and label. Prior approaches that achieve high worst-group accuracy, like group distributionally robust optimization (group DRO) require expensive group annotations for each training point, whereas approaches that do not use such group annotations typically achieve unsatisfactory worst-group accuracy. In this paper, we propose a simple two-stage approach, JTT, that first trains a standard ERM model for several epochs, and then trains a second model that upweights the training examples that the first model misclassified. Intuitively, this upweights examples from groups on which standard ERM models perform poorly, leading to improved worst-group performance. Averaged over four image classification and natural language processing tasks with spurious correlations, JTT closes 75% of the gap in worst-group accuracy between standard ERM and group DRO, while only requiring group annotations on a small validation set in order to tune hyperparameters.
translated by 谷歌翻译
神经网络倾向于在训练数据的主要部分中表现出的类和潜在属性之间的虚假相关性,这破坏了其概括能力。本文提出了一种新的方法,用于培训错误的分类器,没有虚假属性标签。该方法的关键思想是采用分类器委员会作为辅助模块,该模块可以识别偏置冲突的数据,即没有虚假相关性的数据,并在训练主要分类器时向它们分配了很大的权重。该委员会被学到了一个自举的合奏,因此大多数分类器都具有偏见和多样化,并且故意无法相应地预测偏见的偏见。因此,预测难度委员会的共识为识别和加权偏见冲突数据提供了可靠的提示。此外,该委员会还接受了从主要分类器转移的知识的培训,以便它逐渐与主要分类器一起变得偏见,并强调随着培训的进行而更加困难的数据。在五个现实世界数据集中,我们的方法在没有像我们这样的虚假属性标签的现有方法上优于现有方法,甚至偶尔会超越依靠偏见标签的方法。
translated by 谷歌翻译
给定标签噪声的数据(即数据不正确),深神经网络将逐渐记住标签噪声和损害模型性能。为了减轻此问题,提出了课程学习,以通过在有意义的(例如,易于硬)序列中订购培训样本来提高模型性能和概括。先前的工作将错误的样本作为通用的硬性样本,而无需区分硬样品(即正确数据中的硬样品)和不正确的样本。确实,模型应该从硬样本中学习,以促进概括而不是过度拟合错误。在本文中,我们通过在现有的任务损失之外附加新颖的损失函数Indimloss来解决此问题。它的主要影响是在训练的早期阶段自动,稳定地估计简易样品和困难样本(包括硬和不正确的样品)的重要性,以改善模型性能。然后,在以下阶段中,歧视专门用于区分硬性和不正确样本以改善模型的概括。这种培训策略可以以自我监督的方式动态制定,从而有效地模仿课程学习的主要原则。关于图像分类,图像回归,文本序列回归和事件关系推理的实验证明了我们方法的多功能性和有效性,尤其是在存在多样化的噪声水平的情况下。
translated by 谷歌翻译