尽管不变风险最小化(IRM)成功解决了分布式概括问题,但在实践中应用时,IRM仍可以损害最佳性。 IRM的实用变体,例如IRMV1,已被证明与IRM存在显着差距,因此即使在简单的问题中也可能无法捕获不变性。此外,IRMV1中的优化过程涉及两个内在冲突的目标,并且通常需要对客观权重进行仔细的调整。为了纠正上述问题,我们将IRM重新制定为多目标优化问题,并为IRM提出了一种新的优化方案,称为Pareto不变风险最小化(Pair)。对可以在客观冲突下适应优化指导。此外,我们表明对可以赋予实用的IRM变体能够在提供适当的指导时用原始IRM克服障碍。我们对ColoredMnist进行实验,以确认我们的理论和对的有效性。
translated by 谷歌翻译
尽管最近在欧几里得数据(例如图像)上使用不变性原理(OOD)概括(例如图像),但有关图数据的研究仍然受到限制。与图像不同,图形的复杂性质给采用不变性原理带来了独特的挑战。特别是,图表上的分布变化可以以多种形式出现,例如属性和结构,因此很难识别不变性。此外,在欧几里得数据上通常需要的域或环境分区通常需要的图形可能非常昂贵。为了弥合这一差距,我们提出了一个新的框架,以捕获图形的不变性,以在各种分配变化下进行保证的OOD概括。具体而言,我们表征了具有因果模型的图形上的潜在分布变化,得出结论,当模型仅关注包含有关标签原因最多信息的子图时,可以实现图形上的OOD概括。因此,我们提出了一个信息理论目标,以提取最大地保留不变的阶级信息的所需子图。用这些子图学习不受分配变化的影响。对合成和现实世界数据集进行的广泛实验,包括在AI ADED药物发现中充满挑战的环境,验证了我们方法的上等OOD概括能力。
translated by 谷歌翻译
在易于优化和强大的分布(OOD)概括之间通常存在困境。例如,许多OOD方法依赖于优化具有挑战性的罚款术语。他们要么太强大,无法可靠地优化,要么太虚弱而无法实现目标。我们建议用丰富的表示,其中包含一个潜在有用功能的调色板初始化网络,即使是简单的模型也可以使用。一方面,丰富的表示为优化器提供了良好的初始化。另一方面,它还提供了有助于OOD概括的电感偏差。这种表示形式是由丰富的功能构建(RFC)算法(也称为盆景算法)构建的,该算法由一系列培训情节组成。在发现剧集中,我们以防止网络使用以前迭代中构建的功能的方式制作了多目标优化标准及其相关数据集。在合成事件中,我们使用知识蒸馏来迫使网络同时代表所有先前发现的特征。用盆景表示的网络初始化,始终有助于六种OOD方法在ColoredMnist基准上实现最佳性能。相同的技术在Wilds Camelyon17任务上大大优于可比较的结果,消除了困扰其他方法的高结果差异,并使超参数调谐和模型选择更加可靠。
translated by 谷歌翻译
研究兴趣大大增加了将数据驱动方法应用于力学问题的问题。尽管传统的机器学习(ML)方法已经实现了许多突破,但它们依赖于以下假设:培训(观察到的)数据和测试(看不见)数据是独立的且分布相同的(i.i.d)。因此,当应用于未知的测试环境和数据分布转移的现实世界力学问题时,传统的ML方法通常会崩溃。相反,分布(OOD)的概括假定测试数据可能会发生变化(即违反I.I.D.假设)。迄今为止,已经提出了多种方法来改善ML方法的OOD概括。但是,由于缺乏针对OOD回归问题的基准数据集,因此这些OOD方法在主导力学领域的回归问题上的效率仍然未知。为了解决这个问题,我们研究了机械回归问题的OOD泛化方法的性能。具体而言,我们确定了三个OOD问题:协变量移位,机制移位和采样偏差。对于每个问题,我们创建了两个基准示例,以扩展机械MNIST数据集收集,并研究了流行的OOD泛化方法在这些机械特定的回归问题上的性能。我们的数值实验表明,在大多数情况下,与传统的ML方法相比,在大多数情况下,在这些OOD问题上的传统ML方法的性能更好,但迫切需要开发更强大的OOD概括方法,这些方法在多个OOD场景中有效。总体而言,我们希望这项研究以及相关的开放访问基准数据集将进一步开发用于机械特定回归问题的OOD泛化方法。
translated by 谷歌翻译
Distributional shift is one of the major obstacles when transferring machine learning prediction systems from the lab to the real world. To tackle this problem, we assume that variation across training domains is representative of the variation we might encounter at test time, but also that shifts at test time may be more extreme in magnitude. In particular, we show that reducing differences in risk across training domains can reduce a model's sensitivity to a wide range of extreme distributional shifts, including the challenging setting where the input contains both causal and anticausal elements. We motivate this approach, Risk Extrapolation (REx), as a form of robust optimization over a perturbation set of extrapolated domains (MM-REx), and propose a penalty on the variance of training risks (V-REx) as a simpler variant. We prove that variants of REx can recover the causal mechanisms of the targets, while also providing some robustness to changes in the input distribution ("covariate shift"). By tradingoff robustness to causally induced distributional shifts and covariate shift, REx is able to outperform alternative methods such as Invariant Risk Minimization in situations where these types of shift co-occur.
translated by 谷歌翻译
最近的学习不变(因果)特征(OOD)概括最近引起了广泛的关注,在建议中不变风险最小化(IRM)(Arjovsky等,2019)是一个显着的解决方案。尽管其对线性回归的理论希望,但在线性分类问题中使用IRM的挑战仍然存在(Rosenfeld等,2020; Nagarajan等,2021)。沿着这一行,最近的一项研究(Arjovsky等人,2019年)迈出了第一步,并提出了基于信息瓶颈的不变风险最小化的学习原理(IB-imm)。在本文中,我们首先表明(Arjovsky等人,2019年)使用不变特征的支持重叠的关键假设对于保证OOD泛化是相当强大的,并且在没有这种假设的情况下仍然可以实现最佳解决方案。为了进一步回答IB-IRM是否足以在线性分类问题中学习不变特征的问题,我们表明IB-IRM在两种情况下仍将失败,无论是否不变功能捕获有关标签的所有信息。为了解决此类失败,我们提出了一个\ textit {基于反事实的信息瓶颈(CSIB)}学习算法,该算法可恢复不变的功能。即使从单个环境访问数据时,提出的算法也可以工作,并且在理论上对二进制和多类问题都具有一致的结果。我们对三个合成数据集进行了经验实验,以验证我们提出的方法的功效。
translated by 谷歌翻译
许多现代的机器学习应用程序,例如多任务学习,都需要查找最佳模型参数来权衡多个可能相互冲突的目标功能。帕累托集的概念使我们能够专注于不能严格改进的(通常是无限的)模型集。但是,它不能为选择一个或几个特殊型号返回实际用户提供可行的程序。在本文中,我们考虑\ emph {在Pareto Set(Opt-In-Pareto)中进行优化,这是找到Pareto模型,以优化Pareto集中的额外参考标准函数。此功能可以编码从用户的特定偏好,也可以代表代表整个帕累托集的一组多元化的帕累托模型来代表一组多元化的帕累托模型。不幸的是,尽管是一个非常有用的框架,但在深度学习中,尤其是对于大规模,非凸面和非线性目标而言,对选择性pareto的有效算法已经很大程度上遗失了。一种幼稚的方法是将Riemannian歧管梯度下降应用于帕累托集,该片段由于需要对Hessian矩阵的本征估计而产生高计算成本。我们提出了一种一阶算法,该算法仅使用梯度信息近似求解pareto,具有高实用效率和理论上保证的收敛属性。从经验上讲,我们证明我们的方法在各种具有挑战性的多任务相关问题方面有效地工作。
translated by 谷歌翻译
域的概括要求在一组训练环境中训练的模型在看不见的测试环境中表现良好。最近,已经提出了一系列算法(例如不变风险最小化(IRM))用于域泛化。但是,Rosenfeld等。 (2021)表明,在简单的线性数据模型中,即使忽略了非凸性问题,IRM及其扩展也无法推广到少于$ d_s+1 $ 1 $训练环境的看不见的环境,其中$ d_s $是$ d_s $的维度。虚假的子空间。在本文中,我们建议通过不变的亚空间恢复(ISR)实现域的概括。我们的第一种算法ISR均值,可以识别出从类条件分布的一阶矩中不变特征所跨越的子空间,并在Rosenfeld等人的数据模型下使用$ D_S+1 $训练环境实现可证明的域概括。 (2021)。我们的第二个算法ISR-COV,使用二阶矩的信息进一步将所需的培训环境数量减少到$ O(1)$。值得注意的是,与IRM不同,我们的算法绕过了非凸度问题并享受全球融合保证。从经验上讲,与IRM相比,我们的ISR可以在合成基准上获得卓越的性能。此外,在三个现实世界的图像和文本数据集上,我们表明这两个ISR可以用作简单但有效的后处理方法,以提高(预)训练有素的模型的最差案例准确性,以抵抗虚假的相关性和群体变化。
translated by 谷歌翻译
Learning models that gracefully handle distribution shifts is central to research on domain generalization, robust optimization, and fairness. A promising formulation is domain-invariant learning, which identifies the key issue of learning which features are domain-specific versus domaininvariant. An important assumption in this area is that the training examples are partitioned into "domains" or "environments". Our focus is on the more common setting where such partitions are not provided. We propose EIIL, a general framework for domain-invariant learning that incorporates Environment Inference to directly infer partitions that are maximally informative for downstream Invariant Learning. We show that EIIL outperforms invariant learning methods on the CMNIST benchmark without using environment labels, and significantly outperforms ERM on worst-group performance in the Waterbirds and CivilComments datasets. Finally, we establish connections between EIIL and algorithmic fairness, which enables EIIL to improve accuracy and calibration in a fair prediction problem.
translated by 谷歌翻译
不变的风险最小化(IRM)框架旨在从一组环境中学习不变的功能,以解决分发超出(OOD)泛化问题。底层假设是数据生成分布的因果组件在环境中仍然是常量,或者交替地,跨环境中的数据“重叠”以找到有意义的不变功能。因此,当“重叠”假设不保持时,一组真正不变的特征可能不足以以获得最佳预测性能。这种情况自然地出现在网络设置和分层数据生成模型中,其中IRM性能变为次优。为了减轻这种故障情况,我们争论部分不变性框架。关键的想法是通过基于分层差异对环境进行分区来引入IRM框架的灵活性,同时在分区内本地实施不变性。我们在分类设置中激励此框架,其中包括跨环境的因果分布。我们的结果表明,部分不变风险最小化的能力,以减轻在某些环境中的公平性和风险之间的权衡。
translated by 谷歌翻译
Despite impressive success in many tasks, deep learning models are shown to rely on spurious features, which will catastrophically fail when generalized to out-of-distribution (OOD) data. Invariant Risk Minimization (IRM) is proposed to alleviate this issue by extracting domain-invariant features for OOD generalization. Nevertheless, recent work shows that IRM is only effective for a certain type of distribution shift (e.g., correlation shift) while it fails for other cases (e.g., diversity shift). Meanwhile, another thread of method, Adversarial Training (AT), has shown better domain transfer performance, suggesting that it has the potential to be an effective candidate for extracting domain-invariant features. This paper investigates this possibility by exploring the similarity between the IRM and AT objectives. Inspired by this connection, we propose Domainwise Adversarial Training (DAT), an AT-inspired method for alleviating distribution shift by domain-specific perturbations. Extensive experiments show that our proposed DAT can effectively remove domain-varying features and improve OOD generalization under both correlation shift and diversity shift.
translated by 谷歌翻译
由于传统经验风险最小化(ERM)的概括性差,因此在分布转移的情况下,分布(OOD)概括算法受到越来越多的关注。但是,OOD的概括算法忽略了训练数据质量的巨大差异,这极大地损害了这些方法的准确性。在本文中,我们从理论上揭示了训练数据质量和算法性能之间的关系,并分析了Lipschitz正则不变风险最小化的最佳正则化方案。提出了一种基于理论结果提出的新算法,以减轻样品水平和域水平上低质量数据的影响。关于回归和分类基准的实验验证了我们方法具有统计学意义的有效性。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
机器学习算法通常假设培训和测试示例是从相同的分布中汲取的。然而,分发转移是现实世界应用中的常见问题,并且可以在测试时间造成模型急剧执行。在本文中,我们特别考虑域移位和亚泊素班次的问题(例如,不平衡数据)。虽然先前的作品通常会寻求明确地将模型的内部表示和预测器进行明确,以成为域不变的,但我们旨在规范整个功能而不限制模型的内部表示。这导致了一种简单的基于混合技术,它通过名为LISA的选择性增强来学习不变函数。 Lisa选择性地用相同的标签而单独地插值样本,但不同的域或具有相同的域但不同的标签。我们分析了线性设置,从理论上展示了LISA如何导致较小的最差组错误。凭经验,我们研究了LISA对从亚本化转变到域移位的九个基准的有效性,我们发现LISA一直以其他最先进的方法表达。
translated by 谷歌翻译
域泛化算法使用来自多个域的培训数据来学习概括到未经识别域的模型。虽然最近提出的基准证明大多数现有算法不优于简单的基线,但建立的评估方法未能暴露各种因素的影响,这有助于性能不佳。在本文中,我们提出了一个域泛化算法的评估框架,其允许将误差分解成组件捕获概念的不同方面。通过基于域不变表示学习的思想的算法的普遍性的启发,我们扩展了评估框架,以捕获在实现不变性时捕获各种类型的失败。我们表明,泛化误差的最大贡献者跨越方法,数据集,正则化强度甚至培训长度各不相同。我们遵守与学习域不变表示的策略相关的两个问题。在彩色的MNIST上,大多数域泛化算法失败,因为它们仅在训练域上达到域名不变性。在Camelyon-17上,域名不变性会降低看不见域的表示质量。我们假设专注于在丰富的代表之上调整分类器可以是有希望的方向。
translated by 谷歌翻译
域名(ood)概括是机器学习模型的重大挑战。已经提出了许多技术来克服这一挑战,通常专注于具有某些不变性属性的学习模型。在这项工作中,我们绘制了ood性能和模型校准之间的链接,争论跨多个域的校准可以被视为一个特殊的表达,导致更好的EOD泛化。具体而言,我们表明,在某些条件下,实现\ EMPH {多域校准}的模型可被证明无杂散相关性。这导致我们提出多域校准作为分类器的性能的可测量和可训练的代理。因此,我们介绍了易于申请的方法,并允许从业者通过训练或修改现有模型来改善多域校准,从而更好地在看不见的域上的性能。使用最近提出的野外的四个数据集以及彩色的MNIST数据集,我们证明了训练或调整模型,以便在多个域中校准它们导致在看不见的测试域中显着提高性能。我们认为,校准和革建化之间的这种有趣联系是从一个实际和理论的观点出发的。
translated by 谷歌翻译
通过推断培训数据中的潜在群体,最近的作品将不可用的注释不可用的情况引入不变性学习。通常,在大多数/少数族裔分裂下学习群体不变性在经验上被证明可以有效地改善许多数据集的分布泛化。但是,缺乏这些关于学习不变机制的理论保证。在本文中,我们揭示了在防止分类器依赖于培训集中的虚假相关性的情况下,现有小组不变学习方法的不足。具体来说,我们提出了两个关于判断这种充分性的标准。从理论和经验上讲,我们表明现有方法可以违反标准,因此未能推广出虚假的相关性转移。在此激励的情况下,我们设计了一种新的组不变学习方法,该方法构建具有统计独立性测试的组,并按组标签重新启动样本,以满足标准。关于合成数据和真实数据的实验表明,新方法在推广到虚假相关性转移方面显着优于现有的组不变学习方法。
translated by 谷歌翻译
最近,提出了不变的风险最小化(IRM)作为解决分布外(OOD)概括的有前途的解决方案。但是,目前尚不清楚何时应优先于广泛的经验风险最小化(ERM)框架。在这项工作中,我们从样本复杂性的角度分析了这两个框架,从而迈出了一个坚定的一步,以回答这个重要问题。我们发现,根据数据生成机制的类型,这两种方法可能具有有限样本和渐近行为。例如,在协变量偏移设置中,我们看到两种方法不仅达到了相同的渐近解决方案,而且具有相似的有限样本行为,没有明显的赢家。但是,对于其他分布变化,例如涉及混杂因素或反毒物变量的变化,两种方法到达不同的渐近解决方案,在这些方法中,保证IRM可以接近有限样品状态中所需的OOD溶液,而ERM甚至偶然地偏向于渐近。我们进一步研究了不同因素(环境的数量,模型的复杂性和IRM惩罚权重)如何影响IRM的样本复杂性与其距离OOD溶液的距离有关
translated by 谷歌翻译
尽管在各种应用中取得了显着成功,但众所周知,在呈现出分发数据时,深度学习可能会失败。为了解决这一挑战,我们考虑域泛化问题,其中使用从相关训练域系列绘制的数据进行训练,然后在不同和看不见的测试域中评估预测器。我们表明,在数据生成的自然模型和伴随的不变性条件下,域泛化问​​题等同于无限维约束的统计学习问题;此问题构成了我们的方法的基础,我们呼叫基于模型的域泛化。由于解决深度学习中受约束优化问题的固有挑战,我们利用非凸显二元性理论,在二元间隙上紧张的界限发展这种统计问题的不受约束放松。基于这种理论动机,我们提出了一种具有收敛保证的新型域泛化算法。在我们的实验中,我们在几个基准中报告了最多30个百分点的阶段概括基座,包括彩色,Camelyon17-Wilds,FMOW-Wilds和PAC。
translated by 谷歌翻译
几项研究在经验上比较了各种模型的分布(ID)和分布(OOD)性能。他们报告了计算机视觉和NLP中基准的频繁正相关。令人惊讶的是,他们从未观察到反相关性表明必要的权衡。这重要的是确定ID性能是否可以作为OOD概括的代理。这篇简短的论文表明,ID和OOD性能之间的逆相关性确实在现实基准中发生。由于模型的选择有偏见,因此在过去的研究中可能被错过。我们使用来自多个训练时期和随机种子的模型展示了Wilds-Amelyon17数据集上模式的示例。我们的观察结果尤其引人注目,对经过正规化器训练的模型,将解决方案多样化为ERM目标。我们在过去的研究中得出了细微的建议和结论。 (1)高OOD性能有时确实需要交易ID性能。 (2)仅专注于ID性能可能不会导致最佳OOD性能:它可能导致OOD性能的减少并最终带来负面回报。 (3)我们的示例提醒人们,实证研究仅按照现有方法来制定制度:在提出规定的建议时有必要进行护理。
translated by 谷歌翻译