向外配送(OOD)数据的概括是现代机器学习中的核心问题之一。最近,试图提出主要建立在提取不变特征的想法上的算法。虽然直观地合理,但理论上了解如何保证ood泛化仍然有限,并且任意分配的概括显然是不可能的。在这项工作中,我们将第一步迈向严格和定量定义1)什么是ood; 2)通过说ood问题是学习的,这是什么意思。我们还介绍了扩展功能的新概念,其特征在于训练域的测试域中的方差在多大程度上放大,因此提供了不变特征的定量含义。基于这些,我们证明了ood泛化误差界限。事实证明,OOD泛化在很大程度上取决于扩展功能。正如Gulrajani和Lopez-PAZ(2020)所指出的那样,任何没有模型选择模块的学习算法都是不完整的。我们的理论自然地诱导了模型选择标准。基准OOD数据集的广泛实验表明,我们的模型选择标准在基线上具有显着的优势。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
分发概括是将模型从实验室转移到现实世界时的关键挑战之一。现有努力主要侧重于源和目标域之间建立不变的功能。基于不变的功能,源域上的高性能分类可以在目标域上同样良好。换句话说,不变的功能是\ emph {transcorable}。然而,在实践中,没有完全可转换的功能,并且一些算法似乎学习比其他算法更学习“更可转移”的特征。我们如何理解和量化此类\ EMPH {可转录性}?在本文中,我们正式定义了一种可以量化和计算域泛化的可转换性。我们指出了与域之间的常见差异措施的差异和连接,例如总变化和Wassersein距离。然后,我们证明我们可以使用足够的样本估计我们的可转换性,并根据我们的可转移提供目标误差的新上限。经验上,我们评估现有算法学习的特征嵌入的可转换性,以获得域泛化。令人惊讶的是,我们发现许多算法并不完全学习可转让的功能,尽管很少有人仍然可以生存。鉴于此,我们提出了一种用于学习可转移功能的新算法,并在各种基准数据集中测试,包括RotationMnist,PACS,Office和Wilds-FMOW。实验结果表明,该算法在许多最先进的算法上实现了一致的改进,证实了我们的理论发现。
translated by 谷歌翻译
最近,提出了不变的风险最小化(IRM)作为解决分布外(OOD)概括的有前途的解决方案。但是,目前尚不清楚何时应优先于广泛的经验风险最小化(ERM)框架。在这项工作中,我们从样本复杂性的角度分析了这两个框架,从而迈出了一个坚定的一步,以回答这个重要问题。我们发现,根据数据生成机制的类型,这两种方法可能具有有限样本和渐近行为。例如,在协变量偏移设置中,我们看到两种方法不仅达到了相同的渐近解决方案,而且具有相似的有限样本行为,没有明显的赢家。但是,对于其他分布变化,例如涉及混杂因素或反毒物变量的变化,两种方法到达不同的渐近解决方案,在这些方法中,保证IRM可以接近有限样品状态中所需的OOD溶液,而ERM甚至偶然地偏向于渐近。我们进一步研究了不同因素(环境的数量,模型的复杂性和IRM惩罚权重)如何影响IRM的样本复杂性与其距离OOD溶液的距离有关
translated by 谷歌翻译
Distributional shift is one of the major obstacles when transferring machine learning prediction systems from the lab to the real world. To tackle this problem, we assume that variation across training domains is representative of the variation we might encounter at test time, but also that shifts at test time may be more extreme in magnitude. In particular, we show that reducing differences in risk across training domains can reduce a model's sensitivity to a wide range of extreme distributional shifts, including the challenging setting where the input contains both causal and anticausal elements. We motivate this approach, Risk Extrapolation (REx), as a form of robust optimization over a perturbation set of extrapolated domains (MM-REx), and propose a penalty on the variance of training risks (V-REx) as a simpler variant. We prove that variants of REx can recover the causal mechanisms of the targets, while also providing some robustness to changes in the input distribution ("covariate shift"). By tradingoff robustness to causally induced distributional shifts and covariate shift, REx is able to outperform alternative methods such as Invariant Risk Minimization in situations where these types of shift co-occur.
translated by 谷歌翻译
最近,对分布(OOD)数据具有相关性转移的概括引起了极大的关注。相关转移是由与类标签相关的虚假属性引起的,因为它们之间的相关性可能在训练和测试数据中有所不同。对于这样一个问题,我们表明,鉴于类标签,有条件独立的虚假属性模型是可推广的。基于此,提出了控制OOD泛化误差的度量条件伪变异(CSV),以衡量这种条件独立性。为了改善OOD的概括,我们将培训过程正常使用拟议的CSV。在温和的假设下,我们的训练目标可以作为非Convex-Concave Mini-Max问题提出。提出了具有可证明的收敛速率的算法来解决该问题。广泛的经验结果验证了我们算法在改善OOD概括方面的功效。
translated by 谷歌翻译
尽管在各种应用中取得了显着成功,但众所周知,在呈现出分发数据时,深度学习可能会失败。为了解决这一挑战,我们考虑域泛化问题,其中使用从相关训练域系列绘制的数据进行训练,然后在不同和看不见的测试域中评估预测器。我们表明,在数据生成的自然模型和伴随的不变性条件下,域泛化问​​题等同于无限维约束的统计学习问题;此问题构成了我们的方法的基础,我们呼叫基于模型的域泛化。由于解决深度学习中受约束优化问题的固有挑战,我们利用非凸显二元性理论,在二元间隙上紧张的界限发展这种统计问题的不受约束放松。基于这种理论动机,我们提出了一种具有收敛保证的新型域泛化算法。在我们的实验中,我们在几个基准中报告了最多30个百分点的阶段概括基座,包括彩色,Camelyon17-Wilds,FMOW-Wilds和PAC。
translated by 谷歌翻译
尽管机器学习模型迅速推进了各种现实世界任务的最先进,但鉴于这些模型对虚假相关性的脆弱性,跨域(OOD)的概括仍然是一个挑战性的问题。尽管当前的域概括方法通常着重于通过新的损耗函数设计在不同域上实施某些不变性属性,但我们提出了一种平衡的迷你批次采样策略,以减少观察到的训练分布中域特异性的虚假相关性。更具体地说,我们提出了一种两步方法,该方法1)识别虚假相关性的来源,以及2)通过在确定的来源上匹配,构建平衡的迷你批次而没有虚假相关性。我们提供了伪造来源的可识别性保证,并表明我们提出的方法是从所有培训环境中平衡,无虚拟分布的样本。实验是在三个具有伪造相关性的计算机视觉数据集上进行的,从经验上证明,与随机的迷你批次采样策略相比,我们平衡的微型批次采样策略可改善四个不同建立的域泛化模型基线的性能。
translated by 谷歌翻译
分销(OOD)泛化问题的目标是培训推广所有环境的预测因子。此字段中的流行方法使用这样的假设,即这种预测器应为\ Texit {不变预测器},该{不变预测仪}捕获跨环境仍然不变的机制。虽然这些方法在各种案例研究中进行了实验成功,但仍然有很多关于这一假设的理论验证的空间。本文介绍了一系列不变预测因素所必需的一系列理论条件,以实现ood最优性。我们的理论不仅适用于非线性案例,还概括了\ CiteT {Rojas2018Invariant}中使用的必要条件。我们还从我们的理论中得出渐变对齐算法,并展示了\ Citet {Aubinlinear}提出的三个\ Texit {不变性单元测试}中的两种竞争力。
translated by 谷歌翻译
域名(ood)概括是机器学习模型的重大挑战。已经提出了许多技术来克服这一挑战,通常专注于具有某些不变性属性的学习模型。在这项工作中,我们绘制了ood性能和模型校准之间的链接,争论跨多个域的校准可以被视为一个特殊的表达,导致更好的EOD泛化。具体而言,我们表明,在某些条件下,实现\ EMPH {多域校准}的模型可被证明无杂散相关性。这导致我们提出多域校准作为分类器的性能的可测量和可训练的代理。因此,我们介绍了易于申请的方法,并允许从业者通过训练或修改现有模型来改善多域校准,从而更好地在看不见的域上的性能。使用最近提出的野外的四个数据集以及彩色的MNIST数据集,我们证明了训练或调整模型,以便在多个域中校准它们导致在看不见的测试域中显着提高性能。我们认为,校准和革建化之间的这种有趣联系是从一个实际和理论的观点出发的。
translated by 谷歌翻译
域泛化算法使用来自多个域的培训数据来学习概括到未经识别域的模型。虽然最近提出的基准证明大多数现有算法不优于简单的基线,但建立的评估方法未能暴露各种因素的影响,这有助于性能不佳。在本文中,我们提出了一个域泛化算法的评估框架,其允许将误差分解成组件捕获概念的不同方面。通过基于域不变表示学习的思想的算法的普遍性的启发,我们扩展了评估框架,以捕获在实现不变性时捕获各种类型的失败。我们表明,泛化误差的最大贡献者跨越方法,数据集,正则化强度甚至培训长度各不相同。我们遵守与学习域不变表示的策略相关的两个问题。在彩色的MNIST上,大多数域泛化算法失败,因为它们仅在训练域上达到域名不变性。在Camelyon-17上,域名不变性会降低看不见域的表示质量。我们假设专注于在丰富的代表之上调整分类器可以是有希望的方向。
translated by 谷歌翻译
域泛化(DG)的主要挑战是克服多个训练域和看不见的测试域之间的潜在分布偏移。一类流行的DG算法旨在学习在训练域中具有不变因果关系的表示。但是,某些特征,称为\ emph {伪不变特征},可能是培训域中的不变性,但不是测试域,并且可以大大降低现有算法的性能。为了解决这个问题,我们提出了一种新颖的算法,称为不变信息瓶颈(IIB),该算法学习跨越训练和测试域的最小值的最小值。通过最大限度地减少表示和输入之间的相互信息,IIB可以减轻其对伪不变特征的依赖,这对于DG是期望的。为了验证IIB原则的有效性,我们对大型DG基准进行了广泛的实验。结果表明,在两个评估度量标准中,IIB的IIIb平均超过2.8 \%和3.8 \%的准确性。
translated by 谷歌翻译
传统的监督学习方法,尤其是深的学习方法,发现对分发超出(OOD)示例敏感,主要是因为所学习的表示与由于其域特异性相关性的变异因子混合了语义因素,而只有语义因子导致输出。为了解决这个问题,我们提出了一种基于因果推理的因果语义生成模型(CSG),以便分别建模两个因素,以及从单个训练域中的oo ood预测的制定方法,这是常见和挑战的。该方法基于因果不变原理,在变形贝斯中具有新颖的设计,用于高效学习和易于预测。从理论上讲,我们证明,在某些条件下,CSG可以通过拟合训练数据来识别语义因素,并且这种语义识别保证了泛化概率的界限和适应的成功。实证研究表明,改善了卓越的基线表现。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
Supervised learning aims to train a classifier under the assumption that training and test data are from the same distribution. To ease the above assumption, researchers have studied a more realistic setting: out-of-distribution (OOD) detection, where test data may come from classes that are unknown during training (i.e., OOD data). Due to the unavailability and diversity of OOD data, good generalization ability is crucial for effective OOD detection algorithms. To study the generalization of OOD detection, in this paper, we investigate the probably approximately correct (PAC) learning theory of OOD detection, which is proposed by researchers as an open problem. First, we find a necessary condition for the learnability of OOD detection. Then, using this condition, we prove several impossibility theorems for the learnability of OOD detection under some scenarios. Although the impossibility theorems are frustrating, we find that some conditions of these impossibility theorems may not hold in some practical scenarios. Based on this observation, we next give several necessary and sufficient conditions to characterize the learnability of OOD detection in some practical scenarios. Lastly, we also offer theoretical supports for several representative OOD detection works based on our OOD theory.
translated by 谷歌翻译
最近的学习不变(因果)特征(OOD)概括最近引起了广泛的关注,在建议中不变风险最小化(IRM)(Arjovsky等,2019)是一个显着的解决方案。尽管其对线性回归的理论希望,但在线性分类问题中使用IRM的挑战仍然存在(Rosenfeld等,2020; Nagarajan等,2021)。沿着这一行,最近的一项研究(Arjovsky等人,2019年)迈出了第一步,并提出了基于信息瓶颈的不变风险最小化的学习原理(IB-imm)。在本文中,我们首先表明(Arjovsky等人,2019年)使用不变特征的支持重叠的关键假设对于保证OOD泛化是相当强大的,并且在没有这种假设的情况下仍然可以实现最佳解决方案。为了进一步回答IB-IRM是否足以在线性分类问题中学习不变特征的问题,我们表明IB-IRM在两种情况下仍将失败,无论是否不变功能捕获有关标签的所有信息。为了解决此类失败,我们提出了一个\ textit {基于反事实的信息瓶颈(CSIB)}学习算法,该算法可恢复不变的功能。即使从单个环境访问数据时,提出的算法也可以工作,并且在理论上对二进制和多类问题都具有一致的结果。我们对三个合成数据集进行了经验实验,以验证我们提出的方法的功效。
translated by 谷歌翻译
转移学习或域适应性与机器学习问题有关,在这些问题中,培训和测试数据可能来自可能不同的概率分布。在这项工作中,我们在Russo和Xu发起的一系列工作之后,就通用错误和转移学习算法的过量风险进行了信息理论分析。我们的结果也许表明,也许正如预期的那样,kullback-leibler(kl)Divergence $ d(\ mu || \ mu')$在$ \ mu $和$ \ mu'$表示分布的特征中起着重要作用。培训数据和测试测试。具体而言,我们为经验风险最小化(ERM)算法提供了概括误差上限,其中两个分布的数据在训练阶段都可用。我们进一步将分析应用于近似的ERM方法,例如Gibbs算法和随机梯度下降方法。然后,我们概括了与$ \ phi $ -Divergence和Wasserstein距离绑定的共同信息。这些概括导致更紧密的范围,并且在$ \ mu $相对于$ \ mu' $的情况下,可以处理案例。此外,我们应用了一套新的技术来获得替代的上限,该界限为某些学习问题提供了快速(最佳)的学习率。最后,受到派生界限的启发,我们提出了Infoboost算法,其中根据信息测量方法对源和目标数据的重要性权重进行了调整。经验结果表明了所提出的算法的有效性。
translated by 谷歌翻译
学习域不变的表示已成为域适应/概括的最受欢迎的方法之一。在本文中,我们表明不变的表示可能不足以保证良好的概括,在考虑标签函数转移的情况下。受到这一点的启发,我们首先在经验风险上获得了新的概括上限,该概括风险明确考虑了标签函数移动。然后,我们提出了特定领域的风险最小化(DRM),该风险最小化(DRM)可以分别对不同域的分布移动进行建模,并为目标域选择最合适的域。对四个流行的域概括数据集(CMNIST,PACS,VLCS和域)进行了广泛的实验,证明了所提出的DRM对域泛化的有效性,具有以下优点:1)它的表现明显超过了竞争性盆地的表现; 2)与香草经验风险最小化(ERM)相比,所有训练领域都可以在所有训练领域中具有可比性或优越的精度; 3)在培训期间,它仍然非常简单和高效,4)与不变的学习方法是互补的。
translated by 谷歌翻译
通过推断培训数据中的潜在群体,最近的作品将不可用的注释不可用的情况引入不变性学习。通常,在大多数/少数族裔分裂下学习群体不变性在经验上被证明可以有效地改善许多数据集的分布泛化。但是,缺乏这些关于学习不变机制的理论保证。在本文中,我们揭示了在防止分类器依赖于培训集中的虚假相关性的情况下,现有小组不变学习方法的不足。具体来说,我们提出了两个关于判断这种充分性的标准。从理论和经验上讲,我们表明现有方法可以违反标准,因此未能推广出虚假的相关性转移。在此激励的情况下,我们设计了一种新的组不变学习方法,该方法构建具有统计独立性测试的组,并按组标签重新启动样本,以满足标准。关于合成数据和真实数据的实验表明,新方法在推广到虚假相关性转移方面显着优于现有的组不变学习方法。
translated by 谷歌翻译
机器学习算法通常假设培训和测试示例是从相同的分布中汲取的。然而,分发转移是现实世界应用中的常见问题,并且可以在测试时间造成模型急剧执行。在本文中,我们特别考虑域移位和亚泊素班次的问题(例如,不平衡数据)。虽然先前的作品通常会寻求明确地将模型的内部表示和预测器进行明确,以成为域不变的,但我们旨在规范整个功能而不限制模型的内部表示。这导致了一种简单的基于混合技术,它通过名为LISA的选择性增强来学习不变函数。 Lisa选择性地用相同的标签而单独地插值样本,但不同的域或具有相同的域但不同的标签。我们分析了线性设置,从理论上展示了LISA如何导致较小的最差组错误。凭经验,我们研究了LISA对从亚本化转变到域移位的九个基准的有效性,我们发现LISA一直以其他最先进的方法表达。
translated by 谷歌翻译