捕获基础数据生成过程的学习表示是数据效率和强大使用神经网络的关键问题。鲁棒性的一个关键属性应捕获,并且最近受到了很多关注,这是由不变性的概念描述的。在这项工作中,我们为学习不变表示形式提供了因果观点和新算法。从经验上讲,我们证明该算法在各种任务中都很好地工作,尤其是我们观察到域概括的最新性能,我们能够显着提高现有模型的分数。
translated by 谷歌翻译
The goal of domain generalization algorithms is to predict well on distributions different from those seen during training. While a myriad of domain generalization algorithms exist, inconsistencies in experimental conditions-datasets, architectures, and model selection criteria-render fair and realistic comparisons difficult. In this paper, we are interested in understanding how useful domain generalization algorithms are in realistic settings. As a first step, we realize that model selection is non-trivial for domain generalization tasks. Contrary to prior work, we argue that domain generalization algorithms without a model selection strategy should be regarded as incomplete. Next, we implement DOMAINBED, a testbed for domain generalization including seven multi-domain datasets, nine baseline algorithms, and three model selection criteria. We conduct extensive experiments using DO-MAINBED and find that, when carefully implemented, empirical risk minimization shows state-of-the-art performance across all datasets. Looking forward, we hope that the release of DOMAINBED, along with contributions from fellow researchers, will streamline reproducible and rigorous research in domain generalization. * Alphabetical order, equal contribution.Preprint. Under review.
translated by 谷歌翻译
从多个域收集的现实世界数据可以在多个属性上具有多个不同的分布变化。但是,域概括(DG)算法的最新进展仅关注对单个属性的特定变化。我们介绍了具有多属性分布变化的数据集,并发现现有的DG算法无法概括。为了解释这一点,我们使用因果图来根据虚假属性与分类标签之间的关系来表征不同类型的变化。每个多属性因果图都需要对观察到的变量进行不同的约束,因此,基于单个固定独立性约束的任何算法都不能在所有变化中正常工作。我们提出了因果自适应约束最小化(CACM),这是一种用于识别正则化的正确独立性约束的新算法。完全合成,MNIST和小型NORB数据集的结果,涵盖了二进制和多价值属性和标签,确认我们的理论主张:正确的独立性约束导致未见域的最高准确性,而不正确的约束则无法做到这一点。我们的结果表明,建模数据生成过程中固有的因果关系的重要性:在许多情况下,如果没有此信息,就不可能知道正确的正规化约束。
translated by 谷歌翻译
机器学习系统通常假设训练和测试分布是相同的。为此,关键要求是开发可以概括到未经看不见的分布的模型。领域泛化(DG),即分销概括,近年来引起了越来越令人利益。域概括处理了一个具有挑战性的设置,其中给出了一个或几个不同但相关域,并且目标是学习可以概括到看不见的测试域的模型。多年来,域概括地区已经取得了巨大进展。本文提出了对该地区最近进步的首次审查。首先,我们提供了域泛化的正式定义,并讨论了几个相关领域。然后,我们彻底审查了与域泛化相关的理论,并仔细分析了泛化背后的理论。我们将最近的算法分为三个类:数据操作,表示学习和学习策略,并为每个类别详细介绍几种流行的算法。第三,我们介绍常用的数据集,应用程序和我们的开放源代码库进行公平评估。最后,我们总结了现有文学,并为未来提供了一些潜在的研究主题。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
Machine learning models rely on various assumptions to attain high accuracy. One of the preliminary assumptions of these models is the independent and identical distribution, which suggests that the train and test data are sampled from the same distribution. However, this assumption seldom holds in the real world due to distribution shifts. As a result models that rely on this assumption exhibit poor generalization capabilities. Over the recent years, dedicated efforts have been made to improve the generalization capabilities of these models collectively known as -- \textit{domain generalization methods}. The primary idea behind these methods is to identify stable features or mechanisms that remain invariant across the different distributions. Many generalization approaches employ causal theories to describe invariance since causality and invariance are inextricably intertwined. However, current surveys deal with the causality-aware domain generalization methods on a very high-level. Furthermore, we argue that it is possible to categorize the methods based on how causality is leveraged in that method and in which part of the model pipeline is it used. To this end, we categorize the causal domain generalization methods into three categories, namely, (i) Invariance via Causal Data Augmentation methods which are applied during the data pre-processing stage, (ii) Invariance via Causal representation learning methods that are utilized during the representation learning stage, and (iii) Invariance via Transferring Causal mechanisms methods that are applied during the classification stage of the pipeline. Furthermore, this survey includes in-depth insights into benchmark datasets and code repositories for domain generalization methods. We conclude the survey with insights and discussions on future directions.
translated by 谷歌翻译
Learning models that gracefully handle distribution shifts is central to research on domain generalization, robust optimization, and fairness. A promising formulation is domain-invariant learning, which identifies the key issue of learning which features are domain-specific versus domaininvariant. An important assumption in this area is that the training examples are partitioned into "domains" or "environments". Our focus is on the more common setting where such partitions are not provided. We propose EIIL, a general framework for domain-invariant learning that incorporates Environment Inference to directly infer partitions that are maximally informative for downstream Invariant Learning. We show that EIIL outperforms invariant learning methods on the CMNIST benchmark without using environment labels, and significantly outperforms ERM on worst-group performance in the Waterbirds and CivilComments datasets. Finally, we establish connections between EIIL and algorithmic fairness, which enables EIIL to improve accuracy and calibration in a fair prediction problem.
translated by 谷歌翻译
Distributional shift is one of the major obstacles when transferring machine learning prediction systems from the lab to the real world. To tackle this problem, we assume that variation across training domains is representative of the variation we might encounter at test time, but also that shifts at test time may be more extreme in magnitude. In particular, we show that reducing differences in risk across training domains can reduce a model's sensitivity to a wide range of extreme distributional shifts, including the challenging setting where the input contains both causal and anticausal elements. We motivate this approach, Risk Extrapolation (REx), as a form of robust optimization over a perturbation set of extrapolated domains (MM-REx), and propose a penalty on the variance of training risks (V-REx) as a simpler variant. We prove that variants of REx can recover the causal mechanisms of the targets, while also providing some robustness to changes in the input distribution ("covariate shift"). By tradingoff robustness to causally induced distributional shifts and covariate shift, REx is able to outperform alternative methods such as Invariant Risk Minimization in situations where these types of shift co-occur.
translated by 谷歌翻译
分销转移(DS)是一个常见的问题,可恶化学习机器的性能。为了克服这个问题,我们假设现实世界的分布是由基本分布组成的,这些分布在不同域之间保持不变。我们将其称为不变的基本分布(即)假设。因此,这种不变性使知识转移到看不见的域。为了利用该假设在域概括(DG)中,我们开发了一个由门域单位(GDU)组成的模块化神经网络层。每个GDU都学会了单个基本领域的嵌入,使我们能够在训练过程中编码域相似性。在推断期间,GDU在观察和每个相应的基本分布之间进行了计算相似性,然后将其用于形成学习机的加权集合。由于我们的层是经过反向传播的训练,因此可以轻松地集成到现有的深度学习框架中。我们对Digits5,ECG,CamelyOn17,IwildCam和FMOW的评估显示出对训练的目标域的性能有显着改善,而无需从目标域访问数据。这一发现支持了即现实世界数据分布中的假设。
translated by 谷歌翻译
尽管机器学习模型迅速推进了各种现实世界任务的最先进,但鉴于这些模型对虚假相关性的脆弱性,跨域(OOD)的概括仍然是一个挑战性的问题。尽管当前的域概括方法通常着重于通过新的损耗函数设计在不同域上实施某些不变性属性,但我们提出了一种平衡的迷你批次采样策略,以减少观察到的训练分布中域特异性的虚假相关性。更具体地说,我们提出了一种两步方法,该方法1)识别虚假相关性的来源,以及2)通过在确定的来源上匹配,构建平衡的迷你批次而没有虚假相关性。我们提供了伪造来源的可识别性保证,并表明我们提出的方法是从所有培训环境中平衡,无虚拟分布的样本。实验是在三个具有伪造相关性的计算机视觉数据集上进行的,从经验上证明,与随机的迷你批次采样策略相比,我们平衡的微型批次采样策略可改善四个不同建立的域泛化模型基线的性能。
translated by 谷歌翻译
尽管在各种应用中取得了显着成功,但众所周知,在呈现出分发数据时,深度学习可能会失败。为了解决这一挑战,我们考虑域泛化问题,其中使用从相关训练域系列绘制的数据进行训练,然后在不同和看不见的测试域中评估预测器。我们表明,在数据生成的自然模型和伴随的不变性条件下,域泛化问​​题等同于无限维约束的统计学习问题;此问题构成了我们的方法的基础,我们呼叫基于模型的域泛化。由于解决深度学习中受约束优化问题的固有挑战,我们利用非凸显二元性理论,在二元间隙上紧张的界限发展这种统计问题的不受约束放松。基于这种理论动机,我们提出了一种具有收敛保证的新型域泛化算法。在我们的实验中,我们在几个基准中报告了最多30个百分点的阶段概括基座,包括彩色,Camelyon17-Wilds,FMOW-Wilds和PAC。
translated by 谷歌翻译
现实世界的分类问题必须与域移位竞争,该域移动是部署模型的域之间的(潜在)不匹配以及收集训练数据的域。处理此类问题的方法必须指定域之间哪种结构与什么变化。一个自然的假设是,因果关系(结构)关系在所有领域都是不变的。然后,很容易学习仅取决于其因果父母的标签$ y $的预测指标。但是,许多现实世界中的问题是“反农产品”,因为$ y $是协变量$ x $的原因 - 在这种情况下,$ y $没有因果父母,而天真的因果不变性是没有用的。在本文中,我们研究了在特定的域转移概念下的表示形式学习,该概念既尊重因果不变性又自然处理“反毒物”结构。我们展示了如何利用域的共享因果结构来学习一个表示不变预测因子的表示,并且还允许在新域中快速适应。关键是将因果假设转化为学习原理,这些学习原理“不变”和“不稳定”特征。关于合成数据和现实世界数据的实验证明了所提出的学习算法的有效性。代码可在https://github.com/ybjiaang/actir上找到。
translated by 谷歌翻译
本文提出了在适当的监督信息下进行分解的生成因果代表(亲爱的)学习方法。与实施潜在变量独立性的现有分解方法不同,我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明,即使在监督下,先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下,我们提出了一种称为DEAR的新的解开学习方法,该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型(SCM)作为双向生成模型的先验分布。然后,使用合适的GAN算法与发电机和编码器共同训练了先验,并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验,以证明DEAR在因果可控生成中的有效性,以及在样本效率和分布鲁棒性方面,学到的表示表示对下游任务的好处。
translated by 谷歌翻译
We propose a Target Conditioned Representation Independence (TCRI) objective for domain generalization. TCRI addresses the limitations of existing domain generalization methods due to incomplete constraints. Specifically, TCRI implements regularizers motivated by conditional independence constraints that are sufficient to strictly learn complete sets of invariant mechanisms, which we show are necessary and sufficient for domain generalization. Empirically, we show that TCRI is effective on both synthetic and real-world data. TCRI is competitive with baselines in average accuracy while outperforming them in worst-domain accuracy, indicating desired cross-domain stability.
translated by 谷歌翻译
当用于训练模型的源数据与用于测试模型的目标数据不同时,域适应(DA)作为统计机器学习的重要问题。 DA最近的进展主要是应用驱动的,并且主要依赖于源和目标数据的常见子空间的想法。要了解DA方法的经验成功和失败,我们通过结构因果模型提出了理论框架,可以实现DA方法的预测性能的分析和比较。此框架还允许我们逐项逐项列出DA方法具有低目标错误所需的假设。此外,通过我们理论的见解,我们提出了一种名为CIRM的新DA方法,当协变量和标签分布都在目标数据中被扰乱时,胜过现有的DA方法。我们补充了广泛的模拟的理论分析,以表明设计了设计的必要性。还提供可重复的合成和实际数据实验,以说明当我们理论中的某些假设的某些问题被侵犯时DA方法的强度和弱点。
translated by 谷歌翻译
我们提出了一种学习在某些协变量反事实变化下不变的预测因子的方法。当预测目标受到不应影响预测因子输出的协变量影响时,此方法很有用。例如,对象识别模型可能会受到对象本身的位置,方向或比例的影响。我们解决了训练预测因素的问题,这些预测因素明确反对反对这种协变量的变化。我们提出了一个基于条件内核均值嵌入的模型不合稳定项,以在训练过程中实现反事实的不变性。我们证明了我们的方法的健全性,可以处理混合的分类和连续多变量属性。关于合成和现实世界数据的经验结果证明了我们方法在各种环境中的功效。
translated by 谷歌翻译
在使用不同的培训环境展示时,获得机器学习任务的可推广解决方案的一种方法是找到数据的\ textit {不变表示}。这些是协变量的表示形式,以至于表示形式的最佳模型在培训环境之间是不变的。在线性结构方程模型(SEMS)的背景下,不变表示可能使我们能够以分布范围的保证(即SEM中的干预措施都有牢固的模型学习模型。为了解决{\ em有限示例}设置中不变的表示问题,我们考虑$ \ epsilon $ approximate不变性的概念。我们研究以下问题:如果表示给定数量的培训干预措施大致相当不变,那么在更大的看不见的SEMS集合中,它是否会继续大致不变?这种较大的SEM集合是通过参数化的干预措施来生成的。受PAC学习的启发,我们获得了有限样本的分布概括,保证了近似不变性,该概述\ textit {概率}在没有忠实假设的线性SEMS家族上。我们的结果表明,当干预站点仅限于恒定大小的子集的恒定限制节点的恒定子集时,界限不会在环境维度上扩展。我们还展示了如何将结果扩展到结合潜在变量的线性间接观察模型。
translated by 谷歌翻译
域泛化算法使用来自多个域的培训数据来学习概括到未经识别域的模型。虽然最近提出的基准证明大多数现有算法不优于简单的基线,但建立的评估方法未能暴露各种因素的影响,这有助于性能不佳。在本文中,我们提出了一个域泛化算法的评估框架,其允许将误差分解成组件捕获概念的不同方面。通过基于域不变表示学习的思想的算法的普遍性的启发,我们扩展了评估框架,以捕获在实现不变性时捕获各种类型的失败。我们表明,泛化误差的最大贡献者跨越方法,数据集,正则化强度甚至培训长度各不相同。我们遵守与学习域不变表示的策略相关的两个问题。在彩色的MNIST上,大多数域泛化算法失败,因为它们仅在训练域上达到域名不变性。在Camelyon-17上,域名不变性会降低看不见域的表示质量。我们假设专注于在丰富的代表之上调整分类器可以是有希望的方向。
translated by 谷歌翻译
学习公平的代表性对于实现公平或宣传敏感信息至关重要。大多数现有的作品都依靠对抗表示学习将一些不变性注入表示形式。但是,已知对抗性学习方法受到相对不稳定的训练的痛苦,这可能会损害公平性和代表性预测之间的平衡。我们提出了一种新的方法,通过分布对比度变异自动编码器(Farconvae)学习公平表示,该方法诱导潜在空间分解为敏感和非敏感部分。我们首先构建具有不同敏感属性但具有相同标签的观测值。然后,Farconvae强制执行每个不敏感的潜在潜在,而敏感的潜在潜在的潜伏期彼此之间的距离也很远,并且还远离非敏感的潜在通过对比它们的分布。我们提供了一种由高斯和Student-T内核动机的新型对比损失,用于通过理论分析进行分配对比学习。此外,我们采用新的掉期重建损失,进一步提高分解。 Farconvae在公平性,预处理的模型偏差以及来自各种模式(包括表格,图像和文本)的领域概括任务方面表现出了卓越的性能。
translated by 谷歌翻译
因果表示学习是识别基本因果变量及其从高维观察(例如图像)中的关系的任务。最近的工作表明,可以从观测的时间序列中重建因果变量,假设它们之间没有瞬时因果关系。但是,在实际应用中,我们的测量或帧速率可能比许多因果效应要慢。这有效地产生了“瞬时”效果,并使以前的可识别性结果无效。为了解决这个问题,我们提出了ICITRI,这是一种因果表示学习方法,当具有已知干预目标的完美干预措施时,可以在时间序列中处理瞬时效应。 Icitris从时间观察中识别因果因素,同时使用可区分的因果发现方法来学习其因果图。在三个视频数据集的实验中,Icitris准确地识别了因果因素及其因果图。
translated by 谷歌翻译