The problem of covariate-shift generalization has attracted intensive research attention. Previous stable learning algorithms employ sample reweighting schemes to decorrelate the covariates when there is no explicit domain information about training data. However, with finite samples, it is difficult to achieve the desirable weights that ensure perfect independence to get rid of the unstable variables. Besides, decorrelating within stable variables may bring about high variance of learned models because of the over-reduced effective sample size. A tremendous sample size is required for these algorithms to work. In this paper, with theoretical justification, we propose SVI (Sparse Variable Independence) for the covariate-shift generalization problem. We introduce sparsity constraint to compensate for the imperfectness of sample reweighting under the finite-sample setting in previous methods. Furthermore, we organically combine independence-based sample reweighting and sparsity-based variable selection in an iterative way to avoid decorrelating within stable variables, increasing the effective sample size to alleviate variance inflation. Experiments on both synthetic and real-world datasets demonstrate the improvement of covariate-shift generalization performance brought by SVI.
translated by 谷歌翻译
协变量转变概括,在外面的分布(OOD)概括一般情况下,需要对未知测试分布,这在协转移的形式获得的培训分布变化的良好表现。最近,稳定的学习算法显示效果实证上处理涉及回归算法和深层神经网络几种学习模式转变协泛化。然而,对于这样的有效性的理论解释仍下落不明。在本文中,我们迈出的解释他们的特征选择过程中稳定的学习算法的理论分析了一步。我们首先指定一组变量,命名为最小的稳定变量集,这是最小的,最佳的应对共同损失的功能,包括方均损失和二进制交叉熵损失协转变概括。然后,我们证明了在理想条件下,稳定的学习算法可以识别这种集中的变量。也设置在渐近性质和错误传播进一步分析。这些理论能够解释为什么稳定的学习工程协转变概括光。
translated by 谷歌翻译
监督学习的关键假设是培训和测试数据遵循相同的概率分布。然而,这种基本假设在实践中并不总是满足,例如,由于不断变化的环境,样本选择偏差,隐私问题或高标签成本。转移学习(TL)放松这种假设,并允许我们在分销班次下学习。通常依赖于重要性加权的经典TL方法 - 基于根据重要性(即测试过度训练密度比率)的训练损失培训预测器。然而,由于现实世界机器学习任务变得越来越复杂,高维和动态,探讨了新的新方法,以应对这些挑战最近。在本文中,在介绍基于重要性加权的TL基础之后,我们根据关节和动态重要预测估计审查最近的进步。此外,我们介绍一种因果机制转移方法,该方法包含T1中的因果结构。最后,我们讨论了TL研究的未来观点。
translated by 谷歌翻译
当用于训练模型的源数据与用于测试模型的目标数据不同时,域适应(DA)作为统计机器学习的重要问题。 DA最近的进展主要是应用驱动的,并且主要依赖于源和目标数据的常见子空间的想法。要了解DA方法的经验成功和失败,我们通过结构因果模型提出了理论框架,可以实现DA方法的预测性能的分析和比较。此框架还允许我们逐项逐项列出DA方法具有低目标错误所需的假设。此外,通过我们理论的见解,我们提出了一种名为CIRM的新DA方法,当协变量和标签分布都在目标数据中被扰乱时,胜过现有的DA方法。我们补充了广泛的模拟的理论分析,以表明设计了设计的必要性。还提供可重复的合成和实际数据实验,以说明当我们理论中的某些假设的某些问题被侵犯时DA方法的强度和弱点。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
尽管机器学习模型迅速推进了各种现实世界任务的最先进,但鉴于这些模型对虚假相关性的脆弱性,跨域(OOD)的概括仍然是一个挑战性的问题。尽管当前的域概括方法通常着重于通过新的损耗函数设计在不同域上实施某些不变性属性,但我们提出了一种平衡的迷你批次采样策略,以减少观察到的训练分布中域特异性的虚假相关性。更具体地说,我们提出了一种两步方法,该方法1)识别虚假相关性的来源,以及2)通过在确定的来源上匹配,构建平衡的迷你批次而没有虚假相关性。我们提供了伪造来源的可识别性保证,并表明我们提出的方法是从所有培训环境中平衡,无虚拟分布的样本。实验是在三个具有伪造相关性的计算机视觉数据集上进行的,从经验上证明,与随机的迷你批次采样策略相比,我们平衡的微型批次采样策略可改善四个不同建立的域泛化模型基线的性能。
translated by 谷歌翻译
在本文中,我们利用过度参数化来设计高维单索索引模型的无规矩算法,并为诱导的隐式正则化现象提供理论保证。具体而言,我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型,信号参数是稀疏向量或低秩对称矩阵,并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性,我们假设协变量的分布是先验的。对于载体和矩阵设置,我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时,我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外,我们的实验结果支持我们的理论调查结果,并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。
translated by 谷歌翻译
Out-of-distribution (OOD) generalization on graphs is drawing widespread attention. However, existing efforts mainly focus on the OOD issue of correlation shift. While another type, covariate shift, remains largely unexplored but is the focus of this work. From a data generation view, causal features are stable substructures in data, which play key roles in OOD generalization. While their complementary parts, environments, are unstable features that often lead to various distribution shifts. Correlation shift establishes spurious statistical correlations between environments and labels. In contrast, covariate shift means that there exist unseen environmental features in test data. Existing strategies of graph invariant learning and data augmentation suffer from limited environments or unstable causal features, which greatly limits their generalization ability on covariate shift. In view of that, we propose a novel graph augmentation strategy: Adversarial Causal Augmentation (AdvCA), to alleviate the covariate shift. Specifically, it adversarially augments the data to explore diverse distributions of the environments. Meanwhile, it keeps the causal features invariant across diverse environments. It maintains the environmental diversity while ensuring the invariance of the causal features, thereby effectively alleviating the covariate shift. Extensive experimental results with in-depth analyses demonstrate that AdvCA can outperform 14 baselines on synthetic and real-world datasets with various covariate shifts.
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
域的概括(DG)旨在学习分配变化的可推广模型,以避免重新拟合大规模训练数据。以前具有复杂损失设计和梯度约束的作品尚未在大规模基准上取得经验成功。在这项工作中,我们通过利用跨域跨域的预测特征的多个方面来揭示Experts(MOE)模型对DG的概括性的混合物。为此,我们提出了稀疏的融合混合物(SF-MOE),该混合物将稀疏性和融合机制纳入MOE框架中,以使模型保持稀疏和预测性。 SF-MOE有两个专用模块:1)稀疏块和2)融合块,它们分别分别分离和汇总对象的多样化信号。广泛的实验表明,SF-MOE是大规模基准的域名学习者。在5个大规模的DG数据集(例如域内)中,它的表现优于最佳同行,其计算成本相同甚至较低。我们从分布式表示的角度(例如,视觉属性)进一步揭示了SF-MOE的内部机制。我们希望这个框架可以促进未来的研究,将可普遍的对象识别推向现实世界。代码和模型在https://github.com/luodian/sf-moe-dg上发布。
translated by 谷歌翻译
Integrative analysis of data from multiple sources is critical to making generalizable discoveries. Associations that are consistently observed across multiple source populations are more likely to be generalized to target populations with possible distributional shifts. In this paper, we model the heterogeneous multi-source data with multiple high-dimensional regressions and make inferences for the maximin effect (Meinshausen, B{\"u}hlmann, AoS, 43(4), 1801--1830). The maximin effect provides a measure of stable associations across multi-source data. A significant maximin effect indicates that a variable has commonly shared effects across multiple source populations, and these shared effects may be generalized to a broader set of target populations. There are challenges associated with inferring maximin effects because its point estimator can have a non-standard limiting distribution. We devise a novel sampling method to construct valid confidence intervals for maximin effects. The proposed confidence interval attains a parametric length. This sampling procedure and the related theoretical analysis are of independent interest for solving other non-standard inference problems. Using genetic data on yeast growth in multiple environments, we demonstrate that the genetic variants with significant maximin effects have generalizable effects under new environments.
translated by 谷歌翻译
域的概括要求在一组训练环境中训练的模型在看不见的测试环境中表现良好。最近,已经提出了一系列算法(例如不变风险最小化(IRM))用于域泛化。但是,Rosenfeld等。 (2021)表明,在简单的线性数据模型中,即使忽略了非凸性问题,IRM及其扩展也无法推广到少于$ d_s+1 $ 1 $训练环境的看不见的环境,其中$ d_s $是$ d_s $的维度。虚假的子空间。在本文中,我们建议通过不变的亚空间恢复(ISR)实现域的概括。我们的第一种算法ISR均值,可以识别出从类条件分布的一阶矩中不变特征所跨越的子空间,并在Rosenfeld等人的数据模型下使用$ D_S+1 $训练环境实现可证明的域概括。 (2021)。我们的第二个算法ISR-COV,使用二阶矩的信息进一步将所需的培训环境数量减少到$ O(1)$。值得注意的是,与IRM不同,我们的算法绕过了非凸度问题并享受全球融合保证。从经验上讲,与IRM相比,我们的ISR可以在合成基准上获得卓越的性能。此外,在三个现实世界的图像和文本数据集上,我们表明这两个ISR可以用作简单但有效的后处理方法,以提高(预)训练有素的模型的最差案例准确性,以抵抗虚假的相关性和群体变化。
translated by 谷歌翻译
Causal inference is the process of using assumptions, study designs, and estimation strategies to draw conclusions about the causal relationships between variables based on data. This allows researchers to better understand the underlying mechanisms at work in complex systems and make more informed decisions. In many settings, we may not fully observe all the confounders that affect both the treatment and outcome variables, complicating the estimation of causal effects. To address this problem, a growing literature in both causal inference and machine learning proposes to use Instrumental Variables (IV). This paper serves as the first effort to systematically and comprehensively introduce and discuss the IV methods and their applications in both causal inference and machine learning. First, we provide the formal definition of IVs and discuss the identification problem of IV regression methods under different assumptions. Second, we categorize the existing work on IV methods into three streams according to the focus on the proposed methods, including two-stage least squares with IVs, control function with IVs, and evaluation of IVs. For each stream, we present both the classical causal inference methods, and recent developments in the machine learning literature. Then, we introduce a variety of applications of IV methods in real-world scenarios and provide a summary of the available datasets and algorithms. Finally, we summarize the literature, discuss the open problems and suggest promising future research directions for IV methods and their applications. We also develop a toolkit of IVs methods reviewed in this survey at https://github.com/causal-machine-learning-lab/mliv.
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
在许多学科中,在大量解释变量中推断反应变量的直接因果父母的问题具有很高的实际意义。但是,建立的方法通常至少会随着解释变量的数量而呈指数级扩展,难以扩展到非线性关系,并且很难扩展到周期性数据。受{\ em Debiased}机器学习方法的启发,我们研究了一种单Vs.-the-Rest特征选择方法,以发现响应的直接因果父母。我们提出了一种用于纯观测数据的算法,同时还提供理论保证,包括可能在周期存在下的部分非线性关系的情况。由于它仅需要对每个变量进行一个估计,因此我们的方法甚至适用于大图。与既定方法相比,我们证明了显着改善。
translated by 谷歌翻译
从观察数据中学习因果结构是机器学习的基本挑战。但是,大多数常用的可区分因果发现方法是不可识别的,这将此问题变成了容易发生数据偏差的连续优化任务。在许多现实生活中,数据是从不同环境中收集的,在不同的环境中,功能关系在整个环境中保持一致,而添加噪声的分布可能会有所不同。本文提出了可区分的因果发现(DICD),利用基于可区分框架的多环境信息,以避免学习虚假边缘和错误的因果方向。具体而言,DICD旨在在消除环境依赖性相关性的同时发现环境不变的因果关系。我们进一步制定了强制执行目标结构方程模型的约束,以在整个环境中保持最佳状态。在温和条件下提供了足够的环境,提供了针对拟议DICD的可识别性的理论保证。关于合成和现实世界数据集的广泛实验验证了DICD优于最先进的因果发现方法,而SHD中最高36%。我们的代码将是开源的。
translated by 谷歌翻译
上下文的强盗和强化学习算法已成功用于各种交互式学习系统,例如在线广告,推荐系统和动态定价。但是,在高风险应用领域(例如医疗保健)中,它们尚未被广泛采用。原因之一可能是现有方法假定基本机制是静态的,因为它们不会在不同的环境上改变。但是,在许多现实世界中,这些机制可能会跨环境变化,这可能使静态环境假设无效。在本文中,考虑到离线上下文匪徒的框架,我们迈出了解决环境转变问题的一步。我们认为环境转移问题通过因果关系的角度,并提出了多种环境的背景匪徒,从而可以改变基本机制。我们采用因果关系文献的不变性概念,并介绍了政策不变性的概念。我们认为,仅当存在未观察到的变量时,政策不变性才有意义,并表明在这种情况下,保证在适当假设下跨环境概括最佳不变政策。我们的结果建立了因果关系,不变性和上下文土匪之间的具体联系。
translated by 谷歌翻译
尽管最近在欧几里得数据(例如图像)上使用不变性原理(OOD)概括(例如图像),但有关图数据的研究仍然受到限制。与图像不同,图形的复杂性质给采用不变性原理带来了独特的挑战。特别是,图表上的分布变化可以以多种形式出现,例如属性和结构,因此很难识别不变性。此外,在欧几里得数据上通常需要的域或环境分区通常需要的图形可能非常昂贵。为了弥合这一差距,我们提出了一个新的框架,以捕获图形的不变性,以在各种分配变化下进行保证的OOD概括。具体而言,我们表征了具有因果模型的图形上的潜在分布变化,得出结论,当模型仅关注包含有关标签原因最多信息的子图时,可以实现图形上的OOD概括。因此,我们提出了一个信息理论目标,以提取最大地保留不变的阶级信息的所需子图。用这些子图学习不受分配变化的影响。对合成和现实世界数据集进行的广泛实验,包括在AI ADED药物发现中充满挑战的环境,验证了我们方法的上等OOD概括能力。
translated by 谷歌翻译
Although understanding and characterizing causal effects have become essential in observational studies, it is challenging when the confounders are high-dimensional. In this article, we develop a general framework $\textit{CausalEGM}$ for estimating causal effects by encoding generative modeling, which can be applied in both binary and continuous treatment settings. Under the potential outcome framework with unconfoundedness, we establish a bidirectional transformation between the high-dimensional confounders space and a low-dimensional latent space where the density is known (e.g., multivariate normal distribution). Through this, CausalEGM simultaneously decouples the dependencies of confounders on both treatment and outcome and maps the confounders to the low-dimensional latent space. By conditioning on the low-dimensional latent features, CausalEGM can estimate the causal effect for each individual or the average causal effect within a population. Our theoretical analysis shows that the excess risk for CausalEGM can be bounded through empirical process theory. Under an assumption on encoder-decoder networks, the consistency of the estimate can be guaranteed. In a series of experiments, CausalEGM demonstrates superior performance over existing methods for both binary and continuous treatments. Specifically, we find CausalEGM to be substantially more powerful than competing methods in the presence of large sample sizes and high dimensional confounders. The software of CausalEGM is freely available at https://github.com/SUwonglab/CausalEGM.
translated by 谷歌翻译
仪器变量模型使我们能够确定协变量$ x $和响应$ y $之间的因果功能,即使在存在未观察到的混淆的情况下。大多数现有估计器都假定响应$ y $和隐藏混杂因素中的错误项与仪器$ z $不相关。这通常是由图形分离的动机,这一论点也证明了独立性。但是,提出独立限制会导致严格的可识别性结果。我们连接到计量经济学的现有文献,并提供了一种称为HSIC-X的实用方法,用于利用独立性,可以与任何基于梯度的学习程序结合使用。我们看到,即使在可识别的设置中,考虑到更高的矩可能会产生更好的有限样本结果。此外,我们利用独立性进行分布泛化。我们证明,只要这些移位足够强,拟议的估计器对于仪器的分布变化和最佳案例最佳变化是不变的。这些结果即使在未识别的情况下也能够得出这些结果,即仪器不足以识别因果功能。
translated by 谷歌翻译