当用于训练模型的源数据与用于测试模型的目标数据不同时,域适应(DA)作为统计机器学习的重要问题。 DA最近的进展主要是应用驱动的,并且主要依赖于源和目标数据的常见子空间的想法。要了解DA方法的经验成功和失败,我们通过结构因果模型提出了理论框架,可以实现DA方法的预测性能的分析和比较。此框架还允许我们逐项逐项列出DA方法具有低目标错误所需的假设。此外,通过我们理论的见解,我们提出了一种名为CIRM的新DA方法,当协变量和标签分布都在目标数据中被扰乱时,胜过现有的DA方法。我们补充了广泛的模拟的理论分析,以表明设计了设计的必要性。还提供可重复的合成和实际数据实验,以说明当我们理论中的某些假设的某些问题被侵犯时DA方法的强度和弱点。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
监督学习的关键假设是培训和测试数据遵循相同的概率分布。然而,这种基本假设在实践中并不总是满足,例如,由于不断变化的环境,样本选择偏差,隐私问题或高标签成本。转移学习(TL)放松这种假设,并允许我们在分销班次下学习。通常依赖于重要性加权的经典TL方法 - 基于根据重要性(即测试过度训练密度比率)的训练损失培训预测器。然而,由于现实世界机器学习任务变得越来越复杂,高维和动态,探讨了新的新方法,以应对这些挑战最近。在本文中,在介绍基于重要性加权的TL基础之后,我们根据关节和动态重要预测估计审查最近的进步。此外,我们介绍一种因果机制转移方法,该方法包含T1中的因果结构。最后,我们讨论了TL研究的未来观点。
translated by 谷歌翻译
Distributional shift is one of the major obstacles when transferring machine learning prediction systems from the lab to the real world. To tackle this problem, we assume that variation across training domains is representative of the variation we might encounter at test time, but also that shifts at test time may be more extreme in magnitude. In particular, we show that reducing differences in risk across training domains can reduce a model's sensitivity to a wide range of extreme distributional shifts, including the challenging setting where the input contains both causal and anticausal elements. We motivate this approach, Risk Extrapolation (REx), as a form of robust optimization over a perturbation set of extrapolated domains (MM-REx), and propose a penalty on the variance of training risks (V-REx) as a simpler variant. We prove that variants of REx can recover the causal mechanisms of the targets, while also providing some robustness to changes in the input distribution ("covariate shift"). By tradingoff robustness to causally induced distributional shifts and covariate shift, REx is able to outperform alternative methods such as Invariant Risk Minimization in situations where these types of shift co-occur.
translated by 谷歌翻译
We address the problem of unsupervised domain adaptation when the source domain differs from the target domain because of a shift in the distribution of a latent subgroup. When this subgroup confounds all observed data, neither covariate shift nor label shift assumptions apply. We show that the optimal target predictor can be non-parametrically identified with the help of concept and proxy variables available only in the source domain, and unlabeled data from the target. The identification results are constructive, immediately suggesting an algorithm for estimating the optimal predictor in the target. For continuous observations, when this algorithm becomes impractical, we propose a latent variable model specific to the data generation process at hand. We show how the approach degrades as the size of the shift changes, and verify that it outperforms both covariate and label shift adjustment.
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
在使用不同的培训环境展示时,获得机器学习任务的可推广解决方案的一种方法是找到数据的\ textit {不变表示}。这些是协变量的表示形式,以至于表示形式的最佳模型在培训环境之间是不变的。在线性结构方程模型(SEMS)的背景下,不变表示可能使我们能够以分布范围的保证(即SEM中的干预措施都有牢固的模型学习模型。为了解决{\ em有限示例}设置中不变的表示问题,我们考虑$ \ epsilon $ approximate不变性的概念。我们研究以下问题:如果表示给定数量的培训干预措施大致相当不变,那么在更大的看不见的SEMS集合中,它是否会继续大致不变?这种较大的SEM集合是通过参数化的干预措施来生成的。受PAC学习的启发,我们获得了有限样本的分布概括,保证了近似不变性,该概述\ textit {概率}在没有忠实假设的线性SEMS家族上。我们的结果表明,当干预站点仅限于恒定大小的子集的恒定限制节点的恒定子集时,界限不会在环境维度上扩展。我们还展示了如何将结果扩展到结合潜在变量的线性间接观察模型。
translated by 谷歌翻译
如今,收集来自不同环境的特征和响应对的观察已经变得越来越普遍。结果,由于分布变化,必须将学习的预测变量应用于具有不同分布的数据。一种原则性的方法是采用结构性因果模型来描述培训和测试模型,遵循不变性原则,该原理说响应的条件分布鉴于其预测因素在整个环境中保持不变。但是,当响应干预时,在实际情况下可能会违反该原则。一个自然的问题是,是否仍然可以识别其他形式的不变性来促进在看不见的环境中的预测。为了阐明这种具有挑战性的情况,我们引入了不变的匹配属性(IMP),这是通过附加功能捕获干预措施的明确关系。这导致了一种替代形式的不变性形式,该形式能够对响应进行统一的一般干预措施。我们在离散环境设置和连续环境设置下分析了我们方法的渐近概括误差,在该设置中,通过将其与半磁头变化的系数模型相关联来处理连续情况。我们提出的算法与各种实验环境中的现有方法相比表现出竞争性能。
translated by 谷歌翻译
传统的监督学习方法,尤其是深的学习方法,发现对分发超出(OOD)示例敏感,主要是因为所学习的表示与由于其域特异性相关性的变异因子混合了语义因素,而只有语义因子导致输出。为了解决这个问题,我们提出了一种基于因果推理的因果语义生成模型(CSG),以便分别建模两个因素,以及从单个训练域中的oo ood预测的制定方法,这是常见和挑战的。该方法基于因果不变原理,在变形贝斯中具有新颖的设计,用于高效学习和易于预测。从理论上讲,我们证明,在某些条件下,CSG可以通过拟合训练数据来识别语义因素,并且这种语义识别保证了泛化概率的界限和适应的成功。实证研究表明,改善了卓越的基线表现。
translated by 谷歌翻译
上下文的强盗和强化学习算法已成功用于各种交互式学习系统,例如在线广告,推荐系统和动态定价。但是,在高风险应用领域(例如医疗保健)中,它们尚未被广泛采用。原因之一可能是现有方法假定基本机制是静态的,因为它们不会在不同的环境上改变。但是,在许多现实世界中,这些机制可能会跨环境变化,这可能使静态环境假设无效。在本文中,考虑到离线上下文匪徒的框架,我们迈出了解决环境转变问题的一步。我们认为环境转移问题通过因果关系的角度,并提出了多种环境的背景匪徒,从而可以改变基本机制。我们采用因果关系文献的不变性概念,并介绍了政策不变性的概念。我们认为,仅当存在未观察到的变量时,政策不变性才有意义,并表明在这种情况下,保证在适当假设下跨环境概括最佳不变政策。我们的结果建立了因果关系,不变性和上下文土匪之间的具体联系。
translated by 谷歌翻译
最近,提出了不变的风险最小化(IRM)作为解决分布外(OOD)概括的有前途的解决方案。但是,目前尚不清楚何时应优先于广泛的经验风险最小化(ERM)框架。在这项工作中,我们从样本复杂性的角度分析了这两个框架,从而迈出了一个坚定的一步,以回答这个重要问题。我们发现,根据数据生成机制的类型,这两种方法可能具有有限样本和渐近行为。例如,在协变量偏移设置中,我们看到两种方法不仅达到了相同的渐近解决方案,而且具有相似的有限样本行为,没有明显的赢家。但是,对于其他分布变化,例如涉及混杂因素或反毒物变量的变化,两种方法到达不同的渐近解决方案,在这些方法中,保证IRM可以接近有限样品状态中所需的OOD溶液,而ERM甚至偶然地偏向于渐近。我们进一步研究了不同因素(环境的数量,模型的复杂性和IRM惩罚权重)如何影响IRM的样本复杂性与其距离OOD溶液的距离有关
translated by 谷歌翻译
Causal inference is the process of using assumptions, study designs, and estimation strategies to draw conclusions about the causal relationships between variables based on data. This allows researchers to better understand the underlying mechanisms at work in complex systems and make more informed decisions. In many settings, we may not fully observe all the confounders that affect both the treatment and outcome variables, complicating the estimation of causal effects. To address this problem, a growing literature in both causal inference and machine learning proposes to use Instrumental Variables (IV). This paper serves as the first effort to systematically and comprehensively introduce and discuss the IV methods and their applications in both causal inference and machine learning. First, we provide the formal definition of IVs and discuss the identification problem of IV regression methods under different assumptions. Second, we categorize the existing work on IV methods into three streams according to the focus on the proposed methods, including two-stage least squares with IVs, control function with IVs, and evaluation of IVs. For each stream, we present both the classical causal inference methods, and recent developments in the machine learning literature. Then, we introduce a variety of applications of IV methods in real-world scenarios and provide a summary of the available datasets and algorithms. Finally, we summarize the literature, discuss the open problems and suggest promising future research directions for IV methods and their applications. We also develop a toolkit of IVs methods reviewed in this survey at https://github.com/causal-machine-learning-lab/mliv.
translated by 谷歌翻译
许多最近的作品表明,过度分辨率隐含地降低了MIN-NORM Interpolator和Max-Maxifiers的方差。这些调查结果表明,RIDGE正则化在高维度下具有消失的益处。我们通过表明,即使在没有噪声的情况下,避免通过脊正则化的插值可以显着提高泛化。我们证明了这种现象,用于线性回归和分类的强大风险,因此提供了强大的过度装备的第一个理论结果。
translated by 谷歌翻译
多类神经网络是现代无监督的领域适应性中的常见工具,但是在适应性文献中缺乏针对其非均匀样品复杂性的适当理论描述。为了填补这一空白,我们为多类学习者提出了第一个Pac-Bayesian适应范围。我们还提出了我们考虑的多类分布差异的第一个近似技术,从而促进了界限的实际使用。对于依赖Gibbs预测因子的分歧,我们提出了其他PAC-湾适应界限,以消除对蒙特卡洛效率低下的需求。从经验上讲,我们测试了我们提出的近似技术的功效以及一些新型的设计概念,我们在范围中包括。最后,我们应用界限来分析使用神经网络的常见适应算法。
translated by 谷歌翻译
当并非观察到所有混杂因子并获得负面对照时,我们研究因果参数的估计。最近的工作表明,这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中,我们使用阴性对照来应对因果推断的主要挑战:这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件,以识别因果参数并在估计中需要进行独特性假设,并且还集中于桥梁函数的参数估计。相反,我们提供了一种新的识别策略,以避免完整性条件。而且,我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别,例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果,既可以估计桥梁功能本身,又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。
translated by 谷歌翻译
In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.
translated by 谷歌翻译
尽管现代的大规模数据集通常由异质亚群(例如,多个人口统计组或多个文本语料库)组成 - 最小化平均损失的标准实践并不能保证所有亚人群中均匀的低损失。我们提出了一个凸面程序,该过程控制给定尺寸的所有亚群中最差的表现。我们的程序包括有限样本(非参数)收敛的保证,可以保证最坏的亚群。从经验上讲,我们观察到词汇相似性,葡萄酒质量和累犯预测任务,我们最糟糕的程序学习了对不看到看不见的亚人群的模型。
translated by 谷歌翻译
尽管在各种应用中取得了显着成功,但众所周知,在呈现出分发数据时,深度学习可能会失败。为了解决这一挑战,我们考虑域泛化问题,其中使用从相关训练域系列绘制的数据进行训练,然后在不同和看不见的测试域中评估预测器。我们表明,在数据生成的自然模型和伴随的不变性条件下,域泛化问​​题等同于无限维约束的统计学习问题;此问题构成了我们的方法的基础,我们呼叫基于模型的域泛化。由于解决深度学习中受约束优化问题的固有挑战,我们利用非凸显二元性理论,在二元间隙上紧张的界限发展这种统计问题的不受约束放松。基于这种理论动机,我们提出了一种具有收敛保证的新型域泛化算法。在我们的实验中,我们在几个基准中报告了最多30个百分点的阶段概括基座,包括彩色,Camelyon17-Wilds,FMOW-Wilds和PAC。
translated by 谷歌翻译
数据增强在大型神经网络的培训中很受欢迎;但是,目前,关于如何使用增强数据的不同算法选择之间没有明确的理论比较。在本文中,我们朝这个方向迈出了一步 - 我们首先提出了对线性回归的简单新颖的分析,该分析具有标签不变性增强,这表明数据增强一致性(DAC)本质上比对增强数据的经验风险最小化更为有效(DA- erm)。然后将分析扩展到误指定的增强(即更改标签的增强),这再次证明了DAC比DA-MERM的优点。此外,我们将分析扩展到非线性模型(例如神经网络)并呈现泛化范围。最后,我们使用CIFAR-100和WIDERESNET进行DAC和DA-MER之间的DAC和DA-MER之间进行干净和苹果对比较的实验;这些共同证明了DAC的效果。
translated by 谷歌翻译