仪器变量模型使我们能够确定协变量$ x $和响应$ y $之间的因果功能,即使在存在未观察到的混淆的情况下。大多数现有估计器都假定响应$ y $和隐藏混杂因素中的错误项与仪器$ z $不相关。这通常是由图形分离的动机,这一论点也证明了独立性。但是,提出独立限制会导致严格的可识别性结果。我们连接到计量经济学的现有文献,并提供了一种称为HSIC-X的实用方法,用于利用独立性,可以与任何基于梯度的学习程序结合使用。我们看到,即使在可识别的设置中,考虑到更高的矩可能会产生更好的有限样本结果。此外,我们利用独立性进行分布泛化。我们证明,只要这些移位足够强,拟议的估计器对于仪器的分布变化和最佳案例最佳变化是不变的。这些结果即使在未识别的情况下也能够得出这些结果,即仪器不足以识别因果功能。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
上下文的强盗和强化学习算法已成功用于各种交互式学习系统,例如在线广告,推荐系统和动态定价。但是,在高风险应用领域(例如医疗保健)中,它们尚未被广泛采用。原因之一可能是现有方法假定基本机制是静态的,因为它们不会在不同的环境上改变。但是,在许多现实世界中,这些机制可能会跨环境变化,这可能使静态环境假设无效。在本文中,考虑到离线上下文匪徒的框架,我们迈出了解决环境转变问题的一步。我们认为环境转移问题通过因果关系的角度,并提出了多种环境的背景匪徒,从而可以改变基本机制。我们采用因果关系文献的不变性概念,并介绍了政策不变性的概念。我们认为,仅当存在未观察到的变量时,政策不变性才有意义,并表明在这种情况下,保证在适当假设下跨环境概括最佳不变政策。我们的结果建立了因果关系,不变性和上下文土匪之间的具体联系。
translated by 谷歌翻译
当并非观察到所有混杂因子并获得负面对照时,我们研究因果参数的估计。最近的工作表明,这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中,我们使用阴性对照来应对因果推断的主要挑战:这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件,以识别因果参数并在估计中需要进行独特性假设,并且还集中于桥梁函数的参数估计。相反,我们提供了一种新的识别策略,以避免完整性条件。而且,我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别,例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果,既可以估计桥梁功能本身,又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。
translated by 谷歌翻译
我们研究了对识别的非唯一麻烦的线性功能的通用推断,该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中,包括非参数仪器变量模型,未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能(例如平均治疗效应)在适当的条件下是可以识别出的,但令人讨厌的非独家性对统计推断构成了严重的挑战,因为在这种情况下,常见的滋扰估计器可能是不稳定的,并且缺乏固定限制。在本文中,我们提出了对滋扰功能的受惩罚的最小估计器,并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别,重要的是,无论滋扰是否是唯一的,它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量,并在通用高级条件下证明其渐近正态性,这提供了渐近有效的置信区间。
translated by 谷歌翻译
因果推理,经济学以及更普遍的一般机器学习中的重要问题可以表示为条件力矩限制,但是估计变得具有挑战性,因为它需要解决无条件的力矩限制的连续性。以前的工作通过将广义的矩(GMM)方法扩展到连续矩限制来解决此问题。相比之下,广义经验可能性(GEL)提供了一个更通用的框架,并且与基于GMM的估计器相比,已显示出具有优惠的小样本特性。为了从机器学习的最新发展中受益,我们提供了可以利用任意模型的凝胶的功能重新重新制定。通过对所得无限尺寸优化问题的双重配方的激励,我们设计了一种实用方法并探索其渐近性能。最后,我们提供基于内核和基于神经网络的估计器实现,这些实现在两个条件矩限制问题上实现了最先进的经验绩效。
translated by 谷歌翻译
如今,收集来自不同环境的特征和响应对的观察已经变得越来越普遍。结果,由于分布变化,必须将学习的预测变量应用于具有不同分布的数据。一种原则性的方法是采用结构性因果模型来描述培训和测试模型,遵循不变性原则,该原理说响应的条件分布鉴于其预测因素在整个环境中保持不变。但是,当响应干预时,在实际情况下可能会违反该原则。一个自然的问题是,是否仍然可以识别其他形式的不变性来促进在看不见的环境中的预测。为了阐明这种具有挑战性的情况,我们引入了不变的匹配属性(IMP),这是通过附加功能捕获干预措施的明确关系。这导致了一种替代形式的不变性形式,该形式能够对响应进行统一的一般干预措施。我们在离散环境设置和连续环境设置下分析了我们方法的渐近概括误差,在该设置中,通过将其与半磁头变化的系数模型相关联来处理连续情况。我们提出的算法与各种实验环境中的现有方法相比表现出竞争性能。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
我们解决了在没有观察到的混杂的存在下的因果效应估计的问题,但是观察到潜在混杂因素的代理。在这种情况下,我们提出了两种基于内核的方法,用于非线性因果效应估计:(a)两阶段回归方法,以及(b)最大矩限制方法。我们专注于近端因果学习设置,但是我们的方法可以用来解决以弗雷霍尔姆积分方程为特征的更广泛的逆问题。特别是,我们提供了在非线性环境中解决此问题的两阶段和矩限制方法的统一视图。我们为每种算法提供一致性保证,并证明这些方法在合成数据和模拟现实世界任务的数据上获得竞争结果。特别是,我们的方法优于不适合利用代理变量的早期方法。
translated by 谷歌翻译
我们考虑在估计涉及依赖参数的高维滋扰的估计方程中估计一个低维参数。一个中心示例是因果推理中(局部)分位数处理效应((L)QTE)的有效估计方程,涉及在分位数以估计的分位数评估的协方差累积分布函数。借记机学习(DML)是一种使用灵活的机器学习方法估算高维滋扰的数据分解方法,但是将其应用于参数依赖性滋扰的问题是不切实际的。对于(L)QTE,DML要求我们学习整个协变量累积分布函数。相反,我们提出了局部偏见的机器学习(LDML),该学习避免了这一繁重的步骤,并且只需要对参数进行一次初始粗糙猜测而估算烦恼。对于(L)QTE,LDML仅涉及学习两个回归功能,这是机器学习方法的标准任务。我们证明,在松弛速率条件下,我们的估计量与使用未知的真实滋扰的不可行的估计器具有相同的有利渐近行为。因此,LDML值得注意的是,当我们必须控制许多协变量和/或灵活的关系时,如(l)QTES在((l)QTES)中,实际上可以有效地估算重要数量,例如(l)QTES。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
当我们对优化模型中的不确定参数进行观察以及对协变量的同时观察时,我们研究了数据驱动决策的优化。鉴于新的协变量观察,目标是选择一个决定以此观察为条件的预期成本的决定。我们研究了三个数据驱动的框架,这些框架将机器学习预测模型集成在随机编程样本平均值近似(SAA)中,以近似解决该问题的解决方案。 SAA框架中的两个是新的,并使用了场景生成的剩余预测模型的样本外残差。我们研究的框架是灵活的,并且可以容纳参数,非参数和半参数回归技术。我们在数据生成过程,预测模型和随机程序中得出条件,在这些程序下,这些数据驱动的SaaS的解决方案是一致且渐近最佳的,并且还得出了收敛速率和有限的样本保证。计算实验验证了我们的理论结果,证明了我们数据驱动的公式比现有方法的潜在优势(即使预测模型被误解了),并说明了我们在有限的数据制度中新的数据驱动配方的好处。
translated by 谷歌翻译
我们解决了如何在没有严格缩放条件的情况下实现分布式分数回归中最佳推断的问题。由于分位数回归(QR)损失函数的非平滑性质,这是具有挑战性的,这使现有方法的使用无效。难度通过应用于本地(每个数据源)和全局目标函数的双光滑方法解决。尽管依赖局部和全球平滑参数的精致组合,但分位数回归模型是完全参数的,从而促进了解释。在低维度中,我们为顺序定义的分布式QR估计器建立了有限样本的理论框架。这揭示了通信成本和统计错误之间的权衡。我们进一步讨论并比较了基于WALD和得分型测试和重采样技术的反转的几种替代置信集结构,并详细介绍了对更极端分数系数有效的改进。在高维度中,采用了一个稀疏的框架,其中提出的双滑目标功能与$ \ ell_1 $ -penalty相辅相成。我们表明,相应的分布式QR估计器在近乎恒定的通信回合之后达到了全球收敛率。一项彻底的模拟研究进一步阐明了我们的发现。
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
我们开发了对对抗估计量(“ A-估计器”)的渐近理论。它们将最大样品型估计量(“ M-估计器”)推广为平均目标,以通过某些参数最大化,而其他参数则最小化。该课程涵盖了瞬间的瞬间通用方法,生成的对抗网络以及机器学习和计量经济学方面的最新建议。在这些示例中,研究人员指出,原则上可以使用哪些方面进行估计,并且对手学习如何最佳地强调它们。我们在重点和部分识别下得出A估计剂的收敛速率,以及其参数功能的正态性。未知功能可以通过筛子(例如深神经网络)近似,我们为此提供简化的低级条件。作为推论,我们获得了神经网络估计剂的正态性,克服了文献先前确定的技术问题。我们的理论产生了有关各种A估计器的新成果,为它们在最近的应用中的成功提供了直觉和正式的理由。
translated by 谷歌翻译
我们提出了用于中介分析和动态治疗效果的内核脊回归估计。我们允许治疗,协变量和介质是离散或连续的,低,高或无限的尺寸。我们在内核矩阵操作方面提出了具有封闭式解决方案的依据,增量和分布的估算者。对于连续治疗案例,我们证明了具有有限样本速率的均匀一致性。对于离散处理案例,我们证明了根 - N一致性,高斯近似和半占用效率。我们进行仿真,然后估计美国职务团计划的介导和动态治疗效果,弱势青少年。
translated by 谷歌翻译
负面对照是在存在未衡量混杂的情况下学习治疗与结果之间因果关系的策略。但是,如果有两个辅助变量可用:阴性对照治疗(对实际结果没有影响),并且可以确定治疗效果,并且可以识别出负面对照的结果(不受实际治疗的影响)。这些辅助变量也可以看作是一组传统控制变量的代理,并且与仪器变量相似。我提出了一种基于内核脊回归的算法系列,用于学习非参数治疗效果,并具有阴性对照。例子包括剂量反应曲线,具有分布转移的剂量反应曲线以及异质治疗效果。数据可能是离散的或连续的,并且低,高或无限的尺寸。我证明一致性均匀,并提供有限的收敛速率。我使用宾夕法尼亚州1989年至1991年之间在宾夕法尼亚州的单身人士出生的数据集对婴儿的出生体重进行了吸烟的剂量反应曲线,以调整未观察到的混杂因素。
translated by 谷歌翻译
在制定政策指南时,随机对照试验(RCT)代表了黄金标准。但是,RCT通常是狭窄的,并且缺乏更广泛的感兴趣人群的数据。这些人群中的因果效应通常是使用观察数据集估算的,这可能会遭受未观察到的混杂和选择偏见。考虑到一组观察估计(例如,来自多项研究),我们提出了一个试图拒绝偏见的观察性估计值的元偏值。我们使用验证效应,可以从RCT和观察数据中推断出的因果效应。在拒绝未通过此测试的估计器之后,我们对RCT中未观察到的亚组的外推性效应产生了保守的置信区间。假设至少一个观察估计量在验证和外推效果方面是渐近正常且一致的,我们为我们算法输出的间隔的覆盖率概率提供了保证。为了促进在跨数据集的因果效应运输的设置中,我们给出的条件下,即使使用灵活的机器学习方法用于估计滋扰参数,群体平均治疗效应的双重稳定估计值也是渐近的正常。我们说明了方法在半合成和现实世界数据集上的特性,并表明它与标准的荟萃分析技术相比。
translated by 谷歌翻译