我们研究了对识别的非唯一麻烦的线性功能的通用推断,该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中,包括非参数仪器变量模型,未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能(例如平均治疗效应)在适当的条件下是可以识别出的,但令人讨厌的非独家性对统计推断构成了严重的挑战,因为在这种情况下,常见的滋扰估计器可能是不稳定的,并且缺乏固定限制。在本文中,我们提出了对滋扰功能的受惩罚的最小估计器,并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别,重要的是,无论滋扰是否是唯一的,它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量,并在通用高级条件下证明其渐近正态性,这提供了渐近有效的置信区间。
translated by 谷歌翻译
当并非观察到所有混杂因子并获得负面对照时,我们研究因果参数的估计。最近的工作表明,这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中,我们使用阴性对照来应对因果推断的主要挑战:这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件,以识别因果参数并在估计中需要进行独特性假设,并且还集中于桥梁函数的参数估计。相反,我们提供了一种新的识别策略,以避免完整性条件。而且,我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别,例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果,既可以估计桥梁功能本身,又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。
translated by 谷歌翻译
我们考虑在估计涉及依赖参数的高维滋扰的估计方程中估计一个低维参数。一个中心示例是因果推理中(局部)分位数处理效应((L)QTE)的有效估计方程,涉及在分位数以估计的分位数评估的协方差累积分布函数。借记机学习(DML)是一种使用灵活的机器学习方法估算高维滋扰的数据分解方法,但是将其应用于参数依赖性滋扰的问题是不切实际的。对于(L)QTE,DML要求我们学习整个协变量累积分布函数。相反,我们提出了局部偏见的机器学习(LDML),该学习避免了这一繁重的步骤,并且只需要对参数进行一次初始粗糙猜测而估算烦恼。对于(L)QTE,LDML仅涉及学习两个回归功能,这是机器学习方法的标准任务。我们证明,在松弛速率条件下,我们的估计量与使用未知的真实滋扰的不可行的估计器具有相同的有利渐近行为。因此,LDML值得注意的是,当我们必须控制许多协变量和/或灵活的关系时,如(l)QTES在((l)QTES)中,实际上可以有效地估算重要数量,例如(l)QTES。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
我们开发了对对抗估计量(“ A-估计器”)的渐近理论。它们将最大样品型估计量(“ M-估计器”)推广为平均目标,以通过某些参数最大化,而其他参数则最小化。该课程涵盖了瞬间的瞬间通用方法,生成的对抗网络以及机器学习和计量经济学方面的最新建议。在这些示例中,研究人员指出,原则上可以使用哪些方面进行估计,并且对手学习如何最佳地强调它们。我们在重点和部分识别下得出A估计剂的收敛速率,以及其参数功能的正态性。未知功能可以通过筛子(例如深神经网络)近似,我们为此提供简化的低级条件。作为推论,我们获得了神经网络估计剂的正态性,克服了文献先前确定的技术问题。我们的理论产生了有关各种A估计器的新成果,为它们在最近的应用中的成功提供了直觉和正式的理由。
translated by 谷歌翻译
In many investigations, the primary outcome of interest is difficult or expensive to collect. Examples include long-term health effects of medical interventions, measurements requiring expensive testing or follow-up, and outcomes only measurable on small panels as in marketing. This reduces effective sample sizes for estimating the average treatment effect (ATE). However, there is often an abundance of observations on surrogate outcomes not of primary interest, such as short-term health effects or online-ad click-through. We study the role of such surrogate observations in the efficient estimation of treatment effects. To quantify their value, we derive the semiparametric efficiency bounds on ATE estimation with and without the presence of surrogates and several intermediary settings. The difference between these characterizes the efficiency gains from optimally leveraging surrogates. We study two regimes: when the number of surrogate observations is comparable to primary-outcome observations and when the former dominates the latter. We take an agnostic missing-data approach circumventing strong surrogate conditions previously assumed. To leverage surrogates' efficiency gains, we develop efficient ATE estimation and inference based on flexible machine-learning estimates of nuisance functions appearing in the influence functions we derive. We empirically demonstrate the gains by studying the long-term earnings effect of job training.
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
我们研究了具有连续状态的可观察到的马尔可夫决策过程(POMDPS)的非政策评估问题(OPE)。由最近提出的近端因果推理框架的动机,我们开发了一个非参数识别结果,以通过时间依赖性代理变量的帮助通过所谓的V-bridge函数来估算策略值。然后,我们开发一种拟合的Q评估类型算法来递归估算V桥功能,其中每个步骤都解决了非参数仪器变量(NPIV)问题。通过分析这个具有挑战性的顺序NPIV问题,我们建立了用于估计V桥功能的有限样本误差界限,并因此根据样本量,地平线和所谓(本地)度量来评估策略值,以评估策略值每个步骤都不适。据我们所知,这是非参数模型下POMDP中OPE绑定的第一个有限样本误差。
translated by 谷歌翻译
Many problems in causal inference and economics can be formulated in the framework of conditional moment models, which characterize the target function through a collection of conditional moment restrictions. For nonparametric conditional moment models, efficient estimation often relies on preimposed conditions on various measures of ill-posedness of the hypothesis space, which are hard to validate when flexible models are used. In this work, we address this issue by proposing a procedure that automatically learns representations with controlled measures of ill-posedness. Our method approximates a linear representation defined by the spectral decomposition of a conditional expectation operator, which can be used for kernelized estimators and is known to facilitate minimax optimal estimation in certain settings. We show this representation can be efficiently estimated from data, and establish L2 consistency for the resulting estimator. We evaluate the proposed method on proximal causal inference tasks, exhibiting promising performance on high-dimensional, semi-synthetic data.
translated by 谷歌翻译
我们解决了在没有观察到的混杂的存在下的因果效应估计的问题,但是观察到潜在混杂因素的代理。在这种情况下,我们提出了两种基于内核的方法,用于非线性因果效应估计:(a)两阶段回归方法,以及(b)最大矩限制方法。我们专注于近端因果学习设置,但是我们的方法可以用来解决以弗雷霍尔姆积分方程为特征的更广泛的逆问题。特别是,我们提供了在非线性环境中解决此问题的两阶段和矩限制方法的统一视图。我们为每种算法提供一致性保证,并证明这些方法在合成数据和模拟现实世界任务的数据上获得竞争结果。特别是,我们的方法优于不适合利用代理变量的早期方法。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
我们在使用函数近似的情况下,在使用最小的Minimax方法估算这些功能时,使用功能近似来实现函数近似和$ q $ functions的理论表征。在各种可靠性和完整性假设的组合下,我们表明Minimax方法使我们能够实现重量和质量功能的快速收敛速度,其特征在于关键的不平等\ citep {bartlett2005}。基于此结果,我们分析了OPE的收敛速率。特别是,我们引入了新型的替代完整性条件,在该条件下,OPE是可行的,我们在非尾部环境中以一阶效率提出了第一个有限样本结果,即在领先期限中具有最小的系数。
translated by 谷歌翻译
负面对照是在存在未衡量混杂的情况下学习治疗与结果之间因果关系的策略。但是,如果有两个辅助变量可用:阴性对照治疗(对实际结果没有影响),并且可以确定治疗效果,并且可以识别出负面对照的结果(不受实际治疗的影响)。这些辅助变量也可以看作是一组传统控制变量的代理,并且与仪器变量相似。我提出了一种基于内核脊回归的算法系列,用于学习非参数治疗效果,并具有阴性对照。例子包括剂量反应曲线,具有分布转移的剂量反应曲线以及异质治疗效果。数据可能是离散的或连续的,并且低,高或无限的尺寸。我证明一致性均匀,并提供有限的收敛速率。我使用宾夕法尼亚州1989年至1991年之间在宾夕法尼亚州的单身人士出生的数据集对婴儿的出生体重进行了吸烟的剂量反应曲线,以调整未观察到的混杂因素。
translated by 谷歌翻译
Wasserstein的分布在强大的优化方面已成为强大估计的有力框架,享受良好的样本外部性能保证,良好的正则化效果以及计算上可易处理的双重重新纠正。在这样的框架中,通过将最接近经验分布的所有概率分布中最接近的所有概率分布中最小化的最差预期损失来最大程度地减少估计量。在本文中,我们提出了一个在噪声线性测量中估算未知参数的Wasserstein分布稳定的M估计框架,我们专注于分析此类估计器的平方误差性能的重要且具有挑战性的任务。我们的研究是在现代的高维比例状态下进行的,在该状态下,环境维度和样品数量都以相对的速度进行编码,该速率以编码问题的下/过度参数化的比例。在各向同性高斯特征假设下,我们表明可以恢复平方误差作为凸 - 串联优化问题的解,令人惊讶的是,它在最多四个标量变量中都涉及。据我们所知,这是在Wasserstein分布强劲的M估计背景下研究此问题的第一项工作。
translated by 谷歌翻译
因果推理,经济学以及更普遍的一般机器学习中的重要问题可以表示为条件力矩限制,但是估计变得具有挑战性,因为它需要解决无条件的力矩限制的连续性。以前的工作通过将广义的矩(GMM)方法扩展到连续矩限制来解决此问题。相比之下,广义经验可能性(GEL)提供了一个更通用的框架,并且与基于GMM的估计器相比,已显示出具有优惠的小样本特性。为了从机器学习的最新发展中受益,我们提供了可以利用任意模型的凝胶的功能重新重新制定。通过对所得无限尺寸优化问题的双重配方的激励,我们设计了一种实用方法并探索其渐近性能。最后,我们提供基于内核和基于神经网络的估计器实现,这些实现在两个条件矩限制问题上实现了最先进的经验绩效。
translated by 谷歌翻译
我们显示基于光谱正则化的估计变换到一类非识别线性不良逆模型中的结构参数的最佳近似。重要的是,这种融合在均匀和希尔伯特空间规范中保持。当最佳近似与结构参数重合时,我们描述了几种情况,或者至少合理地近似,并且讨论我们的结果在部分识别设置中是如何有用的。最后,我们记录了识别失败对正规化估计器的线性功能的渐近分布具有重要意义,该估算器可以具有加权Chi平方组分。该理论被示出了各种高维和非参数IV回归。
translated by 谷歌翻译
在TAN(2006)边缘敏感模型下,在不观察到的混淆存在下构建平均处理效应的界限问题。结合涉及对冲倾向分数的现有表征具有对问题的新的分布稳健特征,我们提出了我们称之为“双重有效/双重尖锐”(DVD)估计的这些界限的新颖估算器。双重清晰度对应于DVD估计始终估计灵敏度模型所暗示的最有可能(即,夏普)的界限,即使当所有滋扰参数都适当一致时,即使在两个滋扰参数中的一个被击败并实现半污染参数之一。双倍有效性是部分识别的全新财产:DVD估计仍然提供有效,但即使在大多数滋扰参数都被遗漏时,仍然没有锐利。实际上,即使在DVDS点估计无法渐近正常的情况下,标准沃尔德置信区间也可能保持有效。在二进制结果的情况下,DVD估计是特别方便的并且在结果回归和倾向评分方面具有闭合形式的表达。我们展示了模拟研究中的DVD估计,以及对右心导管插入的案例研究。
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
In various fields of data science, researchers are often interested in estimating the ratio of conditional expectation functions (CEFR). Specifically in causal inference problems, it is sometimes natural to consider ratio-based treatment effects, such as odds ratios and hazard ratios, and even difference-based treatment effects are identified as CEFR in some empirically relevant settings. This chapter develops the general framework for estimation and inference on CEFR, which allows the use of flexible machine learning for infinite-dimensional nuisance parameters. In the first stage of the framework, the orthogonal signals are constructed using debiased machine learning techniques to mitigate the negative impacts of the regularization bias in the nuisance estimates on the target estimates. The signals are then combined with a novel series estimator tailored for CEFR. We derive the pointwise and uniform asymptotic results for estimation and inference on CEFR, including the validity of the Gaussian bootstrap, and provide low-level sufficient conditions to apply the proposed framework to some specific examples. We demonstrate the finite-sample performance of the series estimator constructed under the proposed framework by numerical simulations. Finally, we apply the proposed method to estimate the causal effect of the 401(k) program on household assets.
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译