无穷小夹刀是一种估计参数模型方差的通用方法,最近也用于某些集合方法。在本文中,我们扩展了无穷小折刀,以估计任意两种模型之间的协方差。这可用于量化模型组合的不确定性,或构建测试统计信息,以比较使用相同训练数据集拟合的模型的不同模型或组合。本文中的具体示例使用了随机森林和M估计剂等模型的增强组合。我们还研究了其在XGBOOST模型的神经网络和集合上的应用。我们通过广泛的模拟及其在北京住房数据中的应用来说明差异估计的疗效,并证明了无穷小折刀协方差估算的理论一致性。
translated by 谷歌翻译
Many scientific and engineering challenges-ranging from personalized medicine to customized marketing recommendations-require an understanding of treatment effect heterogeneity. In this paper, we develop a non-parametric causal forest for estimating heterogeneous treatment effects that extends Breiman's widely used random forest algorithm. In the potential outcomes framework with unconfoundedness, we show that causal forests are pointwise consistent for the true treatment effect, and have an asymptotically Gaussian and centered sampling distribution. We also discuss a practical method for constructing asymptotic confidence intervals for the true treatment effect that are centered at the causal forest estimates. Our theoretical results rely on a generic Gaussian theory for a large family of random forest algorithms. To our knowledge, this is the first set of results that allows any type of random forest, including classification and regression forests, to be used for provably valid statistical inference. In experiments, we find causal forests to be substantially more powerful than classical methods based on nearest-neighbor matching, especially in the presence of irrelevant covariates.
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
随机森林仍然是最受欢迎的现成监督学习算法之一。尽管他们记录了良好的经验成功,但直到最近,很少有很少的理论结果来描述他们的表现和行为。在这项工作中,我们通过建立随机森林和其他受监督学习集合的融合率来推动最近的一致性和渐近正常的工作。我们培养了广义U形统计的概念,并显示在此框架内,随机森林预测可能对比以前建立的较大的子样本尺寸可能保持渐近正常。我们还提供Berry-esseen的界限,以量化这种收敛的速度,使得分列大小的角色和确定随机森林预测分布的树木的角色。
translated by 谷歌翻译
合奏方法(例如随机森林)由于其高预测精度而在应用中很受欢迎。现有文献将随机的森林预测视为无限顺序不完整的U统计量,以量化其不确定性。但是,这些方法集中在每棵树的小次采样大小上,这在理论上是有效但实际上有限的。本文基于不完整的U统计数据,开发了公正的方差估计器,该估计量可以与整体样本量相当,从而使统计推断在更广泛的实际应用中成为可能。仿真结果表明,我们的估计量没有额外的计算成本,估计器的偏见和更准确的覆盖率。我们还提出了一项局部平滑过程,以减少估计器的变化,当树木数量相对较小时,该过程显示出改善的数值性能。此外,我们研究了在特定方案下提出的方差估计器的比率一致性。特别是,我们开发了一种新的“双U统计”公式,以分析估算器差异的HOFFING分解。
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
开发了一种使用多个辅助变量的非静止空间建模算法。它将Geodatistics与Simitile随机林结合起来,以提供一种新的插值和随机仿真算法。本文介绍了该方法,并表明它具有与施加地统计学建模和定量随机森林的那些相似的一致性结果。该方法允许嵌入更简单的插值技术,例如Kriging,以进一步调节模型。该算法通过估计每个目标位置处的目标变量的条件分布来工作。这种分布的家庭称为目标变量的包络。由此,可以获得空间估计,定量和不确定性。还开发了一种从包络产生条件模拟的算法。随着它们从信封中的样本,因此通过相对变化的次要变量,趋势和可变性的相对变化局部地影响。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
交叉验证是一种广泛使用的技术来估计预测误差,但其行为很复杂且不完全理解。理想情况下,人们想认为,交叉验证估计手头模型的预测错误,适合训练数据。我们证明,普通最小二乘拟合的线性模型并非如此。相反,它估计模型的平均预测误差适合于同一人群提取的其他看不见的训练集。我们进一步表明,这种现象发生在大多数流行的预测误差估计中,包括数据拆分,自举和锦葵的CP。接下来,从交叉验证得出的预测误差的标准置信区间可能的覆盖范围远低于所需水平。由于每个数据点都用于训练和测试,因此每个折叠的测量精度之间存在相关性,因此方差的通常估计值太小。我们引入了嵌套的交叉验证方案,以更准确地估计该方差,并从经验上表明,在传统的交叉验证间隔失败的许多示例中,这种修改导致间隔大致正确覆盖。
translated by 谷歌翻译
人工神经网络(ANNS)可以被视为非线性筛子,其可以比线性筛更有效地近似高维变量的复杂功能。我们调查与经验经济学相关的中等高维协变量的非参数仪器变量(NPIV)模型的各种ANN的计算性能。我们在加权平均衍生物(WAD)上介绍了两个有效的估计和推断方法:具有最佳加权筛分最小距离(OP-OSMD)程序的正交化插件和筛分有效评分。 WAD的两个估计器都使用ANN筛来近似未知的NPIV功能,并且是根 - N渐近正常和一流的等价物。我们提供详细的从业者的配方,以实现有效的程序。这涉及选择未知NPIV的调整参数,包括在两个过程中存在的条件期望和最佳加权函数,而且还可以选择ES过程中未知RIESZ代表的调谐参数。我们比较各种仿真设计的有限样本性能,涉及涉及最多13个连续协变量,不同的非线性和协变量相关的NPIV功能。一些蒙特卡罗调查结果包括:1)调谐和优化在ANN估计中更精细; 2)给定适当调整,有各种架构的ANN估计都可以表现良好; 3)更容易调整ANN-OSMD估计比ANN EAN估算值; 4)用ANN(比样条曲线)估计变得稳定的推论更难以实现; 5)当前实现和近似理论之间存在间隙。最后,我们应用ANN NPIV以多变量协变者在两个经验需求示例中估算平均部分衍生物。
translated by 谷歌翻译
通常使用参数模型进行经验领域的参数估计,并且此类模型很容易促进统计推断。不幸的是,它们不太可能足够灵活,无法充分建模现实现象,并可能产生偏见的估计。相反,非参数方法是灵活的,但不容易促进统计推断,并且仍然可能表现出残留的偏见。我们探索了影响功能(IFS)的潜力(a)改善初始估计器而无需更多数据(b)增加模型的鲁棒性和(c)促进统计推断。我们首先对IFS进行广泛的介绍,并提出了一种神经网络方法“ Multinet”,该方法使用单个体系结构寻求合奏的多样性。我们还介绍了我们称为“ Multistep”的IF更新步骤的变体,并对不同方法提供了全面的评估。发现这些改进是依赖数据集的,这表明所使用的方法与数据生成过程的性质之间存在相互作用。我们的实验强调了从业人员需要通过不同的估计器组合进行多次分析来检查其发现的一致性。我们还表明,可以改善“自由”的现有神经网络,而无需更多数据,而无需重新训练。
translated by 谷歌翻译
假设我们观察一个随机向量$ x $从一个具有未知参数的已知家庭中的一些分发$ p $。我们问以下问题:什么时候可以将$ x $分为两部分$ f(x)$和$ g(x)$,使得两部分都足以重建$ x $自行,但两者都可以恢复$ x $完全,$(f(x),g(x))$的联合分布是贸易的吗?作为一个例子,如果$ x =(x_1,\ dots,x_n)$和$ p $是一个产品分布,那么对于任何$ m <n $,我们可以将样本拆分以定义$ f(x)=(x_1 ,\ dots,x_m)$和$ g(x)=(x_ {m + 1},\ dots,x_n)$。 Rasines和Young(2021)提供了通过使用$ x $的随机化实现此任务的替代路线,并通过加性高斯噪声来实现高斯分布数据的有限样本中的选择后推断和非高斯添加剂模型的渐近。在本文中,我们提供更一般的方法,可以通过借助贝叶斯推断的思路在有限样本中实现这种分裂,以产生(频繁的)解决方案,该解决方案可以被视为数据分裂的连续模拟。我们称我们的方法数据模糊,作为数据分割,数据雕刻和P值屏蔽的替代方案。我们举例说明了一些原型应用程序的方法,例如选择趋势过滤和其他回归问题的选择后推断。
translated by 谷歌翻译
加权最近的邻居(WNN)估计量通常用作平均回归估计的灵活且易于实现的非参数工具。袋装技术是一种优雅的方式,可以自动生成最近邻居的重量的WNN估计器;我们将最终的估计量命名为分布最近的邻居(DNN),以便于参考。然而,这种估计器缺乏分布结果,从而将其应用于统计推断。此外,当平均回归函数具有高阶平滑度时,DNN无法达到最佳的非参数收敛率,这主要是由于偏差问题。在这项工作中,我们对DNN提供了深入的技术分析,我们建议通过线性将两个DNN估计量与不同的子采样量表进行线性相结合,从而提出了DNN估计量的偏差方法,从而导致新型的两尺度DNN(TDNN(TDNN) )估计器。两尺度的DNN估计量具有等效的WNN表示,重量承认明确形式,有些则是负面的。我们证明,由于使用负权重,两尺度DNN估计器在四阶平滑度条件下估算回归函数时享有最佳的非参数收敛速率。我们进一步超出了估计,并确定DNN和两个规模的DNN均无渐进地正常,因为亚次采样量表和样本量差异到无穷大。对于实际实施,我们还使用二尺度DNN的Jacknife和Bootstrap技术提供方差估计器和分配估计器。可以利用这些估计器来构建有效的置信区间,以用于回归函数的非参数推断。建议的两尺度DNN方法的理论结果和吸引人的有限样本性能用几个数值示例说明了。
translated by 谷歌翻译
在本文中,我们的目标是提供对半监督(SS)因果推理的一般性和完全理解治疗效果。具体而言,我们考虑两个这样的估计值:(a)平均治疗效果和(b)定量处理效果,作为原型案例,在SS设置中,其特征在于两个可用的数据集:(i)标记的数据集大小$ N $,为响应和一组高维协变量以及二元治疗指标提供观察。 (ii)一个未标记的数据集,大小超过$ n $,但未观察到的响应。使用这两个数据集,我们开发了一个SS估计系列,该系列是:(1)更强大,并且(2)比其监督对应力更高的基于标记的数据集。除了通过监督方法可以实现的“标准”双重稳健结果(在一致性方面),我们还在正确指定模型中的倾向得分,我们进一步建立了我们SS估计的根本-N一致性和渐近常态。没有需要涉及的特定形式的滋扰职能。这种改善的鲁棒性来自使用大规模未标记的数据,因此通常不能在纯粹监督的环境中获得。此外,只要正确指定所有滋扰函数,我们的估计值都显示为半参数效率。此外,作为滋扰估计器的说明,我们考虑逆概率加权型核平滑估计,涉及未知的协变量转换机制,并在高维情景新颖的情况下建立其统一的收敛速率,这应该是独立的兴趣。两种模拟和实际数据的数值结果验证了我们对其监督对应物的优势,了解鲁棒性和效率。
translated by 谷歌翻译
我们研究通过应用具有多个初始化的梯度上升方法来源的估计器的统计特性。我们派生了该估算器的目标的人口数量,并研究了从渐近正常性和自举方法构成的置信区间(CIS)的性质。特别是,我们通过有限数量的随机初始化来分析覆盖范围。我们还通过反转可能性比率测试,得分测试和WALD测试来调查CI,我们表明所得到的CIS可能非常不同。即使MLE是棘手的,我们也提出了一种两个样本测试程序。此外,我们在随机初始化下分析了EM算法的性能,并通过有限数量的初始化导出了CI的覆盖范围。
translated by 谷歌翻译
We present a new distribution-free conformal prediction algorithm for sequential data (e.g., time series), called the \textit{sequential predictive conformal inference} (\texttt{SPCI}). We specifically account for the nature that the time series data are non-exchangeable, and thus many existing conformal prediction algorithms based on temporal residuals are not applicable. The main idea is to exploit the temporal dependence of conformity scores; thus, the past conformity scores contain information about future ones. Then we cast the problem of conformal prediction interval as predicting the quantile of a future residual, given a prediction algorithm. Theoretically, we establish asymptotic valid conditional coverage upon extending consistency analyses in quantile regression. Using simulation and real-data experiments, we demonstrate a significant reduction in interval width of \texttt{SPCI} compared to other existing methods under the desired empirical coverage.
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
我们提出\ textbf {jaws},这是一系列用于无分配的不确定性量化任务的包装方法,以协变量偏移为中心,以我们的核心方法\ textbf {jaw}为中心,\ textbf {ja} ckknife+ \ textbf {w}八 - 重量。下巴还包括使用高阶影响函数的JAW的计算有效\ TextBf {a} pproximations:\ textbf {jawa}。从理论上讲,我们表明JAW放宽了Jackknife+对数据交换性的假设,即使在协变量转移下,也可以实现相同的有限样本覆盖范围保证。 Jawa在轻度假设下进一步以样本量或影响函数顺序的限制接近JAW保证。此外,我们提出了一种通用方法,以重新利用任何无分配不确定性量化方法及其对风险评估的任务的保证:该任务产生了真正标签在用户指定间隔内的估计概率。然后,我们将\ textbf {Jaw-r}和\ textbf {Jawa-r}作为\ textbf {r} ISK评估的建议方法的重新定义版本。实际上,在各种有偏见的现实世界数据集中,下颌的最先进的预测推理基准都超出了间隔生成和风险评估审计任务的偏差。
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
分位数回归是统计学习中的一个基本问题,这是由于需要量化预测中的不确定性或对多样化的人群建模而不过分减少的统计学习。例如,流行病学预测,成本估算和收入预测都可以准确地量化可能的值的范围。因此,在计量经济学,统计和机器学习的多年研究中,已经为这个问题开发了许多模型。而不是提出另一种(新的)算法用于分位数回归,而是采用元观点:我们研究用于汇总任意数量的有条件分位模型的方法,以提高准确性和鲁棒性。我们考虑加权合奏,其中权重不仅可能因单个模型,而且要多于分位数和特征值而变化。我们在本文中考虑的所有模型都可以使用现代深度学习工具包适合,因此可以广泛访问(从实现的角度)和可扩展。为了提高预测分位数的准确性(或等效地,预测间隔),我们开发了确保分位数保持单调排序的工具,并采用保形校准方法。可以使用这些,而无需对原始模型的原始库进行任何修改。我们还回顾了一些围绕分数聚集和相关评分规则的基本理论,并为该文献做出了一些新的结果(例如,在分类或等渗后回归只能提高加权间隔得分的事实)。最后,我们提供了来自两个不同基准存储库的34个数据集的广泛的经验比较套件。
translated by 谷歌翻译