In a high dimensional linear predictive regression where the number of potential predictors can be larger than the sample size, we consider using LASSO, a popular L1-penalized regression method, to estimate the sparse coefficients when many unit root regressors are present. Consistency of LASSO relies on two building blocks: the deviation bound of the cross product of the regressors and the error term, and the restricted eigenvalue of the Gram matrix of the regressors. In our setting where unit root regressors are driven by temporal dependent non-Gaussian innovations, we establish original probabilistic bounds for these two building blocks. The bounds imply that the rates of convergence of LASSO are different from those in the familiar cross sectional case. In practical applications given a mixture of stationary and nonstationary predictors, asymptotic guarantee of LASSO is preserved if all predictors are scale-standardized. In an empirical example of forecasting the unemployment rate with many macroeconomic time series, strong performance is delivered by LASSO when the initial specification is guided by macroeconomic domain expertise.
translated by 谷歌翻译
This paper provides estimation and inference methods for a conditional average treatment effects (CATE) characterized by a high-dimensional parameter in both homogeneous cross-sectional and unit-heterogeneous dynamic panel data settings. In our leading example, we model CATE by interacting the base treatment variable with explanatory variables. The first step of our procedure is orthogonalization, where we partial out the controls and unit effects from the outcome and the base treatment and take the cross-fitted residuals. This step uses a novel generic cross-fitting method we design for weakly dependent time series and panel data. This method "leaves out the neighbors" when fitting nuisance components, and we theoretically power it by using Strassen's coupling. As a result, we can rely on any modern machine learning method in the first step, provided it learns the residuals well enough. Second, we construct an orthogonal (or residual) learner of CATE -- the Lasso CATE -- that regresses the outcome residual on the vector of interactions of the residualized treatment with explanatory variables. If the complexity of CATE function is simpler than that of the first-stage regression, the orthogonal learner converges faster than the single-stage regression-based learner. Third, we perform simultaneous inference on parameters of the CATE function using debiasing. We also can use ordinary least squares in the last two steps when CATE is low-dimensional. In heterogeneous panel data settings, we model the unobserved unit heterogeneity as a weakly sparse deviation from Mundlak (1978)'s model of correlated unit effects as a linear function of time-invariant covariates and make use of L1-penalization to estimate these models. We demonstrate our methods by estimating price elasticities of groceries based on scanner data. We note that our results are new even for the cross-sectional (i.i.d) case.
translated by 谷歌翻译
我们考虑一个高维模型,其中观察到时间和空间的变量。该模型由包含时间滞后的时空回归和因变量的空间滞后组成。与古典空间自回归模型不同,我们不依赖于预定的空间交互矩阵,但从数据中推断所有空间交互。假设稀疏性,我们通过惩罚一组Yule-Walker方程来估计完全数据驱动的空间和时间依赖。这种正则化可以留下非结构化,但我们还提出了当观察结果源自空间网格(例如卫星图像)时定制的收缩程序。推导有限的样本误差界限,并且在渐近框架中建立估计一致性,其中样本大小和空间单元的数量共同偏离。外源性变量也可以包括在内。与竞争程序相比,仿真练习表现出强大的有限样本性能。作为一个实证应用,我们模型卫星测量了伦敦的No2浓度。我们的方法通过竞争力的基准提供预测,我们发现了强烈的空间互动的证据。
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
由于在数据稀缺的设置中,交叉验证的性能不佳,我们提出了一个新颖的估计器,以估计数据驱动的优化策略的样本外部性能。我们的方法利用优化问题的灵敏度分析来估计梯度关于数据中噪声量的最佳客观值,并利用估计的梯度将策略的样本中的表现为依据。与交叉验证技术不同,我们的方法避免了为测试集牺牲数据,在训练和因此非常适合数据稀缺的设置时使用所有数据。我们证明了我们估计量的偏见和方差范围,这些问题与不确定的线性目标优化问题,但已知的,可能是非凸的,可行的区域。对于更专业的优化问题,从某种意义上说,可行区域“弱耦合”,我们证明结果更强。具体而言,我们在估算器的错误上提供明确的高概率界限,该估计器在策略类别上均匀地保持,并取决于问题的维度和策略类的复杂性。我们的边界表明,在轻度条件下,随着优化问题的尺寸的增长,我们的估计器的误差也会消失,即使可用数据的量仍然很小且恒定。说不同的是,我们证明我们的估计量在小型数据中的大规模政权中表现良好。最后,我们通过数值将我们提出的方法与最先进的方法进行比较,通过使用真实数据调度紧急医疗响应服务的案例研究。我们的方法提供了更准确的样本外部性能估计,并学习了表现更好的政策。
translated by 谷歌翻译
本文为信号去噪提供了一般交叉验证框架。然后将一般框架应用于非参数回归方法,例如趋势过滤和二元推车。然后显示所得到的交叉验证版本以获得最佳调谐的类似物所熟知的几乎相同的收敛速度。没有任何先前的趋势过滤或二元推车的理论分析。为了说明框架的一般性,我们还提出并研究了两个基本估算器的交叉验证版本;套索用于高维线性回归和矩阵估计的奇异值阈值阈值。我们的一般框架是由Chatterjee和Jafarov(2015)的想法的启发,并且可能适用于使用调整参数的广泛估算方法。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
作为一种特殊的无限级矢量自回旋(VAR)模型,矢量自回归移动平均值(VARMA)模型比广泛使用的有限级var模型可以捕获更丰富的时间模式。然而,长期以来,其实用性一直受到其不可识别性,计算疾病性和解释相对难度的阻碍。本文介绍了一种新颖的无限级VAR模型,该模型不仅避免了VARMA模型的缺点,而且继承了其有利的时间模式。作为另一个有吸引力的特征,可以单独解释该模型的时间和横截面依赖性结构,因为它们的特征是不同的参数集。对于高维时间序列,这种分离激发了我们对确定横截面依赖性的参数施加稀疏性。结果,可以在不牺牲任何时间信息的情况下实现更高的统计效率和可解释性。我们为提出的模型引入了一个$ \ ell_1 $调查估计量,并得出相应的非反应误差边界。开发了有效的块坐标下降算法和一致的模型顺序选择方法。拟议方法的优点得到了模拟研究和现实世界的宏观经济数据分析的支持。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
当我们对优化模型中的不确定参数进行观察以及对协变量的同时观察时,我们研究了数据驱动决策的优化。鉴于新的协变量观察,目标是选择一个决定以此观察为条件的预期成本的决定。我们研究了三个数据驱动的框架,这些框架将机器学习预测模型集成在随机编程样本平均值近似(SAA)中,以近似解决该问题的解决方案。 SAA框架中的两个是新的,并使用了场景生成的剩余预测模型的样本外残差。我们研究的框架是灵活的,并且可以容纳参数,非参数和半参数回归技术。我们在数据生成过程,预测模型和随机程序中得出条件,在这些程序下,这些数据驱动的SaaS的解决方案是一致且渐近最佳的,并且还得出了收敛速率和有限的样本保证。计算实验验证了我们的理论结果,证明了我们数据驱动的公式比现有方法的潜在优势(即使预测模型被误解了),并说明了我们在有限的数据制度中新的数据驱动配方的好处。
translated by 谷歌翻译
交叉验证是在许多非参数回归问题中调整参数选择的标准方法。然而,它在变化点回归中的使用不太常见,也许由于其预测误差的标准可能似乎允许小的虚假变化,因此不太适合估计变化点的数量和位置。我们表明,实际上,具有平方误差损失的交叉验证问题更严重,可以导致系统的减少或过度估计变化点的数量,以及在更改的简单设置中的平均功能的高度次优估计很容易检测到。我们提出了两种简单的方法来解决这些问题,第一个涉及使用绝对误差而不是平方误差损失,以及第二个涉及修改所用的熔断集。对于后者,我们提供了允许一致估计一般变更点估计程序的变化点数的条件。我们显示这些条件对于使用新结果的最佳分区满足其在提供错误数量的更改点时的性能。数值实验表明,特别是当错误分布良好的调整参数选择时,特别是使用经典调谐参数选择的绝对误差方法竞争,但可以在错过的模型中显着优于这些。 CRAN上的R包CrossValidationCP中提供了我们的方法。
translated by 谷歌翻译
本文提出了在多阶段实验的背景下的异质治疗效应的置信区间结构,以$ N $样品和高维,$ D $,混淆。我们的重点是$ d \ gg n $的情况,但获得的结果也适用于低维病例。我们展示了正则化估计的偏差,在高维变焦空间中不可避免,具有简单的双重稳固分数。通过这种方式,不需要额外的偏差,并且我们获得root $ N $推理结果,同时允许治疗和协变量的多级相互依赖性。记忆财产也没有假设;治疗可能取决于所有先前的治疗作业以及以前的所有多阶段混淆。我们的结果依赖于潜在依赖的某些稀疏假设。我们发现具有动态处理的强大推理所需的新产品率条件。
translated by 谷歌翻译
我们研究了称为“乐观速率”(Panchenko 2002; Srebro等,2010)的统一收敛概念,用于与高斯数据的线性回归。我们的精致分析避免了现有结果中的隐藏常量和对数因子,这已知在高维设置中至关重要,特别是用于了解插值学习。作为一个特殊情况,我们的分析恢复了Koehler等人的保证。(2021年),在良性过度的过度条件下,严格地表征了低规范内插器的人口风险。但是,我们的乐观速度绑定还分析了具有任意训练错误的预测因子。这使我们能够在随机设计下恢复脊和套索回归的一些经典统计保障,并有助于我们在过度参数化制度中获得精确了解近端器的过度风险。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
We study non-parametric estimation of the value function of an infinite-horizon $\gamma$-discounted Markov reward process (MRP) using observations from a single trajectory. We provide non-asymptotic guarantees for a general family of kernel-based multi-step temporal difference (TD) estimates, including canonical $K$-step look-ahead TD for $K = 1, 2, \ldots$ and the TD$(\lambda)$ family for $\lambda \in [0,1)$ as special cases. Our bounds capture its dependence on Bellman fluctuations, mixing time of the Markov chain, any mis-specification in the model, as well as the choice of weight function defining the estimator itself, and reveal some delicate interactions between mixing time and model mis-specification. For a given TD method applied to a well-specified model, its statistical error under trajectory data is similar to that of i.i.d. sample transition pairs, whereas under mis-specification, temporal dependence in data inflates the statistical error. However, any such deterioration can be mitigated by increased look-ahead. We complement our upper bounds by proving minimax lower bounds that establish optimality of TD-based methods with appropriately chosen look-ahead and weighting, and reveal some fundamental differences between value function estimation and ordinary non-parametric regression.
translated by 谷歌翻译
考虑一个面板数据设置,其中可获得对个人的重复观察。通常可以合理地假设存在共享观察特征的类似效果的个体组,但是分组通常提前未知。我们提出了一种新颖的方法来估计普通面板数据模型的这种未观察到的分组。我们的方法明确地估计各个参数估计中的不确定性,并且在每个人上具有大量的个体和/或重复测量的计算可行。即使在单个数据不可用的情况下,也可以应用开发的想法,并且仅向研究人员提供参数估计与某种量化的不确定性。
translated by 谷歌翻译
本文介绍了用于在不同频率下采样的重尾依赖面板数据的结构化机器学习回归。我们专注于稀疏组的套索正规化。这种类型的正则化可以利用混合频率序列面板数据结构并提高估计的质量。我们获得了汇集和固定效果的Oracle不等式稀疏组套索面板数据估算器认识到财务和经济数据可能具有脂肪尾。为此,我们利用了由盗版$ \ Tai $ -Mixing流程组成的面板数据的新Fuk-Nagaev集中不等式。
translated by 谷歌翻译
由于其出色的经验表现,随机森林是过去十年中使用的机器学习方法之一。然而,由于其黑框的性质,在许多大数据应用中很难解释随机森林的结果。量化各个特征在随机森林中的实用性可以大大增强其解释性。现有的研究表明,一些普遍使用的特征对随机森林的重要性措施遭受了偏见问题。此外,对于大多数现有方法,缺乏全面的规模和功率分析。在本文中,我们通过假设检验解决了问题,并提出了一个自由化特征 - 弥散性相关测试(事实)的框架,以评估具有偏见性属性的随机森林模型中给定特征的重要性,我们零假设涉及该特征是否与所有其他特征有条件地独立于响应。关于高维随机森林一致性的一些最新发展,对随机森林推断的这种努力得到了赋予的能力。在存在功能依赖性的情况下,我们的事实测试的香草版可能会遇到偏见问题。我们利用偏置校正的不平衡和调节技术。我们通过增强功率的功能转换将合奏的想法进一步纳入事实统计范围。在相当普遍的具有依赖特征的高维非参数模型设置下,我们正式确定事实可以提供理论上合理的随机森林具有P值,并通过非催化分析享受吸引人的力量。新建议的方法的理论结果和有限样本优势通过几个模拟示例和与Covid-19的经济预测应用进行了说明。
translated by 谷歌翻译
嵌套模拟涉及通过模拟估算条件期望的功能。在本文中,我们提出了一种基于内核RIDGE回归的新方法,利用作为多维调节变量的函数的条件期望的平滑度。渐近分析表明,随着仿真预算的增加,所提出的方法可以有效地减轻了对收敛速度的维度诅咒,只要条件期望足够平滑。平滑度桥接立方根收敛速度之间的间隙(即标准嵌套模拟的最佳速率)和平方根收敛速率(即标准蒙特卡罗模拟的规范率)。我们通过来自投资组合风险管理和输入不确定性量化的数值例子来证明所提出的方法的性能。
translated by 谷歌翻译