在本文中,我们解决了在涉及大规模数据的设置中进行统计推断的问题,这些数据可能是高度的,并且被异常值污染。数据的大量和维度需要分布式处理和存储解决方案。我们提出了一个两阶段分布和强大的统计推断程序,通过促进稀疏性来应对高维模型。在第一阶段(称为模型选择)中,相关预测因子是通过将强大的LASSO估计器应用于不同数据子集的局部选择。然后,从每个计算节点中的变量选择通过投票方案融合,以找到完整数据集的稀疏基础。它以强大的方式识别相关变量。在第二阶段,采用了开发的统计上健壮的和计算高效的引导方法。实际推断构建体间隔,找到参数估计并量化标准偏差。与第1阶段类似,将局部推理的结果传达给融合中心并在此组合。通过使用分析方法,我们建立了鲁棒和计算有效的引导方法的有利统计特性,包括固定数量的预测因子和鲁棒性的一致性。提出的两阶段的鲁棒和分布式推理程序在变量选择中表现出可靠的性能和鲁棒性,即使数据是高度且受异常值污染的,找到置信区间和标准偏差的自举近似。
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
High-dimensional data can often display heterogeneity due to heteroscedastic variance or inhomogeneous covariate effects. Penalized quantile and expectile regression methods offer useful tools to detect heteroscedasticity in high-dimensional data. The former is computationally challenging due to the non-smooth nature of the check loss, and the latter is sensitive to heavy-tailed error distributions. In this paper, we propose and study (penalized) robust expectile regression (retire), with a focus on iteratively reweighted $\ell_1$-penalization which reduces the estimation bias from $\ell_1$-penalization and leads to oracle properties. Theoretically, we establish the statistical properties of the retire estimator under two regimes: (i) low-dimensional regime in which $d \ll n$; (ii) high-dimensional regime in which $s\ll n\ll d$ with $s$ denoting the number of significant predictors. In the high-dimensional setting, we carefully characterize the solution path of the iteratively reweighted $\ell_1$-penalized retire estimation, adapted from the local linear approximation algorithm for folded-concave regularization. Under a mild minimum signal strength condition, we show that after as many as $\log(\log d)$ iterations the final iterate enjoys the oracle convergence rate. At each iteration, the weighted $\ell_1$-penalized convex program can be efficiently solved by a semismooth Newton coordinate descent algorithm. Numerical studies demonstrate the competitive performance of the proposed procedure compared with either non-robust or quantile regression based alternatives.
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
异常值广泛发生在大数据应用中,可能严重影响统计估计和推理。在本文中,引入了抗强估计的框架,以强制任意给出的损耗函数。它与修剪方法密切连接,并且包括所有样本的显式外围参数,这反过来促进计算,理论和参数调整。为了解决非凸起和非体性的问题,我们开发可扩展的算法,以实现轻松和保证快速收敛。特别地,提出了一种新的技术来缓解对起始点的要求,使得在常规数据集上,可以大大减少数据重采样的数量。基于组合的统计和计算处理,我们能够超越M估计来执行非因思分析。所获得的抗性估算器虽然不一定全局甚至是局部最佳的,但在低维度和高维度中享有最小的速率最优性。回归,分类和神经网络的实验表明,在总异常值发生的情况下提出了拟议方法的优异性能。
translated by 谷歌翻译
我们提出了终止淘汰(T敲击)滤波器,是用于高维数据的快速变量选择方法。 T型爆频过滤器控制用户定义的目标假发现速率(FDR),同时最大化所选变量的数量。这是通过融合多次早期终止随机实验的解决方案来实现的。实验是在原始预测因子和多组随机产生的截止预测器的组合上进行的。提供了基于Martingale理论的FDR控制属性的有限样品证明。数值模拟表明FDR在目标水平上控制,同时允许高功率。我们在温和条件下证明了淘汰赛可以从任何单变量分布中取样。推导出所提出的方法的计算复杂性,并且通过数值模拟来说明顺序计算时间比稀疏高维设置中最强的基准方法的数量级多的数量次数。 T型爆震滤波器优于用于模拟基因组关联研究(GWAS)的FDR控制的最先进方法,而其计算时间比最强的基准方法的计算时间超过两个数量级。
translated by 谷歌翻译
我们解决了如何在没有严格缩放条件的情况下实现分布式分数回归中最佳推断的问题。由于分位数回归(QR)损失函数的非平滑性质,这是具有挑战性的,这使现有方法的使用无效。难度通过应用于本地(每个数据源)和全局目标函数的双光滑方法解决。尽管依赖局部和全球平滑参数的精致组合,但分位数回归模型是完全参数的,从而促进了解释。在低维度中,我们为顺序定义的分布式QR估计器建立了有限样本的理论框架。这揭示了通信成本和统计错误之间的权衡。我们进一步讨论并比较了基于WALD和得分型测试和重采样技术的反转的几种替代置信集结构,并详细介绍了对更极端分数系数有效的改进。在高维度中,采用了一个稀疏的框架,其中提出的双滑目标功能与$ \ ell_1 $ -penalty相辅相成。我们表明,相应的分布式QR估计器在近乎恒定的通信回合之后达到了全球收敛率。一项彻底的模拟研究进一步阐明了我们的发现。
translated by 谷歌翻译
我们讨论了具有未知IV有效性的线性仪器变量(IV)模型中识别的基本问题。我们重新审视了流行的多数和多元化规则,并表明通常没有识别条件是“且仅在总体上”。假设“最稀少的规则”,该规则等同于多数规则,但在计算算法中变得运作,我们研究并证明了基于两步选择的其他IV估计器的非convex惩罚方法的优势,就两步选择而言选择一致性和单独弱IV的适应性。此外,我们提出了一种与识别条件保持一致的替代较低的惩罚,并同时提供甲骨文稀疏结构。与先前的文献相比,针对静脉强度较弱的估计仪得出了理想的理论特性。使用模拟证明了有限样本特性,并且选择和估计方法应用于有关贸易对经济增长的影响的经验研究。
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
We study estimation and testing in the Poisson regression model with noisy high dimensional covariates, which has wide applications in analyzing noisy big data. Correcting for the estimation bias due to the covariate noise leads to a non-convex target function to minimize. Treating the high dimensional issue further leads us to augment an amenable penalty term to the target function. We propose to estimate the regression parameter through minimizing the penalized target function. We derive the L1 and L2 convergence rates of the estimator and prove the variable selection consistency. We further establish the asymptotic normality of any subset of the parameters, where the subset can have infinitely many components as long as its cardinality grows sufficiently slow. We develop Wald and score tests based on the asymptotic normality of the estimator, which permits testing of linear functions of the members if the subset. We examine the finite sample performance of the proposed tests by extensive simulation. Finally, the proposed method is successfully applied to the Alzheimer's Disease Neuroimaging Initiative study, which motivated this work initially.
translated by 谷歌翻译
提升是机器学习中最重要的发展之一。本文研究了在高维环境中量身定制的$ l_2 $增强的收敛速度。此外,我们介绍了所谓的\ textquotedblleft后升后\ textquotedblright。这是一个选择后的估计器,将普通最小二乘适用于在第一阶段选择的变量,以$ l_2 $增强。另一个变体是\ textquotedblleft正交增强\ texquotedblright \,在每个步骤之后,进行正交投影。我们表明,$ L_2 $的提升和正交增强都在稀疏,高维的环境中达到与Lasso相同的收敛速度。我们表明,经典$ L_2 $增强的收敛速率取决于稀疏特征值常数所描述的设计矩阵。为了显示后者的结果,我们基于分析$ L_2 $增强的重新审视行为,为纯贪婪算法得出了新的近似结果。我们还引入了可行的早期停止规则,可以轻松地实施和使用应用程序。我们的结果还允许在文献中缺少Lasso和Boosting之间进行直接比较。最后,我们介绍了模拟研究和应用,以说明我们的理论结果的相关性,并提供对增强的实际方面的见解。在这些模拟研究中,$ L_2 $提升明显优于套索。
translated by 谷歌翻译
组选择的最佳子集(BSG)是选择一小部分非重叠组以在响应变量上获得最佳解释性的过程。它吸引了越来越多的关注,并且在实践中具有深远的应用。但是,由于BSG在高维环境中的计算棘手性,开发用于解决BSGS的有效算法仍然是研究热点。在本文中,我们提出了一种划分的算法,该算法迭代地检测相关组并排除了无关的组。此外,再加上新的组信息标准,我们开发了一种自适应算法来确定最佳模型大小。在轻度条件下,我们的算法可以在多项式时间内以高概率确定组的最佳子集是可以证明的。最后,我们通过将它们与合成数据集和现实世界中的几种最新算法进行比较来证明我们的方法的效率和准确性。
translated by 谷歌翻译
当我们对优化模型中的不确定参数进行观察以及对协变量的同时观察时,我们研究了数据驱动决策的优化。鉴于新的协变量观察,目标是选择一个决定以此观察为条件的预期成本的决定。我们研究了三个数据驱动的框架,这些框架将机器学习预测模型集成在随机编程样本平均值近似(SAA)中,以近似解决该问题的解决方案。 SAA框架中的两个是新的,并使用了场景生成的剩余预测模型的样本外残差。我们研究的框架是灵活的,并且可以容纳参数,非参数和半参数回归技术。我们在数据生成过程,预测模型和随机程序中得出条件,在这些程序下,这些数据驱动的SaaS的解决方案是一致且渐近最佳的,并且还得出了收敛速率和有限的样本保证。计算实验验证了我们的理论结果,证明了我们数据驱动的公式比现有方法的潜在优势(即使预测模型被误解了),并说明了我们在有限的数据制度中新的数据驱动配方的好处。
translated by 谷歌翻译
在选择组套索(或普遍的变体,例如重叠,稀疏或标准化的组套索)之后,在没有选择偏见的调整的情况下,对所选参数的推断是不可靠的。在受惩罚的高斯回归设置中,现有方法为选择事件提供了调整,这些事件可以表示为数据变量中的线性不平等。然而,这种表示未能与组套索一起选择,并实质上阻碍了随后的选择后推断的范围。推论兴趣的关键问题 - 例如,推断选定变量对结果的影响 - 仍未得到解答。在本文中,我们开发了一种一致的,选择性的贝叶斯方法,通过得出似然调整因子和近似值来解决现有差距,从而消除了组中的偏见。对模拟数据和人类Connectome项目数据的实验表明,我们的方法恢复了所选组中参数的影响,同时仅支付较小的偏差调整价格。
translated by 谷歌翻译
在稀疏线性建模 - 最佳子集选择中,研究了一个看似意外的,相对不太理解的基本工具的过度选择,这最小化了对非零系数的约束的限制的剩余平方和。虽然当信噪比(SNR)高时,最佳子集选择过程通常被视为稀疏学习中的“黄金标准”,但是当SNR低时,其预测性能会恶化。特别是,它通过连续收缩方法而言,例如脊回归和套索。我们研究了高噪声制度中最佳子集选择的行为,并提出了一种基于最小二乘标准的正则化版本的替代方法。我们提出的估算员(a)在很大程度上减轻了高噪声制度的最佳次集选择的可预测性能差。 (b)相对于通过脊回归和套索的最佳预测模型,通常递送大幅稀疏模型的同时表现出有利的。我们对所提出的方法的预测性质进行广泛的理论分析,并在噪声水平高时提供相对于最佳子集选择的优越预测性能的理由。我们的估算器可以表达为混合整数二阶圆锥优化问题的解决方案,因此,来自数学优化的现代计算工具可供使用。
translated by 谷歌翻译
假设我们观察一个随机向量$ x $从一个具有未知参数的已知家庭中的一些分发$ p $。我们问以下问题:什么时候可以将$ x $分为两部分$ f(x)$和$ g(x)$,使得两部分都足以重建$ x $自行,但两者都可以恢复$ x $完全,$(f(x),g(x))$的联合分布是贸易的吗?作为一个例子,如果$ x =(x_1,\ dots,x_n)$和$ p $是一个产品分布,那么对于任何$ m <n $,我们可以将样本拆分以定义$ f(x)=(x_1 ,\ dots,x_m)$和$ g(x)=(x_ {m + 1},\ dots,x_n)$。 Rasines和Young(2021)提供了通过使用$ x $的随机化实现此任务的替代路线,并通过加性高斯噪声来实现高斯分布数据的有限样本中的选择后推断和非高斯添加剂模型的渐近。在本文中,我们提供更一般的方法,可以通过借助贝叶斯推断的思路在有限样本中实现这种分裂,以产生(频繁的)解决方案,该解决方案可以被视为数据分裂的连续模拟。我们称我们的方法数据模糊,作为数据分割,数据雕刻和P值屏蔽的替代方案。我们举例说明了一些原型应用程序的方法,例如选择趋势过滤和其他回归问题的选择后推断。
translated by 谷歌翻译
本文旨在提出和理论上分析一种新的分布式方案,用于稀疏线性回归和特征选择。主要目标是根据来自未知稀疏线性模型的嘈杂观测来了解高维数据集的几个因果特征。但是,在$ \ mathbb {r} ^ p $中包含$ n $ data样本的假定培训集已经在大型网络上分发,以通过极低的带宽链路连接的$ n $客户端。此外,我们考虑渐近配置$ 1 \ ll n \ ll n \ ll p $。为了从整个数据集推断出原因尺寸,我们提出了一种简单但有效的网络中的信息共享方法。在这方面,我们理论上表明,可以可靠地恢复真正的因果特征,其中o的$ o o \ lex(n \ log p \ light)$跨越网络。与将所有样本传输到单个节点(集中式场景)的微小情况相比,这产生了显着降低的通信成本,该沟通成本是需要$ o \ lef(np \右)$传输。诸如ADMM的更复杂的方案仍然具有$ o ox的通信复杂性(NP \右)$。令人惊讶的是,我们的样本复杂性被证明是与每个节点中固定性能测量的最佳集中方法的相同(最多常数因素),而NA \“{i} ve分散技术的最佳集中方法以$线性地增长N $。本文的理论担保是基于Javanmard等人的最近脱叠套索的分析框架。(2019),并由几个在合成和现实世界数据集上进行的几台计算机实验支持。
translated by 谷歌翻译
我们在高斯噪声的假设下使用最小的角度回归(LARS)算法来研究多次测试和变量选择。已知LARS制造分段仿射溶液路径,改变点称为Lars路径的结。我们的结果的关键是在Lars选定的变量上有一定数量的结合形式的结缔组织的确切联合法的表达,即Lars结的所谓的选择后联合法。数值实验表明了我们的研究结果的完美契合。本文提出了三个主要贡献。首先,我们在噪声水平可能未知的情况下,建立在常规设计案例中输入模型的变量测试程序。这些测试程序被称为广义$ T $ -Spacing测试(GTST),我们证明它们具有精确的非渐近水平(即,I.,I型错误被完全控制)。这延长了(Taylor等,2014)的工作,其中间距测试适用于连续结和已知方差。其次,我们在一般设计案例中介绍了一个新的精确多个假阴性测试,当噪声水平可能未知时。我们证明,该测试程序具有一般设计和未知噪声水平的完全非渐近水平。第三,我们在正交设计假设下确切地控制了虚假的发现率。提供了Monte Carlo模拟和实际数据实验,以说明我们在这种情况下的结果。基于递归函数,我们介绍了基于递归函数的Lars算法等效制定。
translated by 谷歌翻译
我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器,称为范围,通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点,从而聚类系数。我们提供了一种算法,用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值,并且在多变量情况下在块坐标血管下降过程中使用它。我们表明,利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点,只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围,也可以在CRAN上提供逻辑回归的版本。
translated by 谷歌翻译
我们在高维批处理设置中提出了统计上健壮和计算高效的线性学习方法,其中功能$ d $的数量可能超过样本量$ n $。在通用学习环境中,我们采用两种算法,具体取决于所考虑的损失函数是否为梯度lipschitz。然后,我们将我们的框架实例化,包括几种应用程序,包括香草稀疏,群 - 帕克斯和低升级矩阵恢复。对于每种应用,这导致了有效而强大的学习算法,这些算法在重尾分布和异常值的存在下达到了近乎最佳的估计率。对于香草$ S $ -SPARSITY,我们能够以重型尾巴和$ \ eta $ - 腐败的计算成本与非企业类似物相当的计算成本达到$ s \ log(d)/n $速率。我们通过开放源代码$ \ mathtt {python} $库提供了有效的算法实现文献中提出的最新方法。
translated by 谷歌翻译