跨研究的可复制性是强大的模型评估标准,强调预测的普遍性。当训练跨研究的可复制预测模型时,至关重要的是分别合并和处理研究。我们研究了在研究中存在潜在异质性的情况下在研究中的潜在异质性之间的增强算法的增强算法,并比较了两种多研究的学习策略:1)合并所有研究并培训单个模型,以及2)多学生结合在每个研究中单独的模型,并结合产生的预测。在回归环境中,我们根据分析过渡点提供理论准则,以确定合并或合奏与线性学习者增强的合奏更有益。此外,我们表征了通过组件线性学习者提高估计误差的偏差差异分解。我们验证理论过渡点导致模拟,并说明如何指导合并与在乳腺癌基因表达数据应用中结合的决定。
translated by 谷歌翻译
在翻译,旋转和形状下定义形状和形式作为等同类 - 也是规模的,我们将广义添加剂回归扩展到平面曲线和/或地标配置的形状/形式的模型。该模型尊重响应的所得到的商几何形状,采用平方的测量距离作为损耗函数和测地响应函数来将添加剂预测器映射到形状/形状空间。为了拟合模型,我们提出了一种riemannian $ l_2 $ -boosting算法,适用于可能大量可能的参数密集型模型术语,其还产生了自动模型选择。我们通过合适的张量 - 产品分解为形状/形状空间中的(甚至非线性)协变量提供新的直观可解释的可视化。所提出的框架的有用性在于1)的野生和驯养绵羊和2)细胞形式的分析中,在生物物理模型中产生的细胞形式,以及3)在具有反应形状和形式的现实模拟研究中,具有来自a的响应形状和形式在瓶轮廓上的数据集。
translated by 谷歌翻译
我们引入了一种新颖的方式,将增强功能与高斯工艺和混合效应模型相结合。首先,在高斯过程中先前的平均函数的零或线性假设可以放松,并以灵活的非参数方式分组随机效应模型,其次,第二个在大多数增强算法中做出的独立性假设。前者有利于预测准确性和避免模型错误。后者对于有效学习固定效应预测函数和获得概率预测很重要。我们提出的算法也是用于处理培养树木中高心电图分类变量的新颖解决方案。此外,我们提出了一个扩展名,该扩展是使用维奇亚近似为高斯工艺模型缩放到大数据的,该模型依靠新的结果进行协方差参数推断。与几个模拟和现实世界数据集的现有方法相比,我们获得了提高的预测准确性。
translated by 谷歌翻译
Many scientific and engineering challenges-ranging from personalized medicine to customized marketing recommendations-require an understanding of treatment effect heterogeneity. In this paper, we develop a non-parametric causal forest for estimating heterogeneous treatment effects that extends Breiman's widely used random forest algorithm. In the potential outcomes framework with unconfoundedness, we show that causal forests are pointwise consistent for the true treatment effect, and have an asymptotically Gaussian and centered sampling distribution. We also discuss a practical method for constructing asymptotic confidence intervals for the true treatment effect that are centered at the causal forest estimates. Our theoretical results rely on a generic Gaussian theory for a large family of random forest algorithms. To our knowledge, this is the first set of results that allows any type of random forest, including classification and regression forests, to be used for provably valid statistical inference. In experiments, we find causal forests to be substantially more powerful than classical methods based on nearest-neighbor matching, especially in the presence of irrelevant covariates.
translated by 谷歌翻译
在存在分组的协变量的情况下,我们提出了一个增强框架,以允许在组内和之间实施稀疏性。通过使用调整后的自由度同时使用组件和小组梯度提升,可以通过增强来拟合具有与稀疏组套索相似的模型。我们表明,组内和组间稀疏性可以通过混合参数来控制,并讨论稀疏组套索中混合参数的相似性和差异。通过模拟,基因数据以及农业数据,我们显示了该估计器的有效性和预测性竞争力。数据和模拟表明,在存在分组变量的情况下,稀疏组增强的使用与偏差的变量选择较少,并且与组件的增强相比,可预测性较小。此外,我们提出了一种减少偏见通过自由程度来提高组件的偏见的方法。
translated by 谷歌翻译
提升是机器学习中最重要的发展之一。本文研究了在高维环境中量身定制的$ l_2 $增强的收敛速度。此外,我们介绍了所谓的\ textquotedblleft后升后\ textquotedblright。这是一个选择后的估计器,将普通最小二乘适用于在第一阶段选择的变量,以$ l_2 $增强。另一个变体是\ textquotedblleft正交增强\ texquotedblright \,在每个步骤之后,进行正交投影。我们表明,$ L_2 $的提升和正交增强都在稀疏,高维的环境中达到与Lasso相同的收敛速度。我们表明,经典$ L_2 $增强的收敛速率取决于稀疏特征值常数所描述的设计矩阵。为了显示后者的结果,我们基于分析$ L_2 $增强的重新审视行为,为纯贪婪算法得出了新的近似结果。我们还引入了可行的早期停止规则,可以轻松地实施和使用应用程序。我们的结果还允许在文献中缺少Lasso和Boosting之间进行直接比较。最后,我们介绍了模拟研究和应用,以说明我们的理论结果的相关性,并提供对增强的实际方面的见解。在这些模拟研究中,$ L_2 $提升明显优于套索。
translated by 谷歌翻译
我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器,称为范围,通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点,从而聚类系数。我们提供了一种算法,用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值,并且在多变量情况下在块坐标血管下降过程中使用它。我们表明,利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点,只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围,也可以在CRAN上提供逻辑回归的版本。
translated by 谷歌翻译
Function estimation/approximation is viewed from the perspective of numerical optimization in function space, rather than parameter space. A connection is made between stagewise additive expansions and steepestdescent minimization. A general gradient descent "boosting" paradigm is developed for additive expansions based on any fitting criterion. Specific algorithms are presented for least-squares, least absolute deviation, and Huber-M loss functions for regression, and multiclass logistic likelihood for classification. Special enhancements are derived for the particular case where the individual additive components are regression trees, and tools for interpreting such "TreeBoost" models are presented. Gradient boosting of regression trees produces competitive, highly robust, interpretable procedures for both regression and classification, especially appropriate for mining less than clean data. Connections between this approach and the boosting methods of Freund and Shapire and Friedman, Hastie and Tibshirani are discussed.
translated by 谷歌翻译
机器学习回归方法允许估计函数,而没有不现实的参数假设。尽管它们可以在预测误差方面表现出色,但大多数缺乏半参数有效估计(例如TMLE,AIPW)等参数(例如平均治疗效应)所需的理论收敛速率。高度自适应的拉索(HAL)是唯一证明可以迅速收敛的回归方法,即与预测因子的维度无关的大量功能。不幸的是,HAL在计算上不可扩展。在本文中,我们建立在HAL理论的基础上,以构建一种选择性自适应拉索(SAL),这是一种保留HAL的无尺寸,非参数收敛速率的新算法,但也可以在计算上扩展到大量数据集。为此,我们证明了一些与嵌套唐斯克类中经验损失最小化有关的一般理论结果。我们由此产生的算法是一种具有自适应学习率的梯度树的形式,这使得使用现成的软件实现快速而微不足道。最后,我们表明我们的算法保留了在多样化的现实世界数据集上提高标准梯度的性能。 SAL在许多大数据设置中实际上使半参数有效估计器在理论上合理。
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
我们提出了一种具有多组特征的监督学习的新方法(“视图”)。合作学习将通常的平方错误丢失与“协议”惩罚相结合,以鼓励从不同数据视图中的预测同意。通过改变协议罚款的重量,我们得到了包括众所周知的早期和晚期融合方法的解决方案。合作学习以自适应方式选择协议(或融合)的程度,使用验证集或交叉验证来估计测试设置预测误差。我们的拟合程序的一个版本是模块化的,其中可以选择适合不同数据视图的不同拟合机制(例如套索,随机森林,升压,神经网络)。在协同正规化线性回归的设置中,该方法将套索罚款与协议处罚相结合。当不同的数据视图共享某些潜在的关系时,该方法可以尤其强大,因为我们的目的是加强的一些基础关系,而每个视图都有其特殊的噪音,我们的目标是减少。我们说明了我们提出的模拟和实际数据示例的提出方法的有效性。
translated by 谷歌翻译
在协作学习中,学习者协调以增强他们的每个学习表现。从任何学习者的角度来看,一个关键的挑战是滤除不合格的合作者。我们建议一个名为Meta聚类的框架来应对挑战。与聚类数据点的经典问题不同,元聚类将学习者分类。假设每个学习者都在独立的本地数据集上执行监督回归,我们建议选择一种选择 - 交换群集(SEC)方法,以通过其基础监督功能对学习者进行分类。从理论上讲,我们可以表明SEC可以将学习者聚集到准确的协作集中。实证研究证实了理论分析,并证明SEC可以在计算上是有效的,对学习者异质性的稳健性,并且有效地增强了单人学习者的性能。另外,我们展示了如何使用提出的方法来增强数据公平性。本文的补充材料可在线获得。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
本文提出了删除 - $ D $ jackknife的概括,以解决时间序列的HyperParameter选择问题。我称之为人工删除 - $ D $ jackknife强调,这种方法用虚拟删除替代经典的去除步骤,其中观察到的数据点被人工缺失值替换。这样做保留了数据订单完好无损,并允许与时间序列的简单兼容性。此稿件显示了一种简单的例证,其中应用于调节高维弹性净矢量自动增加移动平均(Varma)模型。
translated by 谷歌翻译
在许多纵向环境中,时间变化的协变量可能不会与响应同时测量,并且通常容易出现测量误差。幼稚的最后观察前向方法会产生估计偏差,现有的基于内核的方法的收敛速率缓慢和差异很大。为了应对这些挑战,我们提出了一种新的功能校准方法,以基于稀疏功能数据和测量误差的稀疏功能数据有效地学习纵向协变量。我们的方法来自功能性主成分分析,从观察到的异步和容易出现错误的协变量值中校准未观察到的同步协变量值,并广泛适用于异步纵向回归与时间传播或时间变化的系数。对于随时间不变系数的回归,我们的估计量是渐进的,无偏的,根-N一致的,并且渐近地正常。对于时变系数模型,我们的估计器具有最佳的变化系数收敛速率,而校准的渐近方差膨胀。在这两种情况下,我们的估计量都具有优于现有方法的渐近特性。拟议方法的可行性和可用性通过模拟和全国妇女健康研究的应用来验证,这是一项大规模的多站点纵向研究,对中年妇女健康。
translated by 谷歌翻译
本文提出了一种基于图形的正则化回归估计器 - 分层特征回归(HFR) - 从机器学习和图论域名的洞察力调动洞察力,以估算线性回归的鲁棒参数。估计器构造一个监督的特征图,该监督特征图沿其边缘分解参数,首先调整常见变化并连续地将特殊性模式结合到拟合过程中。图形结构具有对组靶标的参数收缩的影响,其中收缩程度由肝异常的控制,并且基团组合物以及收缩靶数是内源性的。该方法提供了丰富的资源,以便在数据中的潜在效果结构的视觉探索,并与一系列经验和模拟回归任务的常用正则化技术面板相比,展示了良好的预测精度和多功能性。
translated by 谷歌翻译
我们考虑使用共享结构估算两个功能无向图形模型之间的差异的问题。在许多应用中,数据自然被认为是随机函数的向量而不是标量的矢量。例如,脑电图(EEG)数据更适当地被视为时间函数。在这样的问题中,不仅可以每个样本测量的函数数量大,而且每个功能都是自身是无限尺寸对象,使估计模型参数具有挑战性。这进一步复杂于曲线通常仅在离散时间点观察到。我们首先定义一个功能差异图,捕获两个功能图形模型之间的差异,并在功能性差分图定义良好时正式表征。然后,我们提出了一种方法,软件,直接估计功能差异图,而不首先估计每个图形。这在各个图形是密集的情况下,这是特别有益的,但差分图是稀疏的。我们表明,融合始终估计功能差图,即使在全面观察和离散的功能路径的高维设置中也是如此。我们通过仿真研究说明了我们方法的有限样本性质。我们还提出了一种竞争方法,该方法是关节功能图形套索,它概括了关节图形套索到功能设置。最后,我们将我们的方法应用于EEG数据,以揭示一群含有酒精使用障碍和对照组的个体之间的功能性脑连接的差异。
translated by 谷歌翻译
In a high dimensional linear predictive regression where the number of potential predictors can be larger than the sample size, we consider using LASSO, a popular L1-penalized regression method, to estimate the sparse coefficients when many unit root regressors are present. Consistency of LASSO relies on two building blocks: the deviation bound of the cross product of the regressors and the error term, and the restricted eigenvalue of the Gram matrix of the regressors. In our setting where unit root regressors are driven by temporal dependent non-Gaussian innovations, we establish original probabilistic bounds for these two building blocks. The bounds imply that the rates of convergence of LASSO are different from those in the familiar cross sectional case. In practical applications given a mixture of stationary and nonstationary predictors, asymptotic guarantee of LASSO is preserved if all predictors are scale-standardized. In an empirical example of forecasting the unemployment rate with many macroeconomic time series, strong performance is delivered by LASSO when the initial specification is guided by macroeconomic domain expertise.
translated by 谷歌翻译
交叉验证是一种广泛使用的技术来估计预测误差,但其行为很复杂且不完全理解。理想情况下,人们想认为,交叉验证估计手头模型的预测错误,适合训练数据。我们证明,普通最小二乘拟合的线性模型并非如此。相反,它估计模型的平均预测误差适合于同一人群提取的其他看不见的训练集。我们进一步表明,这种现象发生在大多数流行的预测误差估计中,包括数据拆分,自举和锦葵的CP。接下来,从交叉验证得出的预测误差的标准置信区间可能的覆盖范围远低于所需水平。由于每个数据点都用于训练和测试,因此每个折叠的测量精度之间存在相关性,因此方差的通常估计值太小。我们引入了嵌套的交叉验证方案,以更准确地估计该方差,并从经验上表明,在传统的交叉验证间隔失败的许多示例中,这种修改导致间隔大致正确覆盖。
translated by 谷歌翻译