在协作学习中,学习者协调以增强他们的每个学习表现。从任何学习者的角度来看,一个关键的挑战是滤除不合格的合作者。我们建议一个名为Meta聚类的框架来应对挑战。与聚类数据点的经典问题不同,元聚类将学习者分类。假设每个学习者都在独立的本地数据集上执行监督回归,我们建议选择一种选择 - 交换群集(SEC)方法,以通过其基础监督功能对学习者进行分类。从理论上讲,我们可以表明SEC可以将学习者聚集到准确的协作集中。实证研究证实了理论分析,并证明SEC可以在计算上是有效的,对学习者异质性的稳健性,并且有效地增强了单人学习者的性能。另外,我们展示了如何使用提出的方法来增强数据公平性。本文的补充材料可在线获得。
translated by 谷歌翻译
我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器,称为范围,通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点,从而聚类系数。我们提供了一种算法,用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值,并且在多变量情况下在块坐标血管下降过程中使用它。我们表明,利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点,只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围,也可以在CRAN上提供逻辑回归的版本。
translated by 谷歌翻译
由于样本量有限,可以准确估计研究地点(例如医院)中的个性化治疗效果。此外,隐私考虑和缺乏资源阻止站点利用其他站点的主题级数据。我们提出了一种基于树的模型平均方法,以通过利用从其他潜在异质部位得出的模型来提高目标部位条件平均治疗效果(CATE)的估计精度,而无需共享主题级数据。据我们的最佳知识,没有建立的模型平均分布式数据的方法,重点是改善治疗效果的估计。具体而言,在分布式数据网络下,我们的框架提供了一个基于CATE估算器的基于可解释的树的合奏,该集合可以跨研究站点加入模型,同时通过站点分区积极地对数据源中的异质性进行建模。通过对氧疗法对医院存活率的因果影响的现实研究证明了这种方法的表现,并得到了全面的模拟结果的支持。
translated by 谷歌翻译
现代高维方法经常采用“休稀稀物”的原则,而在监督多元学习统计学中可能面临着大量非零系数的“密集”问题。本文提出了一种新的聚类减少秩(CRL)框架,其施加了两个联合矩阵规范化,以自动分组构建预测因素的特征。 CRL比低级别建模更具可解释,并放松变量选择中的严格稀疏假设。在本文中,提出了新的信息 - 理论限制,揭示了寻求集群的内在成本,以及多元学习中的维度的祝福。此外,开发了一种有效的优化算法,其执行子空间学习和具有保证融合的聚类。所获得的定点估计器虽然不一定是全局最佳的,但在某些规则条件下享有超出标准似然设置的所需的统计准确性。此外,提出了一种新的信息标准,以及其无垢形式,用于集群和秩选择,并且具有严格的理论支持,而不假设无限的样本大小。广泛的模拟和实数据实验证明了所提出的方法的统计准确性和可解释性。
translated by 谷歌翻译
稳定性选择(Meinshausen和Buhlmann,2010)通过返回许多副页面一致选择的功能来使任何特征选择方法更稳定。我们证明(在我们的知识中,它的知识,它的第一个结果),对于包含重要潜在变量的高度相关代理的数据,套索通常选择一个代理,但与套索的稳定性选择不能选择任何代理,导致比单独的套索更糟糕的预测性能。我们介绍集群稳定性选择,这利用了从业者的知识,即数据中存在高度相关的集群,从而产生比此设置中的稳定性选择更好的特征排名。我们考虑了几种特征组合方法,包括在每个重要集群中占据各个重要集群中的特征的加权平均值,其中重量由选择集群成员的频率决定,我们显示的是比以前的提案更好地导致更好的预测模型。我们呈现来自Meinshausen和Buhlmann(2010)和Shah和Samworth(2012)的理论担保的概括,以表明集群稳定选择保留相同的保证。总之,集群稳定性选择享有两个世界的最佳选择,产生既稳定的稀疏选择集,具有良好的预测性能。
translated by 谷歌翻译
考虑一个面板数据设置,其中可获得对个人的重复观察。通常可以合理地假设存在共享观察特征的类似效果的个体组,但是分组通常提前未知。我们提出了一种新颖的方法来估计普通面板数据模型的这种未观察到的分组。我们的方法明确地估计各个参数估计中的不确定性,并且在每个人上具有大量的个体和/或重复测量的计算可行。即使在单个数据不可用的情况下,也可以应用开发的想法,并且仅向研究人员提供参数估计与某种量化的不确定性。
translated by 谷歌翻译
我们提出了一种从一组输入输出对中学习的新算法。我们的算法专为输入变量和输出变量与输出变量之间的关系而呈现出跨预测器空间的异构行为的群体设计。该算法从生成子集开始,该子集集中在输入空间中的随机点。然后培训每个子集的本地预测器。然后,这些预测变量以一种新的方式组合以产生整体预测因子。由于其与堆叠回归的方法的相似,我们称之为“使用子集堆叠”或更少学习“。我们将测试性能与在多个数据集上的最先进的方法中进行比较。我们的比较表明,较少是一种竞争的监督学习方法。此外,我们观察到,在计算时间方面较少也有效,并且允许直接并行实现。
translated by 谷歌翻译
在分布式机器学习实践中越来越受欢迎,在分布式机器学习实践中越来越受欢迎,在不共享本地数据的情况下,对算法进行了算法培训的联合学习。通常,图形结构$ g $存在于本地设备以进行通信。在这项工作中,我们考虑使用数据分布和通信异质性以及本地设备的计算能力有限的联合学习中的参数估计。我们通过在本地设备上参数化分布来编码分布异质性,并具有一组不同的$ p $维矢量。然后,我们建议在$ m $估算框架下与融合套索正则化的所有设备共同估计所有设备的参数,从而鼓励对$ g $中连接的设备上的参数进行平等估计。根据$ G $,我们可以为估计器提供一般结果,可以进一步校准以获得各种特定问题设置的收敛率。令人惊讶的是,我们的估计器在$ g $上的某些图保真度条件下达到了最佳率,就好像我们可以汇总所有共享相同分布的样本一样。如果未满足图形保真度条件,我们通过多次测试提出一个边缘选择过程,以确保最佳性。为了减轻本地计算的负担,提供了一个分散的随机版本的ADMM,收敛速率$ o(t^{ - 1} \ log t)$,其中$ t $表示迭代的数量。我们强调,我们的算法在每次迭代时仅沿$ g $的边缘传输参数,而无需保留隐私的中央机器。我们将其进一步扩展到在训练过程中随机无法接近设备的情况,并具有类似的算法收敛保证。模拟实验和2020年美国总统选举数据集证明了我们方法的计算和统计效率。
translated by 谷歌翻译
This study investigates clustered federated learning (FL), one of the formulations of FL with non-i.i.d. data, where the devices are partitioned into clusters and each cluster optimally fits its data with a localized model. We propose a novel clustered FL framework, which applies a nonconvex penalty to pairwise differences of parameters. This framework can automatically identify clusters without a priori knowledge of the number of clusters and the set of devices in each cluster. To implement the proposed framework, we develop a novel clustered FL method called FPFC. Advancing from the standard ADMM, our method is implemented in parallel, updates only a subset of devices at each communication round, and allows each participating device to perform a variable amount of work. This greatly reduces the communication cost while simultaneously preserving privacy, making it practical for FL. We also propose a new warmup strategy for hyperparameter tuning under FL settings and consider the asynchronous variant of FPFC (asyncFPFC). Theoretically, we provide convergence guarantees of FPFC for general nonconvex losses and establish the statistical convergence rate under a linear model with squared loss. Our extensive experiments demonstrate the advantages of FPFC over existing methods.
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
将回归系数融合到均匀组中可以揭示在每个组内共享共同值的系数。这种扩展均匀性降低了参数空间的内在尺寸,并释放统计学精度。我们提出并调查了一个名为$ l_0 $ -fusion的新的组合分组方法,这些方法可用于混合整数优化(MIO)。在统计方面,我们识别称为分组灵敏度的基本量,该基本量为恢复真实组的难度。我们展示$ l_0 $ -fusion在分组灵敏度的最弱需求下实现了分组一致性:如果违反了这一要求,则小组拼写的最低风险将无法收敛到零。此外,我们展示了在高维制度中,可以使用无需任何必要的统计效率损失的确保筛选特征,同时降低计算成本的校正特征耦合耦合的$ L_0 $ -Fusion。在算法方面,我们为$ l_0 $ -fusion提供了一个mio配方,以及温暖的开始策略。仿真和实际数据分析表明,在分组准确性方面,$ L_0 $ -FUSUS展示其竞争对手的优势。
translated by 谷歌翻译
我们考虑在数据源相似但非相同的高维环境中荟萃分析的任务。为了在这种异质数据集中借用强度,我们引入了一个全球参数,该参数强调存在异质性的解释性和统计效率。我们还提出了一个全局参数的单发估计器,该估计值保留了数据源的匿名性,并以取决于组合数据集大小的速率收敛。对于高维线性模型设置,我们在适应以前看到的数据分布以及预测新/看不见的数据分布方面证明了识别限制的优越性。最后,我们证明了方法在涉及多个癌细胞线的大规模药物治疗数据集中的好处。
translated by 谷歌翻译
当节点具有人口统计属性时,概率图形模型中社区结构的推理可能不会与公平约束一致。某些人口统计学可能在某些检测到的社区中过度代表,在其他人中欠代表。本文定义了一个新的$ \ ell_1 $ -regulared伪似然方法,用于公平图形模型选择。特别是,我们假设真正的基础图表​​中存在一些社区或聚类结构,我们寻求从数据中学习稀疏的无向图形及其社区,使得人口统计团体在社区内相当代表。我们的优化方法使用公平的人口统计奇偶校验定义,但框架很容易扩展到其他公平的定义。我们建立了分别,连续和二进制数据的高斯图形模型和Ising模型的提出方法的统计一致性,证明了我们的方法可以以高概率恢复图形及其公平社区。
translated by 谷歌翻译
Sparse modelling or model selection with categorical data is challenging even for a moderate number of variables, because one parameter is roughly needed to encode one category or level. The Group Lasso is a well known efficient algorithm for selection continuous or categorical variables, but all estimates related to a selected factor usually differ. Therefore, a fitted model may not be sparse, which makes the model interpretation difficult. To obtain a sparse solution of the Group Lasso we propose the following two-step procedure: first, we reduce data dimensionality using the Group Lasso; then to choose the final model we use an information criterion on a small family of models prepared by clustering levels of individual factors. We investigate selection correctness of the algorithm in a sparse high-dimensional scenario. We also test our method on synthetic as well as real datasets and show that it performs better than the state of the art algorithms with respect to the prediction accuracy or model dimension.
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
Medical treatments tailored to a patient's baseline characteristics hold the potential of improving patient outcomes while reducing negative side effects. Learning individualized treatment rules (ITRs) often requires aggregation of multiple datasets(sites); however, current ITR methodology does not take between-site heterogeneity into account, which can hurt model generalizability when deploying back to each site. To address this problem, we develop a method for individual-level meta-analysis of ITRs, which jointly learns site-specific ITRs while borrowing information about feature sign-coherency via a scientifically-motivated directionality principle. We also develop an adaptive procedure for model tuning, using information criteria tailored to the ITR learning problem. We study the proposed methods through numerical experiments to understand their performance under different levels of between-site heterogeneity and apply the methodology to estimate ITRs in a large multi-center database of electronic health records. This work extends several popular methodologies for estimating ITRs (A-learning, weighted learning) to the multiple-sites setting.
translated by 谷歌翻译
Many scientific and engineering challenges-ranging from personalized medicine to customized marketing recommendations-require an understanding of treatment effect heterogeneity. In this paper, we develop a non-parametric causal forest for estimating heterogeneous treatment effects that extends Breiman's widely used random forest algorithm. In the potential outcomes framework with unconfoundedness, we show that causal forests are pointwise consistent for the true treatment effect, and have an asymptotically Gaussian and centered sampling distribution. We also discuss a practical method for constructing asymptotic confidence intervals for the true treatment effect that are centered at the causal forest estimates. Our theoretical results rely on a generic Gaussian theory for a large family of random forest algorithms. To our knowledge, this is the first set of results that allows any type of random forest, including classification and regression forests, to be used for provably valid statistical inference. In experiments, we find causal forests to be substantially more powerful than classical methods based on nearest-neighbor matching, especially in the presence of irrelevant covariates.
translated by 谷歌翻译
Precision Medicine根据患者的特征为患者提供定制的治疗方法,是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用,但是它们的测量经常会随着时间而变化,从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一,并且可以在精密医学中发挥关键作用。在本文中,我们回顾了标准随机森林方法的扩展,以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应,并根据时间效应是否相关,进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后,我们讨论了我们审查的局限性和一些未来的研究指示。
translated by 谷歌翻译
矩阵值数据在许多应用中越来越普遍。这种类型数据的大多数现有的聚类方法都是针对均值模型定制的,并且不考虑特征的依赖结构,这可能非常有信息,尤其是在高维设置中。要从群集结构中提取信息以进行群集,我们提出了一种以矩阵形式排列的特征的新潜在变量模型,其中一些未知的隶属矩阵表示行和列的群集。在该模型下,我们进一步提出了一类使用加权协方差矩阵的差异作为异化测量的分层聚类算法。从理论上讲,我们表明,在温和条件下,我们的算法在高维设置中达到聚类一致性。虽然这种一致性结果为我们的算法具有广泛的加权协方差矩阵,但该结果的条件取决于重量的选择。为了调查重量如何影响我们算法的理论性能,我们在我们的潜在变量模型下建立了群集的最小限制。鉴于这些结果,我们在使用此权重的意义上识别最佳权重,保证我们的算法在某些集群分离度量的大小方面是最佳的最佳速率。还讨论了我们具有最佳权重的算法的实际实现。最后,我们进行仿真研究以评估我们算法的有限样本性能,并将该方法应用于基因组数据集。
translated by 谷歌翻译
The aim of this study is to define importance of predictors for black box machine learning methods, where the prediction function can be highly non-additive and cannot be represented by statistical parameters. In this paper we defined a ``Generalized Variable Importance Metric (GVIM)'' using the true conditional expectation function for a continuous or a binary response variable. We further showed that the defined GVIM can be represented as a function of the Conditional Average Treatment Effect (CATE) squared for multinomial and continuous predictors. Then we propose how the metric can be estimated using using any machine learning models. Finally we showed the properties of the estimator using multiple simulations.
translated by 谷歌翻译