由于样本量有限,可以准确估计研究地点(例如医院)中的个性化治疗效果。此外,隐私考虑和缺乏资源阻止站点利用其他站点的主题级数据。我们提出了一种基于树的模型平均方法,以通过利用从其他潜在异质部位得出的模型来提高目标部位条件平均治疗效果(CATE)的估计精度,而无需共享主题级数据。据我们的最佳知识,没有建立的模型平均分布式数据的方法,重点是改善治疗效果的估计。具体而言,在分布式数据网络下,我们的框架提供了一个基于CATE估算器的基于可解释的树的合奏,该集合可以跨研究站点加入模型,同时通过站点分区积极地对数据源中的异质性进行建模。通过对氧疗法对医院存活率的因果影响的现实研究证明了这种方法的表现,并得到了全面的模拟结果的支持。
translated by 谷歌翻译
基于森林的方法最近在非参数治疗效应估计中获得了普及。在这一工作方面,我们引入了因果生存森林,可用于在可能右估计结果的生存和观察环境中估计异质治疗效果。我们的方法依赖于正交估计方程来在不满意的情况下对审查和选择效果进行鲁棒性调整。在我们的实验中,我们发现相对于许多基线的表现良好的方法。
translated by 谷歌翻译
Medical treatments tailored to a patient's baseline characteristics hold the potential of improving patient outcomes while reducing negative side effects. Learning individualized treatment rules (ITRs) often requires aggregation of multiple datasets(sites); however, current ITR methodology does not take between-site heterogeneity into account, which can hurt model generalizability when deploying back to each site. To address this problem, we develop a method for individual-level meta-analysis of ITRs, which jointly learns site-specific ITRs while borrowing information about feature sign-coherency via a scientifically-motivated directionality principle. We also develop an adaptive procedure for model tuning, using information criteria tailored to the ITR learning problem. We study the proposed methods through numerical experiments to understand their performance under different levels of between-site heterogeneity and apply the methodology to estimate ITRs in a large multi-center database of electronic health records. This work extends several popular methodologies for estimating ITRs (A-learning, weighted learning) to the multiple-sites setting.
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
估算随机实验的因果效应是临床研究的核心。降低这些分析中的统计不确定性是统计学家的重要目标。注册管理机构,事先审判和健康记录构成了对患者的历史数据汇编,其在可能是可利用至此的患者下的历史数据。但是,大多数历史借贷方法通过牺牲严格的I型错误率控制来达到方差的减少。在这里,我们建议使用利用线性协变调整的历史数据来提高试验分析的效率而不会产生偏见。具体而言,我们在历史数据上培训预后模型,然后使用线性回归估计治疗效果,同时调整试验受试者预测结果(其预后分数)。我们证明,在某些条件下,这种预后调整程序在大类估算仪中获得了最低差异。当不符合这些条件时,预后的协变量调整仍然比原始协变量调整更有效,并且效率的增益与上述预后模型的预测准确性的衡量标准成正比,与原始协变量的线性关系的预测准确性。我们展示了使用模拟的方法和阿尔茨海默病的临床试验的再分析,并观察平均平均误差的有意义减少和估计方差。最后,我们提供了一种简化的渐近方差公式,使得能够计算这些收益的功率计算。在使用预后模型的预后模型中,可以实现10%和30%的样品尺寸减少。
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
Many scientific and engineering challenges-ranging from personalized medicine to customized marketing recommendations-require an understanding of treatment effect heterogeneity. In this paper, we develop a non-parametric causal forest for estimating heterogeneous treatment effects that extends Breiman's widely used random forest algorithm. In the potential outcomes framework with unconfoundedness, we show that causal forests are pointwise consistent for the true treatment effect, and have an asymptotically Gaussian and centered sampling distribution. We also discuss a practical method for constructing asymptotic confidence intervals for the true treatment effect that are centered at the causal forest estimates. Our theoretical results rely on a generic Gaussian theory for a large family of random forest algorithms. To our knowledge, this is the first set of results that allows any type of random forest, including classification and regression forests, to be used for provably valid statistical inference. In experiments, we find causal forests to be substantially more powerful than classical methods based on nearest-neighbor matching, especially in the presence of irrelevant covariates.
translated by 谷歌翻译
在许多学科中,异质治疗效果(HTE)的估计至关重要,从个性化医学到经济学等等。在随机试验和观察性研究中,随机森林已被证明是一种灵活而有力的HTE估计方法。尤其是Athey,Tibshirani和Wager(2019)引入的“因果森林”,以及包装GRF中的R实施。 Seibold,Zeileis和Hothorn(2018)引入了一种称为“基于模型的森林”的相关方法,该方法旨在随机试验,并同时捕获预后和预测变量的效果,并在R包装模型中进行模块化实现。 。在这里,我们提出了一种统一的观点,它超出了理论动机,并研究了哪些计算元素使因果森林如此成功,以及如何将它们与基于模型的森林的优势融合在一起。为此,我们表明,可以通过相同的参数和L2损耗下加性模型的模型假设来理解这两种方法。这种理论上的见解使我们能够实施“基于模型的因果林”的几种口味,并在计算机中剖析其不同元素。将原始的因果森林和基于模型的森林与基准研究中的新混合版本进行了比较,该研究探讨了随机试验和观察环境。在随机设置中,两种方法都执行了AKIN。如果在数据生成过程中存在混淆,我们发现与相应倾向的治疗指标的局部核心是良好性能的主要驱动力。结果的局部核心不太重要,并且可以通过相对于预后和预测效应的同时拆分选择来代替或增强。
translated by 谷歌翻译
传统的因果推理方法利用观察性研究数据来估计潜在治疗的观察到的差异和未观察到的结果,称为条件平均治疗效果(CATE)。然而,凯特就对应于仅第一刻的比较,因此可能不足以反映治疗效果的全部情况。作为替代方案,估计全部潜在结果分布可以提供更多的见解。但是,估计治疗效果的现有方法潜在的结果分布通常对这些分布施加限制性或简单的假设。在这里,我们提出了合作因果网络(CCN),这是一种新颖的方法,它通过学习全部潜在结果分布而超出了CATE的估计。通过CCN框架估算结果分布不需要对基础数据生成过程的限制性假设。此外,CCN促进了每种可能处理的效用的估计,并允许通过效用函数进行特定的特定变异。 CCN不仅将结果估计扩展到传统的风险差异之外,而且还可以通过定义灵活的比较来实现更全面的决策过程。根据因果文献中通常做出的假设,我们表明CCN学习了渐近捕获真正潜在结果分布的分布。此外,我们提出了一种调整方法,该方法在经验上可以有效地减轻观察数据中治疗组之间的样本失衡。最后,我们评估了CCN在多个合成和半合成实验中的性能。我们证明,与现有的贝叶斯和深层生成方法相比,CCN学会了改进的分布估计值,以及对各种效用功能的改进决策。
translated by 谷歌翻译
我们考虑在具有多个可用的多个辅助来源的主要兴趣样本中最佳决策问题。感兴趣的结果是有限的,因为它仅在主要样本中观察到。实际上,这种多个数据源可能属于异质研究,因此不能直接组合。本文提出了一种新的框架来处理异构研究,并通过新的校准最佳决策(CODA)方法同时解决有限的结果,通过利用多种数据来源的常见中间结果来解决。具体地,CODA允许跨不同样品的基线协变量具有均匀或异质的分布。在温和和可测试的假设下,不同样本中的中间结果的条件方法等于基线协变量和治疗信息,我们表明,条件平均结果的提议CODA估计是渐近正常的和更有效的,而不是使用主要样品。此外,由于速率双重稳健性,可以使用简单的插件方法轻松获得CODA估计器的方差。对模拟数据集的广泛实验显示了使用CoDa的经验有效性和提高效率,然后是与来自Eicu的辅助数据的主要样本是MIMIC-III数据集的真实应用程序。
translated by 谷歌翻译
为目标疾病开发新药物是一项耗时且昂贵的任务,药物重新利用已成为药物开发领域的流行话题。随着许多健康索赔数据可用,已经对数据进行了许多研究。现实世界的数据嘈杂,稀疏,并且具有许多混杂因素。此外,许多研究表明,药物的作用在人群中是异质的。近年来已经出现了许多有关估计异构治疗效果(HTE)(HTE)的高级机器学习模型,并已应用于计量经济学和机器学习社区。这些研究将医学和药物开发视为主要应用领域,但是从HTE方法论到药物开发的转化研究有限。我们旨在将HTE方法介绍到医疗保健领域,并在通过基准实验进行医疗保健行政索赔数据进行基准实验时提供可行性考虑。另外,我们希望使用基准实验来展示如何将模型应用于医疗保健研究时如何解释和评估模型。通过将最近的HTE技术引入生物医学信息学社区的广泛读者,我们希望通过机器学习促进广泛采用因果推断。我们还希望提供HTE具有个性化药物有效性的可行性。
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
在协作学习中,学习者协调以增强他们的每个学习表现。从任何学习者的角度来看,一个关键的挑战是滤除不合格的合作者。我们建议一个名为Meta聚类的框架来应对挑战。与聚类数据点的经典问题不同,元聚类将学习者分类。假设每个学习者都在独立的本地数据集上执行监督回归,我们建议选择一种选择 - 交换群集(SEC)方法,以通过其基础监督功能对学习者进行分类。从理论上讲,我们可以表明SEC可以将学习者聚集到准确的协作集中。实证研究证实了理论分析,并证明SEC可以在计算上是有效的,对学习者异质性的稳健性,并且有效地增强了单人学习者的性能。另外,我们展示了如何使用提出的方法来增强数据公平性。本文的补充材料可在线获得。
translated by 谷歌翻译
在制定政策指南时,随机对照试验(RCT)代表了黄金标准。但是,RCT通常是狭窄的,并且缺乏更广泛的感兴趣人群的数据。这些人群中的因果效应通常是使用观察数据集估算的,这可能会遭受未观察到的混杂和选择偏见。考虑到一组观察估计(例如,来自多项研究),我们提出了一个试图拒绝偏见的观察性估计值的元偏值。我们使用验证效应,可以从RCT和观察数据中推断出的因果效应。在拒绝未通过此测试的估计器之后,我们对RCT中未观察到的亚组的外推性效应产生了保守的置信区间。假设至少一个观察估计量在验证和外推效果方面是渐近正常且一致的,我们为我们算法输出的间隔的覆盖率概率提供了保证。为了促进在跨数据集的因果效应运输的设置中,我们给出的条件下,即使使用灵活的机器学习方法用于估计滋扰参数,群体平均治疗效应的双重稳定估计值也是渐近的正常。我们说明了方法在半合成和现实世界数据集上的特性,并表明它与标准的荟萃分析技术相比。
translated by 谷歌翻译
为了进一步开发异构治疗效果的统计推理问题,本文在Breiman(2001)随机林树(RFT)和Wager等人的情况下建立了使用古典的优秀统计属性来参数化非参数问题的(2018)因果树。oLs和基于协变量分数的局部线性间隔的划分,同时保留随机林树木,具有可构造的置信区间和渐近常数特性的优势[athey和Imbens(2016),efron(2014),赌第等(2014年)\ citep {wagert2014Asymptotic},我们根据固定规则提出了一个决策树,根据固定规则与本地样本的多项式估计相结合,我们称之为临时局部线性因果树(QLPRT)和林(QLPRF)。
translated by 谷歌翻译
观察数据中估算单个治疗效果(ITE)在许多领域,例如个性化医学等领域。但是,实际上,治疗分配通常被未观察到的变量混淆,因此引入了偏见。消除偏见的一种补救措施是使用仪器变量(IVS)。此类环境在医学中广泛存在(例如,将合规性用作二进制IV的试验)。在本文中,我们提出了一个新颖的,可靠的机器学习框架,称为MRIV,用于使用二进制IV估算ITES,从而产生无偏见的ITE估计器。与以前的二进制IV的工作不同,我们的框架通过伪结果回归直接估算了ITE。 (1)我们提供了一个理论分析,我们表明我们的框架产生了多重稳定的收敛速率:即使几个滋扰估计器的收敛缓慢,我们的ITE估计器也会达到快速收敛。 (2)我们进一步表明,我们的框架渐近地优于最先进的插件IV方法,以进行ITE估计。 (3)我们以理论结果为基础,并提出了一种使用二进制IVS的ITE估算的定制的,称为MRIV-NET的深度神经网络结构。在各种计算实验中,我们从经验上证明了我们的MRIV-NET实现最先进的性能。据我们所知,我们的MRIV是第一个机器学习框架,用于估算显示出倍增功能的二进制IV设置。
translated by 谷歌翻译
本文开发了贝叶斯因果林的稀疏诱导版本,最近提出的非参数因果回归模型采用贝叶斯添加剂回归树,专门设计用于使用观察数据来估计异质治疗效果。我们介绍的稀疏诱导组件是通过实证研究的动机,其中不是所有可用的协变量相关的,导致在估计个体治疗效果的兴趣表面底层的不同程度。在这项工作中提供的扩展版本,我们命名贝叶斯因果森林,配备了一对允许模型通过树集合中的相应数量的分裂调节每个协变量的重量。这些前瞻改善了模型对稀疏数据产生过程的适应性,并且允许在治疗效果估计的框架中进行完全贝叶斯特征缩收,从而揭示推动异质性的调节因子。此外,该方法允许先前了解相关的混杂协变量和对模型中掺入结果的影响的相对幅度。我们说明了我们在模拟研究中的方法的表现,与贝叶斯因果林和其他最先进的模型相比,展示如何与越来越多的协变量以及其如何处理强烈混淆的情景。最后,我们还提供了使用真实数据的应用程序的示例。
translated by 谷歌翻译
We are interested in estimating the effect of a treatment applied to individuals at multiple sites, where data is stored locally for each site. Due to privacy constraints, individual-level data cannot be shared across sites; the sites may also have heterogeneous populations and treatment assignment mechanisms. Motivated by these considerations, we develop federated methods to draw inference on the average treatment effects of combined data across sites. Our methods first compute summary statistics locally using propensity scores and then aggregate these statistics across sites to obtain point and variance estimators of average treatment effects. We show that these estimators are consistent and asymptotically normal. To achieve these asymptotic properties, we find that the aggregation schemes need to account for the heterogeneity in treatment assignments and in outcomes across sites. We demonstrate the validity of our federated methods through a comparative study of two large medical claims databases.
translated by 谷歌翻译
个性化医学是针对患者特征量身定制的医学范式,是医疗保健中越来越有吸引力的领域。个性化医学的一个重要目标是根据基线协变量鉴定患者的亚组,而与其他比较治疗相比,从目标治疗中受益更多。当前的大多数亚组识别方法仅着重于获得具有增强治疗效果的亚组,而无需注意亚组大小。但是,临床上有意义的亚组学习方法应确定可以从更好的治疗中受益的患者数量的最大数量。在本文中,我们提出了一项最佳的亚组选择规则(SSR),该规则最大化选定的患者的数量,同时,达到了预先指定的临床意义上有意义的平均结果,例如平均治疗效果。我们基于描述结果中的处理 - 果膜相互作用的对比函数,得出了最佳SSR的两种等效理论形式。我们进一步提出了一个受约束的策略树搜索算法(资本),以在可解释的决策树类中找到最佳SSR。所提出的方法是灵活的,可以处理多种限制因素,以惩罚具有负面治疗效果的患者,并使用受限的平均生存时间作为临床上有趣的平均结果来解决事件数据的时间。进行了广泛的模拟,比较研究和实际数据应用,以证明我们方法的有效性和实用性。
translated by 谷歌翻译