Heterogeneous treatment effects (HTEs) are commonly identified during randomized controlled trials (RCTs). Identifying subgroups of patients with similar treatment effects is of high interest in clinical research to advance precision medicine. Often, multiple clinical outcomes are measured during an RCT, each having a potentially heterogeneous effect. Recently there has been high interest in identifying subgroups from HTEs, however, there has been less focus on developing tools in settings where there are multiple outcomes. In this work, we propose a framework for partitioning the covariate space to identify subgroups across multiple outcomes based on the joint CIs. We test our algorithm on synthetic and semi-synthetic data where there are two outcomes, and demonstrate that our algorithm is able to capture the HTE in both outcomes simultaneously.
translated by 谷歌翻译
为了进一步开发异构治疗效果的统计推理问题,本文在Breiman(2001)随机林树(RFT)和Wager等人的情况下建立了使用古典的优秀统计属性来参数化非参数问题的(2018)因果树。oLs和基于协变量分数的局部线性间隔的划分,同时保留随机林树木,具有可构造的置信区间和渐近常数特性的优势[athey和Imbens(2016),efron(2014),赌第等(2014年)\ citep {wagert2014Asymptotic},我们根据固定规则提出了一个决策树,根据固定规则与本地样本的多项式估计相结合,我们称之为临时局部线性因果树(QLPRT)和林(QLPRF)。
translated by 谷歌翻译
传统的因果推理方法利用观察性研究数据来估计潜在治疗的观察到的差异和未观察到的结果,称为条件平均治疗效果(CATE)。然而,凯特就对应于仅第一刻的比较,因此可能不足以反映治疗效果的全部情况。作为替代方案,估计全部潜在结果分布可以提供更多的见解。但是,估计治疗效果的现有方法潜在的结果分布通常对这些分布施加限制性或简单的假设。在这里,我们提出了合作因果网络(CCN),这是一种新颖的方法,它通过学习全部潜在结果分布而超出了CATE的估计。通过CCN框架估算结果分布不需要对基础数据生成过程的限制性假设。此外,CCN促进了每种可能处理的效用的估计,并允许通过效用函数进行特定的特定变异。 CCN不仅将结果估计扩展到传统的风险差异之外,而且还可以通过定义灵活的比较来实现更全面的决策过程。根据因果文献中通常做出的假设,我们表明CCN学习了渐近捕获真正潜在结果分布的分布。此外,我们提出了一种调整方法,该方法在经验上可以有效地减轻观察数据中治疗组之间的样本失衡。最后,我们评估了CCN在多个合成和半合成实验中的性能。我们证明,与现有的贝叶斯和深层生成方法相比,CCN学会了改进的分布估计值,以及对各种效用功能的改进决策。
translated by 谷歌翻译
电子健康记录(EHR)可获得的丰富纵向个体水平数据可用于检查治疗效果异质性。但是,使用EHR数据估算治疗效果提出了几个挑战,包括时变的混杂,重复和时间不一致的协变量测量,治疗分配和结果以及由于辍学导致的损失。在这里,我们开发了纵向数据(SDLD)算法的亚组发现,该算法是一种基于树的算法,用于使用纵向相互作用树算法结合使用纵向相互作用的一般数据驱动的方法,与纵向驱动的方法与纵向驱动的方法结合使用纵向相互作用,以发现具有异质治疗效果的亚组,并进行纵向研究。目标最大似然估计。我们将算法应用于EHR数据,以发现患有人免疫缺陷病毒(HIV)的人群的亚组,他们在接受非Dolutegravir抗逆转录病毒疗法(ART)接受非Dolutegravir抗逆转录病毒疗法(艺术)时的体重增加风险较高。
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
在制定政策指南时,随机对照试验(RCT)代表了黄金标准。但是,RCT通常是狭窄的,并且缺乏更广泛的感兴趣人群的数据。这些人群中的因果效应通常是使用观察数据集估算的,这可能会遭受未观察到的混杂和选择偏见。考虑到一组观察估计(例如,来自多项研究),我们提出了一个试图拒绝偏见的观察性估计值的元偏值。我们使用验证效应,可以从RCT和观察数据中推断出的因果效应。在拒绝未通过此测试的估计器之后,我们对RCT中未观察到的亚组的外推性效应产生了保守的置信区间。假设至少一个观察估计量在验证和外推效果方面是渐近正常且一致的,我们为我们算法输出的间隔的覆盖率概率提供了保证。为了促进在跨数据集的因果效应运输的设置中,我们给出的条件下,即使使用灵活的机器学习方法用于估计滋扰参数,群体平均治疗效应的双重稳定估计值也是渐近的正常。我们说明了方法在半合成和现实世界数据集上的特性,并表明它与标准的荟萃分析技术相比。
translated by 谷歌翻译
估算随机实验的因果效应是临床研究的核心。降低这些分析中的统计不确定性是统计学家的重要目标。注册管理机构,事先审判和健康记录构成了对患者的历史数据汇编,其在可能是可利用至此的患者下的历史数据。但是,大多数历史借贷方法通过牺牲严格的I型错误率控制来达到方差的减少。在这里,我们建议使用利用线性协变调整的历史数据来提高试验分析的效率而不会产生偏见。具体而言,我们在历史数据上培训预后模型,然后使用线性回归估计治疗效果,同时调整试验受试者预测结果(其预后分数)。我们证明,在某些条件下,这种预后调整程序在大类估算仪中获得了最低差异。当不符合这些条件时,预后的协变量调整仍然比原始协变量调整更有效,并且效率的增益与上述预后模型的预测准确性的衡量标准成正比,与原始协变量的线性关系的预测准确性。我们展示了使用模拟的方法和阿尔茨海默病的临床试验的再分析,并观察平均平均误差的有意义减少和估计方差。最后,我们提供了一种简化的渐近方差公式,使得能够计算这些收益的功率计算。在使用预后模型的预后模型中,可以实现10%和30%的样品尺寸减少。
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
在许多学科中,异质治疗效果(HTE)的估计至关重要,从个性化医学到经济学等等。在随机试验和观察性研究中,随机森林已被证明是一种灵活而有力的HTE估计方法。尤其是Athey,Tibshirani和Wager(2019)引入的“因果森林”,以及包装GRF中的R实施。 Seibold,Zeileis和Hothorn(2018)引入了一种称为“基于模型的森林”的相关方法,该方法旨在随机试验,并同时捕获预后和预测变量的效果,并在R包装模型中进行模块化实现。 。在这里,我们提出了一种统一的观点,它超出了理论动机,并研究了哪些计算元素使因果森林如此成功,以及如何将它们与基于模型的森林的优势融合在一起。为此,我们表明,可以通过相同的参数和L2损耗下加性模型的模型假设来理解这两种方法。这种理论上的见解使我们能够实施“基于模型的因果林”的几种口味,并在计算机中剖析其不同元素。将原始的因果森林和基于模型的森林与基准研究中的新混合版本进行了比较,该研究探讨了随机试验和观察环境。在随机设置中,两种方法都执行了AKIN。如果在数据生成过程中存在混淆,我们发现与相应倾向的治疗指标的局部核心是良好性能的主要驱动力。结果的局部核心不太重要,并且可以通过相对于预后和预测效应的同时拆分选择来代替或增强。
translated by 谷歌翻译
为目标疾病开发新药物是一项耗时且昂贵的任务,药物重新利用已成为药物开发领域的流行话题。随着许多健康索赔数据可用,已经对数据进行了许多研究。现实世界的数据嘈杂,稀疏,并且具有许多混杂因素。此外,许多研究表明,药物的作用在人群中是异质的。近年来已经出现了许多有关估计异构治疗效果(HTE)(HTE)的高级机器学习模型,并已应用于计量经济学和机器学习社区。这些研究将医学和药物开发视为主要应用领域,但是从HTE方法论到药物开发的转化研究有限。我们旨在将HTE方法介绍到医疗保健领域,并在通过基准实验进行医疗保健行政索赔数据进行基准实验时提供可行性考虑。另外,我们希望使用基准实验来展示如何将模型应用于医疗保健研究时如何解释和评估模型。通过将最近的HTE技术引入生物医学信息学社区的广泛读者,我们希望通过机器学习促进广泛采用因果推断。我们还希望提供HTE具有个性化药物有效性的可行性。
translated by 谷歌翻译
因果推断能够估计治疗效果(即,治疗结果的因果效果),使各个领域的决策受益。本研究中的一个基本挑战是观察数据的治疗偏见。为了提高对因果推断的观察研究的有效性,基于代表的方法作为最先进的方法表明了治疗效果估计的卓越性能。基于大多数基于表示的方法假设所有观察到的协变量都是预处理的(即,不受治疗影响的影响),并学习这些观察到的协变量的平衡表示,以估算治疗效果。不幸的是,这种假设往往在实践中往往是太严格的要求,因为一些协调因子是通过对治疗的干预进行改变(即,后治疗)来改变。相比之下,从不变的协变量中学到的平衡表示因此偏置治疗效果估计。
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
基于森林的方法最近在非参数治疗效应估计中获得了普及。在这一工作方面,我们引入了因果生存森林,可用于在可能右估计结果的生存和观察环境中估计异质治疗效果。我们的方法依赖于正交估计方程来在不满意的情况下对审查和选择效果进行鲁棒性调整。在我们的实验中,我们发现相对于许多基线的表现良好的方法。
translated by 谷歌翻译
本文开发了贝叶斯因果林的稀疏诱导版本,最近提出的非参数因果回归模型采用贝叶斯添加剂回归树,专门设计用于使用观察数据来估计异质治疗效果。我们介绍的稀疏诱导组件是通过实证研究的动机,其中不是所有可用的协变量相关的,导致在估计个体治疗效果的兴趣表面底层的不同程度。在这项工作中提供的扩展版本,我们命名贝叶斯因果森林,配备了一对允许模型通过树集合中的相应数量的分裂调节每个协变量的重量。这些前瞻改善了模型对稀疏数据产生过程的适应性,并且允许在治疗效果估计的框架中进行完全贝叶斯特征缩收,从而揭示推动异质性的调节因子。此外,该方法允许先前了解相关的混杂协变量和对模型中掺入结果的影响的相对幅度。我们说明了我们在模拟研究中的方法的表现,与贝叶斯因果林和其他最先进的模型相比,展示如何与越来越多的协变量以及其如何处理强烈混淆的情景。最后,我们还提供了使用真实数据的应用程序的示例。
translated by 谷歌翻译
尽管近期因因果推断领域的进展,迄今为止没有关于从观察数据的收集治疗效应估算的方法。对临床实践的结果是,当缺乏随机试验的结果时,没有指导在真实情景中似乎有效的指导。本文提出了一种务实的方法,以获得从观察性研究的治疗效果的初步但稳健地估算,为前线临床医生提供对其治疗策略的信心程度。我们的研究设计适用于一个公开问题,估算Covid-19密集护理患者的拳击机动的治疗效果。
translated by 谷歌翻译
我们引入了一个灵活的框架,该框架可为因果推理产生高质量的几乎享用的匹配。匹配中的大多数先前工作都使用临时距离指标,通常会导致质量差,尤其是在有无关的协变量时。在这项工作中,我们学习了一个可解释的距离度量,以实现更高质量的匹配。学到的距离度量标准根据每个协变量对结果预测的贡献延伸协变量空间:这种拉伸意味着,对重要协变量的不匹配比对无关协变量的不匹配的惩罚更大。我们学习柔性距离指标的能力会导致匹配,这些匹配对于估计有条件的平均治疗效果有用。
translated by 谷歌翻译
估计治疗的个性化影响是一个复杂但普遍存在的问题。为了解决这个问题,机器学习(ML)关于异质治疗效果估计的最新发展引起了许多复杂的,但不透明的工具:由于它们的灵活性,模块化和学习受限的表示的能力,尤其是神经网络,因此已成为中心对此文学。不幸的是,这种黑匣子的资产是有代价的:模型通常涉及无数的非平凡操作,因此很难理解他们所学到的知识。然而,理解这些模型可能至关重要 - 例如,在医学背景下,发现有关治疗效果的知识异质性可以在临床实践中为治疗处方提供信息。因此,在这项工作中,我们使用事后特征重要性方法来识别影响模型预测的功能。这使我们能够评估沿着先前工作中忽略的新重要维度的治疗效应估计量:我们构建了一个基准测试环境,以经验研究个性化治疗效果模型鉴定预测协变量的能力 - 确定治疗差异反应的协变量。然后,我们的基准测量环境使我们能够对不同类型的治疗效果模型的优势和劣势提供新的见解,因为我们调节了针对治疗效果估计的不同挑战 - 例如预后与预测信息的比率,潜在结果的可能非线性以及混杂的存在和类型。
translated by 谷歌翻译
感兴趣的许多因果和政策效应都是由高维或非参数回归函数的线性功能定义的。 $ \ sqrt {n} $ - 对目标对象的一致且渐近地正常估计需要偏见,以减少正则化和/或模型选择对感兴趣对象的影响。通常,通过将校正项添加到功能的插件估计器中来实现,从而导致属性,例如半参数效率,双重鲁棒性和Neyman正交性。我们基于自动学习使用神经网和随机森林的Riesz表示的自动偏差程序。我们的方法仅依赖于黑框评估Oracle访问线性功能,并且不需要其分析形式的知识。我们提出了一种多任务神经网络偏见方法,具有随机梯度下降最小化的Riesz代表和回归损失,同时共享这两个函数的表示层。我们还提出了一种随机森林方法,该方法了解Riesz函数的局部线性表示。即使我们的方法适用于任意功能,我们在实验上发现它的性能与Shi等人的最先进的神经网状算法相比。 (2019)对于平均治疗效果功能的情况。我们还使用汽油需求的汽油价格变化的半合成数据来评估我们的方法,即通过连续处理估算平均边缘效应的问题。
translated by 谷歌翻译
尽管电子健康记录是生物医学研究的丰富数据来源,但这些系统并未在医疗环境中统一地实施,并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性,可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见,因此,一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是,尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果,但尚无共识,MI算法效果最好。除了选择MI策略之外,归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中,受鲁宾和范布伦的开创性作品的启发,我们提出了一个方法学框架,可以应用于评估和比较多种多个插补技术,旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列,这是我们在先前的文献研究中提出的结果,我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响,其数据为2型糖尿病,其数据为2型糖尿病由国家共同队列合作飞地提供。
translated by 谷歌翻译