隆升建模是一种因果学习技术,可估计亚组级别的治疗效果。它通常在行业和其他地方用于定位广告等任务。在典型的设置中,Ruplift模型可以将数千个功能作为输入,这是昂贵的,并且导致了诸如过度拟合和模型可解释性差的问题。因此,需要选择建模最重要的功能的子集。但是,进行功能选择的传统方法不适合该任务,因为它们是为标准的机器学习模型而设计的,其目标与隆升模型重要。为了解决这个问题,我们介绍了一组针对提升建模的特征选择方法,从统计和信息理论中汲取灵感。我们对公开可用数据集的拟议方法进行了经验评估,证明了与传统特征选择相比,提出的方法的优势。我们将建议的方法公开作为Causalml开源软件包的一部分。
translated by 谷歌翻译
在许多学科中,异质治疗效果(HTE)的估计至关重要,从个性化医学到经济学等等。在随机试验和观察性研究中,随机森林已被证明是一种灵活而有力的HTE估计方法。尤其是Athey,Tibshirani和Wager(2019)引入的“因果森林”,以及包装GRF中的R实施。 Seibold,Zeileis和Hothorn(2018)引入了一种称为“基于模型的森林”的相关方法,该方法旨在随机试验,并同时捕获预后和预测变量的效果,并在R包装模型中进行模块化实现。 。在这里,我们提出了一种统一的观点,它超出了理论动机,并研究了哪些计算元素使因果森林如此成功,以及如何将它们与基于模型的森林的优势融合在一起。为此,我们表明,可以通过相同的参数和L2损耗下加性模型的模型假设来理解这两种方法。这种理论上的见解使我们能够实施“基于模型的因果林”的几种口味,并在计算机中剖析其不同元素。将原始的因果森林和基于模型的森林与基准研究中的新混合版本进行了比较,该研究探讨了随机试验和观察环境。在随机设置中,两种方法都执行了AKIN。如果在数据生成过程中存在混淆,我们发现与相应倾向的治疗指标的局部核心是良好性能的主要驱动力。结果的局部核心不太重要,并且可以通过相对于预后和预测效应的同时拆分选择来代替或增强。
translated by 谷歌翻译
为目标疾病开发新药物是一项耗时且昂贵的任务,药物重新利用已成为药物开发领域的流行话题。随着许多健康索赔数据可用,已经对数据进行了许多研究。现实世界的数据嘈杂,稀疏,并且具有许多混杂因素。此外,许多研究表明,药物的作用在人群中是异质的。近年来已经出现了许多有关估计异构治疗效果(HTE)(HTE)的高级机器学习模型,并已应用于计量经济学和机器学习社区。这些研究将医学和药物开发视为主要应用领域,但是从HTE方法论到药物开发的转化研究有限。我们旨在将HTE方法介绍到医疗保健领域,并在通过基准实验进行医疗保健行政索赔数据进行基准实验时提供可行性考虑。另外,我们希望使用基准实验来展示如何将模型应用于医疗保健研究时如何解释和评估模型。通过将最近的HTE技术引入生物医学信息学社区的广泛读者,我们希望通过机器学习促进广泛采用因果推断。我们还希望提供HTE具有个性化药物有效性的可行性。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
为了进一步开发异构治疗效果的统计推理问题,本文在Breiman(2001)随机林树(RFT)和Wager等人的情况下建立了使用古典的优秀统计属性来参数化非参数问题的(2018)因果树。oLs和基于协变量分数的局部线性间隔的划分,同时保留随机林树木,具有可构造的置信区间和渐近常数特性的优势[athey和Imbens(2016),efron(2014),赌第等(2014年)\ citep {wagert2014Asymptotic},我们根据固定规则提出了一个决策树,根据固定规则与本地样本的多项式估计相结合,我们称之为临时局部线性因果树(QLPRT)和林(QLPRF)。
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
因果推论在电子商务和精确医学等各个领域都有广泛的应用,其性能在很大程度上取决于对个体治疗效果(ITE)的准确估计。通常,通过在其各个样品空间中分别对处理和控制响应函数进行建模来预测ITE。但是,这种方法通常会在实践中遇到两个问题,即治疗偏见引起的治疗组和对照组之间的分布分布以及其人口规模的显着样本失衡。本文提出了深层的整个空间跨网络(DESCN),以从端到端的角度进行建模治疗效果。 DESCN通过多任务学习方式捕获了治疗倾向,反应和隐藏治疗效果的综合信息。我们的方法共同学习了整个样品空间中的治疗和反应功能,以避免治疗偏见,并采用中间伪治疗效应预测网络来减轻样品失衡。从电子商务凭证分销业务的合成数据集和大规模生产数据集进行了广泛的实验。结果表明,DESCN可以成功提高ITE估计的准确性并提高提升排名的性能。发布生产数据集和源代码的样本是为了促进社区的未来研究,据我们所知,这是首个大型公共偏见的因果推理数据集。
translated by 谷歌翻译
本文开发了贝叶斯因果林的稀疏诱导版本,最近提出的非参数因果回归模型采用贝叶斯添加剂回归树,专门设计用于使用观察数据来估计异质治疗效果。我们介绍的稀疏诱导组件是通过实证研究的动机,其中不是所有可用的协变量相关的,导致在估计个体治疗效果的兴趣表面底层的不同程度。在这项工作中提供的扩展版本,我们命名贝叶斯因果森林,配备了一对允许模型通过树集合中的相应数量的分裂调节每个协变量的重量。这些前瞻改善了模型对稀疏数据产生过程的适应性,并且允许在治疗效果估计的框架中进行完全贝叶斯特征缩收,从而揭示推动异质性的调节因子。此外,该方法允许先前了解相关的混杂协变量和对模型中掺入结果的影响的相对幅度。我们说明了我们在模拟研究中的方法的表现,与贝叶斯因果林和其他最先进的模型相比,展示如何与越来越多的协变量以及其如何处理强烈混淆的情景。最后,我们还提供了使用真实数据的应用程序的示例。
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
选择学术论文的出版物场所是研究过程中的关键一步。但是,在许多情况下,决策仅基于研究人员的经验,这通常会导致次优结果。尽管存在用于学术论文的场地推荐系统,但他们推荐了预计将发表该论文的场所。在这项研究中,我们的目标是从不同的角度推荐出版场所。我们估计,如果在每个场所发表论文,并推荐该论文具有最大潜在影响的场地,则将收到的引用数量。但是,这项任务面临两个挑战。首先,仅在一个地点发表论文,因此,如果该论文发表在另一个地点,我们无法观察到该论文收到的引用数量。其次,论文和出版物场所的内容在统计上是不独立的。也就是说,选择出版物场所存在选择偏见。在本文中,我们将场地推荐问题作为治疗效果估计问题提出。我们使用偏见校正方法来估计有效选择出版物场地的潜在影响,并根据每个场所的论文的潜在影响推荐场地。我们使用计算机科学会议的纸质数据强调了我们方法的有效性。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
我们应用因果机学习算法来评估营销干预措施的因果影响,即优惠券活动,对零售商的销售。除了评估不同类型的优惠券的平均影响外,我们还调查了不同客户群的因果关系效应的异质性,例如,在相对较高的客户与先前购买相对较高的客户之间。最后,我们使用最佳政策学习来确定(以数据驱动方式)哪些客户群应针对优惠券活动,以最大程度地提高营销干预措施在销售方面的有效性。我们发现,在检查的五个优惠券类别中,只有两个,即适用于药店产品和其他食品产品类别的优惠券,对零售商销售具有统计学上的显着积极影响。对小组平均治疗效果的评估表明,在商店的先前购买中定义的客户群中,优惠券提供的影响有很大的差异,药品店优惠券在先前购买较高的客户和其他食品优惠券中特别有效先前购买较低的客户。我们的研究提供了一种用例,用于在业务分析中应用因果机学习,以评估特定公司政策(例如营销活动)对决策支持的因果影响。
translated by 谷歌翻译
学习异质治疗效果(HTE)是许多领域的重要问题。大多数现有方法都使用单个治疗组和单个结果指标来考虑设置。但是,在许多现实世界中,实验始终如一 - 例如,在互联网公司中,每天进行A/B测试,以衡量许多感兴趣的不同指标的潜在变化的影响。我们表明,即使一个分析师在一个实验中仅关心HTES来实现一个指标,也可以通过共同分析所有数据来利用交叉实验和交叉结果度量相关性来大大提高精度。我们在张量分解框架中对这个想法进行形式化,并提出了一个简单且可扩展的模型,我们称之为低级或LR-LR-LERNER。合成数据和实际数据的实验表明,LR-LEARNER可以比独立的HTE估计更精确。
translated by 谷歌翻译
我们根据机器学习,即人工智能的子场,折扣对瑞士联邦铁路发行的火车票的需求影响。考虑到基于调查的超级票的买家样本,我们调查了哪些客户或旅行相关的特征(包括折现率)预测购买行为,即:预订旅行,否则未通过火车实现,而不是第二次购买 - 售票或重新安排旅行时(例如,远离高峰时间),当时被提供超级票时。预测机器学习表明,客户的年龄,与特定连接的需求相关信息(例如出发时间和利用率)以及折现水平允许在一定程度上预测购买行为。此外,我们使用因果机学习来评估折现率对重新安排旅行的影响,这似乎是根据高峰时间的容量限制而相关的。假设(i)折现率是基于我们丰富的特征的准随机,(ii)购买决策以折现率单调较弱,我们确定了“始终购买者”的折现率的效果,谁会旅行。即使没有折扣,也要根据我们的调查,该调查在没有折扣的情况下询问客户行为。我们发现,平均而言,将折现率提高一个百分点会使重新安排的旅行的份额增加0.16个百分点,但总是买家。研究效果的异质性在观察物中的异质性表明,在控制其他几个特征时,休闲旅行者以及高峰时段的效果较高。
translated by 谷歌翻译
估计治疗如何单独影响单位(称为异质治疗效果(HTE)估计)是决策和政策实施的重要组成部分。许多领域中大量数据的积累,例如医疗保健和电子商务,导致人们对开发数据驱动算法的兴趣增加,以估算观察性和实验数据中的异质效应。但是,这些方法通常对观察到的特征做出了强有力的假设,而忽略了基本的因果模型结构,从而导致HTE估计。同时,考虑到现实世界数据的因果结构很少是微不足道的,因为产生数据的因果机制通常是未知的。为了解决此问题,我们开发了一种功能选择方法,该方法考虑了每个功能的估计值,并从数据中学习了因果结构的相关部分。我们提供了有力的经验证据,表明我们的方法改善了在任意基本因果结构下的现有数据驱动的HTE估计方法。我们关于合成,半合成和现实世界数据集的结果表明,我们的特征选择算法导致HTE估计误差较低。
translated by 谷歌翻译
关于日益增长的直播媒介的一种普遍信念是,其价值在于其“实时”组成部分。我们通过比较实时事件需求的价格弹性如何在直播中和之后的生活中进行了比较,从而研究了这种信念。我们使用来自大型直播平台的独特且丰富的数据来做到这一点,该数据使消费者可以在流中期后购买录制版本的直播版本。在我们背景下的一个挑战是,存在高维混杂因素,其与治疗政策(即价格)和兴趣结果(即需求)的关系是复杂的,并且仅部分知道。我们通过使用广义正交随机森林框架来解决这一挑战,以进行异质治疗效果估计。我们发现在整个事件生命周期中,需求价格弹性的时间弹性都显着。具体而言,随着时间的流逝,需求变得越来越敏感,直到直播一天,那天就变成了无弹性。在生活后的时期,对录制版本的需求仍然对价格敏感,但远低于在播放前的时期。我们进一步表明,价格弹性的这种时间变化是由此类事件固有的质量不确定性以及在直播过程中与内容创建者进行实时互动的机会所驱动的。
translated by 谷歌翻译
因果影响的估计是许多科学学科的核心目标。但是,这仍然是一项具有挑战性的任务,尤其是从观察数据估算效果时。最近,为因果效应估计提出了几种有希望的机器学习模型。对这些模型的评估是基于平均治疗效果(ATE)误差的平均值以及异质效应估计(PEHE)的精度。在本文中,我们建议使用具体统计证据来补充因果推理模型的评估,包括多兰和MOR {\'e}的性能概况,以及非参数和事后统计检验。这种方法背后的主要动机是消除了少数实例或模拟对基准测试过程的影响,在某些情况下,这占据了结果。我们使用提出的评估方法比较几种最新的因果效应估计模型。
translated by 谷歌翻译
捕获基于协变量的多变量响应载体之间的条件协方差或相关性对于包括神经科学,流行病学和生物医学在内的各个领域很重要。我们提出了一种新方法,称为随机森林(covregrf),以使用随机森林框架估算一个多变量响应的协方差矩阵。随机林木的建造具有专门设计的分裂规则,以最大化儿童节点的样本协方差矩阵估计值之间的差异。我们还提出了对协变量子集的部分效应的显着性检验。我们通过一项模拟研究评估了提出的方法和显着性测试的性能,该研究表明该方法提供了准确的协方差矩阵估计值,并且Type-1误差得到了很好的控制。我们还证明了该方法与甲状腺疾病数据集的应用。
translated by 谷歌翻译
估计治疗的个性化影响是一个复杂但普遍存在的问题。为了解决这个问题,机器学习(ML)关于异质治疗效果估计的最新发展引起了许多复杂的,但不透明的工具:由于它们的灵活性,模块化和学习受限的表示的能力,尤其是神经网络,因此已成为中心对此文学。不幸的是,这种黑匣子的资产是有代价的:模型通常涉及无数的非平凡操作,因此很难理解他们所学到的知识。然而,理解这些模型可能至关重要 - 例如,在医学背景下,发现有关治疗效果的知识异质性可以在临床实践中为治疗处方提供信息。因此,在这项工作中,我们使用事后特征重要性方法来识别影响模型预测的功能。这使我们能够评估沿着先前工作中忽略的新重要维度的治疗效应估计量:我们构建了一个基准测试环境,以经验研究个性化治疗效果模型鉴定预测协变量的能力 - 确定治疗差异反应的协变量。然后,我们的基准测量环境使我们能够对不同类型的治疗效果模型的优势和劣势提供新的见解,因为我们调节了针对治疗效果估计的不同挑战 - 例如预后与预测信息的比率,潜在结果的可能非线性以及混杂的存在和类型。
translated by 谷歌翻译