我们根据机器学习,即人工智能的子场,折扣对瑞士联邦铁路发行的火车票的需求影响。考虑到基于调查的超级票的买家样本,我们调查了哪些客户或旅行相关的特征(包括折现率)预测购买行为,即:预订旅行,否则未通过火车实现,而不是第二次购买 - 售票或重新安排旅行时(例如,远离高峰时间),当时被提供超级票时。预测机器学习表明,客户的年龄,与特定连接的需求相关信息(例如出发时间和利用率)以及折现水平允许在一定程度上预测购买行为。此外,我们使用因果机学习来评估折现率对重新安排旅行的影响,这似乎是根据高峰时间的容量限制而相关的。假设(i)折现率是基于我们丰富的特征的准随机,(ii)购买决策以折现率单调较弱,我们确定了“始终购买者”的折现率的效果,谁会旅行。即使没有折扣,也要根据我们的调查,该调查在没有折扣的情况下询问客户行为。我们发现,平均而言,将折现率提高一个百分点会使重新安排的旅行的份额增加0.16个百分点,但总是买家。研究效果的异质性在观察物中的异质性表明,在控制其他几个特征时,休闲旅行者以及高峰时段的效果较高。
translated by 谷歌翻译
我们应用因果机学习算法来评估营销干预措施的因果影响,即优惠券活动,对零售商的销售。除了评估不同类型的优惠券的平均影响外,我们还调查了不同客户群的因果关系效应的异质性,例如,在相对较高的客户与先前购买相对较高的客户之间。最后,我们使用最佳政策学习来确定(以数据驱动方式)哪些客户群应针对优惠券活动,以最大程度地提高营销干预措施在销售方面的有效性。我们发现,在检查的五个优惠券类别中,只有两个,即适用于药店产品和其他食品产品类别的优惠券,对零售商销售具有统计学上的显着积极影响。对小组平均治疗效果的评估表明,在商店的先前购买中定义的客户群中,优惠券提供的影响有很大的差异,药品店优惠券在先前购买较高的客户和其他食品优惠券中特别有效先前购买较低的客户。我们的研究提供了一种用例,用于在业务分析中应用因果机学习,以评估特定公司政策(例如营销活动)对决策支持的因果影响。
translated by 谷歌翻译
Based on administrative data of unemployed in Belgium, we estimate the labour market effects of three training programmes at various aggregation levels using Modified Causal Forests, a causal machine learning estimator. While all programmes have positive effects after the lock-in period, we find substantial heterogeneity across programmes and unemployed. Simulations show that 'black-box' rules that reassign unemployed to programmes that maximise estimated individual gains can considerably improve effectiveness: up to 20 percent more (less) time spent in (un)employment within a 30 months window. A shallow policy tree delivers a simple rule that realizes about 70 percent of this gain.
translated by 谷歌翻译
关于日益增长的直播媒介的一种普遍信念是,其价值在于其“实时”组成部分。我们通过比较实时事件需求的价格弹性如何在直播中和之后的生活中进行了比较,从而研究了这种信念。我们使用来自大型直播平台的独特且丰富的数据来做到这一点,该数据使消费者可以在流中期后购买录制版本的直播版本。在我们背景下的一个挑战是,存在高维混杂因素,其与治疗政策(即价格)和兴趣结果(即需求)的关系是复杂的,并且仅部分知道。我们通过使用广义正交随机森林框架来解决这一挑战,以进行异质治疗效果估计。我们发现在整个事件生命周期中,需求价格弹性的时间弹性都显着。具体而言,随着时间的流逝,需求变得越来越敏感,直到直播一天,那天就变成了无弹性。在生活后的时期,对录制版本的需求仍然对价格敏感,但远低于在播放前的时期。我们进一步表明,价格弹性的这种时间变化是由此类事件固有的质量不确定性以及在直播过程中与内容创建者进行实时互动的机会所驱动的。
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
本文介绍了一种创新的贝叶斯机器学习算法,在不完美的顺应性存在下绘制可解释的对异质因果效应的推断(例如,在不规则的分配机制下)。我们通过蒙特卡罗模拟显示,据提出的贝叶斯因果森林具有乐器变量(BCF-IV)方法优于在控制各方误差率的同时发现和估算异质因果效果时量身定制的其他机器学习技术(或 - 在叶子水平时,不那么严格地 - 为假发现率)。 BCF-IV揭示了乐器可变场景中因果效应的异质性,而且,又为政策制定者提供了有针对性政策的相关工具。其实证应用评估了额外资金对学生表演的影响。结果表明,BCF-IV可用于增强学校资助对学生绩效的有效性。
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
因果关系是理解世界的科学努力的基本组成部分。不幸的是,在心理学和社会科学中,因果关系仍然是禁忌。由于越来越多的建议采用因果方法进行研究的重要性,我们重新制定了心理学研究方法的典型方法,以使不可避免的因果理论与其余的研究渠道协调。我们提出了一个新的过程,该过程始于从因果发现和机器学习的融合中纳入技术的发展,验证和透明的理论形式规范。然后,我们提出将完全指定的理论模型的复杂性降低到与给定目标假设相关的基本子模型中的方法。从这里,我们确定利息量是否可以从数据中估算出来,如果是的,则建议使用半参数机器学习方法来估计因果关系。总体目标是介绍新的研究管道,该管道可以(a)促进与测试因果理论的愿望兼容的科学询问(b)鼓励我们的理论透明代表作为明确的数学对象,(c)将我们的统计模型绑定到我们的统计模型中该理论的特定属性,因此减少了理论到模型间隙通常引起的规范不足问题,以及(d)产生因果关系和可重复性的结果和估计。通过具有现实世界数据的教学示例来证明该过程,我们以摘要和讨论来结论。
translated by 谷歌翻译
估计平均因果效应的理想回归(如果有)是什么?我们在离散协变量的设置中研究了这个问题,从而得出了各种分层估计器的有限样本方差的表达式。这种方法阐明了许多广泛引用的结果的基本统计现象。我们的博览会结合了研究因果效应估计的三种不同的方法论传统的见解:潜在结果,因果图和具有加性误差的结构模型。
translated by 谷歌翻译
为了进一步开发异构治疗效果的统计推理问题,本文在Breiman(2001)随机林树(RFT)和Wager等人的情况下建立了使用古典的优秀统计属性来参数化非参数问题的(2018)因果树。oLs和基于协变量分数的局部线性间隔的划分,同时保留随机林树木,具有可构造的置信区间和渐近常数特性的优势[athey和Imbens(2016),efron(2014),赌第等(2014年)\ citep {wagert2014Asymptotic},我们根据固定规则提出了一个决策树,根据固定规则与本地样本的多项式估计相结合,我们称之为临时局部线性因果树(QLPRT)和林(QLPRF)。
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译
算法在政策和业务中产生越来越多的决策和建议。这种算法决策是自然实验(可条件准随机分配的仪器),因为该算法仅基于可观察输入变量的决定。我们使用该观察来为一类随机和确定性决策算法开发治疗效果估算器。我们的估算器被证明对于明确的因果效应,它们是一致的和渐近正常的。我们估算器的一个关键特例是多维回归不连续性设计。我们应用估算员以评估冠状病毒援助,救济和经济安全(关心)法案的效果,其中数十亿美元的资金通过算法规则分配给医院。我们的估计表明,救济资金对Covid-19相关的医院活动水平影响不大。天真的OLS和IV估计表现出实质性的选择偏差。
translated by 谷歌翻译
在许多学科中,异质治疗效果(HTE)的估计至关重要,从个性化医学到经济学等等。在随机试验和观察性研究中,随机森林已被证明是一种灵活而有力的HTE估计方法。尤其是Athey,Tibshirani和Wager(2019)引入的“因果森林”,以及包装GRF中的R实施。 Seibold,Zeileis和Hothorn(2018)引入了一种称为“基于模型的森林”的相关方法,该方法旨在随机试验,并同时捕获预后和预测变量的效果,并在R包装模型中进行模块化实现。 。在这里,我们提出了一种统一的观点,它超出了理论动机,并研究了哪些计算元素使因果森林如此成功,以及如何将它们与基于模型的森林的优势融合在一起。为此,我们表明,可以通过相同的参数和L2损耗下加性模型的模型假设来理解这两种方法。这种理论上的见解使我们能够实施“基于模型的因果林”的几种口味,并在计算机中剖析其不同元素。将原始的因果森林和基于模型的森林与基准研究中的新混合版本进行了比较,该研究探讨了随机试验和观察环境。在随机设置中,两种方法都执行了AKIN。如果在数据生成过程中存在混淆,我们发现与相应倾向的治疗指标的局部核心是良好性能的主要驱动力。结果的局部核心不太重要,并且可以通过相对于预后和预测效应的同时拆分选择来代替或增强。
translated by 谷歌翻译
因果推断能够估计治疗效果(即,治疗结果的因果效果),使各个领域的决策受益。本研究中的一个基本挑战是观察数据的治疗偏见。为了提高对因果推断的观察研究的有效性,基于代表的方法作为最先进的方法表明了治疗效果估计的卓越性能。基于大多数基于表示的方法假设所有观察到的协变量都是预处理的(即,不受治疗影响的影响),并学习这些观察到的协变量的平衡表示,以估算治疗效果。不幸的是,这种假设往往在实践中往往是太严格的要求,因为一些协调因子是通过对治疗的干预进行改变(即,后治疗)来改变。相比之下,从不变的协变量中学到的平衡表示因此偏置治疗效果估计。
translated by 谷歌翻译
Causal inference is the process of using assumptions, study designs, and estimation strategies to draw conclusions about the causal relationships between variables based on data. This allows researchers to better understand the underlying mechanisms at work in complex systems and make more informed decisions. In many settings, we may not fully observe all the confounders that affect both the treatment and outcome variables, complicating the estimation of causal effects. To address this problem, a growing literature in both causal inference and machine learning proposes to use Instrumental Variables (IV). This paper serves as the first effort to systematically and comprehensively introduce and discuss the IV methods and their applications in both causal inference and machine learning. First, we provide the formal definition of IVs and discuss the identification problem of IV regression methods under different assumptions. Second, we categorize the existing work on IV methods into three streams according to the focus on the proposed methods, including two-stage least squares with IVs, control function with IVs, and evaluation of IVs. For each stream, we present both the classical causal inference methods, and recent developments in the machine learning literature. Then, we introduce a variety of applications of IV methods in real-world scenarios and provide a summary of the available datasets and algorithms. Finally, we summarize the literature, discuss the open problems and suggest promising future research directions for IV methods and their applications. We also develop a toolkit of IVs methods reviewed in this survey at https://github.com/causal-machine-learning-lab/mliv.
translated by 谷歌翻译
联合分析是一种流行的实验设计,用于测量多维偏好。研究人员研究了在控制其他相关因素的同时如何影响决策。当前,存在两种方法学方法来分析联合实验的数据。第一个重点是估计每个因素的平均边际效应,同时平均其他因素。尽管这允许基于直接设计的估计,但结果严重取决于其他因素的分布以及相互作用效应的汇总方式。一种基于模型的替代方法可以计算各种兴趣,但要求研究人员正确指定模型,这是与许多因素和可能的相互作用的联合分析的挑战性任务。此外,在合并相互作用时,常用的逻辑回归即使具有适度的因素,统计特性也很差。我们提出了一种基于条件随机测试的新假设检验方法,以回答联合分析的最基本问题:考虑到其他因素,感兴趣的因素是否重要?我们的方法仅基于因素的随机化,因此没有假设。但是,它允许研究人员使用任何测试统计量,包括基于复杂的机器学习算法的统计量。结果,我们能够结合现有的基于设计和基于模型的方法的优势。我们通过对移民偏好和政治候选评估的联合分析来说明拟议的方法。我们还扩展了提出的方法来测试联合分析中常用的规律性假设。可以使用开源软件包来实施建议的方法。
translated by 谷歌翻译
基于AI和机器学习的决策系统已在各种现实世界中都使用,包括医疗保健,执法,教育和金融。不再是牵强的,即设想一个未来,自治系统将推动整个业务决策,并且更广泛地支持大规模决策基础设施以解决社会最具挑战性的问题。当人类做出决定时,不公平和歧视的问题普遍存在,并且当使用几乎没有透明度,问责制和公平性的机器做出决定时(或可能会放大)。在本文中,我们介绍了\ textit {Causal公平分析}的框架,目的是填补此差距,即理解,建模,并可能解决决策设置中的公平性问题。我们方法的主要见解是将观察到数据中存在的差异的量化与基本且通常是未观察到的因果机制收集的因果机制的收集,这些机制首先会产生差异,挑战我们称之为因果公平的基本问题分析(FPCFA)。为了解决FPCFA,我们研究了分解差异和公平性的经验度量的问题,将这种变化归因于结构机制和人群的不同单位。我们的努力最终达到了公平地图,这是组织和解释文献中不同标准之间关系的首次系统尝试。最后,我们研究了进行因果公平分析并提出一本公平食谱的最低因果假设,该假设使数据科学家能够评估不同影响和不同治疗的存在。
translated by 谷歌翻译
本文开发了贝叶斯因果林的稀疏诱导版本,最近提出的非参数因果回归模型采用贝叶斯添加剂回归树,专门设计用于使用观察数据来估计异质治疗效果。我们介绍的稀疏诱导组件是通过实证研究的动机,其中不是所有可用的协变量相关的,导致在估计个体治疗效果的兴趣表面底层的不同程度。在这项工作中提供的扩展版本,我们命名贝叶斯因果森林,配备了一对允许模型通过树集合中的相应数量的分裂调节每个协变量的重量。这些前瞻改善了模型对稀疏数据产生过程的适应性,并且允许在治疗效果估计的框架中进行完全贝叶斯特征缩收,从而揭示推动异质性的调节因子。此外,该方法允许先前了解相关的混杂协变量和对模型中掺入结果的影响的相对幅度。我们说明了我们在模拟研究中的方法的表现,与贝叶斯因果林和其他最先进的模型相比,展示如何与越来越多的协变量以及其如何处理强烈混淆的情景。最后,我们还提供了使用真实数据的应用程序的示例。
translated by 谷歌翻译
关于人们的预测,例如他们预期的教育成就或信用风险,可以表现出色,并塑造他们旨在预测的结果。了解这些预测对最终结果的因果影响对于预测未来预测模型的含义并选择要部署哪些模型至关重要。但是,该因果估计任务带来了独特的挑战:模型预测通常是输入特征的确定性功能,并且与结果高度相关,这可能使预测的因果效应不可能从协变量的直接效应中解散。我们通过因果可识别性的角度研究了这个问题,尽管该问题完全普遍,但我们突出了三种自然情况,在这些情况下,可以从观察数据中确定预测对结果的因果影响:基于预测或基于预测的决策中的随机化。 ,在数据收集过程中部署的预测模型和离散预测输出的过度参数化。我们从经验上表明,在适当的可识别性条件下,从预测中预测的监督学习的标准变体可以找到特征,预测和结果之间的可转移功能关系,从而得出有关新部署的预测模型的结论。我们的积极结果从根本上依赖于在数据收集期间记录的模型预测,从而提出了重新思考标准数据收集实践的重要性,以使进步能够更好地理解社会成果和表现性反馈循环。
translated by 谷歌翻译