Consider two brands that want to jointly test alternate web experiences for their customers with an A/B test. Such collaborative tests are today enabled using \textit{third-party cookies}, where each brand has information on the identity of visitors to another website. With the imminent elimination of third-party cookies, such A/B tests will become untenable. We propose a two-stage experimental design, where the two brands only need to agree on high-level aggregate parameters of the experiment to test the alternate experiences. Our design respects the privacy of customers. We propose an estimater of the Average Treatment Effect (ATE), show that it is unbiased and theoretically compute its variance. Our demonstration describes how a marketer for a brand can design such an experiment and analyze the results. On real and simulated data, we show that the approach provides valid estimate of the ATE with low variance and is robust to the proportion of visitors overlapping across the brands.
translated by 谷歌翻译
估算随机实验的因果效应是临床研究的核心。降低这些分析中的统计不确定性是统计学家的重要目标。注册管理机构,事先审判和健康记录构成了对患者的历史数据汇编,其在可能是可利用至此的患者下的历史数据。但是,大多数历史借贷方法通过牺牲严格的I型错误率控制来达到方差的减少。在这里,我们建议使用利用线性协变调整的历史数据来提高试验分析的效率而不会产生偏见。具体而言,我们在历史数据上培训预后模型,然后使用线性回归估计治疗效果,同时调整试验受试者预测结果(其预后分数)。我们证明,在某些条件下,这种预后调整程序在大类估算仪中获得了最低差异。当不符合这些条件时,预后的协变量调整仍然比原始协变量调整更有效,并且效率的增益与上述预后模型的预测准确性的衡量标准成正比,与原始协变量的线性关系的预测准确性。我们展示了使用模拟的方法和阿尔茨海默病的临床试验的再分析,并观察平均平均误差的有意义减少和估计方差。最后,我们提供了一种简化的渐近方差公式,使得能够计算这些收益的功率计算。在使用预后模型的预后模型中,可以实现10%和30%的样品尺寸减少。
translated by 谷歌翻译
估计平均因果效应的理想回归(如果有)是什么?我们在离散协变量的设置中研究了这个问题,从而得出了各种分层估计器的有限样本方差的表达式。这种方法阐明了许多广泛引用的结果的基本统计现象。我们的博览会结合了研究因果效应估计的三种不同的方法论传统的见解:潜在结果,因果图和具有加性误差的结构模型。
translated by 谷歌翻译
在制定政策指南时,随机对照试验(RCT)代表了黄金标准。但是,RCT通常是狭窄的,并且缺乏更广泛的感兴趣人群的数据。这些人群中的因果效应通常是使用观察数据集估算的,这可能会遭受未观察到的混杂和选择偏见。考虑到一组观察估计(例如,来自多项研究),我们提出了一个试图拒绝偏见的观察性估计值的元偏值。我们使用验证效应,可以从RCT和观察数据中推断出的因果效应。在拒绝未通过此测试的估计器之后,我们对RCT中未观察到的亚组的外推性效应产生了保守的置信区间。假设至少一个观察估计量在验证和外推效果方面是渐近正常且一致的,我们为我们算法输出的间隔的覆盖率概率提供了保证。为了促进在跨数据集的因果效应运输的设置中,我们给出的条件下,即使使用灵活的机器学习方法用于估计滋扰参数,群体平均治疗效应的双重稳定估计值也是渐近的正常。我们说明了方法在半合成和现实世界数据集上的特性,并表明它与标准的荟萃分析技术相比。
translated by 谷歌翻译
治疗效应估计的因果推理方法通常假设独立的实验单位。但是,由于实验单元可能会相互作用,因此这种假设通常值得怀疑。我们开发了增强的反可能性加权(AIPW),以估计和推断因果治疗对依赖观察数据的影响。我们的框架涵盖了网络中相互作用的单位引起的溢出效应的非常普遍的案例。我们使用插件机学习来估计无限维的滋扰成分,导致一致的治疗效应估计器以参数速率收敛,渐近地遵循高斯分布。
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
我们考虑随机对照试验的差异问题,通过使用与结果相关的协变量但与治疗无关。我们提出了一种机器学习回归调整的处理效果估算器,我们称之为Mlrate。 Mlrate使用机器学习预测结果来降低估计方差。它采用交叉配件来避免过度偏置,在一般条件下,我们证明了一致性和渐近正常性。 Mlrate对机器学习的预测较差的鲁棒步骤:如果预测与结果不相关,则估计器执行渐近的差异,而不是标准差异估计器,而如果预测与结果高度相关,则效率提升大。在A / A测试中,对于在Facebook实验中通常监测的一组48个结果指标,估计器的差异比简单差分估计器差异超过70%,比仅调整的共同单变量过程约19%用于结果的预测值。
translated by 谷歌翻译
在本文中,我们研究了在一组单位上进行的设计实验的问题,例如在线市场中的用户或用户组,以多个时间段,例如数周或数月。这些实验特别有助于研究对当前和未来结果具有因果影响的治疗(瞬时和滞后的影响)。设计问题涉及在实验之前或期间选择每个单元的治疗时间,以便最精确地估计瞬间和滞后的效果,实验后。这种治疗决策的优化可以通过降低其样本尺寸要求,直接最小化实验的机会成本。优化是我们提供近最优解的NP-Hard整数程序,当时在开始时进行设计决策(固定样本大小设计)。接下来,我们研究允许在实验期间进行适应性决策的顺序实验,并且还可能早期停止实验,进一步降低其成本。然而,这些实验的顺序性质使设计阶段和估计阶段复杂化。我们提出了一种新的算法,PGAE,通过自适应地制造治疗决策,估算治疗效果和绘制有效的实验后推理来解决这些挑战。 PGAE将来自贝叶斯统计,动态编程和样品分裂的思想结合起来。使用来自多个域的真实数据集的合成实验,我们证明了与基准相比,我们的固定样本尺寸和顺序实验的提出解决方案将实验的机会成本降低了50%和70%。
translated by 谷歌翻译
现代纵向研究在许多时间点收集特征数据,通常是相同的样本大小顺序。这些研究通常受到{辍学}和积极违规的影响。我们通过概括近期增量干预的效果(转换倾向分数而不是设置治疗价值)来解决这些问题,以适应多种结果和主题辍学。当条件忽略(不需要治疗阳性)时,我们给出了识别表达式的增量干预效果,并导出估计这些效果的非参数效率。然后我们提出了高效的非参数估计器,表明它们以快速参数速率收敛并产生均匀的推理保证,即使在较慢的速率下灵活估计滋扰函数。我们还研究了新型无限时间范围设置中的更传统的确定性效果的增量干预效应的方差比,其中时间点的数量可以随着样本大小而生长,并显示增量干预效果在统计精度下产生近乎指数的收益这个设置。最后,我们通过模拟得出结论,并在研究低剂量阿司匹林对妊娠结果的研究中进行了方法。
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
在随机对照试验中的治疗效果(TE)估计的客观评估中的中心障碍是缺乏地面真理(或验证集)来测试其表现。在本文中,我们提供了一种新的交叉验证样方法来解决这一挑战。我们程序的关键洞察力是嘈杂(但不偏不倚)差异估计可以用作RCT的一部分上的地面真理“标签”,以测试在另一部分培训的估计器的性能。我们将这种洞察力与聚集方案相结合,借助跨统计强度的大型RCT,以判断估计估计估计潜在治疗效果的能力的端到端方法。我们在亚马逊供应链中实施的709个RCT评估我们的方法。在Amazon的AB测试中,由于响应变量的重尾性,我们突出了与恢复治疗效果相关的独特困难。在这种重尾的设置中,我们的方法表明,积极低档或截断大值的程序,同时引入偏差降低了足以确保更准确地估计治疗效果的方差。
translated by 谷歌翻译
绘制因果推断的基本挑战是,任何单位都没有完全观察到反事实。此外,在观察性研究中,治疗分配可能会混淆。在不满足的条件下,已经出现了许多统计方法,这些方法在给定预处理的协变量下,包括基于倾向得分的方法,基于预后分数的方法和双重稳健方法。不幸的是,对于应用研究人员而言,没有“一定大小的”因果方法可以在普遍上表现出色。实际上,因果方法主要根据手工制作的模拟数据进行定量评估。这样的数据产生程序可能具有有限的价值,因为它们通常是现实的风格化模型。它们被简化为障碍性,缺乏现实世界数据的复杂性。对于应用研究人员,了解方法对手头数据的表现效果很好至关重要。我们的工作介绍了基于生成模型的深层框架,以验证因果推理方法。该框架的新颖性源于其产生锚定在观察到的样品的经验分布上的合成数据的能力,因此与后者几乎没有区别。该方法使用户可以为因果效应的形式和幅度指定地面真理,并将偏见作为协变量的功能。因此,模拟数据集用于评估与观察到的样本相似的数据时,各种因果估计方法的潜在性能。我们证明了Credence在广泛的仿真研究中准确评估因果估计技术的相对性能以及来自Lalonde和Project Star研究的两个现实世界数据应用的能力。
translated by 谷歌翻译
我们应用因果机学习算法来评估营销干预措施的因果影响,即优惠券活动,对零售商的销售。除了评估不同类型的优惠券的平均影响外,我们还调查了不同客户群的因果关系效应的异质性,例如,在相对较高的客户与先前购买相对较高的客户之间。最后,我们使用最佳政策学习来确定(以数据驱动方式)哪些客户群应针对优惠券活动,以最大程度地提高营销干预措施在销售方面的有效性。我们发现,在检查的五个优惠券类别中,只有两个,即适用于药店产品和其他食品产品类别的优惠券,对零售商销售具有统计学上的显着积极影响。对小组平均治疗效果的评估表明,在商店的先前购买中定义的客户群中,优惠券提供的影响有很大的差异,药品店优惠券在先前购买较高的客户和其他食品优惠券中特别有效先前购买较低的客户。我们的研究提供了一种用例,用于在业务分析中应用因果机学习,以评估特定公司政策(例如营销活动)对决策支持的因果影响。
translated by 谷歌翻译
加权方法是偏离因果效应的估计的常见工具。虽然越来越多的看似不同的方法,但其中许多可以折叠成一个统一的制度:因果最佳运输。这种新方法通过最小化治疗和对照组之间的最佳运输距离,或者更一般地,在源和目标群体之间直接针对分布平衡。我们的方法是半富集的有效和无模型,但也可以包含研究人员希望平衡的协变量的时刻或任何其他重要的功能。我们发现因果最佳运输优于竞争对手的方法,当错过倾向分数和结果模型时,表明它是一种稳健的替代普通加权方法。最后,我们证明了我们在外部对照研究中的效用检查米索前列醇与催产素治疗后骨髓出血的影响。
translated by 谷歌翻译
The intersection of causal inference and machine learning for decision-making is rapidly expanding, but the default decision criterion remains an \textit{average} of individual causal outcomes across a population. In practice, various operational restrictions ensure that a decision-maker's utility is not realized as an \textit{average} but rather as an \textit{output} of a downstream decision-making problem (such as matching, assignment, network flow, minimizing predictive risk). In this work, we develop a new framework for off-policy evaluation with \textit{policy-dependent} linear optimization responses: causal outcomes introduce stochasticity in objective function coefficients. Under this framework, a decision-maker's utility depends on the policy-dependent optimization, which introduces a fundamental challenge of \textit{optimization} bias even for the case of policy evaluation. We construct unbiased estimators for the policy-dependent estimand by a perturbation method, and discuss asymptotic variance properties for a set of adjusted plug-in estimators. Lastly, attaining unbiased policy evaluation allows for policy optimization: we provide a general algorithm for optimizing causal interventions. We corroborate our theoretical results with numerical simulations.
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
我们研究了具有预处理结果数据的实验研究的最佳设计。估计平均处理效果是治疗和控制单元的加权平均结果之间的差异。许多常用的方法符合该配方,包括差分估计器和各种合成控制技术。我们提出了几种方法,用于结合重量选择一组处理的单位。观察问题的NP硬度,我们介绍了混合整数编程配方,可选择处理和控制集和单位权重。我们证明,这些提出的方法导致定性不同的实验单元进行治疗。我们根据美国劳动统计局的公开数据使用模拟,这些数据在与随机试验等简单和常用的替代品相比时,表现出平均平方误差和统计功率的改进。
translated by 谷歌翻译
历史上用于结果很少或数据收集昂贵的设置,与结果相关的采样与许多现代环境有关,在许多现代设置中,数据可用于偏见的目标人群(例如公共行政数据)。在依赖结果的采样下,未确定诸如平均风险差异和平均风险比率之类的常见效应措施,但条件上的优势比为。条件优势比的聚合具有挑战性,因为通常未确定汇总措施。此外,边际优势比可以大于所有条件优势比。如果我们使用标准算术平均值的替代聚合,则可以避免这种所谓的优势比的非碰撞能力。我们提供了一种对可折叠性的新定义,该定义使这种聚合方法的选择显式,并证明了几何汇总的优势比是可折叠的。我们描述了如何部分识别,估计和推断在结果依赖性抽样下的几何比值比。我们提出的估计器基于有效的影响函数,因此具有双重稳健风格的性能。
translated by 谷歌翻译
个体治疗效果(ITE)预测是机器学习的重要研究领域,其目的在解释和估算粒状水平时的作用的因果影响。它代表了对诸如医疗保健,在线广告或社会经济学的多个申请兴趣的问题。为了促进本主题的研究,我们释放了从几个随机控制试验中收集的1390万个样本的公开收集,通过健康的210倍因素扩展先前可用的数据集。我们提供有关数据收集的详细信息,并执行Sanity检查以验证使用此数据是否有因果推理任务。首先,我们正规化可以使用此数据执行的隆起建模(UM)的任务以及相关的评估指标。然后,我们提出了为ITE预测提供了一般设置的合成响应表面和异质处理分配。最后,我们报告实验以验证利用其大小的数据集的关键特性,以评估和比较 - 具有高统计显着性 - 基线UM和ITE预测方法的选择。
translated by 谷歌翻译
本文提出了一种估计溢出效应存在福利最大化政策的实验设计。我考虑一个设置在其中组织成一个有限数量的大型群集,并在每个群集中以不观察到的方式交互。作为第一种贡献,我介绍了一个单波实验,以估计治疗概率的变化的边际效应,以考虑到溢出率,并测试政策最优性。该设计在群集中独立地随机化处理,并诱导局部扰动到对簇成对的治疗概率。使用估计的边际效应,我构建了对定期治疗分配规则最大化福利的实际测试,并且我表征了其渐近性质。该想法是,研究人员应报告对福利最大化政策的边际效应和测试的估计:边际效应表明福利改善的方向,并提供了关于是否值得进行额外实验以估计估计福利改善的证据治疗分配。作为第二种贡献,我设计了多波实验来估计治疗分配规则并最大化福利。我获得了小型样本保证,最大可获得的福利和估计政策(遗憾)评估的福利之间的差异。这种保证的必要性是,遗憾在迭代和集群的数量中线性会聚到零。校准在信息扩散和现金转移方案上校准的模拟表明,该方法导致了显着的福利改进。
translated by 谷歌翻译