数据驱动的个性化决策最近收到了增加的研究兴趣。大多数现有的方法都取决于没有无法衡量的混杂的假设,不幸的是,在实践中,尤其是在观察性研究中无法确保这种混杂。在最近提出的近端因果推理的推动下,我们开发了几种近端学习方法,以估算未衡量的混杂的最佳个性化治疗方案(ITR)。特别是,我们为不同类别的ITR建立了几个识别结果,这表现出了做出不可测试的假设的风险与决策的价值函数改善之间的权衡。基于这些结果,我们提出了几种基于分类的方法来找到各种限制的课堂最佳ITR并发展其理论属性。通过广泛的仿真研究和一项真实的数据应用,我们提出的方法的数值性能具有吸引力。
translated by 谷歌翻译
A common concern when a policy-maker draws causal inferences and makes decisions from observational data is that the measured covariates are insufficiently rich to account for all sources of confounding, i.e., the standard no confoundedness assumption fails to hold. The recently proposed proximal causal inference framework shows that proxy variables can be leveraged to identify causal effects and therefore facilitate decision-making. Building upon this line of work, we propose a novel optimal individualized treatment regime based on so-called outcome-inducing and treatment-inducing confounding bridges. We then show that the value function of this new optimal treatment regime is superior to that of existing ones in the literature. Theoretical guarantees, including identification, superiority, and excess value bound of the estimated regime, are established. Moreover, we demonstrate the proposed optimal regime via numerical experiments and a real data application.
translated by 谷歌翻译
当并非观察到所有混杂因子并获得负面对照时,我们研究因果参数的估计。最近的工作表明,这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中,我们使用阴性对照来应对因果推断的主要挑战:这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件,以识别因果参数并在估计中需要进行独特性假设,并且还集中于桥梁函数的参数估计。相反,我们提供了一种新的识别策略,以避免完整性条件。而且,我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别,例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果,既可以估计桥梁功能本身,又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。
translated by 谷歌翻译
我们研究了具有连续状态的可观察到的马尔可夫决策过程(POMDPS)的非政策评估问题(OPE)。由最近提出的近端因果推理框架的动机,我们开发了一个非参数识别结果,以通过时间依赖性代理变量的帮助通过所谓的V-bridge函数来估算策略值。然后,我们开发一种拟合的Q评估类型算法来递归估算V桥功能,其中每个步骤都解决了非参数仪器变量(NPIV)问题。通过分析这个具有挑战性的顺序NPIV问题,我们建立了用于估计V桥功能的有限样本误差界限,并因此根据样本量,地平线和所谓(本地)度量来评估策略值,以评估策略值每个步骤都不适。据我们所知,这是非参数模型下POMDP中OPE绑定的第一个有限样本误差。
translated by 谷歌翻译
我们研究了对识别的非唯一麻烦的线性功能的通用推断,该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中,包括非参数仪器变量模型,未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能(例如平均治疗效应)在适当的条件下是可以识别出的,但令人讨厌的非独家性对统计推断构成了严重的挑战,因为在这种情况下,常见的滋扰估计器可能是不稳定的,并且缺乏固定限制。在本文中,我们提出了对滋扰功能的受惩罚的最小估计器,并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别,重要的是,无论滋扰是否是唯一的,它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量,并在通用高级条件下证明其渐近正态性,这提供了渐近有效的置信区间。
translated by 谷歌翻译
个性化决定规则(IDR)是一个决定函数,可根据他/她观察到的特征分配给定的治疗。文献中的大多数现有工作考虑使用二进制或有限的许多治疗方案的设置。在本文中,我们专注于连续治疗设定,并提出跳跃间隔 - 学习,开发一个最大化预期结果的个性化间隔值决定规则(I2DR)。与推荐单一治疗的IDRS不同,所提出的I2DR为每个人产生了一系列治疗方案,使其在实践中实施更加灵活。为了获得最佳I2DR,我们的跳跃间隔学习方法估计通过跳转惩罚回归给予治疗和协变量的结果的条件平均值,并基于估计的结果回归函数来衍生相应的最佳I2DR。允许回归线是用于清晰的解释或深神经网络的线性,以模拟复杂的处理 - 协调会相互作用。为了实现跳跃间隔学习,我们开发了一种基于动态编程的搜索算法,其有效计算结果回归函数。当结果回归函数是处理空间的分段或连续功能时,建立所得I2DR的统计特性。我们进一步制定了一个程序,以推断(估计)最佳政策下的平均结果。进行广泛的模拟和对华法林研究的真实数据应用,以证明所提出的I2DR的经验有效性。
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
离线政策评估(OPE)被认为是强化学习(RL)的基本且具有挑战性的问题。本文重点介绍了基于从无限 - 马尔可夫决策过程的框架下从可能不同策略生成的预收集的数据的目标策略的价值估计。由RL最近开发的边际重要性采样方法和因果推理中的协变量平衡思想的动机,我们提出了一个新颖的估计器,具有大约投影的国家行动平衡权重,以进行策略价值估计。我们获得了这些权重的收敛速率,并表明拟议的值估计量在技术条件下是半参数有效的。就渐近学而言,我们的结果比例均以每个轨迹的轨迹数量和决策点的数量进行扩展。因此,当决策点数量分歧时,仍然可以使用有限的受试者实现一致性。此外,我们开发了一个必要且充分的条件,以建立贝尔曼操作员在政策环境中的适当性,这表征了OPE的困难,并且可能具有独立的利益。数值实验证明了我们提出的估计量的有希望的性能。
translated by 谷歌翻译
我们考虑在估计涉及依赖参数的高维滋扰的估计方程中估计一个低维参数。一个中心示例是因果推理中(局部)分位数处理效应((L)QTE)的有效估计方程,涉及在分位数以估计的分位数评估的协方差累积分布函数。借记机学习(DML)是一种使用灵活的机器学习方法估算高维滋扰的数据分解方法,但是将其应用于参数依赖性滋扰的问题是不切实际的。对于(L)QTE,DML要求我们学习整个协变量累积分布函数。相反,我们提出了局部偏见的机器学习(LDML),该学习避免了这一繁重的步骤,并且只需要对参数进行一次初始粗糙猜测而估算烦恼。对于(L)QTE,LDML仅涉及学习两个回归功能,这是机器学习方法的标准任务。我们证明,在松弛速率条件下,我们的估计量与使用未知的真实滋扰的不可行的估计器具有相同的有利渐近行为。因此,LDML值得注意的是,当我们必须控制许多协变量和/或灵活的关系时,如(l)QTES在((l)QTES)中,实际上可以有效地估算重要数量,例如(l)QTES。
translated by 谷歌翻译
我们在无限地平线马尔可夫决策过程中考虑批量(离线)策略学习问题。通过移动健康应用程序的推动,我们专注于学习最大化长期平均奖励的政策。我们为平均奖励提出了一款双重强大估算器,并表明它实现了半导体效率。此外,我们开发了一种优化算法来计算参数化随机策略类中的最佳策略。估计政策的履行是通过政策阶级的最佳平均奖励与估计政策的平均奖励之间的差异来衡量,我们建立了有限样本的遗憾保证。通过模拟研究和促进体育活动的移动健康研究的分析来说明该方法的性能。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
在TAN(2006)边缘敏感模型下,在不观察到的混淆存在下构建平均处理效应的界限问题。结合涉及对冲倾向分数的现有表征具有对问题的新的分布稳健特征,我们提出了我们称之为“双重有效/双重尖锐”(DVD)估计的这些界限的新颖估算器。双重清晰度对应于DVD估计始终估计灵敏度模型所暗示的最有可能(即,夏普)的界限,即使当所有滋扰参数都适当一致时,即使在两个滋扰参数中的一个被击败并实现半污染参数之一。双倍有效性是部分识别的全新财产:DVD估计仍然提供有效,但即使在大多数滋扰参数都被遗漏时,仍然没有锐利。实际上,即使在DVDS点估计无法渐近正常的情况下,标准沃尔德置信区间也可能保持有效。在二进制结果的情况下,DVD估计是特别方便的并且在结果回归和倾向评分方面具有闭合形式的表达。我们展示了模拟研究中的DVD估计,以及对右心导管插入的案例研究。
translated by 谷歌翻译
在本文中,我们的目标是提供对半监督(SS)因果推理的一般性和完全理解治疗效果。具体而言,我们考虑两个这样的估计值:(a)平均治疗效果和(b)定量处理效果,作为原型案例,在SS设置中,其特征在于两个可用的数据集:(i)标记的数据集大小$ N $,为响应和一组高维协变量以及二元治疗指标提供观察。 (ii)一个未标记的数据集,大小超过$ n $,但未观察到的响应。使用这两个数据集,我们开发了一个SS估计系列,该系列是:(1)更强大,并且(2)比其监督对应力更高的基于标记的数据集。除了通过监督方法可以实现的“标准”双重稳健结果(在一致性方面),我们还在正确指定模型中的倾向得分,我们进一步建立了我们SS估计的根本-N一致性和渐近常态。没有需要涉及的特定形式的滋扰职能。这种改善的鲁棒性来自使用大规模未标记的数据,因此通常不能在纯粹监督的环境中获得。此外,只要正确指定所有滋扰函数,我们的估计值都显示为半参数效率。此外,作为滋扰估计器的说明,我们考虑逆概率加权型核平滑估计,涉及未知的协变量转换机制,并在高维情景新颖的情况下建立其统一的收敛速率,这应该是独立的兴趣。两种模拟和实际数据的数值结果验证了我们对其监督对应物的优势,了解鲁棒性和效率。
translated by 谷歌翻译
我们解决了在没有观察到的混杂的存在下的因果效应估计的问题,但是观察到潜在混杂因素的代理。在这种情况下,我们提出了两种基于内核的方法,用于非线性因果效应估计:(a)两阶段回归方法,以及(b)最大矩限制方法。我们专注于近端因果学习设置,但是我们的方法可以用来解决以弗雷霍尔姆积分方程为特征的更广泛的逆问题。特别是,我们提供了在非线性环境中解决此问题的两阶段和矩限制方法的统一视图。我们为每种算法提供一致性保证,并证明这些方法在合成数据和模拟现实世界任务的数据上获得竞争结果。特别是,我们的方法优于不适合利用代理变量的早期方法。
translated by 谷歌翻译
本文提出了在多阶段实验的背景下的异质治疗效应的置信区间结构,以$ N $样品和高维,$ D $,混淆。我们的重点是$ d \ gg n $的情况,但获得的结果也适用于低维病例。我们展示了正则化估计的偏差,在高维变焦空间中不可避免,具有简单的双重稳固分数。通过这种方式,不需要额外的偏差,并且我们获得root $ N $推理结果,同时允许治疗和协变量的多级相互依赖性。记忆财产也没有假设;治疗可能取决于所有先前的治疗作业以及以前的所有多阶段混淆。我们的结果依赖于潜在依赖的某些稀疏假设。我们发现具有动态处理的强大推理所需的新产品率条件。
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
本文研究了在潜在的结果框架中使用深神经网络(DNN)的平均治疗效果(ATE)的估计和推理。在一些规则性条件下,观察到的响应可以作为与混杂变量和治疗指标作为自变量的平均回归问题的响应。使用这种配方,我们研究了通过使用特定网络架构的DNN回归基于估计平均回归函数的两种尝试估计和推断方法。我们表明ATE的两个DNN估计在底层真正的均值回归模型上的一些假设下与无维一致性率一致。我们的模型假设可容纳观察到的协变量的潜在复杂的依赖结构,包括治疗指标和混淆变量之间的潜在因子和非线性相互作用。我们还基于采样分裂的思想,确保精确推理和不确定量化,建立了我们估计的渐近常态。仿真研究和实际数据应用证明了我们的理论调查结果,支持我们的DNN估计和推理方法。
translated by 谷歌翻译
Off-Policy evaluation (OPE) is concerned with evaluating a new target policy using offline data generated by a potentially different behavior policy. It is critical in a number of sequential decision making problems ranging from healthcare to technology industries. Most of the work in existing literature is focused on evaluating the mean outcome of a given policy, and ignores the variability of the outcome. However, in a variety of applications, criteria other than the mean may be more sensible. For example, when the reward distribution is skewed and asymmetric, quantile-based metrics are often preferred for their robustness. In this paper, we propose a doubly-robust inference procedure for quantile OPE in sequential decision making and study its asymptotic properties. In particular, we propose utilizing state-of-the-art deep conditional generative learning methods to handle parameter-dependent nuisance function estimation. We demonstrate the advantages of this proposed estimator through both simulations and a real-world dataset from a short-video platform. In particular, we find that our proposed estimator outperforms classical OPE estimators for the mean in settings with heavy-tailed reward distributions.
translated by 谷歌翻译
我们考虑在具有多个可用的多个辅助来源的主要兴趣样本中最佳决策问题。感兴趣的结果是有限的,因为它仅在主要样本中观察到。实际上,这种多个数据源可能属于异质研究,因此不能直接组合。本文提出了一种新的框架来处理异构研究,并通过新的校准最佳决策(CODA)方法同时解决有限的结果,通过利用多种数据来源的常见中间结果来解决。具体地,CODA允许跨不同样品的基线协变量具有均匀或异质的分布。在温和和可测试的假设下,不同样本中的中间结果的条件方法等于基线协变量和治疗信息,我们表明,条件平均结果的提议CODA估计是渐近正常的和更有效的,而不是使用主要样品。此外,由于速率双重稳健性,可以使用简单的插件方法轻松获得CODA估计器的方差。对模拟数据集的广泛实验显示了使用CoDa的经验有效性和提高效率,然后是与来自Eicu的辅助数据的主要样本是MIMIC-III数据集的真实应用程序。
translated by 谷歌翻译
我们在面对未衡量的混杂因素时研究离线增强学习(RL)。由于缺乏与环境的在线互动,离线RL面临以下两个重大挑战:(i)代理可能会被未观察到的状态变量混淆; (ii)提前收集的离线数据不能为环境提供足够的覆盖范围。为了应对上述挑战,我们借助工具变量研究了混杂的MDP中的政策学习。具体而言,我们首先建立了基于和边缘化的重要性采样(MIS)的识别结果,以确定混杂的MDP中的预期总奖励结果。然后,通过利用悲观主义和我们的认同结果,我们提出了各种政策学习方法,并具有有限样本的次级临时性保证,可以在最小的数据覆盖范围和建模假设下找到最佳的课堂政策。最后,我们广泛的理论研究和一项由肾脏移植动机的数值研究证明了该方法的有希望的表现。
translated by 谷歌翻译