个性化决定规则(IDR)是一个决定函数,可根据他/她观察到的特征分配给定的治疗。文献中的大多数现有工作考虑使用二进制或有限的许多治疗方案的设置。在本文中,我们专注于连续治疗设定,并提出跳跃间隔 - 学习,开发一个最大化预期结果的个性化间隔值决定规则(I2DR)。与推荐单一治疗的IDRS不同,所提出的I2DR为每个人产生了一系列治疗方案,使其在实践中实施更加灵活。为了获得最佳I2DR,我们的跳跃间隔学习方法估计通过跳转惩罚回归给予治疗和协变量的结果的条件平均值,并基于估计的结果回归函数来衍生相应的最佳I2DR。允许回归线是用于清晰的解释或深神经网络的线性,以模拟复杂的处理 - 协调会相互作用。为了实现跳跃间隔学习,我们开发了一种基于动态编程的搜索算法,其有效计算结果回归函数。当结果回归函数是处理空间的分段或连续功能时,建立所得I2DR的统计特性。我们进一步制定了一个程序,以推断(估计)最佳政策下的平均结果。进行广泛的模拟和对华法林研究的真实数据应用,以证明所提出的I2DR的经验有效性。
translated by 谷歌翻译
我们认为离政策在连续处理设置,如个性化的剂量调查评价(OPE)。在OPE,一个目标来估算下使用不同的决策规则产生的历史数据的新的治疗决策规则中的平均结果。离散处理设置上OPE焦点大多数现有的作品。为了应对持续的治疗,我们开发使用OPE深跳学习一种新的估计方法。我们的方法在于在使用深离散化,通过利用深度学习和多尺度变化点检测自适应离散化治疗领域的主要成分。这使我们能够应用在离散处理现有OPE方法来处理连续治疗。我们的方法是通过理论计算结果,模拟和实际应用程序,以华法林给药进一步合理的。
translated by 谷歌翻译
我们考虑在离线域中的强化学习(RL)方法,没有其他在线数据收集,例如移动健康应用程序。计算机科学文献中的大多数现有策略优化算法都是在易于收集或模拟的在线设置中开发的。通过预采用的离线数据集,它们对移动健康应用程序的概括尚不清楚。本文的目的是开发一个新颖的优势学习框架,以便有效地使用预采用的数据进行策略优化。所提出的方法采用由任何现有的最新RL算法计算的最佳Q-估计器作为输入,并输出一项新策略,其价值比基于初始Q-得出的策略更快地收敛速度。估计器。进行广泛的数值实验以支持我们的理论发现。我们提出的方法的Python实现可在https://github.com/leyuanheart/seal上获得。
translated by 谷歌翻译
A / B测试或在线实验是一种标准的业务策略,可以在制药,技术和传统行业中与旧产品进行比较。在双面市场平台(例如优步)的在线实验中出现了主要挑战,其中只有一个单位接受一系列处理随着时间的推移。在这些实验中,给定时间的治疗会影响当前结果以及未来的结果。本文的目的是引入用于在这些实验中携带A / B测试的加强学习框架,同时表征长期治疗效果。我们所提出的测试程序允许顺序监控和在线更新。它通常适用于不同行业的各种治疗设计。此外,我们系统地研究了我们测试程序的理论特性(例如,尺寸和功率)。最后,我们将框架应用于模拟数据和从技术公司获得的真实数据示例,以说明其在目前的实践中的优势。我们的测试的Python实现是在https://github.com/callmespring/causalrl上找到的。
translated by 谷歌翻译
我们考虑在具有多个可用的多个辅助来源的主要兴趣样本中最佳决策问题。感兴趣的结果是有限的,因为它仅在主要样本中观察到。实际上,这种多个数据源可能属于异质研究,因此不能直接组合。本文提出了一种新的框架来处理异构研究,并通过新的校准最佳决策(CODA)方法同时解决有限的结果,通过利用多种数据来源的常见中间结果来解决。具体地,CODA允许跨不同样品的基线协变量具有均匀或异质的分布。在温和和可测试的假设下,不同样本中的中间结果的条件方法等于基线协变量和治疗信息,我们表明,条件平均结果的提议CODA估计是渐近正常的和更有效的,而不是使用主要样品。此外,由于速率双重稳健性,可以使用简单的插件方法轻松获得CODA估计器的方差。对模拟数据集的广泛实验显示了使用CoDa的经验有效性和提高效率,然后是与来自Eicu的辅助数据的主要样本是MIMIC-III数据集的真实应用程序。
translated by 谷歌翻译
乘车共享公司等双面市场通常涉及一组跨时间和/或位置做出顺序决策的主题。随着智能手机和物联网的快速发展,它们实质上改变了人类的运输格局。在本文中,我们考虑了乘车共享公司的大规模车队管理,这些公司涉及随着时间的推移接收产品(或治疗)序列的不同领域的多个单元。在这些研究中出现了主要的技术挑战,例如政策评估,因为(i)空间和时间附近会导致位置和时间之间的干扰; (ii)大量位置导致维度的诅咒。为了同时解决这两个挑战,我们介绍了在这些研究中进行政策评估的多机构增强学习(MARL)框架。我们提出了新的估计量,即在不同产品下的平均结果,尽管州行动空间具有很高的差异性。提出的估计量在模拟实验中有利。我们进一步说明了我们的方法使用从双面市场公司获得的真实数据集来评估应用不同的补贴策略的效果。我们提出的方法的Python实现可在https://github.com/runzhestat/causalmarl上获得。
translated by 谷歌翻译
本文关注的是,基于无限视野设置中预采用的观察数据,为目标策略的价值离线构建置信区间。大多数现有作品都假定不存在混淆观察到的动作的未测量变量。但是,在医疗保健和技术行业等实际应用中,这种假设可能会违反。在本文中,我们表明,使用一些辅助变量介导动作对系统动态的影响,目标策略的价值在混杂的马尔可夫决策过程中可以识别。基于此结果,我们开发了一个有效的非政策值估计器,该估计值可用于潜在模型错误指定并提供严格的不确定性定量。我们的方法是通过理论结果,从乘车共享公司获得的模拟和真实数据集证明的。python实施了建议的过程,请访问https://github.com/mamba413/cope。
translated by 谷歌翻译
离线政策评估(OPE)被认为是强化学习(RL)的基本且具有挑战性的问题。本文重点介绍了基于从无限 - 马尔可夫决策过程的框架下从可能不同策略生成的预收集的数据的目标策略的价值估计。由RL最近开发的边际重要性采样方法和因果推理中的协变量平衡思想的动机,我们提出了一个新颖的估计器,具有大约投影的国家行动平衡权重,以进行策略价值估计。我们获得了这些权重的收敛速率,并表明拟议的值估计量在技术条件下是半参数有效的。就渐近学而言,我们的结果比例均以每个轨迹的轨迹数量和决策点的数量进行扩展。因此,当决策点数量分歧时,仍然可以使用有限的受试者实现一致性。此外,我们开发了一个必要且充分的条件,以建立贝尔曼操作员在政策环境中的适当性,这表征了OPE的困难,并且可能具有独立的利益。数值实验证明了我们提出的估计量的有希望的性能。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
我们在无限地平线马尔可夫决策过程中考虑批量(离线)策略学习问题。通过移动健康应用程序的推动,我们专注于学习最大化长期平均奖励的政策。我们为平均奖励提出了一款双重强大估算器,并表明它实现了半导体效率。此外,我们开发了一种优化算法来计算参数化随机策略类中的最佳策略。估计政策的履行是通过政策阶级的最佳平均奖励与估计政策的平均奖励之间的差异来衡量,我们建立了有限样本的遗憾保证。通过模拟研究和促进体育活动的移动健康研究的分析来说明该方法的性能。
translated by 谷歌翻译
Off-Policy evaluation (OPE) is concerned with evaluating a new target policy using offline data generated by a potentially different behavior policy. It is critical in a number of sequential decision making problems ranging from healthcare to technology industries. Most of the work in existing literature is focused on evaluating the mean outcome of a given policy, and ignores the variability of the outcome. However, in a variety of applications, criteria other than the mean may be more sensible. For example, when the reward distribution is skewed and asymmetric, quantile-based metrics are often preferred for their robustness. In this paper, we propose a doubly-robust inference procedure for quantile OPE in sequential decision making and study its asymptotic properties. In particular, we propose utilizing state-of-the-art deep conditional generative learning methods to handle parameter-dependent nuisance function estimation. We demonstrate the advantages of this proposed estimator through both simulations and a real-world dataset from a short-video platform. In particular, we find that our proposed estimator outperforms classical OPE estimators for the mean in settings with heavy-tailed reward distributions.
translated by 谷歌翻译
This paper investigates the stability of deep ReLU neural networks for nonparametric regression under the assumption that the noise has only a finite p-th moment. We unveil how the optimal rate of convergence depends on p, the degree of smoothness and the intrinsic dimension in a class of nonparametric regression functions with hierarchical composition structure when both the adaptive Huber loss and deep ReLU neural networks are used. This optimal rate of convergence cannot be obtained by the ordinary least squares but can be achieved by the Huber loss with a properly chosen parameter that adapts to the sample size, smoothness, and moment parameters. A concentration inequality for the adaptive Huber ReLU neural network estimators with allowable optimization errors is also derived. To establish a matching lower bound within the class of neural network estimators using the Huber loss, we employ a different strategy from the traditional route: constructing a deep ReLU network estimator that has a better empirical loss than the true function and the difference between these two functions furnishes a low bound. This step is related to the Huberization bias, yet more critically to the approximability of deep ReLU networks. As a result, we also contribute some new results on the approximation theory of deep ReLU neural networks.
translated by 谷歌翻译
Integrative analysis of data from multiple sources is critical to making generalizable discoveries. Associations that are consistently observed across multiple source populations are more likely to be generalized to target populations with possible distributional shifts. In this paper, we model the heterogeneous multi-source data with multiple high-dimensional regressions and make inferences for the maximin effect (Meinshausen, B{\"u}hlmann, AoS, 43(4), 1801--1830). The maximin effect provides a measure of stable associations across multi-source data. A significant maximin effect indicates that a variable has commonly shared effects across multiple source populations, and these shared effects may be generalized to a broader set of target populations. There are challenges associated with inferring maximin effects because its point estimator can have a non-standard limiting distribution. We devise a novel sampling method to construct valid confidence intervals for maximin effects. The proposed confidence interval attains a parametric length. This sampling procedure and the related theoretical analysis are of independent interest for solving other non-standard inference problems. Using genetic data on yeast growth in multiple environments, we demonstrate that the genetic variants with significant maximin effects have generalizable effects under new environments.
translated by 谷歌翻译
Dynamic treatment regimes assign personalized treatments to patients sequentially over time based on their baseline information and time-varying covariates. In mobile health applications, these covariates are typically collected at different frequencies over a long time horizon. In this paper, we propose a deep spectral Q-learning algorithm, which integrates principal component analysis (PCA) with deep Q-learning to handle the mixed frequency data. In theory, we prove that the mean return under the estimated optimal policy converges to that under the optimal one and establish its rate of convergence. The usefulness of our proposal is further illustrated via simulations and an application to a diabetes dataset.
translated by 谷歌翻译
本文研究了在潜在的结果框架中使用深神经网络(DNN)的平均治疗效果(ATE)的估计和推理。在一些规则性条件下,观察到的响应可以作为与混杂变量和治疗指标作为自变量的平均回归问题的响应。使用这种配方,我们研究了通过使用特定网络架构的DNN回归基于估计平均回归函数的两种尝试估计和推断方法。我们表明ATE的两个DNN估计在底层真正的均值回归模型上的一些假设下与无维一致性率一致。我们的模型假设可容纳观察到的协变量的潜在复杂的依赖结构,包括治疗指标和混淆变量之间的潜在因子和非线性相互作用。我们还基于采样分裂的思想,确保精确推理和不确定量化,建立了我们估计的渐近常态。仿真研究和实际数据应用证明了我们的理论调查结果,支持我们的DNN估计和推理方法。
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
本文提出了在多阶段实验的背景下的异质治疗效应的置信区间结构,以$ N $样品和高维,$ D $,混淆。我们的重点是$ d \ gg n $的情况,但获得的结果也适用于低维病例。我们展示了正则化估计的偏差,在高维变焦空间中不可避免,具有简单的双重稳固分数。通过这种方式,不需要额外的偏差,并且我们获得root $ N $推理结果,同时允许治疗和协变量的多级相互依赖性。记忆财产也没有假设;治疗可能取决于所有先前的治疗作业以及以前的所有多阶段混淆。我们的结果依赖于潜在依赖的某些稀疏假设。我们发现具有动态处理的强大推理所需的新产品率条件。
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
由于在数据稀缺的设置中,交叉验证的性能不佳,我们提出了一个新颖的估计器,以估计数据驱动的优化策略的样本外部性能。我们的方法利用优化问题的灵敏度分析来估计梯度关于数据中噪声量的最佳客观值,并利用估计的梯度将策略的样本中的表现为依据。与交叉验证技术不同,我们的方法避免了为测试集牺牲数据,在训练和因此非常适合数据稀缺的设置时使用所有数据。我们证明了我们估计量的偏见和方差范围,这些问题与不确定的线性目标优化问题,但已知的,可能是非凸的,可行的区域。对于更专业的优化问题,从某种意义上说,可行区域“弱耦合”,我们证明结果更强。具体而言,我们在估算器的错误上提供明确的高概率界限,该估计器在策略类别上均匀地保持,并取决于问题的维度和策略类的复杂性。我们的边界表明,在轻度条件下,随着优化问题的尺寸的增长,我们的估计器的误差也会消失,即使可用数据的量仍然很小且恒定。说不同的是,我们证明我们的估计量在小型数据中的大规模政权中表现良好。最后,我们通过数值将我们提出的方法与最先进的方法进行比较,通过使用真实数据调度紧急医疗响应服务的案例研究。我们的方法提供了更准确的样本外部性能估计,并学习了表现更好的政策。
translated by 谷歌翻译
当并非观察到所有混杂因子并获得负面对照时,我们研究因果参数的估计。最近的工作表明,这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中,我们使用阴性对照来应对因果推断的主要挑战:这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件,以识别因果参数并在估计中需要进行独特性假设,并且还集中于桥梁函数的参数估计。相反,我们提供了一种新的识别策略,以避免完整性条件。而且,我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别,例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果,既可以估计桥梁功能本身,又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。
translated by 谷歌翻译