智能论文笔记

Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process

Chengchun Shi , Jin Zhu , Ye Shen , Shikai Luo , Hongtu Zhu , Rui Song

分类： (统计)机器学习 | 机器学习

2022-02-22

本文关注的是，基于无限视野设置中预采用的观察数据，为目标策略的价值离线构建置信区间。大多数现有作品都假定不存在混淆观察到的动作的未测量变量。但是，在医疗保健和技术行业等实际应用中，这种假设可能会违反。在本文中，我们表明，使用一些辅助变量介导动作对系统动态的影响，目标策略的价值在混杂的马尔可夫决策过程中可以识别。基于此结果，我们开发了一个有效的非政策值估计器，该估计值可用于潜在模型错误指定并提供严格的不确定性定量。我们的方法是通过理论结果，从乘车共享公司获得的模拟和真实数据集证明的。python实施了建议的过程，请访问https://github.com/mamba413/cope。

translated by 谷歌翻译

Statistically Efficient Advantage Learning for Offline Reinforcement Learning in Infinite Horizons

Chengchun Shi , Shikai Luo , Yuan Le , Hongtu Zhu , Rui Song

分类： (统计)机器学习 | 机器学习

2022-02-26

我们考虑在离线域中的强化学习（RL）方法，没有其他在线数据收集，例如移动健康应用程序。计算机科学文献中的大多数现有策略优化算法都是在易于收集或模拟的在线设置中开发的。通过预采用的离线数据集，它们对移动健康应用程序的概括尚不清楚。本文的目的是开发一个新颖的优势学习框架，以便有效地使用预采用的数据进行策略优化。所提出的方法采用由任何现有的最新RL算法计算的最佳Q-估计器作为输入，并输出一项新策略，其价值比基于初始Q-得出的策略更快地收敛速度。估计器。进行广泛的数值实验以支持我们的理论发现。我们提出的方法的Python实现可在https://github.com/leyuanheart/seal上获得。

translated by 谷歌翻译

Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework

Chengchun Shi , Xiaoyu Wang , Shikai Luo , Hongtu Zhu , Jieping Ye , Rui Song

分类：机器学习 | (统计)机器学习

2020-02-05

A / B测试或在线实验是一种标准的业务策略，可以在制药，技术和传统行业中与旧产品进行比较。在双面市场平台（例如优步）的在线实验中出现了主要挑战，其中只有一个单位接受一系列处理随着时间的推移。在这些实验中，给定时间的治疗会影响当前结果以及未来的结果。本文的目的是引入用于在这些实验中携带A / B测试的加强学习框架，同时表征长期治疗效果。我们所提出的测试程序允许顺序监控和在线更新。它通常适用于不同行业的各种治疗设计。此外，我们系统地研究了我们测试程序的理论特性（例如，尺寸和功率）。最后，我们将框架应用于模拟数据和从技术公司获得的真实数据示例，以说明其在目前的实践中的优势。我们的测试的Python实现是在https://github.com/callmespring/causalrl上找到的。

translated by 谷歌翻译

A Review of Off-Policy Evaluation in Reinforcement Learning

Masatoshi Uehara , Chengchun Shi , Nathan Kallus

分类： (统计)机器学习 | 机器学习

2022-12-13

Reinforcement learning (RL) is one of the most vibrant research frontiers in machine learning and has been recently applied to solve a number of challenging problems. In this paper, we primarily focus on off-policy evaluation (OPE), one of the most fundamental topics in RL. In recent years, a number of OPE methods have been developed in the statistics and computer science literature. We provide a discussion on the efficiency bound of OPE, some of the existing state-of-the-art OPE methods, their statistical properties and some other related research directions that are currently actively explored.

translated by 谷歌翻译

An Instrumental Variable Approach to Confounded Off-Policy Evaluation

Yang Xu , Jin Zhu , Chengchun Shi , Shikai Luo , Rui Song

分类： (统计)机器学习 | 机器学习

2022-12-29

Off-policy evaluation (OPE) is a method for estimating the return of a target policy using some pre-collected observational data generated by a potentially different behavior policy. In some cases, there may be unmeasured variables that can confound the action-reward or action-next-state relationships, rendering many existing OPE approaches ineffective. This paper develops an instrumental variable (IV)-based method for consistent OPE in confounded Markov decision processes (MDPs). Similar to single-stage decision making, we show that IV enables us to correctly identify the target policy's value in infinite horizon settings as well. Furthermore, we propose an efficient and robust value estimator and illustrate its effectiveness through extensive simulations and analysis of real data from a world-leading short-video platform.

translated by 谷歌翻译

A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets

Chengchun Shi , Runzhe Wan , Ge Song , Shikai Luo , Rui Song , Hongtu Zhu

分类： (统计)机器学习 | 机器学习

2022-02-21

乘车共享公司等双面市场通常涉及一组跨时间和/或位置做出顺序决策的主题。随着智能手机和物联网的快速发展，它们实质上改变了人类的运输格局。在本文中，我们考虑了乘车共享公司的大规模车队管理，这些公司涉及随着时间的推移接收产品（或治疗）序列的不同领域的多个单元。在这些研究中出现了主要的技术挑战，例如政策评估，因为（i）空间和时间附近会导致位置和时间之间的干扰；（ii）大量位置导致维度的诅咒。为了同时解决这两个挑战，我们介绍了在这些研究中进行政策评估的多机构增强学习（MARL）框架。我们提出了新的估计量，即在不同产品下的平均结果，尽管州行动空间具有很高的差异性。提出的估计量在模拟实验中有利。我们进一步说明了我们的方法使用从双面市场公司获得的真实数据集来评估应用不同的补贴策略的效果。我们提出的方法的Python实现可在https://github.com/runzhestat/causalmarl上获得。

translated by 谷歌翻译

A Minimax Learning Approach to Off-Policy Evaluation in Partially Observable Markov Decision Processes

Chengchun Shi , Masatoshi Uehara , Nan Jiang

分类：机器学习 | (统计)机器学习

2021-11-12

我们考虑在部分可观察到的马尔可夫决策过程（POMDP）中的违法评估（OPE），其中评估策略仅取决于可观察变量，并且行为策略取决于不可观察的潜在变量。现有的作品无论是假设未测量的混乱，还是专注于观察和状态空间都是表格的设置。因此，这些方法在存在未测量的混淆器的情况下遭受大偏差，或者在具有连续或大观察/状态空间的设置中的大方差。在这项工作中，通过引入将目标策略的价值和观察到的数据分布联系起来，提出了具有潜在混淆的POMDPS的新识别方法。在完全可观察到的MDP中，这些桥接功能将熟悉的值函数和评估与行为策略之间的边际密度比减少。我们接下来提出了用于学习这些桥接功能的最小值估计方法。我们的提案允许一般函数近似，因此适用于具有连续或大观察/状态空间的设置。最后，我们基于这些估计的桥梁功能构建了三种估计，对应于基于价值函数的估计器，边缘化重要性采样估计器和双重稳健的估计器。他们的掺入无血症和渐近性质进行了详细研究。

translated by 谷歌翻译

Quantile Off-Policy Evaluation via Deep Conditional Generative Learning

Yang Xu , Chengchun Shi , Shikai Luo , Lan Wang , Rui Song

分类： (统计)机器学习 | 机器学习

2022-12-29

Off-Policy evaluation (OPE) is concerned with evaluating a new target policy using offline data generated by a potentially different behavior policy. It is critical in a number of sequential decision making problems ranging from healthcare to technology industries. Most of the work in existing literature is focused on evaluating the mean outcome of a given policy, and ignores the variability of the outcome. However, in a variety of applications, criteria other than the mean may be more sensible. For example, when the reward distribution is skewed and asymmetric, quantile-based metrics are often preferred for their robustness. In this paper, we propose a doubly-robust inference procedure for quantile OPE in sequential decision making and study its asymptotic properties. In particular, we propose utilizing state-of-the-art deep conditional generative learning methods to handle parameter-dependent nuisance function estimation. We demonstrate the advantages of this proposed estimator through both simulations and a real-world dataset from a short-video platform. In particular, we find that our proposed estimator outperforms classical OPE estimators for the mean in settings with heavy-tailed reward distributions.

translated by 谷歌翻译

Policy Evaluation for Temporal and/or Spatial Dependent Experiments in Ride-sourcing Platforms

Shikai Luo , Ying Yang , Chengchun Shi , Fang Yao , Jieping Ye , Hongtu Zhu

分类：机器学习 | (统计)机器学习

2022-02-22

基于A/B测试的政策评估引起了人们对数字营销的极大兴趣，但是在乘车平台（例如Uber和Didi）中的这种评估主要是由于其时间和/或空间依赖性实验的复杂结构而被很好地研究。。本文的目的是在乘车平台中的政策评估中进行，目的是在平台的政策和换回设计下的感兴趣结果之间建立因果关系。我们提出了一个基于时间变化系数决策过程（VCDP）模型的新型潜在结果框架，以捕获时间依赖性实验中的动态治疗效果。我们通过将其分解为直接效应总和（DE）和间接效应（IE）来进一步表征平均治疗效应。我们为DE和IE制定了估计和推理程序。此外，我们提出了一个时空VCDP来处理时空依赖性实验。对于这两个VCDP模型，我们都建立了估计和推理程序的统计特性（例如弱收敛和渐近力）。我们进行广泛的模拟，以研究拟议估计和推理程序的有限样本性能。我们研究了VCDP模型如何帮助改善DIDI中各种派遣和处置政策的政策评估。

translated by 谷歌翻译

Projected State-action Balancing Weights for Offline Reinforcement Learning

Jiayi Wang , Zhengling Qi , Raymond K. W. Wong

分类：机器学习

2021-09-10

离线政策评估（OPE）被认为是强化学习（RL）的基本且具有挑战性的问题。本文重点介绍了基于从无限 - 马尔可夫决策过程的框架下从可能不同策略生成的预收集的数据的目标策略的价值估计。由RL最近开发的边际重要性采样方法和因果推理中的协变量平衡思想的动机，我们提出了一个新颖的估计器，具有大约投影的国家行动平衡权重，以进行策略价值估计。我们获得了这些权重的收敛速率，并表明拟议的值估计量在技术条件下是半参数有效的。就渐近学而言，我们的结果比例均以每个轨迹的轨迹数量和决策点的数量进行扩展。因此，当决策点数量分歧时，仍然可以使用有限的受试者实现一致性。此外，我们开发了一个必要且充分的条件，以建立贝尔曼操作员在政策环境中的适当性，这表征了OPE的困难，并且可能具有独立的利益。数值实验证明了我们提出的估计量的有希望的性能。

translated by 谷歌翻译

Jump Interval-Learning for Individualized Decision Making

Hengrui Cai , Chengchun Shi , Rui Song , Wenbin Lu

分类：机器学习 | (统计)机器学习

2021-11-17

个性化决定规则（IDR）是一个决定函数，可根据他/她观察到的特征分配给定的治疗。文献中的大多数现有工作考虑使用二进制或有限的许多治疗方案的设置。在本文中，我们专注于连续治疗设定，并提出跳跃间隔 - 学习，开发一个最大化预期结果的个性化间隔值决定规则（I2DR）。与推荐单一治疗的IDRS不同，所提出的I2DR为每个人产生了一系列治疗方案，使其在实践中实施更加灵活。为了获得最佳I2DR，我们的跳跃间隔学习方法估计通过跳转惩罚回归给予治疗和协变量的结果的条件平均值，并基于估计的结果回归函数来衍生相应的最佳I2DR。允许回归线是用于清晰的解释或深神经网络的线性，以模拟复杂的处理 - 协调会相互作用。为了实现跳跃间隔学习，我们开发了一种基于动态编程的搜索算法，其有效计算结果回归函数。当结果回归函数是处理空间的分段或连续功能时，建立所得I2DR的统计特性。我们进一步制定了一个程序，以推断（估计）最佳政策下的平均结果。进行广泛的模拟和对华法林研究的真实数据应用，以证明所提出的I2DR的经验有效性。

translated by 谷歌翻译

Deep Jump Learning for Off-Policy Evaluation in Continuous Treatment Settings

Hengrui Cai , Chengchun Shi , Rui Song , Wenbin Lu

分类： (统计)机器学习 | 机器学习

2020-10-29

我们认为离政策在连续处理设置，如个性化的剂量调查评价（OPE）。在OPE，一个目标来估算下使用不同的决策规则产生的历史数据的新的治疗决策规则中的平均结果。离散处理设置上OPE焦点大多数现有的作品。为了应对持续的治疗，我们开发使用OPE深跳学习一种新的估计方法。我们的方法在于在使用深离散化，通过利用深度学习和多尺度变化点检测自适应离散化治疗领域的主要成分。这使我们能够应用在离散处理现有OPE方法来处理连续治疗。我们的方法是通过理论计算结果，模拟和实际应用程序，以华法林给药进一步合理的。

translated by 谷歌翻译

Batch Policy Learning in Average Reward Markov Decision Processes

Peng Liao , Zhengling Qi , Predrag Klasnja , Susan Murphy

分类： (统计)机器学习

2020-07-23

我们在无限地平线马尔可夫决策过程中考虑批量（离线）策略学习问题。通过移动健康应用程序的推动，我们专注于学习最大化长期平均奖励的政策。我们为平均奖励提出了一款双重强大估算器，并表明它实现了半导体效率。此外，我们开发了一种优化算法来计算参数化随机策略类中的最佳策略。估计政策的履行是通过政策阶级的最佳平均奖励与估计政策的平均奖励之间的差异来衡量，我们建立了有限样本的遗憾保证。通过模拟研究和促进体育活动的移动健康研究的分析来说明该方法的性能。

translated by 谷歌翻译

Robust Batch Policy Learning in Markov Decision Processes

Zhengling Qi , Peng Liao

分类：机器学习 | (统计)机器学习

2020-11-09

我们研究马尔可夫决策过程（MDP）框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性，我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集，我们的目标是在预先指定的策略类中学习一个强大的策略，可以最大化此集的最小值。利用半参数统计的理论，我们开发了一种统计上有效的策略学习方法，用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。

translated by 谷歌翻译

Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes

Zuyue Fu , Zhengling Qi , Zhaoran Wang , Zhuoran Yang , Yanxun Xu , Michael R. Kosorok

分类：机器学习

2022-09-18

我们在面对未衡量的混杂因素时研究离线增强学习（RL）。由于缺乏与环境的在线互动，离线RL面临以下两个重大挑战：（i）代理可能会被未观察到的状态变量混淆；（ii）提前收集的离线数据不能为环境提供足够的覆盖范围。为了应对上述挑战，我们借助工具变量研究了混杂的MDP中的政策学习。具体而言，我们首先建立了基于和边缘化的重要性采样（MIS）的识别结果，以确定混杂的MDP中的预期总奖励结果。然后，通过利用悲观主义和我们的认同结果，我们提出了各种政策学习方法，并具有有限样本的次级临时性保证，可以在最小的数据覆盖范围和建模假设下找到最佳的课堂政策。最后，我们广泛的理论研究和一项由肾脏移植动机的数值研究证明了该方法的有希望的表现。

translated by 谷歌翻译

Statistical Estimation of Confounded Linear MDPs: An Instrumental Variable Approach

Miao Lu , Wenhao Yang , Liangyu Zhang , Zhihua Zhang

分类： (统计)机器学习 | 机器学习

2022-09-12

在马尔可夫决策过程（MDP）中，可能存在不可观察的混杂因素并对数据生成过程产生影响，因此经典的非政策评估（OPE）估计器可能无法识别目标策略的真实价值函数。在本文中，我们研究了与可观察的仪器变量混杂的MDP中OPE的统计特性。具体而言，我们根据仪器变量提出了一个两阶段估计器，并在具有线性结构的混杂MDP中建立了其统计属性。对于非反应分析，我们证明了一个$ \ Mathcal {o}（n^{ - 1/2}）$ - 错误绑定了$ n $是样本的数量。对于渐近分析，我们证明了两阶段估计量在渐近正常上，典型速率为$ n^{1/2} $。据我们所知，我们是第一个通过仪器变量显示混合线性MDP的两阶段估计量的统计结果。

translated by 谷歌翻译

Online Bootstrap Inference For Policy Evaluation in Reinforcement Learning

Pratik Ramprasad , Yuantong Li , Zhuoran Yang , Zhaoran Wang , Will Wei Sun , Guang Cheng

分类： (统计)机器学习 | 人工智能 | 机器学习

2021-08-08

强化学习的最新出现为使用这些算法计算的参数估计值创造了强大的统计推断方法的需求。现有的在线学习中统计推断的方法仅限于涉及独立采样观察的设置，而现有的强化学习中统计推断方法（RL）仅限于批处理设置。在线引导程序是一种灵活，有效的方法，用于线性随机近似算法中的统计推断，但在涉及Markov噪声（例如RL）的设置中，其功效尚未探索。在本文中，我们研究了在线引导方法在RL中的统计推断的使用。特别是，我们专注于时间差异（TD）学习和梯度TD（GTD）学习算法，它们本身就是马尔可夫噪声下线性随机近似的特殊实例。该方法在策略评估中的统计推断上表明该方法在分布上是一致的，并且包括数值实验，以证明该算法在跨一系列实际RL环境中在统计推断任务上的有效性。

translated by 谷歌翻译

Off-policy estimation of linear functionals: Non-asymptotic theory for semi-parametric efficiency

Wenlong Mou , Martin J. Wainwright , Peter L. Bartlett

分类： (统计)机器学习

2022-09-26

在因果推理和强盗文献中，基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序，然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限：这些边界表明，为了获得非反应性最佳程序，应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序，并通过匹配非轴突局部局部最小值下限，在有限样品中建立了实例依赖性最优性。这些结果表明，除了取决于渐近效率方差之外，最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。

translated by 谷歌翻译

Conformal Off-Policy Prediction

Yingying Zhang , Chengchun Shi , Shikai Luo

分类： (统计)机器学习 | 机器学习

2022-06-14

在许多应用程序中，在线部署之前需要离线评估新政策，因此非政策评估至关重要。大多数现有方法都集中在预期的回报上，通过平均定义目标参数，并仅提供点估计器。在本文中，我们开发了一种新的程序，以从任何初始状态开始为目标策略的回报产生可靠的间隔估计器。我们的提案说明了回报围绕其期望的可变性，重点关注个人效果，并提供有效的不确定性量化。我们的主要思想在于设计伪策略，该伪政策像从目标策略中取样一样生成子样本，以便现有的保形预测算法适用于预测间隔构建。我们的方法是由来自短视频平台的理论，合成数据和真实数据证明是合理的。

translated by 谷歌翻译

Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning

Ye Shen , Hengrui Cai , Rui Song

分类： (统计)机器学习 | 机器学习

2021-10-29

Evaluating the performance of an ongoing policy plays a vital role in many areas such as medicine and economics, to provide crucial instruction on the early-stop of the online experiment and timely feedback from the environment. Policy evaluation in online learning thus attracts increasing attention by inferring the mean outcome of the optimal policy (i.e., the value) in real-time. Yet, such a problem is particularly challenging due to the dependent data generated in the online environment, the unknown optimal policy, and the complex exploration and exploitation trade-off in the adaptive experiment. In this paper, we aim to overcome these difficulties in policy evaluation for online learning. We explicitly derive the probability of exploration that quantifies the probability of exploring the non-optimal actions under commonly used bandit algorithms. We use this probability to conduct valid inference on the online conditional mean estimator under each action and develop the doubly robust interval estimation (DREAM) method to infer the value under the estimated optimal policy in online learning. The proposed value estimator provides double protection on the consistency and is asymptotically normal with a Wald-type confidence interval provided. Extensive simulations and real data applications are conducted to demonstrate the empirical validity of the proposed DREAM method.

translated by 谷歌翻译