直接从观察数据中直接从观察数据中学习最佳患者的最佳治疗策略,人们对利用RL和随机控制方法有很大的兴趣。但是,控制目标和标准RL目标的最佳奖励选择存在明显的歧义。在这项工作中,我们提出了针对重症患者的临床动机控制目标,该价值功能具有简单的医学解释。此外,我们提出理论结果并将我们的方法调整为实用的深度RL算法,该算法可以与任何基于值的深度RL方法一起使用。我们在大型败血症队列上进行实验,并表明我们的方法与临床知识一致。
translated by 谷歌翻译
我们引入了一个新颖的对比表示学习目标和临床时间序列的培训方案。具体而言,我们投射高维EHR。数据到具有低维的封闭单位球,编码几何先验,以使原点代表理想化的完美健康状态,而欧几里得规范与患者的死亡率风险有关。此外,以化粪池患者为例,我们展示了如何学会将两个向量之间的角度与不同器官系统失败相关联,从而学习一种紧凑的表示,这表明了死亡率风险和特定器官衰竭。我们展示了如何将学习的嵌入方式用于在线患者监测,可以补充临床医生并提高下游机器学习任务的性能。这项工作是由于欲望的部分动机,也需要引入一种系统的方式来定义重症监护医学中的强化学习中级奖励。因此,与仅使用终端奖励相比,我们还展示了这种设计如何从学到的嵌入中产生不同的策略和价值分布。
translated by 谷歌翻译
机器学习已成功构建许多顺序决策,作为监督预测,或通过加强学习的最佳决策政策识别。在数据约束的离线设置中,两种方法可能会失败,因为它们假设完全最佳行为或依赖于探索可能不存在的替代方案。我们介绍了一种固有的不同方法,该方法识别出状态空间的可能的“死角”。我们专注于重症监护病房中患者的状况,其中``“医疗死亡端”表明患者将过期,无论所有潜在的未来治疗序列如何。我们假设“治疗安全”为避免与其导致死亡事件的机会成比例的概率成比例的治疗,呈现正式证明,以及作为RL问题的帧发现。然后,我们将三个独立的深度神经模型进行自动化状态建设,死端发现和确认。我们的经验结果发现,死亡末端存在于脓毒症患者的真正临床数据中,并进一步揭示了安全处理与施用的差距。
translated by 谷歌翻译
严重冠状病毒疾病19(Covid-19)的患者通常需要补充氧作为必要的治疗方法。我们开发了一种基于深度加强学习(RL)的机器学习算法,用于持续管理缺氧率为重症监护下的关键病患者,这可以识别最佳的个性化氧气流速,具有强大的潜力,以降低相对于死亡率目前的临床实践。基本上,我们为Covid-19患者的氧气流动轨迹建模,并作为马尔可夫决策过程。基于个体患者特征和健康状况,基于加强学习的氧气控制政策,实时推荐氧气流速降低死亡率。我们通过使用从纽约大学Langone Health的Covid-19的叙述队员使用纽约大学Langone Healthation Mearchatory Maculation Mearchatory Chare,从2020年4月20日至1月2021年使用电子健康记录,通过交叉验证评估了拟议方法的表现。算法低于护理标准的2.57%(95%CI:2.08-3.06)减少(P <0.001)在我们的算法下的护理标准下的7.94%,平均推荐的氧气流量为1.28 L /分钟(95%CI:1.14-1.42)低于实际递送给患者的速率。因此,RL算法可能导致更好的重症监护治疗,可以降低死亡率,同时节省氧气稀缺资源。它可以减少氧气短缺问题,在Covid-19大流行期间改善公共卫生。
translated by 谷歌翻译
败血症是ICU死亡的主要原因。这是一种需要在短时间内进行复杂干预措施的疾病,但其最佳治疗策略仍然不确定。证据表明,当前使用的治疗策略的实践是有问题的,可能对患者造成伤害。为了解决这个决策问题,我们提出了一个基于历史数据的新医疗决策模型,以帮助临床医生建议实时治疗的最佳参考选项。我们的模型将离线强化学习与深入的强化学习结合在一起,以解决医疗保健中传统的强化学习无法与环境互动的问题,从而使我们的模型能够在连续的国家行动空间中做出决策。我们证明,平均而言,模型推荐的治疗方法比临床医生建议的治疗更有价值和可靠。在大型验证数据集中,我们发现临床医生实际剂量与AI的决定相匹配的患者的死亡率最低。我们的模型为败血症提供了个性化的,可解释的治疗决策,可以改善患者护理。
translated by 谷歌翻译
In this paper we argue for the fundamental importance of the value distribution: the distribution of the random return received by a reinforcement learning agent. This is in contrast to the common approach to reinforcement learning which models the expectation of this return, or value. Although there is an established body of literature studying the value distribution, thus far it has always been used for a specific purpose such as implementing risk-aware behaviour. We begin with theoretical results in both the policy evaluation and control settings, exposing a significant distributional instability in the latter. We then use the distributional perspective to design a new algorithm which applies Bellman's equation to the learning of approximate value distributions. We evaluate our algorithm using the suite of games from the Arcade Learning Environment. We obtain both state-of-the-art results and anecdotal evidence demonstrating the importance of the value distribution in approximate reinforcement learning. Finally, we combine theoretical and empirical evidence to highlight the ways in which the value distribution impacts learning in the approximate setting.
translated by 谷歌翻译
在动态编程(DP)和强化学习(RL)中,代理商学会在通过由Markov决策过程(MDP)建模的环境中顺序交互来实现预期的长期返回。更一般地在分布加强学习(DRL)中,重点是返回的整体分布,而不仅仅是其期望。虽然基于DRL的方法在RL中产生了最先进的性能,但它们涉及尚未充分理解的额外数量(与非分布设置相比)。作为第一个贡献,我们介绍了一类新的分类运营商,以及一个实用的DP算法,用于策略评估,具有强大的MDP解释。实际上,我们的方法通过增强的状态空间重新重新重新重新重新重新格式化,其中每个状态被分成最坏情况的子变量,并且最佳的子变电站,其值分别通过安全和危险的策略最大化。最后,我们派生了分配运营商和DP算法解决了一个新的控制任务:如何区分安全性的最佳动作,以便在最佳政策空间中打破联系?
translated by 谷歌翻译
离线政策优化可能会对许多现实世界的决策问题产生重大影响,因为在线学习在许多应用中可能是不可行的。重要性采样及其变体是离线策略评估中一种常用的估计器类型,此类估计器通常不需要关于价值函数或决策过程模型功能类的属性和代表性能力的假设。在本文中,我们确定了一种重要的过度拟合现象,以优化重要性加权收益,在这种情况下,学到的政策可以基本上避免在最初的状态空间的一部分中做出一致的决策。我们提出了一种算法,以避免通过新的每个国家 - 邻居标准化约束过度拟合,并提供对拟议算法的理论理由。我们还显示了以前尝试这种方法的局限性。我们在以医疗风格的模拟器为中测试算法,该模拟器是从真实医院收集的记录数据集和连续的控制任务。这些实验表明,与最先进的批处理学习算法相比,所提出的方法的过度拟合和更好的测试性能。
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
由于患病患者经常患贫血或凝血病,因此血液产物的输血是重症监护病房(ICU)的经常干预。但是,医生做出的不当输血决定通常与并发症的风险增加和医院成本更高有关。在这项工作中,我们旨在开发一种决策支持工具,该工具使用可用的患者信息来对三种常见的血液产品(红细胞,血小板和新鲜的冷冻血浆)进行输血决策。为此,我们采用了单批批处理增强学习(RL)算法,即离散的批处理约束Q学习,以确定观察到的患者轨迹的最佳动作(输血)。同时,我们考虑了不同的国家表示方法和奖励设计机制,以评估其对政策学习的影响。实验是在两个现实世界中的重症监护数据集上进行的:MIMIC-III和UCSF。结果表明,关于输血的政策建议通过准确性和对模拟III数据集的加权重要性评估进行了与真实医院政策的可比匹配。此外,数据筛选UCSF数据集的转移学习(TL)和RL的组合可以在准确性方面可提供高达$ 17.02%的提高,而跳跃和渐近性绩效提高了18.94%和21.63%加权重要性采样在三个输血任务上平均。最后,对输血决策的模拟表明,转移的RL政策可以将患者估计的28天死亡率降低2.74%,而UCSF数据集的敏锐度率降低了1.18%。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
非政策评估(OPE)方法是评估高风险领域(例如医疗保健)中的政策的关键工具,在这些领域,直接部署通常是不可行的,不道德的或昂贵的。当期望部署环境发生变化(即数据集偏移)时,对于OPE方法,在此类更改中对策略进行强大的评估非常重要。现有的方法考虑对可以任意改变环境的任何可观察到的任何可观察到的属性的大量转变。这通常会导致对公用事业的高度悲观估计,从而使可能对部署有用的政策无效。在这项工作中,我们通过研究领域知识如何帮助提供对政策公用事业的更现实的估计来解决上述问题。我们利用人类的投入,在环境的哪些方面可能会发生变化,并适应OPE方法仅考虑这些方面的转变。具体而言,我们提出了一个新颖的框架,可靠的OPE(绳索),该框架认为基于用户输入的数据中的协变量子集,并估算了这些变化下最坏情况的效用。然后,我们为OPE开发了对OPE的计算有效算法,这些算法对上述强盗和马尔可夫决策过程的上述变化很强。我们还理论上分析了这些算法的样品复杂性。从医疗领域进行的合成和现实世界数据集进行了广泛的实验表明,我们的方法不仅可以捕获现实的数据集准确地转移,而且还会导致较少的悲观政策评估。
translated by 谷歌翻译
我们考虑在离线域中的强化学习(RL)方法,没有其他在线数据收集,例如移动健康应用程序。计算机科学文献中的大多数现有策略优化算法都是在易于收集或模拟的在线设置中开发的。通过预采用的离线数据集,它们对移动健康应用程序的概括尚不清楚。本文的目的是开发一个新颖的优势学习框架,以便有效地使用预采用的数据进行策略优化。所提出的方法采用由任何现有的最新RL算法计算的最佳Q-估计器作为输入,并输出一项新策略,其价值比基于初始Q-得出的策略更快地收敛速度。估计器。进行广泛的数值实验以支持我们的理论发现。我们提出的方法的Python实现可在https://github.com/leyuanheart/seal上获得。
translated by 谷歌翻译
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.Preprint. Under review.
translated by 谷歌翻译
Batch reinforcement learning is a subfield of dynamic programming-based reinforcement learning. Originally defined as the task of learning the best possible policy from a fixed set of a priori-known transition samples, the (batch) algorithms developed in this field can be easily adapted to the classical online case, where the agent interacts with the environment while learning. Due to the efficient use of collected data and the stability of the learning process, this research area has attracted a lot of attention recently. In this chapter, we introduce the basic principles and the theory behind batch reinforcement learning, describe the most important algorithms, exemplarily discuss ongoing research within this field, and briefly survey real-world applications of batch reinforcement learning.
translated by 谷歌翻译
In reinforcement learning an agent interacts with the environment by taking actions and observing the next state and reward. When sampled probabilistically, these state transitions, rewards, and actions can all induce randomness in the observed long-term return. Traditionally, reinforcement learning algorithms average over this randomness to estimate the value function. In this paper, we build on recent work advocating a distributional approach to reinforcement learning in which the distribution over returns is modeled explicitly instead of only estimating the mean. That is, we examine methods of learning the value distribution instead of the value function. We give results that close a number of gaps between the theoretical and algorithmic results given by Bellemare, . First, we extend existing results to the approximate distribution setting. Second, we present a novel distributional reinforcement learning algorithm consistent with our theoretical formulation. Finally, we evaluate this new algorithm on the Atari 2600 games, observing that it significantly outperforms many of the recent improvements on DQN, including the related distributional algorithm C51.
translated by 谷歌翻译
While reinforcement learning algorithms provide automated acquisition of optimal policies, practical application of such methods requires a number of design decisions, such as manually designing reward functions that not only define the task, but also provide sufficient shaping to accomplish it. In this paper, we view reinforcement learning as inferring policies that achieve desired outcomes, rather than as a problem of maximizing rewards. To solve this inference problem, we establish a novel variational inference formulation that allows us to derive a well-shaped reward function which can be learned directly from environment interactions. From the corresponding variational objective, we also derive a new probabilistic Bellman backup operator and use it to develop an off-policy algorithm to solve goal-directed tasks. We empirically demonstrate that this method eliminates the need to hand-craft reward functions for a suite of diverse manipulation and locomotion tasks and leads to effective goal-directed behaviors.
translated by 谷歌翻译
强大的增强学习(RL)的目的是学习一项与模型参数不确定性的强大策略。由于模拟器建模错误,随着时间的推移,现实世界系统动力学的变化以及对抗性干扰,参数不确定性通常发生在许多现实世界中的RL应用中。强大的RL通常被称为最大问题问题,其目的是学习最大化价值与不确定性集合中最坏可能的模型的策略。在这项工作中,我们提出了一种称为鲁棒拟合Q-材料(RFQI)的强大RL算法,该算法仅使用离线数据集来学习最佳稳健策略。使用离线数据的强大RL比其非持续性对应物更具挑战性,因为在强大的Bellman运营商中所有模型的最小化。这在离线数据收集,对模型的优化以及公正的估计中构成了挑战。在这项工作中,我们提出了一种系统的方法来克服这些挑战,从而导致了我们的RFQI算法。我们证明,RFQI在标准假设下学习了一项近乎最佳的强大政策,并证明了其在标准基准问题上的出色表现。
translated by 谷歌翻译
人工智能(AI)的努力是设计能够完成复杂任务的自主代理。也就是说,加强学习(RL)提出了学习最佳行为的理论背景。实际上,RL算法依靠几何折扣来评估这种最优性。不幸的是,这并不涵盖未来回报并没有达到成倍价值的决策过程。根据问题的不同,此限制会引起样本信息(由于饲料后额定值是指数衰减),并且需要其他课程/探索机制(以处理稀疏,欺骗性或对抗性奖励)。在本文中,我们通过通过延迟目标功能将折现问题提出来解决这些问题。我们研究了得出的基本RL问题:1)最佳固定解和2)最佳非平稳控制的近似值。设计的算法解决了表格环境上的​​硬探索问题,并在经典的模拟机器人基准上提高了样品效率。
translated by 谷歌翻译