机器学习已成功构建许多顺序决策,作为监督预测,或通过加强学习的最佳决策政策识别。在数据约束的离线设置中,两种方法可能会失败,因为它们假设完全最佳行为或依赖于探索可能不存在的替代方案。我们介绍了一种固有的不同方法,该方法识别出状态空间的可能的“死角”。我们专注于重症监护病房中患者的状况,其中``“医疗死亡端”表明患者将过期,无论所有潜在的未来治疗序列如何。我们假设“治疗安全”为避免与其导致死亡事件的机会成比例的概率成比例的治疗,呈现正式证明,以及作为RL问题的帧发现。然后,我们将三个独立的深度神经模型进行自动化状态建设,死端发现和确认。我们的经验结果发现,死亡末端存在于脓毒症患者的真正临床数据中,并进一步揭示了安全处理与施用的差距。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
直接从观察数据中直接从观察数据中学习最佳患者的最佳治疗策略,人们对利用RL和随机控制方法有很大的兴趣。但是,控制目标和标准RL目标的最佳奖励选择存在明显的歧义。在这项工作中,我们提出了针对重症患者的临床动机控制目标,该价值功能具有简单的医学解释。此外,我们提出理论结果并将我们的方法调整为实用的深度RL算法,该算法可以与任何基于值的深度RL方法一起使用。我们在大型败血症队列上进行实验,并表明我们的方法与临床知识一致。
translated by 谷歌翻译
源于机器学习和优化的临床决策支持工具可以为医疗保健提供者提供显着的价值,包括通过更好地管理重症监护单位。特别是,重要的是,患者排放任务在降低患者的住宿时间(以及相关住院费用)和放弃决策后的入院甚至死亡的风险之间存在对细微的折衷。这项工作介绍了一个端到端的一般框架,用于捕获这种权衡,以推荐患者电子健康记录的最佳放电计时决策。数据驱动方法用于导出捕获患者的生理条件的解析,离散状态空间表示。基于该模型和给定的成本函数,在数值上制定并解决了无限的地平线折扣明马尔科夫决策过程,以计算最佳的排放政策,其价值使用违规评估策略进行评估。进行广泛的数值实验以使用现实生活重症监护单元患者数据来验证所提出的框架。
translated by 谷歌翻译
在训练数据的分布中评估时,学到的模型和政策可以有效地概括,但可以在分布输入输入的情况下产生不可预测且错误的输出。为了避免在部署基于学习的控制算法时分配变化,我们寻求一种机制将代理商限制为类似于受过训练的国家和行动的机制。在控制理论中,Lyapunov稳定性和控制不变的集合使我们能够保证稳定系统周围系统的控制器,而在机器学习中,密度模型使我们能够估算培训数据分布。我们可以将这两个概念结合起来,产生基于学习的控制算法,这些算法仅使用分配动作将系统限制为分布状态?在这项工作中,我们建议通过结合Lyapunov稳定性和密度估计的概念来做到这一点,引入Lyapunov密度模型:控制Lyapunov函数和密度模型的概括,这些函数和密度模型可以保证代理商在其整个轨迹上保持分布的能力。
translated by 谷歌翻译
离线政策优化可能会对许多现实世界的决策问题产生重大影响,因为在线学习在许多应用中可能是不可行的。重要性采样及其变体是离线策略评估中一种常用的估计器类型,此类估计器通常不需要关于价值函数或决策过程模型功能类的属性和代表性能力的假设。在本文中,我们确定了一种重要的过度拟合现象,以优化重要性加权收益,在这种情况下,学到的政策可以基本上避免在最初的状态空间的一部分中做出一致的决策。我们提出了一种算法,以避免通过新的每个国家 - 邻居标准化约束过度拟合,并提供对拟议算法的理论理由。我们还显示了以前尝试这种方法的局限性。我们在以医疗风格的模拟器为中测试算法,该模拟器是从真实医院收集的记录数据集和连续的控制任务。这些实验表明,与最先进的批处理学习算法相比,所提出的方法的过度拟合和更好的测试性能。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
Learning-to-defer is a framework to automatically defer decision-making to a human expert when ML-based decisions are deemed unreliable. Existing learning-to-defer frameworks are not designed for sequential settings. That is, they defer at every instance independently, based on immediate predictions, while ignoring the potential long-term impact of these interventions. As a result, existing frameworks are myopic. Further, they do not defer adaptively, which is crucial when human interventions are costly. In this work, we propose Sequential Learning-to-Defer (SLTD), a framework for learning-to-defer to a domain expert in sequential decision-making settings. Contrary to existing literature, we pose the problem of learning-to-defer as model-based reinforcement learning (RL) to i) account for long-term consequences of ML-based actions using RL and ii) adaptively defer based on the dynamics (model-based). Our proposed framework determines whether to defer (at each time step) by quantifying whether a deferral now will improve the value compared to delaying deferral to the next time step. To quantify the improvement, we account for potential future deferrals. As a result, we learn a pre-emptive deferral policy (i.e. a policy that defers early if using the ML-based policy could worsen long-term outcomes). Our deferral policy is adaptive to the non-stationarity in the dynamics. We demonstrate that adaptive deferral via SLTD provides an improved trade-off between long-term outcomes and deferral frequency on synthetic, semi-synthetic, and real-world data with non-stationary dynamics. Finally, we interpret the deferral decision by decomposing the propagated (long-term) uncertainty around the outcome, to justify the deferral decision.
translated by 谷歌翻译
Drug dosing is an important application of AI, which can be formulated as a Reinforcement Learning (RL) problem. In this paper, we identify two major challenges of using RL for drug dosing: delayed and prolonged effects of administering medications, which break the Markov assumption of the RL framework. We focus on prolongedness and define PAE-POMDP (Prolonged Action Effect-Partially Observable Markov Decision Process), a subclass of POMDPs in which the Markov assumption does not hold specifically due to prolonged effects of actions. Motivated by the pharmacology literature, we propose a simple and effective approach to converting drug dosing PAE-POMDPs into MDPs, enabling the use of the existing RL algorithms to solve such problems. We validate the proposed approach on a toy task, and a challenging glucose control task, for which we devise a clinically-inspired reward function. Our results demonstrate that: (1) the proposed method to restore the Markov assumption leads to significant improvements over a vanilla baseline; (2) the approach is competitive with recurrent policies which may inherently capture the prolonged effect of actions; (3) it is remarkably more time and memory efficient than the recurrent baseline and hence more suitable for real-time dosing control systems; and (4) it exhibits favorable qualitative behavior in our policy analysis.
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
由于患病患者经常患贫血或凝血病,因此血液产物的输血是重症监护病房(ICU)的经常干预。但是,医生做出的不当输血决定通常与并发症的风险增加和医院成本更高有关。在这项工作中,我们旨在开发一种决策支持工具,该工具使用可用的患者信息来对三种常见的血液产品(红细胞,血小板和新鲜的冷冻血浆)进行输血决策。为此,我们采用了单批批处理增强学习(RL)算法,即离散的批处理约束Q学习,以确定观察到的患者轨迹的最佳动作(输血)。同时,我们考虑了不同的国家表示方法和奖励设计机制,以评估其对政策学习的影响。实验是在两个现实世界中的重症监护数据集上进行的:MIMIC-III和UCSF。结果表明,关于输血的政策建议通过准确性和对模拟III数据集的加权重要性评估进行了与真实医院政策的可比匹配。此外,数据筛选UCSF数据集的转移学习(TL)和RL的组合可以在准确性方面可提供高达$ 17.02%的提高,而跳跃和渐近性绩效提高了18.94%和21.63%加权重要性采样在三个输血任务上平均。最后,对输血决策的模拟表明,转移的RL政策可以将患者估计的28天死亡率降低2.74%,而UCSF数据集的敏锐度率降低了1.18%。
translated by 谷歌翻译
严重冠状病毒疾病19(Covid-19)的患者通常需要补充氧作为必要的治疗方法。我们开发了一种基于深度加强学习(RL)的机器学习算法,用于持续管理缺氧率为重症监护下的关键病患者,这可以识别最佳的个性化氧气流速,具有强大的潜力,以降低相对于死亡率目前的临床实践。基本上,我们为Covid-19患者的氧气流动轨迹建模,并作为马尔可夫决策过程。基于个体患者特征和健康状况,基于加强学习的氧气控制政策,实时推荐氧气流速降低死亡率。我们通过使用从纽约大学Langone Health的Covid-19的叙述队员使用纽约大学Langone Healthation Mearchatory Maculation Mearchatory Chare,从2020年4月20日至1月2021年使用电子健康记录,通过交叉验证评估了拟议方法的表现。算法低于护理标准的2.57%(95%CI:2.08-3.06)减少(P <0.001)在我们的算法下的护理标准下的7.94%,平均推荐的氧气流量为1.28 L /分钟(95%CI:1.14-1.42)低于实际递送给患者的速率。因此,RL算法可能导致更好的重症监护治疗,可以降低死亡率,同时节省氧气稀缺资源。它可以减少氧气短缺问题,在Covid-19大流行期间改善公共卫生。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
各种研究中的主要研究目标是使用观察数据集,并提供一种可以产生因果改进的新的反事准则。人动态治疗制度(DTRS)被广泛研究以正规化此过程。然而,在寻找最佳DTR中的可用方法通常依赖于现实世界应用(例如,医学决策或公共政策)违反的假设,特别是当(a)不可忽视未观察到的混乱时,并且(b)未观察到的混乱是时变(例如,受前一个行动的影响)。当违反这种假设时,人们经常面临关于所需的潜在因果模型来获得最佳DTR的歧视。这种歧义是不可避免的,因为无法从观察到的数据中理解未观察到的混血者的动态及其对观察到的数据的因果影响。通过案例研究,为在移植后接受伴随医院移植的患者的患者寻找卓越的治疗方案,并在移植后遇到称为新的发病糖尿病(NODAT),我们将DTR扩展到一个新阶级,被称为暧昧的动态治疗制度(ADTR) ,其中根据潜在因果模型的“云”评估治疗方案的随意影响。然后,我们将Adtrs连接到Saghafian(2018)提出的暧昧部分可观察标记决策过程(APOMDPS),并开发了两种加强学习方法,称为直接增强V-Learning(DAV-Learning)和安全增强V-Learning(SAV-Learning),其中使用观察到的数据能够有效地学习最佳治疗方案。我们为这些学习方法制定理论结果,包括(弱)一致性和渐近正常性。我们进一步评估了这些学习方法在案例研究和仿真实验中的性能。
translated by 谷歌翻译
我们考虑在离线域中的强化学习(RL)方法,没有其他在线数据收集,例如移动健康应用程序。计算机科学文献中的大多数现有策略优化算法都是在易于收集或模拟的在线设置中开发的。通过预采用的离线数据集,它们对移动健康应用程序的概括尚不清楚。本文的目的是开发一个新颖的优势学习框架,以便有效地使用预采用的数据进行策略优化。所提出的方法采用由任何现有的最新RL算法计算的最佳Q-估计器作为输入,并输出一项新策略,其价值比基于初始Q-得出的策略更快地收敛速度。估计器。进行广泛的数值实验以支持我们的理论发现。我们提出的方法的Python实现可在https://github.com/leyuanheart/seal上获得。
translated by 谷歌翻译
本文研究了一种使用背景计划的新方法,用于基于模型的增强学习:混合(近似)动态编程更新和无模型更新,类似于DYNA体系结构。通过学习模型的背景计划通常比无模型替代方案(例如Double DQN)差,尽管前者使用了更多的内存和计算。基本问题是,学到的模型可能是不准确的,并且经常会产生无效的状态,尤其是在迭代许多步骤时。在本文中,我们通过将背景规划限制为一组(抽象)子目标并仅学习本地,子观念模型来避免这种限制。这种目标空间计划(GSP)方法更有效地是在计算上,自然地纳入了时间抽象,以进行更快的长胜压计划,并避免完全学习过渡动态。我们表明,在各种情况下,我们的GSP算法比双DQN基线要快得多。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
Model-Based Reinforcement Learning (RL) is widely believed to have the potential to improve sample efficiency by allowing an agent to synthesize large amounts of imagined experience. Experience Replay (ER) can be considered a simple kind of model, which has proved extremely effective at improving the stability and efficiency of deep RL. In principle, a learned parametric model could improve on ER by generalizing from real experience to augment the dataset with additional plausible experience. However, owing to the many design choices involved in empirically successful algorithms, it can be very hard to establish where the benefits are actually coming from. Here, we provide theoretical and empirical insight into when, and how, we can expect data generated by a learned model to be useful. First, we provide a general theorem motivating how learning a model as an intermediate step can narrow down the set of possible value functions more than learning a value function directly from data using the Bellman equation. Second, we provide an illustrative example showing empirically how a similar effect occurs in a more concrete setting with neural network function approximation. Finally, we provide extensive experiments showing the benefit of model-based learning for online RL in environments with combinatorial complexity, but factored structure that allows a learned model to generalize. In these experiments, we take care to control for other factors in order to isolate, insofar as possible, the benefit of using experience generated by a learned model relative to ER alone.
translated by 谷歌翻译
非政策评估(OPE)方法是评估高风险领域(例如医疗保健)中的政策的关键工具,在这些领域,直接部署通常是不可行的,不道德的或昂贵的。当期望部署环境发生变化(即数据集偏移)时,对于OPE方法,在此类更改中对策略进行强大的评估非常重要。现有的方法考虑对可以任意改变环境的任何可观察到的任何可观察到的属性的大量转变。这通常会导致对公用事业的高度悲观估计,从而使可能对部署有用的政策无效。在这项工作中,我们通过研究领域知识如何帮助提供对政策公用事业的更现实的估计来解决上述问题。我们利用人类的投入,在环境的哪些方面可能会发生变化,并适应OPE方法仅考虑这些方面的转变。具体而言,我们提出了一个新颖的框架,可靠的OPE(绳索),该框架认为基于用户输入的数据中的协变量子集,并估算了这些变化下最坏情况的效用。然后,我们为OPE开发了对OPE的计算有效算法,这些算法对上述强盗和马尔可夫决策过程的上述变化很强。我们还理论上分析了这些算法的样品复杂性。从医疗领域进行的合成和现实世界数据集进行了广泛的实验表明,我们的方法不仅可以捕获现实的数据集准确地转移,而且还会导致较少的悲观政策评估。
translated by 谷歌翻译