败血症是ICU死亡的主要原因。这是一种需要在短时间内进行复杂干预措施的疾病,但其最佳治疗策略仍然不确定。证据表明,当前使用的治疗策略的实践是有问题的,可能对患者造成伤害。为了解决这个决策问题,我们提出了一个基于历史数据的新医疗决策模型,以帮助临床医生建议实时治疗的最佳参考选项。我们的模型将离线强化学习与深入的强化学习结合在一起,以解决医疗保健中传统的强化学习无法与环境互动的问题,从而使我们的模型能够在连续的国家行动空间中做出决策。我们证明,平均而言,模型推荐的治疗方法比临床医生建议的治疗更有价值和可靠。在大型验证数据集中,我们发现临床医生实际剂量与AI的决定相匹配的患者的死亡率最低。我们的模型为败血症提供了个性化的,可解释的治疗决策,可以改善患者护理。
translated by 谷歌翻译
严重冠状病毒疾病19(Covid-19)的患者通常需要补充氧作为必要的治疗方法。我们开发了一种基于深度加强学习(RL)的机器学习算法,用于持续管理缺氧率为重症监护下的关键病患者,这可以识别最佳的个性化氧气流速,具有强大的潜力,以降低相对于死亡率目前的临床实践。基本上,我们为Covid-19患者的氧气流动轨迹建模,并作为马尔可夫决策过程。基于个体患者特征和健康状况,基于加强学习的氧气控制政策,实时推荐氧气流速降低死亡率。我们通过使用从纽约大学Langone Health的Covid-19的叙述队员使用纽约大学Langone Healthation Mearchatory Maculation Mearchatory Chare,从2020年4月20日至1月2021年使用电子健康记录,通过交叉验证评估了拟议方法的表现。算法低于护理标准的2.57%(95%CI:2.08-3.06)减少(P <0.001)在我们的算法下的护理标准下的7.94%,平均推荐的氧气流量为1.28 L /分钟(95%CI:1.14-1.42)低于实际递送给患者的速率。因此,RL算法可能导致更好的重症监护治疗,可以降低死亡率,同时节省氧气稀缺资源。它可以减少氧气短缺问题,在Covid-19大流行期间改善公共卫生。
translated by 谷歌翻译
直接从观察数据中直接从观察数据中学习最佳患者的最佳治疗策略,人们对利用RL和随机控制方法有很大的兴趣。但是,控制目标和标准RL目标的最佳奖励选择存在明显的歧义。在这项工作中,我们提出了针对重症患者的临床动机控制目标,该价值功能具有简单的医学解释。此外,我们提出理论结果并将我们的方法调整为实用的深度RL算法,该算法可以与任何基于值的深度RL方法一起使用。我们在大型败血症队列上进行实验,并表明我们的方法与临床知识一致。
translated by 谷歌翻译
Many practical applications of reinforcement learning constrain agents to learn from a fixed batch of data which has already been gathered, without offering further possibility for data collection. In this paper, we demonstrate that due to errors introduced by extrapolation, standard offpolicy deep reinforcement learning algorithms, such as DQN and DDPG, are incapable of learning without data correlated to the distribution under the current policy, making them ineffective for this fixed batch setting. We introduce a novel class of off-policy algorithms, batch-constrained reinforcement learning, which restricts the action space in order to force the agent towards behaving close to on-policy with respect to a subset of the given data. We present the first continuous control deep reinforcement learning algorithm which can learn effectively from arbitrary, fixed batch data, and empirically demonstrate the quality of its behavior in several tasks.
translated by 谷歌翻译
由于患病患者经常患贫血或凝血病,因此血液产物的输血是重症监护病房(ICU)的经常干预。但是,医生做出的不当输血决定通常与并发症的风险增加和医院成本更高有关。在这项工作中,我们旨在开发一种决策支持工具,该工具使用可用的患者信息来对三种常见的血液产品(红细胞,血小板和新鲜的冷冻血浆)进行输血决策。为此,我们采用了单批批处理增强学习(RL)算法,即离散的批处理约束Q学习,以确定观察到的患者轨迹的最佳动作(输血)。同时,我们考虑了不同的国家表示方法和奖励设计机制,以评估其对政策学习的影响。实验是在两个现实世界中的重症监护数据集上进行的:MIMIC-III和UCSF。结果表明,关于输血的政策建议通过准确性和对模拟III数据集的加权重要性评估进行了与真实医院政策的可比匹配。此外,数据筛选UCSF数据集的转移学习(TL)和RL的组合可以在准确性方面可提供高达$ 17.02%的提高,而跳跃和渐近性绩效提高了18.94%和21.63%加权重要性采样在三个输血任务上平均。最后,对输血决策的模拟表明,转移的RL政策可以将患者估计的28天死亡率降低2.74%,而UCSF数据集的敏锐度率降低了1.18%。
translated by 谷歌翻译
机器学习已成功构建许多顺序决策,作为监督预测,或通过加强学习的最佳决策政策识别。在数据约束的离线设置中,两种方法可能会失败,因为它们假设完全最佳行为或依赖于探索可能不存在的替代方案。我们介绍了一种固有的不同方法,该方法识别出状态空间的可能的“死角”。我们专注于重症监护病房中患者的状况,其中``“医疗死亡端”表明患者将过期,无论所有潜在的未来治疗序列如何。我们假设“治疗安全”为避免与其导致死亡事件的机会成比例的概率成比例的治疗,呈现正式证明,以及作为RL问题的帧发现。然后,我们将三个独立的深度神经模型进行自动化状态建设,死端发现和确认。我们的经验结果发现,死亡末端存在于脓毒症患者的真正临床数据中,并进一步揭示了安全处理与施用的差距。
translated by 谷歌翻译
源于机器学习和优化的临床决策支持工具可以为医疗保健提供者提供显着的价值,包括通过更好地管理重症监护单位。特别是,重要的是,患者排放任务在降低患者的住宿时间(以及相关住院费用)和放弃决策后的入院甚至死亡的风险之间存在对细微的折衷。这项工作介绍了一个端到端的一般框架,用于捕获这种权衡,以推荐患者电子健康记录的最佳放电计时决策。数据驱动方法用于导出捕获患者的生理条件的解析,离散状态空间表示。基于该模型和给定的成本函数,在数值上制定并解决了无限的地平线折扣明马尔科夫决策过程,以计算最佳的排放政策,其价值使用违规评估策略进行评估。进行广泛的数值实验以使用现实生活重症监护单元患者数据来验证所提出的框架。
translated by 谷歌翻译
重要性采样(IS)通常用于执行违规策略评估,但容易出现几个问题,特别是当行为策略未知并且必须从数据估计时。由于例如高方差和非评估动作,目标和行为策略之间的显着差异可能导致不确定的值估计。如果使用黑盒式模型估计行为策略,则可能很难诊断潜在的问题,并确定哪些输入策略在其建议的动作和结果中不同。为了解决这个问题,我们建议估算使用原型学习的行为策略。我们在评估败血症处理的政策时应用这种方法,展示了原型如何在目标和行为政策之间提供凝聚率的差异摘要,同时保留与基线估计相当的准确性。我们还描述了原型的估计值,以更好地了解目标政策的哪些部分对估计产生最大影响。使用模拟器,我们研究限制模型以使用原型的偏差。
translated by 谷歌翻译
我们提出了一种通用公式,用于具有临床生存数据的设置中连续治疗建议问题,我们称之为深层生存剂量反应函数(DEEPSDRF)。也就是说,我们认为学习条件平均剂量反应(CADR)的问题仅来自历史数据,在历史数据中,观察到的因素(混杂因素)都会影响观察到的治疗和事件时间结果。DEEPSDRF的估计治疗效果使我们能够开发出针对选择偏差的校正的推荐算法。我们比较了基于随机搜索和强化学习的两种推荐方法,并在患者结局方面发现了相似的表现。我们在广泛的仿真研究和EICU研究所(ERI)数据库中测试了DeepSDRF和相应的推荐剂。据我们所知,这是首次使用因果模型来解决医疗环境中观察数据的连续治疗效果。
translated by 谷歌翻译
Drug dosing is an important application of AI, which can be formulated as a Reinforcement Learning (RL) problem. In this paper, we identify two major challenges of using RL for drug dosing: delayed and prolonged effects of administering medications, which break the Markov assumption of the RL framework. We focus on prolongedness and define PAE-POMDP (Prolonged Action Effect-Partially Observable Markov Decision Process), a subclass of POMDPs in which the Markov assumption does not hold specifically due to prolonged effects of actions. Motivated by the pharmacology literature, we propose a simple and effective approach to converting drug dosing PAE-POMDPs into MDPs, enabling the use of the existing RL algorithms to solve such problems. We validate the proposed approach on a toy task, and a challenging glucose control task, for which we devise a clinically-inspired reward function. Our results demonstrate that: (1) the proposed method to restore the Markov assumption leads to significant improvements over a vanilla baseline; (2) the approach is competitive with recurrent policies which may inherently capture the prolonged effect of actions; (3) it is remarkably more time and memory efficient than the recurrent baseline and hence more suitable for real-time dosing control systems; and (4) it exhibits favorable qualitative behavior in our policy analysis.
translated by 谷歌翻译
推荐系统(RS)是一个重要的在线应用程序,每天都会影响数十亿个用户。主流RS排名框架由两个部分组成:多任务学习模型(MTL),该模型可预测各种用户反馈,即点击,喜欢,分享和多任务融合模型(MTF),该模型(MTF)结合了多任务就用户满意度而言,输出分为最终排名得分。关于融合模型的研究并不多,尽管它对最终建议作为排名的最后一个关键过程有很大的影响。为了优化长期用户满意度,而不是贪婪地获得即时回报,我们将MTF任务作为Markov决策过程(MDP),并在推荐会话中提出,并建议基于批处理加固学习(RL)基于多任务融合框架(BATCHRL-MTF)包括批处理RL框架和在线探索。前者利用批处理RL从固定的批处理数据离线学习最佳推荐政策,以达到长期用户满意度,而后者则探索了潜在的高价值动作在线,以突破本地最佳难题。通过对用户行为的全面调查,我们通过从用户粘性和用户活动性的两个方面的微妙启发式方法对用户满意度进行了建模。最后,我们对十亿个样本级别的现实数据集进行了广泛的实验,以显示模型的有效性。我们建议保守的离线政策估计器(保守 - 访问器)来测试我们的模型离线。此外,我们在真实推荐环境中进行在线实验,以比较不同模型的性能。作为成功在MTF任务中应用的少数批次RL研究之一,我们的模型也已部署在一个大规模的工业短视频平台上,为数亿用户提供服务。
translated by 谷歌翻译
在本文中,我们为游戏制定了一个推荐系统,该游戏为基于他们的互动行为来说潜在的物品,以最大限度地为游戏提供商的收入最大限度地提高。我们的方法是基于强化学习的技术构建,并在IEEE大数据杯挑战上公开可用的离线数据集培训。离线数据集的限制和高维数的诅咒构成解决这个问题的重要障碍。我们所提出的方法侧重于通过解决这些主要困难来提高全面奖励和表现。更具体地,我们利用稀疏PCA来提取用户行为的重要特征。然后,我们的Q学习系统从已加工的离线数据集培训。要利用所提供的数据集中的所有可能的信息,我们将用户功能群集到不同的组,并为每个组构建一​​个独立的Q-table。此外,为了解决评估指标的未知公式的挑战,我们设计了根据游戏提供商可能实现的潜在价值和我们从Live评分环境获得的实际评估指标的小集合的潜在价值自我评估的公制。我们的实验表明,我们的拟议度量标准与挑战组织者发表的结果一致。我们已经实施了拟议的培训管道,结果表明,我们的方法在总奖励和训练速度方面优于当前最先进的方法。通过解决主要挑战并利用最先进的技术,我们已经取得了最佳的公共排行榜导致挑战。此外,我们所提出的方法达到估计得分约为20%,并且可以比当前最先进的方法的最佳最佳方法更快地培训30倍。
translated by 谷歌翻译
Learning-to-defer is a framework to automatically defer decision-making to a human expert when ML-based decisions are deemed unreliable. Existing learning-to-defer frameworks are not designed for sequential settings. That is, they defer at every instance independently, based on immediate predictions, while ignoring the potential long-term impact of these interventions. As a result, existing frameworks are myopic. Further, they do not defer adaptively, which is crucial when human interventions are costly. In this work, we propose Sequential Learning-to-Defer (SLTD), a framework for learning-to-defer to a domain expert in sequential decision-making settings. Contrary to existing literature, we pose the problem of learning-to-defer as model-based reinforcement learning (RL) to i) account for long-term consequences of ML-based actions using RL and ii) adaptively defer based on the dynamics (model-based). Our proposed framework determines whether to defer (at each time step) by quantifying whether a deferral now will improve the value compared to delaying deferral to the next time step. To quantify the improvement, we account for potential future deferrals. As a result, we learn a pre-emptive deferral policy (i.e. a policy that defers early if using the ML-based policy could worsen long-term outcomes). Our deferral policy is adaptive to the non-stationarity in the dynamics. We demonstrate that adaptive deferral via SLTD provides an improved trade-off between long-term outcomes and deferral frequency on synthetic, semi-synthetic, and real-world data with non-stationary dynamics. Finally, we interpret the deferral decision by decomposing the propagated (long-term) uncertainty around the outcome, to justify the deferral decision.
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
离线政策优化可能会对许多现实世界的决策问题产生重大影响,因为在线学习在许多应用中可能是不可行的。重要性采样及其变体是离线策略评估中一种常用的估计器类型,此类估计器通常不需要关于价值函数或决策过程模型功能类的属性和代表性能力的假设。在本文中,我们确定了一种重要的过度拟合现象,以优化重要性加权收益,在这种情况下,学到的政策可以基本上避免在最初的状态空间的一部分中做出一致的决策。我们提出了一种算法,以避免通过新的每个国家 - 邻居标准化约束过度拟合,并提供对拟议算法的理论理由。我们还显示了以前尝试这种方法的局限性。我们在以医疗风格的模拟器为中测试算法,该模拟器是从真实医院收集的记录数据集和连续的控制任务。这些实验表明,与最先进的批处理学习算法相比,所提出的方法的过度拟合和更好的测试性能。
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
强化学习(RL)是一种强大的数据驱动控制方法,在很大程度上探讨了自动驾驶任务。然而,传统的RL方法通过与环境的试验和错误相互作用来学习控制策略,因此可能导致诸如在现实世界交通中测试时的灾难性后果。离线RL最近被揭示为有希望的框架,了解从先前收集的静态数据集的有效政策,而无需积极的交互,尤其吸引自动驾驶应用。尽管有希望,现有的离线RL算法,如批处理的深度Q-Learning(BCQ)通常导致相当保守的政策,具有有限的勘探效率。为了解决这些问题,本文通过在扰动模型中采用学习参数噪声方案来提高增强的BCQ算法来增加观察到的动作的分集。此外,还包含基于Lyapunov的安全增强策略,以限制安全区域内的可勘探状态空间。高速公路和停车交通方案的实验结果表明,我们的方法优于传统的RL方法,以及最先进的离线RL算法。
translated by 谷歌翻译
The high emission and low energy efficiency caused by internal combustion engines (ICE) have become unacceptable under environmental regulations and the energy crisis. As a promising alternative solution, multi-power source electric vehicles (MPS-EVs) introduce different clean energy systems to improve powertrain efficiency. The energy management strategy (EMS) is a critical technology for MPS-EVs to maximize efficiency, fuel economy, and range. Reinforcement learning (RL) has become an effective methodology for the development of EMS. RL has received continuous attention and research, but there is still a lack of systematic analysis of the design elements of RL-based EMS. To this end, this paper presents an in-depth analysis of the current research on RL-based EMS (RL-EMS) and summarizes the design elements of RL-based EMS. This paper first summarizes the previous applications of RL in EMS from five aspects: algorithm, perception scheme, decision scheme, reward function, and innovative training method. The contribution of advanced algorithms to the training effect is shown, the perception and control schemes in the literature are analyzed in detail, different reward function settings are classified, and innovative training methods with their roles are elaborated. Finally, by comparing the development routes of RL and RL-EMS, this paper identifies the gap between advanced RL solutions and existing RL-EMS. Finally, this paper suggests potential development directions for implementing advanced artificial intelligence (AI) solutions in EMS.
translated by 谷歌翻译
Reinforcement learning (RL) gained considerable attention by creating decision-making agents that maximize rewards received from fully observable environments. However, many real-world problems are partially or noisily observable by nature, where agents do not receive the true and complete state of the environment. Such problems are formulated as partially observable Markov decision processes (POMDPs). Some studies applied RL to POMDPs by recalling previous decisions and observations or inferring the true state of the environment from received observations. Nevertheless, aggregating observations and decisions over time is impractical for environments with high-dimensional continuous state and action spaces. Moreover, so-called inference-based RL approaches require large number of samples to perform well since agents eschew uncertainty in the inferred state for the decision-making. Active inference is a framework that is naturally formulated in POMDPs and directs agents to select decisions by minimising expected free energy (EFE). This supplies reward-maximising (exploitative) behaviour in RL, with an information-seeking (exploratory) behaviour. Despite this exploratory behaviour of active inference, its usage is limited to discrete state and action spaces due to the computational difficulty of the EFE. We propose a unified principle for joint information-seeking and reward maximization that clarifies a theoretical connection between active inference and RL, unifies active inference and RL, and overcomes their aforementioned limitations. Our findings are supported by strong theoretical analysis. The proposed framework's superior exploration property is also validated by experimental results on partial observable tasks with high-dimensional continuous state and action spaces. Moreover, the results show that our model solves reward-free problems, making task reward design optional.
translated by 谷歌翻译
Warfarin is a widely used anticoagulant, and has a narrow therapeutic range. Dosing of warfarin should be individualized, since slight overdosing or underdosing can have catastrophic or even fatal consequences. Despite much research on warfarin dosing, current dosing protocols do not live up to expectations, especially for patients sensitive to warfarin. We propose a deep reinforcement learning-based dosing model for warfarin. To overcome the issue of relatively small sample sizes in dosing trials, we use a Pharmacokinetic/ Pharmacodynamic (PK/PD) model of warfarin to simulate dose-responses of virtual patients. Applying the proposed algorithm on virtual test patients shows that this model outperforms a set of clinically accepted dosing protocols by a wide margin. We tested the robustness of our dosing protocol on a second PK/PD model and showed that its performance is comparable to the set of baseline protocols.
translated by 谷歌翻译