受约束的部分可观察到的马尔可夫决策过程(CPOMDP)已用于模拟各种现实现象。但是,众所周知,它们很难解决最优性,并且只有几种近似方法来获得高质量的解决方案。在这项研究中,我们将基于网格的近似值与线性编程(LP)模型结合使用来生成CPOMDP的近似策略。我们考虑了五个CPOMDP问题实例,并对其有限和无限的地平线配方进行了详细的数值研究。我们首先通过使用精确溶液方法进行比较分析来建立近似无约束的POMDP策略的质量。然后,我们显示了基于LP的CPOMDP解决方案方法的性能,用于不同的问题实例的不同预算水平(即成本限制)。最后,我们通过应用确定性政策约束来展示基于LP的方法的灵活性,并研究这些约束对收集的奖励和CPU运行时间的影响。我们的分析表明,LP模型可以有效地为有限和无限的地平线问题生成近似策略,同时提供了将各种其他约束结合到基础模型中的灵活性。
translated by 谷歌翻译
乳腺癌是一种常见且致命的疾病,但是早期诊断时通常可以治愈。尽管大多数国家都有大规模筛查计划,但就乳腺癌筛查的单一全球公认政策尚无共识。疾病的复杂性;筛查方法的可用性有限,例如乳房X线摄影,磁共振成像(MRI)和超声筛选;公共卫生政策都将筛查政策制定。资源可用性问题需要设计符合预算的政策,该问题可以作为约束的部分可观察到的马尔可夫决策过程(CPOMDP)建模。在这项研究中,我们提出了一个多目标CPOMDP模型,用于乳腺癌筛查两个目标:最大程度地减少因乳腺癌而死亡的终生风险,并最大程度地调整了质量调整后的寿命。此外,我们考虑了扩展的动作空间,该空间允许筛查乳房X线摄影超出筛查方法。每个动作都对质量调整后的终身年份和终身风险以及独特的成本都有独特的影响。我们的结果揭示了针对不同预算水平的平均和高风险患者的最佳解决方案的帕累托前沿,决策者可以将其用于实践制定政策。
translated by 谷歌翻译
In inverse reinforcement learning (IRL), a learning agent infers a reward function encoding the underlying task using demonstrations from experts. However, many existing IRL techniques make the often unrealistic assumption that the agent has access to full information about the environment. We remove this assumption by developing an algorithm for IRL in partially observable Markov decision processes (POMDPs). We address two limitations of existing IRL techniques. First, they require an excessive amount of data due to the information asymmetry between the expert and the learner. Second, most of these IRL techniques require solving the computationally intractable forward problem -- computing an optimal policy given a reward function -- in POMDPs. The developed algorithm reduces the information asymmetry while increasing the data efficiency by incorporating task specifications expressed in temporal logic into IRL. Such specifications may be interpreted as side information available to the learner a priori in addition to the demonstrations. Further, the algorithm avoids a common source of algorithmic complexity by building on causal entropy as the measure of the likelihood of the demonstrations as opposed to entropy. Nevertheless, the resulting problem is nonconvex due to the so-called forward problem. We solve the intrinsic nonconvexity of the forward problem in a scalable manner through a sequential linear programming scheme that guarantees to converge to a locally optimal policy. In a series of examples, including experiments in a high-fidelity Unity simulator, we demonstrate that even with a limited amount of data and POMDPs with tens of thousands of states, our algorithm learns reward functions and policies that satisfy the task while inducing similar behavior to the expert by leveraging the provided side information.
translated by 谷歌翻译
我们研究了逆钢筋学习的问题(IRL),学习代理使用专家演示恢复奖励功能。大多数现有的IRL技术使代理商可以访问有关环境的完整信息,这使得经常不切实际的假设。我们通过在部分可观察到的马尔可夫决策过程(POMDPS)中开发IRL算法来消除此假设。该算法解决了现有技术的若干限制,这些技术不会考虑专家和学习者之间的信息不对称。首先,它采用因果熵作为专家演示的可能性,而不是在大多数现有的IRL技术中熵,避免了算法复杂性的共同来源。其次,它包含以时间逻辑表示的任务规范。除了演示之外,这些规范可以被解释为对学习者可用的侧面信息,并且可以减少信息不对称。然而,由于所谓的前向问题的内在非凸起,即计算最佳政策,在POMDPS中计算最佳政策,所得到的制剂仍然是非凸的。通过顺序凸编程来解决这种非凸起,并介绍几个扩展以以可扩展的方式解决前向问题。这种可扩展性允许计算策略,以牺牲添加的计算成本为代价也越优于无记忆策略。我们证明,即使具有严重限制的数据,算法也会了解满足任务的奖励函数和策略,并通过利用侧面信息并将内存结合到策略中来对专家引起类似的行为。
translated by 谷歌翻译
在桥梁到海上平台和风力涡轮机的公民和海上工程系统必须有效地管理,因为它们在其运行寿命中暴露于劣化机制,例如疲劳或腐蚀。确定最佳检查和维护政策要求在不确定性下解决复杂的连续决策问题,主要目的是有效地控制与结构失败相关的风险。解决这种复杂性,基于风险的检查计划方法,通常由动态贝叶斯网络支持,评估一组预定义的启发式决策规则,以合理简化了决策问题。然而,所产生的政策可能受到决策规则定义中考虑的有限空间的损害。避免这种限制,部分观察到的马尔可夫决策过程(POMDPS)在不确定的动作结果和观察下提供了用于随机最佳控制的原则性的数学方法,其中作为整个动态更新的状态概率分布的函数规定了最佳动作。在本文中,我们将动态贝叶斯网络与POMDPS结合在联合框架中,以获得最佳检查和维护计划,我们提供了在结构可靠性背景下开发无限和有限地平线POMDP的配方。所提出的方法是对结构部件进行疲劳劣化的情况的情况下实施和测试,证明了基于最先进的POMDP求解器的能力,用于解决潜在的规划优化问题。在数值实验中,彻底比较了POMDP和基于启发式的策略,并且结果表明POMDP与对应于传统问题设置相比,POMDP达到了大幅降低的成本。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
我们研究了在约束强化学习中有效探索的后验抽样方法。或者,对于现有算法,我们提出了两种简单的算法,这些算法在统计上更有效,更简单地实现和计算便宜。第一种算法基于CMDP的线性公式,第二算法利用CMDP的鞍点公式。我们的经验结果表明,尽管具有简单性,但后取样可实现最先进的表现,在某些情况下,采样明显优于乐观算法。
translated by 谷歌翻译
We investigate statistical uncertainty quantification for reinforcement learning (RL) and its implications in exploration policy. Despite ever-growing literature on RL applications, fundamental questions about inference and error quantification, such as large-sample behaviors, appear to remain quite open. In this paper, we fill in the literature gap by studying the central limit theorem behaviors of estimated Q-values and value functions under various RL settings. In particular, we explicitly identify closed-form expressions of the asymptotic variances, which allow us to efficiently construct asymptotically valid confidence regions for key RL quantities. Furthermore, we utilize these asymptotic expressions to design an effective exploration strategy, which we call Q-value-based Optimal Computing Budget Allocation (Q-OCBA). The policy relies on maximizing the relative discrepancies among the Q-value estimates. Numerical experiments show superior performances of our exploration strategy than other benchmark policies.
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
最近的文学建立了神经网络可以代表供应链和物流中一系列随机动态模型的良好政策。我们提出了一种结合方差减少技术的新算法,以克服通常在文献中使用的算法的限制,以学习此类神经网络策略。对于古典丢失的销售库存模型,该算法了解到使用无模型算法学习的神经网络策略,同时始于最优于数量级的最佳启发式基准。该算法是一个有趣的候选者,适用于供应链和物流中的其他随机动态问题,因为其开发中的思想是通用的。
translated by 谷歌翻译
Structural Health Monitoring (SHM) describes a process for inferring quantifiable metrics of structural condition, which can serve as input to support decisions on the operation and maintenance of infrastructure assets. Given the long lifespan of critical structures, this problem can be cast as a sequential decision making problem over prescribed horizons. Partially Observable Markov Decision Processes (POMDPs) offer a formal framework to solve the underlying optimal planning task. However, two issues can undermine the POMDP solutions. Firstly, the need for a model that can adequately describe the evolution of the structural condition under deterioration or corrective actions and, secondly, the non-trivial task of recovery of the observation process parameters from available monitoring data. Despite these potential challenges, the adopted POMDP models do not typically account for uncertainty on model parameters, leading to solutions which can be unrealistically confident. In this work, we address both key issues. We present a framework to estimate POMDP transition and observation model parameters directly from available data, via Markov Chain Monte Carlo (MCMC) sampling of a Hidden Markov Model (HMM) conditioned on actions. The MCMC inference estimates distributions of the involved model parameters. We then form and solve the POMDP problem by exploiting the inferred distributions, to derive solutions that are robust to model uncertainty. We successfully apply our approach on maintenance planning for railway track assets on the basis of a "fractal value" indicator, which is computed from actual railway monitoring data.
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
预订控制问题是收入管理领域中发生的顺序决策问题。更确切地说,货运预订控制重点是决定接受或拒绝预订的问题:鉴于有限的能力,接受预订请求或拒绝其保留能力,以预订可能更高收入的未来预订。该问题可以作为有限的摩尼斯随机动态程序提出,其中接受一组请求会在预订期结束时获得利润,取决于履行公认的预订的成本。对于许多货运申请,可以通过解决操作决策问题来获得满足请求的成本,该问题通常需要解决混合组织线性计划的解决方案。在部署强化学习算法时,通常会常规地解决此类操作问题,这可能太耗时了。大多数预订控制策略是通过解决特定问题的数学编程松弛来获得的,这些松弛通常是不宽松的,无法推广到新问题,并且在某些情况下提供了相当粗糙的近似值。在这项工作中,我们提出了一种两阶段的方法:我们首先训练一个监督的学习模型来预测操作问题的目标,然后我们将模型部署在加固学习算法中以计算控制政策。这种方法是一般的:每当可以预测Horizo​​n操作问题的目标函数时,都可以使用它,并且特别适合那些此类问题在计算上很难的情况。此外,它允许人们利用加强学习的最新进展,因为常规解决操作问题被单个预测所取代。我们的方法对文献中的两个预订控制问题进行了评估,即分销物流和航空公司货物管理。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
我们研究了在国内捐助服务服务中引起的车辆路由问题的随机变体。我们考虑的问题结合了以下属性。就客户是随机的,但不仅限于预定义的集合,因此请求服务的客户是可变的,因为它们可能出现在给定的服务领域的任何地方。此外,需求量是随机的,并且在拜访客户时会观察到。目的是在满足车辆能力和时间限制的同时最大化预期的服务需求。我们将此问题称为VRP,具有高度可变的客户基础和随机需求(VRP-VCSD)。对于这个问题,我们首先提出了马尔可夫决策过程(MDP)的配方,该制定代表了一位决策者建立所有车辆路线的经典集中决策观点。虽然结果配方却很棘手,但它为我们提供了开发新的MDP公式的地面,我们称其为部分分散。在此公式中,动作空间被车辆分解。但是,由于我们执行相同的车辆特定政策,同时优化集体奖励,因此权力下放是不完整的。我们提出了几种策略,以减少与部分分散的配方相关的国家和行动空间的维度。这些产生了一个更容易解决的问题,我们通过加强学习来解决。特别是,我们开发了一种称为DECQN的Q学习算法,具有最先进的加速技术。我们进行了彻底的计算分析。结果表明,DECN的表现大大优于三个基准策略。此外,我们表明我们的方法可以与针对VRP-VCSD的特定情况开发的专业方法竞争,在该情况下,客户位置和预期需求是事先知道的。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
强化学习(RL)是人工智能中的核心问题。这个问题包括定义可以通过与环境交互学习最佳行为的人工代理 - 其中,在代理试图最大化的奖励信号的奖励信号中定义最佳行为。奖励机(RMS)提供了一种基于Automate的基于自动机的表示,该奖励功能使RL代理能够将RL问题分解为可以通过禁止策略学习有效地学习的结构化子问题。在这里,我们表明可以从经验中学习RMS,而不是由用户指定,并且可以使用所产生的问题分解来有效地解决部分可观察的RL问题。我们将学习RMS的任务作为离散优化问题构成,其中目标是找到将问题分解为一组子问题的RM,使得其最佳记忆策略的组合是原始问题的最佳策略。我们展示了这种方法在三个部分可观察的域中的有效性,在那里它显着优于A3C,PPO和宏碁,并讨论其优点,限制和更广泛的潜力。
translated by 谷歌翻译