部分可观察到的马尔可夫决策过程(POMDP)是适用于许多现实世界问题的框架。在这项工作中,我们提出了一种方法,通过依靠解决完全可观察的版本的策略来解决具有多模式信念的POMDP。通过deleinig,基于完全可观察到的变体的值函数的新的混合价值函数,我们可以使用相应的贪婪策略来求解POMDP本身。我们开发了讨论所需的数学框架,并引入了基于侦察盲tictactoe的任务的基准。在此基准测试中,我们表明我们的政策优于政策,而忽略了多种模式的存在。
translated by 谷歌翻译
在实际应用中,尽管这种知识对于确定反应性控制系统与环境的精确相互作用很重要,但我们很少可以完全观察到系统的环境。因此,我们提出了一种在部分可观察到的环境中进行加固学习方法(RL)。在假设环境的行为就像是可观察到的马尔可夫决策过程,但我们对其结构或过渡概率不了解。我们的方法将Q学习与IOALERGIA结合在一起,这是一种学习马尔可夫决策过程(MDP)的方法。通过从RL代理的发作中学习环境的MDP模型,我们可以在不明确的部分可观察到的域中启用RL,而没有明确的记忆,以跟踪以前的相互作用,以处理由部分可观察性引起的歧义。相反,我们通过模拟学习环境模型上的新体验以跟踪探索状态,以抽象环境状态的形式提供其他观察结果。在我们的评估中,我们报告了方法的有效性及其有希望的性能,与六种具有复发性神经网络和固定记忆的最先进的深度RL技术相比。
translated by 谷歌翻译
马尔可夫决策过程通常用于不确定性下的顺序决策。然而,对于许多方面,从受约束或安全规范到任务和奖励结构中的各种时间(非Markovian)依赖性,需要扩展。为此,近年来,兴趣已经发展成为强化学习和时间逻辑的组合,即灵活的行为学习方法的组合,具有稳健的验证和保证。在本文中,我们描述了最近引入的常规决策过程的实验调查,该过程支持非马洛维亚奖励功能以及过渡职能。特别是,我们为常规决策过程,与在线,增量学习有关的算法扩展,对无模型和基于模型的解决方案算法的实证评估,以及以常规但非马尔维亚,网格世界的应用程序的算法扩展。
translated by 谷歌翻译
在本文中,我们提出了一种新的贝叶斯在线预测算法,用于局部可观察性(ATPO)下的Ad Hoc团队的问题设置,这使得与未知的队友执行未知任务的运行协作,而无需预先协调协议。与以前的作品不同,假设环境的完全可观察状态,ATPO使用代理商的观察来确定队友正在执行哪项任务的部分可观察性。我们的方法既不假设队友的行为也不是可见的,也不是环境奖励信号。我们在三个域中评估ATPO - 追踪域的两个修改版本,具有部分可观察性和过核域。我们的研究结果表明,ATPO在识别可能的任务中的大型文库中,在近乎最佳的时间内求助,以及在适应越来越大的问题尺寸方面可以进行高效的速度,可以有效和强大。
translated by 谷歌翻译
在强化学习中,代理成功使用了以马尔可夫决策过程(MDP)建模的环境。但是,在许多问题域中,代理可能会遭受嘈杂的观察或随机时间,直到其随后的决定为止。尽管可观察到的马尔可夫决策过程(POMDP)已经处理了嘈杂的观察,但他们尚未处理未知的时间方面。当然,人们可以离散时间,但这导致了贝尔曼的维度诅咒。为了将连续的寄居时间分布纳入代理商的决策中,我们建议部分可观察到的半马尔可夫决策过程(POSMDP)在这方面有所帮助。我们扩展了\ citet {spaan2005a}基于随机点的值迭代(PBVI)\ textsc {perseus}算法,用于POMDP,通过结合连续的SOJOURN时间分布并使用重要性来减少求解器复杂性。我们称此新的PBVI算法为POSMDPS -\ textsc {ChronoSperSeus},其重要性采样。这进一步允许通过将此信息移至pOMSDP的状态周时间来进行压缩的复杂POMDP,需要时间状态信息。第二个见解是,可以在单个备份中使用一组抽样的时间并通过其可能性加权。这有助于进一步降低算法复杂性。该求解器还针对情节性和非疾病问题。我们以两个示例结束了论文,一个情节的巴士问题和非剧烈的维护问题。
translated by 谷歌翻译
Reinforcement learning (RL) gained considerable attention by creating decision-making agents that maximize rewards received from fully observable environments. However, many real-world problems are partially or noisily observable by nature, where agents do not receive the true and complete state of the environment. Such problems are formulated as partially observable Markov decision processes (POMDPs). Some studies applied RL to POMDPs by recalling previous decisions and observations or inferring the true state of the environment from received observations. Nevertheless, aggregating observations and decisions over time is impractical for environments with high-dimensional continuous state and action spaces. Moreover, so-called inference-based RL approaches require large number of samples to perform well since agents eschew uncertainty in the inferred state for the decision-making. Active inference is a framework that is naturally formulated in POMDPs and directs agents to select decisions by minimising expected free energy (EFE). This supplies reward-maximising (exploitative) behaviour in RL, with an information-seeking (exploratory) behaviour. Despite this exploratory behaviour of active inference, its usage is limited to discrete state and action spaces due to the computational difficulty of the EFE. We propose a unified principle for joint information-seeking and reward maximization that clarifies a theoretical connection between active inference and RL, unifies active inference and RL, and overcomes their aforementioned limitations. Our findings are supported by strong theoretical analysis. The proposed framework's superior exploration property is also validated by experimental results on partial observable tasks with high-dimensional continuous state and action spaces. Moreover, the results show that our model solves reward-free problems, making task reward design optional.
translated by 谷歌翻译
离线RL算法必须说明其提供的数据集可能使环境的许多方面未知。应对这一挑战的最常见方法是采用悲观或保守的方法,避免行为与培训数据集中的行为过于不同。但是,仅依靠保守主义存在缺点:绩效对保守主义的确切程度很敏感,保守的目标可以恢复高度最佳的政策。在这项工作中,我们建议在不确定性的情况下,脱机RL方法应该是适应性的。我们表明,在贝叶斯的意义上,在离线RL中最佳作用涉及解决隐式POMDP。结果,离线RL的最佳策略必须是自适应的,这不仅取决于当前状态,而且还取决于迄今为止在评估期间看到的所有过渡。我们提出了一种无模型的算法,用于近似于此最佳自适应策略,并证明在离线RL基准测试中学习此类适应性政策。
translated by 谷歌翻译
使用规划算法和神经网络模型的基于模型的强化学习范例最近在不同的应用中实现了前所未有的结果,导致现在被称为深度增强学习的内容。这些代理非常复杂,涉及多个组件,可能会为研究产生挑战的因素。在这项工作中,我们提出了一个适用于这些类型代理的新模块化软件架构,以及一组建筑块,可以轻松重复使用和组装,以构建基于模型的增强学习代理。这些构建块包括规划算法,策略和丢失功能。我们通过将多个这些构建块组合实现和测试经过针对三种不同的测试环境的代理来说明这种架构的使用:Cartpole,Minigrid和Tictactoe。在我们的实施中提供的一个特定的规划算法,并且以前没有用于加强学习,我们称之为Imperage Minimax,在三个测试环境中取得了良好的效果。用这种架构进行的实验表明,规划算法,政策和损失函数的最佳组合依赖性严重问题。该结果提供了证据表明,拟议的架构是模块化和可重复使用的,对想要研究新环境和技术的强化学习研究人员有用。
translated by 谷歌翻译
钢筋学习的最新进展证明了其在超级人类水平上解决硬质孕代环境互动任务的能力。然而,由于大多数RL最先进的算法的样本低效率,即,需要大量培训集,因此在实际和现实世界任务中的应用目前有限。例如,在Dota 2中击败人类参与者的Openai五种算法已经训练了数千年的游戏时间。存在解决样本低效问题的几种方法,可以通过更好地探索环境来提供更有效的使用或旨在获得更相关和多样化的经验。然而,为了我们的知识,没有用于基于模型的算法的这种方法,其在求解具有高维状态空间的硬控制任务方面的高采样效率。这项工作连接了探索技术和基于模型的加强学习。我们设计了一种新颖的探索方法,考虑了基于模型的方法的特征。我们还通过实验证明我们的方法显着提高了基于模型的算法梦想家的性能。
translated by 谷歌翻译
大部分强化学习理论都建立在计算上难以实施的甲板上。专门用于在部分可观察到的马尔可夫决策过程(POMDP)中学习近乎最佳的政策,现有算法要么需要对模型动态(例如确定性过渡)做出强有力的假设,要么假设访问甲骨文作为解决艰难的计划或估算问题的访问子例程。在这项工作中,我们在合理的假设下开发了第一个用于POMDP的无Oracle学习算法。具体而言,我们给出了一种用于在“可观察” pomdps中学习的准化性时间端到端算法,其中可观察性是一个假设,即对国家而言,分离良好的分布诱导了分离良好的分布分布而不是观察。我们的技术规定了在不确定性下使用乐观原则来促进探索的更传统的方法,而是在构建策略涵盖的情况下提供了一种新颖的barycentric跨度应用。
translated by 谷歌翻译
Drug dosing is an important application of AI, which can be formulated as a Reinforcement Learning (RL) problem. In this paper, we identify two major challenges of using RL for drug dosing: delayed and prolonged effects of administering medications, which break the Markov assumption of the RL framework. We focus on prolongedness and define PAE-POMDP (Prolonged Action Effect-Partially Observable Markov Decision Process), a subclass of POMDPs in which the Markov assumption does not hold specifically due to prolonged effects of actions. Motivated by the pharmacology literature, we propose a simple and effective approach to converting drug dosing PAE-POMDPs into MDPs, enabling the use of the existing RL algorithms to solve such problems. We validate the proposed approach on a toy task, and a challenging glucose control task, for which we devise a clinically-inspired reward function. Our results demonstrate that: (1) the proposed method to restore the Markov assumption leads to significant improvements over a vanilla baseline; (2) the approach is competitive with recurrent policies which may inherently capture the prolonged effect of actions; (3) it is remarkably more time and memory efficient than the recurrent baseline and hence more suitable for real-time dosing control systems; and (4) it exhibits favorable qualitative behavior in our policy analysis.
translated by 谷歌翻译
一种简单自然的增强学习算法(RL)是蒙特卡洛探索开始(MCES),通过平均蒙特卡洛回报来估算Q功能,并通过选择最大化Q当前估计的行动来改进策略。 -功能。探索是通过“探索开始”来执行的,即每个情节以随机选择的状态和动作开始,然后遵循当前的策略到终端状态。在Sutton&Barto(2018)的RL经典书中,据说建立MCES算法的收敛是RL中最重要的剩余理论问题之一。但是,MCE的收敛问题证明是非常细微的。 Bertsekas&Tsitsiklis(1996)提供了一个反例,表明MCES算法不一定会收敛。 TSITSIKLIS(2002)进一步表明,如果修改了原始MCES算法,以使Q-功能估计值以所有状态行动对以相同的速率更新,并且折现因子严格少于一个,则MCES算法收敛。在本文中,我们通过Sutton&Barto(1998)中给出的原始,更有效的MCES算法取得进展政策。这样的MDP包括大量的环境,例如所有确定性环境和所有具有时间步长的情节环境或作为状态的任何单调变化的值。与以前使用随机近似的证据不同,我们引入了一种新型的感应方法,该方法非常简单,仅利用大量的强规律。
translated by 谷歌翻译
在什么情况下,可以说系统具有信念和目标,以及此类与代理机构相关的特征与其身体状态有何关系?最近的工作提出了一个解释图的概念,该函数将系统状态映射到代表其对外部世界的信念的概率分布。这样的地图并非完全任意,因为它归因于系统的信念必须以与贝叶斯定理一致的方式随着时间的流逝而发展,因此系统的动力学限制了其可能的解释。在这里,我们以这种方法为基础,不仅在信念和行动方面提出了解释概念。为此,我们利用现有的部分可观察到的马尔可夫进程(POMDP)的理论:我们说,如果它不仅承认了描述其关于其关于其隐藏状态的信念的解释图,否则可以将系统解释为POMDP的解决方案。 POMDP,但也采取根据其信仰状态最佳的行动。然后,代理是一个系统,将该系统解释为POMDP解决方案。尽管POMDP并不是实现目标含义的唯一可能的表述,但这仍然代表了朝着更一般的形式定义成为代理的含义的一步。
translated by 谷歌翻译
我们研究了在不确定的环境中运行的机器人面临的计划问题,对状态不完整,嘈杂和/或不精确的行动。本文确定了一个新的问题子类,该阶级模拟了设置信息,在该设置中,只有通过某些外源过程,该过程会间歇性地揭示信息,该过程定期提供状态信息。几个实用领域符合该模型,包括激发我们研究的特定情况:远程成像增强行星探索的自主导航。为了注视着有效的专业解决方案方法,我们检查了该子类实例的结构。它们导致马尔可夫的决策过程具有指数较大的动作空间,但由于这些动作包括更多原子元素的序列,因此可以通过比较不同信息假设下的策略来建立绩效界限。这提供了一种系统地构建性能界限的方法。这样的界限很有用,因为与它们赋予的见解结合在一起,它们可以采用基于边界的方法来有效地获得高质量的解决方案。我们提出的经验结果证明了它们对所考虑的问题的有效性。上述内容还提到了时间时间为这些问题所扮演的独特作用 - 更具体地说:直到信息揭示的时间 - 我们在这方面发现并讨论了几个有趣的微妙之处。
translated by 谷歌翻译
We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach maintains a statistically plausible model of the environment and follows a policy that maximizes expected $\gamma$-discounted return in that model. At each time, with probability $1-\gamma$, the model is replaced by a sample from the posterior distribution over environments. For a suitable schedule of $\gamma$, we establish an $\tilde{O}(\tau S \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $\tau$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy.
translated by 谷歌翻译
强化学习旨在通过与动态未知的环境的互动来学习最佳政策。许多方法依赖于价值函数的近似来得出近乎最佳的策略。在部分可观察到的环境中,这些功能取决于观测和过去的动作的完整顺序,称为历史。在这项工作中,我们从经验上表明,经过验证的复发性神经网络在内部近似于这种价值函数,从而在内部过滤了鉴于历史记录的当前状态的后验概率分布,称为信念。更确切地说,我们表明,随着经常性神经网络了解Q功能,其隐藏状态与与最佳控制相关的状态变量的信念越来越相关。这种相关性是通过其共同信息来衡量的。此外,我们表明,代理的预期回报随着其经常性架构在其隐藏状态和信念之间达到高度相互信息的能力而增加。最后,我们表明,隐藏状态与变量的信念之间的相互信息与最佳控制无关,从而通过学习过程降低。总而言之,这项工作表明,在其隐藏状态下,近似可观察到的环境的Q功能的经常性神经网络从历史上复制了足够的统计量,该统计数据与采取最佳动作的信念相关的部分相关。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
主动推断是建模生物学和人造药物的行为的概率框架,该框架源于最小化自由能的原理。近年来,该框架已成功地应用于各种情况下,其目标是最大程度地提高奖励,提供可比性,有时甚至是卓越的性能与替代方法。在本文中,我们通过演示如何以及何时进行主动推理代理执行最佳奖励的动作来阐明奖励最大化和主动推断之间的联系。确切地说,我们展示了主动推理为Bellman方程提供最佳解决方案的条件 - 这种公式是基于模型的增强学习和控制的几种方法。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以为计划视野1的最佳动作产生最佳动作,但不能超越。相比之下,最近开发的递归活跃推理方案(复杂的推理)可以在任何有限的颞范围内产生最佳作用。我们通过讨论主动推理和强化学习之间更广泛的关系来补充分析。
translated by 谷歌翻译
Partially observable Markov decision processes (POMDPs) provide a flexible representation for real-world decision and control problems. However, POMDPs are notoriously difficult to solve, especially when the state and observation spaces are continuous or hybrid, which is often the case for physical systems. While recent online sampling-based POMDP algorithms that plan with observation likelihood weighting have shown practical effectiveness, a general theory characterizing the approximation error of the particle filtering techniques that these algorithms use has not previously been proposed. Our main contribution is bounding the error between any POMDP and its corresponding finite sample particle belief MDP (PB-MDP) approximation. This fundamental bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm to a POMDP by solving the corresponding particle belief MDP, thereby extending the convergence guarantees of the MDP algorithm to the POMDP. Practically, this is implemented by using the particle filter belief transition model as the generative model for the MDP solver. While this requires access to the observation density model from the POMDP, it only increases the transition sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where $C$ is the number of particles. Thus, when combined with sparse sampling MDP algorithms, this approach can yield algorithms for POMDPs that have no direct theoretical dependence on the size of the state and observation spaces. In addition to our theoretical contribution, we perform five numerical experiments on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves performance competitive with other leading continuous observation POMDP solvers.
translated by 谷歌翻译
我们研究了基于模型的未识别的强化学习,用于部分可观察到的马尔可夫决策过程(POMDPS)。我们认为的Oracle是POMDP的最佳政策,其在无限视野的平均奖励方面具有已知环境。我们为此问题提出了一种学习算法,基于隐藏的马尔可夫模型的光谱方法估计,POMDPS中的信念错误控制以及在线学习的上等信心结合方法。我们为提出的学习算法建立了$ o(t^{2/3} \ sqrt {\ log t})$的后悔界限,其中$ t $是学习范围。据我们所知,这是第一种算法,这是对我们学习普通POMDP的甲骨文的统一性后悔。
translated by 谷歌翻译