我们在Isabelle定理箴言中展示了有限马尔可夫决定流程的正式化。我们专注于动态编程和使用加固学习代理所需的基础。特别是,我们从第一个原则(在标量和向量形式中)导出Bellman方程,导出产生任何策略P的预期值的向量计算,并继续证明存在一个普遍的最佳政策的存在折扣因子不到一个。最后,我们证明了价值迭代和策略迭代算法在有限的时间内工作,分别产生ePsilon - 最佳和完全最佳的政策。
translated by 谷歌翻译
本文从凸优化的角度研究了已知和未知环境中的随机最短路径(SSP)问题。它首先回忆起已知参数案例的结果,并通过不同的证据发展理解。然后,它着重于未知的参数情况,其中它研究了扩展价值迭代(EVI)运算符。这包括Rosenberg等人中使用的现有操作员。 [26]和Tarbouriech等。 [31]基于L-1规范和至上规范,以及定义与其他规范和差异相对应的EVI操作员,例如KL-Divergence。本文总的来说,EVI操作员如何与凸面程序及其双重形式相关联,这些形式表现出强烈的双重性。然后,本文重点介绍了NEU和Pike-Burke [21]的有限视野研究的界限是否可以应用于SSP设置中的这些扩展价值迭代操作员。它表明存在与[21]的相似界限,但是它们会导致不在一般单调且具有更复杂收敛属性的运算符。在特殊情况下,我们观察到振荡行为。本文通过几个需要进一步检查的示例,就研究的进展产生了公开问题。
translated by 谷歌翻译
在强化学习中,就其诱导的最佳政策而言,不同的奖励功能可以等效。一个特别众所周知的重要例子是潜在的塑造,可以将一类函数添加到任何奖励功能中,而无需更改任意过渡动态下设置的最佳策略。潜在的塑形在概念上类似于数学和物理学中的潜在,保守的矢量场和规范变换,但是以前尚未正式探索这种联系。我们在图表上开发了一种形式主义,用于抽象马尔可夫决策过程的图表,并显示如何将潜在塑造正式解释为本框架中的梯度。这使我们能够加强Ng等人的结果。 (1999)描述了潜在塑造是始终保留最佳政策的唯一添加奖励转换的条件。作为我们形式主义的附加应用,我们定义了从每个潜在塑造等效类中挑选单个唯一奖励功能的规则。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
随机近似算法是一种广泛使用的概率方法,用于查找矢量值构造的零,仅当函数的嘈杂测量值可用时。在迄今为止的文献中,可以区分“同步”更新,从而每次更新当前猜测的每个组件,以及'“同步”更新,从而更新一个组件。原则上,也可以在每次瞬间更新一些但不是全部的$ \ theta_t $的组件,这些组件可能被称为“批处理异步随机近似”(BASA)。另外,还可以在使用“本地”时钟与“全局”时钟之间有所区别。在本文中,我们提出了一种统一的配方异步随机近似(BASA)算法,并开发了一种通用方法,以证明这种算法会融合,而与使用是否使用了全球或本地时钟。这些融合证明利用了比现有结果较弱的假设。例如:当使用本地时钟时,现有的收敛证明要求测量噪声是I.I.D序列。在这里,假定测量误差形成了martingale差异序列。同样,迄今为止的所有结果都假设随机步骤大小满足了罗宾斯 - 单月条件的概率类似物。我们通过基础马尔可夫流程的不可约性的纯粹确定性条件代替了这一点。作为加固学习的特定应用,我们介绍了时间差算法$ td(0)$的``批次''版本,以进行价值迭代,以及$ q $ - 学习算法,以查找最佳操作值函数,还允许使用本地时钟而不是全局时钟。在所有情况下,我们在温和的条件下都比现有文献建立了这些算法的融合。
translated by 谷歌翻译
随机近似算法是迭代过程,用于在目标未知且直接观察结果被噪声损坏的环境中近似目标值。例如,当目标函数或模型不直接知道时,这些算法对于根找到和最小化是有用的。最初是在Robbins和Monro的1951年论文中引入的,随机近似领域已大大增长,并影响了从自适应信号处理到人工智能的应用领域。例如,在机器学习的各个子域中无处不在的随机梯度下降算法是基于随机近似理论。在本文中,我们为由于Aryeh dvoretzky的一般融合定理提供了正式的证明(在COQ证明助手中),这意味着重要的经典方法(例如Robbins-Monro和Kiefer-Wolfowitz算法)的收敛性。在此过程中,我们构建了一个综合的量子库库理论概率理论和随机过程。
translated by 谷歌翻译
In this paper we develop a theoretical analysis of the performance of sampling-based fitted value iteration (FVI) to solve infinite state-space, discounted-reward Markovian decision processes (MDPs) under the assumption that a generative model of the environment is available. Our main results come in the form of finite-time bounds on the performance of two versions of sampling-based FVI. The convergence rate results obtained allow us to show that both versions of FVI are well behaving in the sense that by using a sufficiently large number of samples for a large class of MDPs, arbitrary good performance can be achieved with high probability. An important feature of our proof technique is that it permits the study of weighted L p -norm performance bounds. As a result, our technique applies to a large class of function-approximation methods (e.g., neural networks, adaptive regression trees, kernel machines, locally weighted learning), and our bounds scale well with the effective horizon of the MDP. The bounds show a dependence on the stochastic stability properties of the MDP: they scale with the discounted-average concentrability of the future-state distributions. They also depend on a new measure of the approximation power of the function space, the inherent Bellman residual, which reflects how well the function space is "aligned" with the dynamics and rewards of the MDP. The conditions of the main result, as well as the concepts introduced in the analysis, are extensively discussed and compared to previous theoretical results. Numerical experiments are used to substantiate the theoretical findings.
translated by 谷歌翻译
In robust Markov decision processes (MDPs), the uncertainty in the transition kernel is addressed by finding a policy that optimizes the worst-case performance over an uncertainty set of MDPs. While much of the literature has focused on discounted MDPs, robust average-reward MDPs remain largely unexplored. In this paper, we focus on robust average-reward MDPs, where the goal is to find a policy that optimizes the worst-case average reward over an uncertainty set. We first take an approach that approximates average-reward MDPs using discounted MDPs. We prove that the robust discounted value function converges to the robust average-reward as the discount factor $\gamma$ goes to $1$, and moreover, when $\gamma$ is large, any optimal policy of the robust discounted MDP is also an optimal policy of the robust average-reward. We further design a robust dynamic programming approach, and theoretically characterize its convergence to the optimum. Then, we investigate robust average-reward MDPs directly without using discounted MDPs as an intermediate step. We derive the robust Bellman equation for robust average-reward MDPs, prove that the optimal policy can be derived from its solution, and further design a robust relative value iteration algorithm that provably finds its solution, or equivalently, the optimal robust policy.
translated by 谷歌翻译
逆钢筋学习尝试在马尔可夫决策问题中重建奖励功能,使用代理操作的观察。正如Russell [1998]在Russell [1998]的那样,问题均为不良,即使在存在有关最佳行为的完美信息的情况下,奖励功能也无法识别。我们为熵正则化的问题提供了解决这种不可识别性的分辨率。对于给定的环境,我们完全表征了导致给定政策的奖励函数,并证明,在两个不同的折扣因子下或在足够的不同环境下给出了相同奖励的行动的示范,可以恢复不可观察的奖励。我们还向有限视野进行时间均匀奖励的一般性和充分条件,以及行动无关的奖励,概括Kim等人的最新结果。[2021]和Fu等人。[2018]。
translated by 谷歌翻译
大部分强化学习理论都建立在计算上难以实施的甲板上。专门用于在部分可观察到的马尔可夫决策过程(POMDP)中学习近乎最佳的政策,现有算法要么需要对模型动态(例如确定性过渡)做出强有力的假设,要么假设访问甲骨文作为解决艰难的计划或估算问题的访问子例程。在这项工作中,我们在合理的假设下开发了第一个用于POMDP的无Oracle学习算法。具体而言,我们给出了一种用于在“可观察” pomdps中学习的准化性时间端到端算法,其中可观察性是一个假设,即对国家而言,分离良好的分布诱导了分离良好的分布分布而不是观察。我们的技术规定了在不确定性下使用乐观原则来促进探索的更传统的方法,而是在构建策略涵盖的情况下提供了一种新颖的barycentric跨度应用。
translated by 谷歌翻译
本文涉及增强学习的样本效率,假设进入生成模型(或模拟器)。我们首先考虑$ \ gamma $ -discounted infinite-horizo​​ n markov决策过程(mdps)与状态空间$ \ mathcal {s} $和动作空间$ \ mathcal {a} $。尽管有许多先前的作品解决这个问题,但尚未确定样本复杂性和统计准确性之间的权衡的完整图像。特别地,所有事先结果都遭受严重的样本大小屏障,因为只有在样本量超过$ \ FRAC {| \ Mathcal {S} || \ Mathcal {A} |} {(1- \ gamma)^ 2} $。目前的论文通过认证了两种算法的最小值 - 基于模型的算法和基于保守模型的算法的最小值,克服了该障碍 - 一旦样本大小超过$ \ FRAC {| \ Mathcal {s } || mathcal {a} |} {1- \ gamma} $(modulo一些日志系数)。超越无限地平线MDP,我们进一步研究了时代的有限情况MDP,并证明了一种基于普通模型的规划算法足以实现任何目标精度水平的最佳样本复杂性。据我们所知,这项工作提供了第一个最低限度的最佳保证,可容纳全部样本尺寸(超出哪个发现有意义的政策是理论上不可行的信息)。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
在强化学习(RL)中,目标是获得最佳政策,最佳标准在根本上至关重要。两个主要的最优标准是平均奖励和打折的奖励。虽然后者更受欢迎,但在没有固有折扣概念的情况下,在环境中申请是有问题的。这促使我们重新审视a)动态编程中最佳标准的进步,b)人工折现因子的理由和复杂性,c)直接最大化平均奖励标准的好处,这是无折扣的。我们的贡献包括对平均奖励和打折奖励之间的关系以及对RL中的利弊的讨论之间的关系。我们强调的是,平均奖励RL方法具有将无折扣优化标准(Veinott,1969)应用于RL的成分和机制。
translated by 谷歌翻译
We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.
translated by 谷歌翻译
一种简单自然的增强学习算法(RL)是蒙特卡洛探索开始(MCES),通过平均蒙特卡洛回报来估算Q功能,并通过选择最大化Q当前估计的行动来改进策略。 -功能。探索是通过“探索开始”来执行的,即每个情节以随机选择的状态和动作开始,然后遵循当前的策略到终端状态。在Sutton&Barto(2018)的RL经典书中,据说建立MCES算法的收敛是RL中最重要的剩余理论问题之一。但是,MCE的收敛问题证明是非常细微的。 Bertsekas&Tsitsiklis(1996)提供了一个反例,表明MCES算法不一定会收敛。 TSITSIKLIS(2002)进一步表明,如果修改了原始MCES算法,以使Q-功能估计值以所有状态行动对以相同的速率更新,并且折现因子严格少于一个,则MCES算法收敛。在本文中,我们通过Sutton&Barto(1998)中给出的原始,更有效的MCES算法取得进展政策。这样的MDP包括大量的环境,例如所有确定性环境和所有具有时间步长的情节环境或作为状态的任何单调变化的值。与以前使用随机近似的证据不同,我们引入了一种新型的感应方法,该方法非常简单,仅利用大量的强规律。
translated by 谷歌翻译
基于模型的强化学习(RL)的主要挑战之一是决定应建模环境的哪些方面。值等价(VE)原则提出了一个简单的答案,对此问题:模型应该捕获与基于价值的规划相关的环境的方面。从技术上讲,VE基于一组策略和一组功能区分模型:如果贝尔曼运营商诱导策略,则据说模型是对环境的VE,在应用于功能时产生正确的结果。随着策略数量的增加,VE模型集缩小,最终折叠到对应于完美模型的单点。因此,VE原理的基本问题是如何选择足以规划的最小策略和功能。在本文中,我们对回答这个问题进行了重要一步。我们首先通过朝鲜钟人机运营商的$ k $申请概括为达到秩序的概念。这导致了一个VE类的家庭,尺寸随着$ k \ lightarow \ idty $而增加。在极限中,所有功能都成为价值函数,我们有一个特殊的实例化,我们称之为适当的VE或简单的PVE。与VE不同,PVE类可能包含多种型号,即使在使用所有值函数时也可以包含多个模型。至关重要的是,所有这些模型都足以规划,这意味着他们将产生最佳政策尽管他们可能忽略了环境的许多方面。我们构建用于学习PVE模型的损失函数,并认为诸如Muzero的流行算法可以被理解为最小化这种损失的上限。我们利用这一联系提出了对Muzero的修改,并表明它可以在实践中提高性能。
translated by 谷歌翻译
一般强化学习领域(GRL)制定了从地下序贯决策的问题。互动史构成了系统的“地面”状态,其永远不会重复。一方面,该一般性允许GRL几乎可以模拟每个域,例如,\盗版,MDP,POMDPS,PSR和基于历史的环境。另一方面,一般而言,GRL的近乎最佳政策是完整历史的函数,这不仅会妨碍学习,也是在GRL中规划。对于规划部分的常用方式是代理商被赋予底层过程的马尔科维亚抽象。因此,它可以使用任何MDP计划算法查找近最佳策略。极端状态聚合(ESA)框架已将此想法扩展到非Markovian抽象,而不会影响通过(代理)MDP规划的可能性。 ESA的一个显着特征是它证明了$ o \ left的上限(\ varepsilon ^ { - a} \ cdot(1- \ gamma)^ { - 2a} \右)美元上的状态代理MDP(其中$ a $的是行动的数量,$ \ gamma $是折扣系数,$ \ varepsilon $是最优性的空白),其包含\ emph {supplyly} for \ emph {all}域。虽然普遍约束的可能性是非常显着的,但我们表明这一界限非常松散。我们提出了一种新的非MDP抽象,它允许$ o \ left的更好的上限(\ varepsilon ^ {-1} \ cdot(1- \ gamma)^ { - 2} \ cdot a \ cdot 2 ^ { } \右)$。此外,我们表明,通过使用一种动作顺序化方法。
translated by 谷歌翻译
在动态编程(DP)和强化学习(RL)中,代理商学会在通过由Markov决策过程(MDP)建模的环境中顺序交互来实现预期的长期返回。更一般地在分布加强学习(DRL)中,重点是返回的整体分布,而不仅仅是其期望。虽然基于DRL的方法在RL中产生了最先进的性能,但它们涉及尚未充分理解的额外数量(与非分布设置相比)。作为第一个贡献,我们介绍了一类新的分类运营商,以及一个实用的DP算法,用于策略评估,具有强大的MDP解释。实际上,我们的方法通过增强的状态空间重新重新重新重新重新重新格式化,其中每个状态被分成最坏情况的子变量,并且最佳的子变电站,其值分别通过安全和危险的策略最大化。最后,我们派生了分配运营商和DP算法解决了一个新的控制任务:如何区分安全性的最佳动作,以便在最佳政策空间中打破联系?
translated by 谷歌翻译