价值功能的空间是强化学习中的一个基本概念。表征其几何特性可以提供优化和表示的见解。现有作品主要关注马尔可夫决策过程(MDP)的价值空间。在本文中,我们研究了考虑过渡不确定性的更通用的稳健MDP(RMDP)设置的稳健价值空间的几何形状。具体而言,由于我们发现很难直接适应RMDP的先验方法,因此我们从重新审视非持续的情况开始,并引入了一种新的视角,使我们能够以类似的方式表征非稳定和健壮的价值空间。这种观点的关键是将价值空间以州的方式分解成超曲面的工会。通过我们的分析,我们表明稳健的值空间由一组圆锥形超曲面确定,每组都包含所有在一个状态上一致的策略的可靠值。此外,我们发现在不确定性集中仅采用极端点足以确定可靠的值空间。最后,我们讨论了有关强大价值空间的其他一些方面,包括其对多个州的非跨性别和政策协议。
translated by 谷歌翻译
最近发现了有限国家行动折扣马尔可夫决策过程(MDP)的价值函数的多面体结构(MDP)阐明了了解强化学习的成功。我们更详细地研究了值函数多层,并使用超平面布置表征多层边界。我们进一步表明,该值空间是相同超平面排列的许多细胞的结合,并将其与MDPS经典线性编程公式的多室相关联。受这些几何属性的启发,我们提出了一种新算法,\ emph {几何策略迭代}(GPI),以求解折扣的MDP。 GPI通过切换到映射到值函数polytope的边界的操作来更新单个状态的策略,然后立即更新值函数。该新的更新规则的目的是在不损害计算效率的情况下更快地提高价值。此外,我们的算法允许对状态值的异步更新,与传统政策迭代相比,该状态值更加灵活和有利。我们证明,GPI的复杂性达到了最著名的$ \ bigo {\ frac {| \ actions |} {1 - \ gamma} \ log \ frac {1} {1- \ gamma}} {1- \ gamma}} $ plotical and Pricuty Iteration and Fercionally and Fercionally且证明GPI在各种大小的MDP上的强度。
translated by 谷歌翻译
Robust Markov decision processes (RMDPs) are promising models that provide reliable policies under ambiguities in model parameters. As opposed to nominal Markov decision processes (MDPs), however, the state-of-the-art solution methods for RMDPs are limited to value-based methods, such as value iteration and policy iteration. This paper proposes Double-Loop Robust Policy Gradient (DRPG), the first generic policy gradient method for RMDPs with a global convergence guarantee in tabular problems. Unlike value-based methods, DRPG does not rely on dynamic programming techniques. In particular, the inner-loop robust policy evaluation problem is solved via projected gradient descent. Finally, our experimental results demonstrate the performance of our algorithm and verify our theoretical guarantees.
translated by 谷歌翻译
我们考虑解决强大的马尔可夫决策过程(MDP)的问题,该过程涉及一组折扣,有限状态,有限的动作空间MDP,具有不确定的过渡核。计划的目的是找到一项强大的政策,以优化针对过渡不确定性的最坏情况值,从而将标准MDP计划作为特殊情况。对于$(\ Mathbf {s},\ Mathbf {a})$ - 矩形不确定性集,我们开发了一种基于策略的一阶方法,即稳健的策略镜像下降(RPMD),并建立$ \ Mathcal {o }(\ log(1/\ epsilon))$和$ \ Mathcal {o}(1/\ epsilon)$迭代复杂性,用于查找$ \ epsilon $ -optimal策略,并带有两个增加的步骤式方案。 RPMD的先前收敛适用于任何Bregman差异,前提是政策空间在以初始政策为中心时通过差异测量的半径限制了半径。此外,当布雷格曼的分歧对应于平方的欧几里得距离时,我们建立了一个$ \ mathcal {o}(\ max \ {1/\ epsilon,1/(\ eta \ eTa \ epsilon^2)\ epsilon^2)\任何常量的步进$ \ eta $。对于Bregman差异的一般类别,如果不确定性集满足相对强的凸度,则还为RPMD建立了类似的复杂性。当仅通过与名义环境的在线互动获得一阶信息时,我们进一步开发了一个名为SRPMD的随机变体。对于Bregman General Divergences,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^2)$和$ \ Mathcal {O}(1/\ Epsilon^3)$样品复杂性,具有两个增加的静态方案。对于Euclidean Bregman Divergence,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^3)$样本复杂性,并具有恒定的步骤。据我们所知,所有上述结果似乎是应用于强大的MDP问题的基于策略的一阶方法的新事物。
translated by 谷歌翻译
在本文中,我们研究了强大的马尔可夫决策过程(MDPS)的最佳稳健策略和价值功能的非反应性和渐近性能,其中仅从生成模型中求解了最佳的稳健策略和价值功能。尽管在KL不确定性集和$(s,a)$ - 矩形假设的设置中限制了以前专注于可靠MDP的非反应性能的工作,但我们改善了它们的结果,还考虑了其​​他不确定性集,包括$ L_1 $和$ L_1 $和$ \ chi^2 $球。我们的结果表明,当我们假设$(s,a)$ - 矩形在不确定性集上时,示例复杂度大约为$ \ widetilde {o} \ left(\ frac {| \ mathcal {| \ mathcal {s} |^2 | \ mathcal { a} |} {\ varepsilon^2 \ rho^2(1- \ gamma)^4} \ right)$。此外,我们将结果从$(s,a)$ - 矩形假设扩展到$ s $矩形假设。在这种情况下,样本复杂性随选择不确定性集而变化,通常比$(s,a)$矩形假设下的情况大。此外,我们还表明,在$(s,a)$和$ s $ retectangular的假设下,从理论和经验的角度来看,最佳的鲁棒值函数是渐近的正常,典型的速率$ \ sqrt {n} $。
translated by 谷歌翻译
逆钢筋学习尝试在马尔可夫决策问题中重建奖励功能,使用代理操作的观察。正如Russell [1998]在Russell [1998]的那样,问题均为不良,即使在存在有关最佳行为的完美信息的情况下,奖励功能也无法识别。我们为熵正则化的问题提供了解决这种不可识别性的分辨率。对于给定的环境,我们完全表征了导致给定政策的奖励函数,并证明,在两个不同的折扣因子下或在足够的不同环境下给出了相同奖励的行动的示范,可以恢复不可观察的奖励。我们还向有限视野进行时间均匀奖励的一般性和充分条件,以及行动无关的奖励,概括Kim等人的最新结果。[2021]和Fu等人。[2018]。
translated by 谷歌翻译
本文分析了有限状态马尔可夫决策过程(MDPS),其不确定参数在紧凑的集合中,并通过基于集合的固定点理论从可靠的MDP产生重新检查。我们将Bellman和政策评估运营商概括为在价值功能空间合同的运营商,并将其表示为\ Emph {Value Operators}。我们将这些值运算符概括为在价值函数集的空间集上,并将其表示为\ emph {基于集合的值运算符}。我们证明,这些基于集合的价值运算符是紧凑型值函数集空间中的收缩。利用集合理论的洞察力,我们将Bellman运算符的矩形条件从经典稳健的MDP文献到\ emph {CONTAMENT条件}的矩形条件,用于通用价值操作员,该算法较弱,可以应用于较大的参数 - 不确定的MDPS集以及动态编程和强化学习中的承包运营商。我们证明,矩形条件和遏制条件都足够确保基于设定的值运算符的固定点集包含其自身的至高无上的元素。对于不确定的MDP参数的凸和紧凑型集,我们显示了经典的鲁棒值函数与基于集合的Bellman运算符的固定点集的最高点之间的等效性。在紧凑型集合中动态更改的MDP参数下,我们证明了值迭代的集合收敛结果,否则可能不会收敛到单个值函数。
translated by 谷歌翻译
我们研究奖励设计策略,用于激励加强学习代理,从一系列可接受的政策中采用政策。奖励设计师的目标是经济高效地修改底层奖励功能,同时确保在新奖励功能下的任何大约最佳的确定性政策是可允许的,并且在原始奖励功能下执行良好。这个问题可以被视为最佳奖励中毒攻击问题的双重问题:而不是强制代理商采用特定的政策,而奖励设计师则激励一个代理人以避免采取某些州不可受理的行动。也许令人惊讶的是,与最佳奖励中毒攻击的问题相比,我们首先表明可允许的政策教学的奖励设计问题是在计算上具有挑战性的,并且难以找到近似最佳的奖励修改。然后,我们通过制定最佳解决方案的代理问题,其最佳解决方案近似于我们的环境中奖励设计问题的最佳解决方案,但更适用于优化技术和分析。对于此替代问题,我们呈现了在最佳解决方案的值上提供限制的表征结果。最后,我们设计了一个本地搜索算法来解决代理问题,并使用基于模拟的实验展示其实用程序。
translated by 谷歌翻译
Offline reinforcement learning (RL) concerns pursuing an optimal policy for sequential decision-making from a pre-collected dataset, without further interaction with the environment. Recent theoretical progress has focused on developing sample-efficient offline RL algorithms with various relaxed assumptions on data coverage and function approximators, especially to handle the case with excessively large state-action spaces. Among them, the framework based on the linear-programming (LP) reformulation of Markov decision processes has shown promise: it enables sample-efficient offline RL with function approximation, under only partial data coverage and realizability assumptions on the function classes, with favorable computational tractability. In this work, we revisit the LP framework for offline RL, and advance the existing results in several aspects, relaxing certain assumptions and achieving optimal statistical rates in terms of sample size. Our key enabler is to introduce proper constraints in the reformulation, instead of using any regularization as in the literature, sometimes also with careful choices of the function classes and initial state distributions. We hope our insights further advocate the study of the LP framework, as well as the induced primal-dual minimax optimization, in offline RL.
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
我们研究了用线性函数近似的加固学习中的违规评估(OPE)问题,旨在根据行为策略收集的脱机数据来估计目标策略的价值函数。我们建议纳入价值函数的方差信息以提高ope的样本效率。更具体地说,对于时间不均匀的epiSodic线性马尔可夫决策过程(MDP),我们提出了一种算法VA-OPE,它使用价值函数的估计方差重新重量拟合Q迭代中的Bellman残差。我们表明我们的算法达到了比最着名的结果绑定的更紧密的误差。我们还提供了行为政策与目标政策之间的分布转移的细粒度。广泛的数值实验证实了我们的理论。
translated by 谷歌翻译
以目标为导向的强化学习,代理商需要达到目标状态,同时将成本降至最低,在现实世界应用中受到了极大的关注。它的理论配方是随机最短路径(SSP),在在线环境中进行了深入研究。然而,当禁止使用这种在线互动并且仅提供历史数据时,它仍然被忽略了。在本文中,当状态空间和动作空间有限时,我们考虑离线随机路径问题。我们设计了基于简单的价值迭代算法,以解决离线政策评估(OPE)和离线政策学习任务。值得注意的是,我们对这些简单算法的分析产生了强大的实例依赖性边界,这可能意味着接近最佳的最佳范围最佳范围。我们希望我们的研究能够帮助阐明离线SSP问题的基本统计限制,并激发超出当前考虑范围的进一步研究。
translated by 谷歌翻译
维度学习(RL)的诅咒是一种广为人知的问题。在表格设置中,状态空间$ \ mathcal {s} $和动作空间$ \ mathcal {a} $均为有限的,以获得与生成模型的采样访问的几乎最佳的政策,最低限度的最佳样本复杂度尺度用$ | \ mathcal {s} | \ times | \ mathcal {a} | $,它在$ \ mathcal {s} $或$ \ mathcal {a} $很大。本文考虑了Markov决策过程(MDP),该过程承认一组状态操作功能,该功能可以线性地表达(或近似)其概率转换内核。我们展示了基于模型的方法(RESP。$〜$ Q-Learning)可否在样本大小超过订单时,通过高概率可以获得高概率的$ \ varepsilon $ -optimal策略(RESP。$〜$ q-function) $ \ frac {k} {(1- \ gamma)^ {3} \ varepsilon ^ {2}} $(resp. $〜$$ \ frac {k} {(1- \ gamma)^ {4} varepsilon ^ {2}} $),直到一些对数因子。在这里,$ k $是特征尺寸和$ \ gamma \ IN(0,1)$是MDP的折扣系数。两个样本复杂性界限都是可透明的,我们对基于模型的方法的结果匹配最低限度的下限。我们的结果表明,对于任意大规模的MDP来说,基于模型的方法和Q-Learning都是在$ K $相对较小的时候进行样本效率,因此本文的标题。
translated by 谷歌翻译
我们在使用函数近似的情况下,在使用最小的Minimax方法估算这些功能时,使用功能近似来实现函数近似和$ q $ functions的理论表征。在各种可靠性和完整性假设的组合下,我们表明Minimax方法使我们能够实现重量和质量功能的快速收敛速度,其特征在于关键的不平等\ citep {bartlett2005}。基于此结果,我们分析了OPE的收敛速率。特别是,我们引入了新型的替代完整性条件,在该条件下,OPE是可行的,我们在非尾部环境中以一阶效率提出了第一个有限样本结果,即在领先期限中具有最小的系数。
translated by 谷歌翻译
部署效率是许多实际应用程序应用(RL)的重要标准。尽管社区的兴趣越来越大,但对于该问题缺乏正式的理论表述。在本文中,我们从“具有约束的优化”的角度提出了一种用于部署有效的RL(DE-RL)的公式:我们有兴趣探索MDP并在最小值{部署复杂性}中获得近乎最佳的策略。 ,而在每个部署中,策略可以采样大量数据。使用有限的摩尼子线性MDP作为具体的结构模型,我们通过建立信息理论下限,并提供实现最佳部署效率的算法来揭示实现部署效率的基本限制。此外,我们对DE-RL的配方是灵活的,可以作为其他实际相关设置的基础;我们将“安全的DE-RL”和“样本有效的DE-RL”作为两个例子,这可能是值得将来的研究。
translated by 谷歌翻译
强大的马尔可夫决策过程(MDP)用于在不确定环境中的动态优化应用,并已进行了广泛的研究。 MDP的许多主要属性和算法(例如价值迭代和策略迭代)直接扩展到RMDP。令人惊讶的是,没有已知的MDP凸优化公式用于求解RMDP。这项工作描述了在经典的SA截形和S型角假设下RMDP的第一个凸优化公式。我们通过使用熵正则化和变量的指数变化来得出具有线性数量和约束的线性数量的凸公式。我们的公式可以与来自凸优化的有效方法结合使用,以获得以不确定概率求解RMDP的新算法。我们进一步简化了使用多面体不确定性集的RMDP的公式。我们的工作打开了RMDP的新研究方向,可以作为获得RMDP的可拖动凸公式的第一步。
translated by 谷歌翻译
大部分强化学习理论都建立在计算上难以实施的甲板上。专门用于在部分可观察到的马尔可夫决策过程(POMDP)中学习近乎最佳的政策,现有算法要么需要对模型动态(例如确定性过渡)做出强有力的假设,要么假设访问甲骨文作为解决艰难的计划或估算问题的访问子例程。在这项工作中,我们在合理的假设下开发了第一个用于POMDP的无Oracle学习算法。具体而言,我们给出了一种用于在“可观察” pomdps中学习的准化性时间端到端算法,其中可观察性是一个假设,即对国家而言,分离良好的分布诱导了分离良好的分布分布而不是观察。我们的技术规定了在不确定性下使用乐观原则来促进探索的更传统的方法,而是在构建策略涵盖的情况下提供了一种新颖的barycentric跨度应用。
translated by 谷歌翻译
Value-function approximation methods that operate in batch mode have foundational importance to reinforcement learning (RL). Finite sample guarantees for these methods often crucially rely on two types of assumptions: (1) mild distribution shift, and (2) representation conditions that are stronger than realizability. However, the necessity ("why do we need them?") and the naturalness ("when do they hold?") of such assumptions have largely eluded the literature. In this paper, we revisit these assumptions and provide theoretical results towards answering the above questions, and make steps towards a deeper understanding of value-function approximation.
translated by 谷歌翻译
政策优化,通过大规模优化技术最大化价值函数来学习兴趣的政策,位于现代强化学习(RL)的核心。除了价值最大化之外,其他实际考虑因素也出现,包括令人鼓舞的探索,以及确保由于安全,资源和运营限制而确保学习政策的某些结构性。这些考虑通常可以通过诉诸正规化的RL来占据,这增加了目标值函数,并通过结构促进正则化术语。专注于无限范围打折马尔可夫决策过程,本文提出了一种用于解决正规化的RL的广义策略镜血压(GPMD)算法。作为策略镜血压LAN的概括(2021),所提出的算法可以容纳一般类凸常规的常规阶级,以及在使用中的规则器的认识到的广泛的Bregman分歧。我们展示了我们的算法在整个学习速率范围内,以无维的方式在全球解决方案的整个学习速率范围内融合到全球解决方案,即使常规器缺乏强大的凸起和平滑度。此外,在不精确的策略评估和不完美的政策更新方面,该线性收敛特征是可透明的。提供数值实验以证实GPMD的适用性和吸引力性能。
translated by 谷歌翻译
本文涉及增强学习的样本效率,假设进入生成模型(或模拟器)。我们首先考虑$ \ gamma $ -discounted infinite-horizo​​ n markov决策过程(mdps)与状态空间$ \ mathcal {s} $和动作空间$ \ mathcal {a} $。尽管有许多先前的作品解决这个问题,但尚未确定样本复杂性和统计准确性之间的权衡的完整图像。特别地,所有事先结果都遭受严重的样本大小屏障,因为只有在样本量超过$ \ FRAC {| \ Mathcal {S} || \ Mathcal {A} |} {(1- \ gamma)^ 2} $。目前的论文通过认证了两种算法的最小值 - 基于模型的算法和基于保守模型的算法的最小值,克服了该障碍 - 一旦样本大小超过$ \ FRAC {| \ Mathcal {s } || mathcal {a} |} {1- \ gamma} $(modulo一些日志系数)。超越无限地平线MDP,我们进一步研究了时代的有限情况MDP,并证明了一种基于普通模型的规划算法足以实现任何目标精度水平的最佳样本复杂性。据我们所知,这项工作提供了第一个最低限度的最佳保证,可容纳全部样本尺寸(超出哪个发现有意义的政策是理论上不可行的信息)。
translated by 谷歌翻译