本文分析了有限状态马尔可夫决策过程(MDPS),其不确定参数在紧凑的集合中,并通过基于集合的固定点理论从可靠的MDP产生重新检查。我们将Bellman和政策评估运营商概括为在价值功能空间合同的运营商,并将其表示为\ Emph {Value Operators}。我们将这些值运算符概括为在价值函数集的空间集上,并将其表示为\ emph {基于集合的值运算符}。我们证明,这些基于集合的价值运算符是紧凑型值函数集空间中的收缩。利用集合理论的洞察力,我们将Bellman运算符的矩形条件从经典稳健的MDP文献到\ emph {CONTAMENT条件}的矩形条件,用于通用价值操作员,该算法较弱,可以应用于较大的参数 - 不确定的MDPS集以及动态编程和强化学习中的承包运营商。我们证明,矩形条件和遏制条件都足够确保基于设定的值运算符的固定点集包含其自身的至高无上的元素。对于不确定的MDP参数的凸和紧凑型集,我们显示了经典的鲁棒值函数与基于集合的Bellman运算符的固定点集的最高点之间的等效性。在紧凑型集合中动态更改的MDP参数下,我们证明了值迭代的集合收敛结果,否则可能不会收敛到单个值函数。
translated by 谷歌翻译
在本文中,我们研究了强大的马尔可夫决策过程(MDPS)的最佳稳健策略和价值功能的非反应性和渐近性能,其中仅从生成模型中求解了最佳的稳健策略和价值功能。尽管在KL不确定性集和$(s,a)$ - 矩形假设的设置中限制了以前专注于可靠MDP的非反应性能的工作,但我们改善了它们的结果,还考虑了其​​他不确定性集,包括$ L_1 $和$ L_1 $和$ \ chi^2 $球。我们的结果表明,当我们假设$(s,a)$ - 矩形在不确定性集上时,示例复杂度大约为$ \ widetilde {o} \ left(\ frac {| \ mathcal {| \ mathcal {s} |^2 | \ mathcal { a} |} {\ varepsilon^2 \ rho^2(1- \ gamma)^4} \ right)$。此外,我们将结果从$(s,a)$ - 矩形假设扩展到$ s $矩形假设。在这种情况下,样本复杂性随选择不确定性集而变化,通常比$(s,a)$矩形假设下的情况大。此外,我们还表明,在$(s,a)$和$ s $ retectangular的假设下,从理论和经验的角度来看,最佳的鲁棒值函数是渐近的正常,典型的速率$ \ sqrt {n} $。
translated by 谷歌翻译
In robust Markov decision processes (MDPs), the uncertainty in the transition kernel is addressed by finding a policy that optimizes the worst-case performance over an uncertainty set of MDPs. While much of the literature has focused on discounted MDPs, robust average-reward MDPs remain largely unexplored. In this paper, we focus on robust average-reward MDPs, where the goal is to find a policy that optimizes the worst-case average reward over an uncertainty set. We first take an approach that approximates average-reward MDPs using discounted MDPs. We prove that the robust discounted value function converges to the robust average-reward as the discount factor $\gamma$ goes to $1$, and moreover, when $\gamma$ is large, any optimal policy of the robust discounted MDP is also an optimal policy of the robust average-reward. We further design a robust dynamic programming approach, and theoretically characterize its convergence to the optimum. Then, we investigate robust average-reward MDPs directly without using discounted MDPs as an intermediate step. We derive the robust Bellman equation for robust average-reward MDPs, prove that the optimal policy can be derived from its solution, and further design a robust relative value iteration algorithm that provably finds its solution, or equivalently, the optimal robust policy.
translated by 谷歌翻译
我们考虑解决强大的马尔可夫决策过程(MDP)的问题,该过程涉及一组折扣,有限状态,有限的动作空间MDP,具有不确定的过渡核。计划的目的是找到一项强大的政策,以优化针对过渡不确定性的最坏情况值,从而将标准MDP计划作为特殊情况。对于$(\ Mathbf {s},\ Mathbf {a})$ - 矩形不确定性集,我们开发了一种基于策略的一阶方法,即稳健的策略镜像下降(RPMD),并建立$ \ Mathcal {o }(\ log(1/\ epsilon))$和$ \ Mathcal {o}(1/\ epsilon)$迭代复杂性,用于查找$ \ epsilon $ -optimal策略,并带有两个增加的步骤式方案。 RPMD的先前收敛适用于任何Bregman差异,前提是政策空间在以初始政策为中心时通过差异测量的半径限制了半径。此外,当布雷格曼的分歧对应于平方的欧几里得距离时,我们建立了一个$ \ mathcal {o}(\ max \ {1/\ epsilon,1/(\ eta \ eTa \ epsilon^2)\ epsilon^2)\任何常量的步进$ \ eta $。对于Bregman差异的一般类别,如果不确定性集满足相对强的凸度,则还为RPMD建立了类似的复杂性。当仅通过与名义环境的在线互动获得一阶信息时,我们进一步开发了一个名为SRPMD的随机变体。对于Bregman General Divergences,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^2)$和$ \ Mathcal {O}(1/\ Epsilon^3)$样品复杂性,具有两个增加的静态方案。对于Euclidean Bregman Divergence,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^3)$样本复杂性,并具有恒定的步骤。据我们所知,所有上述结果似乎是应用于强大的MDP问题的基于策略的一阶方法的新事物。
translated by 谷歌翻译
强大的马尔可夫决策过程(MDP)用于在不确定环境中的动态优化应用,并已进行了广泛的研究。 MDP的许多主要属性和算法(例如价值迭代和策略迭代)直接扩展到RMDP。令人惊讶的是,没有已知的MDP凸优化公式用于求解RMDP。这项工作描述了在经典的SA截形和S型角假设下RMDP的第一个凸优化公式。我们通过使用熵正则化和变量的指数变化来得出具有线性数量和约束的线性数量的凸公式。我们的公式可以与来自凸优化的有效方法结合使用,以获得以不确定概率求解RMDP的新算法。我们进一步简化了使用多面体不确定性集的RMDP的公式。我们的工作打开了RMDP的新研究方向,可以作为获得RMDP的可拖动凸公式的第一步。
translated by 谷歌翻译
在动态编程(DP)和强化学习(RL)中,代理商学会在通过由Markov决策过程(MDP)建模的环境中顺序交互来实现预期的长期返回。更一般地在分布加强学习(DRL)中,重点是返回的整体分布,而不仅仅是其期望。虽然基于DRL的方法在RL中产生了最先进的性能,但它们涉及尚未充分理解的额外数量(与非分布设置相比)。作为第一个贡献,我们介绍了一类新的分类运营商,以及一个实用的DP算法,用于策略评估,具有强大的MDP解释。实际上,我们的方法通过增强的状态空间重新重新重新重新重新重新格式化,其中每个状态被分成最坏情况的子变量,并且最佳的子变电站,其值分别通过安全和危险的策略最大化。最后,我们派生了分配运营商和DP算法解决了一个新的控制任务:如何区分安全性的最佳动作,以便在最佳政策空间中打破联系?
translated by 谷歌翻译
本文从凸优化的角度研究了已知和未知环境中的随机最短路径(SSP)问题。它首先回忆起已知参数案例的结果,并通过不同的证据发展理解。然后,它着重于未知的参数情况,其中它研究了扩展价值迭代(EVI)运算符。这包括Rosenberg等人中使用的现有操作员。 [26]和Tarbouriech等。 [31]基于L-1规范和至上规范,以及定义与其他规范和差异相对应的EVI操作员,例如KL-Divergence。本文总的来说,EVI操作员如何与凸面程序及其双重形式相关联,这些形式表现出强烈的双重性。然后,本文重点介绍了NEU和Pike-Burke [21]的有限视野研究的界限是否可以应用于SSP设置中的这些扩展价值迭代操作员。它表明存在与[21]的相似界限,但是它们会导致不在一般单调且具有更复杂收敛属性的运算符。在特殊情况下,我们观察到振荡行为。本文通过几个需要进一步检查的示例,就研究的进展产生了公开问题。
translated by 谷歌翻译
Robust Markov decision processes (RMDPs) are promising models that provide reliable policies under ambiguities in model parameters. As opposed to nominal Markov decision processes (MDPs), however, the state-of-the-art solution methods for RMDPs are limited to value-based methods, such as value iteration and policy iteration. This paper proposes Double-Loop Robust Policy Gradient (DRPG), the first generic policy gradient method for RMDPs with a global convergence guarantee in tabular problems. Unlike value-based methods, DRPG does not rely on dynamic programming techniques. In particular, the inner-loop robust policy evaluation problem is solved via projected gradient descent. Finally, our experimental results demonstrate the performance of our algorithm and verify our theoretical guarantees.
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
In this paper we develop a theoretical analysis of the performance of sampling-based fitted value iteration (FVI) to solve infinite state-space, discounted-reward Markovian decision processes (MDPs) under the assumption that a generative model of the environment is available. Our main results come in the form of finite-time bounds on the performance of two versions of sampling-based FVI. The convergence rate results obtained allow us to show that both versions of FVI are well behaving in the sense that by using a sufficiently large number of samples for a large class of MDPs, arbitrary good performance can be achieved with high probability. An important feature of our proof technique is that it permits the study of weighted L p -norm performance bounds. As a result, our technique applies to a large class of function-approximation methods (e.g., neural networks, adaptive regression trees, kernel machines, locally weighted learning), and our bounds scale well with the effective horizon of the MDP. The bounds show a dependence on the stochastic stability properties of the MDP: they scale with the discounted-average concentrability of the future-state distributions. They also depend on a new measure of the approximation power of the function space, the inherent Bellman residual, which reflects how well the function space is "aligned" with the dynamics and rewards of the MDP. The conditions of the main result, as well as the concepts introduced in the analysis, are extensively discussed and compared to previous theoretical results. Numerical experiments are used to substantiate the theoretical findings.
translated by 谷歌翻译
以目标为导向的强化学习,代理商需要达到目标状态,同时将成本降至最低,在现实世界应用中受到了极大的关注。它的理论配方是随机最短路径(SSP),在在线环境中进行了深入研究。然而,当禁止使用这种在线互动并且仅提供历史数据时,它仍然被忽略了。在本文中,当状态空间和动作空间有限时,我们考虑离线随机路径问题。我们设计了基于简单的价值迭代算法,以解决离线政策评估(OPE)和离线政策学习任务。值得注意的是,我们对这些简单算法的分析产生了强大的实例依赖性边界,这可能意味着接近最佳的最佳范围最佳范围。我们希望我们的研究能够帮助阐明离线SSP问题的基本统计限制,并激发超出当前考虑范围的进一步研究。
translated by 谷歌翻译
由熵正常化的马尔可夫决策过程(ER-MDP)产生的随机和软最佳政策是可取的探索和仿制学习应用程序的可取性。这种策略对国家过渡概率敏感的事实,并且这些概率的估计可能不准确,我们研究了ER-MDP模型的强大版本,其中随机最佳策略需要坚固尊重潜在的过渡概率中的歧义。我们的工作是加固学习(RL)的两个重要计划的十字路口,即强大的MDP和熵正则化MDP。我们表明,持有非强大的ER-MDP和强大的未反复化MDP型号的基本属性也在我们的设置中保持,使得强大的ER-MDP问题是易旧的。我们展示了我们的框架和结果如何集成到包括值或(修改)策略迭代的不同算法方案中,这将导致新的鲁棒RL和逆RL算法来处理不确定性。还提供了在传统的不确定性设置下计算复杂性和误差传播的分析。
translated by 谷歌翻译
We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.
translated by 谷歌翻译
We consider learning approximate Nash equilibria for discrete-time mean-field games with nonlinear stochastic state dynamics subject to both average and discounted costs. To this end, we introduce a mean-field equilibrium (MFE) operator, whose fixed point is a mean-field equilibrium (i.e. equilibrium in the infinite population limit). We first prove that this operator is a contraction, and propose a learning algorithm to compute an approximate mean-field equilibrium by approximating the MFE operator with a random one. Moreover, using the contraction property of the MFE operator, we establish the error analysis of the proposed learning algorithm. We then show that the learned mean-field equilibrium constitutes an approximate Nash equilibrium for finite-agent games.
translated by 谷歌翻译
先前关于安全加强学习的工作(RL)研究了对动态(aleatory)随机性的风险规避,并隔离地模拟了不确定性(认知)。我们提出并分析一个新框架,以共同对有限马和折现的无限马MDP中的认知和差异不确定性相关的风险进行建模。我们称此框架结合了规避风险和软性的方法RASR。我们表明,当使用EVAR或熵风险定义风险规定时,可以使用具有时间依赖性风险水平的新的动态程序公式有效地计算RASR中的最佳策略。结果,即使是在无限 - 亨特折扣环境中,最佳的规避风险政策也是确定性但依赖时间的。我们还表明,具有平均后验过渡概率的特定RASR目标减少到规避风险的RL。我们的经验结果表明,我们的新算法始终减轻EVAR和其他标准风险措施衡量的不确定性。
translated by 谷歌翻译
Mean-field games have been used as a theoretical tool to obtain an approximate Nash equilibrium for symmetric and anonymous $N$-player games in literature. However, limiting applicability, existing theoretical results assume variations of a "population generative model", which allows arbitrary modifications of the population distribution by the learning algorithm. Instead, we show that $N$ agents running policy mirror ascent converge to the Nash equilibrium of the regularized game within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ samples from a single sample trajectory without a population generative model, up to a standard $\mathcal{O}(\frac{1}{\sqrt{N}})$ error due to the mean field. Taking a divergent approach from literature, instead of working with the best-response map we first show that a policy mirror ascent map can be used to construct a contractive operator having the Nash equilibrium as its fixed point. Next, we prove that conditional TD-learning in $N$-agent games can learn value functions within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ time steps. These results allow proving sample complexity guarantees in the oracle-free setting by only relying on a sample path from the $N$ agent simulator. Furthermore, we demonstrate that our methodology allows for independent learning by $N$ agents with finite sample guarantees.
translated by 谷歌翻译
本文涉及离线增强学习(RL)中模型鲁棒性和样本效率的核心问题,该问题旨在学习从没有主动探索的情况下从历史数据中执行决策。由于环境的不确定性和变异性,至关重要的是,学习强大的策略(尽可能少的样本),即使部署的环境偏离用于收集历史记录数据集的名义环境时,该策略也能很好地执行。我们考虑了离线RL的分布稳健公式,重点是标签非平稳的有限摩托稳健的马尔可夫决策过程,其不确定性设置为Kullback-Leibler Divergence。为了与样本稀缺作用,提出了一种基于模型的算法,该算法将分布强劲的价值迭代与面对不确定性时的悲观原理结合在一起,通过对稳健的价值估计值进行惩罚,以精心设计的数据驱动的惩罚项进行惩罚。在对历史数据集的轻度和量身定制的假设下,该数据集测量分布变化而不需要完全覆盖州行动空间,我们建立了所提出算法的有限样本复杂性,进一步表明,鉴于几乎无法改善的情况,匹配信息理论下限至地平线长度的多项式因素。据我们所知,这提供了第一个在模型不确定性和部分覆盖范围内学习的近乎最佳的稳健离线RL算法。
translated by 谷歌翻译
我们在Isabelle定理箴言中展示了有限马尔可夫决定流程的正式化。我们专注于动态编程和使用加固学习代理所需的基础。特别是,我们从第一个原则(在标量和向量形式中)导出Bellman方程,导出产生任何策略P的预期值的向量计算,并继续证明存在一个普遍的最佳政策的存在折扣因子不到一个。最后,我们证明了价值迭代和策略迭代算法在有限的时间内工作,分别产生ePsilon - 最佳和完全最佳的政策。
translated by 谷歌翻译
鲁棒马尔可夫决策过程(RMDP)框架侧重于设计对参数不确定因素而稳健的控制策略,这是由于模拟器模型和真实世界的不匹配。 RMDP问题通常被制定为MAX-MIN问题,其中目标是找到最大化最坏可能模型的值函数的策略,该策略在于围绕标称模型设置的不确定性。标准强大的动态编程方法需要了解标称模型来计算最佳的强大策略。在这项工作中,我们提出了一种基于模型的强化学习(RL)算法,用于学习$ \ epsilon $ - 当标称模型未知时的高新策略。我们考虑了三种不同形式的不确定集,其特征在于总变化距离,Chi-Square发散和kL发散。对于这些不确定性集中的每一个,我们提供了所提出算法的样本复杂性的精确表征。除了样本复杂性结果之外,我们还提供了一个正式的分析论证,就使用强大的政策的益处。最后,我们展示了我们对两个基准问题的算法的性能。
translated by 谷歌翻译
增强学习算法通常需要马尔可夫决策过程(MDP)中的状态和行动空间的有限度,并且在文献中已经对连续状态和动作空间的这种算法的适用性进行了各种努力。在本文中,我们表明,在非常温和的规律条件下(特别是仅涉及MDP的转换内核的弱连续性),通过量化状态和动作会聚到限制,Q-Learning用于标准BOREL MDP,而且此外限制满足最优性方程,其导致与明确的性能界限接近最优性,或者保证渐近最佳。我们的方法在(i)上建立了(i)将量化视为测量内核,因此将量化的MDP作为POMDP,(ii)利用Q-Learning的Q-Learning的近的最优性和收敛结果,并最终是有限状态的近最优态模型近似用于MDP的弱连续内核,我们展示对应于构造POMDP的固定点。因此,我们的论文提出了一种非常一般的收敛性和近似值,了解Q-Learning用于连续MDP的适用性。
translated by 谷歌翻译