代表学习呈现在深入学习的经验成功的核心,以处理维度的诅咒。然而,由于i),表现力(RL)的钢筋学习(RL)尚未充分利用卓越的能力,表现力和易疏忽之间的权衡;二世),探索与代表学习之间的耦合。在本文中,我们首先揭示了在随机控制模型中的一些噪声假设下,我们可以免费获得其相应的马尔可夫过渡操作员的线性谱特征。基于该观察,我们提出了嵌入(Spede)的谱动力学嵌入(SPEDE),这将通过利用噪声结构来完成对代表学习的乐观探索。我们提供对Speded的严格理论分析,并展示了几种基准上现有最先进的实证算法的实际卓越性能。
translated by 谷歌翻译
Deep latent variable models have achieved significant empirical successes in model-based reinforcement learning (RL) due to their expressiveness in modeling complex transition dynamics. On the other hand, it remains unclear theoretically and empirically how latent variable models may facilitate learning, planning, and exploration to improve the sample efficiency of RL. In this paper, we provide a representation view of the latent variable models for state-action value functions, which allows both tractable variational learning algorithm and effective implementation of the optimism/pessimism principle in the face of uncertainty for exploration. In particular, we propose a computationally efficient planning algorithm with UCB exploration by incorporating kernel embeddings of latent variable models. Theoretically, we establish the sample complexity of the proposed approach in the online and offline settings. Empirically, we demonstrate superior performance over current state-of-the-art algorithms across various benchmarks.
translated by 谷歌翻译
通常通过利用低级别表示来解决马尔可夫决策过程(MDP)中维度的诅咒。这激发了有关线性MDP的最新理论研究。但是,大多数方法在不切实际的假设下对分解的归一化或在实践中引入未解决的计算挑战。相反,我们考虑了线性MDP的替代定义,该定义自动确保正常化,同时允许通过对比度估计进行有效的表示。该框架还承认了置信度调整的索引算法,从而使面对不确定性的乐观或悲观主义,使得有效而有原则的方法。据我们所知,这为线性MDP提供了第一种实用的表示学习方法,该方法既可以实现强大的理论保证和经验绩效。从理论上讲,我们证明所提出的算法在在线和离线设置中均有效。从经验上讲,我们在几个基准测试中表现出优于现有基于模型的现有模型和无模型算法的卓越性能。
translated by 谷歌翻译
我们认为在情节环境中的强化学习(RL)中的遗憾最小化问题。在许多实际的RL环境中,状态和动作空间是连续的或非常大的。现有方法通过随机过渡模型的低维表示或$ q $ functions的近似值来确定遗憾的保证。但是,对国家价值函数的函数近似方案的理解基本上仍然缺失。在本文中,我们提出了一种基于在线模型的RL算法,即CME-RL,该算法将过渡分布的表示形式学习为嵌入在复制的内核希尔伯特领域中的嵌入,同时仔细平衡了利用探索 - 探索权衡取舍。我们通过证明频繁的(最糟糕的)遗憾结束了$ \ tilde {o} \ big(h \ gamma_n \ sqrt {n} \ big)$ \ footnote {$ footnote {$ tilde {$ o}(\ cdot)$仅隐藏绝对常数和poly-logarithmic因素。},其中$ h $是情节长度,$ n $是时间步长的总数,$ \ gamma_n $是信息理论数量国家行动特征空间的有效维度。我们的方法绕过了估计过渡概率的需求,并适用于可以定义内核的任何域。它还为内核方法的一般理论带来了新的见解,以进行近似推断和RL遗憾的最小化。
translated by 谷歌翻译
We study sample efficient reinforcement learning (RL) under the general framework of interactive decision making, which includes Markov decision process (MDP), partially observable Markov decision process (POMDP), and predictive state representation (PSR) as special cases. Toward finding the minimum assumption that empowers sample efficient learning, we propose a novel complexity measure, generalized eluder coefficient (GEC), which characterizes the fundamental tradeoff between exploration and exploitation in online interactive decision making. In specific, GEC captures the hardness of exploration by comparing the error of predicting the performance of the updated policy with the in-sample training error evaluated on the historical data. We show that RL problems with low GEC form a remarkably rich class, which subsumes low Bellman eluder dimension problems, bilinear class, low witness rank problems, PO-bilinear class, and generalized regular PSR, where generalized regular PSR, a new tractable PSR class identified by us, includes nearly all known tractable POMDPs. Furthermore, in terms of algorithm design, we propose a generic posterior sampling algorithm, which can be implemented in both model-free and model-based fashion, under both fully observable and partially observable settings. The proposed algorithm modifies the standard posterior sampling algorithm in two aspects: (i) we use an optimistic prior distribution that biases towards hypotheses with higher values and (ii) a loglikelihood function is set to be the empirical loss evaluated on the historical data, where the choice of loss function supports both model-free and model-based learning. We prove that the proposed algorithm is sample efficient by establishing a sublinear regret upper bound in terms of GEC. In summary, we provide a new and unified understanding of both fully observable and partially observable RL.
translated by 谷歌翻译
表示学习通常通过管理维度的诅咒在加强学习中起关键作用。代表性的算法类别利用了随机过渡动力学的光谱分解,以构建在理想化环境中具有强大理论特性的表示。但是,当前的光谱方法的适用性有限,因为它们是用于仅国家的聚合并源自策略依赖性过渡内核的,而无需考虑勘探问题。为了解决这些问题,我们提出了一种替代光谱方法,光谱分解表示(SPEDER),该方法从动力学中提取了国家行动抽象而不诱导虚假依赖数据收集策略,同时还可以平衡探索访问权分析交易 - 在学习过程中关闭。理论分析确定了在线和离线设置中所提出的算法的样本效率。此外,一项实验研究表明,在几个基准测试中,比当前的最新算法表现出色。
translated by 谷歌翻译
我们提出了一种乐观的基于模型的算法,Dubbed SMRL,用于通过指数族分布指定的转换模型,以D $参数指定,奖励是有界和已知的。SMRL使用得分匹配,一种无通量的密度估计技术,可以通过RIDGE回归有效地估计模型参数。在标准规律性假设下,SMRL实现$ \ tilde o(d \ sqrt {h ^ 3t})$在线遗憾,其中$ h $是每一集的长度,$ t $是互动的总数(忽略多项式依赖结构尺度参数)。
translated by 谷歌翻译
We study time-inhomogeneous episodic reinforcement learning (RL) under general function approximation and sparse rewards. We design a new algorithm, Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and bound its regret assuming completeness and bounded Eluder dimension for the regression function class. As a special case, VO$Q$L achieves $\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under ($d$-dimensional) linear function approximation, which is asymptotically optimal. Our algorithm incorporates weighted regression-based upper and lower bounds on the optimal value function to obtain this improved regret. The algorithm is computationally efficient given a regression oracle over the function class, making this the first computationally tractable and statistically optimal approach for linear MDPs.
translated by 谷歌翻译
低级MDP已成为研究强化学习中的表示和探索的重要模型。有了已知的代表,存在几种无模型的探索策略。相反,未知表示设置的所有算法都是基于模型的,因此需要对完整动力学进行建模。在这项工作中,我们介绍了低级MDP的第一个无模型表示学习算法。关键的算法贡献是一个新的Minimax表示学习目标,我们为其提供具有不同权衡的变体,其统计和计算属性不同。我们将这一表示的学习步骤与探索策略交织在一起,以无奖励的方式覆盖状态空间。所得算法可证明样品有效,并且可以适应一般函数近似以扩展到复杂的环境。
translated by 谷歌翻译
本文介绍了一种简单的有效学习算法,用于一般顺序决策。该算法将探索的乐观与模型估计的最大似然估计相结合,因此被命名为OMLE。我们证明,Omle了解了多项式数量的样本中一系列非常丰富的顺序决策问题的近乎最佳策略。这个丰富的类别不仅包括大多数已知的基于模型的基于模型的强化学习(RL)问题(例如表格MDP,计算的MDP,低证人等级问题,表格弱弱/可观察到的POMDP和多步可解码的POMDP),但是同样,许多新的具有挑战性的RL问题,尤其是在可观察到的部分环境中,这些问题以前尚不清楚。值得注意的是,本文解决的新问题包括(1)具有连续观察和功能近似的可观察到的POMDP,在其中我们实现了完全独立于观察空间的第一个样品复杂性; (2)条件良好的低级顺序决策问题(也称为预测状态表示(PSRS)),其中包括并概括了所有已知的可牵引的POMDP示例,这些示例在更固有的表示下; (3)在帆条件下进行一般顺序决策问题,这统一了我们在完全可观察和部分可观察的设置中对基于模型的RL的现有理解。帆条件是由本文确定的,可以将其视为贝尔曼/证人等级的自然概括,以解决部分可观察性。
translated by 谷歌翻译
平衡勘探和剥削对加强学习(RL)至关重要。在本文中,我们在理论上和经验上,研究了用于连续状态行动空间的加固学习(PSRL)的模型后采样。首先,我们在连续空间中显示PSRL的第一个遗憾,这是我们知识中的最佳地段中的多项式。假设奖励和转换函数可以由贝叶斯线性回归建模,我们开发了$ \ tilde {o}的遗憾(h ^ {3/2} d \ sqrt {t})$,其中$ h $剧集长度,$ D $是状态动作空间的维度,$ t $表示总时间步骤。此结果与线性MDP中的非PSRL方法的最佳已知的遗憾符合。我们的绑定可以扩展到非线性情况以及功能嵌入功能:在特征表示上的线性内核$ \ phi $,后悔绑定成为$ \ tilde {o}(h ^ {3/2} d _ {\ phi} \ SQRT {T})$,其中$ d_ \ phi $是表示空间的尺寸。此外,我们呈现MPC-PSRL,一种基于模型的后部采样算法,具有用于动作选择的模型预测控制。为了捕获模型中的不确定性,我们在神经网络的倒数第二层(特征表示层$ \ phi $)上使用贝叶斯线性回归。实证结果表明,与基于模型的算法相比,我们的算法在基准连续控制任务中实现了最先进的示例效率,并匹配无模型算法的渐近性能。
translated by 谷歌翻译
随着代表性学习成为一种在实践中降低增强学习(RL)样本复杂性(RL)的强大技术,对其优势的理论理解仍然是有限的。在本文中,我们从理论上表征了在低级马尔可夫决策过程(MDP)模型下表示学习的好处。我们首先研究多任务低级RL(作为上游培训),所有任务都共享一个共同的表示,并提出了一种称为加油的新型多任务奖励算法。加油站同时了解每个任务的过渡内核和近乎最佳的策略,并为下游任务输出良好的代表。我们的结果表明,只要任务总数高于一定的阈值,多任务表示学习比单独学习的样本效率要高。然后,我们研究在线和离线设置中的下游RL,在该设置中,代理商分配了一个新任务,共享与上游任务相同的表示形式。对于在线和离线设置,我们都会开发出样本效率高的算法,并表明它找到了一个近乎最佳的策略,其次要差距在上游中学习的估计误差和一个消失的术语作为数字作为数字的估计误差的范围。下游样品的大量变大。我们在线和离线RL的下游结果进一步捕获了从上游采用学习的表示形式的好处,而不是直接学习低级模型的表示。据我们所知,这是第一个理论研究,它表征了代表性学习在基于探索的无奖励多任务RL中对上游和下游任务的好处。
translated by 谷歌翻译
我们考虑在具有非线性函数近似的两名玩家零和马尔可夫游戏中学习NASH平衡,其中动作值函数通过繁殖内核Hilbert Space(RKHS)中的函数近似。关键挑战是如何在高维函数空间中进行探索。我们提出了一种新颖的在线学习算法,以最大程度地减少双重性差距来找到NASH平衡。我们算法的核心是基于不确定性的乐观原理得出的上和下置信度界限。我们证明,在非常温和的假设上,我们的算法能够获得$ O(\ sqrt {t})$遗憾,并在对奖励功能和马尔可夫游戏的基本动态下进行多项式计算复杂性。我们还提出了我们的算法的几个扩展,包括具有伯恩斯坦型奖励的算法,可以实现更严格的遗憾,以及用于模型错误指定的另一种算法,可以应用于神经功能近似。
translated by 谷歌翻译
Epsilon-Greedy,SoftMax或Gaussian噪声等近视探索政策在某些强化学习任务中无法有效探索,但是在许多其他方面,它们的表现都很好。实际上,实际上,由于简单性,它们通常被选为最佳选择。但是,对于哪些任务执行此类政策成功?我们可以为他们的有利表现提供理论保证吗?尽管这些政策具有显着的实际重要性,但这些关键问题几乎没有得到研究。本文介绍了对此类政策的理论分析,并为通过近视探索提供了对增强学习的首次遗憾和样本复杂性。我们的结果适用于具有有限的Bellman Eluder维度的情节MDP中的基于价值功能的算法。我们提出了一种新的复杂度度量,称为近视探索差距,用Alpha表示,该差距捕获了MDP的结构属性,勘探策略和给定的值函数类别。我们表明,近视探索的样品复杂性与该数量的倒数1 / alpha^2二次地量表。我们通过具体的例子进一步证明,由于相应的动态和奖励结构,在近视探索成功的几项任务中,近视探索差距确实是有利的。
translated by 谷歌翻译
Modern Reinforcement Learning (RL) is commonly applied to practical problems with an enormous number of states, where function approximation must be deployed to approximate either the value function or the policy. The introduction of function approximation raises a fundamental set of challenges involving computational and statistical efficiency, especially given the need to manage the exploration/exploitation tradeoff. As a result, a core RL question remains open: how can we design provably efficient RL algorithms that incorporate function approximation? This question persists even in a basic setting with linear dynamics and linear rewards, for which only linear function approximation is needed.This paper presents the first provable RL algorithm with both polynomial runtime and polynomial sample complexity in this linear setting, without requiring a "simulator" or additional assumptions. Concretely, we prove that an optimistic modification of Least-Squares Value Iteration (LSVI)-a classical algorithm frequently studied in the linear setting-achieves O( √ d 3 H 3 T ) regret, where d is the ambient dimension of feature space, H is the length of each episode, and T is the total number of steps. Importantly, such regret is independent of the number of states and actions.
translated by 谷歌翻译
我们研究了基于模型的无奖励加强学习,具有ePiSodic Markov决策过程的线性函数近似(MDP)。在此设置中,代理在两个阶段工作。在勘探阶段,代理商与环境相互作用并在没有奖励的情况下收集样品。在规划阶段,代理商给出了特定的奖励功能,并使用从勘探阶段收集的样品来学习良好的政策。我们提出了一种新的可直接有效的算法,称为UCRL-RFE在线性混合MDP假设,其中MDP的转换概率内核可以通过线性函数参数化,在状态,动作和下一个状态的三联体上定义的某些特征映射上参数化。我们展示了获得$ \ epsilon $-Optimal策略进行任意奖励函数,Ucrl-RFE需要以大多数$ \ tilde {\ mathcal {o}}来进行采样(h ^ 5d ^ 2 \ epsilon ^ { - 2})勘探阶段期间的$派对。在这里,$ H $是集的长度,$ d $是特征映射的尺寸。我们还使用Bernstein型奖金提出了一种UCRL-RFE的变种,并表明它需要在大多数$ \ TINDE {\ MATHCAL {o}}(H ^ 4D(H + D)\ epsilon ^ { - 2})进行样本$达到$ \ epsilon $ -optimal政策。通过构建特殊类的线性混合MDPS,我们还证明了对于任何无奖励算法,它需要至少为$ \ TINDE \ OMEGA(H ^ 2d \ epsilon ^ { - 2})$剧集来获取$ \ epsilon $ -optimal政策。我们的上限与依赖于$ \ epsilon $的依赖性和$ d $ if $ h \ ge d $。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
我们研究了具有无限观察和状态空间的部分观察到的马尔可夫决策过程(POMDP)的强化学习,理论上仍然不太研究。为此,我们首次尝试弥合具有线性结构的一类POMDP的部分可观察性和功能近似。详细说明,我们建议在$ O(1/\ Epsilon^2)$情节中获得$ \ epsilon $ - 最佳策略的增强学习算法(通过对抗积分方程或操作装置的乐观探索)。特别是,样品复杂性在线性结构的固有维度上缩放,并且独立于观测和状态空间的大小。 Op-Tenet的样品效率由一系列成分启用:(i)具有有限内存的钟形操作员,该操作员以递归方式表示值函数,(ii)通过对抗性积分对此类操作员的识别和估计方程式具有针对线性结构量身定制的平滑歧视器,以及(iii)通过乐观探索观察和状态空间,该探索基于量化对抗性积分方程的不确定性。
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
确保基于乐观或后采样(PSRL)的基于模型的强化增强学习(MBRL)通过引入模型的复杂度度量,以渐近地实现全局最优性。但是,对于最简单的非线性模型,复杂性可能会成倍增长,在有限的迭代中,全局收敛是不可能的。当模型遭受大的概括误差(通过模型复杂性定量测量)时,不确定性可能很大。因此,对当前策略进行贪婪优化的采样模型将不设置,从而导致积极的政策更新和过度探索。在这项工作中,我们提出了涉及参考更新和保守更新的保守双重政策优化(CDPO)。该策略首先在参考模型下进行了优化,该策略模仿PSRL的机制,同时提供更大的稳定性。通过最大化模型值的期望来保证保守的随机性范围。没有有害的采样程序,CDPO仍然可以达到与PSRL相同的遗憾。更重要的是,CDPO同时享有单调的政策改进和全球最优性。经验结果还验证了CDPO的勘探效率。
translated by 谷歌翻译