我们在加固学习中使用汤普森采样(TS) - 样算法中的随机价值函数研究探索。这种类型的算法享有有吸引力的经验性能。我们展示当我们使用1)每一集中的单个随机种子,而2)伯尼斯坦型噪声幅度,我们获得了最坏的情况$ \ widetilde {o}左(h \ sqrt {sat} \右)$遗憾绑定了焦点时间 - 不均匀的马尔可夫决策过程,其中$ S $是国家空间的大小,$ a $的是行动空间的大小,$ h $是规划地平线,$ t $是互动的数量。这种绑定的多项式基于随机值函数的TS样算法的所有现有界限,并且首次匹配$ \ Omega \左(H \ SQRT {SAT}右)$下限到对数因子。我们的结果强调随机勘探可以近乎最佳,这是以前仅通过乐观算法实现的。为了实现所需的结果,我们开发1)新的剪辑操作,以确保持续持续的概率和悲观的概率是较低的常数,并且2)用于分析估计误差的绝对值的新递归公式。后悔。
translated by 谷歌翻译
本文研究了钢筋学习中随机价值函数的遗为最小化。在表格有限地平线马尔可夫决策过程中,我们引入了一种典型的汤普森采样(TS)-like算法的剪切变体,随机最小二乘值迭代(RLSVI)。我们的$ \ tilde {\ mathrm {o}}(h ^ 2s \ sqrt {at})$高概率最坏情况后悔绑定改善了rlsvi的先前最锐化的最糟糕的遗憾界限,并匹配现有的状态 - 基于最糟糕的TS的遗憾界限。
translated by 谷歌翻译
We study time-inhomogeneous episodic reinforcement learning (RL) under general function approximation and sparse rewards. We design a new algorithm, Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and bound its regret assuming completeness and bounded Eluder dimension for the regression function class. As a special case, VO$Q$L achieves $\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under ($d$-dimensional) linear function approximation, which is asymptotically optimal. Our algorithm incorporates weighted regression-based upper and lower bounds on the optimal value function to obtain this improved regret. The algorithm is computationally efficient given a regression oracle over the function class, making this the first computationally tractable and statistically optimal approach for linear MDPs.
translated by 谷歌翻译
本文为表格马尔可夫决策过程(MDP)提供了第一种多项式时间算法,该算法享受了遗憾的界限\ emph {独立于计划范围}。具体来说,我们考虑具有$ S $州的表格MDP,$ A $ ACTICY,计划范围$ h $,总奖励为$ 1 $,代理商播放$ K $ evipodes。我们设计了一种实现$ o \ left(\ mathrm {poly}(s,a,a,\ log k)\ sqrt {k} \ right)$遗憾的算法(\ mathrm {poly}(s,a,a,\ log k)polylog}(h)$依赖项〜\ citep {zhang2020 reininforcement}或对$ s $〜\ citep {li2021settling}具有指数依赖关系。我们的结果依赖于一系列新的结构引理,从而建立了固定策略的近似能力,稳定性和浓度特性,这些策略可以在与马尔可夫链有关的其他问题中应用。
translated by 谷歌翻译
尽管基于模型的增强学习(RL)方法被认为是更具样本的高效,但现有算法通常依赖于复杂的规划算法与模型学习过程紧密粘合。因此,学习模型可能缺乏与更专业规划者重新使用的能力。在本文中,我们解决了这个问题,并提供了在没有奖励信号的指导的情况下有效地学习RL模型的方法。特别是,我们采取了一个插件求解器方法,我们专注于在探索阶段学习模型,并要求在学习模型上的\ emph {任何规划算法}可以给出近最佳的政策。具体而言,我们专注于线性混合MDP设置,其中概率转换矩阵是一组现有模型的(未知)凸面组合。我们表明,通过建立新的探索算法,即插即用通过\ tilde {o}来学习模型(d ^ 2h ^ 3 / epsilon ^ 2)$与环境交互,\ emph {任何} $ \ epsilon $ -optimal Planner在模型上给出$ O(\ epsilon)$ - 原始模型上的最佳政策。此示例复杂性与非插入方法的下限与下限匹配,并且是\ EMPH {统计上最佳}。我们通过利用使用伯尔斯坦不等式和指定的线性混合MDP的属性来实现仔细的最大总差异来实现这一结果。
translated by 谷歌翻译
在表格设置下,我们研究了折扣马尔可夫决策过程(MDP)的强化学习问题。我们提出了一种名为UCBVI - $ \ Gamma $的基于模型的算法,该算法基于\ emph {面对不确定原理}和伯尔斯坦型奖金的乐观。我们展示了UCBVI - $ \ Gamma $实现了一个$ \ tilde {o} \ big({\ sqrt {sat}} / {(1- \ gamma)^ {1.5}} \ big)$后悔,在哪里$ s $是州的数量,$ a $是行动的数量,$ \ gamma $是折扣因子,$ t $是步数。此外,我们构建了一类硬MDP并表明对于任何算法,预期的遗憾是至少$ \ tilde {\ omega} \ big({\ sqrt {sat}} / {(1- \ gamma)^ {1.5}} \大)$。我们的上限与对数因子的最低限度相匹配,这表明UCBVI - $ \ Gamma $几乎最小的贴现MDP。
translated by 谷歌翻译
我们研究了具有线性函数近似增强学习中的随机最短路径(SSP)问题,其中过渡内核表示为未知模型的线性混合物。我们将此类别的SSP问题称为线性混合物SSP。我们提出了一种具有Hoeffding-type置信度的新型算法,用于学习线性混合物SSP,可以获得$ \ tilde {\ Mathcal {o}}}}(d B _ {\ star}^{1.5} \ sqrt {k/c_ {k/c_ {k/c_ {k/c_ { \ min}})$遗憾。这里$ k $是情节的数量,$ d $是混合模型中功能映射的维度,$ b _ {\ star} $限制了最佳策略的预期累积成本,$ c _ {\ min}>> 0 $是成本函数的下限。当$ c _ {\ min} = 0 $和$ \ tilde {\ mathcal {o}}}(k^{2/3})$遗憾时,我们的算法也适用于情况。据我们所知,这是第一个具有sublrinear遗憾保证线性混合物SSP的算法。此外,我们设计了精致的伯恩斯坦型信心集并提出了改进的算法,该算法可实现$ \ tilde {\ Mathcal {o}}}(d b _ {\ star} \ sqrt {k/c/c/c {k/c _ {\ min}}) $遗憾。为了补充遗憾的上限,我们还证明了$ \ omega(db _ {\ star} \ sqrt {k})$的下限。因此,我们的改进算法将下限匹配到$ 1/\ sqrt {c _ {\ min}} $ factor和poly-logarithmic因素,从而实现了近乎最佳的遗憾保证。
translated by 谷歌翻译
我们研究了随机的最短路径(SSP)问题,其中代理商必须以最短的预计成本达到目标状态。在问题的学习制定中,代理商没有关于模型的成本和动态的知识。她反复与k $剧集的型号交互,并且必须尽量减少她的遗憾。在这项工作中,我们表明这个设置的Minimax遗憾是$ \ widetilde o(\ sqrt {(b_ \ star ^ 2 + b_ \ star)| s | a | a | k})$ why $ b_ \ star $ a符合来自任何州的最佳政策的预期成本,$ S $是状态空间,$ a $是行动空间。此相匹配的$ \欧米茄(\ SQRT {B_ \星^ 2 | S | |甲| K})$下界Rosenberg等人的。 [2020]对于$ b_ \ star \ ge 1 $,并改善了他们的遗憾,以\ sqrt {| s |} $ \ you的遗憾。对于$ b_ \ star <1 $我们证明$ \ omega的匹配下限(\ sqrt {b_ \ star | s | a | a | k})$。我们的算法基于SSP的新颖减少到有限地平线MDP。为此,我们为有限地域设置提供了一种算法,其前期遗憾遗憾地取决于最佳政策的预期成本,并且仅对地平线上的对数。
translated by 谷歌翻译
Model-free reinforcement learning (RL) algorithms, such as Q-learning, directly parameterize and update value functions or policies without explicitly modeling the environment. They are typically simpler, more flexible to use, and thus more prevalent in modern deep RL than model-based approaches. However, empirical work has suggested that model-free algorithms may require more samples to learn [7,22]. The theoretical question of "whether model-free algorithms can be made sample efficient" is one of the most fundamental questions in RL, and remains unsolved even in the basic scenario with finitely many states and actions.We prove that, in an episodic MDP setting, Q-learning with UCB exploration achieves regret Õ( √ H 3 SAT ), where S and A are the numbers of states and actions, H is the number of steps per episode, and T is the total number of steps. This sample efficiency matches the optimal regret that can be achieved by any model-based approach, up to a single √ H factor. To the best of our knowledge, this is the first analysis in the model-free setting that establishes √ T regret without requiring access to a "simulator." * The first two authors contributed equally.
translated by 谷歌翻译
我们研究了在随机最短路径(SSP)设置中的学习问题,其中代理试图最小化在达到目标状态之前累积的预期成本。我们设计了一种新型基于模型的算法EB-SSP,仔细地偏离了经验转变,并通过探索奖励来赋予经验成本,以诱导乐观的SSP问题,其相关价值迭代方案被保证收敛。我们证明了EB-SSP实现了Minimax后悔率$ \ tilde {o}(b _ {\ star} \ sqrt {sak})$,其中$ k $是剧集的数量,$ s $是状态的数量, $ a $是行动的数量,而B _ {\ star} $绑定了从任何状态的最佳策略的预期累积成本,从而缩小了下限的差距。有趣的是,EB-SSP在没有参数的同时获得此结果,即,它不需要任何先前的$ B _ {\ star} $的知识,也不需要$ t _ {\ star} $,它绑定了预期的时间 ​​- 任何州的最佳政策的目标。此外,我们说明了各种情况(例如,当$ t _ {\ star} $的订单准确估计可用时,遗憾地仅包含对$ t _ {\ star} $的对数依赖性,因此产生超出有限范围MDP设置的第一个(几乎)的免地相会遗憾。
translated by 谷歌翻译
政策优化方法是使用最广泛使用的加固学习(RL)算法之一。然而,对这些方法的理论理解仍然不足。即使在eoisodic(时代)的表格设置中,\ citet的基于政策方法的最先进的理论结果也是只需$ \ tilde {o}(\ sqrt {s ^ 2ah ^ 4k })$何地在$ S $是州的数量,$ a $是行动的数量,$ h $是地平线,而$ k $是剧集的数量,还有$ \ sqrt {sh} $与信息理论下限$ \ tilde {\ omega}相比,差距(\ sqrt {sah ^ 3k})$。为了弥合这样的差距,我们提出了一种新的算法基于参考的基于参考的策略优化,在任何时间保证(\ AlgnameAcro),它具有“随时稳定”的特征。我们证明我们的算法实现$ \ tilde {o}(\ sqrt {sah ^ 3k} + \ sqrt {ah ^ 4})$后悔。当$ s> h $时,我们的算法在忽略对数因子时最佳最佳。为了我们的最佳知识,RPO-SAT是第一次计算上高效,几乎最小的表格RL最佳策略算法。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
We study reinforcement learning (RL) with linear function approximation. For episodic time-inhomogeneous linear Markov decision processes (linear MDPs) whose transition dynamic can be parameterized as a linear function of a given feature mapping, we propose the first computationally efficient algorithm that achieves the nearly minimax optimal regret $\tilde O(d\sqrt{H^3K})$, where $d$ is the dimension of the feature mapping, $H$ is the planning horizon, and $K$ is the number of episodes. Our algorithm is based on a weighted linear regression scheme with a carefully designed weight, which depends on a new variance estimator that (1) directly estimates the variance of the \emph{optimal} value function, (2) monotonically decreases with respect to the number of episodes to ensure a better estimation accuracy, and (3) uses a rare-switching policy to update the value function estimator to control the complexity of the estimated value function class. Our work provides a complete answer to optimal RL with linear MDPs, and the developed algorithm and theoretical tools may be of independent interest.
translated by 谷歌翻译
我们在随机和对抗性马尔可夫决策过程(MDP)中研究合作在线学习。也就是说,在每一集中,$ m $代理商同时与MDP互动,并共享信息以最大程度地减少他们的遗憾。我们考虑具有两种随机性的环境:\ emph {Fresh} - 在每个代理的轨迹均已采样i.i.d和\ emph {non-fresh} - 其中所有代理人共享实现(但每个代理的轨迹也受到影响)通过其自己的行动)。更确切地说,通过非志趣相投的随机性,每个成本和过渡的实现都在每个情节开始时都固定了,并且在同一时间同时采取相同行动的代理人观察到相同的成本和下一个状态。我们彻底分析了所有相关设置,强调了模型之间的挑战和差异,并证明了几乎匹配的遗憾下层和上限。据我们所知,我们是第一个考虑具有非伪造随机性或对抗性MDP的合作强化学习(RL)。
translated by 谷歌翻译
本文介绍了一项有关离线增强学习中依赖间隙依赖样品复杂性的系统研究。先前的工作显示了何时最佳策略和行为策略之间的密度比上限(最佳策略覆盖范围假设),则代理可以实现$ o \ left(\ frac {1} {\ epsilon^2} \ right)$ rate,这也是最小值的最佳。我们在最佳策略覆盖范围假设下显示,当在最佳$ q $ unction中存在积极的子临时差距时,可以将费率提高到$ o \ left(\ frac {1} {\ epsilon} \ right)$。。此外,我们显示了行为策略的访问概率何时在最佳策略的访问概率为正(统一的最佳策略覆盖范围假设)的状态下,均匀下降,识别最佳政策的样本复杂性独立于$ \ frac {1} {\ epsilon} $。最后,我们呈现几乎匹配的下限,以补充我们的间隙依赖性上限。
translated by 谷歌翻译
在在线学习问题中,利用低方差在获得紧密性能保证方面发挥着重要作用,但仍然是挑战的,因为差异通常不知道先验。最近,张等人取得了相当大的进展。 (2021)在没有知识的情况下获得用于线性匪徒的方差 - 自适应遗憾,没有知识的差异和对​​线性混合物Markov决策过程(MDP)的无差异的无差异遗憾。在本文中,我们提出了一种新的分析,从而显着改善了他们的遗憾。对于线性匪徒,我们实现$ \ tilde o(d ^ {1.5} \ sqrt {\ sum_ {k} ^ k \ sigma_k ^ 2} + d ^ 2)$ why $ d $是功能的维度$ k $是时间横向,$ \ sigma_k ^ 2 $是时间步骤$ k $的噪声差异,而$ \ tilde o $忽略了polylogarithmic依赖,这是$ d ^ 3 $的因素。对于线性混合MDP,我们达到$ \ tilde o(d ^ {1.5} \ sqrt {k} + d ^ 3)$ white $ d $的地平线遗憾的遗憾遗憾的遗憾 - 是基本型号的数量和$ k $剧集的数量。这是较低的术语和下订单中的持续期限和D ^ 6美元的倍数。我们的分析依稀依赖于新颖的椭圆潜力“计数”的引理。这种引理允许基于剥离的遗憾分析,这可以是独立的兴趣。
translated by 谷歌翻译
We consider the problem of provably optimal exploration in reinforcement learning for finite horizon MDPs. We show that an optimistic modification to value iteration achieves a regret bound of O(where H is the time horizon, S the number of states, A the number of actions and T the number of time-steps. This result improves over the best previous known bound O(HS √ AT ) achieved by the UCRL2 algorithm of Jaksch et al. ( 2010). The key significance of our new results is that when T ≥ H 3 S 3 A and SA ≥ H, it leads to a regret of O( √ HSAT ) that matches the established lower bound of Ω( √ HSAT ) up to a logarithmic factor. Our analysis contains two key insights. We use careful application of concentration inequalities to the optimal value function as a whole, rather than to the transitions probabilities (to improve scaling in S), and we define Bernstein-based "exploration bonuses" that use the empirical variance of the estimated values at the next states (to improve scaling in H).
translated by 谷歌翻译
我们研究了基于模型的无奖励加强学习,具有ePiSodic Markov决策过程的线性函数近似(MDP)。在此设置中,代理在两个阶段工作。在勘探阶段,代理商与环境相互作用并在没有奖励的情况下收集样品。在规划阶段,代理商给出了特定的奖励功能,并使用从勘探阶段收集的样品来学习良好的政策。我们提出了一种新的可直接有效的算法,称为UCRL-RFE在线性混合MDP假设,其中MDP的转换概率内核可以通过线性函数参数化,在状态,动作和下一个状态的三联体上定义的某些特征映射上参数化。我们展示了获得$ \ epsilon $-Optimal策略进行任意奖励函数,Ucrl-RFE需要以大多数$ \ tilde {\ mathcal {o}}来进行采样(h ^ 5d ^ 2 \ epsilon ^ { - 2})勘探阶段期间的$派对。在这里,$ H $是集的长度,$ d $是特征映射的尺寸。我们还使用Bernstein型奖金提出了一种UCRL-RFE的变种,并表明它需要在大多数$ \ TINDE {\ MATHCAL {o}}(H ^ 4D(H + D)\ epsilon ^ { - 2})进行样本$达到$ \ epsilon $ -optimal政策。通过构建特殊类的线性混合MDPS,我们还证明了对于任何无奖励算法,它需要至少为$ \ TINDE \ OMEGA(H ^ 2d \ epsilon ^ { - 2})$剧集来获取$ \ epsilon $ -optimal政策。我们的上限与依赖于$ \ epsilon $的依赖性和$ d $ if $ h \ ge d $。
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
The offline reinforcement learning (RL) problem is often motivated by the need to learn data-driven decision policies in financial, legal and healthcare applications. However, the learned policy could retain sensitive information of individuals in the training data (e.g., treatment and outcome of patients), thus susceptible to various privacy risks. We design offline RL algorithms with differential privacy guarantees which provably prevent such risks. These algorithms also enjoy strong instance-dependent learning bounds under both tabular and linear Markov decision process (MDP) settings. Our theory and simulation suggest that the privacy guarantee comes at (almost) no drop in utility comparing to the non-private counterpart for a medium-size dataset.
translated by 谷歌翻译