For undiscounted reinforcement learning in Markov decision processes (MDPs) we consider the total regret of a learning algorithm with respect to an optimal policy. In order to describe the transition structure of an MDP we propose a new parameter: An MDP has diameter D if for any pair of states s, s there is a policy which moves from s to s in at most D steps (on average). We present a reinforcement learning algorithm with total regret Õ(DS √AT ) after T steps for any unknown MDP with S states, A actions per state, and diameter D. This bound holds with high probability. We also present a corresponding lower bound of Ω( √ DSAT ) on the total regret of any learning algorithm.
translated by 谷歌翻译
我们在定期马尔可夫决策过程(MDP)中学习学习,这是一种特殊类型的非平稳MDP,在平均奖励最大化设置下,状态过渡概率和奖励功能都定期变化。我们通过使用周期指数来扩大状态空间来将问题作为固定的MDP提出,并提出了定期上限置信度结合增强学习2(PUCRL2)算法。我们表明,pucrl2的遗憾随着时期和地平线长度的次线性而变化。数值结果证明了PUCRL2的功效。
translated by 谷歌翻译
我们研究了随机的最短路径(SSP)问题,其中代理商必须以最短的预计成本达到目标状态。在问题的学习制定中,代理商没有关于模型的成本和动态的知识。她反复与k $剧集的型号交互,并且必须尽量减少她的遗憾。在这项工作中,我们表明这个设置的Minimax遗憾是$ \ widetilde o(\ sqrt {(b_ \ star ^ 2 + b_ \ star)| s | a | a | k})$ why $ b_ \ star $ a符合来自任何州的最佳政策的预期成本,$ S $是状态空间,$ a $是行动空间。此相匹配的$ \欧米茄(\ SQRT {B_ \星^ 2 | S | |甲| K})$下界Rosenberg等人的。 [2020]对于$ b_ \ star \ ge 1 $,并改善了他们的遗憾,以\ sqrt {| s |} $ \ you的遗憾。对于$ b_ \ star <1 $我们证明$ \ omega的匹配下限(\ sqrt {b_ \ star | s | a | a | k})$。我们的算法基于SSP的新颖减少到有限地平线MDP。为此,我们为有限地域设置提供了一种算法,其前期遗憾遗憾地取决于最佳政策的预期成本,并且仅对地平线上的对数。
translated by 谷歌翻译
We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach maintains a statistically plausible model of the environment and follows a policy that maximizes expected $\gamma$-discounted return in that model. At each time, with probability $1-\gamma$, the model is replaced by a sample from the posterior distribution over environments. For a suitable schedule of $\gamma$, we establish an $\tilde{O}(\tau S \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $\tau$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy.
translated by 谷歌翻译
我们考虑在马尔可夫决策过程中的强化学习(RL),其中代理人反复交互与由受控马尔可夫进程建模的环境进行交互。在每次步骤$ $ $时,它赢得了奖励,并招收了由$ M $成本组成的成本矢量。我们设计学习算法,最大限度地提高$ T $时间步长的时间范围内获得的累积奖励,同时确保$ M $成本支出的平均值由代理指定的阈值界限为$ C ^ {UB} _I ,i = 1,2,\ ldots,m $。关于累积成本支出的审议从现有文献中离开,因为代理商此外需要以在线方式平衡成本费用,同时执行通常遇到的RL任务中的勘探开发权衡。为了测量满足平均成本约束的加强学习算法的性能,我们定义了由其奖励后悔组成的$ M + 1 $维度遗憾的载体,而M $费用遗憾。奖励后悔在累计奖励中衡量次级最优性,而成本遗憾的奖励奖励奖励是其$ I $ -Th累计成本费用与预期成本支出之间的差异,而预期的成本支出$ TC ^ {UB} _i $。我们证明,通过高概率,UCRL-CMDP的遗憾矢量是高度限制的(S \ SQRT {AT ^ {1.5} \ log(t)\右)$,其中$ s $状态的数量,$ a $是行动的数量,而$ t $是时间范围。我们进一步展示了如何减少预期奖金的所需子集的遗憾,以牺牲奖励遗憾和剩余成本的牺牲品为代价。据我们所知,我们的是唯一考虑在平均成本限制下的非焦化RL的工作,并且可以根据代理人对其成本遗憾的要求进行〜\ excph {调整后悔向量}的算法。
translated by 谷歌翻译
Modern Reinforcement Learning (RL) is commonly applied to practical problems with an enormous number of states, where function approximation must be deployed to approximate either the value function or the policy. The introduction of function approximation raises a fundamental set of challenges involving computational and statistical efficiency, especially given the need to manage the exploration/exploitation tradeoff. As a result, a core RL question remains open: how can we design provably efficient RL algorithms that incorporate function approximation? This question persists even in a basic setting with linear dynamics and linear rewards, for which only linear function approximation is needed.This paper presents the first provable RL algorithm with both polynomial runtime and polynomial sample complexity in this linear setting, without requiring a "simulator" or additional assumptions. Concretely, we prove that an optimistic modification of Least-Squares Value Iteration (LSVI)-a classical algorithm frequently studied in the linear setting-achieves O( √ d 3 H 3 T ) regret, where d is the ambient dimension of feature space, H is the length of each episode, and T is the total number of steps. Importantly, such regret is independent of the number of states and actions.
translated by 谷歌翻译
Model-free reinforcement learning (RL) algorithms, such as Q-learning, directly parameterize and update value functions or policies without explicitly modeling the environment. They are typically simpler, more flexible to use, and thus more prevalent in modern deep RL than model-based approaches. However, empirical work has suggested that model-free algorithms may require more samples to learn [7,22]. The theoretical question of "whether model-free algorithms can be made sample efficient" is one of the most fundamental questions in RL, and remains unsolved even in the basic scenario with finitely many states and actions.We prove that, in an episodic MDP setting, Q-learning with UCB exploration achieves regret Õ( √ H 3 SAT ), where S and A are the numbers of states and actions, H is the number of steps per episode, and T is the total number of steps. This sample efficiency matches the optimal regret that can be achieved by any model-based approach, up to a single √ H factor. To the best of our knowledge, this is the first analysis in the model-free setting that establishes √ T regret without requiring access to a "simulator." * The first two authors contributed equally.
translated by 谷歌翻译
Epsilon-Greedy,SoftMax或Gaussian噪声等近视探索政策在某些强化学习任务中无法有效探索,但是在许多其他方面,它们的表现都很好。实际上,实际上,由于简单性,它们通常被选为最佳选择。但是,对于哪些任务执行此类政策成功?我们可以为他们的有利表现提供理论保证吗?尽管这些政策具有显着的实际重要性,但这些关键问题几乎没有得到研究。本文介绍了对此类政策的理论分析,并为通过近视探索提供了对增强学习的首次遗憾和样本复杂性。我们的结果适用于具有有限的Bellman Eluder维度的情节MDP中的基于价值功能的算法。我们提出了一种新的复杂度度量,称为近视探索差距,用Alpha表示,该差距捕获了MDP的结构属性,勘探策略和给定的值函数类别。我们表明,近视探索的样品复杂性与该数量的倒数1 / alpha^2二次地量表。我们通过具体的例子进一步证明,由于相应的动态和奖励结构,在近视探索成功的几项任务中,近视探索差距确实是有利的。
translated by 谷歌翻译
我们考虑了有多个具有不同奖励功能的利益相关者的情节强化学习问题。我们的目标是输出有关不同奖励功能在社会上公平的政策。先前的工作提出了不同的目标,即公平政策必须优化,包括最低福利和广义的基尼福利。我们首先对问题进行公理视图,并提出四个公理,任何这样的公平目标都必须满足。我们表明,纳什社会福利是一个独特的目标,它独特地满足了所有四个目标,而先前的目标无法满足所有四个公理。然后,我们考虑了基础模型,即马尔可夫决策过程未知的问题的学习版本。我们考虑到最大程度地降低对公平政策最大化的遗憾的问题,从而最大化三个不同的公平目标 - 最低限度的福利,广义基尼福利和纳什社会福利。基于乐观的计划,我们提出了一种通用的学习算法,并在三种不同的政策方面得出了遗憾。为了纳什社会福利的目的,我们还遗憾地得出了一个遗憾的遗憾,它以$ n $(代理的数量)成倍增长。最后,我们表明,为了最低限度福利的目的,对于较弱的遗憾概念,人们可以将遗憾提高到$ o(h)$。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
零和游戏中的理想策略不仅应授予玩家的平均奖励,不少于NASH均衡的价值,而且还应在次优时利用(自适应)对手。尽管马尔可夫游戏中的大多数现有作品都专注于以前的目标,但我们是否可以同时实现这两个目标仍然开放。为了解决这个问题,这项工作在马尔可夫游戏中与对抗对手进行了无重组学习,当时与事后最佳的固定政策竞争时。沿着这个方向,我们提出了一组新的正面和负面结果:当每个情节结束时对手的政策被揭示时,我们提出了实现$ \ sqrt {k} $的新的有效算法 - 遗憾的是(遗憾的是) 1)基线政策类别很小或(2)对手的政策类别很小。当两种条件不正确时,这与指数下限相辅相成。当未揭示对手的政策时,即使在最有利的情况下,当两者都是正确的情况下,我们也会证明统计硬度结果。我们的硬度结果比仅涉及计算硬度或需要进一步限制算法的现有硬度结果要强得多。
translated by 谷歌翻译
强化学习理论集中在两个基本问题上:实现低遗憾,并确定$ \ epsilon $ - 最佳政策。虽然简单的减少允许人们应用低温算法来获得$ \ epsilon $ - 最佳政策并达到最坏的最佳速率,但尚不清楚低regret算法是否可以获得实例 - 最佳率的策略识别率。我们表明这是不可能的 - 在遗憾和确定$ \ epsilon $ - 最佳政策之间以最佳的利率确定了基本的权衡。由于我们的负面发现,我们提出了针对PAC表格增强学习实例依赖性样本复杂性的新量度,该方法明确说明了基础MDP中可达到的国家访问分布。然后,我们提出和分析一种基于计划的新型算法,该算法达到了这种样本的复杂性 - 产生的复杂性会随着次要差距和状态的“可达到性”而缩放。我们显示我们的算法几乎是最小的最佳选择,并且在一些示例中,我们实例依赖性样品复杂性比最差案例界限可显着改善。
translated by 谷歌翻译
我们研究了基于模型的未识别的强化学习,用于部分可观察到的马尔可夫决策过程(POMDPS)。我们认为的Oracle是POMDP的最佳政策,其在无限视野的平均奖励方面具有已知环境。我们为此问题提出了一种学习算法,基于隐藏的马尔可夫模型的光谱方法估计,POMDPS中的信念错误控制以及在线学习的上等信心结合方法。我们为提出的学习算法建立了$ o(t^{2/3} \ sqrt {\ log t})$的后悔界限,其中$ t $是学习范围。据我们所知,这是第一种算法,这是对我们学习普通POMDP的甲骨文的统一性后悔。
translated by 谷歌翻译
最近有兴趣了解地平线依赖于加固学习(RL)的样本复杂性。值得注意的是,对于具有Horizo​​ n长度$ H $的RL环境,之前的工作表明,使用$ \ mathrm {polylog}(h)有可能学习$ o(1)$ - 最佳策略的可能大致正确(pac)算法$当州和行动的数量固定时的环境交互剧集。它尚不清楚$ \ mathrm {polylog}(h)$依赖性是必要的。在这项工作中,我们通过开发一种算法来解决这个问题,该算法在仅使用ONTO(1)美元的环境交互的同时实现相同的PAC保证,完全解决RL中样本复杂性的地平线依赖性。我们通过(i)在贴现和有限地平线马尔可夫决策过程(MDP)和(ii)在MDP中的新型扰动分析中建立价值函数之间的联系。我们相信我们的新技术具有独立兴趣,可在RL中应用相关问题。
translated by 谷歌翻译
This work considers the sample complexity of obtaining an $\varepsilon$-optimal policy in an average reward Markov Decision Process (AMDP), given access to a generative model (simulator). When the ground-truth MDP is weakly communicating, we prove an upper bound of $\widetilde O(H \varepsilon^{-3} \ln \frac{1}{\delta})$ samples per state-action pair, where $H := sp(h^*)$ is the span of bias of any optimal policy, $\varepsilon$ is the accuracy and $\delta$ is the failure probability. This bound improves the best-known mixing-time-based approaches in [Jin & Sidford 2021], which assume the mixing-time of every deterministic policy is bounded. The core of our analysis is a proper reduction bound from AMDP problems to discounted MDP (DMDP) problems, which may be of independent interests since it allows the application of DMDP algorithms for AMDP in other settings. We complement our upper bound by proving a minimax lower bound of $\Omega(|\mathcal S| |\mathcal A| H \varepsilon^{-2} \ln \frac{1}{\delta})$ total samples, showing that a linear dependent on $H$ is necessary and that our upper bound matches the lower bound in all parameters of $(|\mathcal S|, |\mathcal A|, H, \ln \frac{1}{\delta})$ up to some logarithmic factors.
translated by 谷歌翻译
有许多可用于情节增强学习的有效算法。然而,这些算法是在假设与每个剧集相关的状态,动作和奖励的序列立即到达的假设之下,允许在与环境的各个交互之后进行策略更新。这种假设在实践中通常是不现实的,特别是在诸如医疗保健和在线推荐等领域。在本文中,我们研究了延迟反馈对近几种可释放有效算法的影响,以便在情节增强学习中遗工最小化。首先,一旦新的反馈可用,我们会考虑更新策略。使用此更新方案,我们表明遗憾的是涉及状态,措施,发作长度和预期延迟的数量的附加术语增加。这种添加剂术语根据乐观选择算法而变化。我们还表明,更新的更新政策可能会导致对延迟遗憾的改进依赖。
translated by 谷歌翻译
逆增强学习(IRL)是从专家演示中推断奖励功能的强大范式。许多IRL算法都需要已知的过渡模型,有时甚至是已知的专家政策,或者至少需要访问生成模型。但是,对于许多现实世界应用,这些假设太强了,在这些应用程序中,只能通过顺序相互作用访问环境。我们提出了一种新颖的IRL算法:逆增强学习(ACEIRL)的积极探索,该探索积极探索未知的环境和专家政策,以快速学习专家的奖励功能并确定良好的政策。 Aceirl使用以前的观察来构建置信区间,以捕获合理的奖励功能,并找到关注环境最有用区域的勘探政策。 Aceirl是使用样品复杂性界限的第一种活动IRL的方法,不需要环境的生成模型。在最坏情况下,Aceirl与活性IRL的样品复杂性与生成模型匹配。此外,我们建立了一个与问题相关的结合,该结合将Aceirl的样品复杂性与给定IRL问题的次级隔离间隙联系起来。我们在模拟中对Aceirl进行了经验评估,发现它的表现明显优于更幼稚的探索策略。
translated by 谷歌翻译
在强化学习中,蒙特卡洛算法通过平均偶发回报来更新Q功能。在Monte Carlo UCB(MC-UCB)算法中,在每个状态下采取的动作是最大化Q函数加上UCB勘探项的动作,该术语偏向于选择频率较低的动作的选择。尽管在为MC-UCB建立遗憾界限方面已经进行了重要的工作,但大多数工作都集中在该问题的有限培训版本上,每个情节都在不断数量的步骤后终止。对于此类有限的Horizo​​n问题,最佳策略既取决于当前状态和情节中的时间。但是,对于许多自然的情节问题,例如GO,CHESS和机器人任务等游戏,该情节是随机的,最佳政策是静止的。对于此类环境,MC-UCB中的Q功能是否会收敛到最佳Q函数,这是一个空旷的问题。我们猜想,与Q学习不同,它并不是所有MDP的收敛。尽管如此,我们表明,对于大型MDP,其中包括二十一点和确定性MDP等随机MDP,例如GO,MC-UCB中的Q功能几乎可以肯定地收敛到最佳Q函数。该结果的直接推论是,它几乎肯定会为所有有限的Horizo​​n MDP收敛。我们还提供了数值实验,为MC-UCB提供了进一步的见解。
translated by 谷歌翻译
We consider the problem of provably optimal exploration in reinforcement learning for finite horizon MDPs. We show that an optimistic modification to value iteration achieves a regret bound of O(where H is the time horizon, S the number of states, A the number of actions and T the number of time-steps. This result improves over the best previous known bound O(HS √ AT ) achieved by the UCRL2 algorithm of Jaksch et al. ( 2010). The key significance of our new results is that when T ≥ H 3 S 3 A and SA ≥ H, it leads to a regret of O( √ HSAT ) that matches the established lower bound of Ω( √ HSAT ) up to a logarithmic factor. Our analysis contains two key insights. We use careful application of concentration inequalities to the optimal value function as a whole, rather than to the transitions probabilities (to improve scaling in S), and we define Bernstein-based "exploration bonuses" that use the empirical variance of the estimated values at the next states (to improve scaling in H).
translated by 谷歌翻译