We present the UC$^3$RL algorithm for regret minimization in Stochastic Contextual MDPs (CMDPs). The algorithm operates under the minimal assumptions of realizable function class, and access to offline least squares and log loss regression oracles. Our algorithm is efficient (assuming efficient offline regression oracles) and enjoys an $\widetilde{O}(H^3 \sqrt{T |S| |A|(\log (|\mathcal{F}|/\delta) + \log (|\mathcal{P}|/ \delta) )})$ regret guarantee, with $T$ being the number of episodes, $S$ the state space, $A$ the action space, $H$ the horizon, and $\mathcal{P}$ and $\mathcal{F}$ are finite function classes, used to approximate the context-dependent dynamics and rewards, respectively. To the best of our knowledge, our algorithm is the first efficient and rate-optimal regret minimization algorithm for CMDPs, which operates under the general offline function approximation setting.
translated by 谷歌翻译
我们使用访问离线最小二乘回归甲骨文的访问权限,在最低可及性假设下为随机上下文MDP提供了遗憾的最小化算法。我们分析了三个不同的设置:在该动力学的位置,动力学是未知的,但独立于上下文和最具挑战性的设置,而动力学是未知和上下文依赖性的。对于后者,我们的算法获得$ \ tilde {o} \ left(\ max \ {h,{1}/{p_ {min}}} \} \} t \ log(\ max \ {| \ mathcal {f} |,| \ mathcal {p} | \}/\ delta)} \ right)$ hearse bunder bund bund bund bund bund bund bund bunging bund bunger,probinality $ 1- \ delta $,其中$ \ mathcal { P} $和$ \ Mathcal {f} $是用于分别近似动态和奖励的有限且可实现的函数类,$ p_ {min} $是最小可及性参数,$ s $是一组状态,$ a $ a $一组动作,$ h $ the Horizo​​n和$ t $情节数。据我们所知,我们的方法是使用一般函数近似的上下文MDP的第一种乐观方法(即,在没有其他有关功能类别的知识的情况下,例如线性等)。此外,我们还提供$ \ omega的下限即使在已知的动态情况下,也会产生预期的遗憾。
translated by 谷歌翻译
We study learning contextual MDPs using a function approximation for both the rewards and the dynamics. We consider both the case that the dynamics dependent or independent of the context. For both models we derive polynomial sample and time complexity (assuming an efficient ERM oracle). Our methodology gives a general reduction from learning contextual MDP to supervised learning.
translated by 谷歌翻译
Modern Reinforcement Learning (RL) is commonly applied to practical problems with an enormous number of states, where function approximation must be deployed to approximate either the value function or the policy. The introduction of function approximation raises a fundamental set of challenges involving computational and statistical efficiency, especially given the need to manage the exploration/exploitation tradeoff. As a result, a core RL question remains open: how can we design provably efficient RL algorithms that incorporate function approximation? This question persists even in a basic setting with linear dynamics and linear rewards, for which only linear function approximation is needed.This paper presents the first provable RL algorithm with both polynomial runtime and polynomial sample complexity in this linear setting, without requiring a "simulator" or additional assumptions. Concretely, we prove that an optimistic modification of Least-Squares Value Iteration (LSVI)-a classical algorithm frequently studied in the linear setting-achieves O( √ d 3 H 3 T ) regret, where d is the ambient dimension of feature space, H is the length of each episode, and T is the total number of steps. Importantly, such regret is independent of the number of states and actions.
translated by 谷歌翻译
We study time-inhomogeneous episodic reinforcement learning (RL) under general function approximation and sparse rewards. We design a new algorithm, Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and bound its regret assuming completeness and bounded Eluder dimension for the regression function class. As a special case, VO$Q$L achieves $\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under ($d$-dimensional) linear function approximation, which is asymptotically optimal. Our algorithm incorporates weighted regression-based upper and lower bounds on the optimal value function to obtain this improved regret. The algorithm is computationally efficient given a regression oracle over the function class, making this the first computationally tractable and statistically optimal approach for linear MDPs.
translated by 谷歌翻译
无奖励强化学习(RL)考虑了代理在探索过程中无法访问奖励功能的设置,但必须提出仅在探索后才揭示的任意奖励功能的近乎最佳的政策。在表格环境中,众所周知,这是一个比奖励意识(PAC)RL(代理在探索过程中访问奖励功能)更困难的问题$ | \ Mathcal {s} | $,状态空间的大小。我们表明,在线性MDP的设置中,这种分离不存在。我们首先在$ d $二维线性MDP中开发了一种计算高效算法,其样品复杂度比例为$ \ widetilde {\ Mathcal {o}}(d^2 H^5/\ epsilon^2)$ 。然后,我们显示出$ \ omega(d^2 h^2/\ epsilon^2)$的匹配尺寸依赖性的下限,该限制为奖励感知的RL设置。据我们所知,我们的方法是第一个在线性MDP中实现最佳$ d $依赖性的计算有效算法,即使在单次奖励PAC设置中也是如此。我们的算法取决于一种新的程序,该过程有效地穿越了线性MDP,在任何给定的``特征方向''中收集样品,并在最大状态访问概率(线性MDP等效)中享受最佳缩放样品复杂性。我们表明,该探索过程也可以应用于解决线性MDP中````良好条件''''协变量的问题。
translated by 谷歌翻译
大部分强化学习理论都建立在计算上难以实施的甲板上。专门用于在部分可观察到的马尔可夫决策过程(POMDP)中学习近乎最佳的政策,现有算法要么需要对模型动态(例如确定性过渡)做出强有力的假设,要么假设访问甲骨文作为解决艰难的计划或估算问题的访问子例程。在这项工作中,我们在合理的假设下开发了第一个用于POMDP的无Oracle学习算法。具体而言,我们给出了一种用于在“可观察” pomdps中学习的准化性时间端到端算法,其中可观察性是一个假设,即对国家而言,分离良好的分布诱导了分离良好的分布分布而不是观察。我们的技术规定了在不确定性下使用乐观原则来促进探索的更传统的方法,而是在构建策略涵盖的情况下提供了一种新颖的barycentric跨度应用。
translated by 谷歌翻译
Epsilon-Greedy,SoftMax或Gaussian噪声等近视探索政策在某些强化学习任务中无法有效探索,但是在许多其他方面,它们的表现都很好。实际上,实际上,由于简单性,它们通常被选为最佳选择。但是,对于哪些任务执行此类政策成功?我们可以为他们的有利表现提供理论保证吗?尽管这些政策具有显着的实际重要性,但这些关键问题几乎没有得到研究。本文介绍了对此类政策的理论分析,并为通过近视探索提供了对增强学习的首次遗憾和样本复杂性。我们的结果适用于具有有限的Bellman Eluder维度的情节MDP中的基于价值功能的算法。我们提出了一种新的复杂度度量,称为近视探索差距,用Alpha表示,该差距捕获了MDP的结构属性,勘探策略和给定的值函数类别。我们表明,近视探索的样品复杂性与该数量的倒数1 / alpha^2二次地量表。我们通过具体的例子进一步证明,由于相应的动态和奖励结构,在近视探索成功的几项任务中,近视探索差距确实是有利的。
translated by 谷歌翻译
我们研究了受限的强化学习问题,其中代理的目的是最大程度地提高预期的累积奖励,从而受到对实用程序函数的预期总价值的约束。与现有的基于模型的方法或无模型方法伴随着“模拟器”,我们旨在开发第一个无模型的无模拟算法,即使在大规模系统中,也能够实现sublinear遗憾和透明度的约束侵犯。为此,我们考虑具有线性函数近似的情节约束决策过程,其中过渡动力学和奖励函数可以表示为某些已知功能映射的线性函数。我们表明$ \ tilde {\ mathcal {o}}(\ sqrt {d^3h^3t})$遗憾和$ \ tilde {\ tillcal {\ mathcal {o}}(\ sqrt {d^3h^3ht})$约束$约束$约束可以实现违规范围,其中$ d $是功能映射的尺寸,$ h $是情节的长度,而$ t $是总数的总数。我们的界限是在没有明确估计未知过渡模型或需要模拟器的情况下达到的,并且仅通过特征映射的维度依赖于状态空间。因此,即使国家的数量进入无穷大,我们的界限也会存在。我们的主要结果是通过标准LSVI-UCB算法的新型适应来实现的。特别是,我们首先将原始二次优化引入LSVI-UCB算法中,以在遗憾和违反约束之间取得平衡。更重要的是,我们使用软马克斯政策取代了LSVI-UCB中的状态行动功能的标准贪婪选择。事实证明,这对于通过其近似平滑度的权衡来确定受约束案例的统一浓度是关键。我们还表明,一个人可以达到均匀的约束违规行为,同时仍然保持相同的订单相对于$ t $。
translated by 谷歌翻译
我们研究了随机的最短路径(SSP)问题,其中代理商必须以最短的预计成本达到目标状态。在问题的学习制定中,代理商没有关于模型的成本和动态的知识。她反复与k $剧集的型号交互,并且必须尽量减少她的遗憾。在这项工作中,我们表明这个设置的Minimax遗憾是$ \ widetilde o(\ sqrt {(b_ \ star ^ 2 + b_ \ star)| s | a | a | k})$ why $ b_ \ star $ a符合来自任何州的最佳政策的预期成本,$ S $是状态空间,$ a $是行动空间。此相匹配的$ \欧米茄(\ SQRT {B_ \星^ 2 | S | |甲| K})$下界Rosenberg等人的。 [2020]对于$ b_ \ star \ ge 1 $,并改善了他们的遗憾,以\ sqrt {| s |} $ \ you的遗憾。对于$ b_ \ star <1 $我们证明$ \ omega的匹配下限(\ sqrt {b_ \ star | s | a | a | k})$。我们的算法基于SSP的新颖减少到有限地平线MDP。为此,我们为有限地域设置提供了一种算法,其前期遗憾遗憾地取决于最佳政策的预期成本,并且仅对地平线上的对数。
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
我们研究了基于模型的无奖励加强学习,具有ePiSodic Markov决策过程的线性函数近似(MDP)。在此设置中,代理在两个阶段工作。在勘探阶段,代理商与环境相互作用并在没有奖励的情况下收集样品。在规划阶段,代理商给出了特定的奖励功能,并使用从勘探阶段收集的样品来学习良好的政策。我们提出了一种新的可直接有效的算法,称为UCRL-RFE在线性混合MDP假设,其中MDP的转换概率内核可以通过线性函数参数化,在状态,动作和下一个状态的三联体上定义的某些特征映射上参数化。我们展示了获得$ \ epsilon $-Optimal策略进行任意奖励函数,Ucrl-RFE需要以大多数$ \ tilde {\ mathcal {o}}来进行采样(h ^ 5d ^ 2 \ epsilon ^ { - 2})勘探阶段期间的$派对。在这里,$ H $是集的长度,$ d $是特征映射的尺寸。我们还使用Bernstein型奖金提出了一种UCRL-RFE的变种,并表明它需要在大多数$ \ TINDE {\ MATHCAL {o}}(H ^ 4D(H + D)\ epsilon ^ { - 2})进行样本$达到$ \ epsilon $ -optimal政策。通过构建特殊类的线性混合MDPS,我们还证明了对于任何无奖励算法,它需要至少为$ \ TINDE \ OMEGA(H ^ 2d \ epsilon ^ { - 2})$剧集来获取$ \ epsilon $ -optimal政策。我们的上限与依赖于$ \ epsilon $的依赖性和$ d $ if $ h \ ge d $。
translated by 谷歌翻译
我们考虑了有多个具有不同奖励功能的利益相关者的情节强化学习问题。我们的目标是输出有关不同奖励功能在社会上公平的政策。先前的工作提出了不同的目标,即公平政策必须优化,包括最低福利和广义的基尼福利。我们首先对问题进行公理视图,并提出四个公理,任何这样的公平目标都必须满足。我们表明,纳什社会福利是一个独特的目标,它独特地满足了所有四个目标,而先前的目标无法满足所有四个公理。然后,我们考虑了基础模型,即马尔可夫决策过程未知的问题的学习版本。我们考虑到最大程度地降低对公平政策最大化的遗憾的问题,从而最大化三个不同的公平目标 - 最低限度的福利,广义基尼福利和纳什社会福利。基于乐观的计划,我们提出了一种通用的学习算法,并在三种不同的政策方面得出了遗憾。为了纳什社会福利的目的,我们还遗憾地得出了一个遗憾的遗憾,它以$ n $(代理的数量)成倍增长。最后,我们表明,为了最低限度福利的目的,对于较弱的遗憾概念,人们可以将遗憾提高到$ o(h)$。
translated by 谷歌翻译
获取一阶遗憾界限 - 遗憾的界限不是作为最坏情况,但有一些衡量给定实例的最佳政策的性能 - 是连续决策的核心问题。虽然这种界限存在于许多设置中,但它们在具有大状态空间的钢筋学习中被证明是难以捉摸的。在这项工作中,我们解决了这个差距,并表明可以将遗憾的缩放作为$ \ mathcal {o}(\ sqrt {v_1 ^ \ star})$中的钢筋学习,即用大状态空间,即线性MDP设置。这里$ v_1 ^ \ star $是最佳政策的价值,$ k $是剧集的数量。我们证明基于最小二乘估计的现有技术不足以获得该结果,而是基于强大的Catoni平均估计器制定一种新的稳健自归一化浓度,其可能具有独立兴趣。
translated by 谷歌翻译
强化学习算法的实用性由于相对于问题大小的规模差而受到限制,因为学习$ \ epsilon $ -optimal策略的样本复杂性为$ \ tilde {\ omega} \ left(| s | s || a || a || a || a | h^3 / \ eps^2 \ right)$在MDP的最坏情况下,带有状态空间$ S $,ACTION SPACE $ A $和HORIZON $ H $。我们考虑一类显示出低级结构的MDP,其中潜在特征未知。我们认为,价值迭代和低级别矩阵估计的自然组合导致估计误差在地平线上呈指数增长。然后,我们提供了一种新算法以及统计保证,即有效利用了对生成模型的访问,实现了$ \ tilde {o} \ left的样本复杂度(d^5(d^5(| s |+| a |)\),我们有效利用低级结构。对于等级$ d $设置的Mathrm {Poly}(h)/\ EPS^2 \ right)$,相对于$ | s |,| a | $和$ \ eps $的缩放,这是最小值的最佳。与线性和低级别MDP的文献相反,我们不需要已知的功能映射,我们的算法在计算上很简单,并且我们的结果长期存在。我们的结果提供了有关MDP对过渡内核与最佳动作值函数所需的最小低级结构假设的见解。
translated by 谷歌翻译
尽管在理解增强学习的最小样本复杂性(RL)(在“最坏情况”的实例上学习的复杂性)方面已经取得了很多进展,但这种复杂性的衡量标准通常不会捕捉到真正的学习困难。在实践中,在“简单”的情况下,我们可能希望获得比最糟糕的实例可以实现的要好得多。在这项工作中,我们试图理解在具有线性函数近似的RL设置中学习近乎最佳策略(PAC RL)的“实例依赖性”复杂性。我们提出了一种算法,\ textsc {pedel},该算法实现了依赖于实例的复杂性的量度,这是RL中的第一个具有功能近似设置,从而捕获了每个特定问题实例的学习难度。通过一个明确的示例,我们表明\ textsc {pedel}可以在低重晶,最小值 - 最佳算法上获得可证明的收益,并且这种算法无法达到实例 - 最佳速率。我们的方法取决于基于设计的新型实验程序,该程序将勘探预算重点放在与学习近乎最佳政策最相关的“方向”上,并且可能具有独立的兴趣。
translated by 谷歌翻译
我们研究了线性函数近似的强化学习(RL)。此问题的现有算法仅具有高概率遗憾和/或可能大致正确(PAC)样本复杂性保证,这不能保证对最佳政策的趋同。在本文中,为了克服现有算法的限制,我们提出了一种新的算法,称为长笛,它享有统一-PAC收敛到具有高概率的最佳政策。统一-PAC保证是文献中强化学习的最强烈保证,它可以直接意味着PAC和高概率遗憾,使我们的算法优于具有线性函数近似的所有现有算法。在我们的算法的核心,是一种新颖的最小值函数估计器和多级别分区方案,以从历史观察中选择训练样本。这两种技术都是新的和独立的兴趣。
translated by 谷歌翻译
从最小值和实例依赖性视图中,已经对乐观算法进行了广泛的研究,以在情节表格MDP中进行遗憾的最小化。但是,对于PAC RL问题,目标是确定具有很高可能性的近乎最佳策略,对它们的实例依赖性样本复杂性知之甚少。 Wagenmaker等人的负面结果。 (2021)表明,乐观的抽样规则不能用于达到(仍然难以捉摸的)最佳实例依赖性样本复杂性。在正面,我们为PAC RL的乐观算法提供了第一个依赖于实例依赖性的结合,BPI-UCRL仅可用的最小值保证(Kaufmann等,2021)。尽管我们的界限具有一些最小的访问概率,但与先前工作中出现的价值差距相比,它的次要差距的精致概念。此外,在具有确定性过渡的MDP中,我们表明BPI-UCRL实际上是近乎最佳的。从技术方面来说,由于独立兴趣的新“目标技巧”,我们的分析非常简单。我们用新颖的硬度结果补充了这些发现,解释了为什么与Minimax政权不同,为什么PAC RL的实例依赖性复杂性与遗憾最小化的复杂性不易与遗憾最小化相关。
translated by 谷歌翻译
我们在非静止线性(AKA低级别)马尔可夫决策过程(MDP)中研究了集中加强学习,即奖励和转换内核都是关于给定特征映射的线性,并且被允许缓慢或突然演变时间。对于此问题设置,我们提出了一种基于加权最小二乘值的乐观模型算法的Opt-WLSVI,其使用指数权重来平滑地忘记过去远远的数据。我们表明我们的算法在每次竞争最佳政策时,实现了由$ \ widetilde {\ mathcal {o}}的上部界限的遗憾(d ^ {5/4} h ^ 2 \ delta ^ {1 / 4} k ^ {3/4})$何地在$ d $是特征空间的尺寸,$ h $是规划地平线,$ k $是剧集的数量和$ \ delta $是一个合适的衡量标准MDP的非固定性。此外,我们指出了在忘记以前作品的非静止线性匪徒环境中忘记策略的技术差距,并提出了修复其遗憾分析。
translated by 谷歌翻译
我们研究了一种强化学习理论(RL),其中学习者在情节结束时仅收到一次二进制反馈。尽管这是理论上的极端测试案例,但它也可以说是实际应用程序的代表性,而不是在RL实践中,学习者在每个时间步骤中都会收到反馈。的确,在许多实际应用的应用程序中,例如自动驾驶汽车和机器人技术,更容易评估学习者的完整轨迹要么是“好”还是“坏”,但是更难在每个方面提供奖励信号步。为了证明在这种更具挑战性的环境中学习是可能的,我们研究了轨迹标签由未知参数模型生成的情况,并提供了一种统计和计算上有效的算法,从而实现了sublinear遗憾。
translated by 谷歌翻译