我们研究了具有线性函数近似增强学习中的随机最短路径(SSP)问题,其中过渡内核表示为未知模型的线性混合物。我们将此类别的SSP问题称为线性混合物SSP。我们提出了一种具有Hoeffding-type置信度的新型算法,用于学习线性混合物SSP,可以获得$ \ tilde {\ Mathcal {o}}}}(d B _ {\ star}^{1.5} \ sqrt {k/c_ {k/c_ {k/c_ {k/c_ { \ min}})$遗憾。这里$ k $是情节的数量,$ d $是混合模型中功能映射的维度,$ b _ {\ star} $限制了最佳策略的预期累积成本,$ c _ {\ min}>> 0 $是成本函数的下限。当$ c _ {\ min} = 0 $和$ \ tilde {\ mathcal {o}}}(k^{2/3})$遗憾时,我们的算法也适用于情况。据我们所知,这是第一个具有sublrinear遗憾保证线性混合物SSP的算法。此外,我们设计了精致的伯恩斯坦型信心集并提出了改进的算法,该算法可实现$ \ tilde {\ Mathcal {o}}}(d b _ {\ star} \ sqrt {k/c/c/c {k/c _ {\ min}}) $遗憾。为了补充遗憾的上限,我们还证明了$ \ omega(db _ {\ star} \ sqrt {k})$的下限。因此,我们的改进算法将下限匹配到$ 1/\ sqrt {c _ {\ min}} $ factor和poly-logarithmic因素,从而实现了近乎最佳的遗憾保证。
translated by 谷歌翻译
我们研究了随机的最短路径(SSP)问题,其中代理商必须以最短的预计成本达到目标状态。在问题的学习制定中,代理商没有关于模型的成本和动态的知识。她反复与k $剧集的型号交互,并且必须尽量减少她的遗憾。在这项工作中,我们表明这个设置的Minimax遗憾是$ \ widetilde o(\ sqrt {(b_ \ star ^ 2 + b_ \ star)| s | a | a | k})$ why $ b_ \ star $ a符合来自任何州的最佳政策的预期成本,$ S $是状态空间,$ a $是行动空间。此相匹配的$ \欧米茄(\ SQRT {B_ \星^ 2 | S | |甲| K})$下界Rosenberg等人的。 [2020]对于$ b_ \ star \ ge 1 $,并改善了他们的遗憾,以\ sqrt {| s |} $ \ you的遗憾。对于$ b_ \ star <1 $我们证明$ \ omega的匹配下限(\ sqrt {b_ \ star | s | a | a | k})$。我们的算法基于SSP的新颖减少到有限地平线MDP。为此,我们为有限地域设置提供了一种算法,其前期遗憾遗憾地取决于最佳政策的预期成本,并且仅对地平线上的对数。
translated by 谷歌翻译
We study reinforcement learning (RL) with linear function approximation. For episodic time-inhomogeneous linear Markov decision processes (linear MDPs) whose transition dynamic can be parameterized as a linear function of a given feature mapping, we propose the first computationally efficient algorithm that achieves the nearly minimax optimal regret $\tilde O(d\sqrt{H^3K})$, where $d$ is the dimension of the feature mapping, $H$ is the planning horizon, and $K$ is the number of episodes. Our algorithm is based on a weighted linear regression scheme with a carefully designed weight, which depends on a new variance estimator that (1) directly estimates the variance of the \emph{optimal} value function, (2) monotonically decreases with respect to the number of episodes to ensure a better estimation accuracy, and (3) uses a rare-switching policy to update the value function estimator to control the complexity of the estimated value function class. Our work provides a complete answer to optimal RL with linear MDPs, and the developed algorithm and theoretical tools may be of independent interest.
translated by 谷歌翻译
我们研究了在随机最短路径(SSP)设置中的学习问题,其中代理试图最小化在达到目标状态之前累积的预期成本。我们设计了一种新型基于模型的算法EB-SSP,仔细地偏离了经验转变,并通过探索奖励来赋予经验成本,以诱导乐观的SSP问题,其相关价值迭代方案被保证收敛。我们证明了EB-SSP实现了Minimax后悔率$ \ tilde {o}(b _ {\ star} \ sqrt {sak})$,其中$ k $是剧集的数量,$ s $是状态的数量, $ a $是行动的数量,而B _ {\ star} $绑定了从任何状态的最佳策略的预期累积成本,从而缩小了下限的差距。有趣的是,EB-SSP在没有参数的同时获得此结果,即,它不需要任何先前的$ B _ {\ star} $的知识,也不需要$ t _ {\ star} $,它绑定了预期的时间 ​​- 任何州的最佳政策的目标。此外,我们说明了各种情况(例如,当$ t _ {\ star} $的订单准确估计可用时,遗憾地仅包含对$ t _ {\ star} $的对数依赖性,因此产生超出有限范围MDP设置的第一个(几乎)的免地相会遗憾。
translated by 谷歌翻译
我们为随机最短路径(SSP)问题引入了两个新的无悔算法,其线性MDP显着改善了唯一的现有结果(Vial等,2021)。我们的第一算法是计算上的效率,实现了遗憾的绑定$ \ wideetilde {o} \ left(\ sqrt {d ^ 3b _ {\ star} ^ 2t _ {\ star} k}右)$,其中$ d $是维度特征空间,$ B _ {\ star} $和$ t _ {\ star} $分别是预期成本的上限,分别击中最佳政策的时间,$ k $是剧集的数量。具有略微修改的相同算法也实现了对数为OR o \ lex的对数后悔(\ frac {d ^ 3b _ {\ star} ^ 4} {c _ {\ min} ^ 2 \ text {gap} _ {\ min}} \ ln ^ 5 \ frac {db _ {\ star}} {c _ {\ min}} \右)$,其中$ \ text {gap} _ {\ min} $是最小的子项目差距和$ c_ { \ min} $是所有国家动作对的最低成本。我们的结果是通过开发更简单和改进的分析(Cohen等人,2021)的有限范围的分析而具有较小的近似误差,这可能具有独立兴趣。另一方面,在全局优化问题中使用方差感知的信心集,我们的第二算法是计算效率低下的,但实现了第一个“免费”后悔绑定$ \ widetilde {o}(d ^ {3.5} b _ {\ star } \ sqrt {k})$与$ t _ {\ star} $或$ 1 / c _ {\ min} $,几乎匹配$ \ omega(db _ {\ star} \ sqrt {k})$较低(Min等,2021)的绑定。
translated by 谷歌翻译
我们在适应性约束下研究了强化学习(RL),线性函数近似。我们考虑两个流行的有限适应性模型:批量学习模型和稀有策略交换机模型,并提出了两个有效的在线线性马尔可夫决策过程的在线RL算法,其中转换概率和奖励函数可以表示为一些线性函数已知的特征映射。具体而言,对于批量学习模型,我们提出的LSVI-UCB-批处理算法实现了$ \ tilde o(\ sqrt {d ^ 3h ^ 3t} + dht / b)$后悔,$ d $是尺寸特征映射,$ H $是剧集长度,$ t $是交互数量,$ b $是批次数。我们的结果表明,只使用$ \ sqrt {t / dh} $批量来获得$ \ tilde o(\ sqrt {d ^ 3h ^ 3t})$后悔。对于稀有策略开关模型,我们提出的LSVI-UCB-RARESWICH算法享有$ \ TINDE O(\ SQRT {D ^ 3h ^ 3t [1 + T /(DH)] ^ {dh / b})$遗憾,这意味着$ dh \ log t $策略交换机足以获得$ \ tilde o(\ sqrt {d ^ 3h ^ 3t})$后悔。我们的算法达到与LSVI-UCB算法相同的遗憾(Jin等,2019),但具有大量较小的适应性。我们还为批量学习模式建立了较低的界限,这表明对我们遗憾的依赖于您的遗憾界限是紧张的。
translated by 谷歌翻译
We study time-inhomogeneous episodic reinforcement learning (RL) under general function approximation and sparse rewards. We design a new algorithm, Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and bound its regret assuming completeness and bounded Eluder dimension for the regression function class. As a special case, VO$Q$L achieves $\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under ($d$-dimensional) linear function approximation, which is asymptotically optimal. Our algorithm incorporates weighted regression-based upper and lower bounds on the optimal value function to obtain this improved regret. The algorithm is computationally efficient given a regression oracle over the function class, making this the first computationally tractable and statistically optimal approach for linear MDPs.
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
我们研究了基于模型的无奖励加强学习,具有ePiSodic Markov决策过程的线性函数近似(MDP)。在此设置中,代理在两个阶段工作。在勘探阶段,代理商与环境相互作用并在没有奖励的情况下收集样品。在规划阶段,代理商给出了特定的奖励功能,并使用从勘探阶段收集的样品来学习良好的政策。我们提出了一种新的可直接有效的算法,称为UCRL-RFE在线性混合MDP假设,其中MDP的转换概率内核可以通过线性函数参数化,在状态,动作和下一个状态的三联体上定义的某些特征映射上参数化。我们展示了获得$ \ epsilon $-Optimal策略进行任意奖励函数,Ucrl-RFE需要以大多数$ \ tilde {\ mathcal {o}}来进行采样(h ^ 5d ^ 2 \ epsilon ^ { - 2})勘探阶段期间的$派对。在这里,$ H $是集的长度,$ d $是特征映射的尺寸。我们还使用Bernstein型奖金提出了一种UCRL-RFE的变种,并表明它需要在大多数$ \ TINDE {\ MATHCAL {o}}(H ^ 4D(H + D)\ epsilon ^ { - 2})进行样本$达到$ \ epsilon $ -optimal政策。通过构建特殊类的线性混合MDPS,我们还证明了对于任何无奖励算法,它需要至少为$ \ TINDE \ OMEGA(H ^ 2d \ epsilon ^ { - 2})$剧集来获取$ \ epsilon $ -optimal政策。我们的上限与依赖于$ \ epsilon $的依赖性和$ d $ if $ h \ ge d $。
translated by 谷歌翻译
我们考虑在具有非线性函数近似的两名玩家零和马尔可夫游戏中学习NASH平衡,其中动作值函数通过繁殖内核Hilbert Space(RKHS)中的函数近似。关键挑战是如何在高维函数空间中进行探索。我们提出了一种新颖的在线学习算法,以最大程度地减少双重性差距来找到NASH平衡。我们算法的核心是基于不确定性的乐观原理得出的上和下置信度界限。我们证明,在非常温和的假设上,我们的算法能够获得$ O(\ sqrt {t})$遗憾,并在对奖励功能和马尔可夫游戏的基本动态下进行多项式计算复杂性。我们还提出了我们的算法的几个扩展,包括具有伯恩斯坦型奖励的算法,可以实现更严格的遗憾,以及用于模型错误指定的另一种算法,可以应用于神经功能近似。
translated by 谷歌翻译
我们研究了用线性函数近似的加固学习中的违规评估(OPE)问题,旨在根据行为策略收集的脱机数据来估计目标策略的价值函数。我们建议纳入价值函数的方差信息以提高ope的样本效率。更具体地说,对于时间不均匀的epiSodic线性马尔可夫决策过程(MDP),我们提出了一种算法VA-OPE,它使用价值函数的估计方差重新重量拟合Q迭代中的Bellman残差。我们表明我们的算法达到了比最着名的结果绑定的更紧密的误差。我们还提供了行为政策与目标政策之间的分布转移的细粒度。广泛的数值实验证实了我们的理论。
translated by 谷歌翻译
尽管基于模型的增强学习(RL)方法被认为是更具样本的高效,但现有算法通常依赖于复杂的规划算法与模型学习过程紧密粘合。因此,学习模型可能缺乏与更专业规划者重新使用的能力。在本文中,我们解决了这个问题,并提供了在没有奖励信号的指导的情况下有效地学习RL模型的方法。特别是,我们采取了一个插件求解器方法,我们专注于在探索阶段学习模型,并要求在学习模型上的\ emph {任何规划算法}可以给出近最佳的政策。具体而言,我们专注于线性混合MDP设置,其中概率转换矩阵是一组现有模型的(未知)凸面组合。我们表明,通过建立新的探索算法,即插即用通过\ tilde {o}来学习模型(d ^ 2h ^ 3 / epsilon ^ 2)$与环境交互,\ emph {任何} $ \ epsilon $ -optimal Planner在模型上给出$ O(\ epsilon)$ - 原始模型上的最佳政策。此示例复杂性与非插入方法的下限与下限匹配,并且是\ EMPH {统计上最佳}。我们通过利用使用伯尔斯坦不等式和指定的线性混合MDP的属性来实现仔细的最大总差异来实现这一结果。
translated by 谷歌翻译
获取一阶遗憾界限 - 遗憾的界限不是作为最坏情况,但有一些衡量给定实例的最佳政策的性能 - 是连续决策的核心问题。虽然这种界限存在于许多设置中,但它们在具有大状态空间的钢筋学习中被证明是难以捉摸的。在这项工作中,我们解决了这个差距,并表明可以将遗憾的缩放作为$ \ mathcal {o}(\ sqrt {v_1 ^ \ star})$中的钢筋学习,即用大状态空间,即线性MDP设置。这里$ v_1 ^ \ star $是最佳政策的价值,$ k $是剧集的数量。我们证明基于最小二乘估计的现有技术不足以获得该结果,而是基于强大的Catoni平均估计器制定一种新的稳健自归一化浓度,其可能具有独立兴趣。
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
我们研究了线性函数近似的强化学习(RL)。此问题的现有算法仅具有高概率遗憾和/或可能大致正确(PAC)样本复杂性保证,这不能保证对最佳政策的趋同。在本文中,为了克服现有算法的限制,我们提出了一种新的算法,称为长笛,它享有统一-PAC收敛到具有高概率的最佳政策。统一-PAC保证是文献中强化学习的最强烈保证,它可以直接意味着PAC和高概率遗憾,使我们的算法优于具有线性函数近似的所有现有算法。在我们的算法的核心,是一种新颖的最小值函数估计器和多级别分区方案,以从历史观察中选择训练样本。这两种技术都是新的和独立的兴趣。
translated by 谷歌翻译
尽管无奖励强化学习勘探阶段的主要目标(RF-RL)是减少具有最小轨迹数量的估计模型中的不确定性时间。目前尚不清楚这种安全的探索要求如何影响相应的样本复杂性,以实现所获得的计划中所需的最佳性。在这项工作中,我们首次尝试回答这个问题。特别是,我们考虑了事先知道安全基线政策的情况,并提出了一个统一的安全奖励探索(甜蜜)框架。然后,我们将甜蜜框架专门为表格和低级MDP设置,并分别开发出算法所构成的表格甜味和低级别甜味。两种算法都利用了新引入的截短值函数的凹度和连续性,并保证在探索过程中以高概率侵犯了零约束。此外,两种算法都可以在计划阶段的任何约束中找到近乎最佳的政策。值得注意的是,算法下的样本复杂性在无限制的对应物中匹配甚至超过最恒定因素的最新情况,这证明安全约束几乎不会增加RF-RL的样本复杂性。
translated by 谷歌翻译
在表格设置下,我们研究了折扣马尔可夫决策过程(MDP)的强化学习问题。我们提出了一种名为UCBVI - $ \ Gamma $的基于模型的算法,该算法基于\ emph {面对不确定原理}和伯尔斯坦型奖金的乐观。我们展示了UCBVI - $ \ Gamma $实现了一个$ \ tilde {o} \ big({\ sqrt {sat}} / {(1- \ gamma)^ {1.5}} \ big)$后悔,在哪里$ s $是州的数量,$ a $是行动的数量,$ \ gamma $是折扣因子,$ t $是步数。此外,我们构建了一类硬MDP并表明对于任何算法,预期的遗憾是至少$ \ tilde {\ omega} \ big({\ sqrt {sat}} / {(1- \ gamma)^ {1.5}} \大)$。我们的上限与对数因子的最低限度相匹配,这表明UCBVI - $ \ Gamma $几乎最小的贴现MDP。
translated by 谷歌翻译
我们在加固学习中使用汤普森采样(TS) - 样算法中的随机价值函数研究探索。这种类型的算法享有有吸引力的经验性能。我们展示当我们使用1)每一集中的单个随机种子,而2)伯尼斯坦型噪声幅度,我们获得了最坏的情况$ \ widetilde {o}左(h \ sqrt {sat} \右)$遗憾绑定了焦点时间 - 不均匀的马尔可夫决策过程,其中$ S $是国家空间的大小,$ a $的是行动空间的大小,$ h $是规划地平线,$ t $是互动的数量。这种绑定的多项式基于随机值函数的TS样算法的所有现有界限,并且首次匹配$ \ Omega \左(H \ SQRT {SAT}右)$下限到对数因子。我们的结果强调随机勘探可以近乎最佳,这是以前仅通过乐观算法实现的。为了实现所需的结果,我们开发1)新的剪辑操作,以确保持续持续的概率和悲观的概率是较低的常数,并且2)用于分析估计误差的绝对值的新递归公式。后悔。
translated by 谷歌翻译
以目标为导向的强化学习,代理商需要达到目标状态,同时将成本降至最低,在现实世界应用中受到了极大的关注。它的理论配方是随机最短路径(SSP),在在线环境中进行了深入研究。然而,当禁止使用这种在线互动并且仅提供历史数据时,它仍然被忽略了。在本文中,当状态空间和动作空间有限时,我们考虑离线随机路径问题。我们设计了基于简单的价值迭代算法,以解决离线政策评估(OPE)和离线政策学习任务。值得注意的是,我们对这些简单算法的分析产生了强大的实例依赖性边界,这可能意味着接近最佳的最佳范围最佳范围。我们希望我们的研究能够帮助阐明离线SSP问题的基本统计限制,并激发超出当前考虑范围的进一步研究。
translated by 谷歌翻译
Modern Reinforcement Learning (RL) is commonly applied to practical problems with an enormous number of states, where function approximation must be deployed to approximate either the value function or the policy. The introduction of function approximation raises a fundamental set of challenges involving computational and statistical efficiency, especially given the need to manage the exploration/exploitation tradeoff. As a result, a core RL question remains open: how can we design provably efficient RL algorithms that incorporate function approximation? This question persists even in a basic setting with linear dynamics and linear rewards, for which only linear function approximation is needed.This paper presents the first provable RL algorithm with both polynomial runtime and polynomial sample complexity in this linear setting, without requiring a "simulator" or additional assumptions. Concretely, we prove that an optimistic modification of Least-Squares Value Iteration (LSVI)-a classical algorithm frequently studied in the linear setting-achieves O( √ d 3 H 3 T ) regret, where d is the ambient dimension of feature space, H is the length of each episode, and T is the total number of steps. Importantly, such regret is independent of the number of states and actions.
translated by 谷歌翻译