我们考虑在马尔可夫决策过程中的强化学习(RL),其中代理人反复交互与由受控马尔可夫进程建模的环境进行交互。在每次步骤$ $ $时,它赢得了奖励,并招收了由$ M $成本组成的成本矢量。我们设计学习算法,最大限度地提高$ T $时间步长的时间范围内获得的累积奖励,同时确保$ M $成本支出的平均值由代理指定的阈值界限为$ C ^ {UB} _I ,i = 1,2,\ ldots,m $。关于累积成本支出的审议从现有文献中离开,因为代理商此外需要以在线方式平衡成本费用,同时执行通常遇到的RL任务中的勘探开发权衡。为了测量满足平均成本约束的加强学习算法的性能,我们定义了由其奖励后悔组成的$ M + 1 $维度遗憾的载体,而M $费用遗憾。奖励后悔在累计奖励中衡量次级最优性,而成本遗憾的奖励奖励奖励是其$ I $ -Th累计成本费用与预期成本支出之间的差异,而预期的成本支出$ TC ^ {UB} _i $。我们证明,通过高概率,UCRL-CMDP的遗憾矢量是高度限制的(S \ SQRT {AT ^ {1.5} \ log(t)\右)$,其中$ s $状态的数量,$ a $是行动的数量,而$ t $是时间范围。我们进一步展示了如何减少预期奖金的所需子集的遗憾,以牺牲奖励遗憾和剩余成本的牺牲品为代价。据我们所知,我们的是唯一考虑在平均成本限制下的非焦化RL的工作,并且可以根据代理人对其成本遗憾的要求进行〜\ excph {调整后悔向量}的算法。
translated by 谷歌翻译
我们考虑了马尔可夫决策过程(CMDP)的问题,其中代理与Markov Unichain决策过程进行交互。在每次互动中,代理都会获得奖励。此外,还有$ K $成本功能。该代理商的目标是最大程度地提高长期平均奖励,同时使$ k $的长期平均成本低于一定阈值。在本文中,我们提出了CMDP-PSRL,这是一种基于后取样的算法,使用该算法,代理可以学习与CMDP相互作用的最佳策略。此外,对于具有$ s $州的MDP,$ A $ ACTICE和DIAMETER $ D $,我们证明,遵循CMDP-PSRL算法,代理商可能会束缚不累积最佳策略奖励的遗憾。 (poly(dsa)\ sqrt {t})$。此外,我们表明,任何$ k $约束的违规行为也受$ \ tilde {o}(poly(dsa)\ sqrt {t})$的限制。据我们所知,这是第一批获得$ \ tilde {o}(\ sqrt {t})$遗憾的Ergodic MDP的界限,并具有长期平均约束。
translated by 谷歌翻译
我们考虑了学习eoiSodic安全控制政策的问题,这最小化了客观函数,同时满足必要的安全约束 - 都在学习和部署期间。我们使用具有未知转换概率函数的有限范围限制的Markov决策过程(CMDP)的有限范围限制的Markov决策过程(CMDP)制定了这种安全约束的强化学习(RL)问题。在这里,我们将安全要求造型为关于在所有学习集中必须满足的预期累计成本的限制。我们提出了一种基于模型的安全RL算法,我们称之为乐观 - 悲观的安全强化学习(OPSRL)算法,并表明它实现了$ \ TINDE {\ MATHCAL {O}}(S ^ {2} \ SQRT {啊^ {7} k} /(\ bar {c} - \ bar {c} _ {b}))$累积遗憾在学习期间没有违反安全限制,其中$ S $是州的数量,$ a $动作数量,$ H $是地平线长度,$ k $是学习剧集的数量,$(\ bar {c} - \ bar {c} _ {b})$是安全差距,即,约束值与已知安全基线政策的成本之间的差异。缩放为$ \ tilde {\ mathcal {o}}(\ sqrt {k})$与学习期间可能违反约束的传统方法相同,这意味着我们的算法尽管提供了一个额外的遗憾安全保证。我们的主要思想是利用乐观的探索方法,以悲观的约束实施来学习政策。这种方法同时激励了未知国家的探索,同时对访问可能违反安全限制的国家施加罚款。我们通过对传统方法的基准问题进行评估来验证我们的算法。
translated by 谷歌翻译
在优化动态系统时,变量通常具有约束。这些问题可以建模为受约束的马尔可夫决策过程(CMDP)。本文考虑了受限制的马尔可夫决策过程(PCMDP),其中代理选择该策略以最大程度地提高有限视野中的总奖励,并在每个时期内满足约束。应用不受约束的问题并应用了基于Q的方法。我们定义了可能正确正确的PCMDP问题的概念(PAC)。事实证明,提出的算法可以实现$(\ epsilon,p)$ - PAC政策,当$ k \ geq \ omega(\ frac {i^2h^6sa \ ell} {\ ell} {\ epsilon^2})$ $ s $和$ a $分别是州和行动的数量。 $ h $是每集时代的数量。 $ i $是约束函数的数量,$ \ ell = \ log(\ frac {sat} {p})$。我们注意到,这是PCMDP的PAC分析的第一个结果,具有峰值约束,其中过渡动力学未知。我们证明了有关能量收集问题和单个机器调度问题的提议算法,该算法接近研究优化问题的理论上限。
translated by 谷歌翻译
For undiscounted reinforcement learning in Markov decision processes (MDPs) we consider the total regret of a learning algorithm with respect to an optimal policy. In order to describe the transition structure of an MDP we propose a new parameter: An MDP has diameter D if for any pair of states s, s there is a policy which moves from s to s in at most D steps (on average). We present a reinforcement learning algorithm with total regret Õ(DS √AT ) after T steps for any unknown MDP with S states, A actions per state, and diameter D. This bound holds with high probability. We also present a corresponding lower bound of Ω( √ DSAT ) on the total regret of any learning algorithm.
translated by 谷歌翻译
我们考虑了有多个具有不同奖励功能的利益相关者的情节强化学习问题。我们的目标是输出有关不同奖励功能在社会上公平的政策。先前的工作提出了不同的目标,即公平政策必须优化,包括最低福利和广义的基尼福利。我们首先对问题进行公理视图,并提出四个公理,任何这样的公平目标都必须满足。我们表明,纳什社会福利是一个独特的目标,它独特地满足了所有四个目标,而先前的目标无法满足所有四个公理。然后,我们考虑了基础模型,即马尔可夫决策过程未知的问题的学习版本。我们考虑到最大程度地降低对公平政策最大化的遗憾的问题,从而最大化三个不同的公平目标 - 最低限度的福利,广义基尼福利和纳什社会福利。基于乐观的计划,我们提出了一种通用的学习算法,并在三种不同的政策方面得出了遗憾。为了纳什社会福利的目的,我们还遗憾地得出了一个遗憾的遗憾,它以$ n $(代理的数量)成倍增长。最后,我们表明,为了最低限度福利的目的,对于较弱的遗憾概念,人们可以将遗憾提高到$ o(h)$。
translated by 谷歌翻译
强化学习被广泛用于在与环境互动时需要执行顺序决策的应用中。当决策要求包括满足一些安全限制时,问题就变得更加具有挑战性。该问题在数学上是作为约束的马尔可夫决策过程(CMDP)提出的。在文献中,可以通过无模型的方式解决各种算法来解决CMDP问题,以实现$ \ epsilon $ - 最佳的累积奖励,并使用$ \ epsilon $可行的政策。 $ \ epsilon $可行的政策意味着它遭受了违规的限制。这里的一个重要问题是,我们是否可以实现$ \ epsilon $ - 最佳的累积奖励,并违反零约束。为此,我们主张使用随机原始偶对偶方法来解决CMDP问题,并提出保守的随机原始二重算法(CSPDA),该算法(CSPDA)显示出$ \ tilde {\ tilde {\ Mathcal {o}} \ left(1 /\ epsilon^2 \ right)$样本复杂性,以实现$ \ epsilon $ - 最佳累积奖励,违反零约束。在先前的工作中,$ \ epsilon $ - 最佳策略的最佳可用样本复杂性是零约束的策略是$ \ tilde {\ Mathcal {o}}} \ left(1/\ epsilon^5 \ right)$。因此,与最新技术相比,拟议的算法提供了重大改进。
translated by 谷歌翻译
我们在定期马尔可夫决策过程(MDP)中学习学习,这是一种特殊类型的非平稳MDP,在平均奖励最大化设置下,状态过渡概率和奖励功能都定期变化。我们通过使用周期指数来扩大状态空间来将问题作为固定的MDP提出,并提出了定期上限置信度结合增强学习2(PUCRL2)算法。我们表明,pucrl2的遗憾随着时期和地平线长度的次线性而变化。数值结果证明了PUCRL2的功效。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
Model-free reinforcement learning (RL) algorithms, such as Q-learning, directly parameterize and update value functions or policies without explicitly modeling the environment. They are typically simpler, more flexible to use, and thus more prevalent in modern deep RL than model-based approaches. However, empirical work has suggested that model-free algorithms may require more samples to learn [7,22]. The theoretical question of "whether model-free algorithms can be made sample efficient" is one of the most fundamental questions in RL, and remains unsolved even in the basic scenario with finitely many states and actions.We prove that, in an episodic MDP setting, Q-learning with UCB exploration achieves regret Õ( √ H 3 SAT ), where S and A are the numbers of states and actions, H is the number of steps per episode, and T is the total number of steps. This sample efficiency matches the optimal regret that can be achieved by any model-based approach, up to a single √ H factor. To the best of our knowledge, this is the first analysis in the model-free setting that establishes √ T regret without requiring access to a "simulator." * The first two authors contributed equally.
translated by 谷歌翻译
在差异隐私(DP)的约束下,我们在有限地域表格马尔可夫决策过程(MDP)中研究了遗憾最小化。这是由强化学习(RL)在现实世界顺序决策中的广泛应用程序的推动,保护用户敏感和私人信息变得最大程度。我们考虑了两种DP - 关节DP(JDP)的变体,其中集中式代理负责保护用户的敏感数据和本地DP(LDP),其中需要直接在用户端保护信息。我们首先提出了两个一般框架 - 一个用于策略优化,另一个用于迭代 - 用于设计私有,乐观的RL算法。然后,我们将这些框架实例化了合适的隐私机制来满足JDP和LDP要求,并同时获得Sublinear遗憾担保。遗憾的界限表明,在JDP下,隐私费用只是较低的秩序添加剂项,而在LDP下,对于更强的隐私保护,遭受的成本是乘法的。最后,通过统一的分析获得了遗憾范围,我们相信,我们相信,可以超出表格MDP。
translated by 谷歌翻译
我们研究了受限的强化学习问题,其中代理的目的是最大程度地提高预期的累积奖励,从而受到对实用程序函数的预期总价值的约束。与现有的基于模型的方法或无模型方法伴随着“模拟器”,我们旨在开发第一个无模型的无模拟算法,即使在大规模系统中,也能够实现sublinear遗憾和透明度的约束侵犯。为此,我们考虑具有线性函数近似的情节约束决策过程,其中过渡动力学和奖励函数可以表示为某些已知功能映射的线性函数。我们表明$ \ tilde {\ mathcal {o}}(\ sqrt {d^3h^3t})$遗憾和$ \ tilde {\ tillcal {\ mathcal {o}}(\ sqrt {d^3h^3ht})$约束$约束$约束可以实现违规范围,其中$ d $是功能映射的尺寸,$ h $是情节的长度,而$ t $是总数的总数。我们的界限是在没有明确估计未知过渡模型或需要模拟器的情况下达到的,并且仅通过特征映射的维度依赖于状态空间。因此,即使国家的数量进入无穷大,我们的界限也会存在。我们的主要结果是通过标准LSVI-UCB算法的新型适应来实现的。特别是,我们首先将原始二次优化引入LSVI-UCB算法中,以在遗憾和违反约束之间取得平衡。更重要的是,我们使用软马克斯政策取代了LSVI-UCB中的状态行动功能的标准贪婪选择。事实证明,这对于通过其近似平滑度的权衡来确定受约束案例的统一浓度是关键。我们还表明,一个人可以达到均匀的约束违规行为,同时仍然保持相同的订单相对于$ t $。
translated by 谷歌翻译
我们研究了在约束强化学习中有效探索的后验抽样方法。或者,对于现有算法,我们提出了两种简单的算法,这些算法在统计上更有效,更简单地实现和计算便宜。第一种算法基于CMDP的线性公式,第二算法利用CMDP的鞍点公式。我们的经验结果表明,尽管具有简单性,但后取样可实现最先进的表现,在某些情况下,采样明显优于乐观算法。
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
我们提出了对基于模型的RL问题的交织勘探和开发时期的探索和剥削(DSEE)算法的确定性测序,旨在同时学习系统模型,即马尔可夫决策过程(MDP)以及相关的最佳政策。在探索过程中,DSEE探索环境并更新预期奖励和过渡概率的估计值。在开发过程中,使用系统动力学的最新估计值用于获得具有很高概率的强大策略。我们设计了探索和剥削时期的长度,以使累积遗憾成为时间的亚线性功能。我们还讨论了一种使用多跳跃MDP和大都市杂货算法的有效探索方法,以均匀地对每个州行动对采样,概率很高。
translated by 谷歌翻译
In reinforcement learning the Q-values summarize the expected future rewards that the agent will attain. However, they cannot capture the epistemic uncertainty about those rewards. In this work we derive a new Bellman operator with associated fixed point we call the `knowledge values'. These K-values compress both the expected future rewards and the epistemic uncertainty into a single value, so that high uncertainty, high reward, or both, can yield high K-values. The key principle is to endow the agent with a risk-seeking utility function that is carefully tuned to balance exploration and exploitation. When the agent follows a Boltzmann policy over the K-values it yields a Bayes regret bound of $\tilde O(L \sqrt{S A T})$, where $L$ is the time horizon, $S$ is the total number of states, $A$ is the number of actions, and $T$ is the number of elapsed timesteps. We show deep connections of this approach to the soft-max and maximum-entropy strands of research in reinforcement learning.
translated by 谷歌翻译
我们在适应性约束下研究了强化学习(RL),线性函数近似。我们考虑两个流行的有限适应性模型:批量学习模型和稀有策略交换机模型,并提出了两个有效的在线线性马尔可夫决策过程的在线RL算法,其中转换概率和奖励函数可以表示为一些线性函数已知的特征映射。具体而言,对于批量学习模型,我们提出的LSVI-UCB-批处理算法实现了$ \ tilde o(\ sqrt {d ^ 3h ^ 3t} + dht / b)$后悔,$ d $是尺寸特征映射,$ H $是剧集长度,$ t $是交互数量,$ b $是批次数。我们的结果表明,只使用$ \ sqrt {t / dh} $批量来获得$ \ tilde o(\ sqrt {d ^ 3h ^ 3t})$后悔。对于稀有策略开关模型,我们提出的LSVI-UCB-RARESWICH算法享有$ \ TINDE O(\ SQRT {D ^ 3h ^ 3t [1 + T /(DH)] ^ {dh / b})$遗憾,这意味着$ dh \ log t $策略交换机足以获得$ \ tilde o(\ sqrt {d ^ 3h ^ 3t})$后悔。我们的算法达到与LSVI-UCB算法相同的遗憾(Jin等,2019),但具有大量较小的适应性。我们还为批量学习模式建立了较低的界限,这表明对我们遗憾的依赖于您的遗憾界限是紧张的。
translated by 谷歌翻译
有许多可用于情节增强学习的有效算法。然而,这些算法是在假设与每个剧集相关的状态,动作和奖励的序列立即到达的假设之下,允许在与环境的各个交互之后进行策略更新。这种假设在实践中通常是不现实的,特别是在诸如医疗保健和在线推荐等领域。在本文中,我们研究了延迟反馈对近几种可释放有效算法的影响,以便在情节增强学习中遗工最小化。首先,一旦新的反馈可用,我们会考虑更新策略。使用此更新方案,我们表明遗憾的是涉及状态,措施,发作长度和预期延迟的数量的附加术语增加。这种添加剂术语根据乐观选择算法而变化。我们还表明,更新的更新政策可能会导致对延迟遗憾的改进依赖。
translated by 谷歌翻译
我们考虑一个不当的强化学习设置,在该设置中,为学习者提供了$ M $的基本控制器,以进行未知的马尔可夫决策过程,并希望最佳地结合它们,以生产一个可能胜过每个基本基础的控制器。这对于在不匹配或模拟环境中学习的跨控制器进行调整可能很有用,可以为给定的目标环境获得良好的控制器,而试验相对较少。在此方面,我们提出了两种算法:(1)一种基于政策梯度的方法; (2)可以根据可用信息在基于简单的参与者(AC)方案和天然参与者(NAC)方案之间切换的算法。两种算法都在给定控制器的一类不当混合物上运行。对于第一种情况,我们得出融合率保证,假设访问梯度甲骨文。对于基于AC的方法,我们提供了基本AC案例中的固定点的收敛速率保证,并在NAC情况下为全球最优值提供了保证。 (i)稳定卡特柱的标准控制理论基准的数值结果; (ii)一个受约束的排队任务表明,即使可以使用的基本策略不稳定,我们的不当政策优化算法也可以稳定系统。
translated by 谷歌翻译