我们研究了在约束强化学习中有效探索的后验抽样方法。或者,对于现有算法,我们提出了两种简单的算法,这些算法在统计上更有效,更简单地实现和计算便宜。第一种算法基于CMDP的线性公式,第二算法利用CMDP的鞍点公式。我们的经验结果表明,尽管具有简单性,但后取样可实现最先进的表现,在某些情况下,采样明显优于乐观算法。
translated by 谷歌翻译
我们考虑了学习eoiSodic安全控制政策的问题,这最小化了客观函数,同时满足必要的安全约束 - 都在学习和部署期间。我们使用具有未知转换概率函数的有限范围限制的Markov决策过程(CMDP)的有限范围限制的Markov决策过程(CMDP)制定了这种安全约束的强化学习(RL)问题。在这里,我们将安全要求造型为关于在所有学习集中必须满足的预期累计成本的限制。我们提出了一种基于模型的安全RL算法,我们称之为乐观 - 悲观的安全强化学习(OPSRL)算法,并表明它实现了$ \ TINDE {\ MATHCAL {O}}(S ^ {2} \ SQRT {啊^ {7} k} /(\ bar {c} - \ bar {c} _ {b}))$累积遗憾在学习期间没有违反安全限制,其中$ S $是州的数量,$ a $动作数量,$ H $是地平线长度,$ k $是学习剧集的数量,$(\ bar {c} - \ bar {c} _ {b})$是安全差距,即,约束值与已知安全基线政策的成本之间的差异。缩放为$ \ tilde {\ mathcal {o}}(\ sqrt {k})$与学习期间可能违反约束的传统方法相同,这意味着我们的算法尽管提供了一个额外的遗憾安全保证。我们的主要思想是利用乐观的探索方法,以悲观的约束实施来学习政策。这种方法同时激励了未知国家的探索,同时对访问可能违反安全限制的国家施加罚款。我们通过对传统方法的基准问题进行评估来验证我们的算法。
translated by 谷歌翻译
我们考虑了马尔可夫决策过程(CMDP)的问题,其中代理与Markov Unichain决策过程进行交互。在每次互动中,代理都会获得奖励。此外,还有$ K $成本功能。该代理商的目标是最大程度地提高长期平均奖励,同时使$ k $的长期平均成本低于一定阈值。在本文中,我们提出了CMDP-PSRL,这是一种基于后取样的算法,使用该算法,代理可以学习与CMDP相互作用的最佳策略。此外,对于具有$ s $州的MDP,$ A $ ACTICE和DIAMETER $ D $,我们证明,遵循CMDP-PSRL算法,代理商可能会束缚不累积最佳策略奖励的遗憾。 (poly(dsa)\ sqrt {t})$。此外,我们表明,任何$ k $约束的违规行为也受$ \ tilde {o}(poly(dsa)\ sqrt {t})$的限制。据我们所知,这是第一批获得$ \ tilde {o}(\ sqrt {t})$遗憾的Ergodic MDP的界限,并具有长期平均约束。
translated by 谷歌翻译
我们考虑在马尔可夫决策过程中的强化学习(RL),其中代理人反复交互与由受控马尔可夫进程建模的环境进行交互。在每次步骤$ $ $时,它赢得了奖励,并招收了由$ M $成本组成的成本矢量。我们设计学习算法,最大限度地提高$ T $时间步长的时间范围内获得的累积奖励,同时确保$ M $成本支出的平均值由代理指定的阈值界限为$ C ^ {UB} _I ,i = 1,2,\ ldots,m $。关于累积成本支出的审议从现有文献中离开,因为代理商此外需要以在线方式平衡成本费用,同时执行通常遇到的RL任务中的勘探开发权衡。为了测量满足平均成本约束的加强学习算法的性能,我们定义了由其奖励后悔组成的$ M + 1 $维度遗憾的载体,而M $费用遗憾。奖励后悔在累计奖励中衡量次级最优性,而成本遗憾的奖励奖励奖励是其$ I $ -Th累计成本费用与预期成本支出之间的差异,而预期的成本支出$ TC ^ {UB} _i $。我们证明,通过高概率,UCRL-CMDP的遗憾矢量是高度限制的(S \ SQRT {AT ^ {1.5} \ log(t)\右)$,其中$ s $状态的数量,$ a $是行动的数量,而$ t $是时间范围。我们进一步展示了如何减少预期奖金的所需子集的遗憾,以牺牲奖励遗憾和剩余成本的牺牲品为代价。据我们所知,我们的是唯一考虑在平均成本限制下的非焦化RL的工作,并且可以根据代理人对其成本遗憾的要求进行〜\ excph {调整后悔向量}的算法。
translated by 谷歌翻译
除了最大化奖励目标之外,现实世界中的强化学习(RL)代理商必须满足安全限制。基于模型的RL算法占据了减少不安全的现实世界行动的承诺:它们可以合成使用来自学习模型的模拟样本遵守所有约束的策略。但是,即使对于预测满足所有约束的操作,甚至可能导致真实的结构违规。我们提出了保守和自适应惩罚(CAP),一种基于模型的安全RL框架,其通过捕获模型不确定性并自适应利用它来平衡奖励和成本目标来占潜在的建模错误。首先,CAP利用基于不确定性的惩罚来膨胀预测成本。从理论上讲,我们展示了满足这种保守成本约束的政策,也可以保证在真正的环境中是可行的。我们进一步表明,这保证了在RL培训期间所有中间解决方案的安全性。此外,在使用环境中使用真正的成本反馈,帽子在培训期间自适应地调整这种惩罚。我们在基于状态和基于图像的环境中,评估了基于模型的安全RL的保守和自适应惩罚方法。我们的结果表明了样品效率的大量收益,同时产生比现有安全RL算法更少的违规行为。代码可用:https://github.com/redrew/cap
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
在优化动态系统时,变量通常具有约束。这些问题可以建模为受约束的马尔可夫决策过程(CMDP)。本文考虑了受限制的马尔可夫决策过程(PCMDP),其中代理选择该策略以最大程度地提高有限视野中的总奖励,并在每个时期内满足约束。应用不受约束的问题并应用了基于Q的方法。我们定义了可能正确正确的PCMDP问题的概念(PAC)。事实证明,提出的算法可以实现$(\ epsilon,p)$ - PAC政策,当$ k \ geq \ omega(\ frac {i^2h^6sa \ ell} {\ ell} {\ epsilon^2})$ $ s $和$ a $分别是州和行动的数量。 $ h $是每集时代的数量。 $ i $是约束函数的数量,$ \ ell = \ log(\ frac {sat} {p})$。我们注意到,这是PCMDP的PAC分析的第一个结果,具有峰值约束,其中过渡动力学未知。我们证明了有关能量收集问题和单个机器调度问题的提议算法,该算法接近研究优化问题的理论上限。
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
我们考虑了有多个具有不同奖励功能的利益相关者的情节强化学习问题。我们的目标是输出有关不同奖励功能在社会上公平的政策。先前的工作提出了不同的目标,即公平政策必须优化,包括最低福利和广义的基尼福利。我们首先对问题进行公理视图,并提出四个公理,任何这样的公平目标都必须满足。我们表明,纳什社会福利是一个独特的目标,它独特地满足了所有四个目标,而先前的目标无法满足所有四个公理。然后,我们考虑了基础模型,即马尔可夫决策过程未知的问题的学习版本。我们考虑到最大程度地降低对公平政策最大化的遗憾的问题,从而最大化三个不同的公平目标 - 最低限度的福利,广义基尼福利和纳什社会福利。基于乐观的计划,我们提出了一种通用的学习算法,并在三种不同的政策方面得出了遗憾。为了纳什社会福利的目的,我们还遗憾地得出了一个遗憾的遗憾,它以$ n $(代理的数量)成倍增长。最后,我们表明,为了最低限度福利的目的,对于较弱的遗憾概念,人们可以将遗憾提高到$ o(h)$。
translated by 谷歌翻译
强化学习被广泛用于在与环境互动时需要执行顺序决策的应用中。当决策要求包括满足一些安全限制时,问题就变得更加具有挑战性。该问题在数学上是作为约束的马尔可夫决策过程(CMDP)提出的。在文献中,可以通过无模型的方式解决各种算法来解决CMDP问题,以实现$ \ epsilon $ - 最佳的累积奖励,并使用$ \ epsilon $可行的政策。 $ \ epsilon $可行的政策意味着它遭受了违规的限制。这里的一个重要问题是,我们是否可以实现$ \ epsilon $ - 最佳的累积奖励,并违反零约束。为此,我们主张使用随机原始偶对偶方法来解决CMDP问题,并提出保守的随机原始二重算法(CSPDA),该算法(CSPDA)显示出$ \ tilde {\ tilde {\ Mathcal {o}} \ left(1 /\ epsilon^2 \ right)$样本复杂性,以实现$ \ epsilon $ - 最佳累积奖励,违反零约束。在先前的工作中,$ \ epsilon $ - 最佳策略的最佳可用样本复杂性是零约束的策略是$ \ tilde {\ Mathcal {o}}} \ left(1/\ epsilon^5 \ right)$。因此,与最新技术相比,拟议的算法提供了重大改进。
translated by 谷歌翻译
在钢筋学习(RL)中,代理必须探索最初未知的环境,以便学习期望的行为。当RL代理部署在现实世界环境中时,安全性是主要关注的。受约束的马尔可夫决策过程(CMDPS)可以提供长期的安全约束;但是,该代理人可能会违反探索其环境的制约因素。本文提出了一种称为显式探索,漏洞探索或转义($ e ^ {4} $)的基于模型的RL算法,它将显式探索或利用($ e ^ {3} $)算法扩展到强大的CMDP设置。 $ e ^ 4 $明确地分离开发,探索和逃脱CMDP,允许针对已知状态的政策改进的有针对性的政策,发现未知状态,以及安全返回到已知状态。 $ e ^ 4 $强制优化了从一组CMDP模型的最坏情况CMDP上的这些策略,该模型符合部署环境的经验观察。理论结果表明,在整个学习过程中满足安全限制的情况下,在多项式时间中找到近最优的约束政策。我们讨论了稳健约束的离线优化算法,以及如何基于经验推理和先验知识来结合未知状态过渡动态的不确定性。
translated by 谷歌翻译
We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach maintains a statistically plausible model of the environment and follows a policy that maximizes expected $\gamma$-discounted return in that model. At each time, with probability $1-\gamma$, the model is replaced by a sample from the posterior distribution over environments. For a suitable schedule of $\gamma$, we establish an $\tilde{O}(\tau S \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $\tau$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy.
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
逆增强学习(IRL)是从专家演示中推断奖励功能的强大范式。许多IRL算法都需要已知的过渡模型,有时甚至是已知的专家政策,或者至少需要访问生成模型。但是,对于许多现实世界应用,这些假设太强了,在这些应用程序中,只能通过顺序相互作用访问环境。我们提出了一种新颖的IRL算法:逆增强学习(ACEIRL)的积极探索,该探索积极探索未知的环境和专家政策,以快速学习专家的奖励功能并确定良好的政策。 Aceirl使用以前的观察来构建置信区间,以捕获合理的奖励功能,并找到关注环境最有用区域的勘探政策。 Aceirl是使用样品复杂性界限的第一种活动IRL的方法,不需要环境的生成模型。在最坏情况下,Aceirl与活性IRL的样品复杂性与生成模型匹配。此外,我们建立了一个与问题相关的结合,该结合将Aceirl的样品复杂性与给定IRL问题的次级隔离间隙联系起来。我们在模拟中对Aceirl进行了经验评估,发现它的表现明显优于更幼稚的探索策略。
translated by 谷歌翻译
In reinforcement learning the Q-values summarize the expected future rewards that the agent will attain. However, they cannot capture the epistemic uncertainty about those rewards. In this work we derive a new Bellman operator with associated fixed point we call the `knowledge values'. These K-values compress both the expected future rewards and the epistemic uncertainty into a single value, so that high uncertainty, high reward, or both, can yield high K-values. The key principle is to endow the agent with a risk-seeking utility function that is carefully tuned to balance exploration and exploitation. When the agent follows a Boltzmann policy over the K-values it yields a Bayes regret bound of $\tilde O(L \sqrt{S A T})$, where $L$ is the time horizon, $S$ is the total number of states, $A$ is the number of actions, and $T$ is the number of elapsed timesteps. We show deep connections of this approach to the soft-max and maximum-entropy strands of research in reinforcement learning.
translated by 谷歌翻译
Restless multi-armed bandits (RMABs) extend multi-armed bandits to allow for stateful arms, where the state of each arm evolves restlessly with different transitions depending on whether that arm is pulled. Solving RMABs requires information on transition dynamics, which are often unknown upfront. To plan in RMAB settings with unknown transitions, we propose the first online learning algorithm based on the Whittle index policy, using an upper confidence bound (UCB) approach to learn transition dynamics. Specifically, we estimate confidence bounds of the transition probabilities and formulate a bilinear program to compute optimistic Whittle indices using these estimates. Our algorithm, UCWhittle, achieves sublinear $O(H \sqrt{T \log T})$ frequentist regret to solve RMABs with unknown transitions in $T$ episodes with a constant horizon $H$. Empirically, we demonstrate that UCWhittle leverages the structure of RMABs and the Whittle index policy solution to achieve better performance than existing online learning baselines across three domains, including one constructed via sampling from a real-world maternal and childcare dataset.
translated by 谷歌翻译
我们研究了设计AI代理商的问题,该代理可以学习有效地与潜在的次优伴侣有效合作,同时无法访问联合奖励功能。这个问题被建模为合作焦论双代理马尔可夫决策过程。我们假设仅在游戏的Stackelberg制定中的两个代理中的第一个控制,其中第二代理正在作用,以便在鉴于第一代理的政策给出预期的效用。第一个代理人应该如何尽快学习联合奖励功能,因此联合政策尽可能接近最佳?在本文中,我们分析了如何在这一交互式的两个代理方案中获得对奖励函数的知识。我们展示当学习代理的策略对转换函数有显着影响时,可以有效地学习奖励功能。
translated by 谷歌翻译
在强化学习中,蒙特卡洛算法通过平均偶发回报来更新Q功能。在Monte Carlo UCB(MC-UCB)算法中,在每个状态下采取的动作是最大化Q函数加上UCB勘探项的动作,该术语偏向于选择频率较低的动作的选择。尽管在为MC-UCB建立遗憾界限方面已经进行了重要的工作,但大多数工作都集中在该问题的有限培训版本上,每个情节都在不断数量的步骤后终止。对于此类有限的Horizo​​n问题,最佳策略既取决于当前状态和情节中的时间。但是,对于许多自然的情节问题,例如GO,CHESS和机器人任务等游戏,该情节是随机的,最佳政策是静止的。对于此类环境,MC-UCB中的Q功能是否会收敛到最佳Q函数,这是一个空旷的问题。我们猜想,与Q学习不同,它并不是所有MDP的收敛。尽管如此,我们表明,对于大型MDP,其中包括二十一点和确定性MDP等随机MDP,例如GO,MC-UCB中的Q功能几乎可以肯定地收敛到最佳Q函数。该结果的直接推论是,它几乎肯定会为所有有限的Horizo​​n MDP收敛。我们还提供了数值实验,为MC-UCB提供了进一步的见解。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译