编码有序顺序约束的多目标优化模型为建模各种具有挑战性的问题提供了解决方案,包括编码偏好,建模课程和执行安全措施。最近开发的拓扑马尔可夫决策过程理论(TMDP)捕获了离散状态和行动的情况。在这项工作中,我们通过制定,证明和实施TMDP的策略梯度定理,将TMDP扩展到连续空间和未知过渡动力学。该理论结果可以创建使用功能近似器的TMDP学习算法,并可以推广现有的深入强化学习(DRL)方法。具体而言,我们通过简单的近端策略优化(PPO)算法的简单扩展为TMDPS中的策略梯度提供了一种新算法。我们在现实世界多目标导航问题上证明了这一点,并在模拟和真实机器人中对目标进行任意排序。
translated by 谷歌翻译
In this work, we focus on the problem of safe policy transfer in reinforcement learning: we seek to leverage existing policies when learning a new task with specified constraints. This problem is important for safety-critical applications where interactions are costly and unconstrained policies can lead to undesirable or dangerous outcomes, e.g., with physical robots that interact with humans. We propose a Constrained Markov Decision Process (CMDP) formulation that simultaneously enables the transfer of policies and adherence to safety constraints. Our formulation cleanly separates task goals from safety considerations and permits the specification of a wide variety of constraints. Our approach relies on a novel extension of generalized policy improvement to constrained settings via a Lagrangian formulation. We devise a dual optimization algorithm that estimates the optimal dual variable of a target task, thus enabling safe transfer of policies derived from successor features learned on source tasks. Our experiments in simulated domains show that our approach is effective; it visits unsafe states less frequently and outperforms alternative state-of-the-art methods when taking safety constraints into account.
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
几乎可以肯定(或使用概率)满足安全限制对于在现实生活中的增强学习(RL)的部署至关重要。例如,理想情况下,平面降落和起飞应以概率为单位发生。我们通过引入安全增强(SAUTE)马尔可夫决策过程(MDP)来解决该问题,在该过程中,通过将其扩大到州空间并重塑目标来消除安全限制。我们表明,Saute MDP满足了Bellman方程,并使我们更加接近解决安全的RL,几乎可以肯定地满足。我们认为,Saute MDP允许从不同的角度查看安全的RL问题,从而实现新功能。例如,我们的方法具有插件的性质,即任何RL算法都可以“炒”。此外,国家扩展允许跨安全限制进行政策概括。我们最终表明,当约束满意度非常重要时,SAUTE RL算法的表现可以胜过其最先进的对应物。
translated by 谷歌翻译
In this work we introduce reinforcement learning techniques for solving lexicographic multi-objective problems. These are problems that involve multiple reward signals, and where the goal is to learn a policy that maximises the first reward signal, and subject to this constraint also maximises the second reward signal, and so on. We present a family of both action-value and policy gradient algorithms that can be used to solve such problems, and prove that they converge to policies that are lexicographically optimal. We evaluate the scalability and performance of these algorithms empirically, demonstrating their practical applicability. As a more specific application, we show how our algorithms can be used to impose safety constraints on the behaviour of an agent, and compare their performance in this context with that of other constrained reinforcement learning algorithms.
translated by 谷歌翻译
安全的强化学习旨在学习最佳政策,同时满足安全限制,这在现实世界中至关重要。但是,当前的算法仍在为有效的政策更新而努力,并具有严格的约束满意度。在本文中,我们提出了受惩罚的近端政策优化(P3O),该政策优化(P3O)通过单一的最小化等效不受约束的问题来解决麻烦的受约束政策迭代。具体而言,P3O利用了简单的罚款功能来消除成本限制,并通过剪裁的替代目标消除了信任区域的约束。从理论上讲,我们用有限的惩罚因素证明了所提出的方法的精确性,并在对样品轨迹进行评估时提供了最坏情况分析,以实现近似误差。此外,我们将P3O扩展到更具挑战性的多构造和多代理方案,这些方案在以前的工作中所研究的情况较少。广泛的实验表明,在一组受限的机车任务上,P3O优于奖励改进和约束满意度的最先进算法。
translated by 谷歌翻译
For many applications of reinforcement learning it can be more convenient to specify both a reward function and constraints, rather than trying to design behavior through the reward function. For example, systems that physically interact with or around humans should satisfy safety constraints. Recent advances in policy search algorithms (
translated by 谷歌翻译
政策梯度方法可以解决复杂的任务,但是当动作空间或客观多重性的维度变得非常大时通常会失败。这部分地发生这种情况,因为基于刻度的梯度估计器的差异如二次方式缩放。在本文中,我们通过利用在新型动作目标影响网络中编码的独立结构的因子基线来解决这个问题。遵循的代表性政策梯度(FPG)提供了用于分析关键最先进的算法的常见框架,以概括传统的政策梯度,并产生了一种原因的方法,并在先前了解问题域的生成过程中。我们提供了对所提出的估算者的分析,并确定方差减少的条件。讨论了FPG的算法方面,包括最佳的策略分解,如最小的BICLique覆盖物所征用子,以及对错误指定网络的偏差差异的影响。最后,我们展示了我们对大规模强盗和交通交叉问题的算法的性能优势,为空间近似的形式提供了对后者的新贡献。
translated by 谷歌翻译
标准深度强化学习(DRL)旨在考虑收集的经验在制定政策方面的经验,旨在最大程度地提高预期奖励。这与人类决策不同,在人类的决策中,收益和损失的重视程度有所不同,而外围的结果被越来越多。它也无法利用通过合并分配环境来提高安全性和/或绩效的机会。已经研究了几种分配DRL的方法,其中一种流行的策略是评估预计的可能行动收益分配。我们提出了一种更直接的方法,通过优化了根据全剧集奖励的分布累积分布函数(CDF)指定的风险敏感目标。这种方法允许根据相对质量权衡结果,可用于连续和离散的动作空间,并且自然可以在约束和不受约束的设置中应用。我们展示了如何通过抽样来计算广泛的风险敏感目标的政策梯度的渐近一致估计,随后纳入了降低方差和正则化措施,以促进有效的实质性学习。然后,我们证明使用中等“悲观”的风险概况,强调了代理商表现不佳的场景,从而导致了增强的探索,并不断地专注于解决缺陷。我们在六个OpenAI安全健身房环境中使用不同的风险概况测试了该方法,与最先进的政策方法相比。没有成本限制,我们发现悲观的风险概况可用于降低成本,同时改善总奖励积累。借助成本限制,他们可以以规定的允许成本提供比风险中立的方法更高的积极奖励。
translated by 谷歌翻译
安全的加强学习(RL)研究智能代理人不仅必须最大程度地提高奖励,而且还要避免探索不安全领域的问题。在这项研究中,我们提出了CUP,这是一种基于约束更新投影框架的新型政策优化方法,享有严格的安全保证。我们杯杯发展的核心是新提出的替代功能以及性能结合。与以前的安全RL方法相比,杯子的好处1)杯子将代孕功能推广到广义优势估计量(GAE),从而导致强烈的经验性能。 2)杯赛统一性界限,为某些现有算法提供更好的理解和解释性; 3)CUP仅通过一阶优化器提供非凸的实现,该优化器不需要在目标的凸面上进行任何强近似。为了验证我们的杯子方法,我们将杯子与在各种任务上进行的安全RL基线的全面列表进行了比较。实验表明杯子在奖励和安全限制满意度方面的有效性。我们已经在https://github.com/rl-boxes/safe-rl/tree/ main/cup上打开了杯子源代码。
translated by 谷歌翻译
在现实世界中的决策情况(例如金融,机器人技术,自动驾驶等)中,控制风险通常比最大程度地提高预期奖励更为重要。风险措施的最自然选择是差异,而它会惩罚上升波动率作为下行部分。取而代之的是,(下行)半变量捕获了随机变量在其平均值下的负偏差,更适合于规避风险的提议。本文旨在优化加强学习W.R.T.中的平均持续性(MSV)标准。稳定的奖励。由于半变量是时间的,并且不满足标准的贝尔曼方程,因此传统的动态编程方法直接不适合MSV问题。为了应对这一挑战,我们求助于扰动分析(PA)理论,并建立MSV的性能差异公式。我们揭示MSV问题可以通过迭代解决与策略有关的奖励功能的一系列RL问题来解决。此外,我们根据政策梯度理论和信任区域方法提出了两种派利算法。最后,我们进行了不同的实验,从简单的匪徒问题到穆约科的连续控制任务,这些实验证明了我们提出的方法的有效性。
translated by 谷歌翻译
由政策引起的马尔可夫链的混合时间限制了现实世界持续学习场景中的性能。然而,混合时间对持续增强学习学习(RL)的影响仍然是曝光率。在本文中,我们表征了长期兴趣的问题,以通过混合时间调用可扩展的MDP来发展持续的RL。特别是,我们建立可扩展的MDP具有与问题的大小相等的混合时间。我们继续证明,多项式混合时间对现有方法产生显着困难,并提出了一种基于模型的算法,通过新颖的引导程序直接优化平均奖励来加速学习。最后,我们对我们提出的方法进行了实证遗憾分析,展示了对基线的清晰改进,以及如何使用可缩放的MDP来分析RL算法作为混合时间规模。
translated by 谷歌翻译
强化学习的标准制定缺乏指定禁止和禁止行为的实用方式。最常见的是,从业者通过手动工程来指定行为规范的任务,这是一个需要几个迭代的反向直观的过程,并且易于奖励代理人。在这项工作中,我们认为,几乎完全用于安全RL的受限制的RL,也有可能大大减少应用加强学习项目中奖励规范所花费的工作量。为此,我们建议在CMDP框架中指定行为偏好,并使用拉格朗日方法,该方法寻求解决代理程序的策略和拉格朗日乘法器之间的最小问题,以自动称量每个行为约束。具体而言,我们研究了如何调整CMDP,以便解决基于目标的任务,同时遵守一组行为约束,并提出对Sac-Lagrangian算法的修改以处理若干约束的具有挑战性的情况。我们对这一框架进行了一系列持续控制任务,该任务与用于视频游戏中NPC设计的加固学习应用相关。
translated by 谷歌翻译
我们研究具有多个奖励价值函数的马尔可夫决策过程(MDP)的政策优化,应根据给定的标准共同优化,例如比例公平(平滑凹面标量),硬约束(约束MDP)和Max-Min Trade-离开。我们提出了一个改变锚定的正规自然政策梯度(ARNPG)框架,该框架可以系统地将良好表现的一阶方法中的思想纳入多目标MDP问题的策略优化算法的设计。从理论上讲,基于ARNPG框架的设计算法实现了$ \ tilde {o}(1/t)$全局收敛,并具有精确的梯度。从经验上讲,与某些现有的基于策略梯度的方法相比,ARNPG引导的算法在精确梯度和基于样本的场景中也表现出卓越的性能。
translated by 谷歌翻译
本文讨论了一种学习最佳Q功能的基本问题的新方法。在这种方法中,最佳Q函数被配制为源自经典Bellman最优方程的非线性拉格朗日函数的鞍点。该论文表明,尽管非线性具有非线性,但拉格朗日人仍然具有很强的双重性,这为Q-function学习的一般方法铺平了道路。作为演示,本文根据二元性理论开发了模仿学习算法,并将算法应用于最先进的机器翻译基准。然后,该论文转弯以证明有关拉格朗日鞍点的最佳性的对称性破坏现象,这证明了开发拉格朗日方法的很大程度上被忽视的方向。
translated by 谷歌翻译
安全的加强学习(RL)旨在学习在将其部署到关键安全应用程序中之前满足某些约束的政策。以前的原始双重风格方法遭受了不稳定性问题的困扰,并且缺乏最佳保证。本文从概率推断的角度克服了问题。我们在政策学习过程中介绍了一种新颖的期望最大化方法来自然纳入约束:1)在凸优化(E-step)后,可以以封闭形式计算可证明的最佳非参数变异分布; 2)基于最佳变异分布(M-step),在信任区域内改进了策略参数。提出的算法将安全的RL问题分解为凸优化阶段和监督学习阶段,从而产生了更稳定的培训性能。对连续机器人任务进行的广泛实验表明,所提出的方法比基线获得了更好的约束满意度和更好的样品效率。该代码可在https://github.com/liuzuxin/cvpo-safe-rl上找到。
translated by 谷歌翻译
在预测 - 优化框架中,目的是训练预测模型,从环境特征映射到优化问题的参数,这使得当优化被求解时最大化判定质量。最近的决定学习的工作表明,与依赖于用于评估预测质量的中间损耗功能相比,嵌入训练管道中的优化问题可以提高判定质量,并帮助更好地提高未经任务的任务。我们研究了通过增强学习解决的顺序决策问题(制定为MDP)的上下文中的预测 - 优化框架。特别是,我们是给予的环境特征和来自训练MDP的一组轨迹,我们用于训练推广的预测模型,无需轨迹。在将决策的学习应用于MDPS上,出现了两个重要的计算挑战:(i)大状态和行动空间使现有技术可行,以区分通过MDP问题,并且(ii)是由神经的参数化的高维策略空间网络,通过昂贵的政策进行区分。我们通过采样可释放的无偏见的衍生物来解决第一挑战,以通过最优条件近似和分辨,并通过使用基于高维样本的衍生物的低秩近似来分辨。我们在缺少参数的三个不同MDP问题上实现了基于Bellman的基于政策梯度的决定学习,并表明,决定的学习在概括任务中表现更好。
translated by 谷歌翻译
While reinforcement learning algorithms provide automated acquisition of optimal policies, practical application of such methods requires a number of design decisions, such as manually designing reward functions that not only define the task, but also provide sufficient shaping to accomplish it. In this paper, we view reinforcement learning as inferring policies that achieve desired outcomes, rather than as a problem of maximizing rewards. To solve this inference problem, we establish a novel variational inference formulation that allows us to derive a well-shaped reward function which can be learned directly from environment interactions. From the corresponding variational objective, we also derive a new probabilistic Bellman backup operator and use it to develop an off-policy algorithm to solve goal-directed tasks. We empirically demonstrate that this method eliminates the need to hand-craft reward functions for a suite of diverse manipulation and locomotion tasks and leads to effective goal-directed behaviors.
translated by 谷歌翻译
我们考虑了马尔可夫决策过程(CMDP)的问题,其中代理与Markov Unichain决策过程进行交互。在每次互动中,代理都会获得奖励。此外,还有$ K $成本功能。该代理商的目标是最大程度地提高长期平均奖励,同时使$ k $的长期平均成本低于一定阈值。在本文中,我们提出了CMDP-PSRL,这是一种基于后取样的算法,使用该算法,代理可以学习与CMDP相互作用的最佳策略。此外,对于具有$ s $州的MDP,$ A $ ACTICE和DIAMETER $ D $,我们证明,遵循CMDP-PSRL算法,代理商可能会束缚不累积最佳策略奖励的遗憾。 (poly(dsa)\ sqrt {t})$。此外,我们表明,任何$ k $约束的违规行为也受$ \ tilde {o}(poly(dsa)\ sqrt {t})$的限制。据我们所知,这是第一批获得$ \ tilde {o}(\ sqrt {t})$遗憾的Ergodic MDP的界限,并具有长期平均约束。
translated by 谷歌翻译
一般政策改进(GPI)和信任区域学习(TRL)是当代强化学习(RL)内的主要框架,其用作解决马尔可夫决策过程(MDP)的核心模型。不幸的是,在他们的数学形式中,它们对修改敏感,因此,实现它们的实际实例化不会自动继承其改进保证。结果,可用严格的MDP-溶剂的光谱窄。实际上,许多最先进的(SOTA)算法,例如TRPO和PPO,不能被证明收敛。在本文中,我们提出了\ Textsl {镜像学习} - 对RL问题的一般解决方案。我们揭示了GPI和TRL,但在这个算法的近似空间内的小点,拥有单调改善性,并收敛到最佳政策。我们表明,RL的几乎所有SOTA算法都是镜像学习的实例,因此表明其实证性能是其理论属性,而不是近似类比的结果。令人兴奋的是,我们表明镜像学习与收敛保证的策略学习方法开辟了全新的全新空间。
translated by 谷歌翻译