我们研究如何构建一组可以组成的政策来解决一个加强学习任务的集合。每个任务都是不同的奖励函数,被定义为已知功能的线性组合。我们考虑一下我们呼吁改进政策的特定策略组合(SIPS):给定一套政策和一系列任务,SIP是前者的任何构成,其性能至少与其成分的表现相当好所有任务。我们专注于啜饮的最保守的实例化,Set-Max政策(SMPS),因此我们的分析扩展到任何SIP。这包括已知的策略组合运营商,如广义政策改进。我们的主要贡献是一种策略迭代算法,构建一组策略,以最大限度地提高所得SMP的最坏情况性能。该算法通过连续向集合添加新策略来工作。我们表明,生成的SMP的最坏情况性能严格地改善了每次迭代,并且算法仅在不存在导致改进性能的策略时停止。我们经验在网格世界上进行了验证评估了算法,也是来自DeepMind控制套件的一组域。我们确认了我们关于我们算法的单调性能的理论结果。有趣的是,我们还经验展示了算法计算的政策集是多样的,导致网格世界中的不同轨迹以及控制套件中的非常独特的运动技能。
translated by 谷歌翻译
找到同一问题的不同解决方案是与创造力和对新颖情况的适应相关的智能的关键方面。在钢筋学习中,一套各种各样的政策对于勘探,转移,层次结构和鲁棒性有用。我们提出了各种各样的连续政策,一种发现在继承人功能空间中多样化的政策的方法,同时确保它们接近最佳。我们将问题形式形式化为受限制的马尔可夫决策过程(CMDP),目标是找到最大化多样性的政策,其特征在于内在的多样性奖励,同时对MDP的外在奖励保持近乎最佳。我们还分析了最近提出的稳健性和歧视奖励的绩效,并发现它们对程序的初始化敏感,并且可以收敛到次优溶液。为了缓解这一点,我们提出了新的明确多样性奖励,该奖励旨在最大限度地减少集合中策略的继承人特征之间的相关性。我们比较深度控制套件中的不同多样性机制,发现我们提出的明确多样性的类型对于发现不同的行为是重要的,例如不同的运动模式。
translated by 谷歌翻译
在许多实际应用程序中,强化学习(RL)代理可能必须解决多个任务,每个任务通常都是通过奖励功能建模的。如果奖励功能是线性表达的,并且代理商以前已经学会了一组针对不同任务的策略,则可以利用后继功能(SFS)来组合此类策略并确定有关新问题的合理解决方案。但是,确定的解决方案不能保证是最佳的。我们介绍了一种解决此限制的新颖算法。它允许RL代理结合现有政策并直接确定任意新问题的最佳政策,而无需与环境进行任何进一步的互动。我们首先(在轻度假设下)表明,SFS解决的转移学习问题等同于学习在RL中优化多个目标的学习问题。然后,我们引入了基于SF的乐观线性支持算法的扩展,以学习一组SFS构成凸面覆盖范围集的策略。我们证明,该集合中的策略可以通过广义策略改进组合,以构建任何可表达的新任务的最佳行为,而无需任何其他培训样本。我们从经验上表明,在价值函数近似下,我们的方法在离散和连续域中优于最先进的竞争算法。
translated by 谷歌翻译
我们研究了学习一系列良好政策的问题,使得当结合在一起时,他们可以解决各种各样的不良加强学习任务,没有或很少的新数据。具体而言,我们考虑广义政策评估和改进的框架,其中假设所有感兴趣任务的奖励被认为是固定的一组特征的线性组合。理论上,我们在理论上显示,在某些假设下,可以访问我们称之为一组独立策略的特定的各种策略,可以易于瞬间实现高级性能,这些任务通常比那些更复杂的所有可能的下游任务经过培训的代理人。基于这一理论分析,我们提出了一种简单的算法,可以迭代构建这套策略。除了经验验证我们的理论结果外,我们还将我们的方法与最近提出的各种政策集施工方法进行了比较,并表明其他人失败,我们的方法能够建立一种行为基础,使能够瞬间转移到所有可能的下游任务。我们还经验展示了访问一组独立策略,可以更好地引导在下游任务上的学习过程,其中新奖励功能不能被描述为特征的线性组合。最后,我们证明了这一政策组可以在逼真的终身加强学习环境中有用。
translated by 谷歌翻译
最大化马尔可夫和固定的累积奖励函数,即在国家行动对和时间独立于时间上定义,足以在马尔可夫决策过程(MDP)中捕获多种目标。但是,并非所有目标都可以以这种方式捕获。在本文中,我们研究了凸MDP,其中目标表示为固定分布的凸功能,并表明它们不能使用固定奖励函数进行配制。凸MDP将标准加强学习(RL)问题提出概括为一个更大的框架,其中包括许多受监督和无监督的RL问题,例如学徒学习,约束MDP和所谓的“纯探索”。我们的方法是使用Fenchel二重性将凸MDP问题重新将凸MDP问题重新制定为涉及政策和成本(负奖励)的最小游戏。我们提出了一个用于解决此问题的元偏金属,并表明它统一了文献中许多现有的算法。
translated by 谷歌翻译
For many applications of reinforcement learning it can be more convenient to specify both a reward function and constraints, rather than trying to design behavior through the reward function. For example, systems that physically interact with or around humans should satisfy safety constraints. Recent advances in policy search algorithms (
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
受限的强化学习是最大程度地提高预期奖励受到公用事业/成本的限制。但是,由于建模错误,对抗性攻击,非平稳性,训练环境可能与测试环境不一样,导致严重的性能降级和更重要的违反约束。我们提出了一个在模型不确定性下的强大约束强化学习框架,其中MDP不是固定的,而是在某些不确定性集中,目的是确保在不确定性集中满足所有MDP的限制,并最大程度地满足对公用事业/成本的限制不确定性集中最差的奖励性能。我们设计了一种强大的原始双重方法,并在理论上进一步发展了其收敛性,复杂性和可行性的保证。然后,我们研究了$ \ delta $ - 污染不确定性集的具体示例,设计一种在线且无模型的算法,并理论上表征了其样本复杂性。
translated by 谷歌翻译
诸如最大熵正则化之类的政策正则化方法被广泛用于增强学习以提高学习政策的鲁棒性。在本文中,我们展示了这种鲁棒性是如何通过对冲的奖励功能扰动而产生的,奖励功能是从想象中的对手设定的限制设置中选择的。使用凸双重性,我们表征了KL和Alpha-Divergence正则化的一组强大的对抗奖励扰动集,其中包括香农和Tsallis熵正则定期为特殊情况。重要的是,可以在此强大集合中给出概括保证。我们提供了有关最坏的奖励扰动的详细讨论,并提供了直观的经验示例,以说明这种稳健性及其与概括的关系。最后,我们讨论我们的分析如何补充并扩展对对抗奖励鲁棒性和路径一致性最佳条件的先前结果。
translated by 谷歌翻译
尽管在一般强化学习(RL)中建立了良好的建立,但很少在受约束的RL(CRL)中探索基于价值的方法,因为它们无法找到可以在多个动作中随机进行随机的策略的能力。为了将基于价值的方法应用于CRL,最新的游戏理论方法采用了混合策略,该策略将一组精心生成的策略之间随机进行随机,以收敛到所需的约束可满足的策略。但是,这些方法需要存储大量的政策,这不是政策效率的,并且可能会在约束深度RL中产生过高的记忆成本。为了解决这个问题,我们提出了一种替代方法。我们的方法首先将CRL重新制定为等效距离优化问题。使用专门设计的线性优化Oracle,我们得出了一个元叠层,该元值使用任何现成的RL算法和任何条件梯度(CG)型算法作为子例程来求解它。然后,我们提出了CG型算法的新变体,该变体概括了最小范数(MNP)方法。所提出的方法与现有游戏理论方法的收敛速率相匹配,并实现了最差的最佳政策效率。导航任务上的实验表明,我们的方法将记忆成本降低了一个数量级,同时达到了更好的性能,并证明了其有效性和效率。
translated by 谷歌翻译
在学徒学习(AL)中,我们在没有获得成本函数的情况下给予马尔可夫决策过程(MDP)。相反,我们观察由根据某些政策执行的专家采样的轨迹。目标是找到一个与专家对某些预定义的成本函数的性能相匹配的策略。我们介绍了AL的在线变体(在线学徒学习; OAL),其中代理商预计与环境相互作用,在与环境互动的同时相互表现。我们表明,通过组合两名镜面血缘无遗憾的算法可以有效地解决了OAL问题:一个用于策略优化,另一个用于学习最坏情况的成本。通过采用乐观的探索,我们使用$ O(\ SQRT {k})$后悔派生算法,其中$ k $是与MDP的交互数量以及额外的线性错误术语,其取决于专家轨迹的数量可用的。重要的是,我们的算法避免了在每次迭代时求解MDP的需要,与先前的AL方法相比,更实用。最后,我们实现了我们算法的深层变体,该算法与Gail \ Cite {Ho2016Generative}共享了一些相似之处,但在鉴别者被替换为OAL问题的成本。我们的模拟表明OAL在高维控制问题中表现良好。
translated by 谷歌翻译
我们研究具有多个奖励价值函数的马尔可夫决策过程(MDP)的政策优化,应根据给定的标准共同优化,例如比例公平(平滑凹面标量),硬约束(约束MDP)和Max-Min Trade-离开。我们提出了一个改变锚定的正规自然政策梯度(ARNPG)框架,该框架可以系统地将良好表现的一阶方法中的思想纳入多目标MDP问题的策略优化算法的设计。从理论上讲,基于ARNPG框架的设计算法实现了$ \ tilde {o}(1/t)$全局收敛,并具有精确的梯度。从经验上讲,与某些现有的基于策略梯度的方法相比,ARNPG引导的算法在精确梯度和基于样本的场景中也表现出卓越的性能。
translated by 谷歌翻译
我们在专家和学习者之间的过渡动力学下研究了逆钢筋学习(IRL)问题。具体而言,我们考虑最大因果熵(MCE)IRL学习者模型,并根据专家和学习者的转换动态之间的$ \ ell_1 $ -disce提供学习者的性能下降的紧密上限。利用强大的RL文献的洞察力,我们提出了一种强大的MCE IRL算法,这是一种有效的方法来帮助这种不匹配。最后,我们经验展示了我们算法的稳定性能,而在有限和连续的MDP问题中的转换动态不匹配下的标准MCE IRL算法相比。
translated by 谷歌翻译
Robust Markov decision processes (RMDPs) are promising models that provide reliable policies under ambiguities in model parameters. As opposed to nominal Markov decision processes (MDPs), however, the state-of-the-art solution methods for RMDPs are limited to value-based methods, such as value iteration and policy iteration. This paper proposes Double-Loop Robust Policy Gradient (DRPG), the first generic policy gradient method for RMDPs with a global convergence guarantee in tabular problems. Unlike value-based methods, DRPG does not rely on dynamic programming techniques. In particular, the inner-loop robust policy evaluation problem is solved via projected gradient descent. Finally, our experimental results demonstrate the performance of our algorithm and verify our theoretical guarantees.
translated by 谷歌翻译
安全的加强学习(RL)旨在学习在将其部署到关键安全应用程序中之前满足某些约束的政策。以前的原始双重风格方法遭受了不稳定性问题的困扰,并且缺乏最佳保证。本文从概率推断的角度克服了问题。我们在政策学习过程中介绍了一种新颖的期望最大化方法来自然纳入约束:1)在凸优化(E-step)后,可以以封闭形式计算可证明的最佳非参数变异分布; 2)基于最佳变异分布(M-step),在信任区域内改进了策略参数。提出的算法将安全的RL问题分解为凸优化阶段和监督学习阶段,从而产生了更稳定的培训性能。对连续机器人任务进行的广泛实验表明,所提出的方法比基线获得了更好的约束满意度和更好的样品效率。该代码可在https://github.com/liuzuxin/cvpo-safe-rl上找到。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
我们研究奖励设计策略,用于激励加强学习代理,从一系列可接受的政策中采用政策。奖励设计师的目标是经济高效地修改底层奖励功能,同时确保在新奖励功能下的任何大约最佳的确定性政策是可允许的,并且在原始奖励功能下执行良好。这个问题可以被视为最佳奖励中毒攻击问题的双重问题:而不是强制代理商采用特定的政策,而奖励设计师则激励一个代理人以避免采取某些州不可受理的行动。也许令人惊讶的是,与最佳奖励中毒攻击的问题相比,我们首先表明可允许的政策教学的奖励设计问题是在计算上具有挑战性的,并且难以找到近似最佳的奖励修改。然后,我们通过制定最佳解决方案的代理问题,其最佳解决方案近似于我们的环境中奖励设计问题的最佳解决方案,但更适用于优化技术和分析。对于此替代问题,我们呈现了在最佳解决方案的值上提供限制的表征结果。最后,我们设计了一个本地搜索算法来解决代理问题,并使用基于模拟的实验展示其实用程序。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
强化学习被广泛用于在与环境互动时需要执行顺序决策的应用中。当决策要求包括满足一些安全限制时,问题就变得更加具有挑战性。该问题在数学上是作为约束的马尔可夫决策过程(CMDP)提出的。在文献中,可以通过无模型的方式解决各种算法来解决CMDP问题,以实现$ \ epsilon $ - 最佳的累积奖励,并使用$ \ epsilon $可行的政策。 $ \ epsilon $可行的政策意味着它遭受了违规的限制。这里的一个重要问题是,我们是否可以实现$ \ epsilon $ - 最佳的累积奖励,并违反零约束。为此,我们主张使用随机原始偶对偶方法来解决CMDP问题,并提出保守的随机原始二重算法(CSPDA),该算法(CSPDA)显示出$ \ tilde {\ tilde {\ Mathcal {o}} \ left(1 /\ epsilon^2 \ right)$样本复杂性,以实现$ \ epsilon $ - 最佳累积奖励,违反零约束。在先前的工作中,$ \ epsilon $ - 最佳策略的最佳可用样本复杂性是零约束的策略是$ \ tilde {\ Mathcal {o}}} \ left(1/\ epsilon^5 \ right)$。因此,与最新技术相比,拟议的算法提供了重大改进。
translated by 谷歌翻译
In this work, we focus on the problem of safe policy transfer in reinforcement learning: we seek to leverage existing policies when learning a new task with specified constraints. This problem is important for safety-critical applications where interactions are costly and unconstrained policies can lead to undesirable or dangerous outcomes, e.g., with physical robots that interact with humans. We propose a Constrained Markov Decision Process (CMDP) formulation that simultaneously enables the transfer of policies and adherence to safety constraints. Our formulation cleanly separates task goals from safety considerations and permits the specification of a wide variety of constraints. Our approach relies on a novel extension of generalized policy improvement to constrained settings via a Lagrangian formulation. We devise a dual optimization algorithm that estimates the optimal dual variable of a target task, thus enabling safe transfer of policies derived from successor features learned on source tasks. Our experiments in simulated domains show that our approach is effective; it visits unsafe states less frequently and outperforms alternative state-of-the-art methods when taking safety constraints into account.
translated by 谷歌翻译