奖励是加强学习代理的动力。本文致力于了解奖励的表现,作为捕获我们希望代理人执行的任务的一种方式。我们在这项研究中涉及三个新的抽象概念“任务”,可能是可取的:(1)一组可接受的行为,(2)部分排序,或者(3)通过轨迹的部分排序。我们的主要结果证明,虽然奖励可以表达许多这些任务,但每个任务类型的实例都没有Markov奖励函数可以捕获。然后,我们提供一组多项式时间算法,其构造Markov奖励函数,允许代理优化这三种类型中的每种类型的任务,并正确确定何时不存在这种奖励功能。我们得出结论,具有证实和说明我们的理论发现的实证研究。
translated by 谷歌翻译
The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis. This will not conclude with a simple affirmation or refutation, but rather specify completely the implicit requirements on goals and purposes under which the hypothesis holds.
translated by 谷歌翻译
Reinforcement-learning agents seek to maximize a reward signal through environmental interactions. As humans, our contribution to the learning process is through designing the reward function. Like programmers, we have a behavior in mind and have to translate it into a formal specification, namely rewards. In this work, we consider the reward-design problem in tasks formulated as reaching desirable states and avoiding undesirable states. To start, we propose a strict partial ordering of the policy space. We prefer policies that reach the good states faster and with higher probability while avoiding the bad states longer. Next, we propose an environment-independent tiered reward structure and show it is guaranteed to induce policies that are Pareto-optimal according to our preference relation. Finally, we empirically evaluate tiered reward functions on several environments and show they induce desired behavior and lead to fast learning.
translated by 谷歌翻译
我们研究了设计AI代理商的问题,该代理可以学习有效地与潜在的次优伴侣有效合作,同时无法访问联合奖励功能。这个问题被建模为合作焦论双代理马尔可夫决策过程。我们假设仅在游戏的Stackelberg制定中的两个代理中的第一个控制,其中第二代理正在作用,以便在鉴于第一代理的政策给出预期的效用。第一个代理人应该如何尽快学习联合奖励功能,因此联合政策尽可能接近最佳?在本文中,我们分析了如何在这一交互式的两个代理方案中获得对奖励函数的知识。我们展示当学习代理的策略对转换函数有显着影响时,可以有效地学习奖励功能。
translated by 谷歌翻译
我们提供了奖励黑客的第一个正式定义,即优化不完美的代理奖励功能的现象,$ \ Mathcal {\ tilde {r}} $,根据真实的奖励功能,$ \ MATHCAL {R} $导致性能差。 。我们说,如果增加预期的代理回报率永远无法减少预期的真实回报,则代理是不可接受的。直觉上,可以通过从奖励功能(使其“较窄”)中留出一些术语或忽略大致等效的结果之间的细粒度区分来创建一个不可接受的代理,但是我们表明情况通常不是这样。一个关键的见解是,奖励的线性性(在州行动访问计数中)使得无法实现的状况非常强烈。特别是,对于所有随机策略的集合,只有在其中一个是恒定的,只有两个奖励函数才能是不可接受的。因此,我们将注意力转移到确定性的政策和有限的随机政策集中,在这些策略中,始终存在非平凡的不可动摇的对,并为简化的存在建立必要和充分的条件,这是一个重要的不被限制的特殊情况。我们的结果揭示了使用奖励函数指定狭窄任务和对齐人类价值的AI系统之间的紧张关系。
translated by 谷歌翻译
逆钢筋学习尝试在马尔可夫决策问题中重建奖励功能,使用代理操作的观察。正如Russell [1998]在Russell [1998]的那样,问题均为不良,即使在存在有关最佳行为的完美信息的情况下,奖励功能也无法识别。我们为熵正则化的问题提供了解决这种不可识别性的分辨率。对于给定的环境,我们完全表征了导致给定政策的奖励函数,并证明,在两个不同的折扣因子下或在足够的不同环境下给出了相同奖励的行动的示范,可以恢复不可观察的奖励。我们还向有限视野进行时间均匀奖励的一般性和充分条件,以及行动无关的奖励,概括Kim等人的最新结果。[2021]和Fu等人。[2018]。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
近年来,研究人员在设计了用于优化线性时间逻辑(LTL)目标和LTL的目标中的增强学习算法方面取得了重大进展。尽管有这些进步,但解决了这个问题的基本限制,以至于以前的研究暗示,但对我们的知识而言,尚未深入检查。在本文中,我们通过一般的LTL目标理解了学习的硬度。我们在马尔可夫决策过程(PAC-MDP)框架(PAC-MDP)框架中可能大致正确学习的问题正式化,这是一种测量加固学习中的样本复杂性的标准框架。在这一形式化中,我们证明,只有在LTL层次结构中最有限的类别中,才有于仅当公式中的最有限的类别,因此才能获得PAC-MDP的最佳政策。实际上,我们的结果意味着加强学习算法无法在与非有限范围可解除的LTL目标的无限环境的相互作用之后获得其学习政策的性能的PAC-MDP保证。
translated by 谷歌翻译
von Neumann-Morgenstern(VNM)实用程序定理表明,在某些合理性的公理下,决策将减少以最大程度地提高某些效用函数的期望。我们将这些公理扩展到日益结构化的顺序决策设置,并确定相应的实用程序函数的结构。特别是,我们表明,无内存的偏好会导致以每次过渡奖励和未来回报的乘法因素的形式产生实用性。该结果激发了马尔可夫决策过程(MDP)的概括,并在代理的申报表上使用此结构,我们称之为Affine-Reward-Reward MDP。需要对偏好的更强限制来恢复MDP中常用的标量奖励总和。尚未更强的约束简化了目标寻求代理的效用功能,以我们调用潜在功能的状态的某些函数的差异形式。我们的必要条件揭示了奖励假设,即通过在VNM理性公理中添加公理,并激发了涉及顺序决策的AI研究的新方向,从而使理性代理在增强学习中的设计构成了奖励假设。
translated by 谷歌翻译
当环境稀疏和非马克维亚奖励时,使用标量奖励信号的训练加强学习(RL)代理通常是不可行的。此外,在训练之前对这些奖励功能进行手工制作很容易指定,尤其是当环境的动态仅部分知道时。本文提出了一条新型的管道,用于学习非马克维亚任务规格,作为简洁的有限状态“任务自动机”,从未知环境中的代理体验情节中。我们利用两种关键算法的见解。首先,我们通过将其视为部分可观察到的MDP并为隐藏的Markov模型使用现成的算法,从而学习了由规范的自动机和环境MDP组成的产品MDP,该模型是由规范的自动机和环境MDP组成的。其次,我们提出了一种从学习的产品MDP中提取任务自动机(假定为确定性有限自动机)的新方法。我们学到的任务自动机可以使任务分解为其组成子任务,从而提高了RL代理以后可以合成最佳策略的速率。它还提供了高级环境和任务功能的可解释编码,因此人可以轻松地验证代理商是否在没有错误的情况下学习了连贯的任务。此外,我们采取步骤确保学识渊博的自动机是环境不可静止的,使其非常适合用于转移学习。最后,我们提供实验结果,以说明我们在不同环境和任务中的算法的性能及其合并先前的领域知识以促进更有效学习的能力。
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
当他们更喜欢$ \ texit {exploit} $时,您如何激励自我兴趣的代理到$ \ texit {探索} $?我们考虑复杂的探索问题,其中每个代理面临相同(但未知)MDP。与传统的加固学习配方相比,代理商控制了政策的选择,而算法只能发出建议。然而,该算法控制信息流,并且可以通过信息不对称激励代理探索。我们设计一种算法,探讨MDP中的所有可达状态。我们达到了类似于先前研究的静态,无国籍探索问题中激励探索的保证担保。据我们所知,这是第一个考虑在有状态,强化学习环境中设计的工作。
translated by 谷歌翻译
我们研究奖励设计策略,用于激励加强学习代理,从一系列可接受的政策中采用政策。奖励设计师的目标是经济高效地修改底层奖励功能,同时确保在新奖励功能下的任何大约最佳的确定性政策是可允许的,并且在原始奖励功能下执行良好。这个问题可以被视为最佳奖励中毒攻击问题的双重问题:而不是强制代理商采用特定的政策,而奖励设计师则激励一个代理人以避免采取某些州不可受理的行动。也许令人惊讶的是,与最佳奖励中毒攻击的问题相比,我们首先表明可允许的政策教学的奖励设计问题是在计算上具有挑战性的,并且难以找到近似最佳的奖励修改。然后,我们通过制定最佳解决方案的代理问题,其最佳解决方案近似于我们的环境中奖励设计问题的最佳解决方案,但更适用于优化技术和分析。对于此替代问题,我们呈现了在最佳解决方案的值上提供限制的表征结果。最后,我们设计了一个本地搜索算法来解决代理问题,并使用基于模拟的实验展示其实用程序。
translated by 谷歌翻译
大部分强化学习理论都建立在计算上难以实施的甲板上。专门用于在部分可观察到的马尔可夫决策过程(POMDP)中学习近乎最佳的政策,现有算法要么需要对模型动态(例如确定性过渡)做出强有力的假设,要么假设访问甲骨文作为解决艰难的计划或估算问题的访问子例程。在这项工作中,我们在合理的假设下开发了第一个用于POMDP的无Oracle学习算法。具体而言,我们给出了一种用于在“可观察” pomdps中学习的准化性时间端到端算法,其中可观察性是一个假设,即对国家而言,分离良好的分布诱导了分离良好的分布分布而不是观察。我们的技术规定了在不确定性下使用乐观原则来促进探索的更传统的方法,而是在构建策略涵盖的情况下提供了一种新颖的barycentric跨度应用。
translated by 谷歌翻译
马尔可夫决策过程通常用于不确定性下的顺序决策。然而,对于许多方面,从受约束或安全规范到任务和奖励结构中的各种时间(非Markovian)依赖性,需要扩展。为此,近年来,兴趣已经发展成为强化学习和时间逻辑的组合,即灵活的行为学习方法的组合,具有稳健的验证和保证。在本文中,我们描述了最近引入的常规决策过程的实验调查,该过程支持非马洛维亚奖励功能以及过渡职能。特别是,我们为常规决策过程,与在线,增量学习有关的算法扩展,对无模型和基于模型的解决方案算法的实证评估,以及以常规但非马尔维亚,网格世界的应用程序的算法扩展。
translated by 谷歌翻译
强化学习(RL)旨在在给定环境中从奖励功能中训练代理商,但逆增强学习(IRL)试图从观察专家的行为中恢复奖励功能。众所周知,总的来说,各种奖励功能会导致相同的最佳政策,因此,IRL定义不明。但是,(Cao等,2021)表明,如果我们观察到两个或多个具有不同折现因子或在不同环境中起作用的专家,则可以在某些条件下确定奖励功能,直至常数。这项工作首先根据等级条件显示了表格MDP的多位专家的等效可识别性声明,该声明易于验证,也被证明是必要的。然后,我们将结果扩展到各种不同的方案,即,在奖励函数可以表示为给定特征的线性组合,使其更容易解释,或者当我们可以访问近似过渡矩阵时,我们会表征奖励可识别性。即使奖励无法识别,我们也提供了特征的条件,当给定环境中的多个专家的数据允许在新环境中概括和训练最佳代理。在各种数值实验中,我们对奖励可识别性和概括性的理论结果得到了验证。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
用功能近似的增强学习最近在具有较大状态空间的应用中取得了巨大的结果。这一经验成功促使人们越来越多的理论工作提出了必要和充分的条件,在这些条件下,有效的强化学习是可能的。从这项工作中,已经出现了一种非常简单的最小条件,以进行样品有效的增强学习:具有最佳价值函数的MDP $ v^*$和$ q^*$线性在某些已知的低维功能中。在这种情况下,最近的作品设计了样品有效算法,这些算法需要在特征维度中多个样本,并且独立于状态空间的大小。但是,他们将发现计算高效的算法作为未来的工作,这被认为是社区中的主要开放问题。在这项工作中,我们通过呈现线性函数近似的RL的第一个计算下限来取得进展:除非NP = RP,否则对于确定性的过渡MDP,不存在任何随机多项式时间算法,具有恒定的动作和线性最佳值功能。为了证明这一点,我们显示了唯一SAT的减少,在该SAT中,我们将CNF公式转换为具有确定性转换,恒定动作数量和低维线性最佳值函数的MDP。该结果还表现出具有线性函数近似的增强学习中的第一个计算统计差距,因为潜在的统计问题在理论上是可以通过多项式查询的信息来解决的,但是除非NP = rp,否则不存在任何计算有效算法。最后,我们还证明了在随机指数时间假设下的准多项式时间下限。
translated by 谷歌翻译
探索是加强学习中最重要的任务之一,但它在动态编程范例中没有明确的有限问题(参见第2.4小节)。我们提供了对勘探的重新诠释,该探索可以应用于任何在线学习方法。我们通过从新方向接近探索来实现这个定义。在发现创建的探索概念之后,无法长途适用于解决动态编程的简单马尔可夫决策过程,我们重新探索。而不是扩展动态探索程序的结尾,我们延长了他们的手段。也就是说,而不是反复对一个过程中的每个国家动作对进行采样,我们定义修改代理到自身探索的行为。由此产生的探索定义可以应用于无限的问题和非动态学习方法,探测的动态概念不能容忍。要了解代理人的修改方式影响学习的方式,我们描述了一组代理的新结构:以$以$以$的距离(见脚注7)$ d_ {a} \,这表示可能的代理人的视角正在进行中。使用这些距离,我们定义了一种拓扑,并表明加强学习中的许多重要结构在代理空间中收敛源的拓扑上表现良好。
translated by 谷歌翻译
我们研究了学习一系列良好政策的问题,使得当结合在一起时,他们可以解决各种各样的不良加强学习任务,没有或很少的新数据。具体而言,我们考虑广义政策评估和改进的框架,其中假设所有感兴趣任务的奖励被认为是固定的一组特征的线性组合。理论上,我们在理论上显示,在某些假设下,可以访问我们称之为一组独立策略的特定的各种策略,可以易于瞬间实现高级性能,这些任务通常比那些更复杂的所有可能的下游任务经过培训的代理人。基于这一理论分析,我们提出了一种简单的算法,可以迭代构建这套策略。除了经验验证我们的理论结果外,我们还将我们的方法与最近提出的各种政策集施工方法进行了比较,并表明其他人失败,我们的方法能够建立一种行为基础,使能够瞬间转移到所有可能的下游任务。我们还经验展示了访问一组独立策略,可以更好地引导在下游任务上的学习过程,其中新奖励功能不能被描述为特征的线性组合。最后,我们证明了这一政策组可以在逼真的终身加强学习环境中有用。
translated by 谷歌翻译