有条件的价值 - 风险(CVAR)精确地表征了稀有,灾难性事件可以在决策中施加的影响。这些表征对于正常决策和焦虑症(如焦虑症)的精神病条件都很重要 - 特别是对于最终可能导致灾难的决定序列。Cvar,如其他良好的风险措施,在这些序列中以复杂的方式化合物 - 并且我们最近正式地形成了三种结构不同的形式,其中风险平均或乘法。不幸的是,现有的认知任务未能辨别这些方法;在这里,我们提供了突出其独特特征的示例,并使正式的链接到时间折扣,这两种方法是一致的。这些例子可以将未来的实验与更广泛的实验进行了成绩,表征风险态度,特别是对于更长的地平线问题和精神病理学人群。
translated by 谷歌翻译
分类加强学习(RL) - 其中代理人了解其行动的所有可能的长期后果,而不仅仅是预期的价值 - 最近的兴趣。分配视图的最重要可接受性之一是在结果不完全确定的情况下促进现代,测量的,风险的风险。相比之下,在风险下决策的心理和神经科学调查利用了各种更令人尊敬的理论模型,例如缺乏公理理想的性质,例如连贯性。在这里,我们考虑了用于建模人类和动物规划的风险措施,称为有条件的价值 - 风险(CVAR),这量化了最坏情况结果(例如,车辆事故或捕食)。我们首先在连续的情况下采用传统的分布方法,在序列环境中,在众所周知的两步任务中重新分析人类决策者的选择,揭示了在粘性和坚持下潜伏的大量风险厌恶。然后,我们考虑风险敏感性的进一步关键特性,即时间一致性,显示出这种形式的CVAR的替代品,享受这种理想的特征。我们使用模拟来检查各种形式的设置,其中各种形式因对人类和动物规划和行为而产生影响的方式。
translated by 谷歌翻译
通常,在加固学习(RL)中,奖励会随着时间的流逝而使用指数函数来模拟时间偏好,从而限制了预期的长期奖励。相反,在经济学和心理学中,已经表明人类通常采用双曲线折现方案,当假定特定的任务终止时间分布时,这是最佳的。在这项工作中,我们提出了一种基于连续的基于模型的强化学习的理论,将其推广到任意折扣功能。该公式涵盖了存在非指数随机终止时间的情况。我们得出了表征最佳策略的汉密尔顿 - 雅各比 - 贝尔曼(HJB)方程,并描述了如何使用搭配方法来求解它,该方法使用深度学习进行函数近似。此外,我们展示了如何解决逆RL问题,其中人们试图恢复给定决策数据的折现功能的属性。我们在两个模拟问题上验证了我们提出的方法的适用性。我们的方法为分析在顺序决策任务中分析人类折现的道路开辟了道路。
translated by 谷歌翻译
von Neumann-Morgenstern(VNM)实用程序定理表明,在某些合理性的公理下,决策将减少以最大程度地提高某些效用函数的期望。我们将这些公理扩展到日益结构化的顺序决策设置,并确定相应的实用程序函数的结构。特别是,我们表明,无内存的偏好会导致以每次过渡奖励和未来回报的乘法因素的形式产生实用性。该结果激发了马尔可夫决策过程(MDP)的概括,并在代理的申报表上使用此结构,我们称之为Affine-Reward-Reward MDP。需要对偏好的更强限制来恢复MDP中常用的标量奖励总和。尚未更强的约束简化了目标寻求代理的效用功能,以我们调用潜在功能的状态的某些函数的差异形式。我们的必要条件揭示了奖励假设,即通过在VNM理性公理中添加公理,并激发了涉及顺序决策的AI研究的新方向,从而使理性代理在增强学习中的设计构成了奖励假设。
translated by 谷歌翻译
The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis. This will not conclude with a simple affirmation or refutation, but rather specify completely the implicit requirements on goals and purposes under which the hypothesis holds.
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
在强化学习(RL)中,目标是获得最佳政策,最佳标准在根本上至关重要。两个主要的最优标准是平均奖励和打折的奖励。虽然后者更受欢迎,但在没有固有折扣概念的情况下,在环境中申请是有问题的。这促使我们重新审视a)动态编程中最佳标准的进步,b)人工折现因子的理由和复杂性,c)直接最大化平均奖励标准的好处,这是无折扣的。我们的贡献包括对平均奖励和打折奖励之间的关系以及对RL中的利弊的讨论之间的关系。我们强调的是,平均奖励RL方法具有将无折扣优化标准(Veinott,1969)应用于RL的成分和机制。
translated by 谷歌翻译
Reinforcement-learning agents seek to maximize a reward signal through environmental interactions. As humans, our contribution to the learning process is through designing the reward function. Like programmers, we have a behavior in mind and have to translate it into a formal specification, namely rewards. In this work, we consider the reward-design problem in tasks formulated as reaching desirable states and avoiding undesirable states. To start, we propose a strict partial ordering of the policy space. We prefer policies that reach the good states faster and with higher probability while avoiding the bad states longer. Next, we propose an environment-independent tiered reward structure and show it is guaranteed to induce policies that are Pareto-optimal according to our preference relation. Finally, we empirically evaluate tiered reward functions on several environments and show they induce desired behavior and lead to fast learning.
translated by 谷歌翻译
传统上,欧几里德几何形状被科学家视为先验和目标。然而,当我们采取代理的位置时,选择最佳路线的问题也应考虑代理人,其实施例,特别是其认知努力的能力。在本文中,我们通过将信息处理成本与适当的空间距离合并信息处理成本,在世界内的状态之间考虑几何形状。这引起了一种几何形状,越来越不同于给定世界的原始几何形状,因为信息成本变得越来越重要。我们通过将其投射到2和三维空间来显示此\ Texit {“认知几何”},显示出不同的失真,反映了认知和信息节约策略以及枢转状态。通过其他信息成本引起的传统成本几何形状与那些之间的类比邀请了作为对\ Texit {InfodeSics}概念的最便宜路线的传统Geodesics概念的概括。至关重要的是,InfodeSics的概念近似于通常的几何特性,从开始到沿着GeodeSic的目标,而不仅仅是目标,而且所有中间点都以最佳成本从一开始就被访问。
translated by 谷歌翻译
直接从观察数据中直接从观察数据中学习最佳患者的最佳治疗策略,人们对利用RL和随机控制方法有很大的兴趣。但是,控制目标和标准RL目标的最佳奖励选择存在明显的歧义。在这项工作中,我们提出了针对重症患者的临床动机控制目标,该价值功能具有简单的医学解释。此外,我们提出理论结果并将我们的方法调整为实用的深度RL算法,该算法可以与任何基于值的深度RL方法一起使用。我们在大型败血症队列上进行实验,并表明我们的方法与临床知识一致。
translated by 谷歌翻译
主动推断是建模生物学和人造药物的行为的概率框架,该框架源于最小化自由能的原理。近年来,该框架已成功地应用于各种情况下,其目标是最大程度地提高奖励,提供可比性,有时甚至是卓越的性能与替代方法。在本文中,我们通过演示如何以及何时进行主动推理代理执行最佳奖励的动作来阐明奖励最大化和主动推断之间的联系。确切地说,我们展示了主动推理为Bellman方程提供最佳解决方案的条件 - 这种公式是基于模型的增强学习和控制的几种方法。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以为计划视野1的最佳动作产生最佳动作,但不能超越。相比之下,最近开发的递归活跃推理方案(复杂的推理)可以在任何有限的颞范围内产生最佳作用。我们通过讨论主动推理和强化学习之间更广泛的关系来补充分析。
translated by 谷歌翻译
假设人类(大约)理性使机器人能够通过观察人类行为来推断奖励功能。但人们展出了各种各样的非理性,我们与这项工作的目标是更好地了解他们可以对奖励推论的影响。研究这种效果的挑战是存在许多类型的非理性,具有不同程度的数学形式化。因此,通过改变Bellman Optimaly公式,使用本框架来研究这些框架会如何影响推理的框架,从而通过改变MDP的语言。我们发现错误地建模一个系统地造型的人类,因为嘈杂的理性比正确捕获这些偏差更糟糕 - 这么多,因此可以更好地跳过推动并坚持先前!更重要的是,我们表明,在正确建模时,一个非理性人类可以传达有关奖励的更多信息,而不是完全合理的人体。也就是说,如果机器人具有正确的人类非理性模型,如果人类是理性的,它可以使推论比它能够更强大。非理性基本上有助于而不是阻碍奖励推断,但需要正确占用。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
标准深度强化学习(DRL)旨在考虑收集的经验在制定政策方面的经验,旨在最大程度地提高预期奖励。这与人类决策不同,在人类的决策中,收益和损失的重视程度有所不同,而外围的结果被越来越多。它也无法利用通过合并分配环境来提高安全性和/或绩效的机会。已经研究了几种分配DRL的方法,其中一种流行的策略是评估预计的可能行动收益分配。我们提出了一种更直接的方法,通过优化了根据全剧集奖励的分布累积分布函数(CDF)指定的风险敏感目标。这种方法允许根据相对质量权衡结果,可用于连续和离散的动作空间,并且自然可以在约束和不受约束的设置中应用。我们展示了如何通过抽样来计算广泛的风险敏感目标的政策梯度的渐近一致估计,随后纳入了降低方差和正则化措施,以促进有效的实质性学习。然后,我们证明使用中等“悲观”的风险概况,强调了代理商表现不佳的场景,从而导致了增强的探索,并不断地专注于解决缺陷。我们在六个OpenAI安全健身房环境中使用不同的风险概况测试了该方法,与最先进的政策方法相比。没有成本限制,我们发现悲观的风险概况可用于降低成本,同时改善总奖励积累。借助成本限制,他们可以以规定的允许成本提供比风险中立的方法更高的积极奖励。
translated by 谷歌翻译
我们介绍了有关风险分析与自治系统控制之间的联系的历史概述。我们提供两个主要贡献。我们的第一个贡献是提出三个重叠的范式,以对庞大的文献进行分类:最严重的案例,风险中性和风险避免风险的范式。我们考虑对自治系统依赖手头应用的风险进行适当的评估。相比之下,仅使用预期,差异或概率来评估风险是典型的。我们的第二个贡献是统一风险和自治系统的概念。我们通过连接量化和优化从学术领域的系统行为引起的风险的方法来实现这一目标。该调查是高度多学科的。我们包括来自强化学习,随机和健壮的控制理论,运营研究和正式验证的研究。我们描述了基于模型的方法和无模型方法,重点是前者。最后,我们重点介绍了富有成果的领域,以供进一步研究。一个关键方向是将基于风险的模型和无模型的方法融合在一起,以增强系统的实时自适应能力,以改善人类和环境福利。
translated by 谷歌翻译
Classical reinforcement learning (RL) techniques are generally concerned with the design of decision-making policies driven by the maximisation of the expected outcome. Nevertheless, this approach does not take into consideration the potential risk associated with the actions taken, which may be critical in certain applications. To address that issue, the present research work introduces a novel methodology based on distributional RL to derive sequential decision-making policies that are sensitive to the risk, the latter being modelled by the tail of the return probability distribution. The core idea is to replace the $Q$ function generally standing at the core of learning schemes in RL by another function taking into account both the expected return and the risk. Named the risk-based utility function $U$, it can be extracted from the random return distribution $Z$ naturally learnt by any distributional RL algorithm. This enables to span the complete potential trade-off between risk minimisation and expected return maximisation, in contrast to fully risk-averse methodologies. Fundamentally, this research yields a truly practical and accessible solution for learning risk-sensitive policies with minimal modification to the distributional RL algorithm, and with an emphasis on the interpretability of the resulting decision-making process.
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
奖励是加强学习代理的动力。本文致力于了解奖励的表现,作为捕获我们希望代理人执行的任务的一种方式。我们在这项研究中涉及三个新的抽象概念“任务”,可能是可取的:(1)一组可接受的行为,(2)部分排序,或者(3)通过轨迹的部分排序。我们的主要结果证明,虽然奖励可以表达许多这些任务,但每个任务类型的实例都没有Markov奖励函数可以捕获。然后,我们提供一组多项式时间算法,其构造Markov奖励函数,允许代理优化这三种类型中的每种类型的任务,并正确确定何时不存在这种奖励功能。我们得出结论,具有证实和说明我们的理论发现的实证研究。
translated by 谷歌翻译
先前关于安全加强学习的工作(RL)研究了对动态(aleatory)随机性的风险规避,并隔离地模拟了不确定性(认知)。我们提出并分析一个新框架,以共同对有限马和折现的无限马MDP中的认知和差异不确定性相关的风险进行建模。我们称此框架结合了规避风险和软性的方法RASR。我们表明,当使用EVAR或熵风险定义风险规定时,可以使用具有时间依赖性风险水平的新的动态程序公式有效地计算RASR中的最佳策略。结果,即使是在无限 - 亨特折扣环境中,最佳的规避风险政策也是确定性但依赖时间的。我们还表明,具有平均后验过渡概率的特定RASR目标减少到规避风险的RL。我们的经验结果表明,我们的新算法始终减轻EVAR和其他标准风险措施衡量的不确定性。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译