随着人工智能的兴趣,与自主代的人类相互作用变得更加频繁。有效的人类代理协作要求用户了解代理人的行为,因为未能这样做可能会导致生产率降低,滥用或挫折。代理战略摘要方法用于通过演示将代理人的策略描述为其分发用户。摘要的目标是通过在选定的世界州中展示其行为来最大限度地提高用户对代理能力的理解。虽然显示是有用的,但我们表明当特定代理的特定代理人独立生成每个摘要时,当任务时,当前方法有限。在本文中,我们提出了一种新的方法,可以通过识别代理人对最佳行动方案的国家来说强调代理政策之间的差异。我们进行用户研究,以评估分歧的综述鉴定优异代理和传达代理差异的有用性。结果表明,与使用亮点生成的概要相比,基于分歧的摘要导致用户性能提高,该概述,一种独立地为每个代理生成摘要。
translated by 谷歌翻译
在复杂的任务中,奖励函数并不简单,并且由一组目标,多种强化学习(RL)策略充分地执行任务,但可以通过调整个人目标对奖励功能的影响来训练不同的策略。了解政策之间的策略差异是必要的,使用户能够在提供的策略之间进行选择,可以帮助开发人员了解从各种奖励功能中出现的不同行为,并在RL系统中培训QuantEnparameters。在这项工作中,我们可以比较两项训练在同一任务的两项政策的行为,但在目标中具有不同的偏好。我们提出了一种区分源自来自不同能力的行为的差异的方法,这是两种R1代理商的偏好的结果。此外,我们只使用基于优先级的差异数据,以便产生关于代理偏好的对比解释。最后,我们在自主驾驶任务上测试和评估我们的方法,并比较安全导向政策的行为和更喜欢速度的行为。
translated by 谷歌翻译
在本文中,我们研究了不确定性下的顺序决策任务中可读性的概念。以前的作品将易读性扩展到了机器人运动以外的方案,要么集中在确定性设置上,要么在计算上太昂贵。我们提出的称为POL-MDP的方法能够处理不确定性,同时保持计算障碍。在几种不同复杂性的模拟场景中,我们建立了反对最新方法的方法的优势。我们还展示了将我们的清晰政策用作反向加强学习代理的示范,并根据最佳政策建立了他们的优越性。最后,我们通过用户研究评估计算政策的可读性,在该研究中,要求人们通过观察其行动来推断移动机器人的目标。
translated by 谷歌翻译
In the learning from demonstration (LfD) paradigm, understanding and evaluating the demonstrated behaviors plays a critical role in extracting control policies for robots. Without this knowledge, a robot may infer incorrect reward functions that lead to undesirable or unsafe control policies. Recent work has proposed an LfD framework where a user provides a set of formal task specifications to guide LfD, to address the challenge of reward shaping. However, in this framework, specifications are manually ordered in a performance graph (a partial order that specifies relative importance between the specifications). The main contribution of this paper is an algorithm to learn the performance graph directly from the user-provided demonstrations, and show that the reward functions generated using the learned performance graph generate similar policies to those from manually specified performance graphs. We perform a user study that shows that priorities specified by users on behaviors in a simulated highway driving domain match the automatically inferred performance graph. This establishes that we can accurately evaluate user demonstrations with respect to task specifications without expert criteria.
translated by 谷歌翻译
自2015年首次介绍以来,深入增强学习(DRL)方案的使用已大大增加。尽管在许多不同的应用中使用了使用,但他们仍然存在缺乏可解释性的问题。面包缺乏对研究人员和公众使用DRL解决方案的使用。为了解决这个问题,已经出现了可解释的人工智能(XAI)领域。这是各种不同的方法,它们希望打开DRL黑框,范围从使用可解释的符号决策树到诸如Shapley值之类的数值方法。这篇评论研究了使用哪些方法以及使用了哪些应用程序。这样做是为了确定哪些模型最适合每个应用程序,或者是否未充分利用方法。
translated by 谷歌翻译
我们开发了增强学习(RL)框架,用于通过稀疏,用户解释的更改来改善现有行为策略。我们的目标是在获得尽可能多的收益的同时进行最小的改变。我们将最小的变化定义为在原始政策和拟议的政策之间具有稀疏的全球对比解释。我们改善了当前的政策,以使全球对比解释的简短限制。我们使用离散的MDP和连续的2D导航域来演示我们的框架。
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译
深度强化学习(RL)涉及使用深神经网络(DNN)来做出顺序决策,以最大程度地提高奖励。对于许多任务,由深度RL政策产生的一系列动作顺序对于人类来说可能是漫长而难以理解的。人类解释的一个关键组成部分是选择性,仅叙述关键决定和原因。使深层RL代理具有这种能力,将使他们的产生政策从人的角度更容易理解,并产生一套简洁的指示,以帮助学习未来的代理商。为此,我们使用具有情节内存系统的深度RL代理来识别和叙述策略执行期间的关键决策。我们表明,这些决策形成了一个简短的可读解释,也可以用来以算法独立的方式加快对天真的深度RL代理的学习。
translated by 谷歌翻译
交互式增强学习建议使用外部信息,以加快学习过程。当与学习者互动时,人类可以提供评估或有益的建议。先前的研究通过在交互式增强学习过程中包括实时反馈,专门旨在提高代理商的学习速度,同时最大程度地减少对人类的时间的需求,从而重点关注人类建议的效果。这项工作重点是回答两种评估或信息性的方法中的哪种是人类的首选教学方法。此外,这项工作为人类试验提供了实验设置,旨在比较人们用来提供人类参与建议的方法。获得的结果表明,向学习者提供信息的用户提供了更准确的建议,愿意在更长的时间内为学习者提供帮助,并每集提供更多建议。此外,使用信息丰富的方法的参与者的自我评估表明,与提供评估建议的人相比,代理商遵循建议的能力更高,因此,他们认为自己的建议的准确性更高。
translated by 谷歌翻译
The reinforcement learning paradigm is a popular way to address problems that have only limited environmental feedback, rather than correctly labeled examples, as is common in other machine learning contexts. While significant progress has been made to improve learning in a single task, the idea of transfer learning has only recently been applied to reinforcement learning tasks. The core idea of transfer is that experience gained in learning to perform one task can help improve learning performance in a related, but different, task. In this article we present a framework that classifies transfer learning methods in terms of their capabilities and goals, and then use it to survey the existing literature, as well as to suggest future directions for transfer learning work.
translated by 谷歌翻译
增强学习(RL)的潜力是通过奖励工程问题的部分瓶颈部分瓶颈。启发式试验和错误的一个替代方案是基于偏好的RL(PBRL),其中奖励函数从稀疏的人体反馈推断出来。然而,先前的PBR方法缺乏学习奖励结构的可解释性,这妨碍了评估鲁棒性和对准的能力。我们提出了一种在线,积极的偏好学习算法,用树木的本质上可解释,构成结构构建奖励功能。使用合成和人为提供的反馈,我们在若干环境中展示了树结构奖励功能的样本高效学习,然后利用增强的解释性来探索和调试进行对齐。
translated by 谷歌翻译
人类决策受到许多系统错误的困扰。可以通过提供决策辅助工具来指导决策者参与重要信息并根据理性决策策略将其集成,从而避免使用这些错误。设计这样的决策辅助工具曾经是一个乏味的手动过程。认知科学的进步可能会使将来自动化这一过程。我们最近引入了机器学习方法,以自动发现人类决策的最佳策略,并自动向人们解释这些策略。通过这种方法构建的决策辅助工具能够改善人类决策。但是,遵循该方法产生的描述非常乏味。我们假设可以通过将自动发现的决策策略作为一系列自然语言指示来克服这个问题。实验1表明,人们确实确实比以前的方法更容易理解此类程序说明。在这一发现的鼓励下,我们开发了一种将我们先前方法的输出转化为程序指示的算法。我们应用了改进的方法来自动为自然主义计划任务(即计划旅行)和自然主义决策任务(即选择抵押)生成决策辅助工具。实验2表明,这些自动产生的决策AID可显着改善人们在计划公路旅行和选择抵押贷款方面的表现。这些发现表明,AI驱动的增强可能有可能改善现实世界中的人类决策。
translated by 谷歌翻译
我们展示了单轨道路问题。在这个问题中,两个代理在一条道路的相对位置时面对每个代理,这一次只能有一个试剂通过。我们专注于一个代理人是人类的情景,而另一个是一种自主代的代理人。我们在一个简单的网格域中与人类对象进行实验,这模拟了单轨道路问题。我们表明,当数据有限时,建立准确的人类模型是非常具有挑战性的,并且基于该数据的加强学习代理在实践中表现不佳。但是,我们表明,试图最大限度地提高人力效用和自己的实用程序的线性组合的代理,达到了高分,并且显着优于其他基线,包括试图仅最大化其自身的实用性的代理。
translated by 谷歌翻译
工人花费大量时间学习如何做出正确的决定。但是,评估给定决策的功效可能很复杂 - 例如,决策结果通常是长期的,并且以复杂的方式与原始决策有关。令人惊讶的是,即使学习良好的决策策略很困难,它们通常可以以简单明了的形式表达。为了关注顺序决策,我们设计了一种新颖的机器学习算法,该算法能够从跟踪数据中提取“最佳实践”,并以可解释的“提示”的形式向人类传达其见解。我们的算法选择了最能弥合人类工人所采取的行动与最佳政策所采取的行动之间差距的提示,以说明行动对实现更高绩效的影响的方式。我们通过一系列参与者管理虚拟厨房的一系列随机对照实验来评估我们的方法。我们的实验表明,我们算法产生的提示可以显着改善相对于直观基准的人类性能。此外,我们讨论了许多经验见解,这些见解可以帮助告知针对人类界面的算法设计。例如,我们发现参与者不仅盲目地遵循我们的技巧的证据。相反,他们将他们与自己的经验结合在一起,以发现改善性能的其他策略。
translated by 谷歌翻译
每年,在越来越复杂的多种域名,包括GO,Poker和Starcraft II在内的著名示例中都能达到专家级的性能。这种快速的进步伴随着相应的需求,以更好地了解这种代理如何实现这种绩效,以实现其安全的部署,确定局限性并揭示其改善它们的潜力。在本文中,我们从以性能为中心的多种学习中退后一步,而是将注意力转向代理行为分析。我们介绍了一种模型 - 反应方法,用于使用变异推理在多种基因域中发现行为簇,以学习关节和局部代理水平的行为层次结构。我们的框架没有对代理的基础学习算法的假设,不需要访问其潜在状态或模型,并且可以使用完全离线观察数据进行培训。我们说明了我们方法在联合和地方代理层面上对行为的耦合理解的有效性,在整个培训过程中检测行为变更点,发现核心行为概念(例如,那些促进更高回报的核心行为概念)的有效性,并证明了方法的可扩展性高维的多基金会木叶控制结构域。
translated by 谷歌翻译
近年来,在可解释的AI中取得了重大进展,因为了解深度学习模型的需求已成为人们对AI的信任和道德规范的越来越重要的重要性。顺序决策任务的可理解模型是一个特殊的挑战,因为它们不仅需要了解个人预测,而且需要了解与环境动态相互作用的一系列预测。我们提出了一个框架,用于学习顺序决策任务的可理解模型,在该模型中,使用时间逻辑公式对代理策略进行表征。给定一组试剂痕迹,我们首先使用一种捕获频繁的动作模式的新型嵌入方法聚集痕迹。然后,我们搜索逻辑公式,以解释不同簇中的代理策略。我们使用手工制作的专家政策和受过训练的强化学习代理商的痕迹评估了《星际争霸II》(SC2)中战斗场景的框架。我们为SC2环境实现了一个功能提取器,该功能提取器将痕迹作为高级特征的序列,描述了环境状态和代理重播中代理的本地行为。我们进一步设计了一个可视化工具,描述了环境中单元的运动,这有助于了解不同的任务条件如何导致每个跟踪群集中不同的代理行为模式。实验结果表明,我们的框架能够将试剂痕迹分离为不同的行为群体,我们的战略推理方法会产生一致,有意义且易于理解的策略描述。
translated by 谷歌翻译
本文解决了逆增强学习(IRL)的问题 - 从观察其行为中推断出代理的奖励功能。 IRL可以为学徒学习提供可概括和紧凑的代表,并能够准确推断人的偏好以帮助他们。 %并提供更准确的预测。但是,有效的IRL具有挑战性,因为许多奖励功能可以与观察到的行为兼容。我们专注于如何利用先前的强化学习(RL)经验,以使学习这些偏好更快,更高效。我们提出了IRL算法基础(通过样本中的连续功能意图推断行为获取行为),该算法利用多任务RL预培训和后继功能,使代理商可以为跨越可能的目标建立强大的基础,从而跨越可能的目标。给定的域。当仅接触一些专家演示以优化新颖目标时,代理商会使用其基础快速有效地推断奖励功能。我们的实验表明,我们的方法非常有效地推断和优化显示出奖励功能,从而准确地从少于100个轨迹中推断出奖励功能。
translated by 谷歌翻译
我们专注于创建强化学习代理的任务,这是固有的解释 - 能够通过大声思考,在执行任务并分析后HOC后产生因果解释的整个轨迹来产生直接的当地解释。这种分层解释的加强学习代理(Hex-RL),以互动虚构,基于文本的游戏环境运营,其中代理人使用文本自然语言对世界感知和行为。这些游戏通常被构造为具有长期依赖的谜题或任务,其中代理商必须完成一系列行动,以便在其中提供理想的环境,以测试代理商解释其行为的能力。我们的代理旨在使用基于提取的符号知识图形的状态表示来处理作为一流的公民的可解释性,其与分层图注意机制耦合,该方法指向大多数影响行动选择的内部图形表示中的事实。实验表明,该代理提供了对强强基线的显着改进的解释,这是人类参与者通常不熟悉环境的评分,同时也匹配最先进的任务表现。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
Humans are spectacular reinforcement learners, constantly learning from and adjusting to experience and feedback. Unfortunately, this doesn't necessarily mean humans are fast learners. When tasks are challenging, learning can become unacceptably slow. Fortunately, humans do not have to learn tabula rasa, and learning speed can be greatly increased with learning aids. In this work we validate a new type of learning aid -- reward shaping for humans via inverse reinforcement learning (IRL). The goal of this aid is to increase the speed with which humans can learn good policies for specific tasks. Furthermore this approach compliments alternative machine learning techniques such as safety features that try to prevent individuals from making poor decisions. To achieve our results we first extend a well known IRL algorithm via kernel methods. Afterwards we conduct two human subjects experiments using an online game where players have limited time to learn a good policy. We show with statistical significance that players who receive our learning aid are able to approach desired policies more quickly than the control group.
translated by 谷歌翻译