即使对于简单的任务,通过强化学习(RL)培训的政策往往非常复杂。在以$ N $ Time步骤的一集中,策略将使有关采取行动的$ N $决定,其中许多可能对观察者似乎不直观。此外,目前尚不清楚这些决策直接有助于实现奖励以及他们的贡献有多重要。鉴于训练有素的政策,我们提出了一种基于反事实推理的黑匣子方法,估计这些决定对奖励达到的因果效应,并根据本估计划分决定。在这项初步工作中,我们将措施与替代,非因果,排名程序进行比较,突出基于因果关系的策略排名的好处,并讨论将因果算法整合到RL代理政策的解释中的潜在未来工作。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
加强学习(RL)在学术界和技术产业中获得了越来越多的吸引力,并推出了各种各样的有影响力的应用和产品。虽然研究正在积极地在许多方面进行(例如,离线RL,性能等),但许多RL从业者面临着基本忽略的挑战:确定设计的马尔可夫决策过程(MDP)是否有效和有意义。本研究提出了一种基于启发式的特征分析方法来验证MDP是否合理。我们认为,适合应用RL的MDP应包含一组状态特征,这些功能对动作和预测性依赖于奖励。我们在构造的环境中测试了我们的方法,表明我们的方法可以识别某些无效的环境制定。据我们所知,对RL问题配方进行有效性分析是一种新颖的方向。我们设想,我们的工具将作为一个动机示例,以帮助从业者更容易地将RL应用于现实世界问题。
translated by 谷歌翻译
强化学习中的信用作业是衡量行动对未来奖励的影响的问题。特别是,这需要从运气中分离技能,即解除外部因素和随后的行动对奖励行动的影响。为实现这一目标,我们将来自因果关系的反事件的概念调整为无模型RL设置。关键思想是通过学习从轨迹中提取相关信息来应对未来事件的价值函数。我们制定了一系列政策梯度算法,这些算法使用这些未来条件的价值函数作为基准或批评,并表明它们是可怕的差异。为避免对未来信息的调理潜在偏见,我们将后视信息限制为不包含有关代理程序行为的信息。我们展示了我们对许多说明性和具有挑战性问题的算法的功效和有效性。
translated by 谷歌翻译
人工智能的扩散越来越依赖于模型理解。理解既需要一种解释 - 关于模型行为的人类推理,又是解释 - 模型功能的象征性表示。尽管必须对安全性,信任和接受的透明度,但最先进的强化学习算法的不透明性掩盖了其学习策略的基础。我们已经开发了一种政策正规化方法,该方法主张了学识渊博的策略的全球固有亲和力。这些亲和力提供了一种关于政策行为的推理手段,从而使其固有地解释。我们已经在个性化的繁荣管理中展示了我们的方法,其中个人的支出行为及时决定了他们的投资策略,即不同的支出人物可能与不同的投资类别有不同的关联。现在,我们通过使用离散的Markov模型重现潜在的原型策略来解释我们的模型。这些全球替代物是原型政策的符号表示。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
Reinforcement Learning (RL) is a popular machine learning paradigm where intelligent agents interact with the environment to fulfill a long-term goal. Driven by the resurgence of deep learning, Deep RL (DRL) has witnessed great success over a wide spectrum of complex control tasks. Despite the encouraging results achieved, the deep neural network-based backbone is widely deemed as a black box that impedes practitioners to trust and employ trained agents in realistic scenarios where high security and reliability are essential. To alleviate this issue, a large volume of literature devoted to shedding light on the inner workings of the intelligent agents has been proposed, by constructing intrinsic interpretability or post-hoc explainability. In this survey, we provide a comprehensive review of existing works on eXplainable RL (XRL) and introduce a new taxonomy where prior works are clearly categorized into model-explaining, reward-explaining, state-explaining, and task-explaining methods. We also review and highlight RL methods that conversely leverage human knowledge to promote learning efficiency and performance of agents while this kind of method is often ignored in XRL field. Some challenges and opportunities in XRL are discussed. This survey intends to provide a high-level summarization of XRL and to motivate future research on more effective XRL solutions. Corresponding open source codes are collected and categorized at https://github.com/Plankson/awesome-explainable-reinforcement-learning.
translated by 谷歌翻译
实际因果关系和紧密相关的责任归因概念对于负责任的决策至关重要。实际因果关系侧重于特定结果,并旨在确定对实现兴趣结果至关重要的决策(行动)。责任归因是互补的,旨在确定决策者(代理人)对此结果负责的程度。在本文中,我们研究了在不确定性下用于多代理顺序决策的广泛使用框架下的这些概念:分散的部分可观察到的马尔可夫决策过程(DEC-POMDPS)。在RL中显示了POMDP和结构因果模型(SCM)之间的对应关系之后,我们首先在DECPOMDPS和SCMS之间建立了联系。此连接使我们能够利用一种语言来描述先前工作中的实际因果关系,并研究DECOMDPS中实际因果关系的现有定义。鉴于某些众所周知的定义可能导致违反直觉的实际原因,我们引入了一个新颖的定义,该定义更明确地说明了代理人行为之间的因果关系。然后,我们根据实际因果关系转向责任归因,我们认为,在将责任归因于代理商时,重要的是要考虑代理人参与的实际原因数量以及操纵自己的责任程度的能力。在这些论点的激励下,我们介绍了一种责任归因方法,该方法扩展了先前的工作,同时考虑到上述考虑因素。最后,通过基于仿真的实验,我们比较了实际因果关系和责任归因方法的不同定义。经验结果证明了实际因果关系的定义与其对归因责任的影响之间的定性差异。
translated by 谷歌翻译
关于人类是否有自由的辩论是几个世纪以来的争夺。虽然有良好的论据,基于我们目前对大自然法律的理解,虽然人类不可能自由的意志,但大多数人都相信他们。这种差异乞求解释。如果我们接受我们没有自由的意志,我们面临着两个问题:(1)虽然自由是一个非常常用的概念,每个人都直觉理解,我们实际提到的是,当我们说行动或选择时,我们实际上是什么?免费“或不是?而且,(2)为什么自由的信念会如此共同?这种信念来自哪里,它的目的是什么?在本文中,我们从加强学习(RL)的角度来看这些问题。 RL是最初为培训人工智能代理制定的框架。然而,它也可以用作人为决策和学习的计算模型,并通过这样做,我们建议通过观察人们的常识理解自由来回回答第一问题与信息熵密切相关RL代理的归一化行动值,而第二个可以通过代理人来制定本身的必要性,就像他们在处理时间信用分配问题时所做的那样做出决定。简而言之,我们建议通过将RL框架应用为人类学习的模型,这变得明显,为了让我们有效地学习并聪明,我们需要将自己视为自由意志。
translated by 谷歌翻译
强化学习的主要方法是根据预期的回报将信贷分配给行动。但是,我们表明回报可能取决于政策,这可能会导致价值估计的过度差异和减慢学习的速度。取而代之的是,我们证明了优势函数可以解释为因果效应,并与因果关系共享相似的属性。基于此洞察力,我们提出了直接优势估计(DAE),这是一种可以对优势函数进行建模并直接从政策数据进行估算的新方法,同时同时最大程度地减少了返回的方差而无需(操作 - )值函数。我们还通过显示如何无缝整合到DAE中来将我们的方法与时间差异方法联系起来。所提出的方法易于实施,并且可以通过现代参与者批评的方法很容易适应。我们对三个离散控制域进行经验评估DAE,并表明它可以超过广义优势估计(GAE),这是优势估计的强大基线,当将大多数环境应用于策略优化时。
translated by 谷歌翻译
进化策略(ES)是一种基于自然进化概念的强大黑盒优化技术。在其每个迭代中,一个关键步骤都需要根据一些健身分数进行排名候选解决方案。对于增强学习的ES方法(RL),此排名步骤需要评估多个策略。目前是通过政策方法完成的:通过使用该策略与环境进行多次交互来估算每个政策的分数。这导致了很多浪费的互动,因为一旦排名完成,与排名最高的策略相关的数据仅用于后续学习。为了提高样品效率,我们基于适应性函数的局部近似,提出了一种新型的分支替代方案。我们在称为增强随机搜索(ARS)的最先进的ES方法的背景下演示了我们的想法。 Mujoco任务中的仿真表明,与原始ARS相比,我们的非政策变体具有相似的运行时间,即可达到奖励阈值,但仅需要70%左右的数据。它还胜过最近的信任区域。我们认为我们的想法也应该扩展到其他ES方法。
translated by 谷歌翻译
我们建议将人工智能与学习最佳基金管理人员的最佳投资实践相结合的简单实用方法,并提供提出改进的建议。我们的方法是基于逆钢筋学习(IRL)和RL的组合。首先,IRL组件了解其交易历史建议的基金管理人员的意图,并恢复了其隐含的奖励功能。在第二步,直接RL算法使用该奖励功能来优化资产分配决策。我们表明我们的方法能够改善各个基金管理人员的表现。
translated by 谷歌翻译
软件测试活动旨在找到软件产品的可能缺陷,并确保该产品满足其预期要求。一些软件测试接近的方法缺乏自动化或部分自动化,这增加了测试时间和整体软件测试成本。最近,增强学习(RL)已成功地用于复杂的测试任务中,例如游戏测试,回归测试和测试案例优先级,以自动化该过程并提供持续的适应。从业者可以通过从头开始实现RL算法或使用RL框架来使用RL。开发人员已广泛使用这些框架来解决包括软件测试在内的各个领域中的问题。但是,据我们所知,尚无研究从经验上评估RL框架中实用算法的有效性和性能。在本文中,我们凭经验研究了精心选择的RL算法在两个重要的软件测试任务上的应用:在连续集成(CI)和游戏测试的上下文中测试案例的优先级。对于游戏测试任务,我们在简单游戏上进行实验,并使用RL算法探索游戏以检测错误。结果表明,一些选定的RL框架,例如Tensorforce优于文献的最新方法。为了确定测试用例的优先级,我们在CI环境上运行实验,其中使用来自不同框架的RL算法来对测试用例进行排名。我们的结果表明,在某些情况下,预实算算法之间的性能差异很大,激励了进一步的研究。此外,建议对希望选择RL框架的研究人员进行一些基准问题的经验评估,以确保RL算法按预期执行。
translated by 谷歌翻译
本文有助于将读者介绍到多功能增强学习(MARL)领域及其与因果关系研究的方法的交叉。我们突出了Marl中的关键挑战,并在因因果方法如何协助解决它们的情况下讨论这些问题。我们促进了对Marl的'因果首先'的透视。具体而言,我们认为因果关系可以提高安全性,可解释性和稳健性,同时还为紧急行为提供了强烈的理论保障。我们讨论潜在的挑战解决方案,并使用这种背景激励未来的研究方向。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
深度加强学习(RL)代理在一系列复杂的控制任务中变得越来越精通。然而,由于引入黑盒功能,代理的行为通常很难解释,使得难以获得用户的信任。虽然存在一些基于视觉的RL的有趣的解释方法,但大多数人都无法发现时间因果信息,提高其可靠性的问题。为了解决这个问题,我们提出了一个时间空间因果解释(TSCI)模型,以了解代理人的长期行为,这对于连续决策至关重要。 TSCI模型构建了颞会因果关系的制定,这反映了连续观测结果与RL代理的决策之间的时间因果关系。然后,采用单独的因果发现网络来识别时间空间因果特征,这被限制为满足时间因果关系。 TSCI模型适用于复发代理,可用于发现培训效率高效率的因果特征。经验结果表明,TSCI模型可以产生高分辨率和敏锐的关注掩模,以突出大多数关于视觉的RL代理如何顺序决策的最大证据的任务相关的时间空间信息。此外,我们还表明,我们的方法能够为从时刻视角提供有价值的基于视觉的RL代理的因果解释。
translated by 谷歌翻译
Reinforcement Learning (RL) algorithms are known to scale poorly to environments with many available actions, requiring numerous samples to learn an optimal policy. The traditional approach of considering the same fixed action space in every possible state implies that the agent must understand, while also learning to maximize its reward, to ignore irrelevant actions such as $\textit{inapplicable actions}$ (i.e. actions that have no effect on the environment when performed in a given state). Knowing this information can help reduce the sample complexity of RL algorithms by masking the inapplicable actions from the policy distribution to only explore actions relevant to finding an optimal policy. This is typically done in an ad-hoc manner with hand-crafted domain logic added to the RL algorithm. In this paper, we propose a more systematic approach to introduce this knowledge into the algorithm. We (i) standardize the way knowledge can be manually specified to the agent; and (ii) present a new framework to autonomously learn these state-dependent action constraints jointly with the policy. We show experimentally that learning inapplicable actions greatly improves the sample efficiency of the algorithm by providing a reliable signal to mask out irrelevant actions. Moreover, we demonstrate that thanks to the transferability of the knowledge acquired, it can be reused in other tasks to make the learning process more efficient.
translated by 谷歌翻译
奖励是加强学习代理的动力。本文致力于了解奖励的表现,作为捕获我们希望代理人执行的任务的一种方式。我们在这项研究中涉及三个新的抽象概念“任务”,可能是可取的:(1)一组可接受的行为,(2)部分排序,或者(3)通过轨迹的部分排序。我们的主要结果证明,虽然奖励可以表达许多这些任务,但每个任务类型的实例都没有Markov奖励函数可以捕获。然后,我们提供一组多项式时间算法,其构造Markov奖励函数,允许代理优化这三种类型中的每种类型的任务,并正确确定何时不存在这种奖励功能。我们得出结论,具有证实和说明我们的理论发现的实证研究。
translated by 谷歌翻译
在复杂的任务中,奖励函数并不简单,并且由一组目标,多种强化学习(RL)策略充分地执行任务,但可以通过调整个人目标对奖励功能的影响来训练不同的策略。了解政策之间的策略差异是必要的,使用户能够在提供的策略之间进行选择,可以帮助开发人员了解从各种奖励功能中出现的不同行为,并在RL系统中培训QuantEnparameters。在这项工作中,我们可以比较两项训练在同一任务的两项政策的行为,但在目标中具有不同的偏好。我们提出了一种区分源自来自不同能力的行为的差异的方法,这是两种R1代理商的偏好的结果。此外,我们只使用基于优先级的差异数据,以便产生关于代理偏好的对比解释。最后,我们在自主驾驶任务上测试和评估我们的方法,并比较安全导向政策的行为和更喜欢速度的行为。
translated by 谷歌翻译
许多增强学习(RL)环境包括独立实体,这些实体稀疏地互动。在这种环境中,RL代理商在任何特定情况下对其他实体的影响仅受限。我们在这项工作中的想法是,通过了解代理人可以通过其行动的何时以及何时何地效力,可以有效地指导。为实现这一目标,我们根据条件互信息介绍\ emph {情况依赖性因果影响},并表明它可以可靠地检测影响的态度。然后,我们提出了几种方法将这种措施集成到RL算法中,以改善探索和禁止政策学习。所有修改的算法都显示出机器人操纵任务的数据效率强劲增加。
translated by 谷歌翻译