有希望的方法来提高加固学习中的鲁棒性和探索正在收集人的反馈,并纳入目标环境的先验知识。然而,它通常太昂贵,无法获得足够的质量反馈。为了减轻这个问题,我们的目标是依靠一组多个专家(和非专家),具有不同的技能水平来产生足够的反馈。因此,这种反馈可以不一致,不常见。在本文的情况下,我们在前工作开始 - 建议,贝叶斯方法试图最大限度地利用人类反馈中获得的信息 - 扩展了算法,接受来自这一较大的人类,培训师的反馈,同时估计每个培训师的可靠性。我们展示了多培训师的积极反馈如何提高总反馈的准确性,并以两种方式更轻松地使收集过程更容易。首先,这种方法解决了一些培训师是对抗性的。其次,访问有关每个培训师可靠性的信息提供第二层稳健性,为管理整个系统的人提供有价值的信息,以提高系统的整体信任。它提供了可操作的工具,用于改进反馈收集过程或在需要时修改奖励功能设计。我们经验表明,我们的方法可以正确地学习每个培训师的可靠性,并使用它来最大化从多培训师的反馈中获得的信息,即使某些源是普发的。
translated by 谷歌翻译
深度加强学习(DEEPRL)方法已广泛用于机器人学,以了解环境,自主获取行为。深度互动强化学习(Deepirl)包括来自外部培训师或专家的互动反馈,提供建议,帮助学习者选择采取行动以加快学习过程。但是,目前的研究仅限于仅为特工现任提供可操作建议的互动。另外,在单个使用之后,代理丢弃该信息,该用途在为Revisit以相同状态引起重复过程。在本文中,我们提出了广泛的建议(BPA),这是一种广泛的持久的咨询方法,可以保留并重新使用加工信息。它不仅可以帮助培训师提供与类似状态相关的更一般性建议,而不是仅仅是当前状态,而且还允许代理加快学习过程。我们在两个连续机器人场景中测试提出的方法,即购物车极衡任务和模拟机器人导航任务。所得结果表明,使用BPA的代理的性能在于与深层方法相比保持培训师所需的相互作用的数量。
translated by 谷歌翻译
分布式多智能经纪增强学习(Marl)算法最近引起了兴趣激增,主要是由于深神经网络(DNN)的最新进步。由于利用固定奖励模型来学习基础值函数,传统的基于模型(MB)或无模型(MF)RL算法不可直接适用于MARL问题。虽然涉及单一代理时,基于DNN的解决方案完全良好地表现出,但是这种方法无法完全推广到MARL问题的复杂性。换句话说,尽管最近的基于DNN的DNN用于多种子体环境的方法取得了卓越的性能,但它们仍然容易出现过度,对参数选择的高敏感性,以及样本低效率。本文提出了多代理自适应Kalman时间差(MAK-TD)框架及其继任者表示的基于代表的变体,称为MAK-SR。直观地说,主要目标是利用卡尔曼滤波(KF)的独特特征,如不确定性建模和在线二阶学习。提议的MAK-TD / SR框架考虑了与高维多算法环境相关联的动作空间的连续性,并利用卡尔曼时间差(KTD)来解决参数不确定性。通过利用KTD框架,SR学习过程被建模到过滤问题,其中径向基函数(RBF)估计器用于将连续空间编码为特征向量。另一方面,对于学习本地化奖励功能,我们求助于多种模型自适应估计(MMAE),处理缺乏关于观察噪声协方差和观察映射功能的先前知识。拟议的MAK-TD / SR框架通过多个实验进行评估,该实验通过Openai Gym Marl基准实施。
translated by 谷歌翻译
强化学习代理通过鼓励最大化其总奖励的行为来学习,通常由环境提供。然而,在许多环境中,在一系列行动而不是每个单一动作之后提供奖励,导致代理在这些操作是有效的方面遇到模糊性,称为信用分配问题的问题。在本文中,我们提出了由行为心理学启发的两种策略,使代理人能够在本质上估计更多信息奖励价值,以便没有奖励。第一个策略,称为自我惩罚(SP),劝阻代理人犯错误,导致不良终端状态。第二次策略,称为奖励回填(RB),退回两个奖励行动之间的奖励。我们证明,在某些假设和不管使用的加强学习算法的情况下,这两种策略在其总奖励方面维护了所有可能政策的空间中的政策顺序,并且通过扩展,维护最佳政策。因此,我们提出的策略与任何通过经验学习价值或动作值函数的任何强化学习算法。我们将这两种策略纳入三种流行的深度加强学习方法,并在三十塔塔利游戏中评估结果。参数调整后,我们的结果表明,拟议的策略将测试方法以超过25倍的性能改善提高了超过65%的测试游戏。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
最近的工作表明,通过将RL任务转换为监督学习任务,通过有条件的政策来解决离线加强学习(RL)可以产生有希望的结果。决策变压器(DT)结合了条件政策方法和变压器体系结构,以显示针对多个基准测试的竞争性能。但是,DT缺乏缝线能力 - 离线RL的关键能力之一,它从亚最佳轨迹中学习了最佳策略。当离线数据集仅包含亚最佳轨迹时,问题就变得很重要。另一方面,基于动态编程(例如Q学习)的常规RL方法不会遇到相同的问题;但是,他们患有不稳定的学习行为,尤其是当它在非政策学习环境中采用功能近似时。在本文中,我们提出了通过利用动态编程(Q-Learning)的好处来解决DT的缺点的Q学习决策者(QDT)。 QDT利用动态编程(Q-学习)结果来重新标记培训数据中的返回。然后,我们使用重新标记的数据训练DT。我们的方法有效利用了这两种方法的好处,并弥补了彼此的缺点,以取得更好的绩效。我们在简单的环境中演示了DT的问题和QDT的优势。我们还在更复杂的D4RL基准测试中评估了QDT,显示出良好的性能增长。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
Batch reinforcement learning is a subfield of dynamic programming-based reinforcement learning. Originally defined as the task of learning the best possible policy from a fixed set of a priori-known transition samples, the (batch) algorithms developed in this field can be easily adapted to the classical online case, where the agent interacts with the environment while learning. Due to the efficient use of collected data and the stability of the learning process, this research area has attracted a lot of attention recently. In this chapter, we introduce the basic principles and the theory behind batch reinforcement learning, describe the most important algorithms, exemplarily discuss ongoing research within this field, and briefly survey real-world applications of batch reinforcement learning.
translated by 谷歌翻译
平均野外游戏(MFGS)提供了一个可在数学上拖动的框架,用于通过利用平均场理论来简化代理之间的相互作用来建模大规模多代理系统。它使应用逆增强学习(IRL)能够通过从展示的行为中恢复奖励信号来预测大人群的行为。但是,现有的MFG的IRL方法无能为力,无法确定各个代理的行为中的不确定性。本文提出了一个新颖的框架,平均场对抗IRL(MF-AIRL),该框架能够解决示范中的不确定性。我们在最大熵IRL和新的平衡概念上建立MF-AIRL。我们通过不完美的演示评估了对模拟任务的方法。实验结果证明了MF-AIRL比奖励恢复中现有方法的优越性。
translated by 谷歌翻译
从人类反馈中进行交互学习的能力将使代理在新环境中。例如,即使是新手用户也可以自然和互动地培训服务机器人。人类在循环增强学习(HRL)结合了人类的反馈和增强学习(RL)技术。最先进的互动学习技术遭受缓慢的学习速度,因此导致了人类的沮丧经历。我们通过扩展HRL框架TAMER来评估反馈来解决此问题,并有可能通过两种不同类型的反事实解释(基于动作和状态)来增强人类反馈。我们通过实验表明,我们的扩展提高了学习速度。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
交互式增强学习建议使用外部信息,以加快学习过程。当与学习者互动时,人类可以提供评估或有益的建议。先前的研究通过在交互式增强学习过程中包括实时反馈,专门旨在提高代理商的学习速度,同时最大程度地减少对人类的时间的需求,从而重点关注人类建议的效果。这项工作重点是回答两种评估或信息性的方法中的哪种是人类的首选教学方法。此外,这项工作为人类试验提供了实验设置,旨在比较人们用来提供人类参与建议的方法。获得的结果表明,向学习者提供信息的用户提供了更准确的建议,愿意在更长的时间内为学习者提供帮助,并每集提供更多建议。此外,使用信息丰富的方法的参与者的自我评估表明,与提供评估建议的人相比,代理商遵循建议的能力更高,因此,他们认为自己的建议的准确性更高。
translated by 谷歌翻译
强化学习(RL)和脑电脑接口(BCI)是过去十年一直在增长的两个领域。直到最近,这些字段彼此独立操作。随着对循环(HITL)应用的兴趣升高,RL算法已经适用于人类指导,从而产生互动强化学习(IRL)的子领域。相邻的,BCI应用一直很感兴趣在人机交互期间从神经活动中提取内在反馈。这两个想法通过将BCI集成到IRL框架中,将RL和BCI设置在碰撞过程中,通过将内在反馈可用于帮助培训代理商来帮助框架。这种交叉点被称为内在的IRL。为了进一步帮助,促进BCI和IRL的更深层次,我们对内在IRILL的审查有着重点在于其母体领域的反馈驱动的IRL,同时还提供有关有效性,挑战和未来研究方向的讨论。
translated by 谷歌翻译
在这项工作中,我们提出了一种初步调查一种名为DYNA-T的新算法。在钢筋学习(RL)中,规划代理有自己的环境表示作为模型。要发现与环境互动的最佳政策,代理商会收集试验和错误时尚的经验。经验可用于学习更好的模型或直接改进价值函数和政策。通常是分离的,Dyna-Q是一种混合方法,在每次迭代,利用真实体验更新模型以及值函数,同时使用模拟数据从其模型中的应用程序进行行动。然而,规划过程是计算昂贵的并且强烈取决于国家行动空间的维度。我们建议在模拟体验上构建一个上置信树(UCT),并在在线学习过程中搜索要选择的最佳动作。我们证明了我们提出的方法对来自Open AI的三个测试平台环境的一系列初步测试的有效性。与Dyna-Q相比,Dyna-T通过选择更强大的动作选择策略来优于随机环境中的最先进的RL代理。
translated by 谷歌翻译
While reinforcement learning algorithms provide automated acquisition of optimal policies, practical application of such methods requires a number of design decisions, such as manually designing reward functions that not only define the task, but also provide sufficient shaping to accomplish it. In this paper, we view reinforcement learning as inferring policies that achieve desired outcomes, rather than as a problem of maximizing rewards. To solve this inference problem, we establish a novel variational inference formulation that allows us to derive a well-shaped reward function which can be learned directly from environment interactions. From the corresponding variational objective, we also derive a new probabilistic Bellman backup operator and use it to develop an off-policy algorithm to solve goal-directed tasks. We empirically demonstrate that this method eliminates the need to hand-craft reward functions for a suite of diverse manipulation and locomotion tasks and leads to effective goal-directed behaviors.
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
In recent years, unmanned aerial vehicle (UAV) related technology has expanded knowledge in the area, bringing to light new problems and challenges that require solutions. Furthermore, because the technology allows processes usually carried out by people to be automated, it is in great demand in industrial sectors. The automation of these vehicles has been addressed in the literature, applying different machine learning strategies. Reinforcement learning (RL) is an automation framework that is frequently used to train autonomous agents. RL is a machine learning paradigm wherein an agent interacts with an environment to solve a given task. However, learning autonomously can be time consuming, computationally expensive, and may not be practical in highly-complex scenarios. Interactive reinforcement learning allows an external trainer to provide advice to an agent while it is learning a task. In this study, we set out to teach an RL agent to control a drone using reward-shaping and policy-shaping techniques simultaneously. Two simulated scenarios were proposed for the training; one without obstacles and one with obstacles. We also studied the influence of each technique. The results show that an agent trained simultaneously with both techniques obtains a lower reward than an agent trained using only a policy-based approach. Nevertheless, the agent achieves lower execution times and less dispersion during training.
translated by 谷歌翻译
大多数现有的政策学习解决方案都需要学习代理商接收高质量的监督信号,如强化学习(RL)或行为克隆(BC)中的高质量专家演示。在实践中获得这些质量监督通常是不可行的或昂贵的昂贵。我们的目标是一个统一的框架,利用可用的廉价弱势监督,以有效地执行政策学习。为了处理这个问题,我们将“弱监督”视为来自同行代理的不完美信息,并根据与同行代理人的政策(而不是简单协议)的“相关协议”评估学习代理人的政策。我们的方法明确惩罚了对弱势监督的过度措施。除了理论担保之外,对具有嘈杂奖励的任务(包括嘈杂奖励)的广泛评估,具有薄弱的示范,标准政策共同培训表明我们的方法导致了实质性的性能改进,特别是当学习环境的复杂性或噪音很高时。
translated by 谷歌翻译
增强学习(RL)的潜力是通过奖励工程问题的部分瓶颈部分瓶颈。启发式试验和错误的一个替代方案是基于偏好的RL(PBRL),其中奖励函数从稀疏的人体反馈推断出来。然而,先前的PBR方法缺乏学习奖励结构的可解释性,这妨碍了评估鲁棒性和对准的能力。我们提出了一种在线,积极的偏好学习算法,用树木的本质上可解释,构成结构构建奖励功能。使用合成和人为提供的反馈,我们在若干环境中展示了树结构奖励功能的样本高效学习,然后利用增强的解释性来探索和调试进行对齐。
translated by 谷歌翻译
Q学习目标的乐观性质导致高度估计偏差,这是与标准$ Q-$学习相关的固有问题。这种偏差未能考虑低返回的可能性,特别是在风险方案中。然而,偏差的存在,无论是高估还是低估,不一定都不需要不可取。在本文中,我们分析了偏见学习的效用,并表明具体类型的偏差可能是优选的,这取决于场景。基于这一发现,我们设计了一种新颖的加强学习算法,平衡Q学习,其中将目标被修改为悲观和乐观术语的凸起组合,其相关权重分析地确定在线确定。我们在表格设置中证明了该算法的收敛,并经验证明了其在各种环境中的优越学习性能。
translated by 谷歌翻译