我们提出了一个用于动态培训互动的多层强化学习软件包,如循环,适应性和临时培训。我们的软件包围绕灵活的代理对象设计,可以轻松配置为支持不同的培训交互,并用混合奖励和n代理处理完全一般的多级环境。我们的包装基于StablyBaseLines3,我们的包装直接与现有强大的Deep RL算法一起使用。最后,Pantheonrl附带直观但功能的Web用户界面,用于配置实验并启动多个异步作业。我们的包裹可以在https://github.com/stanford-iliad/pantheonrl找到。
translated by 谷歌翻译
加强学习(RL)研究的进展通常是由新的,具有挑战性的环境的设计驱动的,这是一项昂贵的事业,需要技能与典型的机器学习研究人员的正交性。环境发展的复杂性仅随着程序性产生(PCG)的兴起而增加,作为产生能够测试RL剂稳健性和泛化的各种环境的流行范式。此外,现有环境通常需要复杂的构建过程,从而使重现结果变得困难。为了解决这些问题,我们介绍了基于网状引擎的基于网络的集成开发环境(IDE)Griddlyjs。 Griddlyjs允许研究人员使用方便的图形接口在视觉上设计和调试任意,复杂的PCG网格世界环境,并可视化,评估和记录训练有素的代理模型的性能。通过将RL工作流连接到由现代Web标准启用的高级功能,Griddlyjs允许发布交互式代理 - 环境演示,将实验结果直接重现为Web。为了证明Griddlyjs的多功能性,我们使用它来快速开发一个复杂的组成拼图解决环境,以及任意人为设计的环境配置及其用于自动课程学习和离线RL的解决方案。 Griddlyjs IDE是开源的,可以在\ url {https://griddly.ai}上免费获得。
translated by 谷歌翻译
多代理增强学习实验和开源培训环境通常受到限制,支撑数十个或有时甚至多达数百种相互作用的代理。在本文中,我们证明了Vogue的使用,Vogue是一个基于高性能代理的模型(ABM)框架。Vogue是一个多代理培训环境,为成千上万的互动代理提供了支持,同时通过在GPU上运行环境和增强学习(RL)代理来维持高训练吞吐量。在此规模的高性能多机构环境有可能使可靠和灵活的策略学习在复杂系统的ABM和模拟中使用。我们通过两个新开发的大型多代理培训环境展示了培训表现。此外,我们表明这些环境可以在数分钟和数小时的时间范围内训练共享的RL政策。
translated by 谷歌翻译
With the breakthrough of AlphaGo, deep reinforcement learning becomes a recognized technique for solving sequential decision-making problems. Despite its reputation, data inefficiency caused by its trial and error learning mechanism makes deep reinforcement learning hard to be practical in a wide range of areas. Plenty of methods have been developed for sample efficient deep reinforcement learning, such as environment modeling, experience transfer, and distributed modifications, amongst which, distributed deep reinforcement learning has shown its potential in various applications, such as human-computer gaming, and intelligent transportation. In this paper, we conclude the state of this exciting field, by comparing the classical distributed deep reinforcement learning methods, and studying important components to achieve efficient distributed learning, covering single player single agent distributed deep reinforcement learning to the most complex multiple players multiple agents distributed deep reinforcement learning. Furthermore, we review recently released toolboxes that help to realize distributed deep reinforcement learning without many modifications of their non-distributed versions. By analyzing their strengths and weaknesses, a multi-player multi-agent distributed deep reinforcement learning toolbox is developed and released, which is further validated on Wargame, a complex environment, showing usability of the proposed toolbox for multiple players and multiple agents distributed deep reinforcement learning under complex games. Finally, we try to point out challenges and future trends, hoping this brief review can provide a guide or a spark for researchers who are interested in distributed deep reinforcement learning.
translated by 谷歌翻译
在多机构强化学习中,由其他代理人行动引起的环境的固有非平稳性给代理人独立学习良好政策带来了很大的困难。处理非平稳性的一种方法是对手建模,代理人考虑到其他代理人政策的影响。大多数现有的工作依赖于预测其他代理的行动或目标,或区分不同的政策。但是,这种建模无法同时捕获策略之间的相似性和差异,因此在概括到看不见的代理时无法提供足够的有用信息。为了解决这个问题,我们提出了一种一般方法,以了解其他代理商政策的表示,以便政策之间的距离是由表示距离之间的距离故意反映的,而策略距离是从训练期间从采样的共同行动分布中推断出来的。我们从经验上表明,以学习的策略表示为条件的代理可以很好地概括在三个多代理任务中看不见的代理。
translated by 谷歌翻译
尽管加强学习进展(RL)进展,但自主驾驶(广告)的开发算法仍然具有挑战性:缺乏能够培训的开源平台和有效地验证RL政策的关键问题之一。我们提出了一个用于开发自动驾驶的RL算法的开源Openai健身房兼容环境,用于开发RL算法。DriverGym提供访问超过1000小时的专家记录数据,并支持反应和数据驱动的代理行为。使用我们广泛灵活的闭环评估协议,可以在真实数据上轻松验证RL策略的性能。在这项工作中,我们还提供了使用监督学习和RL的行为克隆基线,驾驶员培训。我们制作驱动程序代码,以及公开的所有基线,以进一步刺激社区的发展。
translated by 谷歌翻译
我们提供了PelficGridWorld软件包,为用户提供轻量级,模块化和可定制的框架,用于创建专注的电源系统的多代理体育馆环境,该环境易于与强化学习(RL)的现有培训框架集成。虽然存在许多框架用于训练多代理RL(MARL)政策,但没有可以快速原型并发开发环境,尤其是在所需电流解决方案来定义网格的异构(复合式,多器件)电力系统的背景下 - 级别变量和成本。 PowerGridWorld是一个开源软件包,有助于填补此间隙。为了突出PowerGridWorld的关键功能,我们展示了两个案例研究,并使用Openai的多代理深度确定性政策梯度(MADDPG)和RLLIB的近端策略优化(PPO)算法来演示MARL政策。在这两种情况下,至少一些代理子集合在每次作为奖励(负成本)结构的一部分中的一部分中的功率流溶液的元件。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
In reinforcement learning (RL) research, simulations enable benchmarks between algorithms, as well as prototyping and hyper-parameter tuning of agents. In order to promote RL both in research and real-world applications, frameworks are required which are on the one hand efficient in terms of running experiments as fast as possible. On the other hand, they must be flexible enough to allow the integration of newly developed optimization techniques, e.g. new RL algorithms, which are continuously put forward by an active research community. In this paper, we introduce Karolos, a RL framework developed for robotic applications, with a particular focus on transfer scenarios with varying robot-task combinations reflected in a modular environment architecture. In addition, we provide implementations of state-of-the-art RL algorithms along with common learning-facilitating enhancements, as well as an architecture to parallelize environments across multiple processes to significantly speed up experiments. The code is open source and published on GitHub with the aim of promoting research of RL applications in robotics.
translated by 谷歌翻译
将有用的背景知识传达给加强学习(RL)代理是加速学习的重要方法。我们介绍了Rlang,这是一种特定领域的语言(DSL),用于将域知识传达给RL代理。与RL社区提出的其他现有DSL不同,该基础是决策形式主义的单个要素(例如,奖励功能或政策功能),RLANG可以指定有关马尔可夫决策过程中每个元素的信息。我们为rlang定义了精确的语法和基础语义,并提供了解析器实施,将rlang程序基于算法 - 敏捷的部分世界模型和政策,可以由RL代理利用。我们提供一系列示例RLANG程序,并演示不同的RL方法如何利用所得的知识,包括无模型和基于模型的表格算法,分层方法和深度RL算法(包括策略梯度和基于价值的方法)。
translated by 谷歌翻译
As Artificial and Robotic Systems are increasingly deployed and relied upon for real-world applications, it is important that they exhibit the ability to continually learn and adapt in dynamically-changing environments, becoming Lifelong Learning Machines. Continual/lifelong learning (LL) involves minimizing catastrophic forgetting of old tasks while maximizing a model's capability to learn new tasks. This paper addresses the challenging lifelong reinforcement learning (L2RL) setting. Pushing the state-of-the-art forward in L2RL and making L2RL useful for practical applications requires more than developing individual L2RL algorithms; it requires making progress at the systems-level, especially research into the non-trivial problem of how to integrate multiple L2RL algorithms into a common framework. In this paper, we introduce the Lifelong Reinforcement Learning Components Framework (L2RLCF), which standardizes L2RL systems and assimilates different continual learning components (each addressing different aspects of the lifelong learning problem) into a unified system. As an instantiation of L2RLCF, we develop a standard API allowing easy integration of novel lifelong learning components. We describe a case study that demonstrates how multiple independently-developed LL components can be integrated into a single realized system. We also introduce an evaluation environment in order to measure the effect of combining various system components. Our evaluation environment employs different LL scenarios (sequences of tasks) consisting of Starcraft-2 minigames and allows for the fair, comprehensive, and quantitative comparison of different combinations of components within a challenging common evaluation environment.
translated by 谷歌翻译
SKRL是一个开源模块化库,用于用Python编写的加固学习,设计着专注于算法实现的可读性,简单性和透明度。除了使用OpenAi Gym和DeepMind的传统接口的支持环境外,它还提供了装载,配置和操作NVIDIA ISAAC健身房和Nvidia Omniverse Isaac Gym Gym Gunt环境的设施。此外,它可以同时对几个具有可定制范围的代理(所有可用环境的子集)进行培训,这些代理在同一运行中可能会或可能不会共享资源。可以在https://skrl.readthedocs.io上找到该库的文档,其源代码可在https://github.com/toni-sm/skrl上找到。
translated by 谷歌翻译
我们介绍了Godot强化学习(RL)代理,这是一个用于在戈戈斯游戏引擎中发展环境和代理的开源接口。Goot RL代理界面允许在具有各种策略和偏离策略的深度RL算法的具有挑战性的2D和3D环境中设计,创建和学习代理行为。我们提供标准的健身房界面,带有包装纸,用于学习Ray Rllib和稳定的基线RL框架。这允许用户访问最近20个艺术策略,禁止策略和多代理RL算法的状态。该框架是一个多功能工具,允许研究人员和游戏设计人员能够使用离散,连续和混合动作空间创建环境。界面相对表现,在高端膝上型计算机上每秒12k交互,当在4个CPU内核上被平移。概述视频可在此处提供:https://youtu.be/g1mlzsfqij4
translated by 谷歌翻译
我们介绍了Pogema(https://github.com/airi-institute/pogema)一个沙盒,用于挑战部分可观察到的多代理探路(PO-MAPF)问题。这是一个基于网格的环境,专门设计为灵活,可调和可扩展的基准。它可以针对各种PO-MAPF量身定制,这些PO-MAPF可以作为计划和学习方法及其组合的绝佳测试基础,这将使我们能够填补AI计划和学习之间的差距。
translated by 谷歌翻译
在本文VisualEnv中,介绍了一种用于强化学习的可视环境的新工具。它是开源建模和渲染软件,搅拌机和用于生成仿真环境模型的Python模块的产品的产品。VisualEnv允许用户创建具有照片拟真渲染功能的自定义环境,并与Python完全集成。框架描述并测试了一系列示例问题,这些问题展示了培训强化学习代理的功能。
translated by 谷歌翻译
可以与其他代理人互动以完成给定任务的自主代理的发展是人工智能和机器学习研究的核心领域。为了实现这一目标,自主代理研究小组开发了用于自主系统控制的新型机器学习算法,特别关注深度强化学习和多代理强化学习。研究问题包括可扩展的协调代理政策和代理间沟通;从有限观察的情况下对其他代理的行为,目标和组成的推理;以及基于内在动机,课程学习,因果推断和代表性学习的样品学习。本文概述了该小组正在进行的研究组合,并讨论了未来方向的开放问题。
translated by 谷歌翻译
培训强化学习者在多种环境中不断学习是一个具有挑战性的问题。缺乏可重复的实验和标准指标来比较不同的持续学习方法,这变得更加困难。为了解决这个问题,我们提出了Tella,这是一种测试和评估终身学习代理商的工具。Tella为终身学习代理提供了指定的,可重复的课程,同时记录详细数据进行评估和标准化分析。研究人员可以在各种学习环境中定义和分享自己的课程,或与DARPA终身学习机(L2M)计划创建的课程相抵触。
translated by 谷歌翻译
临时团队合作是设计可以与新队友合作而无需事先协调的研究问题的研究问题。这项调查做出了两个贡献:首先,它提供了对临时团队工作问题不同方面的结构化描述。其次,它讨论了迄今为止该领域取得的进展,并确定了临时团队工作中需要解决的直接和长期开放问题。
translated by 谷歌翻译
强化学习(RL)已证明可以在各种任务中达到超级人类水平的表现。但是,与受监督的机器学习不同,将其推广到各种情况的学习策略仍然是现实世界中最具挑战性的问题之一。自主驾驶(AD)提供了一个多方面的实验领域,因为有必要在许多变化的道路布局和可能的交通情况大量分布中学习正确的行为,包括个人驾驶员个性和难以预测的交通事件。在本文中,我们根据可配置,灵活和性能的代码库为AD提出了一个具有挑战性的基准。我们的基准测试使用了随机场景生成器的目录,包括用于道路布局和交通变化的多种机制,不同的数值和视觉观察类型,不同的动作空间,不同的车辆模型,并允许在静态场景定义下使用。除了纯粹的算法见解外,我们面向应用程序的基准还可以更好地理解设计决策的影响,例如行动和观察空间对政策的普遍性。我们的基准旨在鼓励研究人员提出能够在各种情况下成功概括的解决方案,这是当前RL方法失败的任务。基准的代码可在https://github.com/seawee1/driver-dojo上获得。
translated by 谷歌翻译
Stable-Baselines3 provides open-source implementations of deep reinforcement learning (RL) algorithms in Python. The implementations have been benchmarked against reference codebases, and automated unit tests cover 95% of the code. The algorithms follow a consistent interface and are accompanied by extensive documentation, making it simple to train and compare different RL algorithms. Our documentation, examples, and source-code are available at https://github.com/DLR-RM/stable-baselines3.
translated by 谷歌翻译