在本文VisualEnv中,介绍了一种用于强化学习的可视环境的新工具。它是开源建模和渲染软件,搅拌机和用于生成仿真环境模型的Python模块的产品的产品。VisualEnv允许用户创建具有照片拟真渲染功能的自定义环境,并与Python完全集成。框架描述并测试了一系列示例问题,这些问题展示了培训强化学习代理的功能。
translated by 谷歌翻译
我们介绍了Godot强化学习(RL)代理,这是一个用于在戈戈斯游戏引擎中发展环境和代理的开源接口。Goot RL代理界面允许在具有各种策略和偏离策略的深度RL算法的具有挑战性的2D和3D环境中设计,创建和学习代理行为。我们提供标准的健身房界面,带有包装纸,用于学习Ray Rllib和稳定的基线RL框架。这允许用户访问最近20个艺术策略,禁止策略和多代理RL算法的状态。该框架是一个多功能工具,允许研究人员和游戏设计人员能够使用离散,连续和混合动作空间创建环境。界面相对表现,在高端膝上型计算机上每秒12k交互,当在4个CPU内核上被平移。概述视频可在此处提供:https://youtu.be/g1mlzsfqij4
translated by 谷歌翻译
为了满足对深度加强学习(DRL)的兴趣日益兴趣,我们试图建造一个DRL驱动的Atari Pong代理和随附的可视化工具。现有方法不支持使用易于配置的物理和人机展示展示互动展览所需的灵活性。因此,我们构建了一个新的Pong游戏环境,发现并解决了许多唯一的数据缺陷,在将DRL应用于新环境时出现,归属和调整基于策略梯度的DRL模型,开发了一个实时网络可视化,并组合了这些元素进入交互式显示,以帮助构建DRL推理机械的直觉和意识。
translated by 谷歌翻译
近年来,游戏AI研究取得了巨大的突破,尤其是在增强学习(RL)中。尽管他们成功了,但基础游戏通常是通过自己的预设环境和游戏机制实现的,因此使研究人员难以创建不同的游戏环境。但是,测试RL代理对各种游戏环境的测试对于最近努力研究RL的概括并避免可能发生过度拟合的问题至关重要。在本文中,我们将Gridd呈现为游戏AI研究的新平台,该平台提供了高度可配置的游戏,不同的观察者类型和有效的C ++核心引擎的独特组合。此外,我们提出了一系列基线实验,以研究RL剂的不同观察构构和泛化能力的影响。
translated by 谷歌翻译
我们介绍了ThreedWorld(TDW),是交互式多模态物理模拟的平台。 TDW能够模拟高保真感官数据和富裕的3D环境中的移动代理和对象之间的物理交互。独特的属性包括:实时近光 - 真实图像渲染;对象和环境库,以及他们定制的例程;有效构建新环境课程的生成程序;高保真音频渲染;各种材料类型的现实物理相互作用,包括布料,液体和可变形物体;可定制的代理体现AI代理商;并支持与VR设备的人类交互。 TDW的API使多个代理能够在模拟中进行交互,并返回一系列表示世界状态的传感器和物理数据。我们在计算机视觉,机器学习和认知科学中的新兴的研究方向上提供了通过TDW的初始实验,包括多模态物理场景理解,物理动态预测,多代理交互,像孩子一样学习的模型,并注意研究人类和神经网络。
translated by 谷歌翻译
强化学习(RL)是一种基于代理的方法,可以教机器人在物理世界中导航。已知收集RL的数据是一项费力的任务,现实世界实验可能会冒险。模拟器以更快,更具成本效益的方式促进培训数据的收集。但是,RL经常需要大量的仿真步骤才能使代理在简单任务上变得熟练。这是基于RL的视觉四面导航字段中普遍的问题,其中状态尺寸通常非常大,动态模型很复杂。此外,渲染图像和获得代理的物理特性在计算上可能很昂贵。为了解决这个问题,我们提出了一个基于Airsim的模拟框架,该框架提供了有效的并行训练。在此框架的基础上,APE-X经过修改,以结合空调环境的分散培训,以利用众多网络计算机。通过实验,我们能够使用上述框架将训练时间从3.9小时减少到11分钟,总共有74个代理和两台网络计算机。可以在https://sites.google.com/view/prl4airsim/home上找到有关我们项目Prl4airsim的更多详细信息和有关我们项目的视频。
translated by 谷歌翻译
我们提出了Midgard,这是一个用于室外非结构化环境中自动机器人导航的开源模拟平台。 Midgard旨在实现在影照相3D环境中对自主代理(例如,无人接地车)进行培训,并通过培训场景中的可变性来支持基于学习的代理的概括技巧。 Midgard的主要功能包括可配置,可扩展和难度驱动的程序景观生成管道,并具有基于虚幻引擎的快速和影像现实主义场景。此外,Midgard还对OpenAi Gym进行了内置支持,OpenAi Gym是一个用于功能扩展的编程接口(例如,集成新型的传感器,自定义曝光内部模拟变量)和各种模拟代理传感器(例如RGB,DEPTH和实例/实例/语义细分)。我们评估了Midgard的功能,作为使用一组最先进的强化学习算法的机器人导航的基准测试工具。结果表明,Midgard作为模拟和训练环境的适用性,以及我们程序生成方法在控制场景难度方面的有效性,这直接反映了准确度量指标。 Midgard构建,源代码和文档可在https://midgardsim.org/上找到。
translated by 谷歌翻译
培训强化学习者在多种环境中不断学习是一个具有挑战性的问题。缺乏可重复的实验和标准指标来比较不同的持续学习方法,这变得更加困难。为了解决这个问题,我们提出了Tella,这是一种测试和评估终身学习代理商的工具。Tella为终身学习代理提供了指定的,可重复的课程,同时记录详细数据进行评估和标准化分析。研究人员可以在各种学习环境中定义和分享自己的课程,或与DARPA终身学习机(L2M)计划创建的课程相抵触。
translated by 谷歌翻译
尽管许多多机器人协调问题可以通过精确算法最佳解决,但在机器人数量中通常无法扩展解决方案。多代理强化学习(MARL)正在在机器人社区中越来越关注,这是解决此类问题的一种有希望的解决方案。然而,我们仍然缺乏使我们能够快速有效地找到大规模集体学习任务的解决方案的工具。在这项工作中,我们介绍了矢量化的多代理模拟器(VMA)。 VMA是一个旨在有效的Marl基准测试的开源框架。它由用pytorch编写的矢量化2D物理引擎和一组十二个具有挑战性的多机器人场景组成。可以通过简单的模块化接口实现其他方案。我们证明了矢量化如何在没有增加复杂性的情况下对加速硬件进行并行模拟。在将VMA与OpenAI MPE进行比较时,我们显示了MPE的执行时间如何在模拟数量中线性增加,而VMA可以在10秒内执行30,000个并行模拟,证明超过100倍以上。使用VMA的RLLIB接口,我们使用基于各种近端策略优化(PPO)的MARL算法对多机器人方案进行基准测试。 VMA的场景以正交方式证明了最先进的MARL算法的挑战。 VMA框架可在https://github.com/proroklab/dectorizedmultiagentsimulator上获得。 VMA场景和实验的视频可在https://youtu.be/aadryfiesay} {here} \ footnote {\ url {https://youtu.be/aadryfiesay上获得。
translated by 谷歌翻译
We present Habitat, a platform for research in embodied artificial intelligence (AI). Habitat enables training embodied agents (virtual robots) in highly efficient photorealistic 3D simulation. Specifically, Habitat consists of: (i) Habitat-Sim: a flexible, high-performance 3D simulator with configurable agents, sensors, and generic 3D dataset handling. Habitat-Sim is fast -when rendering a scene from Matterport3D, it achieves several thousand frames per second (fps) running single-threaded, and can reach over 10,000 fps multi-process on a single GPU. (ii) Habitat-API: a modular high-level library for end-toend development of embodied AI algorithms -defining tasks (e.g. navigation, instruction following, question answering), configuring, training, and benchmarking embodied agents.These large-scale engineering contributions enable us to answer scientific questions requiring experiments that were till now impracticable or 'merely' impractical. Specifically, in the context of point-goal navigation: (1) we revisit the comparison between learning and SLAM approaches from two recent works [20,16] and find evidence for the opposite conclusion -that learning outperforms SLAM if scaled to an order of magnitude more experience than previous investigations, and (2) we conduct the first cross-dataset generalization experiments {train, test} × {Matterport3D, Gibson} for multiple sensors {blind, RGB, RGBD, D} and find that only agents with depth (D) sensors generalize across datasets. We hope that our open-source platform and these findings will advance research in embodied AI.
translated by 谷歌翻译
深度强化学习(RL)的进展是通过用于培训代理商的具有挑战性的基准的可用性来驱动。但是,社区广泛采用的基准未明确设计用于评估RL方法的特定功能。虽然存在用于评估RL的特定打开问题的环境(例如探索,转移学习,无监督环境设计,甚至语言辅助RL),但一旦研究超出证明,通常难以将这些更富有,更复杂的环境 - 概念结果。我们展示了一个强大的沙箱框架,用于易于设计新颖的RL环境。 Minihack是一个停止商店,用于RL实验,环境包括从小房间到复杂的,程序生成的世界。通过利用来自Nethack的全套实体和环境动态,MiniHack是最富有的基网上的视频游戏之一,允许设计快速方便的定制RL测试台。使用这种沙箱框架,可以轻松设计新颖的环境,可以使用人类可读的描述语言或简单的Python接口来设计。除了各种RL任务和基线外,Minihack还可以包装现有的RL基准,并提供无缝添加额外复杂性的方法。
translated by 谷歌翻译
加强学习(RL)研究的进展通常是由新的,具有挑战性的环境的设计驱动的,这是一项昂贵的事业,需要技能与典型的机器学习研究人员的正交性。环境发展的复杂性仅随着程序性产生(PCG)的兴起而增加,作为产生能够测试RL剂稳健性和泛化的各种环境的流行范式。此外,现有环境通常需要复杂的构建过程,从而使重现结果变得困难。为了解决这些问题,我们介绍了基于网状引擎的基于网络的集成开发环境(IDE)Griddlyjs。 Griddlyjs允许研究人员使用方便的图形接口在视觉上设计和调试任意,复杂的PCG网格世界环境,并可视化,评估和记录训练有素的代理模型的性能。通过将RL工作流连接到由现代Web标准启用的高级功能,Griddlyjs允许发布交互式代理 - 环境演示,将实验结果直接重现为Web。为了证明Griddlyjs的多功能性,我们使用它来快速开发一个复杂的组成拼图解决环境,以及任意人为设计的环境配置及其用于自动课程学习和离线RL的解决方案。 Griddlyjs IDE是开源的,可以在\ url {https://griddly.ai}上免费获得。
translated by 谷歌翻译
强化学习(RL)已证明可以在各种任务中达到超级人类水平的表现。但是,与受监督的机器学习不同,将其推广到各种情况的学习策略仍然是现实世界中最具挑战性的问题之一。自主驾驶(AD)提供了一个多方面的实验领域,因为有必要在许多变化的道路布局和可能的交通情况大量分布中学习正确的行为,包括个人驾驶员个性和难以预测的交通事件。在本文中,我们根据可配置,灵活和性能的代码库为AD提出了一个具有挑战性的基准。我们的基准测试使用了随机场景生成器的目录,包括用于道路布局和交通变化的多种机制,不同的数值和视觉观察类型,不同的动作空间,不同的车辆模型,并允许在静态场景定义下使用。除了纯粹的算法见解外,我们面向应用程序的基准还可以更好地理解设计决策的影响,例如行动和观察空间对政策的普遍性。我们的基准旨在鼓励研究人员提出能够在各种情况下成功概括的解决方案,这是当前RL方法失败的任务。基准的代码可在https://github.com/seawee1/driver-dojo上获得。
translated by 谷歌翻译
我们提供了PelficGridWorld软件包,为用户提供轻量级,模块化和可定制的框架,用于创建专注的电源系统的多代理体育馆环境,该环境易于与强化学习(RL)的现有培训框架集成。虽然存在许多框架用于训练多代理RL(MARL)政策,但没有可以快速原型并发开发环境,尤其是在所需电流解决方案来定义网格的异构(复合式,多器件)电力系统的背景下 - 级别变量和成本。 PowerGridWorld是一个开源软件包,有助于填补此间隙。为了突出PowerGridWorld的关键功能,我们展示了两个案例研究,并使用Openai的多代理深度确定性政策梯度(MADDPG)和RLLIB的近端策略优化(PPO)算法来演示MARL政策。在这两种情况下,至少一些代理子集合在每次作为奖励(负成本)结构的一部分中的一部分中的功率流溶液的元件。
translated by 谷歌翻译
SKRL是一个开源模块化库,用于用Python编写的加固学习,设计着专注于算法实现的可读性,简单性和透明度。除了使用OpenAi Gym和DeepMind的传统接口的支持环境外,它还提供了装载,配置和操作NVIDIA ISAAC健身房和Nvidia Omniverse Isaac Gym Gym Gunt环境的设施。此外,它可以同时对几个具有可定制范围的代理(所有可用环境的子集)进行培训,这些代理在同一运行中可能会或可能不会共享资源。可以在https://skrl.readthedocs.io上找到该库的文档,其源代码可在https://github.com/toni-sm/skrl上找到。
translated by 谷歌翻译
通过加强学习解决现实世界的顺序决策问题(RL)通常始于使用模拟真实条件的模拟环境。我们为现实的农作物管理任务提供了一种新颖的开源RL环境。 Gym-DSSAT是高保真作物模拟器的农业技术转移决策支持系统(DSSAT)的健身房界面。在过去的30年中,DSSAT已发展,并被农学家广泛认可。 Gym-DSSAT带有基于现实世界玉米实验的预定义仿真。环境与任何健身房环境一样易于使用。我们使用基本RL算法提供性能基准。我们还简要概述了用Fortran编写的单片DSSAT模拟器如何变成Python RL环境。我们的方法是通用的,可以应用于类似的模拟器。我们报告了非常初步的实验结果,这表明RL可以帮助研究人员改善受精和灌溉实践的可持续性。
translated by 谷歌翻译
我们介绍了互动室(Thor),这是一个视觉AI研究的框架,可在http://ai2thor.allenai.org上找到。AI2-这是由几乎逼真的3D室内场景组成的,在该场景中,AI代理可以在场景中导航并与对象进行交互以执行任务。AI2-这可以在许多不同的领域进行研究,包括但不限于深入强化学习,模仿学习,通过互动,计划,视觉问答答案,无监督的表示学习,对象检测和细分以及认知模型。AI2的目的是促进构建视觉上智能模型,并将研究推向该领域。
translated by 谷歌翻译
在包装交付,交通监控,搜索和救援操作以及军事战斗订婚等不同应用中,对使用无人驾驶汽车(UAV)(无人机)的需求越来越不断增加。在所有这些应用程序中,无人机用于自动导航环境 - 没有人类互动,执行特定任务并避免障碍。自主无人机导航通常是使用强化学习(RL)来完成的,在该学习中,代理在域中充当专家在避免障碍的同时导航环境。了解导航环境和算法限制在选择适当的RL算法以有效解决导航问题方面起着至关重要的作用。因此,本研究首先确定了无人机导航任务,并讨论导航框架和仿真软件。接下来,根据环境,算法特征,能力和不同无人机导航问题的应用程序对RL算法进行分类和讨论,这将帮助从业人员和研究人员为其无人机导航使用情况选择适当的RL算法。此外,确定的差距和机会将推动无人机导航研究。
translated by 谷歌翻译
多代理增强学习实验和开源培训环境通常受到限制,支撑数十个或有时甚至多达数百种相互作用的代理。在本文中,我们证明了Vogue的使用,Vogue是一个基于高性能代理的模型(ABM)框架。Vogue是一个多代理培训环境,为成千上万的互动代理提供了支持,同时通过在GPU上运行环境和增强学习(RL)代理来维持高训练吞吐量。在此规模的高性能多机构环境有可能使可靠和灵活的策略学习在复杂系统的ABM和模拟中使用。我们通过两个新开发的大型多代理培训环境展示了培训表现。此外,我们表明这些环境可以在数分钟和数小时的时间范围内训练共享的RL政策。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译