奖励黑客 - RL代理商在错过奖励功能中利用差距 - 已被广泛观察到,但尚未系统地研究。要了解如何批量奖励,我们会构建具有误报奖励的四个RL环境。我们调查奖励黑客作为代理能力的函数:模型容量,动作空间分辨率,观察空间噪声和培训时间。更有能力的代理经常利用奖励拼写错误,实现更高的代理奖励和较低的真正奖励,而不是更有技能的代理商。此外,我们发现阶段转换的实例:代理人的行为定性转移的能力阈值,导致真正奖励的急剧下降。这种相转变对监测ML系统的安全构成挑战。为了解决这个问题,我们提出了异常策略的异常检测任务,并提供了几个基线探测器。
translated by 谷歌翻译
自驱动粒子(SDP)描述了日常生活中常见的一类常见的多种子体系统,例如植绒鸟类和交通流量。在SDP系统中,每个代理商都追求自己的目标,并不断改变其与附近代理商的合作或竞争行为。手动设计用于此类SDP系统的控制器是耗时的,而产生的紧急行为往往是不可逼真的,也不是更广泛的。因此,SDP系统的现实模拟仍然具有挑战性。强化学习提供了一种吸引人的替代方案,用于自动化SDP控制器的开发。然而,以前的多档强化学习(Marl)方法将代理人定义为手头之前的队友或敌人,这未能捕获每个代理的作用的SDP的本质,即使在一个集中也变化或竞争。为了用Marl模拟SDP,一个关键挑战是协调代理的行为,同时仍然最大化个人目标。将交通仿真作为测试床,在这项工作中,我们开发了一种称为协调政策优化(Copo)的新型MARL方法,该方法包括社会心理学原理来学习SDP的神经控制器。实验表明,与各种度量标准的Marl基线相比,该方法可以实现优越的性能。明显的车辆明显地表现出复杂和多样化的社会行为,以提高整个人口的性能和安全性。演示视频和源代码可用于:https://decisionforce.github.io/copo/
translated by 谷歌翻译
交通拥堵是现代城市环境中的主要挑战。自动驾驶汽车和自动化车辆(AV)的行业范围内开发激发了AVS如何促进拥塞减少的问题。过去的研究表明,在小规模的混合交通情况下,AVS和人类驱动的车辆,执行受控多种驾驶政策的AVS的一小部分可以减轻拥堵。在本文中,我们扩展了现有方法,并在更复杂的情况下为AVS制定新的多种驾驶政策。首先,我们表明过去研究使用的拥堵指标是​​可以在开放的道路网络场景中操纵的,在该场景中,车辆动态加入并离开道路。然后,我们建议使用一个不同的指标来操纵并反映开放的网络流量效率。接下来,我们提出一种模块化转移增强学习方法,并使用它来扩展多种驾驶政策,以超越类似人类的流量和模拟现实情况下的现有方法,这是一个比过去的场景大的数量级(数百次而不是过去的情况(而不是)数十个车辆)。此外,我们的模块化转移学习方法通​​过将其数据收集集中在网络中的关键位置上,从而节省了我们实验中80%的培训时间。最后,我们首次展示了一项分布式的多重政策,从而改善了人类驱动流量的拥堵。分布式方法更现实和实用,因为它仅依赖于现有的感应和驱动功能,并且不需要添加新的通信基础架构。
translated by 谷歌翻译
在自主驾驶场中,人类知识融合到深增强学习(DRL)通常基于在模拟环境中记录的人类示范。这限制了在现实世界交通中的概率和可行性。我们提出了一种两级DRL方法,从真实的人类驾驶中学习,实现优于纯DRL代理的性能。培训DRL代理商是在Carla的框架内完成了机器人操作系统(ROS)。对于评估,我们设计了不同的真实驾驶场景,可以将提出的两级DRL代理与纯DRL代理进行比较。在从人驾驶员中提取“良好”行为之后,例如在信号交叉口中的预期,该代理变得更有效,并且驱动更安全,这使得这种自主代理更适应人体机器人交互(HRI)流量。
translated by 谷歌翻译
随着自动驾驶行业的发展,自动驾驶汽车群体的潜在相互作用也随之增长。结合人工智能和模拟的进步,可以模拟此类组,并且可以学习控制内部汽车的安全模型。这项研究将强化学习应用于多代理停车场的问题,在那里,汽车旨在有效地停车,同时保持安全和理性。利用强大的工具和机器学习框架,我们以马尔可夫决策过程的形式与独立学习者一起设计和实施灵活的停车环境,从而利用多代理通信。我们实施了一套工具来进行大规模执行实验,从而取得了超过98.1%成功率的高达7辆汽车的模型,从而超过了现有的单代机构模型。我们还获得了与汽车在我们环境中表现出的竞争性和协作行为有关的几个结果,这些行为的密度和沟通水平各不相同。值得注意的是,我们发现了一种没有竞争的合作形式,以及一种“泄漏”的合作形式,在没有足够状态的情况下,代理商进行了协作。这种工作在自动驾驶和车队管理行业中具有许多潜在的应用,并为将强化学习应用于多机构停车场提供了几种有用的技术和基准。
translated by 谷歌翻译
人工智能(AI)有可能极大地改善社会,但是与任何强大的技术一样,它的风险和责任也增加。当前的AI研究缺乏有关如何管理AI系统(包括投机性长期风险)的长尾风险的系统讨论。请记住,AI可能是提高人类的长期潜力不可或缺的一部分,人们担心建立更聪明,更强大的AI系统最终可能会导致比我们更强大的系统。有人说这就像玩火,并推测这可能会造成生存风险(X风险)。为了增加这些讨论,我们回顾了来自危害分析和系统安全的时间测试概念的集合,这些概念旨在将大型流程引导到更安全的方向上。然后,我们讨论AI研究人员如何对AI系统的安全产生长期影响。最后,我们讨论如何稳健地塑造将影响安全和一般能力之间平衡的过程。
translated by 谷歌翻译
自动化和自主车辆(AVS)的出现会创造使用多个AV的系统级别目标,例如交通拥堵。过去的研究表明,可以在各种模拟场景中学习多层挤压驾驶策略。虽然概念的初始证明是具有集中控制器的小型,封闭式交通网络,但最近成功的结果已经在更现实的环境中进行了演示,其中具有在车辆进入和离开的开放式道路网络中运行的分布式控制策略。然而,这些驾驶政策主要在他们接受培训的同样条件下进行测试,并且尚未对不同的交通状况进行彻底测试,这是现实世界方案的关键要求。本文介绍了学习的多层驾驶策略,对各种开放网络流量条件,包括车辆流量,交通,AV放置和不同的合并道路几何形状的各个型号。彻底的实证分析调查了这种政策对简单合并网络中的AV的敏感性,以及两个合并坡道的更复杂的道路。它表明,即使使用AV渗透率低至2%,学习政策也会实现对模拟人类驱动的政策的显着改善。同样的政策也被证明能够减少在更复杂的道路上减少交通拥堵,具有两个合并坡道。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
安全驾驶需要人类和智能代理的多种功能,例如无法看到环境的普遍性,对周围交通的安全意识以及复杂的多代理设置中的决策。尽管强化学习取得了巨大的成功(RL),但由于缺乏集成的环境,大多数RL研究工作分别研究了每个能力。在这项工作中,我们开发了一个名为MetAdrive的新驾驶模拟平台,以支持对机器自治的可概括增强学习算法的研究。 Metadrive具有高度的组成性,可以从程序生成和实际数据导入的实际数据中产生无限数量的不同驾驶场景。基于Metadrive,我们在单一代理和多代理设置中构建了各种RL任务和基线,包括在看不见的场景,安全探索和学习多机构流量的情况下进行基准标记。对程序生成的场景和现实世界情景进行的概括实验表明,增加训练集的多样性和大小会导致RL代理的推广性提高。我们进一步评估了元数据环境中各种安全的增强学习和多代理增强学习算法,并提供基准。源代码,文档和演示视频可在\ url {https://metadriverse.github.io/metadrive}上获得。
translated by 谷歌翻译
随着自动组件比例越来越多的新兴车辆系统提供了最佳控制的机会,以减轻交通拥堵和提高效率。最近有兴趣将深入增强学习(DRL)应用于这些非线性动力学系统,以自动设计有效的控制策略。尽管DRL是无模型的概念优势,但研究通常仍依赖于对特定车辆系统的艰苦训练设置。这是对各种车辆和机动性系统有效分析的关键挑战。为此,本文贡献了一种简化的用于车辆微仿真的方法,并以最少的手动设计发现了高性能控制策略。提出了一种可变的代理,多任务方法,以优化车辆部分观察到的马尔可夫决策过程。该方法在混合自治交通系统上进行了实验验证,该系统是自动化的。在六种不同的开放或封闭交通系统的所有配置中都可以观察到经验改进,通常比人类驾驶基线的15-60%。该研究揭示了许多紧急行为类似于缓解波浪,交通信号传导和坡道计量。最后,对新兴行为进行了分析,以产生可解释的控制策略,这些控制策略已通过学习的控制策略进行了验证。
translated by 谷歌翻译
在未来几年和几十年中,自动驾驶汽车(AV)将变得越来越普遍,为更安全,更方便的旅行提供了新的机会,并可能利用自动化和连接性的更智能的交通控制方法。跟随汽车是自动驾驶中的主要功能。近年来,基于强化学习的汽车已受到关注,目的是学习和达到与人类相当的绩效水平。但是,大多数现有的RL方法将汽车模拟为单方面问题,仅感知前方的车辆。然而,最近的文献,王和霍恩[16]表明,遵循的双边汽车考虑了前方的车辆,而后面的车辆表现出更好的系统稳定性。在本文中,我们假设可以使用RL学习这款双边汽车,同时学习其他目标,例如效率最大化,混蛋最小化和安全奖励,从而导致学识渊博的模型超过了人类驾驶。我们通过将双边信息集成到基于双边控制模型(BCM)的CAR遵循控制的状态和奖励功能的情况下,提出并引入了遵循控制遵循的汽车的深钢筋学习(DRL)框架。此外,我们使用分散的多代理增强学习框架来为每个代理生成相​​应的控制动作。我们的仿真结果表明,我们学到的政策比(a)汽车间的前进方向,(b)平均速度,(c)混蛋,(d)碰撞时间(TTC)和(e)的速度更好。字符串稳定性。
translated by 谷歌翻译
交通信号控制(TSC)是一个高风险域,随着交通量在全球的增长而增长。越来越多的作品将加固学习(RL)应用于TSC;RL可以利用大量的流量数据来提高信号效率。但是,从未部署基于RL的信号控制器。在这项工作中,我们提供了对TSC进行RL之前必须解决的挑战的首次审查。我们专注于四个涉及(1)检测不确定性的挑战,(2)通信的可靠性,(3)合规性和解释性以及(4)异构道路使用者。我们表明,基于RL的TSC的文献在应对每个挑战方面取得了一些进展。但是,更多的工作应采用系统思维方法,以考虑其他管道组件对RL的影响。
translated by 谷歌翻译
强化学习(RL)已证明可以在各种任务中达到超级人类水平的表现。但是,与受监督的机器学习不同,将其推广到各种情况的学习策略仍然是现实世界中最具挑战性的问题之一。自主驾驶(AD)提供了一个多方面的实验领域,因为有必要在许多变化的道路布局和可能的交通情况大量分布中学习正确的行为,包括个人驾驶员个性和难以预测的交通事件。在本文中,我们根据可配置,灵活和性能的代码库为AD提出了一个具有挑战性的基准。我们的基准测试使用了随机场景生成器的目录,包括用于道路布局和交通变化的多种机制,不同的数值和视觉观察类型,不同的动作空间,不同的车辆模型,并允许在静态场景定义下使用。除了纯粹的算法见解外,我们面向应用程序的基准还可以更好地理解设计决策的影响,例如行动和观察空间对政策的普遍性。我们的基准旨在鼓励研究人员提出能够在各种情况下成功概括的解决方案,这是当前RL方法失败的任务。基准的代码可在https://github.com/seawee1/driver-dojo上获得。
translated by 谷歌翻译
机器学习(ML)系统的大小迅速增加,正在获取新功能,并且越来越多地部署在高赌注设置中。与其他强大的技术一样,ML的安全应成为主要的研究优先权。为了应对ML的新兴安全挑战,例如由最近的大型模型引入的策略,我们为ML安全提供了新的路线图,并完善了现场需要解决的技术问题。我们为研究提供了四项问题,即危害危险(“鲁棒性”),识别危险(“监测”),转向ML系统(“对齐”),减少部署危险(“外部安全性”)。在整个过程中,我们澄清了每个问题的动机并提供了具体的研究方向。
translated by 谷歌翻译
模拟虚拟人群的轨迹是计算机图形中通常遇到的任务。最近的一些作品应用了强化学习方法来使虚拟代理动画,但是在基本模拟设置方面,它们通常会做出不同的设计选择。这些选择中的每一个都有合理的使用依据,因此并不明显其真正的影响是什么,以及它们如何影响结果。在这项工作中,我们从对学习绩效的影响以及根据能源效率测得的模拟的质量分析了其中一些任意选择。我们对奖励函数设计的性质进行理论分析,并经验评估使用某些观察和动作空间对各种情况的影响,并将奖励函数和能量使用作为指标。我们表明,直接使用相邻代理的信息作为观察,通常优于更广泛使用的射线播放。同样,与具有绝对观察结果的自动对照相比,使用具有以自我为中心的观察的非体力学对照倾向于产生更有效的行为。这些选择中的每一个都对结果产生重大且潜在的非平凡影响,因此研究人员应该注意选择和报告他们的工作。
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译
在空间显式的基于个别模型中捕获和模拟智能自适应行为仍然是研究人员持续的挑战。虽然收集了不断增长的现实行为数据,但存在很少的方法,可以量化和正式化关键的个人行为以及它们如何改变空间和时间。因此,通常使用的常用代理决策框架(例如事件条件 - 行动规则)通常只需要仅关注狭窄的行为范围。我们认为,这些行为框架通常不会反映现实世界的情景,并且未能捕捉如何以响应刺激而发展行为。对机器学习方法的兴趣增加了近年来模拟智能自适应行为的兴趣。在该区域中开始获得牵引的一种方法是增强学习(RL)。本文探讨了如何使用基于简单的捕食者 - 猎物代理的模型(ABM)来应用RL创建紧急代理行为。运行一系列模拟,我们证明了使用新型近端政策优化(PPO)算法培训的代理以展示现实世界智能自适应行为的性质,例如隐藏,逃避和觅食。
translated by 谷歌翻译
行人在场的运动控制算法对于开发安全可靠的自动驾驶汽车(AV)至关重要。传统运动控制算法依赖于手动设计的决策政策,这些政策忽略了AV和行人之间的相互作用。另一方面,深度强化学习的最新进展允许在没有手动设计的情况下自动学习政策。为了解决行人在场的决策问题,作者介绍了一个基于社会价值取向和深入强化学习(DRL)的框架,该框架能够以不同的驾驶方式生成决策政策。该政策是在模拟环境中使用最先进的DRL算法培训的。还引入了适合DRL训练的新型计算效率的行人模型。我们执行实验以验证我们的框架,并对使用两种不同的无模型深钢筋学习算法获得的策略进行了比较分析。模拟结果表明,开发的模型如何表现出自然的驾驶行为,例如短暂的驾驶行为,以促进行人的穿越。
translated by 谷歌翻译
我们研究目标不当,这是强化学习(RL)中分布的概括失败。当RL代理商保留其功能过失但追求错误的目标时,就会发生目标失败失败。例如,代理商可能会继续有能力避免障碍,但要导航到错误的地方。相比之下,以前的工作通常集中在能力概括性失败上,因为代理在测试时间无法做任何明智的事情。我们将能力和目标泛化之间的这种区别形式化,提供了目标不当的第一个经验证明,并呈现了其原因的部分特征。
translated by 谷歌翻译
我们解决了由具有不同驱动程序行为的道路代理人填充的密集模拟交通环境中的自我车辆导航问题。由于其异构行为引起的代理人的不可预测性,这种环境中的导航是挑战。我们提出了一种新的仿真技术,包括丰富现有的交通模拟器,其具有与不同程度的侵略性程度相对应的行为丰富的轨迹。我们在驾驶员行为建模算法的帮助下生成这些轨迹。然后,我们使用丰富的模拟器培训深度加强学习(DRL)策略,包括一组高级车辆控制命令,并在测试时间使用此策略来执行密集流量的本地导航。我们的政策隐含地模拟了交通代理商之间的交互,并计算了自助式驾驶员机动,例如超速,超速,编织和突然道路变化的激进驾驶员演习的安全轨迹。我们增强的行为丰富的模拟器可用于生成由对应于不同驱动程序行为和流量密度的轨迹组成的数据集,我们的行为的导航方案可以与最先进的导航算法相结合。
translated by 谷歌翻译