自动化和自主车辆(AVS)的出现会创造使用多个AV的系统级别目标,例如交通拥堵。过去的研究表明,可以在各种模拟场景中学习多层挤压驾驶策略。虽然概念的初始证明是具有集中控制器的小型,封闭式交通网络,但最近成功的结果已经在更现实的环境中进行了演示,其中具有在车辆进入和离开的开放式道路网络中运行的分布式控制策略。然而,这些驾驶政策主要在他们接受培训的同样条件下进行测试,并且尚未对不同的交通状况进行彻底测试,这是现实世界方案的关键要求。本文介绍了学习的多层驾驶策略,对各种开放网络流量条件,包括车辆流量,交通,AV放置和不同的合并道路几何形状的各个型号。彻底的实证分析调查了这种政策对简单合并网络中的AV的敏感性,以及两个合并坡道的更复杂的道路。它表明,即使使用AV渗透率低至2%,学习政策也会实现对模拟人类驱动的政策的显着改善。同样的政策也被证明能够减少在更复杂的道路上减少交通拥堵,具有两个合并坡道。
translated by 谷歌翻译
交通拥堵是现代城市环境中的主要挑战。自动驾驶汽车和自动化车辆(AV)的行业范围内开发激发了AVS如何促进拥塞减少的问题。过去的研究表明,在小规模的混合交通情况下,AVS和人类驱动的车辆,执行受控多种驾驶政策的AVS的一小部分可以减轻拥堵。在本文中,我们扩展了现有方法,并在更复杂的情况下为AVS制定新的多种驾驶政策。首先,我们表明过去研究使用的拥堵指标是​​可以在开放的道路网络场景中操纵的,在该场景中,车辆动态加入并离开道路。然后,我们建议使用一个不同的指标来操纵并反映开放的网络流量效率。接下来,我们提出一种模块化转移增强学习方法,并使用它来扩展多种驾驶政策,以超越类似人类的流量和模拟现实情况下的现有方法,这是一个比过去的场景大的数量级(数百次而不是过去的情况(而不是)数十个车辆)。此外,我们的模块化转移学习方法通​​过将其数据收集集中在网络中的关键位置上,从而节省了我们实验中80%的培训时间。最后,我们首次展示了一项分布式的多重政策,从而改善了人类驱动流量的拥堵。分布式方法更现实和实用,因为它仅依赖于现有的感应和驱动功能,并且不需要添加新的通信基础架构。
translated by 谷歌翻译
随着自动组件比例越来越多的新兴车辆系统提供了最佳控制的机会,以减轻交通拥堵和提高效率。最近有兴趣将深入增强学习(DRL)应用于这些非线性动力学系统,以自动设计有效的控制策略。尽管DRL是无模型的概念优势,但研究通常仍依赖于对特定车辆系统的艰苦训练设置。这是对各种车辆和机动性系统有效分析的关键挑战。为此,本文贡献了一种简化的用于车辆微仿真的方法,并以最少的手动设计发现了高性能控制策略。提出了一种可变的代理,多任务方法,以优化车辆部分观察到的马尔可夫决策过程。该方法在混合自治交通系统上进行了实验验证,该系统是自动化的。在六种不同的开放或封闭交通系统的所有配置中都可以观察到经验改进,通常比人类驾驶基线的15-60%。该研究揭示了许多紧急行为类似于缓解波浪,交通信号传导和坡道计量。最后,对新兴行为进行了分析,以产生可解释的控制策略,这些控制策略已通过学习的控制策略进行了验证。
translated by 谷歌翻译
通过改善安全性,效率和移动性,自动车辆(AVS)的快速发展持有运输系统的巨大潜力。然而,通过AVS被采用的这些影响的进展尚不清楚。众多技术挑战是出于分析自治的部分采用:部分控制和观察,多车辆互动以及现实世界网络代表的纯粹场景的目标。本文研究了近期AV影响,研究了深度加强学习(RL)在低AV采用政权中克服了这些挑战的适用性。提出了一个模块化学习框架,它利用深rl来解决复杂的交通动态。模块组成用于捕获常见的交通现象(停止和转运交通拥堵,车道更改,交叉点)。在系统级速度方面,发现了学习的控制法则改善人类驾驶绩效,高达57%,只有4-7%的AVS。此外,在单线交通中,发现只有局部观察的小型神经网络控制规律消除了停止和转移的流量 - 超过所有已知的基于模型的控制器,以实现近乎最佳性能 - 并概括为OUT-分销交通密度。
translated by 谷歌翻译
我们提出了一种无模型加强学习方法,用于控制模拟交通网络中的混合自主流量,通过交通的双向和四路交叉口。我们的方法利用多代理政策分解,其允许基于本地观测的分散控制进行任意数量的受控车辆。我们证明,即使没有奖励塑造,加强学习也会学会协调车辆以表现出交通信号的行为,实现近乎最佳的受控车辆的最佳吞吐量。在多任务学习和转移学习的帮助下,我们表明这种行为横跨流量率和交通网络的大小推广。我们的代码,型号和视频的结果可在https://github.com/zhongxiayan/mixed_autonomy_intersection获得。
translated by 谷歌翻译
发现危险场景在测试中至关重要,进一步改善驾驶政策。然而,进行有效的驾驶政策测试面临两个关键挑战。一方面,在测试训练有素的自主驾驶策略时,自然遇到危险情景的可能性很低。因此,通过纯粹的现实世界的道路测试发现这些情景非常昂贵。另一方面,这项任务需要正确确定事故责任。收集错误归属责任的情景将导致过度保守的自治驾驶策略。更具体地说,我们的目标是发现是自主车辆负责(AV-Orderible),即测试驾驶政策的脆弱性的危险场景。为此,这项工作通过基于多智能体增强学习来查找AV负责的方案(星)提出了安全测试框架。星星指导其他交通参与者生产AV-Consocalize情景,并通过引入危险仲裁奖励(Har)来制作不受检测的驾驶政策行为不端行为。哈尔使我们的框架能够发现多样化,复杂和AV负责任的危险场景。针对三种环境中四种不同驾驶政策的实验结果表明星星可以有效地发现AV负责任的危险情景。这些方案确实对应于测试驾驶策略的漏洞,因此对其进一步的改进是有意义的。
translated by 谷歌翻译
自主的改进提供了许多域中积极成果的潜力,但保证了他们的安全部署是困难的。这项工作调查了人们如何智能地监督代理商,即使在表现担保是难以捉摸的情况下,即使性能保证也是如此达到一些安全性。激励研究问题是:在安全关键环境中,我们可以避免有必要始终有一台机器吗?本文正式化了这一“缩放监督”问题,并调查其在融入交通的自治车辆(AVS)的安全关键背景下。它提出了一种保守的,可达性的方法,以减少AVS人类主管的负担,这允许在此环境中建立高信任上限。通过深度加强学习学习序列和流量模拟分析,在数字上,AVS的组合可以在AV采用中进行监督时间。一个关键的外卖是,尽管存在AVS的不完美,但由于AVS部署了EN Masse,监督变得更具易行。虽然这项工作侧重于AVS,但可扩展的监督框架与更广泛的自主控制挑战阵列相关。
translated by 谷歌翻译
Proper functioning of connected and automated vehicles (CAVs) is crucial for the safety and efficiency of future intelligent transport systems. Meanwhile, transitioning to fully autonomous driving requires a long period of mixed autonomy traffic, including both CAVs and human-driven vehicles. Thus, collaboration decision-making for CAVs is essential to generate appropriate driving behaviors to enhance the safety and efficiency of mixed autonomy traffic. In recent years, deep reinforcement learning (DRL) has been widely used in solving decision-making problems. However, the existing DRL-based methods have been mainly focused on solving the decision-making of a single CAV. Using the existing DRL-based methods in mixed autonomy traffic cannot accurately represent the mutual effects of vehicles and model dynamic traffic environments. To address these shortcomings, this article proposes a graph reinforcement learning (GRL) approach for multi-agent decision-making of CAVs in mixed autonomy traffic. First, a generic and modular GRL framework is designed. Then, a systematic review of DRL and GRL methods is presented, focusing on the problems addressed in recent research. Moreover, a comparative study on different GRL methods is further proposed based on the designed framework to verify the effectiveness of GRL methods. Results show that the GRL methods can well optimize the performance of multi-agent decision-making for CAVs in mixed autonomy traffic compared to the DRL methods. Finally, challenges and future research directions are summarized. This study can provide a valuable research reference for solving the multi-agent decision-making problems of CAVs in mixed autonomy traffic and can promote the implementation of GRL-based methods into intelligent transportation systems. The source code of our work can be found at https://github.com/Jacklinkk/Graph_CAVs.
translated by 谷歌翻译
在未来几年和几十年中,自动驾驶汽车(AV)将变得越来越普遍,为更安全,更方便的旅行提供了新的机会,并可能利用自动化和连接性的更智能的交通控制方法。跟随汽车是自动驾驶中的主要功能。近年来,基于强化学习的汽车已受到关注,目的是学习和达到与人类相当的绩效水平。但是,大多数现有的RL方法将汽车模拟为单方面问题,仅感知前方的车辆。然而,最近的文献,王和霍恩[16]表明,遵循的双边汽车考虑了前方的车辆,而后面的车辆表现出更好的系统稳定性。在本文中,我们假设可以使用RL学习这款双边汽车,同时学习其他目标,例如效率最大化,混蛋最小化和安全奖励,从而导致学识渊博的模型超过了人类驾驶。我们通过将双边信息集成到基于双边控制模型(BCM)的CAR遵循控制的状态和奖励功能的情况下,提出并引入了遵循控制遵循的汽车的深钢筋学习(DRL)框架。此外,我们使用分散的多代理增强学习框架来为每个代理生成相​​应的控制动作。我们的仿真结果表明,我们学到的政策比(a)汽车间的前进方向,(b)平均速度,(c)混蛋,(d)碰撞时间(TTC)和(e)的速度更好。字符串稳定性。
translated by 谷歌翻译
我们解决了由具有不同驱动程序行为的道路代理人填充的密集模拟交通环境中的自我车辆导航问题。由于其异构行为引起的代理人的不可预测性,这种环境中的导航是挑战。我们提出了一种新的仿真技术,包括丰富现有的交通模拟器,其具有与不同程度的侵略性程度相对应的行为丰富的轨迹。我们在驾驶员行为建模算法的帮助下生成这些轨迹。然后,我们使用丰富的模拟器培训深度加强学习(DRL)策略,包括一组高级车辆控制命令,并在测试时间使用此策略来执行密集流量的本地导航。我们的政策隐含地模拟了交通代理商之间的交互,并计算了自助式驾驶员机动,例如超速,超速,编织和突然道路变化的激进驾驶员演习的安全轨迹。我们增强的行为丰富的模拟器可用于生成由对应于不同驱动程序行为和流量密度的轨迹组成的数据集,我们的行为的导航方案可以与最先进的导航算法相结合。
translated by 谷歌翻译
交通信号控制(TSC)是一个高风险域,随着交通量在全球的增长而增长。越来越多的作品将加固学习(RL)应用于TSC;RL可以利用大量的流量数据来提高信号效率。但是,从未部署基于RL的信号控制器。在这项工作中,我们提供了对TSC进行RL之前必须解决的挑战的首次审查。我们专注于四个涉及(1)检测不确定性的挑战,(2)通信的可靠性,(3)合规性和解释性以及(4)异构道路使用者。我们表明,基于RL的TSC的文献在应对每个挑战方面取得了一些进展。但是,更多的工作应采用系统思维方法,以考虑其他管道组件对RL的影响。
translated by 谷歌翻译
在过去的几十年中,车辆的升级和更新加速了。出于对环境友好和情报的需求,电动汽车(EV)以及连接和自动化的车辆(CAVS)已成为运输系统的新组成部分。本文开发了一个增强学习框架,以在信号交叉点上对由骑士和人类驱动车辆(HDV)组成的电力排实施自适应控制。首先,提出了马尔可夫决策过程(MDP)模型来描述混合排的决策过程。新颖的状态表示和奖励功能是为模型设计的,以考虑整个排的行为。其次,为了处理延迟的奖励,提出了增强的随机搜索(ARS)算法。代理商所学到的控制政策可以指导骑士的纵向运动,后者是排的领导者。最后,在模拟套件相扑中进行了一系列模拟。与几种最先进的(SOTA)强化学习方法相比,提出的方法可以获得更高的奖励。同时,仿真结果证明了延迟奖励的有效性,延迟奖励的有效性均优于分布式奖励机制}与正常的汽车跟随行为相比,灵敏度分析表明,可以将能量保存到不同的扩展(39.27%-82.51%))通过调整优化目标的相对重要性。在没有牺牲行进延迟的前提下,建议的控制方法可以节省多达53.64%的电能。
translated by 谷歌翻译
自动驾驶在过去二十年中吸引了重要的研究兴趣,因为它提供了许多潜在的好处,包括释放驾驶和减轻交通拥堵的司机等。尽管进展有前途,但车道变化仍然是自治车辆(AV)的巨大挑战,特别是在混合和动态的交通方案中。最近,强化学习(RL)是一种强大的数据驱动控制方法,已被广泛探索了在令人鼓舞的效果中的通道中的车道改变决策。然而,这些研究的大多数研究专注于单车展,并且在多个AVS与人类驱动车辆(HDV)共存的情况下,道路变化已经受到稀缺的关注。在本文中,我们在混合交通公路环境中制定了多个AVS的车道改变决策,作为多功能增强学习(Marl)问题,其中每个AV基于相邻AV的动作使车道变化的决定和HDV。具体地,使用新颖的本地奖励设计和参数共享方案开发了一种多代理优势演员批评网络(MA2C)。特别是,提出了一种多目标奖励功能来纳入燃油效率,驾驶舒适度和自主驾驶的安全性。综合实验结果,在三种不同的交通密度和各级人类司机侵略性下进行,表明我们所提出的Marl框架在效率,安全和驾驶员舒适方面始终如一地优于几个最先进的基准。
translated by 谷歌翻译
行人在场的运动控制算法对于开发安全可靠的自动驾驶汽车(AV)至关重要。传统运动控制算法依赖于手动设计的决策政策,这些政策忽略了AV和行人之间的相互作用。另一方面,深度强化学习的最新进展允许在没有手动设计的情况下自动学习政策。为了解决行人在场的决策问题,作者介绍了一个基于社会价值取向和深入强化学习(DRL)的框架,该框架能够以不同的驾驶方式生成决策政策。该政策是在模拟环境中使用最先进的DRL算法培训的。还引入了适合DRL训练的新型计算效率的行人模型。我们执行实验以验证我们的框架,并对使用两种不同的无模型深钢筋学习算法获得的策略进行了比较分析。模拟结果表明,开发的模型如何表现出自然的驾驶行为,例如短暂的驾驶行为,以促进行人的穿越。
translated by 谷歌翻译
交叉路口交通信号控制器(TSC)中的次优化控制策略有助于拥堵,导致对人类健康和环境的负面影响。交通信号控制的强化学习(RL)是设计更好控制政策的有希望的方法,并近年来吸引了相当大的研究兴趣。但是,在该区域中完成的大多数工作使用了交通方案的简化仿真环境,以培训基于RL的TSC。要在现实世界流量系统中部署RL,必须关闭简化的仿真环境和现实应用程序之间的差距。因此,我们提出了一个基准工具,将RL代理作为TSC的基准工具,在Lemgo的德国中型镇的逼真模拟环境中。除了现实的仿真模型之外,LEMGORL还包括交通信号逻辑单元,可确保符合所有监管和安全要求。 LEMGORL提供与Killknown Openai健身房工具包相同的界面,以便在现有的研究工作中轻松进行部署。为了演示LemGorl的功能和适用性,我们利用分布式和并行RL的框架训练CPU群集的最先进的深rl算法,并将其性能与其他方法进行比较。我们的基准工具推动了RL算法对现实世界的应用。
translated by 谷歌翻译
深度强化学习(DRL)使用多样化的非结构化数据,并使RL能够在高维环境中学习复杂的策略。基于自动驾驶汽车(AVS)的智能运输系统(ITS)为基于政策的DRL提供了绝佳的操场。深度学习体系结构解决了传统算法的计算挑战,同时帮助实现了AV的现实采用和部署。 AVS实施的主要挑战之一是,即使不是可靠和有效地管理的道路上的交通拥堵可能会加剧交通拥堵。考虑到每辆车的整体效果并使用高效和可靠的技术可以真正帮助优化交通流量管理和减少拥堵。为此,我们提出了一个智能的交通管制系统,该系统处理在交叉路口和交叉点后面的复杂交通拥堵场景。我们提出了一个基于DRL的信号控制系统,该系统根据当前交叉点的当前拥塞状况动态调整交通信号。为了应对交叉路口后面的道路上的拥堵,我们使用重新穿线技术来加载道路网络上的车辆。为了实现拟议方法的实际好处,我们分解了数据筒仓,并将所有来自传感器,探测器,车辆和道路结合使用的数据结合起来,以实现可持续的结果。我们使用Sumo微型模拟器进行模拟。我们提出的方法的重要性从结果中体现出来。
translated by 谷歌翻译
本文重点介绍了大型城市网络的几个属性,这些属性可能会影响应用于交通信号控制的机器学习方法。特别是,我们表明,随着密度的增加,平均网络流往往独立于信号控制策略。到目前为止,这种属性一直存在于雷达之下,这意味着在拥挤的条件下训练时,深厚的增强学习(DRL)方法变得无效,并且可能解释了DRL在交通信号控制方面的成功有限。我们的结果适用于所有可能的网格网络,这要归功于基于两个网络参数的参数化:连续交通信号灯与预期绿色时间之间的预期距离和交叉点的转弯概率的比率。具有不同参数的网络对流量信号控制的响应非常不同。值得注意的是,我们发现没有控制(即随机政策)可以成为一个令人惊讶的大型网络家庭的有效控制策略。对于基线和DRL政策而言,转向概率的影响都非常重要。它还解释了这些策略观察到的对称性的丧失,这并不能由依赖走廊近似没有转弯的现有理论捕获。我们的发现还表明,监督的学习方法具有巨大的潜力,因为它们几乎不需要实例来制定出色的政策。
translated by 谷歌翻译
事物互联网(物联网)和人工智能(AI)的快速进步催化了智能城市的自适应交通信号控制系统(ATCS)的开发。特别是,深度增强学习(DRL)方法产生最先进的性能,并且具有很大的实际应用潜力。在现有的基于DRL的ATC中,受控信号从附近车辆收集交通状态信息,然后可以基于收集的信息确定最佳动作(例如,切换阶段)。 DRL模型完全“信任”该车辆正在向信号发送真实信息,使ATC易受伪造信息的对抗攻击。鉴于此,本文首次制定了一种新颖的任务,其中一组车辆可以协同地发送伪造的信息,以“欺骗”基于DRL的ATC,以节省他们的总旅行时间。为了解决拟议的任务,我们开发了由道路状语编码器,车辆解释器和通信机制组成的通用和有效的车辆斗争框架。我们采用我们的方法来攻击建立的基于DRL的ATC,并证明拼拼载的总行程时间可以通过合理数量的学习剧集显着减少,并且如果拼的车辆的数量增加,勾结效果将减小。此外,还提供了对基于DRL的ATC的实际部署的见解和建议。研究结果可以帮助提高ATC的可靠性和鲁棒性,并更好地保护智能移动系统。
translated by 谷歌翻译
自动驾驶汽车是一项不断发展的技术,旨在通过自动操作从车道变更到超车来提高安全性,可访问性,效率和便利性。超车是自动驾驶汽车最具挑战性的操作之一,当前的自动超车技术仅限于简单情况。本文研究了如何通过允许动作流产来提高自主超车的安全性。我们提出了一个基于深层Q网络的决策过程,以确定是否以及何时需要中止超车的操作。拟议的算法在与交通情况不同的模拟中进行了经验评估,这表明所提出的方法可以改善超车手动过程中的安全性。此外,使用自动班车Iseauto在现实世界实验中证明了该方法。
translated by 谷歌翻译
自驱动粒子(SDP)描述了日常生活中常见的一类常见的多种子体系统,例如植绒鸟类和交通流量。在SDP系统中,每个代理商都追求自己的目标,并不断改变其与附近代理商的合作或竞争行为。手动设计用于此类SDP系统的控制器是耗时的,而产生的紧急行为往往是不可逼真的,也不是更广泛的。因此,SDP系统的现实模拟仍然具有挑战性。强化学习提供了一种吸引人的替代方案,用于自动化SDP控制器的开发。然而,以前的多档强化学习(Marl)方法将代理人定义为手头之前的队友或敌人,这未能捕获每个代理的作用的SDP的本质,即使在一个集中也变化或竞争。为了用Marl模拟SDP,一个关键挑战是协调代理的行为,同时仍然最大化个人目标。将交通仿真作为测试床,在这项工作中,我们开发了一种称为协调政策优化(Copo)的新型MARL方法,该方法包括社会心理学原理来学习SDP的神经控制器。实验表明,与各种度量标准的Marl基线相比,该方法可以实现优越的性能。明显的车辆明显地表现出复杂和多样化的社会行为,以提高整个人口的性能和安全性。演示视频和源代码可用于:https://decisionforce.github.io/copo/
translated by 谷歌翻译