为了减少旅行延迟并提高能源效率的策略,在非信号交叉点上连接和自动驾驶汽车(CAV)的排在学术界越来越流行。但是,很少有研究试图建模最佳排大小与交叉路口周围的交通状况之间的关系。为此,这项研究提出了一个基于自动排的基于自主的交叉控制模型,该模型由深钢筋学习(DRL)技术提供动力。该模型框架具有以下两个级别:第一级采用了第一次发球(FCFS)基于预订的策略,该政策与非冲突的车道选择机制集成在一起,以确定车辆的通过优先级;第二级应用深度Q-Network算法来根据交叉路口的实时交通状况识别最佳排尺寸。在交通微模拟器进行测试时,我们提出的模型与最先进的方法相比,在旅行效率和燃料保护方面表现出卓越的性能。
translated by 谷歌翻译
作为一项新兴技术,据信,连接的自动驾驶汽车能够以更高的效率通过交叉点,并且与基于预先设计的基于模型或基于优化的计划通过计划相比,已经进行了数十年的相关研究,这是相比的。在过去两年中,自主交叉管理(AIM)领域(AIM)领域的分布强化学习才开始出现,并面临许多挑战。我们的研究设计了一个多级学习框架,具有各种观察范围,动作步骤和奖励期,以充分利用车辆周围的信息,并帮助找出所有车辆的最佳交互策略。我们的实验已证明,与没有它的RL相比,与RL相比,该框架可以显着提高安全性,并提高效率与基线相比。
translated by 谷歌翻译
本文通过像素保留算法和深度增强学习(DRL)决策逻辑的结合,为CAV提供了无信号的交叉控制系统,然后是对拟议模型的走廊级影响评估。像素保留算法检测到潜在的碰撞操作,DRL逻辑优化了车辆的运动,以避免碰撞并最大程度地减少交叉路口的整体延迟。拟议的控制系统称为分散的稀疏协调系统(DSCLS),因为每辆车都有自己的控制逻辑,并且仅在协调状态下与其他车辆互动。由于在DRL的培训课程中采取随机行动的链条影响,训练有素的模型可以应对前所未有的体积条件,这在交叉管理中构成了主要挑战。将开发模型的性能与传统和基于CAV的控制系统进行了比较,包括固定的交通信号灯,驱动的交通信号灯以及最长的队列第一(LQF)控制系统,在Vissim软件中四个交叉路口的走廊中,在三个卷机制下进行了比较。模拟结果表明,与其他基于CAV的控制系统相比,提出的模型在中等,高和极端体积方案中将延迟减少了50%,29%和23%。旅行时间,燃油消耗,排放和替代安全措施(SSM)的改善也很明显。
translated by 谷歌翻译
在过去的几十年中,车辆的升级和更新加速了。出于对环境友好和情报的需求,电动汽车(EV)以及连接和自动化的车辆(CAVS)已成为运输系统的新组成部分。本文开发了一个增强学习框架,以在信号交叉点上对由骑士和人类驱动车辆(HDV)组成的电力排实施自适应控制。首先,提出了马尔可夫决策过程(MDP)模型来描述混合排的决策过程。新颖的状态表示和奖励功能是为模型设计的,以考虑整个排的行为。其次,为了处理延迟的奖励,提出了增强的随机搜索(ARS)算法。代理商所学到的控制政策可以指导骑士的纵向运动,后者是排的领导者。最后,在模拟套件相扑中进行了一系列模拟。与几种最先进的(SOTA)强化学习方法相比,提出的方法可以获得更高的奖励。同时,仿真结果证明了延迟奖励的有效性,延迟奖励的有效性均优于分布式奖励机制}与正常的汽车跟随行为相比,灵敏度分析表明,可以将能量保存到不同的扩展(39.27%-82.51%))通过调整优化目标的相对重要性。在没有牺牲行进延迟的前提下,建议的控制方法可以节省多达53.64%的电能。
translated by 谷歌翻译
本文提出了一个基于加固学习(RL)的电动连接车辆(CV)的生态驾驶框架,以提高信号交叉点的车辆能效。通过整合基于型号的汽车策略,改变车道的政策和RL政策来确保车辆代理的安全操作。随后,制定了马尔可夫决策过程(MDP),该过程使车辆能够执行纵向控制和横向决策,从而共同优化了交叉口附近CVS的CAR跟踪和改变车道的行为。然后,将混合动作空间参数化为层次结构,从而在动态交通环境中使用二维运动模式训练代理。最后,我们所提出的方法从基于单车的透视和基于流的透视图中在Sumo软件中进行了评估。结果表明,我们的策略可以通过学习适当的动作方案来大大减少能源消耗,而不会中断其他人类驱动的车辆(HDVS)。
translated by 谷歌翻译
应用用于交通信号控制(TSC)的增强学习(RL)技术的一般趋势。最近,大多数研究都注意神经网络设计,很少集中在国家代表上。国家代表的设计是否对TSC产生了良好的影响?在本文中,我们(1)提出了一种有效的国家代表,作为具有密集知识的车辆的队列长度; (2)提出了一种基于我们的国家表示方法的TSC方法,称为Maxqueue; (3)通过基于传统和最新RL模型的QL-Xlight模板,开发一个名为QL-Xlight的基于QL-Xlight的TSC模板,以及QL-FRAP,QL-Colight和QL-DQN。通过对多个现实世界数据集的全面实验,我们证明:(1)我们的Maxqueue方法优于最新的基于RL的方法; (2)QL-FRAP和QL-COLIGHT实现了一种新的最先进(SOTA)。通常,具有密集知识的状态表示对于TSC方法也是必不可少的。我们的代码在github上发布。
translated by 谷歌翻译
本文开发了用于多交叉路口自适应交通信号控制(TSC)的分散增强学习(RL)方案,称为“CVlight”,其利用从连接的车辆(CVS)收集的数据。国家和奖励设计促进了代理商之间的协调,并考虑由CVS收集的旅行延误。提出了一种新颖的算法,非对称优势演员 - 评论家(EB-A2C),其中CV和非CV信息都用于培训批评网络,而仅使用CV信息来执行最佳信号定时。综合实验表明,CVlight的优越性在一个2×2合成道路网络下的最先进的算法,各种交通需求模式和穿透速率。然后,学习的政策被可视化以进一步展示ASYM-A2C的优点。采用火车前技术来提高CVlight的可扩展性,这显着缩短了培训时间,并在5×5路网络下表现出性能的优势。在美国宾夕法尼亚州宾夕法尼亚州州学院的2×2路网络上进行了一个案例研究,以进一步展示了在现实世界方案下所提出的算法的有效性。与其他基线模型相比,训练有素的CVlight代理可以仅基于CV数据有效地控制多个交叉点,达到最佳性能,特别是在低CV渗透率下。
translated by 谷歌翻译
深度强化学习(DRL)使用多样化的非结构化数据,并使RL能够在高维环境中学习复杂的策略。基于自动驾驶汽车(AVS)的智能运输系统(ITS)为基于政策的DRL提供了绝佳的操场。深度学习体系结构解决了传统算法的计算挑战,同时帮助实现了AV的现实采用和部署。 AVS实施的主要挑战之一是,即使不是可靠和有效地管理的道路上的交通拥堵可能会加剧交通拥堵。考虑到每辆车的整体效果并使用高效和可靠的技术可以真正帮助优化交通流量管理和减少拥堵。为此,我们提出了一个智能的交通管制系统,该系统处理在交叉路口和交叉点后面的复杂交通拥堵场景。我们提出了一个基于DRL的信号控制系统,该系统根据当前交叉点的当前拥塞状况动态调整交通信号。为了应对交叉路口后面的道路上的拥堵,我们使用重新穿线技术来加载道路网络上的车辆。为了实现拟议方法的实际好处,我们分解了数据筒仓,并将所有来自传感器,探测器,车辆和道路结合使用的数据结合起来,以实现可持续的结果。我们使用Sumo微型模拟器进行模拟。我们提出的方法的重要性从结果中体现出来。
translated by 谷歌翻译
Proper functioning of connected and automated vehicles (CAVs) is crucial for the safety and efficiency of future intelligent transport systems. Meanwhile, transitioning to fully autonomous driving requires a long period of mixed autonomy traffic, including both CAVs and human-driven vehicles. Thus, collaboration decision-making for CAVs is essential to generate appropriate driving behaviors to enhance the safety and efficiency of mixed autonomy traffic. In recent years, deep reinforcement learning (DRL) has been widely used in solving decision-making problems. However, the existing DRL-based methods have been mainly focused on solving the decision-making of a single CAV. Using the existing DRL-based methods in mixed autonomy traffic cannot accurately represent the mutual effects of vehicles and model dynamic traffic environments. To address these shortcomings, this article proposes a graph reinforcement learning (GRL) approach for multi-agent decision-making of CAVs in mixed autonomy traffic. First, a generic and modular GRL framework is designed. Then, a systematic review of DRL and GRL methods is presented, focusing on the problems addressed in recent research. Moreover, a comparative study on different GRL methods is further proposed based on the designed framework to verify the effectiveness of GRL methods. Results show that the GRL methods can well optimize the performance of multi-agent decision-making for CAVs in mixed autonomy traffic compared to the DRL methods. Finally, challenges and future research directions are summarized. This study can provide a valuable research reference for solving the multi-agent decision-making problems of CAVs in mixed autonomy traffic and can promote the implementation of GRL-based methods into intelligent transportation systems. The source code of our work can be found at https://github.com/Jacklinkk/Graph_CAVs.
translated by 谷歌翻译
由于传统方法无法适应动态交通条件,因此增强学习(RL)吸引了更多地关注,帮助解决交通信号控制(TSC)问题。然而,考虑到它们在计算资源方面既不具有比传统方法更具成本效益,都不会部署基于RL的方法,这提出了一个关键的研究问题:如何用较少的训练构建自适应控制器,减少TSC基于RL的方法的复杂性?为了解决这个问题,在本文中,我们(1)创新地将交通流量表示指定为交通网络中的车辆队列的简单但有效的压力,即有效的压力(EP); (2)构建流量信号设置协议,包括TSC的阶段,信号相位数和EP; (3)设计基于传统最大压力(MP)方法的TSC方法,即使用EP捕获交通状态的高效最大压力(高效-MP); (4)开发一般的基于RL的TSC算法模板:EP下有效的Xlight(效率Xlight)。通过对TSC的交通信号设置的多个实际数据集的全面实验,我们证明了与基于传统和RL的建模互补的压力,以设计更好的TSC方法。我们的代码在github上发布。
translated by 谷歌翻译
最近,寻找交通状态表示的基本属性比交通信号控制(TSC)的复杂算法更为重要。跑步和排队的车辆考虑到决定是否改变当前阶段;(2)新颖的设计交通运输表示与高级MP的有效压力和有效运行的车辆,即高级交通状态(ATS);(3)通过与当前RL方法的ats组合并生成两个RL算法,“Advanced-Mplight”和“Advanced-Colight”,开发基于RL的算法模板Advanced-Xlight。多个现实世界数据集的综合实验表明:(1)高级MP优于基线方法,可为部署有效可靠;(2)先进的热门和高级雕塑可以实现新的最先进。我们的代码在github上发布。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译
城市交叉点的交通效率提高在自动交叉管理领域具有强大的研究兴趣。到目前为止,提出了大多数非学习算法(例如预订或基于优化的算法)来解决基本的多代理计划问题。同时,使用机器学习方法越来越多地实施了单个自我车辆的自动驾驶功能。在这项工作中,我们基于先前呈现的基于图的场景表示和图形神经网络,以使用强化学习来解决问题。除了车辆的现有节点功能外,通过使用边缘功能,通过使用边缘功能改进了场景表示。这会导致更高的表示网络体系结构利用的表示质量提高。本文对针对自动交叉路口管理通常使用的基线的建议方法进行了深入的评估。与传统的信号交叉路口和增强的第一届第一方案相比,在变化的交通密度下,观察到诱导延迟的显着减少。最后,通过测试训练过程中未见的交叉路口布局的策略来评估基于图的表示的概括能力。该模型实际上将较小的相交布局概括,并且在某些范围内对较大的交叉路口进行了概括。
translated by 谷歌翻译
紧急车辆(EMV)在应对城市地区的医疗紧急情况和火灾爆发等时间关键电话方面起着至关重要的作用。现有的EMV调度方法通常会根据历史流量数据数据和设计流量信号相应地优化路线;但是,我们仍然缺乏一种系统的方法来解决EMV路由和流量信号控制之间的耦合。在本文中,我们提出了EMVLIGHT,这是一个分散的加固学习(RL)框架,用于联合动态EMV路由和交通信号的先发制人。我们采用具有政策共享和空间折现因子的多代理优势行为者 - 批评方法。该框架通过多级RL代理的创新设计和新型的基于压力的奖励功能来解决EMV导航和交通信号控制之间的耦合。拟议的方法使EMVLIGHT能够学习网络级的合作交通信号相阶段阶段策略,这些策略不仅减少EMV旅行时间,而且还缩短了非EMV的旅行时间。基于仿真的实验表明,EMVLIGHT可使EMV旅行时间减少$ 42.6 \%$,以及与现有方法相比,$ 23.5 \%$短的平均旅行时间。
translated by 谷歌翻译
我们提出了一种无模型加强学习方法,用于控制模拟交通网络中的混合自主流量,通过交通的双向和四路交叉口。我们的方法利用多代理政策分解,其允许基于本地观测的分散控制进行任意数量的受控车辆。我们证明,即使没有奖励塑造,加强学习也会学会协调车辆以表现出交通信号的行为,实现近乎最佳的受控车辆的最佳吞吐量。在多任务学习和转移学习的帮助下,我们表明这种行为横跨流量率和交通网络的大小推广。我们的代码,型号和视频的结果可在https://github.com/zhongxiayan/mixed_autonomy_intersection获得。
translated by 谷歌翻译
在自主驾驶场中,人类知识融合到深增强学习(DRL)通常基于在模拟环境中记录的人类示范。这限制了在现实世界交通中的概率和可行性。我们提出了一种两级DRL方法,从真实的人类驾驶中学习,实现优于纯DRL代理的性能。培训DRL代理商是在Carla的框架内完成了机器人操作系统(ROS)。对于评估,我们设计了不同的真实驾驶场景,可以将提出的两级DRL代理与纯DRL代理进行比较。在从人驾驶员中提取“良好”行为之后,例如在信号交叉口中的预期,该代理变得更有效,并且驱动更安全,这使得这种自主代理更适应人体机器人交互(HRI)流量。
translated by 谷歌翻译
随着自动组件比例越来越多的新兴车辆系统提供了最佳控制的机会,以减轻交通拥堵和提高效率。最近有兴趣将深入增强学习(DRL)应用于这些非线性动力学系统,以自动设计有效的控制策略。尽管DRL是无模型的概念优势,但研究通常仍依赖于对特定车辆系统的艰苦训练设置。这是对各种车辆和机动性系统有效分析的关键挑战。为此,本文贡献了一种简化的用于车辆微仿真的方法,并以最少的手动设计发现了高性能控制策略。提出了一种可变的代理,多任务方法,以优化车辆部分观察到的马尔可夫决策过程。该方法在混合自治交通系统上进行了实验验证,该系统是自动化的。在六种不同的开放或封闭交通系统的所有配置中都可以观察到经验改进,通常比人类驾驶基线的15-60%。该研究揭示了许多紧急行为类似于缓解波浪,交通信号传导和坡道计量。最后,对新兴行为进行了分析,以产生可解释的控制策略,这些控制策略已通过学习的控制策略进行了验证。
translated by 谷歌翻译
在未来几年和几十年中,自动驾驶汽车(AV)将变得越来越普遍,为更安全,更方便的旅行提供了新的机会,并可能利用自动化和连接性的更智能的交通控制方法。跟随汽车是自动驾驶中的主要功能。近年来,基于强化学习的汽车已受到关注,目的是学习和达到与人类相当的绩效水平。但是,大多数现有的RL方法将汽车模拟为单方面问题,仅感知前方的车辆。然而,最近的文献,王和霍恩[16]表明,遵循的双边汽车考虑了前方的车辆,而后面的车辆表现出更好的系统稳定性。在本文中,我们假设可以使用RL学习这款双边汽车,同时学习其他目标,例如效率最大化,混蛋最小化和安全奖励,从而导致学识渊博的模型超过了人类驾驶。我们通过将双边信息集成到基于双边控制模型(BCM)的CAR遵循控制的状态和奖励功能的情况下,提出并引入了遵循控制遵循的汽车的深钢筋学习(DRL)框架。此外,我们使用分散的多代理增强学习框架来为每个代理生成相​​应的控制动作。我们的仿真结果表明,我们学到的政策比(a)汽车间的前进方向,(b)平均速度,(c)混蛋,(d)碰撞时间(TTC)和(e)的速度更好。字符串稳定性。
translated by 谷歌翻译
交通拥堵是现代城市环境中的主要挑战。自动驾驶汽车和自动化车辆(AV)的行业范围内开发激发了AVS如何促进拥塞减少的问题。过去的研究表明,在小规模的混合交通情况下,AVS和人类驱动的车辆,执行受控多种驾驶政策的AVS的一小部分可以减轻拥堵。在本文中,我们扩展了现有方法,并在更复杂的情况下为AVS制定新的多种驾驶政策。首先,我们表明过去研究使用的拥堵指标是​​可以在开放的道路网络场景中操纵的,在该场景中,车辆动态加入并离开道路。然后,我们建议使用一个不同的指标来操纵并反映开放的网络流量效率。接下来,我们提出一种模块化转移增强学习方法,并使用它来扩展多种驾驶政策,以超越类似人类的流量和模拟现实情况下的现有方法,这是一个比过去的场景大的数量级(数百次而不是过去的情况(而不是)数十个车辆)。此外,我们的模块化转移学习方法通​​过将其数据收集集中在网络中的关键位置上,从而节省了我们实验中80%的培训时间。最后,我们首次展示了一项分布式的多重政策,从而改善了人类驱动流量的拥堵。分布式方法更现实和实用,因为它仅依赖于现有的感应和驱动功能,并且不需要添加新的通信基础架构。
translated by 谷歌翻译
自动化和自主车辆(AVS)的出现会创造使用多个AV的系统级别目标,例如交通拥堵。过去的研究表明,可以在各种模拟场景中学习多层挤压驾驶策略。虽然概念的初始证明是具有集中控制器的小型,封闭式交通网络,但最近成功的结果已经在更现实的环境中进行了演示,其中具有在车辆进入和离开的开放式道路网络中运行的分布式控制策略。然而,这些驾驶政策主要在他们接受培训的同样条件下进行测试,并且尚未对不同的交通状况进行彻底测试,这是现实世界方案的关键要求。本文介绍了学习的多层驾驶策略,对各种开放网络流量条件,包括车辆流量,交通,AV放置和不同的合并道路几何形状的各个型号。彻底的实证分析调查了这种政策对简单合并网络中的AV的敏感性,以及两个合并坡道的更复杂的道路。它表明,即使使用AV渗透率低至2%,学习政策也会实现对模拟人类驱动的政策的显着改善。同样的政策也被证明能够减少在更复杂的道路上减少交通拥堵,具有两个合并坡道。
translated by 谷歌翻译