智能论文笔记

Traffic Management of Autonomous Vehicles using Policy Based Deep Reinforcement Learning and Intelligent Routing

Anum Mushtaq , Irfan ul Haq , Muhammad Azeem Sarwar , Asifullah Khan , Omair Shafiq

分类：机器学习 | 人工智能

2022-06-28

深度强化学习（DRL）使用多样化的非结构化数据，并使RL能够在高维环境中学习复杂的策略。基于自动驾驶汽车（AVS）的智能运输系统（ITS）为基于政策的DRL提供了绝佳的操场。深度学习体系结构解决了传统算法的计算挑战，同时帮助实现了AV的现实采用和部署。 AVS实施的主要挑战之一是，即使不是可靠和有效地管理的道路上的交通拥堵可能会加剧交通拥堵。考虑到每辆车的整体效果并使用高效和可靠的技术可以真正帮助优化交通流量管理和减少拥堵。为此，我们提出了一个智能的交通管制系统，该系统处理在交叉路口和交叉点后面的复杂交通拥堵场景。我们提出了一个基于DRL的信号控制系统，该系统根据当前交叉点的当前拥塞状况动态调整交通信号。为了应对交叉路口后面的道路上的拥堵，我们使用重新穿线技术来加载道路网络上的车辆。为了实现拟议方法的实际好处，我们分解了数据筒仓，并将所有来自传感器，探测器，车辆和道路结合使用的数据结合起来，以实现可持续的结果。我们使用Sumo微型模拟器进行模拟。我们提出的方法的重要性从结果中体现出来。

translated by 谷歌翻译

Learning the policy for mixed electric platoon control of automated and human-driven vehicles at signalized intersection: a random search approach

Xia Jiang , Jian Zhang , Xiaoyu Shi , Jian Cheng

分类：机器人

2022-06-24

在过去的几十年中，车辆的升级和更新加速了。出于对环境友好和情报的需求，电动汽车（EV）以及连接和自动化的车辆（CAVS）已成为运输系统的新组成部分。本文开发了一个增强学习框架，以在信号交叉点上对由骑士和人类驱动车辆（HDV）组成的电力排实施自适应控制。首先，提出了马尔可夫决策过程（MDP）模型来描述混合排的决策过程。新颖的状态表示和奖励功能是为模型设计的，以考虑整个排的行为。其次，为了处理延迟的奖励，提出了增强的随机搜索（ARS）算法。代理商所学到的控制政策可以指导骑士的纵向运动，后者是排的领导者。最后，在模拟套件相扑中进行了一系列模拟。与几种最先进的（SOTA）强化学习方法相比，提出的方法可以获得更高的奖励。同时，仿真结果证明了延迟奖励的有效性，延迟奖励的有效性均优于分布式奖励机制}与正常的汽车跟随行为相比，灵敏度分析表明，可以将能量保存到不同的扩展（39.27％-82.51％））通过调整优化目标的相对重要性。在没有牺牲行进延迟的前提下，建议的控制方法可以节省多达53.64％的电能。

translated by 谷歌翻译

Eco-driving for Electric Connected Vehicles at Signalized Intersections: A Parameterized Reinforcement Learning approach

Xia Jiang , Jian Zhang , Dan Li

分类：机器人 | 人工智能

2022-06-24

本文提出了一个基于加固学习（RL）的电动连接车辆（CV）的生态驾驶框架，以提高信号交叉点的车辆能效。通过整合基于型号的汽车策略，改变车道的政策和RL政策来确保车辆代理的安全操作。随后，制定了马尔可夫决策过程（MDP），该过程使车辆能够执行纵向控制和横向决策，从而共同优化了交叉口附近CVS的CAR跟踪和改变车道的行为。然后，将混合动作空间参数化为层次结构，从而在动态交通环境中使用二维运动模式训练代理。最后，我们所提出的方法从基于单车的透视和基于流的透视图中在Sumo软件中进行了评估。结果表明，我们的策略可以通过学习适当的动作方案来大大减少能源消耗，而不会中断其他人类驱动的车辆（HDVS）。

translated by 谷歌翻译

Towards Real-World Deployment of Reinforcement Learning for Traffic Signal Control

Arthur Müller , Vishal Rangras , Georg Schnittker , Michael Waldmann , Maxim Friesen , Tobias Ferfers , Lukas Schreckenberg , Florian Hufen , Jürgen Jasperneite , Marco Wiering

分类：机器学习

2021-03-30

交叉路口交通信号控制器（TSC）中的次优化控制策略有助于拥堵，导致对人类健康和环境的负面影响。交通信号控制的强化学习（RL）是设计更好控制政策的有希望的方法，并近年来吸引了相当大的研究兴趣。但是，在该区域中完成的大多数工作使用了交通方案的简化仿真环境，以培训基于RL的TSC。要在现实世界流量系统中部署RL，必须关闭简化的仿真环境和现实应用程序之间的差距。因此，我们提出了一个基准工具，将RL代理作为TSC的基准工具，在Lemgo的德国中型镇的逼真模拟环境中。除了现实的仿真模型之外，LEMGORL还包括交通信号逻辑单元，可确保符合所有监管和安全要求。 LEMGORL提供与Killknown Openai健身房工具包相同的界面，以便在现有的研究工作中轻松进行部署。为了演示LemGorl的功能和适用性，我们利用分布式和并行RL的框架训练CPU群集的最先进的深rl算法，并将其性能与其他方法进行比较。我们的基准工具推动了RL算法对现实世界的应用。

translated by 谷歌翻译

EMVLight: a Multi-agent Reinforcement Learning Framework for an Emergency Vehicle Decentralized Routing and Traffic Signal Control System

Haoran Su , Yaofeng D. Zhong , Joseph Y. J. Chow , Biswadip Dey , Li Jin

分类：人工智能

2022-06-27

紧急车辆（EMV）在应对城市地区的医疗紧急情况和火灾爆发等时间关键电话方面起着至关重要的作用。现有的EMV调度方法通常会根据历史流量数据数据和设计流量信号相应地优化路线；但是，我们仍然缺乏一种系统的方法来解决EMV路由和流量信号控制之间的耦合。在本文中，我们提出了EMVLIGHT，这是一个分散的加固学习（RL）框架，用于联合动态EMV路由和交通信号的先发制人。我们采用具有政策共享和空间折现因子的多代理优势行为者 - 批评方法。该框架通过多级RL代理的创新设计和新型的基于压力的奖励功能来解决EMV导航和交通信号控制之间的耦合。拟议的方法使EMVLIGHT能够学习网络级的合作交通信号相阶段阶段策略，这些策略不仅减少EMV旅行时间，而且还缩短了非EMV的旅行时间。基于仿真的实验表明，EMVLIGHT可使EMV旅行时间减少$ 42.6 \％$，以及与现有方法相比，$ 23.5 \％$短的平均旅行时间。

translated by 谷歌翻译

Development of a CAV-based Intersection Control System and Corridor Level Impact Assessment

Ardeshir Mirbakhsh , Joyoung Lee , Dejan Besenski

分类：人工智能

2022-08-21

本文通过像素保留算法和深度增强学习（DRL）决策逻辑的结合，为CAV提供了无信号的交叉控制系统，然后是对拟议模型的走廊级影响评估。像素保留算法检测到潜在的碰撞操作，DRL逻辑优化了车辆的运动，以避免碰撞并最大程度地减少交叉路口的整体延迟。拟议的控制系统称为分散的稀疏协调系统（DSCLS），因为每辆车都有自己的控制逻辑，并且仅在协调状态下与其他车辆互动。由于在DRL的培训课程中采取随机行动的链条影响，训练有素的模型可以应对前所未有的体积条件，这在交叉管理中构成了主要挑战。将开发模型的性能与传统和基于CAV的控制系统进行了比较，包括固定的交通信号灯，驱动的交通信号灯以及最长的队列第一（LQF）控制系统，在Vissim软件中四个交叉路口的走廊中，在三个卷机制下进行了比较。模拟结果表明，与其他基于CAV的控制系统相比，提出的模型在中等，高和极端体积方案中将延迟减少了50％，29％和23％。旅行时间，燃油消耗，排放和替代安全措施（SSM）的改善也很明显。

translated by 谷歌翻译

Congested Urban Networks Tend to Be Insensitive to Signal Settings: Implications for Learning-Based Control

Jorge Laval , Hao Zhou

分类：机器学习

2020-08-21

本文重点介绍了大型城市网络的几个属性，这些属性可能会影响应用于交通信号控制的机器学习方法。特别是，我们表明，随着密度的增加，平均网络流往往独立于信号控制策略。到目前为止，这种属性一直存在于雷达之下，这意味着在拥挤的条件下训练时，深厚的增强学习（DRL）方法变得无效，并且可能解释了DRL在交通信号控制方面的成功有限。我们的结果适用于所有可能的网格网络，这要归功于基于两个网络参数的参数化：连续交通信号灯与预期绿色时间之间的预期距离和交叉点的转弯概率的比率。具有不同参数的网络对流量信号控制的响应非常不同。值得注意的是，我们发现没有控制（即随机政策）可以成为一个令人惊讶的大型网络家庭的有效控制策略。对于基线和DRL政策而言，转向概率的影响都非常重要。它还解释了这些策略观察到的对称性的丧失，这并不能由依赖走廊近似没有转弯的现有理论捕获。我们的发现还表明，监督的学习方法具有巨大的潜力，因为它们几乎不需要实例来制定出色的政策。

translated by 谷歌翻译

Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach

Yuli. Zhang , Shangbo. Wang , Ruiyuan. Jiang

分类：人工智能 | 机器学习

2023-01-02

Reinforcement Learning (RL) is currently one of the most commonly used techniques for traffic signal control (TSC), which can adaptively adjusted traffic signal phase and duration according to real-time traffic data. However, a fully centralized RL approach is beset with difficulties in a multi-network scenario because of exponential growth in state-action space with increasing intersections. Multi-agent reinforcement learning (MARL) can overcome the high-dimension problem by employing the global control of each local RL agent, but it also brings new challenges, such as the failure of convergence caused by the non-stationary Markov Decision Process (MDP). In this paper, we introduce an off-policy nash deep Q-Network (OPNDQN) algorithm, which mitigates the weakness of both fully centralized and MARL approaches. The OPNDQN algorithm solves the problem that traditional algorithms cannot be used in large state-action space traffic models by utilizing a fictitious game approach at each iteration to find the nash equilibrium among neighboring intersections, from which no intersection has incentive to unilaterally deviate. One of main advantages of OPNDQN is to mitigate the non-stationarity of multi-agent Markov process because it considers the mutual influence among neighboring intersections by sharing their actions. On the other hand, for training a large traffic network, the convergence rate of OPNDQN is higher than that of existing MARL approaches because it does not incorporate all state information of each agent. We conduct an extensive experiments by using Simulation of Urban MObility simulator (SUMO), and show the dominant superiority of OPNDQN over several existing MARL approaches in terms of average queue length, episode training reward and average waiting time.

translated by 谷歌翻译

Intelligent Traffic Light via Policy-based Deep Reinforcement Learning

Yue Zhu , Mingyu Cai , Chris Schwarz , Junchao Li , Shaoping Xiao

分类：机器学习

2021-12-27

智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中，我们采用了加强学习，培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异，除了基于价值的方法之外，利用基于策略的深度加强学习方法，近端策略优化（PPO），例如Deep Q网络（DQN）和双DQN（DDQN）。首先，将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来，而不是固定间隔的流量光阶段，我们采用具有可变时间间隔的光相位，这导致更好的策略来传递流量流。然后，研究了环境和行动干扰的影响，以展示基于学习的控制器是强大的。最后，我们考虑不平衡的交通流量，并发现智能流量可以适度地对不平衡的流量方案执行，尽管它仅从平衡流量方案中了解最佳策略。

translated by 谷歌翻译

The Real Deal: A Review of Challenges and Opportunities in Moving Reinforcement Learning-Based Traffic Signal Control Systems Towards Reality

Rex Chen , Fei Fang , Norman Sadeh

分类：人工智能 | 机器学习

2022-06-23

交通信号控制（TSC）是一个高风险域，随着交通量在全球的增长而增长。越来越多的作品将加固学习（RL）应用于TSC；RL可以利用大量的流量数据来提高信号效率。但是，从未部署基于RL的信号控制器。在这项工作中，我们提供了对TSC进行RL之前必须解决的挑战的首次审查。我们专注于四个涉及（1）检测不确定性的挑战，（2）通信的可靠性，（3）合规性和解释性以及（4）异构道路使用者。我们表明，基于RL的TSC的文献在应对每个挑战方面取得了一些进展。但是，更多的工作应采用系统思维方法，以考虑其他管道组件对RL的影响。

translated by 谷歌翻译

Cooperative Reinforcement Learning on Traffic Signal Control

Chi-Chun Chao , Jun-Wei Hsieh , Bor-Shiun Wang

分类：人工智能

2022-05-23

交通信号控制是一个具有挑战性的现实问题，旨在通过协调道路交叉路口的车辆移动来最大程度地减少整体旅行时间。现有使用中的流量信号控制系统仍然很大程度上依赖于过度简化的信息和基于规则的方法。具体而言，可以将绿色/红灯交替的周期性视为在策略优化中对每个代理进行更好计划的先验。为了更好地学习这种适应性和预测性先验，传统的基于RL的方法只能从只有本地代理的预定义动作池返回固定的长度。如果这些代理之间没有合作，则某些代理商通常会对其他代理产生冲突，从而减少整个吞吐量。本文提出了一个合作，多目标体系结构，具有年龄段的权重，以更好地估算流量信号控制优化的多重奖励条款，该奖励术语称为合作的多目标多代理多代理深度确定性策略梯度（Comma-ddpg）。运行的两种类型的代理可以最大程度地提高不同目标的奖励 - 一种用于每个交叉路口的本地流量优化，另一种用于全球流量等待时间优化。全球代理用于指导本地代理作为帮助更快学习的手段，但在推理阶段不使用。我们还提供了解决溶液存在的分析，并为提出的RL优化提供了融合证明。使用亚洲国家的交通摄像机收集的现实世界流量数据进行评估。我们的方法可以有效地将总延迟时间减少60 \％。结果表明，与SOTA方法相比，其优越性。

translated by 谷歌翻译

CVLight: Decentralized Learning for Adaptive Traffic Signal Control with Connected Vehicles

Wangzhi Li , Mobin Zhao , Yongjie Fu , Kangrui Ruan , Xuan Di

分类：机器学习 | 人工智能

2021-04-21

本文开发了用于多交叉路口自适应交通信号控制（TSC）的分散增强学习（RL）方案，称为“CVlight”，其利用从连接的车辆（CVS）收集的数据。国家和奖励设计促进了代理商之间的协调，并考虑由CVS收集的旅行延误。提出了一种新颖的算法，非对称优势演员 - 评论家（EB-A2C），其中CV和非CV信息都用于培训批评网络，而仅使用CV信息来执行最佳信号定时。综合实验表明，CVlight的优越性在一个2×2合成道路网络下的最先进的算法，各种交通需求模式和穿透速率。然后，学习的政策被可视化以进一步展示ASYM-A2C的优点。采用火车前技术来提高CVlight的可扩展性，这显着缩短了培训时间，并在5×5路网络下表现出性能的优势。在美国宾夕法尼亚州宾夕法尼亚州州学院的2×2路网络上进行了一个案例研究，以进一步展示了在现实世界方案下所提出的算法的有效性。与其他基线模型相比，训练有素的CVlight代理可以仅基于CV数据有效地控制多个交叉点，达到最佳性能，特别是在低CV渗透率下。

translated by 谷歌翻译

Safe and Psychologically Pleasant Traffic Signal Control with Reinforcement Learning using Action Masking

Arthur Müller , Matthia Sabatelli

分类：机器学习

2022-06-21

交通信号控制（TSC）的增强学习（RL）在模拟中显示出比常规方法更好的控制交通流量的性能。但是，由于几个挑战，该领域尚未部署基于RL的TSC。实际部署的一个主要挑战是确保在操作过程中始终满足所有安全要求。我们提出了一种方法，可以通过使用设计安全的动作空间来确保现实世界中的安全性。动作空间包括交通阶段，代表交叉路口的非冲突信号颜色的组合。此外，动作掩盖机制可确保仅进行适当的相变。现实世界部署的另一个挑战是确保控制行为避免道路使用者压力。我们通过扩展动作掩盖机制来结合域知识来演示如何实现这一目标。我们在现实的模拟方案中测试和验证我们的方法。通过确保安全性和心理愉悦的控制行为，我们的方法推动了RL为TSC的现实部署的发展。

translated by 谷歌翻译

Attacking Deep Reinforcement Learning-Based Traffic Signal Control Systems with Colluding Vehicles

Ao Qu , Yihong Tang , Wei Ma

分类：机器学习 | 人工智能

2021-11-04

事物互联网（物联网）和人工智能（AI）的快速进步催化了智能城市的自适应交通信号控制系统（ATCS）的开发。特别是，深度增强学习（DRL）方法产生最先进的性能，并且具有很大的实际应用潜力。在现有的基于DRL的ATC中，受控信号从附近车辆收集交通状态信息，然后可以基于收集的信息确定最佳动作（例如，切换阶段）。 DRL模型完全“信任”该车辆正在向信号发送真实信息，使ATC易受伪造信息的对抗攻击。鉴于此，本文首次制定了一种新颖的任务，其中一组车辆可以协同地发送伪造的信息，以“欺骗”基于DRL的ATC，以节省他们的总旅行时间。为了解决拟议的任务，我们开发了由道路状语编码器，车辆解释器和通信机制组成的通用和有效的车辆斗争框架。我们采用我们的方法来攻击建立的基于DRL的ATC，并证明拼拼载的总行程时间可以通过合理数量的学习剧集显着减少，并且如果拼的车辆的数量增加，勾结效果将减小。此外，还提供了对基于DRL的ATC的实际部署的见解和建议。研究结果可以帮助提高ATC的可靠性和鲁棒性，并更好地保护智能移动系统。

translated by 谷歌翻译

Unified Automatic Control of Vehicular Systems with Reinforcement Learning

Zhongxia Yan , Abdul Rahman Kreidieh , Eugene Vinitsky , Alexandre M. Bayen , Cathy Wu

分类：人工智能 | 机器人

2022-07-30

随着自动组件比例越来越多的新兴车辆系统提供了最佳控制的机会，以减轻交通拥堵和提高效率。最近有兴趣将深入增强学习（DRL）应用于这些非线性动力学系统，以自动设计有效的控制策略。尽管DRL是无模型的概念优势，但研究通常仍依赖于对特定车辆系统的艰苦训练设置。这是对各种车辆和机动性系统有效分析的关键挑战。为此，本文贡献了一种简化的用于车辆微仿真的方法，并以最少的手动设计发现了高性能控制策略。提出了一种可变的代理，多任务方法，以优化车辆部分观察到的马尔可夫决策过程。该方法在混合自治交通系统上进行了实验验证，该系统是自动化的。在六种不同的开放或封闭交通系统的所有配置中都可以观察到经验改进，通常比人类驾驶基线的15-60％。该研究揭示了许多紧急行为类似于缓解波浪，交通信号传导和坡道计量。最后，对新兴行为进行了分析，以产生可解释的控制策略，这些控制策略已通过学习的控制策略进行了验证。

translated by 谷歌翻译

Back to Basics: Deep Reinforcement Learning in Traffic Signal Control

Sierk Kanis , Laurens Samson , Daan Bloembergen , Tim Bakker

分类：机器学习

2021-09-15

在本文中，我们重新审视了钢筋学习（RL）途径的一些基本场所，以自学习红绿灯。我们提出了一种选择的选择，提供强大的性能和良好的通知来看不见的交通流量。特别是，我们的主要贡献是三倍：我们的轻量级和聚类感知状态表示导致性能提高;我们重新格式化马尔可夫决策过程（MDP），使得它跳过冗余的黄灯时间，加快学习30％;我们调查了行动空间，并提供了对非循环和循环转换之间的性能差异的洞察。此外，我们提供了对未经证明交通的方法的概念性的见解。使用现实世界杭州交通数据集的评估表明，绘图优于最先进的规则和深度增强学习算法，展示了基于RL的方法来改善城市交通流量的潜力。

translated by 谷歌翻译

Deep Reinforcement Learning for Autonomous Driving: A Survey

B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab , Senthil Yogamani , Patrick Pérez

分类：

2020-02-02

With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.

translated by 谷歌翻译

Scalable Multiagent Driving Policies For Reducing Traffic Congestion

Jiaxun Cui , William Macke , Harel Yedidsion , Daniel Urieli , Peter Stone

分类：人工智能

2021-02-26

交通拥堵是现代城市环境中的主要挑战。自动驾驶汽车和自动化车辆（AV）的行业范围内开发激发了AVS如何促进拥塞减少的问题。过去的研究表明，在小规模的混合交通情况下，AVS和人类驱动的车辆，执行受控多种驾驶政策的AVS的一小部分可以减轻拥堵。在本文中，我们扩展了现有方法，并在更复杂的情况下为AVS制定新的多种驾驶政策。首先，我们表明过去研究使用的拥堵指标是可以在开放的道路网络场景中操纵的，在该场景中，车辆动态加入并离开道路。然后，我们建议使用一个不同的指标来操纵并反映开放的网络流量效率。接下来，我们提出一种模块化转移增强学习方法，并使用它来扩展多种驾驶政策，以超越类似人类的流量和模拟现实情况下的现有方法，这是一个比过去的场景大的数量级（数百次而不是过去的情况（而不是）数十个车辆）。此外，我们的模块化转移学习方法通过将其数据收集集中在网络中的关键位置上，从而节省了我们实验中80％的培训时间。最后，我们首次展示了一项分布式的多重政策，从而改善了人类驱动流量的拥堵。分布式方法更现实和实用，因为它仅依赖于现有的感应和驱动功能，并且不需要添加新的通信基础架构。

translated by 谷歌翻译

EMVLight: A Decentralized Reinforcement Learning Framework for Efficient Passage of Emergency Vehicles

Haoran Su , Yaofeng Desmond Zhong , Biswadip Dey , Amit Chakraborty

分类：机器学习

2021-09-12

紧急车辆（EMV）在应对诸如市区的医疗紧急情况和火灾爆发等时间关键事件方面起着至关重要的作用。 EMV花费在交通中旅行的时间越多，越有助于挽救人们的生命并减少财产损失的可能性就越大。为了减少EMV的旅行时间，先前的工作已根据历史流量流数据和基于最佳路线的流量信号进行优化。但是，流量信号的预先避免动态更改流量，从而改变了EMV的最佳路线。此外，交通信号的先发制人通常会导致交通流量的重大干扰，并随后增加非EMV的旅行时间。在本文中，我们提出了EMVLIGHT，这是一个分散的增强学习（RL）框架，用于同时动态路由和交通信号控制。 EMVLIGHT扩展了Dijkstra的算法，以实时更新EMV的最佳路由，因为它通过流量网络传播。分散的RL代理学习网络级的合作交通信号阶段策略，这些策略不仅减少EMV旅行时间，而且还减少了网络中非EMV的平均旅行时间。通过合成和现实世界地图的全面实验证明了这一好处。这些实验表明，EMVLIGHT优于基准运输工程技术和现有的基于RL的信号控制方法。

translated by 谷歌翻译

Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: Framework, Survey, and Challenges

Qi Liu , Xueyuan Li , Zirui Li , Jingda Wu , Guodong Du , Xin Gao , Fan Yang , Shihua Yuan

分类：机器人

2022-11-06

Proper functioning of connected and automated vehicles (CAVs) is crucial for the safety and efficiency of future intelligent transport systems. Meanwhile, transitioning to fully autonomous driving requires a long period of mixed autonomy traffic, including both CAVs and human-driven vehicles. Thus, collaboration decision-making for CAVs is essential to generate appropriate driving behaviors to enhance the safety and efficiency of mixed autonomy traffic. In recent years, deep reinforcement learning (DRL) has been widely used in solving decision-making problems. However, the existing DRL-based methods have been mainly focused on solving the decision-making of a single CAV. Using the existing DRL-based methods in mixed autonomy traffic cannot accurately represent the mutual effects of vehicles and model dynamic traffic environments. To address these shortcomings, this article proposes a graph reinforcement learning (GRL) approach for multi-agent decision-making of CAVs in mixed autonomy traffic. First, a generic and modular GRL framework is designed. Then, a systematic review of DRL and GRL methods is presented, focusing on the problems addressed in recent research. Moreover, a comparative study on different GRL methods is further proposed based on the designed framework to verify the effectiveness of GRL methods. Results show that the GRL methods can well optimize the performance of multi-agent decision-making for CAVs in mixed autonomy traffic compared to the DRL methods. Finally, challenges and future research directions are summarized. This study can provide a valuable research reference for solving the multi-agent decision-making problems of CAVs in mixed autonomy traffic and can promote the implementation of GRL-based methods into intelligent transportation systems. The source code of our work can be found at https://github.com/Jacklinkk/Graph_CAVs.

translated by 谷歌翻译