交叉路口交通信号控制器(TSC)中的次优化控制策略有助于拥堵,导致对人类健康和环境的负面影响。交通信号控制的强化学习(RL)是设计更好控制政策的有希望的方法,并近年来吸引了相当大的研究兴趣。但是,在该区域中完成的大多数工作使用了交通方案的简化仿真环境,以培训基于RL的TSC。要在现实世界流量系统中部署RL,必须关闭简化的仿真环境和现实应用程序之间的差距。因此,我们提出了一个基准工具,将RL代理作为TSC的基准工具,在Lemgo的德国中型镇的逼真模拟环境中。除了现实的仿真模型之外,LEMGORL还包括交通信号逻辑单元,可确保符合所有监管和安全要求。 LEMGORL提供与Killknown Openai健身房工具包相同的界面,以便在现有的研究工作中轻松进行部署。为了演示LemGorl的功能和适用性,我们利用分布式和并行RL的框架训练CPU群集的最先进的深rl算法,并将其性能与其他方法进行比较。我们的基准工具推动了RL算法对现实世界的应用。
translated by 谷歌翻译
交通信号控制(TSC)的增强学习(RL)在模拟中显示出比常规方法更好的控制交通流量的性能。但是,由于几个挑战,该领域尚未部署基于RL的TSC。实际部署的一个主要挑战是确保在操作过程中始终满足所有安全要求。我们提出了一种方法,可以通过使用设计安全的动作空间来确保现实世界中的安全性。动作空间包括交通阶段,代表交叉路口的非冲突信号颜色的组合。此外,动作掩盖机制可确保仅进行适当的相变。现实世界部署的另一个挑战是确保控制行为避免道路使用者压力。我们通过扩展动作掩盖机制来结合域知识来演示如何实现这一目标。我们在现实的模拟方案中测试和验证我们的方法。通过确保安全性和心理愉悦的控制行为,我们的方法推动了RL为TSC的现实部署的发展。
translated by 谷歌翻译
在本文中,我们重新审视了钢筋学习(RL)途径的一些基本场所,以自学习红绿灯。我们提出了一种选择的选择,提供强大的性能和良好的通知来看不见的交通流量。特别是,我们的主要贡献是三倍:我们的轻量级和聚类感知状态表示导致性能提高;我们重新格式化马尔可夫决策过程(MDP),使得它跳过冗余的黄灯时间,加快学习30%;我们调查了行动空间,并提供了对非循环和循环转换之间的性能差异的洞察。此外,我们提供了对未经证明交通的方法的概念性的见解。使用现实世界杭州交通数据集的评估表明,绘图优于最先进的规则和深度增强学习算法,展示了基于RL的方法来改善城市交通流量的潜力。
translated by 谷歌翻译
交通信号控制(TSC)是一个高风险域,随着交通量在全球的增长而增长。越来越多的作品将加固学习(RL)应用于TSC;RL可以利用大量的流量数据来提高信号效率。但是,从未部署基于RL的信号控制器。在这项工作中,我们提供了对TSC进行RL之前必须解决的挑战的首次审查。我们专注于四个涉及(1)检测不确定性的挑战,(2)通信的可靠性,(3)合规性和解释性以及(4)异构道路使用者。我们表明,基于RL的TSC的文献在应对每个挑战方面取得了一些进展。但是,更多的工作应采用系统思维方法,以考虑其他管道组件对RL的影响。
translated by 谷歌翻译
深度强化学习(DRL)使用多样化的非结构化数据,并使RL能够在高维环境中学习复杂的策略。基于自动驾驶汽车(AVS)的智能运输系统(ITS)为基于政策的DRL提供了绝佳的操场。深度学习体系结构解决了传统算法的计算挑战,同时帮助实现了AV的现实采用和部署。 AVS实施的主要挑战之一是,即使不是可靠和有效地管理的道路上的交通拥堵可能会加剧交通拥堵。考虑到每辆车的整体效果并使用高效和可靠的技术可以真正帮助优化交通流量管理和减少拥堵。为此,我们提出了一个智能的交通管制系统,该系统处理在交叉路口和交叉点后面的复杂交通拥堵场景。我们提出了一个基于DRL的信号控制系统,该系统根据当前交叉点的当前拥塞状况动态调整交通信号。为了应对交叉路口后面的道路上的拥堵,我们使用重新穿线技术来加载道路网络上的车辆。为了实现拟议方法的实际好处,我们分解了数据筒仓,并将所有来自传感器,探测器,车辆和道路结合使用的数据结合起来,以实现可持续的结果。我们使用Sumo微型模拟器进行模拟。我们提出的方法的重要性从结果中体现出来。
translated by 谷歌翻译
交通拥堵是现代城市环境中的主要挑战。自动驾驶汽车和自动化车辆(AV)的行业范围内开发激发了AVS如何促进拥塞减少的问题。过去的研究表明,在小规模的混合交通情况下,AVS和人类驱动的车辆,执行受控多种驾驶政策的AVS的一小部分可以减轻拥堵。在本文中,我们扩展了现有方法,并在更复杂的情况下为AVS制定新的多种驾驶政策。首先,我们表明过去研究使用的拥堵指标是​​可以在开放的道路网络场景中操纵的,在该场景中,车辆动态加入并离开道路。然后,我们建议使用一个不同的指标来操纵并反映开放的网络流量效率。接下来,我们提出一种模块化转移增强学习方法,并使用它来扩展多种驾驶政策,以超越类似人类的流量和模拟现实情况下的现有方法,这是一个比过去的场景大的数量级(数百次而不是过去的情况(而不是)数十个车辆)。此外,我们的模块化转移学习方法通​​过将其数据收集集中在网络中的关键位置上,从而节省了我们实验中80%的培训时间。最后,我们首次展示了一项分布式的多重政策,从而改善了人类驱动流量的拥堵。分布式方法更现实和实用,因为它仅依赖于现有的感应和驱动功能,并且不需要添加新的通信基础架构。
translated by 谷歌翻译
强化学习(RL)已证明可以在各种任务中达到超级人类水平的表现。但是,与受监督的机器学习不同,将其推广到各种情况的学习策略仍然是现实世界中最具挑战性的问题之一。自主驾驶(AD)提供了一个多方面的实验领域,因为有必要在许多变化的道路布局和可能的交通情况大量分布中学习正确的行为,包括个人驾驶员个性和难以预测的交通事件。在本文中,我们根据可配置,灵活和性能的代码库为AD提出了一个具有挑战性的基准。我们的基准测试使用了随机场景生成器的目录,包括用于道路布局和交通变化的多种机制,不同的数值和视觉观察类型,不同的动作空间,不同的车辆模型,并允许在静态场景定义下使用。除了纯粹的算法见解外,我们面向应用程序的基准还可以更好地理解设计决策的影响,例如行动和观察空间对政策的普遍性。我们的基准旨在鼓励研究人员提出能够在各种情况下成功概括的解决方案,这是当前RL方法失败的任务。基准的代码可在https://github.com/seawee1/driver-dojo上获得。
translated by 谷歌翻译
本文通过像素保留算法和深度增强学习(DRL)决策逻辑的结合,为CAV提供了无信号的交叉控制系统,然后是对拟议模型的走廊级影响评估。像素保留算法检测到潜在的碰撞操作,DRL逻辑优化了车辆的运动,以避免碰撞并最大程度地减少交叉路口的整体延迟。拟议的控制系统称为分散的稀疏协调系统(DSCLS),因为每辆车都有自己的控制逻辑,并且仅在协调状态下与其他车辆互动。由于在DRL的培训课程中采取随机行动的链条影响,训练有素的模型可以应对前所未有的体积条件,这在交叉管理中构成了主要挑战。将开发模型的性能与传统和基于CAV的控制系统进行了比较,包括固定的交通信号灯,驱动的交通信号灯以及最长的队列第一(LQF)控制系统,在Vissim软件中四个交叉路口的走廊中,在三个卷机制下进行了比较。模拟结果表明,与其他基于CAV的控制系统相比,提出的模型在中等,高和极端体积方案中将延迟减少了50%,29%和23%。旅行时间,燃油消耗,排放和替代安全措施(SSM)的改善也很明显。
translated by 谷歌翻译
本文重点介绍了大型城市网络的几个属性,这些属性可能会影响应用于交通信号控制的机器学习方法。特别是,我们表明,随着密度的增加,平均网络流往往独立于信号控制策略。到目前为止,这种属性一直存在于雷达之下,这意味着在拥挤的条件下训练时,深厚的增强学习(DRL)方法变得无效,并且可能解释了DRL在交通信号控制方面的成功有限。我们的结果适用于所有可能的网格网络,这要归功于基于两个网络参数的参数化:连续交通信号灯与预期绿色时间之间的预期距离和交叉点的转弯概率的比率。具有不同参数的网络对流量信号控制的响应非常不同。值得注意的是,我们发现没有控制(即随机政策)可以成为一个令人惊讶的大型网络家庭的有效控制策略。对于基线和DRL政策而言,转向概率的影响都非常重要。它还解释了这些策略观察到的对称性的丧失,这并不能由依赖走廊近似没有转弯的现有理论捕获。我们的发现还表明,监督的学习方法具有巨大的潜力,因为它们几乎不需要实例来制定出色的政策。
translated by 谷歌翻译
在过去的几十年中,车辆的升级和更新加速了。出于对环境友好和情报的需求,电动汽车(EV)以及连接和自动化的车辆(CAVS)已成为运输系统的新组成部分。本文开发了一个增强学习框架,以在信号交叉点上对由骑士和人类驱动车辆(HDV)组成的电力排实施自适应控制。首先,提出了马尔可夫决策过程(MDP)模型来描述混合排的决策过程。新颖的状态表示和奖励功能是为模型设计的,以考虑整个排的行为。其次,为了处理延迟的奖励,提出了增强的随机搜索(ARS)算法。代理商所学到的控制政策可以指导骑士的纵向运动,后者是排的领导者。最后,在模拟套件相扑中进行了一系列模拟。与几种最先进的(SOTA)强化学习方法相比,提出的方法可以获得更高的奖励。同时,仿真结果证明了延迟奖励的有效性,延迟奖励的有效性均优于分布式奖励机制}与正常的汽车跟随行为相比,灵敏度分析表明,可以将能量保存到不同的扩展(39.27%-82.51%))通过调整优化目标的相对重要性。在没有牺牲行进延迟的前提下,建议的控制方法可以节省多达53.64%的电能。
translated by 谷歌翻译
本文开发了用于多交叉路口自适应交通信号控制(TSC)的分散增强学习(RL)方案,称为“CVlight”,其利用从连接的车辆(CVS)收集的数据。国家和奖励设计促进了代理商之间的协调,并考虑由CVS收集的旅行延误。提出了一种新颖的算法,非对称优势演员 - 评论家(EB-A2C),其中CV和非CV信息都用于培训批评网络,而仅使用CV信息来执行最佳信号定时。综合实验表明,CVlight的优越性在一个2×2合成道路网络下的最先进的算法,各种交通需求模式和穿透速率。然后,学习的政策被可视化以进一步展示ASYM-A2C的优点。采用火车前技术来提高CVlight的可扩展性,这显着缩短了培训时间,并在5×5路网络下表现出性能的优势。在美国宾夕法尼亚州宾夕法尼亚州州学院的2×2路网络上进行了一个案例研究,以进一步展示了在现实世界方案下所提出的算法的有效性。与其他基线模型相比,训练有素的CVlight代理可以仅基于CV数据有效地控制多个交叉点,达到最佳性能,特别是在低CV渗透率下。
translated by 谷歌翻译
交通信号控制对于有效使用运输基础设施是至关重要的。车辆交通的快速增长和交通模式的变化使交通信号控制越来越具有挑战性。基于加强学习(RL)的算法已经证明了它们在处理交通信号控制方面的潜力。然而,大多数现有解决方案需要大量的培训数据,这对于许多真实的情景来说是不可接受的。本文提出了一种用于交通信号控制的新型模型的元增强学习框架(型号)。在Modelight中,用于道路交叉路口模型的集合和基于优化的元学习方法,用于提高基于RL的流量光控制方法的数据效率。现实世界数据集的实验表明,制造智慧可以倾向于最先进的交通光控制算法,同时大大减少了与现实世界环境的所需交互的数量。
translated by 谷歌翻译
本文提出了一个基于加固学习(RL)的电动连接车辆(CV)的生态驾驶框架,以提高信号交叉点的车辆能效。通过整合基于型号的汽车策略,改变车道的政策和RL政策来确保车辆代理的安全操作。随后,制定了马尔可夫决策过程(MDP),该过程使车辆能够执行纵向控制和横向决策,从而共同优化了交叉口附近CVS的CAR跟踪和改变车道的行为。然后,将混合动作空间参数化为层次结构,从而在动态交通环境中使用二维运动模式训练代理。最后,我们所提出的方法从基于单车的透视和基于流的透视图中在Sumo软件中进行了评估。结果表明,我们的策略可以通过学习适当的动作方案来大大减少能源消耗,而不会中断其他人类驱动的车辆(HDVS)。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
通过改善安全性,效率和移动性,自动车辆(AVS)的快速发展持有运输系统的巨大潜力。然而,通过AVS被采用的这些影响的进展尚不清楚。众多技术挑战是出于分析自治的部分采用:部分控制和观察,多车辆互动以及现实世界网络代表的纯粹场景的目标。本文研究了近期AV影响,研究了深度加强学习(RL)在低AV采用政权中克服了这些挑战的适用性。提出了一个模块化学习框架,它利用深rl来解决复杂的交通动态。模块组成用于捕获常见的交通现象(停止和转运交通拥堵,车道更改,交叉点)。在系统级速度方面,发现了学习的控制法则改善人类驾驶绩效,高达57%,只有4-7%的AVS。此外,在单线交通中,发现只有局部观察的小型神经网络控制规律消除了停止和转移的流量 - 超过所有已知的基于模型的控制器,以实现近乎最佳性能 - 并概括为OUT-分销交通密度。
translated by 谷歌翻译
交通信号控制是一个具有挑战性的现实问题,旨在通过协调道路交叉路口的车辆移动来最大程度地减少整体旅行时间。现有使用中的流量信号控制系统仍然很大程度上依赖于过度简化的信息和基于规则的方法。具体而言,可以将绿色/红灯交替的周期性视为在策略优化中对每个代理进行更好计划的先验。为了更好地学习这种适应性和预测性先验,传统的基于RL的方法只能从只有本地代理的预定义动作池返回固定的长度。如果这些代理之间没有合作,则某些代理商通常会对其他代理产生冲突,从而减少整个吞吐量。本文提出了一个合作,多目标体系结构,具有年龄段的权重,以更好地估算流量信号控制优化的多重奖励条款,该奖励术语称为合作的多目标多代理多代理深度确定性策略梯度(Comma-ddpg)。运行的两种类型的代理可以最大程度地提高不同目标的奖励 - 一种用于每个交叉路口的本地流量优化,另一种用于全球流量等待时间优化。全球代理用于指导本地代理作为帮助更快学习的手段,但在推理阶段不使用。我们还提供了解决溶液存在的分析,并为提出的RL优化提供了融合证明。使用亚洲国家的交通摄像机收集的现实世界流量数据进行评估。我们的方法可以有效地将总延迟时间减少60 \%。结果表明,与SOTA方法相比,其优越性。
translated by 谷歌翻译
Microscopic traffic simulation is an invaluable tool for traffic research. In recent years, both the scope of research and the capabilities of the tools have been extended considerably. This article presents the latest developments concerning intermodal traffic solutions, simulator coupling and model development and validation on the example of the open source traffic simulator SUMO.
translated by 谷歌翻译
自适应交通 - 信号控制的大多数强化学习方法都需要从头开始培训,或在任何新的交叉点上或对道路网络,交通分布或培训期间经历的行为约束进行任何修改后。考虑到1)训练此类方法所需的大量经验,以及2)必须通过与真实的道路网络用户进行探索方式来收集经验,因此缺乏可转移性限制的实验和适用性。最近的方法使学习政策能够概括为看不见的道路网络拓扑和交通分布,从而部分应对这一挑战。但是,文献保持在循环的学习(十字路口的连通性的演变必须尊重周期)和无环(较少约束)策略之间的分配,而这些可转移的方法1)仅与循环约束兼容,2)不启用启用。协调。我们介绍了一种新的基于模型的方法Mujam,该方法首次启用了显式配位,该方法首次启用了显式协调,还通过允许对控制器的约束进行概括,进一步推动概括。在涉及道路网络和培训期间从未经历过的交通设置的零拍传输设置中,以及在曼哈顿控制3,971个交通信号控制器的更大转移实验中,我们表明,Mujam使用环状和无循环约束,均优于范围 - 特异性基准以及另一种可转移方法。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译
紧急车辆(EMV)在应对城市地区的医疗紧急情况和火灾爆发等时间关键电话方面起着至关重要的作用。现有的EMV调度方法通常会根据历史流量数据数据和设计流量信号相应地优化路线;但是,我们仍然缺乏一种系统的方法来解决EMV路由和流量信号控制之间的耦合。在本文中,我们提出了EMVLIGHT,这是一个分散的加固学习(RL)框架,用于联合动态EMV路由和交通信号的先发制人。我们采用具有政策共享和空间折现因子的多代理优势行为者 - 批评方法。该框架通过多级RL代理的创新设计和新型的基于压力的奖励功能来解决EMV导航和交通信号控制之间的耦合。拟议的方法使EMVLIGHT能够学习网络级的合作交通信号相阶段阶段策略,这些策略不仅减少EMV旅行时间,而且还缩短了非EMV的旅行时间。基于仿真的实验表明,EMVLIGHT可使EMV旅行时间减少$ 42.6 \%$,以及与现有方法相比,$ 23.5 \%$短的平均旅行时间。
translated by 谷歌翻译