交通信号控制对于有效使用运输基础设施是至关重要的。车辆交通的快速增长和交通模式的变化使交通信号控制越来越具有挑战性。基于加强学习(RL)的算法已经证明了它们在处理交通信号控制方面的潜力。然而,大多数现有解决方案需要大量的培训数据,这对于许多真实的情景来说是不可接受的。本文提出了一种用于交通信号控制的新型模型的元增强学习框架(型号)。在Modelight中,用于道路交叉路口模型的集合和基于优化的元学习方法,用于提高基于RL的流量光控制方法的数据效率。现实世界数据集的实验表明,制造智慧可以倾向于最先进的交通光控制算法,同时大大减少了与现实世界环境的所需交互的数量。
translated by 谷歌翻译
本文开发了用于多交叉路口自适应交通信号控制(TSC)的分散增强学习(RL)方案,称为“CVlight”,其利用从连接的车辆(CVS)收集的数据。国家和奖励设计促进了代理商之间的协调,并考虑由CVS收集的旅行延误。提出了一种新颖的算法,非对称优势演员 - 评论家(EB-A2C),其中CV和非CV信息都用于培训批评网络,而仅使用CV信息来执行最佳信号定时。综合实验表明,CVlight的优越性在一个2×2合成道路网络下的最先进的算法,各种交通需求模式和穿透速率。然后,学习的政策被可视化以进一步展示ASYM-A2C的优点。采用火车前技术来提高CVlight的可扩展性,这显着缩短了培训时间,并在5×5路网络下表现出性能的优势。在美国宾夕法尼亚州宾夕法尼亚州州学院的2×2路网络上进行了一个案例研究,以进一步展示了在现实世界方案下所提出的算法的有效性。与其他基线模型相比,训练有素的CVlight代理可以仅基于CV数据有效地控制多个交叉点,达到最佳性能,特别是在低CV渗透率下。
translated by 谷歌翻译
在本文中,我们重新审视了钢筋学习(RL)途径的一些基本场所,以自学习红绿灯。我们提出了一种选择的选择,提供强大的性能和良好的通知来看不见的交通流量。特别是,我们的主要贡献是三倍:我们的轻量级和聚类感知状态表示导致性能提高;我们重新格式化马尔可夫决策过程(MDP),使得它跳过冗余的黄灯时间,加快学习30%;我们调查了行动空间,并提供了对非循环和循环转换之间的性能差异的洞察。此外,我们提供了对未经证明交通的方法的概念性的见解。使用现实世界杭州交通数据集的评估表明,绘图优于最先进的规则和深度增强学习算法,展示了基于RL的方法来改善城市交通流量的潜力。
translated by 谷歌翻译
交通信号控制是一个具有挑战性的现实问题,旨在通过协调道路交叉路口的车辆移动来最大程度地减少整体旅行时间。现有使用中的流量信号控制系统仍然很大程度上依赖于过度简化的信息和基于规则的方法。具体而言,可以将绿色/红灯交替的周期性视为在策略优化中对每个代理进行更好计划的先验。为了更好地学习这种适应性和预测性先验,传统的基于RL的方法只能从只有本地代理的预定义动作池返回固定的长度。如果这些代理之间没有合作,则某些代理商通常会对其他代理产生冲突,从而减少整个吞吐量。本文提出了一个合作,多目标体系结构,具有年龄段的权重,以更好地估算流量信号控制优化的多重奖励条款,该奖励术语称为合作的多目标多代理多代理深度确定性策略梯度(Comma-ddpg)。运行的两种类型的代理可以最大程度地提高不同目标的奖励 - 一种用于每个交叉路口的本地流量优化,另一种用于全球流量等待时间优化。全球代理用于指导本地代理作为帮助更快学习的手段,但在推理阶段不使用。我们还提供了解决溶液存在的分析,并为提出的RL优化提供了融合证明。使用亚洲国家的交通摄像机收集的现实世界流量数据进行评估。我们的方法可以有效地将总延迟时间减少60 \%。结果表明,与SOTA方法相比,其优越性。
translated by 谷歌翻译
在过去的几十年中,车辆的升级和更新加速了。出于对环境友好和情报的需求,电动汽车(EV)以及连接和自动化的车辆(CAVS)已成为运输系统的新组成部分。本文开发了一个增强学习框架,以在信号交叉点上对由骑士和人类驱动车辆(HDV)组成的电力排实施自适应控制。首先,提出了马尔可夫决策过程(MDP)模型来描述混合排的决策过程。新颖的状态表示和奖励功能是为模型设计的,以考虑整个排的行为。其次,为了处理延迟的奖励,提出了增强的随机搜索(ARS)算法。代理商所学到的控制政策可以指导骑士的纵向运动,后者是排的领导者。最后,在模拟套件相扑中进行了一系列模拟。与几种最先进的(SOTA)强化学习方法相比,提出的方法可以获得更高的奖励。同时,仿真结果证明了延迟奖励的有效性,延迟奖励的有效性均优于分布式奖励机制}与正常的汽车跟随行为相比,灵敏度分析表明,可以将能量保存到不同的扩展(39.27%-82.51%))通过调整优化目标的相对重要性。在没有牺牲行进延迟的前提下,建议的控制方法可以节省多达53.64%的电能。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译
交叉路口交通信号控制器(TSC)中的次优化控制策略有助于拥堵,导致对人类健康和环境的负面影响。交通信号控制的强化学习(RL)是设计更好控制政策的有希望的方法,并近年来吸引了相当大的研究兴趣。但是,在该区域中完成的大多数工作使用了交通方案的简化仿真环境,以培训基于RL的TSC。要在现实世界流量系统中部署RL,必须关闭简化的仿真环境和现实应用程序之间的差距。因此,我们提出了一个基准工具,将RL代理作为TSC的基准工具,在Lemgo的德国中型镇的逼真模拟环境中。除了现实的仿真模型之外,LEMGORL还包括交通信号逻辑单元,可确保符合所有监管和安全要求。 LEMGORL提供与Killknown Openai健身房工具包相同的界面,以便在现有的研究工作中轻松进行部署。为了演示LemGorl的功能和适用性,我们利用分布式和并行RL的框架训练CPU群集的最先进的深rl算法,并将其性能与其他方法进行比较。我们的基准工具推动了RL算法对现实世界的应用。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
Reinforcement Learning (RL) is currently one of the most commonly used techniques for traffic signal control (TSC), which can adaptively adjusted traffic signal phase and duration according to real-time traffic data. However, a fully centralized RL approach is beset with difficulties in a multi-network scenario because of exponential growth in state-action space with increasing intersections. Multi-agent reinforcement learning (MARL) can overcome the high-dimension problem by employing the global control of each local RL agent, but it also brings new challenges, such as the failure of convergence caused by the non-stationary Markov Decision Process (MDP). In this paper, we introduce an off-policy nash deep Q-Network (OPNDQN) algorithm, which mitigates the weakness of both fully centralized and MARL approaches. The OPNDQN algorithm solves the problem that traditional algorithms cannot be used in large state-action space traffic models by utilizing a fictitious game approach at each iteration to find the nash equilibrium among neighboring intersections, from which no intersection has incentive to unilaterally deviate. One of main advantages of OPNDQN is to mitigate the non-stationarity of multi-agent Markov process because it considers the mutual influence among neighboring intersections by sharing their actions. On the other hand, for training a large traffic network, the convergence rate of OPNDQN is higher than that of existing MARL approaches because it does not incorporate all state information of each agent. We conduct an extensive experiments by using Simulation of Urban MObility simulator (SUMO), and show the dominant superiority of OPNDQN over several existing MARL approaches in terms of average queue length, episode training reward and average waiting time.
translated by 谷歌翻译
应用用于交通信号控制(TSC)的增强学习(RL)技术的一般趋势。最近,大多数研究都注意神经网络设计,很少集中在国家代表上。国家代表的设计是否对TSC产生了良好的影响?在本文中,我们(1)提出了一种有效的国家代表,作为具有密集知识的车辆的队列长度; (2)提出了一种基于我们的国家表示方法的TSC方法,称为Maxqueue; (3)通过基于传统和最新RL模型的QL-Xlight模板,开发一个名为QL-Xlight的基于QL-Xlight的TSC模板,以及QL-FRAP,QL-Colight和QL-DQN。通过对多个现实世界数据集的全面实验,我们证明:(1)我们的Maxqueue方法优于最新的基于RL的方法; (2)QL-FRAP和QL-COLIGHT实现了一种新的最先进(SOTA)。通常,具有密集知识的状态表示对于TSC方法也是必不可少的。我们的代码在github上发布。
translated by 谷歌翻译
本文提出了一个基于加固学习(RL)的电动连接车辆(CV)的生态驾驶框架,以提高信号交叉点的车辆能效。通过整合基于型号的汽车策略,改变车道的政策和RL政策来确保车辆代理的安全操作。随后,制定了马尔可夫决策过程(MDP),该过程使车辆能够执行纵向控制和横向决策,从而共同优化了交叉口附近CVS的CAR跟踪和改变车道的行为。然后,将混合动作空间参数化为层次结构,从而在动态交通环境中使用二维运动模式训练代理。最后,我们所提出的方法从基于单车的透视和基于流的透视图中在Sumo软件中进行了评估。结果表明,我们的策略可以通过学习适当的动作方案来大大减少能源消耗,而不会中断其他人类驱动的车辆(HDVS)。
translated by 谷歌翻译
交通信号控制是城市移动性的重要问题,具有经济和环境影响的显着潜力。虽然对交通管制的加固学习(RL)越来越兴趣,但到目前为止的工作侧重于学习的互动,在实践中是昂贵的。相反,有关流量的真实体验数据可用,可以以最少的成本利用。最近在离线或批处理RL中的进展已启用。基于模型的离线RL方法,特别是已经显示到比其他体验数据更好。我们构建基于模型的学习框架A-DAC,它在数据集中浏览了Markov决策过程(MDP),其中包括悲观成本,以处理数据不确定性。通过MDP中的奖励的自适应整形来建模成本,其与先前的相关工作相比提供了更好的数据正则化。使用大小和批量收集策略的多个数据集在复杂的信号化环形交叉路口上评估A-DAC。评估结果表明,可以使用简单的批量收集策略以数据有效的方式构建高性能控制策略。
translated by 谷歌翻译
自适应交通 - 信号控制的大多数强化学习方法都需要从头开始培训,或在任何新的交叉点上或对道路网络,交通分布或培训期间经历的行为约束进行任何修改后。考虑到1)训练此类方法所需的大量经验,以及2)必须通过与真实的道路网络用户进行探索方式来收集经验,因此缺乏可转移性限制的实验和适用性。最近的方法使学习政策能够概括为看不见的道路网络拓扑和交通分布,从而部分应对这一挑战。但是,文献保持在循环的学习(十字路口的连通性的演变必须尊重周期)和无环(较少约束)策略之间的分配,而这些可转移的方法1)仅与循环约束兼容,2)不启用启用。协调。我们介绍了一种新的基于模型的方法Mujam,该方法首次启用了显式配位,该方法首次启用了显式协调,还通过允许对控制器的约束进行概括,进一步推动概括。在涉及道路网络和培训期间从未经历过的交通设置的零拍传输设置中,以及在曼哈顿控制3,971个交通信号控制器的更大转移实验中,我们表明,Mujam使用环状和无循环约束,均优于范围 - 特异性基准以及另一种可转移方法。
translated by 谷歌翻译
紧急车辆(EMV)在应对城市地区的医疗紧急情况和火灾爆发等时间关键电话方面起着至关重要的作用。现有的EMV调度方法通常会根据历史流量数据数据和设计流量信号相应地优化路线;但是,我们仍然缺乏一种系统的方法来解决EMV路由和流量信号控制之间的耦合。在本文中,我们提出了EMVLIGHT,这是一个分散的加固学习(RL)框架,用于联合动态EMV路由和交通信号的先发制人。我们采用具有政策共享和空间折现因子的多代理优势行为者 - 批评方法。该框架通过多级RL代理的创新设计和新型的基于压力的奖励功能来解决EMV导航和交通信号控制之间的耦合。拟议的方法使EMVLIGHT能够学习网络级的合作交通信号相阶段阶段策略,这些策略不仅减少EMV旅行时间,而且还缩短了非EMV的旅行时间。基于仿真的实验表明,EMVLIGHT可使EMV旅行时间减少$ 42.6 \%$,以及与现有方法相比,$ 23.5 \%$短的平均旅行时间。
translated by 谷歌翻译
交通信号控制(TSC)的增强学习(RL)在模拟中显示出比常规方法更好的控制交通流量的性能。但是,由于几个挑战,该领域尚未部署基于RL的TSC。实际部署的一个主要挑战是确保在操作过程中始终满足所有安全要求。我们提出了一种方法,可以通过使用设计安全的动作空间来确保现实世界中的安全性。动作空间包括交通阶段,代表交叉路口的非冲突信号颜色的组合。此外,动作掩盖机制可确保仅进行适当的相变。现实世界部署的另一个挑战是确保控制行为避免道路使用者压力。我们通过扩展动作掩盖机制来结合域知识来演示如何实现这一目标。我们在现实的模拟方案中测试和验证我们的方法。通过确保安全性和心理愉悦的控制行为,我们的方法推动了RL为TSC的现实部署的发展。
translated by 谷歌翻译
The high emission and low energy efficiency caused by internal combustion engines (ICE) have become unacceptable under environmental regulations and the energy crisis. As a promising alternative solution, multi-power source electric vehicles (MPS-EVs) introduce different clean energy systems to improve powertrain efficiency. The energy management strategy (EMS) is a critical technology for MPS-EVs to maximize efficiency, fuel economy, and range. Reinforcement learning (RL) has become an effective methodology for the development of EMS. RL has received continuous attention and research, but there is still a lack of systematic analysis of the design elements of RL-based EMS. To this end, this paper presents an in-depth analysis of the current research on RL-based EMS (RL-EMS) and summarizes the design elements of RL-based EMS. This paper first summarizes the previous applications of RL in EMS from five aspects: algorithm, perception scheme, decision scheme, reward function, and innovative training method. The contribution of advanced algorithms to the training effect is shown, the perception and control schemes in the literature are analyzed in detail, different reward function settings are classified, and innovative training methods with their roles are elaborated. Finally, by comparing the development routes of RL and RL-EMS, this paper identifies the gap between advanced RL solutions and existing RL-EMS. Finally, this paper suggests potential development directions for implementing advanced artificial intelligence (AI) solutions in EMS.
translated by 谷歌翻译
强化学习(RL)通过与环境相互作用的试验过程解决顺序决策问题。尽管RL在玩复杂的视频游戏方面取得了巨大的成功,但在现实世界中,犯错误总是不希望的。为了提高样本效率并从而降低错误,据信基于模型的增强学习(MBRL)是一个有前途的方向,它建立了环境模型,在该模型中可以进行反复试验,而无需实际成本。在这项调查中,我们对MBRL进行了审查,重点是Deep RL的最新进展。对于非壮观环境,学到的环境模型与真实环境之间始终存在概括性错误。因此,非常重要的是分析环境模型中的政策培训与实际环境中的差异,这反过来又指导了更好的模型学习,模型使用和政策培训的算法设计。此外,我们还讨论了其他形式的RL,包括离线RL,目标条件RL,多代理RL和Meta-RL的最新进展。此外,我们讨论了MBRL在现实世界任务中的适用性和优势。最后,我们通过讨论MBRL未来发展的前景来结束这项调查。我们认为,MBRL在被忽略的现实应用程序中具有巨大的潜力和优势,我们希望这项调查能够吸引更多关于MBRL的研究。
translated by 谷歌翻译
增强学习算法需要大量样品;这通常会限制他们的现实应用程序在简单的任务上。在多代理任务中,这种挑战更为出色,因为操作的每个步骤都需要进行沟通,转移或资源。这项工作旨在通过基于模型的学习来提高多代理控制的数据效率。我们考虑了代理商合作并仅与邻居进行当地交流的网络系统,并提出了基于模型的政策优化框架(DMPO)。在我们的方法中,每个代理都会学习一个动态模型,以预测未来的状态并通过通信广播其预测,然后在模型推出下训练策略。为了减轻模型生成数据的偏见,我们限制了用于产生近视推出的模型使用量,从而减少了模型生成的复合误差。为了使策略更新的独立性有关,我们引入了扩展的价值函数,理论上证明了由此产生的策略梯度是与真实策略梯度的紧密近似。我们在几个智能运输系统的基准上评估了我们的算法,这些智能运输系统是连接的自动驾驶汽车控制任务(FLOW和CACC)和自适应交通信号控制(ATSC)。经验结果表明,我们的方法可以实现卓越的数据效率,并使用真实模型匹配无模型方法的性能。
translated by 谷歌翻译
深度强化学习(DRL)使用多样化的非结构化数据,并使RL能够在高维环境中学习复杂的策略。基于自动驾驶汽车(AVS)的智能运输系统(ITS)为基于政策的DRL提供了绝佳的操场。深度学习体系结构解决了传统算法的计算挑战,同时帮助实现了AV的现实采用和部署。 AVS实施的主要挑战之一是,即使不是可靠和有效地管理的道路上的交通拥堵可能会加剧交通拥堵。考虑到每辆车的整体效果并使用高效和可靠的技术可以真正帮助优化交通流量管理和减少拥堵。为此,我们提出了一个智能的交通管制系统,该系统处理在交叉路口和交叉点后面的复杂交通拥堵场景。我们提出了一个基于DRL的信号控制系统,该系统根据当前交叉点的当前拥塞状况动态调整交通信号。为了应对交叉路口后面的道路上的拥堵,我们使用重新穿线技术来加载道路网络上的车辆。为了实现拟议方法的实际好处,我们分解了数据筒仓,并将所有来自传感器,探测器,车辆和道路结合使用的数据结合起来,以实现可持续的结果。我们使用Sumo微型模拟器进行模拟。我们提出的方法的重要性从结果中体现出来。
translated by 谷歌翻译
Multi-agent settings remain a fundamental challenge in the reinforcement learning (RL) domain due to the partial observability and the lack of accurate real-time interactions across agents. In this paper, we propose a new method based on local communication learning to tackle the multi-agent RL (MARL) challenge within a large number of agents coexisting. First, we design a new communication protocol that exploits the ability of depthwise convolution to efficiently extract local relations and learn local communication between neighboring agents. To facilitate multi-agent coordination, we explicitly learn the effect of joint actions by taking the policies of neighboring agents as inputs. Second, we introduce the mean-field approximation into our method to reduce the scale of agent interactions. To more effectively coordinate behaviors of neighboring agents, we enhance the mean-field approximation by a supervised policy rectification network (PRN) for rectifying real-time agent interactions and by a learnable compensation term for correcting the approximation bias. The proposed method enables efficient coordination as well as outperforms several baseline approaches on the adaptive traffic signal control (ATSC) task and the StarCraft II multi-agent challenge (SMAC).
translated by 谷歌翻译