应用用于交通信号控制(TSC)的增强学习(RL)技术的一般趋势。最近,大多数研究都注意神经网络设计,很少集中在国家代表上。国家代表的设计是否对TSC产生了良好的影响?在本文中,我们(1)提出了一种有效的国家代表,作为具有密集知识的车辆的队列长度; (2)提出了一种基于我们的国家表示方法的TSC方法,称为Maxqueue; (3)通过基于传统和最新RL模型的QL-Xlight模板,开发一个名为QL-Xlight的基于QL-Xlight的TSC模板,以及QL-FRAP,QL-Colight和QL-DQN。通过对多个现实世界数据集的全面实验,我们证明:(1)我们的Maxqueue方法优于最新的基于RL的方法; (2)QL-FRAP和QL-COLIGHT实现了一种新的最先进(SOTA)。通常,具有密集知识的状态表示对于TSC方法也是必不可少的。我们的代码在github上发布。
translated by 谷歌翻译