研究表明,自治车辆(AVS)在由人类驱动因素组成的交通环境中保守,不适应当地条件和社会文化规范。众所周知,如果存在理解人类驱动程序的行为,则可以设计社会意识的AVS。我们提出了一种利用机器学习来预测人类驱动程序的行为的方法。这类似于人类如何隐含地解释道路上司机的行为,只能观察其车辆的轨迹。我们使用图形理论工具从轨迹和机器学习中提取驾驶员行为特征,以在流量和驾驶员行为中获得车辆的提取轨迹之间的计算映射。与此域中的现有方法相比,我们证明我们的方法是强大的,一般的,并且可扩展到广泛的应用程序,如自主导航。我们评估我们在美国,印度,中国和新加坡捕获的现实世界交通数据集以及模拟中的方法。
translated by 谷歌翻译
我们解决了由具有不同驱动程序行为的道路代理人填充的密集模拟交通环境中的自我车辆导航问题。由于其异构行为引起的代理人的不可预测性,这种环境中的导航是挑战。我们提出了一种新的仿真技术,包括丰富现有的交通模拟器,其具有与不同程度的侵略性程度相对应的行为丰富的轨迹。我们在驾驶员行为建模算法的帮助下生成这些轨迹。然后,我们使用丰富的模拟器培训深度加强学习(DRL)策略,包括一组高级车辆控制命令,并在测试时间使用此策略来执行密集流量的本地导航。我们的政策隐含地模拟了交通代理商之间的交互,并计算了自助式驾驶员机动,例如超速,超速,编织和突然道路变化的激进驾驶员演习的安全轨迹。我们增强的行为丰富的模拟器可用于生成由对应于不同驱动程序行为和流量密度的轨迹组成的数据集,我们的行为的导航方案可以与最先进的导航算法相结合。
translated by 谷歌翻译
我们提出了一种涉及无罪交叉口,环形交叉路口和合并期间的人类驱动因素和自治车辆(AVS)的多智能经纪人规划的新方法。在多代理规划中,主要挑战是预测其他代理人,特别是人类驱动因素的行为,因为他们的意图隐藏着其他代理人。我们的算法使用博弈论开发一个名为GamePlan的新拍卖,这直接基于其驱动风格来确定每个代理的最佳动作(这是可通过常用传感器观察到的)。 GamePlan为更具攻击性或不耐烦的驱动程序和更低的优先级分配更高的优先级,以及更多保守或患者司机的优先级;理论上,我们证明了这种方法是游戏 - 理论上最佳地防止冲突和死锁。我们将我们的方法与先前的最先进的拍卖技术进行比较,包括经济拍卖,基于时间的拍卖(先进先出)和随机竞标,并表明这些方法中的每一种都会导致代理商之间的碰撞帐户驱动程序行为。我们另外与基于深度加强学习,深度学习和博弈理论的方法进行比较,并呈现我们对这些方法的好处。最后,我们表明我们的方法可以在现实世界与人类驱动程序实施。
translated by 谷歌翻译
一般而言,融合是人类驱动因素和自治车辆的具有挑战性的任务,特别是在密集的交通中,因为合并的车辆通常需要与其他车辆互动以识别或创造间隙并安全合并。在本文中,我们考虑了强制合并方案的自主车辆控制问题。我们提出了一种新的游戏 - 理论控制器,称为领导者跟随者游戏控制器(LFGC),其中自主EGO车辆和其他具有先验不确定驾驶意图的车辆之间的相互作用被建模为部分可观察到的领导者 - 跟随游戏。 LFGC估计基于观察到的轨迹的其他车辆在线在线,然后预测其未来的轨迹,并计划使用模型预测控制(MPC)来同时实现概率保证安全性和合并目标的自我车辆自己的轨迹。为了验证LFGC的性能,我们在模拟和NGSIM数据中测试它,其中LFGC在合并中展示了97.5%的高成功率。
translated by 谷歌翻译
然而,由于各种交通/道路结构方案以及人类驾驶员行为的长时间分布,自动驾驶的感应,感知和本地化取得了重大进展,因此,对于智能车辆来说,这仍然是一个持开放态度的挑战始终知道如何在有可用的传感 /感知 /本地化信息的道路上做出和执行最佳决定。在本章中,我们讨论了人工智能,更具体地说,强化学习如何利用运营知识和安全反射来做出战略性和战术决策。我们讨论了一些与强化学习解决方案的鲁棒性及其对自动驾驶驾驶策略的实践设计有关的具有挑战性的问题。我们专注于在高速公路上自动驾驶以及增强学习,车辆运动控制和控制屏障功能的整合,从而实现了可靠的AI驾驶策略,可以安全地学习和适应。
translated by 谷歌翻译
Proper functioning of connected and automated vehicles (CAVs) is crucial for the safety and efficiency of future intelligent transport systems. Meanwhile, transitioning to fully autonomous driving requires a long period of mixed autonomy traffic, including both CAVs and human-driven vehicles. Thus, collaboration decision-making for CAVs is essential to generate appropriate driving behaviors to enhance the safety and efficiency of mixed autonomy traffic. In recent years, deep reinforcement learning (DRL) has been widely used in solving decision-making problems. However, the existing DRL-based methods have been mainly focused on solving the decision-making of a single CAV. Using the existing DRL-based methods in mixed autonomy traffic cannot accurately represent the mutual effects of vehicles and model dynamic traffic environments. To address these shortcomings, this article proposes a graph reinforcement learning (GRL) approach for multi-agent decision-making of CAVs in mixed autonomy traffic. First, a generic and modular GRL framework is designed. Then, a systematic review of DRL and GRL methods is presented, focusing on the problems addressed in recent research. Moreover, a comparative study on different GRL methods is further proposed based on the designed framework to verify the effectiveness of GRL methods. Results show that the GRL methods can well optimize the performance of multi-agent decision-making for CAVs in mixed autonomy traffic compared to the DRL methods. Finally, challenges and future research directions are summarized. This study can provide a valuable research reference for solving the multi-agent decision-making problems of CAVs in mixed autonomy traffic and can promote the implementation of GRL-based methods into intelligent transportation systems. The source code of our work can be found at https://github.com/Jacklinkk/Graph_CAVs.
translated by 谷歌翻译
行人在场的运动控制算法对于开发安全可靠的自动驾驶汽车(AV)至关重要。传统运动控制算法依赖于手动设计的决策政策,这些政策忽略了AV和行人之间的相互作用。另一方面,深度强化学习的最新进展允许在没有手动设计的情况下自动学习政策。为了解决行人在场的决策问题,作者介绍了一个基于社会价值取向和深入强化学习(DRL)的框架,该框架能够以不同的驾驶方式生成决策政策。该政策是在模拟环境中使用最先进的DRL算法培训的。还引入了适合DRL训练的新型计算效率的行人模型。我们执行实验以验证我们的框架,并对使用两种不同的无模型深钢筋学习算法获得的策略进行了比较分析。模拟结果表明,开发的模型如何表现出自然的驾驶行为,例如短暂的驾驶行为,以促进行人的穿越。
translated by 谷歌翻译
在多机构动态交通情况下的自主驾驶具有挑战性:道路使用者的行为不确定,很难明确建模,并且自我车辆应与他们应用复杂的谈判技巧,例如屈服,合并和交付,以实现,以实现在各种环境中都有安全有效的驾驶。在这些复杂的动态场景中,传统的计划方法主要基于规则,并且通常会导致反应性甚至过于保守的行为。因此,他们需要乏味的人类努力来维持可行性。最近,基于深度学习的方法显示出令人鼓舞的结果,具有更好的概括能力,但手工工程的工作较少。但是,它们要么是通过有监督的模仿学习(IL)来实施的,该学习遭受了数据集偏见和分配不匹配问题,要么接受了深入强化学习(DRL)的培训,但专注于一种特定的交通情况。在这项工作中,我们建议DQ-GAT实现可扩展和主动的自主驾驶,在这些驾驶中,基于图形注意力的网络用于隐式建模相互作用,并采用了深层Q学习来以无聊的方式训练网络端到端的网络。 。在高保真驾驶模拟器中进行的广泛实验表明,我们的方法比以前的基于学习的方法和传统的基于规则的方法获得了更高的成功率,并且在可见和看不见的情况下都可以更好地摆脱安全性和效率。此外,轨迹数据集的定性结果表明,我们所学的政策可以通过实时速度转移到现实世界中。演示视频可在https://caipeide.github.io/dq-gat/上找到。
translated by 谷歌翻译
Traditional planning and control methods could fail to find a feasible trajectory for an autonomous vehicle to execute amongst dense traffic on roads. This is because the obstacle-free volume in spacetime is very small in these scenarios for the vehicle to drive through. However, that does not mean the task is infeasible since human drivers are known to be able to drive amongst dense traffic by leveraging the cooperativeness of other drivers to open a gap. The traditional methods fail to take into account the fact that the actions taken by an agent affect the behaviour of other vehicles on the road. In this work, we rely on the ability of deep reinforcement learning to implicitly model such interactions and learn a continuous control policy over the action space of an autonomous vehicle. The application we consider requires our agent to negotiate and open a gap in the road in order to successfully merge or change lanes. Our policy learns to repeatedly probe into the target road lane while trying to find a safe spot to move in to. We compare against two model-predictive control-based algorithms and show that our policy outperforms them in simulation.
translated by 谷歌翻译
应用强化学习来自动驾驶需要某些挑战,这主要是由于大规模的交通流动,这种挑战是动态变化的。为了应对此类挑战,有必要快速确定对周围车辆不断变化的意图的响应策略。因此,我们提出了一种新的政策优化方法,用于使用基于图的互动感知约束来安全驾驶。在此框架中,运动预测和控制模块是同时训练的,同时共享包含社会环境的潜在表示。此外,为了反映社交互动,我们以图形形式表达了代理的运动并过滤特征。这有助于保留相邻节点的时空位置。此外,我们创建反馈循环以有效地组合这两个模块。结果,这种方法鼓励博学的控制器免受动态风险的侵害,并在各种情况下使运动预测强大。在实验中,我们与城市驾驶模拟器Carla建立了一个包括各种情况的导航场景。该实验表明,与基线相比,导航策略和运动预测的两侧的最新性能。
translated by 谷歌翻译
显微镜交通模拟为自动驾驶汽车(AVS)提供了可控,可重复且有效的测试环境。为了公正地评估AVS的安全性能,在模拟自然主义驾驶环境(NDE)中,环境统计数据的概率分布必须与现实世界中驾驶环境的统计数据一致。但是,尽管人类驾驶行为已经在运输工程领域进行了广泛的研究,但大多数现有模型都是用于交通流量分析的,而无需考虑驾驶行为的分布一致性,这可能会导致AV测试的重大评估偏见。为了填补这一研究差距,本文提出了分布一致的NDE建模框架。使用大规模的自然驾驶数据,获得了经验分布,以在不同条件下构建随机的人类驾驶行为模型。为了解决仿真过程中的误差积累问题,进一步设计了一种基于优化的方法来完善经验行为模型。具体而言,车辆状态的演变被建模为马尔可夫链,其固定分布被扭曲以匹配现实世界驾驶环境的分布。在多车道高速公路驾驶模拟的案例研究中评估了该框架,其中验证了生成的NDE的分布精度,并有效地评估了AV模型的安全性能。
translated by 谷歌翻译
这项工作研究了以下假设:与人类驾驶状态的部分可观察到的马尔可夫决策过程(POMDP)计划可以显着提高自动高速公路驾驶的安全性和效率。我们在模拟场景中评估了这一假设,即自动驾驶汽车必须在快速连续中安全执行三个车道变化。通过观测扩大(POMCPOW)算法,通过部分可观察到的蒙特卡洛计划获得了近似POMDP溶液。这种方法的表现优于过度自信和保守的MDP基准,匹配或匹配效果优于QMDP。相对于MDP基准,POMCPOW通常将不安全情况的速率降低了一半或将成功率提高50%。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
最近,自主驾驶社会上有许多进展,吸引了学术界和工业的很多关注。然而,现有的作品主要专注于汽车,自动驾驶卡车算法和模型仍然需要额外的开发。在本文中,我们介绍了智能自动驾驶卡车系统。我们所呈现的系统由三个主要组成部分组成,1)一个现实的交通仿真模块,用于在测试场景中产生现实的交通流量,2)设计和评估了在现实世界部署中模仿实际卡车响应的高保真卡车模型,3 )具有基于学习的决策算法和多模轨迹策划仪的智能计划模块,考虑到卡车的约束,道路斜率变化和周围的交通流量。我们为每个组分单独提供定量评估,以证明每个部件的保真度和性能。我们还将我们的建议系统部署在真正的卡车上,并进行真实的世界实验,表明我们的系统能力缓解了SIM-TO-REAL差距。我们的代码可以在https://github.com/inceptioresearch/iits提供
translated by 谷歌翻译
自动驾驶汽车的一个主要挑战是安全,平稳地与其他交通参与者进行互动。处理此类交通交互的一种有希望的方法是为自动驾驶汽车配备与感知的控制器(IACS)。这些控制器预测,周围人类驾驶员将如何根据驾驶员模型对自动驾驶汽车的行为做出响应。但是,很少验证IACS中使用的驱动程序模型的预测有效性,这可能会限制IACS在简单的模拟环境之外的交互功能。在本文中,我们认为,除了评估IAC的互动能力外,还应在自然的人类驾驶行为上验证其潜在的驱动器模型。我们为此验证提出了一个工作流程,其中包括基于方案的数据提取和基于人为因素文献的两阶段(战术/操作)评估程序。我们在一项案例研究中证明了该工作流程,该案例研究对现有IAC复制的基于反向的基于学习的驱动程序模型。该模型仅在40%的预测中显示出正确的战术行为。该模型的操作行为与观察到的人类行为不一致。案例研究表明,有原则的评估工作流程是有用和需要的。我们认为,我们的工作流将支持为将来的自动化车辆开发适当的驾驶员模型。
translated by 谷歌翻译
通过改善安全性,效率和移动性,自动车辆(AVS)的快速发展持有运输系统的巨大潜力。然而,通过AVS被采用的这些影响的进展尚不清楚。众多技术挑战是出于分析自治的部分采用:部分控制和观察,多车辆互动以及现实世界网络代表的纯粹场景的目标。本文研究了近期AV影响,研究了深度加强学习(RL)在低AV采用政权中克服了这些挑战的适用性。提出了一个模块化学习框架,它利用深rl来解决复杂的交通动态。模块组成用于捕获常见的交通现象(停止和转运交通拥堵,车道更改,交叉点)。在系统级速度方面,发现了学习的控制法则改善人类驾驶绩效,高达57%,只有4-7%的AVS。此外,在单线交通中,发现只有局部观察的小型神经网络控制规律消除了停止和转移的流量 - 超过所有已知的基于模型的控制器,以实现近乎最佳性能 - 并概括为OUT-分销交通密度。
translated by 谷歌翻译
由于静态优先规则和遮挡限制了对优先流量的观点,城市交叉口容易延迟和效率低下。改善交通流量的现有方法(广泛称为自动交叉管理系统)主要基于非学习预订方案或优化算法。基于机器学习的技术在计划单个自我车辆方面显示出令人鼓舞的结果。这项工作建议通过共同计划多辆车来利用机器学习算法来优化城市交叉点的交通流量。基于学习的行为计划提出了几个挑战,要求适合的输入和输出表示以及大量的基础数据。我们通过使用基于图形的柔性输入表示并伴随图神经网络来解决以前的问题。这允许有效地编码场景,并固有地为所有相关车辆提供单独的输出。为了学习明智的政策,而不依赖于专家示范的模仿,合作计划任务被视为强化学习问题。我们在开源模拟环境中训练并评估提出的方法,以进行自动驾驶的决策。与静态优先规则管理的第一届第一局和流量相比,学识渊博的计划者表现出显着的流速增长,同时减少了诱导停止的数量。除合成模拟外,还基于从公开可用的IND数据集中获取的现实世界流量数据进行评估。
translated by 谷歌翻译
强化学习(RL)已证明可以在各种任务中达到超级人类水平的表现。但是,与受监督的机器学习不同,将其推广到各种情况的学习策略仍然是现实世界中最具挑战性的问题之一。自主驾驶(AD)提供了一个多方面的实验领域,因为有必要在许多变化的道路布局和可能的交通情况大量分布中学习正确的行为,包括个人驾驶员个性和难以预测的交通事件。在本文中,我们根据可配置,灵活和性能的代码库为AD提出了一个具有挑战性的基准。我们的基准测试使用了随机场景生成器的目录,包括用于道路布局和交通变化的多种机制,不同的数值和视觉观察类型,不同的动作空间,不同的车辆模型,并允许在静态场景定义下使用。除了纯粹的算法见解外,我们面向应用程序的基准还可以更好地理解设计决策的影响,例如行动和观察空间对政策的普遍性。我们的基准旨在鼓励研究人员提出能够在各种情况下成功概括的解决方案,这是当前RL方法失败的任务。基准的代码可在https://github.com/seawee1/driver-dojo上获得。
translated by 谷歌翻译
自动驾驶在过去二十年中吸引了重要的研究兴趣,因为它提供了许多潜在的好处,包括释放驾驶和减轻交通拥堵的司机等。尽管进展有前途,但车道变化仍然是自治车辆(AV)的巨大挑战,特别是在混合和动态的交通方案中。最近,强化学习(RL)是一种强大的数据驱动控制方法,已被广泛探索了在令人鼓舞的效果中的通道中的车道改变决策。然而,这些研究的大多数研究专注于单车展,并且在多个AVS与人类驱动车辆(HDV)共存的情况下,道路变化已经受到稀缺的关注。在本文中,我们在混合交通公路环境中制定了多个AVS的车道改变决策,作为多功能增强学习(Marl)问题,其中每个AV基于相邻AV的动作使车道变化的决定和HDV。具体地,使用新颖的本地奖励设计和参数共享方案开发了一种多代理优势演员批评网络(MA2C)。特别是,提出了一种多目标奖励功能来纳入燃油效率,驾驶舒适度和自主驾驶的安全性。综合实验结果,在三种不同的交通密度和各级人类司机侵略性下进行,表明我们所提出的Marl框架在效率,安全和驾驶员舒适方面始终如一地优于几个最先进的基准。
translated by 谷歌翻译
预计自动驾驶技术不仅可以提高移动性和道路安全性,还可以提高能源效率的益处。在可预见的未来,自动车辆(AVS)将在与人机车辆共享的道路上运行。为了保持安全性和活力,同时尽量减少能耗,AV规划和决策过程应考虑自动自动驾驶车辆与周围的人机车辆之间的相互作用。在本章中,我们描述了一种通过基于认知层次理论和强化学习开发人的驾驶员行为建模来开发共用道路上的节能自主驾驶政策的框架。
translated by 谷歌翻译