Prior work has looked at applying reinforcement learning and imitation learning approaches to autonomous driving scenarios, but either the safety or the efficiency of the algorithm is compromised. With the use of control barrier functions embedded into the reinforcement learning policy, we arrive at safe policies to optimize the performance of the autonomous driving vehicle. However, control barrier functions need a good approximation of the model of the car. We use probabilistic control barrier functions as an estimate of the model uncertainty. The algorithm is implemented as an online version in the CARLA (Dosovitskiy et al., 2017) Simulator and as an offline version on a dataset extracted from the NGSIM Database. The proposed algorithm is not just a safe ramp merging algorithm but a safe autonomous driving algorithm applied to address ramp merging on highways.
translated by 谷歌翻译
一般而言,融合是人类驱动因素和自治车辆的具有挑战性的任务,特别是在密集的交通中,因为合并的车辆通常需要与其他车辆互动以识别或创造间隙并安全合并。在本文中,我们考虑了强制合并方案的自主车辆控制问题。我们提出了一种新的游戏 - 理论控制器,称为领导者跟随者游戏控制器(LFGC),其中自主EGO车辆和其他具有先验不确定驾驶意图的车辆之间的相互作用被建模为部分可观察到的领导者 - 跟随游戏。 LFGC估计基于观察到的轨迹的其他车辆在线在线,然后预测其未来的轨迹,并计划使用模型预测控制(MPC)来同时实现概率保证安全性和合并目标的自我车辆自己的轨迹。为了验证LFGC的性能,我们在模拟和NGSIM数据中测试它,其中LFGC在合并中展示了97.5%的高成功率。
translated by 谷歌翻译
自动驾驶在过去二十年中吸引了重要的研究兴趣,因为它提供了许多潜在的好处,包括释放驾驶和减轻交通拥堵的司机等。尽管进展有前途,但车道变化仍然是自治车辆(AV)的巨大挑战,特别是在混合和动态的交通方案中。最近,强化学习(RL)是一种强大的数据驱动控制方法,已被广泛探索了在令人鼓舞的效果中的通道中的车道改变决策。然而,这些研究的大多数研究专注于单车展,并且在多个AVS与人类驱动车辆(HDV)共存的情况下,道路变化已经受到稀缺的关注。在本文中,我们在混合交通公路环境中制定了多个AVS的车道改变决策,作为多功能增强学习(Marl)问题,其中每个AV基于相邻AV的动作使车道变化的决定和HDV。具体地,使用新颖的本地奖励设计和参数共享方案开发了一种多代理优势演员批评网络(MA2C)。特别是,提出了一种多目标奖励功能来纳入燃油效率,驾驶舒适度和自主驾驶的安全性。综合实验结果,在三种不同的交通密度和各级人类司机侵略性下进行,表明我们所提出的Marl框架在效率,安全和驾驶员舒适方面始终如一地优于几个最先进的基准。
translated by 谷歌翻译
安全可靠的自治解决方案是下一代智能运输系统的关键组成部分。这种系统中的自动驾驶汽车必须实时考虑复杂而动态的驾驶场景,并预测附近驾驶员的行为。人类驾驶行为非常细微,对个别交通参与者具有特殊性。例如,在合并车辆的情况下,驾驶员可能会显示合作或非合作行为。这些行为必须估算并纳入安全有效驾驶的计划过程中。在这项工作中,我们提出了一个框架,用于估计高速公路上驾驶员的合作水平,并计划将动作与驾驶员的潜在行为合并。潜在参数估计问题使用粒子滤波器解决,以近似合作级别的概率分布。包括潜在状态估算的部分可观察到的马尔可夫决策过程(POMDP)在线解决,以提取合并车辆的政策。我们在高保真汽车模拟器中评估我们的方法,以对潜在状态不可知或依赖于$ \ textit {a先验{先验} $假设。
translated by 谷歌翻译
然而,由于各种交通/道路结构方案以及人类驾驶员行为的长时间分布,自动驾驶的感应,感知和本地化取得了重大进展,因此,对于智能车辆来说,这仍然是一个持开放态度的挑战始终知道如何在有可用的传感 /感知 /本地化信息的道路上做出和执行最佳决定。在本章中,我们讨论了人工智能,更具体地说,强化学习如何利用运营知识和安全反射来做出战略性和战术决策。我们讨论了一些与强化学习解决方案的鲁棒性及其对自动驾驶驾驶策略的实践设计有关的具有挑战性的问题。我们专注于在高速公路上自动驾驶以及增强学习,车辆运动控制和控制屏障功能的整合,从而实现了可靠的AI驾驶策略,可以安全地学习和适应。
translated by 谷歌翻译
我们解决了由具有不同驱动程序行为的道路代理人填充的密集模拟交通环境中的自我车辆导航问题。由于其异构行为引起的代理人的不可预测性,这种环境中的导航是挑战。我们提出了一种新的仿真技术,包括丰富现有的交通模拟器,其具有与不同程度的侵略性程度相对应的行为丰富的轨迹。我们在驾驶员行为建模算法的帮助下生成这些轨迹。然后,我们使用丰富的模拟器培训深度加强学习(DRL)策略,包括一组高级车辆控制命令,并在测试时间使用此策略来执行密集流量的本地导航。我们的政策隐含地模拟了交通代理商之间的交互,并计算了自助式驾驶员机动,例如超速,超速,编织和突然道路变化的激进驾驶员演习的安全轨迹。我们增强的行为丰富的模拟器可用于生成由对应于不同驱动程序行为和流量密度的轨迹组成的数据集,我们的行为的导航方案可以与最先进的导航算法相结合。
translated by 谷歌翻译
Traditional planning and control methods could fail to find a feasible trajectory for an autonomous vehicle to execute amongst dense traffic on roads. This is because the obstacle-free volume in spacetime is very small in these scenarios for the vehicle to drive through. However, that does not mean the task is infeasible since human drivers are known to be able to drive amongst dense traffic by leveraging the cooperativeness of other drivers to open a gap. The traditional methods fail to take into account the fact that the actions taken by an agent affect the behaviour of other vehicles on the road. In this work, we rely on the ability of deep reinforcement learning to implicitly model such interactions and learn a continuous control policy over the action space of an autonomous vehicle. The application we consider requires our agent to negotiate and open a gap in the road in order to successfully merge or change lanes. Our policy learns to repeatedly probe into the target road lane while trying to find a safe spot to move in to. We compare against two model-predictive control-based algorithms and show that our policy outperforms them in simulation.
translated by 谷歌翻译
基于神经网络的驾驶规划师在改善自动驾驶的任务绩效方面表现出了巨大的承诺。但是,确保具有基于神经网络的组件的系统的安全性,尤其是在密集且高度交互式的交通环境中,这是至关重要的,但又具有挑战性。在这项工作中,我们为基于神经网络的车道更改提出了一个安全驱动的互动计划框架。为了防止过度保守计划,我们确定周围车辆的驾驶行为并评估其侵略性,然后以互动方式相应地适应了计划的轨迹。如果在预测的最坏情况下,即使存在安全的逃避轨迹,则自我车辆可以继续改变车道;否则,它可以停留在当前的横向位置附近或返回原始车道。我们通过广泛而全面的实验环境以及在自动驾驶汽车公司收集的现实情况下进行了广泛的模拟,定量证明了计划者设计的有效性及其优于基线方法的优势。
translated by 谷歌翻译
We present an approach for safe trajectory planning, where a strategic task related to autonomous racing is learned sample-efficient within a simulation environment. A high-level policy, represented as a neural network, outputs a reward specification that is used within the cost function of a parametric nonlinear model predictive controller (NMPC). By including constraints and vehicle kinematics in the NLP, we are able to guarantee safe and feasible trajectories related to the used model. Compared to classical reinforcement learning (RL), our approach restricts the exploration to safe trajectories, starts with a good prior performance and yields full trajectories that can be passed to a tracking lowest-level controller. We do not address the lowest-level controller in this work and assume perfect tracking of feasible trajectories. We show the superior performance of our algorithm on simulated racing tasks that include high-level decision making. The vehicle learns to efficiently overtake slower vehicles and to avoid getting overtaken by blocking faster vehicles.
translated by 谷歌翻译
在强化学习(RL)的试验和错误机制中,我们期望学习安全的政策时出现臭名昭着的矛盾:如何学习没有足够数据和关于危险区域的先前模型的安全政策?现有方法主要使用危险行动的后期惩罚,这意味着代理人不会受到惩罚,直到体验危险。这一事实导致代理商也无法在收敛之后学习零违规政策。否则,它不会收到任何惩罚并失去有关危险的知识。在本文中,我们提出了安全设置的演员 - 评论家(SSAC)算法,它使用面向安全的能量函数或安全索引限制了策略更新。安全索引旨在迅速增加,以便潜在的危险行动,这使我们能够在动作空间上找到安全设置,或控制安全集。因此,我们可以在服用它们之前识别危险行为,并在收敛后进一步获得零限制违规政策。我们声称我们可以以类似于学习价值函数的无模型方式学习能量函数。通过使用作为约束目标的能量函数转变,我们制定了受约束的RL问题。我们证明我们基于拉格朗日的解决方案确保学习的政策将收敛到某些假设下的约束优化。在复杂的模拟环境和硬件循环(HIL)实验中评估了所提出的算法,具有来自自动车辆的真实控制器。实验结果表明,所有环境中的融合政策达到了零限制违规和基于模型的基线的相当性能。
translated by 谷歌翻译
由于交通环境的复杂性和波动性,自主驾驶中的决策是一个显着难的问题。在这个项目中,我们使用深度Q-network,以及基于规则的限制来使车道变化的决定。可以通过将高级横向决策与基于低级规则的轨迹监视相结合来获得安全高效的车道改变行为。预计该代理商在培训中,在实际的UDAcity模拟器中进行了适当的车道更换操作,总共100次发作。结果表明,基于规则的DQN比DQN方法更好地执行。基于规则的DQN达到0.8的安全速率和47英里/小时的平均速度
translated by 谷歌翻译
本文提出了一种新的规划和控制策略,用于赛车场景中的多辆车竞争。所提出的赛车策略在两种模式之间切换。当没有周围的车辆时,使用基于学习的模型预测控制(MPC)轨迹策划器用于保证自助车辆更好地实现了更好的搭接定时。当EGO车辆与其他围绕车辆竞争以超车时,基于优化的策划器通过并行计算产生多个动态可行的轨迹。每个轨迹在MPC配方下进行优化,其具有不同的同型贝塞尔曲线参考路径,横向于周围的车辆之间。选择这些不同的同型轨迹之间的时间最佳轨迹,并使用具有障碍物避免约束的低级MPC控制器来保证系统的安全性能。所提出的算法具有能够生成无碰撞轨迹并跟踪它们,同时提高杠杆定时性能,稳定的低计算复杂性,优于汽车赛车环境的时序和性能中的现有方法。为了展示我们的赛车策略的表现,我们在轨道上模拟了多个随机生成的移动车辆,并测试自我车辆的超越机动。
translated by 谷歌翻译
无线技术的最新进步使连接的自动驾驶汽车(CAV)能够通过车辆到车辆(V2V)通信收集有关其环境的信息。在这项工作中,我们为CAVS设计了基于信息共享的多代理增援学习(MARL)框架,以在做出决定以提高交通效率和安全性时利用额外的信息。我们提出的安全参与者批评算法有两种新技术:截断的Q功能和安全动作映射。截断的Q功能利用了来自相邻骑士的共享信息,以使Q-功能的联合状态和动作空间在我们的算法中不会在大型CAV系统中生长。我们证明了截短Q和全局Q函数之间近似误差的结合。安全的操作映射为基于控制屏障功能的培训和执行提供了可证明的安全保证。我们使用CARLA模拟器进行实验,我们表明我们的方法可以在不同的CAV比和不同的交通密度下的平均速度和舒适性方面提高CAV系统的效率。我们还表明,我们的方法避免执行不安全的动作,并始终保持与其他车辆的安全距离。我们构建了一个障碍物的场景,以表明共同的愿景可以帮助骑士早些时候观察障碍,并采取行动避免交通拥堵。
translated by 谷歌翻译
交叉点是自主行驶中最复杂和事故的城市场景之一,其中制造安全和计算有效的决策是非微不足道的。目前的研究主要关注简化的交通状况,同时忽略了混合交通流量的存在,即车辆,骑自行车者和行人。对于城市道路而言,不同的参与者导致了一个非常动态和复杂的互动,从而冒着学习智能政策的困难。本文在集成决策和控制框架中开发动态置换状态表示,以处理与混合业务流的信号化交集。特别地,该表示引入了编码功能和总和运算符,以构建来自环境观察的驱动状态,能够处理不同类型和变体的交通参与者。构建了受约束的最佳控制问题,其中目标涉及跟踪性能,并且不同参与者和信号灯的约束分别设计以确保安全性。我们通过离线优化编码函数,值函数和策略函数来解决这个问题,其中编码函数给出合理的状态表示,然后用作策略和值函数的输入。禁止策略培训旨在重用从驾驶环境中的观察,并且使用时间通过时间来利用策略函数和编码功能联合。验证结果表明,动态置换状态表示可以增强IDC的驱动性能,包括具有大边距的舒适性,决策合规性和安全性。训练有素的驾驶政策可以实现复杂交叉口的高效和平滑通过,同时保证驾驶智能和安全性。
translated by 谷歌翻译
Although extensive research in planning has been carried out for normal scenarios, path planning in emergencies has not been thoroughly explored, especially when vehicles move at a higher speed and have less space for avoiding a collision. For emergency collision avoidance, the controller should have the ability to deal with complicated environments and take collision mitigation into consideration since the problem may have no feasible solution. We propose a safety controller by using model predictive control and artificial potential function. A new artificial potential function inspired by line charge is proposed as the cost function for our model predictive controller. The new artificial potential function takes the shape of all objects into consideration. In particular, the artificial potential function that we proposed has the flexibility to fit the shape of the road structures such as the intersection, while the artificial potential function in most of the previous work could only be used in a highway scenario. Moreover, we could realize collision mitigation for a specific part of the vehicle by increasing the quantity of the charge at the corresponding place. We have tested our methods in 192 cases from 8 different scenarios in simulation. The simulation results show that the success rate of the proposed safety controller is 20% higher than using HJ-reachability with system decomposition. It could also decrease 43% of collision that happens at the pre-assigned part.
translated by 谷歌翻译
预计自动驾驶技术不仅可以提高移动性和道路安全性,还可以提高能源效率的益处。在可预见的未来,自动车辆(AVS)将在与人机车辆共享的道路上运行。为了保持安全性和活力,同时尽量减少能耗,AV规划和决策过程应考虑自动自动驾驶车辆与周围的人机车辆之间的相互作用。在本章中,我们描述了一种通过基于认知层次理论和强化学习开发人的驾驶员行为建模来开发共用道路上的节能自主驾驶政策的框架。
translated by 谷歌翻译
Autonomous driving has a natural bi-level structure. The goal of the upper behavioural layer is to provide appropriate lane change, speeding up, and braking decisions to optimize a given driving task. However, this layer can only indirectly influence the driving efficiency through the lower-level trajectory planner, which takes in the behavioural inputs to produce motion commands. Existing sampling-based approaches do not fully exploit the strong coupling between the behavioural and planning layer. On the other hand, end-to-end Reinforcement Learning (RL) can learn a behavioural layer while incorporating feedback from the lower-level planner. However, purely data-driven approaches often fail in safety metrics in unseen environments. This paper presents a novel alternative; a parameterized bi-level optimization that jointly computes the optimal behavioural decisions and the resulting downstream trajectory. Our approach runs in real-time using a custom GPU-accelerated batch optimizer, and a Conditional Variational Autoencoder learnt warm-start strategy. Extensive simulations show that our approach outperforms state-of-the-art model predictive control and RL approaches in terms of collision rate while being competitive in driving efficiency.
translated by 谷歌翻译
自动驾驶汽车是一项不断发展的技术,旨在通过自动操作从车道变更到超车来提高安全性,可访问性,效率和便利性。超车是自动驾驶汽车最具挑战性的操作之一,当前的自动超车技术仅限于简单情况。本文研究了如何通过允许动作流产来提高自主超车的安全性。我们提出了一个基于深层Q网络的决策过程,以确定是否以及何时需要中止超车的操作。拟议的算法在与交通情况不同的模拟中进行了经验评估,这表明所提出的方法可以改善超车手动过程中的安全性。此外,使用自动班车Iseauto在现实世界实验中证明了该方法。
translated by 谷歌翻译
对于自动驾驶汽车而言,遍历交叉点是一个具有挑战性的问题,尤其是当交叉路口没有交通控制时。最近,由于其成功处理自动驾驶任务,深厚的强化学习受到了广泛的关注。在这项工作中,我们解决了使用新颖的课程进行深入增强学习的问题的问题。拟议的课程导致:1)与未经课程训练的代理人相比,增强剂学习代理的更快的训练过程和2)表现更好。我们的主要贡献是两个方面:1)提供一个独特的课程,用于训练深入的强化学习者,2)显示了所提出的课程在未信号的交叉遍历任务中的应用。该框架期望自动驾驶汽车的感知系统对周围环境进行了处理。我们在Comonroad运动计划模拟器中测试我们的TTTERTIONS和四向交集的方法。
translated by 谷歌翻译
行人在场的运动控制算法对于开发安全可靠的自动驾驶汽车(AV)至关重要。传统运动控制算法依赖于手动设计的决策政策,这些政策忽略了AV和行人之间的相互作用。另一方面,深度强化学习的最新进展允许在没有手动设计的情况下自动学习政策。为了解决行人在场的决策问题,作者介绍了一个基于社会价值取向和深入强化学习(DRL)的框架,该框架能够以不同的驾驶方式生成决策政策。该政策是在模拟环境中使用最先进的DRL算法培训的。还引入了适合DRL训练的新型计算效率的行人模型。我们执行实验以验证我们的框架,并对使用两种不同的无模型深钢筋学习算法获得的策略进行了比较分析。模拟结果表明,开发的模型如何表现出自然的驾驶行为,例如短暂的驾驶行为,以促进行人的穿越。
translated by 谷歌翻译