这项正在进行的工作考虑了在多助理系统中自主行驶领域的可达性的安全分析。我们为速度游戏进行差异游戏后的车辆的安全问题,并研究不同的建模策略如何产生非常不同的行为,而不管其他情况策略的有效性如何。鉴于现实生活驾驶场景的性质,我们提出了我们的制定的建模策略,该策略占代理人之间的微妙互动,并将其Hamiltonian结果与其他基线进行比较。我们的配方鼓励降低汉密尔顿 - 雅各比安全性分析的保守性,以便在导航期间提供更好的安全保障。
translated by 谷歌翻译
由于早期的工作和新算法的开发人员,追溯式,本文使用可达性分析来验证跟随算法的安全性,这是一种用于阻尼停止和转移流量波的控制器。通过我们的物理平台收集的超过1100英里的驾驶数据,我们通过将其与人类驾驶行为进行比较来验证我们的分析结果。跟随控制器已经证明以低速抑制停止和转向流量波,但之前对其相对安全的分析仅限于加速度的上下界限。为了在先前的分析上进行扩展,可以使用可达性分析来研究其最初测试的速度的安全性,并且还处于更高的速度。示出了两种具有不同标准的安全分析配方:基于距离和基于时间的距离。跟随基于距离的标准被认为是安全的。然而,仿真结果表明,追踪者不代表人类驱动程序 - 它在车辆后面太紧密,特别是人类将认为是不安全的。另一方面,在基于前沿的安全分析的情况下,跟随不再被认为是安全的。提出了一种修改的追踪,以满足基于时间的安全标准。拟议的追随者的仿真结果表明,其响应能够更好地代表人类驾驶员行为。
translated by 谷歌翻译
由于关键的至关重要的自动驾驶汽车(AV)将很快在我们的社会中普遍存在,因此最近在整个行业和学术界都提出了许多可信赖的AV部署的安全概念。然而,在适当的安全概念上达成共识仍然是一项艰巨的任务。在本文中,我们倡导使用汉密尔顿 - 雅各布(HJ)的可及性作为比较现有安全概念的统一数学框架,并通过该框架的元素提出了定制安全概念(从而将其适用性扩展到方案)与方案的方法,从而将其与方案相关。以数据驱动方式对代理行为的隐性期望。具体而言,我们表明(i)现有的主要安全概念可以嵌入到HJ可达性框架中,从而实现一种共同的语言来比较和对比建模假设,并且(ii)HJ可达性可以作为感应性偏见,以有效地理由,在一个学习环境,大约是两个关键但经常被忽视的安全方面:责任和上下文依赖性。
translated by 谷歌翻译
密集的安全导航,城市驾驶环境仍然是一个开放的问题和一个活跃的研究领域。与典型的预测 - 计划方法不同,游戏理论规划考虑了一辆车的计划如何影响另一个车辆的行为。最近的工作表明,在具有非线性目标和约束的普通和游戏中找到当地纳什均衡所需的时间重大改进。当狡辩到驾驶时,这些作品假设场景中的所有车辆一起玩游戏,这可能导致密集流量的难治性计算时间。我们通过假设代理商在他们的观察附近玩游戏的代理商来制定分散的游戏理论规划方法,我们认为我们认为是人类驾驶的更合理的假设。游戏是并行播放的,以进行交互图的所有强烈连接的组件,显着减少了每个游戏中的玩家和约束的数量,从而减少了规划所需的时间。我们证明我们的方法可以通过比较智能驱动程序模型和集中式游戏理论规划在互动数据集中的环形交叉路口时,通过比较智能驱动程序模型和集中式游戏理论规划的性能来实现无碰撞,高效的驾驶。我们的实现可在http://github.com/sisl/decnashplanning获取。
translated by 谷歌翻译
在未来几年和几十年中,自动驾驶汽车(AV)将变得越来越普遍,为更安全,更方便的旅行提供了新的机会,并可能利用自动化和连接性的更智能的交通控制方法。跟随汽车是自动驾驶中的主要功能。近年来,基于强化学习的汽车已受到关注,目的是学习和达到与人类相当的绩效水平。但是,大多数现有的RL方法将汽车模拟为单方面问题,仅感知前方的车辆。然而,最近的文献,王和霍恩[16]表明,遵循的双边汽车考虑了前方的车辆,而后面的车辆表现出更好的系统稳定性。在本文中,我们假设可以使用RL学习这款双边汽车,同时学习其他目标,例如效率最大化,混蛋最小化和安全奖励,从而导致学识渊博的模型超过了人类驾驶。我们通过将双边信息集成到基于双边控制模型(BCM)的CAR遵循控制的状态和奖励功能的情况下,提出并引入了遵循控制遵循的汽车的深钢筋学习(DRL)框架。此外,我们使用分散的多代理增强学习框架来为每个代理生成相​​应的控制动作。我们的仿真结果表明,我们学到的政策比(a)汽车间的前进方向,(b)平均速度,(c)混蛋,(d)碰撞时间(TTC)和(e)的速度更好。字符串稳定性。
translated by 谷歌翻译
一般而言,融合是人类驱动因素和自治车辆的具有挑战性的任务,特别是在密集的交通中,因为合并的车辆通常需要与其他车辆互动以识别或创造间隙并安全合并。在本文中,我们考虑了强制合并方案的自主车辆控制问题。我们提出了一种新的游戏 - 理论控制器,称为领导者跟随者游戏控制器(LFGC),其中自主EGO车辆和其他具有先验不确定驾驶意图的车辆之间的相互作用被建模为部分可观察到的领导者 - 跟随游戏。 LFGC估计基于观察到的轨迹的其他车辆在线在线,然后预测其未来的轨迹,并计划使用模型预测控制(MPC)来同时实现概率保证安全性和合并目标的自我车辆自己的轨迹。为了验证LFGC的性能,我们在模拟和NGSIM数据中测试它,其中LFGC在合并中展示了97.5%的高成功率。
translated by 谷歌翻译
游戏理论运动计划者是控制多个高度交互式机器人系统的有效解决方案。大多数现有的游戏理论规划师不切实际地假设所有代理都可以使用先验的目标功能知识。为了解决这个问题,我们提出了一个容忍度的退缩水平游戏理论运动计划者,该计划者利用了与意图假设的可能性相互交流。具体而言,机器人传达其目标函数以结合意图。离散的贝叶斯过滤器旨在根据观察到的轨迹与传达意图的轨迹之间的差异来实时推断目标。在仿真中,我们考虑了三种安全至关重要的自主驾驶场景,即超车,车道交叉和交叉点,以证明我们计划者在存在通信网络中存在错误的传输情况下利用替代意图假设来产生安全轨迹的能力。
translated by 谷歌翻译
无罪化的交叉路口驾驶对自动车辆有挑战性。为了安全有效的性能,应考虑相互作用的车辆的多样化和动态行为。基于游戏理论框架,提出了一种用于无罪交叉口的自动决策的人类收益设计方法。展望理论被引入将客观碰撞风险映射到主观驾驶员收益,并且驾驶风格可以量化为安全和速度之间的权衡。为了考虑相互作用的动态,进一步引入了概率模型来描述司机的加速趋势。仿真结果表明,该决策算法可以描述极限情况下双车交互的动态过程。统一采样案例模拟的统计数据表明,安全互动的成功率达到98%,而且还可以保证速度效率。在四臂交叉路口的四车辆交互情景中进一步应用并验证了所提出的方法。
translated by 谷歌翻译
我们研究了覆盖的阶段 - 避免多个代理的动态游戏,其中多个代理相互作用,并且每种希望满足不同的目标条件,同时避免失败状态。 Reach-避免游戏通常用于表达移动机器人运动计划中发现的安全关键最优控制问题。虽然这些运动计划问题存在各种方法,但我们专注于找到时间一致的解决方案,其中计划未来的运动仍然是最佳的,尽管先前的次优行动。虽然摘要,时间一致性封装了一个非常理想的财产:即使机器人早期从计划发出的机器人的运动发散,即,由于例如内在的动态不确定性或外在环境干扰,即使机器人的运动分歧,时间一致的运动计划也保持最佳。我们的主要贡献是一种计算 - 避免多种代理的算法算法,避免呈现时间一致的解决方案。我们展示了我们在两位和三位玩家模拟驾驶场景中的方法,其中我们的方法为所有代理商提供了安全控制策略。
translated by 谷歌翻译
在先前有关多代理区防御游戏的文献中,捍卫者对攻击者的任务是基于与攻击者拦截相关的成本度量完成的。与此相反,本文提出了一项互相碰撞拦截策略(IDCAI),供捍卫者拦截攻击者以捍卫保护区,因此辩护人到攻击者的分配协议不仅要考虑到拦截 - 相关的成本,但也考虑了捍卫者在其最佳拦截轨迹上的任何未来碰撞。特别是,在本文中,捍卫者被分配给使用混合成员二次计划(MIQP)拦截攻击者,该计划:1)最大程度地减少后卫在时间优势控制下捕获攻击者所花费的时间,以及2 )有助于消除或延迟捍卫者在最佳轨迹上的未来碰撞。为了防止由于攻击者的时间次数最佳行为而引起的最佳轨迹或碰撞的必然碰撞,还提供了使用指数控制屏障功能(ECBF)的最小增强控制。模拟显示了该方法的功效。
translated by 谷歌翻译
With the continued integration of autonomous vehicles (AVs) into public roads, a mixed traffic environment with large-scale human-driven vehicles (HVs) and AVs interactions is imminent. In challenging traffic scenarios, such as emergency braking, it is crucial to account for the reactive and uncertain behavior of HVs when developing control strategies for AVs. This paper studies the safe control of a platoon of AVs interacting with a human-driven vehicle in longitudinal car-following scenarios. We first propose the use of a model that combines a first-principles model (nominal model) with a Gaussian process (GP) learning-based component for predicting behaviors of the human-driven vehicle when it interacts with AVs. The modeling accuracy of the proposed method shows a $9\%$ reduction in root mean square error (RMSE) in predicting a HV's velocity compared to the nominal model. Exploiting the properties of this model, we design a model predictive control (MPC) strategy for a platoon of AVs to ensure a safe distance between each vehicle, as well as a (probabilistic) safety of the human-driven car following the platoon. Compared to a baseline MPC that uses only a nominal model for HVs, our method achieves better velocity-tracking performance for the autonomous vehicle platoon and more robust constraint satisfaction control for a platoon of mixed vehicles system. Simulation studies demonstrate a $4.2\%$ decrease in the control cost and an approximate $1m$ increase in the minimum distance between autonomous and human-driven vehicles to better guarantee safety in challenging traffic scenarios.
translated by 谷歌翻译
We develop a hierarchical controller for head-to-head autonomous racing. We first introduce a formulation of a racing game with realistic safety and fairness rules. A high-level planner approximates the original formulation as a discrete game with simplified state, control, and dynamics to easily encode the complex safety and fairness rules and calculates a series of target waypoints. The low-level controller takes the resulting waypoints as a reference trajectory and computes high-resolution control inputs by solving an alternative formulation with simplified objectives and constraints. We consider two approaches for the low-level planner, constructing two hierarchical controllers. One approach uses multi-agent reinforcement learning (MARL), and the other solves a linear-quadratic Nash game (LQNG) to produce control inputs. The controllers are compared against three baselines: an end-to-end MARL controller, a MARL controller tracking a fixed racing line, and an LQNG controller tracking a fixed racing line. Quantitative results show that the proposed hierarchical methods outperform their respective baseline methods in terms of head-to-head race wins and abiding by the rules. The hierarchical controller using MARL for low-level control consistently outperformed all other methods by winning over 88% of head-to-head races and more consistently adhered to the complex racing rules. Qualitatively, we observe the proposed controllers mimicking actions performed by expert human drivers such as shielding/blocking, overtaking, and long-term planning for delayed advantages. We show that hierarchical planning for game-theoretic reasoning produces competitive behavior even when challenged with complex rules and constraints.
translated by 谷歌翻译
One challenge for self-driving cars is their interactions not only with other vehicles but also with pedestrians in urban environments. The unpredictability of pedestrian behaviors at intersections can lead to a high rate of accidents. The first pedestrian fatality caused by autonomous vehicles was reported in 2018 when a self-driving Uber vehicle struck a woman crossing an intersection in Tempe, Arizona in the nighttime. There is a need for creating machine intelligence that allows autonomous vehicles to control the car and adapt to different pedestrian behaviors to prevent accidents. In this work, (a) We develop a Level-$k$ Meta Reinforcement Learning model for the vehicle-human interactions and define its solution concept; (b) We test our LK-MRL structure in level-$0$ pedestrians interacting with level-$1$ car scenario, compare the trained policy with multiple baseline methods, and demonstrate its advantage in road safety; (c) Furthermore, based on the properties of level-$k$ thinking, we test our LK-MRL structure in level-$1$ pedestrians interacting with level-$2$ car scenario and verify by experimental results that LK-MRL maintains its advantageous with the using of reinforcement learning of producing different level of agents with strategies of the best response of their lower level thinkers, which provides us possible to create higher level scenarios.
translated by 谷歌翻译
对自动驾驶的运动计划的安全保证通常涉及在环境中无法控制的参与者(例如道路上的人类驱动的车辆)的任何动作下进行无碰撞的轨迹。结果,他们通常对此类参与者的行为采用保守的束缚,例如可达性分析。我们指出,规划轨迹严格避免全部可覆盖区域是不必要的,而且过于限制,因为将来观察环境将使我们能够修剪大多数。无视这种对未来更新的能力的能力可以禁止对人类驾驶员轻松导航的方案的解决方案。我们建议通过新颖的安全框架,全面的反应性安全来解释自动驾驶汽车对未来环境的反应。在模拟中验证了几种城市驾驶场景,例如未受保护的左转弯和车道合并,所得的计划算法称为反应性ILQR,表现出强大的谈判能力和更好的安全性。
translated by 谷歌翻译
Prior work has looked at applying reinforcement learning and imitation learning approaches to autonomous driving scenarios, but either the safety or the efficiency of the algorithm is compromised. With the use of control barrier functions embedded into the reinforcement learning policy, we arrive at safe policies to optimize the performance of the autonomous driving vehicle. However, control barrier functions need a good approximation of the model of the car. We use probabilistic control barrier functions as an estimate of the model uncertainty. The algorithm is implemented as an online version in the CARLA (Dosovitskiy et al., 2017) Simulator and as an offline version on a dataset extracted from the NGSIM Database. The proposed algorithm is not just a safe ramp merging algorithm but a safe autonomous driving algorithm applied to address ramp merging on highways.
translated by 谷歌翻译
深度强化学习(DRL)是一种仅从演示和经验中学习机器人控制政策的有前途的方法。为了涵盖机器人的整个动态行为,DRL训练是通常在仿真环境中得出的主动探索过程。尽管这种模拟培训廉价且快速,但将DRL算法应用于现实世界的设置很困难。如果对代理进行训练直到它们在模拟中安全执行,则由于模拟动力学和物理机器人之间的差异引起的SIM到真实差距,将其传输到物理系统很困难。在本文中,我们提出了一种在线培训DRL代理的方法,可以使用基于模型的安全主管在实体车辆上自动驾驶。我们的解决方案使用监督系统检查代理选择的操作是安全还是不安全,并确保在车辆上始终采取安全措施。这样,我们可以在安全,快速,有效地训练DRL算法的同时绕过SIM到现实的问题。我们提供各种现实世界实验,在线培训一辆小型实体车辆,可以自动驾驶,没有事先模拟培训。评估结果表明,我们的方法在未崩溃的同时提高了样品效率的训练代理,并且受过训练的代理比在模拟中训练的代理表现出更好的驾驶性能。
translated by 谷歌翻译
我们展示了单轨道路问题。在这个问题中,两个代理在一条道路的相对位置时面对每个代理,这一次只能有一个试剂通过。我们专注于一个代理人是人类的情景,而另一个是一种自主代的代理人。我们在一个简单的网格域中与人类对象进行实验,这模拟了单轨道路问题。我们表明,当数据有限时,建立准确的人类模型是非常具有挑战性的,并且基于该数据的加强学习代理在实践中表现不佳。但是,我们表明,试图最大限度地提高人力效用和自己的实用程序的线性组合的代理,达到了高分,并且显着优于其他基线,包括试图仅最大化其自身的实用性的代理。
translated by 谷歌翻译
基于勘探环境的探索能力,深度确定性政策梯度(DDPG)基于差分方程模型的限制可能会突破微分方程模型。然而,DDPG的汽车跟随性能通常因不合理的奖励功能设计而降低,培训不足和低采样效率。为了解决这种问题,提出了一种基于DDPG和协作自适应巡航控制(CACC)的混合车辆跟踪战略。首先,汽车跟踪过程被建模为Markov决策过程,以在每个帧同时计算CACC和DDPG。给定当前状态,分别从CACC和DDPG获得了两种操作。然后,选择对应于提供更大奖励的最佳动作作为混合策略的输出。同时,规则旨在确保加速度的变化率小于所需值。因此,拟议的策略不仅保证了通过CACC的汽车之后的基本性能,还可以通过DDPG充分利用探索复杂环境的优势。最后,仿真结果表明,与DDPG和CACC相比,提高了拟议策略的跟踪性能。
translated by 谷歌翻译
Robots such as autonomous vehicles and assistive manipulators are increasingly operating in dynamic environments and close physical proximity to people. In such scenarios, the robot can leverage a human motion predictor to predict their future states and plan safe and efficient trajectories. However, no model is ever perfect -- when the observed human behavior deviates from the model predictions, the robot might plan unsafe maneuvers. Recent works have explored maintaining a confidence parameter in the human model to overcome this challenge, wherein the predicted human actions are tempered online based on the likelihood of the observed human action under the prediction model. This has opened up a new research challenge, i.e., \textit{how to compute the future human states online as the confidence parameter changes?} In this work, we propose a Hamilton-Jacobi (HJ) reachability-based approach to overcome this challenge. Treating the confidence parameter as a virtual state in the system, we compute a parameter-conditioned forward reachable tube (FRT) that provides the future human states as a function of the confidence parameter. Online, as the confidence parameter changes, we can simply query the corresponding FRT, and use it to update the robot plan. Computing parameter-conditioned FRT corresponds to an (offline) high-dimensional reachability problem, which we solve by leveraging recent advances in data-driven reachability analysis. Overall, our framework enables online maintenance and updates of safety assurances in human-robot interaction scenarios, even when the human prediction model is incorrect. We demonstrate our approach in several safety-critical autonomous driving scenarios, involving a state-of-the-art deep learning-based prediction model.
translated by 谷歌翻译
本文介绍了一个新颖的社会偏好意识分散的安全控制框架,以解决避免多机构碰撞的责任分配问题。考虑到代理不一定会以对称方式进行合作,本文着重于具有不同合作水平的异质代理之间的半合作行为。利用社会价值取向(SVO)来量化个人自私的思想,我们提出了一个新颖的责任相关社会价值取向(R-SVO)的新颖概念,以表达成对代理之间的预期相对社会含义。这用于根据相应的责任份额来重新定义每个代理商的社会偏好或个性,以促进协调方案,例如所有代理商以不对称方式互动的半合件碰撞避免。通过通过拟议的本地成对责任权重纳入这种相对的社会影响,我们为个人代理人开发了与责任相关的控制屏障功能的安全控制框架,并通过正式可证明的安全保证可以实现多代理碰撞的避免。提供了模拟来证明在多个多代理导航任务中所提出的框架的有效性和效率,例如位置交换游戏,自动驾驶汽车公路公路坡道合并方案以及圆形交换游戏。
translated by 谷歌翻译