密集的安全导航,城市驾驶环境仍然是一个开放的问题和一个活跃的研究领域。与典型的预测 - 计划方法不同,游戏理论规划考虑了一辆车的计划如何影响另一个车辆的行为。最近的工作表明,在具有非线性目标和约束的普通和游戏中找到当地纳什均衡所需的时间重大改进。当狡辩到驾驶时,这些作品假设场景中的所有车辆一起玩游戏,这可能导致密集流量的难治性计算时间。我们通过假设代理商在他们的观察附近玩游戏的代理商来制定分散的游戏理论规划方法,我们认为我们认为是人类驾驶的更合理的假设。游戏是并行播放的,以进行交互图的所有强烈连接的组件,显着减少了每个游戏中的玩家和约束的数量,从而减少了规划所需的时间。我们证明我们的方法可以通过比较智能驱动程序模型和集中式游戏理论规划在互动数据集中的环形交叉路口时,通过比较智能驱动程序模型和集中式游戏理论规划的性能来实现无碰撞,高效的驾驶。我们的实现可在http://github.com/sisl/decnashplanning获取。
translated by 谷歌翻译
游戏理论运动计划者是控制多个高度交互式机器人系统的有效解决方案。大多数现有的游戏理论规划师不切实际地假设所有代理都可以使用先验的目标功能知识。为了解决这个问题,我们提出了一个容忍度的退缩水平游戏理论运动计划者,该计划者利用了与意图假设的可能性相互交流。具体而言,机器人传达其目标函数以结合意图。离散的贝叶斯过滤器旨在根据观察到的轨迹与传达意图的轨迹之间的差异来实时推断目标。在仿真中,我们考虑了三种安全至关重要的自主驾驶场景,即超车,车道交叉和交叉点,以证明我们计划者在存在通信网络中存在错误的传输情况下利用替代意图假设来产生安全轨迹的能力。
translated by 谷歌翻译
尽管动态游戏为建模代理的互动提供了丰富的范式,但为现实世界应用程序解决这些游戏通常具有挑战性。许多现实的交互式设置涉及一般的非线性状态和输入约束,它们彼此之间的决策相结合。在这项工作中,我们使用约束的游戏理论框架开发了一个高效且快速的计划者,用于在受限设置中进行交互式计划。我们的关键见解是利用代理的目标和约束功能的特殊结构,这些功能在多代理交互中进行快速和可靠的计划。更确切地说,我们确定了代理成本功能的结构,在该结构下,由此产生的动态游戏是受约束潜在动态游戏的实例。受限的潜在动态游戏是一类游戏,而不是解决一组耦合的约束最佳控制问题,而是通过解决单个约束最佳控制问题来找到NASH平衡。这简化了限制的交互式轨迹计划。我们比较了涉及四个平面代理的导航设置中方法的性能,并表明我们的方法平均比最先进的速度快20倍。我们进一步在涉及一个四型和两个人的导航设置中对我们提出的方法提供了实验验证。
translated by 谷歌翻译
We develop a hierarchical controller for head-to-head autonomous racing. We first introduce a formulation of a racing game with realistic safety and fairness rules. A high-level planner approximates the original formulation as a discrete game with simplified state, control, and dynamics to easily encode the complex safety and fairness rules and calculates a series of target waypoints. The low-level controller takes the resulting waypoints as a reference trajectory and computes high-resolution control inputs by solving an alternative formulation with simplified objectives and constraints. We consider two approaches for the low-level planner, constructing two hierarchical controllers. One approach uses multi-agent reinforcement learning (MARL), and the other solves a linear-quadratic Nash game (LQNG) to produce control inputs. The controllers are compared against three baselines: an end-to-end MARL controller, a MARL controller tracking a fixed racing line, and an LQNG controller tracking a fixed racing line. Quantitative results show that the proposed hierarchical methods outperform their respective baseline methods in terms of head-to-head race wins and abiding by the rules. The hierarchical controller using MARL for low-level control consistently outperformed all other methods by winning over 88% of head-to-head races and more consistently adhered to the complex racing rules. Qualitatively, we observe the proposed controllers mimicking actions performed by expert human drivers such as shielding/blocking, overtaking, and long-term planning for delayed advantages. We show that hierarchical planning for game-theoretic reasoning produces competitive behavior even when challenged with complex rules and constraints.
translated by 谷歌翻译
我们研究了覆盖的阶段 - 避免多个代理的动态游戏,其中多个代理相互作用,并且每种希望满足不同的目标条件,同时避免失败状态。 Reach-避免游戏通常用于表达移动机器人运动计划中发现的安全关键最优控制问题。虽然这些运动计划问题存在各种方法,但我们专注于找到时间一致的解决方案,其中计划未来的运动仍然是最佳的,尽管先前的次优行动。虽然摘要,时间一致性封装了一个非常理想的财产:即使机器人早期从计划发出的机器人的运动发散,即,由于例如内在的动态不确定性或外在环境干扰,即使机器人的运动分歧,时间一致的运动计划也保持最佳。我们的主要贡献是一种计算 - 避免多种代理的算法算法,避免呈现时间一致的解决方案。我们展示了我们在两位和三位玩家模拟驾驶场景中的方法,其中我们的方法为所有代理商提供了安全控制策略。
translated by 谷歌翻译
一般而言,融合是人类驱动因素和自治车辆的具有挑战性的任务,特别是在密集的交通中,因为合并的车辆通常需要与其他车辆互动以识别或创造间隙并安全合并。在本文中,我们考虑了强制合并方案的自主车辆控制问题。我们提出了一种新的游戏 - 理论控制器,称为领导者跟随者游戏控制器(LFGC),其中自主EGO车辆和其他具有先验不确定驾驶意图的车辆之间的相互作用被建模为部分可观察到的领导者 - 跟随游戏。 LFGC估计基于观察到的轨迹的其他车辆在线在线,然后预测其未来的轨迹,并计划使用模型预测控制(MPC)来同时实现概率保证安全性和合并目标的自我车辆自己的轨迹。为了验证LFGC的性能,我们在模拟和NGSIM数据中测试它,其中LFGC在合并中展示了97.5%的高成功率。
translated by 谷歌翻译
Designing a safe and human-like decision-making system for an autonomous vehicle is a challenging task. Generative imitation learning is one possible approach for automating policy-building by leveraging both real-world and simulated decisions. Previous work that applies generative imitation learning to autonomous driving policies focuses on learning a low-level controller for simple settings. However, to scale to complex settings, many autonomous driving systems combine fixed, safe, optimization-based low-level controllers with high-level decision-making logic that selects the appropriate task and associated controller. In this paper, we attempt to bridge this gap in complexity by employing Safety-Aware Hierarchical Adversarial Imitation Learning (SHAIL), a method for learning a high-level policy that selects from a set of low-level controller instances in a way that imitates low-level driving data on-policy. We introduce an urban roundabout simulator that controls non-ego vehicles using real data from the Interaction dataset. We then demonstrate empirically that even with simple controller options, our approach can produce better behavior than previous approaches in driver imitation that have difficulty scaling to complex environments. Our implementation is available at https://github.com/sisl/InteractionImitation.
translated by 谷歌翻译
Many autonomous agents, such as intelligent vehicles, are inherently required to interact with one another. Game theory provides a natural mathematical tool for robot motion planning in such interactive settings. However, tractable algorithms for such problems usually rely on a strong assumption, namely that the objectives of all players in the scene are known. To make such tools applicable for ego-centric planning with only local information, we propose an adaptive model-predictive game solver, which jointly infers other players' objectives online and computes a corresponding generalized Nash equilibrium (GNE) strategy. The adaptivity of our approach is enabled by a differentiable trajectory game solver whose gradient signal is used for maximum likelihood estimation (MLE) of opponents' objectives. This differentiability of our pipeline facilitates direct integration with other differentiable elements, such as neural networks (NNs). Furthermore, in contrast to existing solvers for cost inference in games, our method handles not only partial state observations but also general inequality constraints. In two simulated traffic scenarios, we find superior performance of our approach over both existing game-theoretic methods and non-game-theoretic model-predictive control (MPC) approaches. We also demonstrate our approach's real-time planning capabilities and robustness in two hardware experiments.
translated by 谷歌翻译
安全可靠的自治解决方案是下一代智能运输系统的关键组成部分。这种系统中的自动驾驶汽车必须实时考虑复杂而动态的驾驶场景,并预测附近驾驶员的行为。人类驾驶行为非常细微,对个别交通参与者具有特殊性。例如,在合并车辆的情况下,驾驶员可能会显示合作或非合作行为。这些行为必须估算并纳入安全有效驾驶的计划过程中。在这项工作中,我们提出了一个框架,用于估计高速公路上驾驶员的合作水平,并计划将动作与驾驶员的潜在行为合并。潜在参数估计问题使用粒子滤波器解决,以近似合作级别的概率分布。包括潜在状态估算的部分可观察到的马尔可夫决策过程(POMDP)在线解决,以提取合并车辆的政策。我们在高保真汽车模拟器中评估我们的方法,以对潜在状态不可知或依赖于$ \ textit {a先验{先验} $假设。
translated by 谷歌翻译
我们展示了单轨道路问题。在这个问题中,两个代理在一条道路的相对位置时面对每个代理,这一次只能有一个试剂通过。我们专注于一个代理人是人类的情景,而另一个是一种自主代的代理人。我们在一个简单的网格域中与人类对象进行实验,这模拟了单轨道路问题。我们表明,当数据有限时,建立准确的人类模型是非常具有挑战性的,并且基于该数据的加强学习代理在实践中表现不佳。但是,我们表明,试图最大限度地提高人力效用和自己的实用程序的线性组合的代理,达到了高分,并且显着优于其他基线,包括试图仅最大化其自身的实用性的代理。
translated by 谷歌翻译
自主赛车奖的代理商对反对者的行为做出反应,并以敏捷的操纵向沿着赛道前进,同时惩罚过度侵略性和过度保守的代理商。了解其他代理的意图对于在对抗性多代理环境中部署自主系统至关重要。当前的方法要么过分简化代理的动作空间的离散化,要么无法识别行动的长期影响并成为近视。我们的工作重点是应对这两个挑战。首先,我们提出了一种新颖的降低方法,该方法封装了不同的代理行为,同时保留了代理作用的连续性。其次,我们将两种代理赛车游戏制定为遗憾的最小化问题,并通过遗憾的预测模型为可行的反事实遗憾最小化提供了解决方案。最后,我们在规模的自动驾驶汽车上实验验证了我们的发现。我们证明,使用拟议的游戏理论规划师使用代理表征与客观空间显着提高了对不同对手的获胜率,并且在看不见的环境中,改进可以转移到看不见的对手。
translated by 谷歌翻译
无罪化的交叉路口驾驶对自动车辆有挑战性。为了安全有效的性能,应考虑相互作用的车辆的多样化和动态行为。基于游戏理论框架,提出了一种用于无罪交叉口的自动决策的人类收益设计方法。展望理论被引入将客观碰撞风险映射到主观驾驶员收益,并且驾驶风格可以量化为安全和速度之间的权衡。为了考虑相互作用的动态,进一步引入了概率模型来描述司机的加速趋势。仿真结果表明,该决策算法可以描述极限情况下双车交互的动态过程。统一采样案例模拟的统计数据表明,安全互动的成功率达到98%,而且还可以保证速度效率。在四臂交叉路口的四车辆交互情景中进一步应用并验证了所提出的方法。
translated by 谷歌翻译
相应地预测周围交通参与者的未来状态,并计划安全,平稳且符合社会的轨迹对于自动驾驶汽车至关重要。当前的自主驾驶系统有两个主要问题:预测模块通常与计划模块解耦,并且计划的成本功能很难指定和调整。为了解决这些问题,我们提出了一个端到端的可区分框架,该框架集成了预测和计划模块,并能够从数据中学习成本函数。具体而言,我们采用可区分的非线性优化器作为运动计划者,该运动计划将神经网络给出的周围剂的预测轨迹作为输入,并优化了自动驾驶汽车的轨迹,从而使框架中的所有操作都可以在框架中具有可观的成本,包括成本功能权重。提出的框架经过大规模的现实驾驶数据集进行了训练,以模仿整个驾驶场景中的人类驾驶轨迹,并在开环和闭环界面中进行了验证。开环测试结果表明,所提出的方法的表现优于各种指标的基线方法,并提供以计划为中心的预测结果,从而使计划模块能够输出接近人类的轨迹。在闭环测试中,提出的方法表明能够处理复杂的城市驾驶场景和鲁棒性,以抵抗模仿学习方法所遭受的分配转移。重要的是,我们发现计划和预测模块的联合培训比在开环和闭环测试中使用单独的训练有素的预测模块进行计划要比计划更好。此外,消融研究表明,框架中的可学习组件对于确保计划稳定性和性能至关重要。
translated by 谷歌翻译
离线强化学习(RL)为从离线数据提供学习决策的框架,因此构成了现实世界应用程序作为自动驾驶的有希望的方法。自动驾驶车辆(SDV)学习策略,这甚至可能甚至优于次优数据集中的行为。特别是在安全关键应用中,作为自动化驾驶,解释性和可转换性是成功的关键。这激发了使用基于模型的离线RL方法,该方法利用规划。然而,目前的最先进的方法往往忽视了多种子体系统随机行为引起的溶液不确定性的影响。这项工作提出了一种新的基于不确定感知模型的离线强化学习利用规划(伞)的新方法,其解决了以可解释的基于学习的方式共同的预测,规划和控制问题。训练有素的动作调节的随机动力学模型捕获了交通场景的独特不同的未来演化。分析为我们在挑战自动化驾驶模拟中的效力和基于现实世界的公共数据集的方法提供了经验证据。
translated by 谷歌翻译
在多游戏设置中运行的机器人必须同时对共享环境的人类或机器人代理的环境和行为进行建模。通常使用同时定位和映射(SLAM)进行这种建模;但是,SLAM算法通常忽略了多人相互作用。相比之下,运动计划文献经常使用动态游戏理论来在具有完美本地化的已知环境中明确对多个代理的非合作相互作用进行建模。在这里,我们介绍了GTP-Slam,这是一种基于迭代最佳响应的小说最佳SLAM算法,可以准确执行状态定位和映射重建,同时使用游戏理论先验来捕获未知场景中多个代理之间固有的非合作互动。通过将基本的大满贯问题作为潜在游戏,我们继承了强有力的融合保证。经验结果表明,当部署在现实的交通模拟中时,我们的方法比在广泛的噪声水平上的标准捆绑捆绑调整算法更准确地进行本地化和映射。
translated by 谷歌翻译
在未来几年和几十年中,自动驾驶汽车(AV)将变得越来越普遍,为更安全,更方便的旅行提供了新的机会,并可能利用自动化和连接性的更智能的交通控制方法。跟随汽车是自动驾驶中的主要功能。近年来,基于强化学习的汽车已受到关注,目的是学习和达到与人类相当的绩效水平。但是,大多数现有的RL方法将汽车模拟为单方面问题,仅感知前方的车辆。然而,最近的文献,王和霍恩[16]表明,遵循的双边汽车考虑了前方的车辆,而后面的车辆表现出更好的系统稳定性。在本文中,我们假设可以使用RL学习这款双边汽车,同时学习其他目标,例如效率最大化,混蛋最小化和安全奖励,从而导致学识渊博的模型超过了人类驾驶。我们通过将双边信息集成到基于双边控制模型(BCM)的CAR遵循控制的状态和奖励功能的情况下,提出并引入了遵循控制遵循的汽车的深钢筋学习(DRL)框架。此外,我们使用分散的多代理增强学习框架来为每个代理生成相​​应的控制动作。我们的仿真结果表明,我们学到的政策比(a)汽车间的前进方向,(b)平均速度,(c)混蛋,(d)碰撞时间(TTC)和(e)的速度更好。字符串稳定性。
translated by 谷歌翻译
由于静态优先规则和遮挡限制了对优先流量的观点,城市交叉口容易延迟和效率低下。改善交通流量的现有方法(广泛称为自动交叉管理系统)主要基于非学习预订方案或优化算法。基于机器学习的技术在计划单个自我车辆方面显示出令人鼓舞的结果。这项工作建议通过共同计划多辆车来利用机器学习算法来优化城市交叉点的交通流量。基于学习的行为计划提出了几个挑战,要求适合的输入和输出表示以及大量的基础数据。我们通过使用基于图形的柔性输入表示并伴随图神经网络来解决以前的问题。这允许有效地编码场景,并固有地为所有相关车辆提供单独的输出。为了学习明智的政策,而不依赖于专家示范的模仿,合作计划任务被视为强化学习问题。我们在开源模拟环境中训练并评估提出的方法,以进行自动驾驶的决策。与静态优先规则管理的第一届第一局和流量相比,学识渊博的计划者表现出显着的流速增长,同时减少了诱导停止的数量。除合成模拟外,还基于从公开可用的IND数据集中获取的现实世界流量数据进行评估。
translated by 谷歌翻译
我们介绍了\ textit {nocturne},这是一种新的2D驾驶模拟器,用于调查部分可观察性下的多代理协调。夜曲的重点是在不具有计算机视觉的计算开销并从图像中提取特征的情况下,在现实世界中的推理和心理理论方面进行研究。该模拟器中的代理只会观察到场景的障碍,模仿人类的视觉传感限制。 Unlike existing benchmarks that are bottlenecked by rendering human-like observations directly using a camera input, Nocturne uses efficient intersection methods to compute a vectorized set of visible features in a C++ back-end, allowing the simulator to run at $2000+$ steps-per -第二。使用开源轨迹和映射数据,我们构建了一个模拟器,以加载和重播来自现实世界驾驶数据的任意轨迹和场景。使用这种环境,我们基准了加强学习和模仿学习剂,并证明这些代理远离人类水平的协调能力,并显着偏离专家轨迹。
translated by 谷歌翻译
交通模拟器是运输系统运营和计划中的重要组成部分。常规的交通模拟器通常采用校准的物理跟踪模型来描述车辆的行为及其与交通环境的相互作用。但是,没有普遍的物理模型可以准确地预测不同情况下车辆行为的模式。鉴于交通动态的非平稳性质,固定的物理模型在复杂的环境中往往不太有效。在本文中,我们将流量模拟作为一个反向加强学习问题,并提出一个参数共享对抗性逆增强学习模型,以进行动态射击模拟学习。我们提出的模型能够模仿现实世界中车辆的轨迹,同时恢复奖励功能,从而揭示了车辆的真实目标,这是不同动态的不变。关于合成和现实世界数据集的广泛实验表明,与最先进的方法相比,我们方法的出色性能及其对流量变化动态的鲁棒性。
translated by 谷歌翻译
大型人口系统的分析和控制对研究和工程的各个领域引起了极大的兴趣,从机器人群的流行病学到经济学和金融。一种越来越流行和有效的方法来实现多代理系统中的顺序决策,这是通过多机构增强学习,因为它允许对高度复杂的系统进行自动和无模型的分析。但是,可伸缩性的关键问题使控制和增强学习算法的设计变得复杂,尤其是在具有大量代理的系统中。尽管强化学习在许多情况下都发现了经验成功,但许多代理商的问题很快就变得棘手了,需要特别考虑。在这项调查中,我们将阐明当前的方法,以通过多代理强化学习以及通过诸如平均场游戏,集体智能或复杂的网络理论等研究领域进行仔细理解和分析大型人口系统。这些经典独立的主题领域提供了多种理解或建模大型人口系统的方法,这可能非常适合将来的可拖动MARL算法制定。最后,我们调查了大规模控制的潜在应用领域,并确定了实用系统中学习算法的富有成果的未来应用。我们希望我们的调查可以为理论和应用科学的初级和高级研究人员提供洞察力和未来的方向。
translated by 谷歌翻译