We develop a hierarchical controller for head-to-head autonomous racing. We first introduce a formulation of a racing game with realistic safety and fairness rules. A high-level planner approximates the original formulation as a discrete game with simplified state, control, and dynamics to easily encode the complex safety and fairness rules and calculates a series of target waypoints. The low-level controller takes the resulting waypoints as a reference trajectory and computes high-resolution control inputs by solving an alternative formulation with simplified objectives and constraints. We consider two approaches for the low-level planner, constructing two hierarchical controllers. One approach uses multi-agent reinforcement learning (MARL), and the other solves a linear-quadratic Nash game (LQNG) to produce control inputs. The controllers are compared against three baselines: an end-to-end MARL controller, a MARL controller tracking a fixed racing line, and an LQNG controller tracking a fixed racing line. Quantitative results show that the proposed hierarchical methods outperform their respective baseline methods in terms of head-to-head race wins and abiding by the rules. The hierarchical controller using MARL for low-level control consistently outperformed all other methods by winning over 88% of head-to-head races and more consistently adhered to the complex racing rules. Qualitatively, we observe the proposed controllers mimicking actions performed by expert human drivers such as shielding/blocking, overtaking, and long-term planning for delayed advantages. We show that hierarchical planning for game-theoretic reasoning produces competitive behavior even when challenged with complex rules and constraints.
translated by 谷歌翻译
游戏理论运动计划者是控制多个高度交互式机器人系统的有效解决方案。大多数现有的游戏理论规划师不切实际地假设所有代理都可以使用先验的目标功能知识。为了解决这个问题,我们提出了一个容忍度的退缩水平游戏理论运动计划者,该计划者利用了与意图假设的可能性相互交流。具体而言,机器人传达其目标函数以结合意图。离散的贝叶斯过滤器旨在根据观察到的轨迹与传达意图的轨迹之间的差异来实时推断目标。在仿真中,我们考虑了三种安全至关重要的自主驾驶场景,即超车,车道交叉和交叉点,以证明我们计划者在存在通信网络中存在错误的传输情况下利用替代意图假设来产生安全轨迹的能力。
translated by 谷歌翻译
自主赛车奖的代理商对反对者的行为做出反应,并以敏捷的操纵向沿着赛道前进,同时惩罚过度侵略性和过度保守的代理商。了解其他代理的意图对于在对抗性多代理环境中部署自主系统至关重要。当前的方法要么过分简化代理的动作空间的离散化,要么无法识别行动的长期影响并成为近视。我们的工作重点是应对这两个挑战。首先,我们提出了一种新颖的降低方法,该方法封装了不同的代理行为,同时保留了代理作用的连续性。其次,我们将两种代理赛车游戏制定为遗憾的最小化问题,并通过遗憾的预测模型为可行的反事实遗憾最小化提供了解决方案。最后,我们在规模的自动驾驶汽车上实验验证了我们的发现。我们证明,使用拟议的游戏理论规划师使用代理表征与客观空间显着提高了对不同对手的获胜率,并且在看不见的环境中,改进可以转移到看不见的对手。
translated by 谷歌翻译
密集的安全导航,城市驾驶环境仍然是一个开放的问题和一个活跃的研究领域。与典型的预测 - 计划方法不同,游戏理论规划考虑了一辆车的计划如何影响另一个车辆的行为。最近的工作表明,在具有非线性目标和约束的普通和游戏中找到当地纳什均衡所需的时间重大改进。当狡辩到驾驶时,这些作品假设场景中的所有车辆一起玩游戏,这可能导致密集流量的难治性计算时间。我们通过假设代理商在他们的观察附近玩游戏的代理商来制定分散的游戏理论规划方法,我们认为我们认为是人类驾驶的更合理的假设。游戏是并行播放的,以进行交互图的所有强烈连接的组件,显着减少了每个游戏中的玩家和约束的数量,从而减少了规划所需的时间。我们证明我们的方法可以通过比较智能驱动程序模型和集中式游戏理论规划在互动数据集中的环形交叉路口时,通过比较智能驱动程序模型和集中式游戏理论规划的性能来实现无碰撞,高效的驾驶。我们的实现可在http://github.com/sisl/decnashplanning获取。
translated by 谷歌翻译
We present an approach for safe trajectory planning, where a strategic task related to autonomous racing is learned sample-efficient within a simulation environment. A high-level policy, represented as a neural network, outputs a reward specification that is used within the cost function of a parametric nonlinear model predictive controller (NMPC). By including constraints and vehicle kinematics in the NLP, we are able to guarantee safe and feasible trajectories related to the used model. Compared to classical reinforcement learning (RL), our approach restricts the exploration to safe trajectories, starts with a good prior performance and yields full trajectories that can be passed to a tracking lowest-level controller. We do not address the lowest-level controller in this work and assume perfect tracking of feasible trajectories. We show the superior performance of our algorithm on simulated racing tasks that include high-level decision making. The vehicle learns to efficiently overtake slower vehicles and to avoid getting overtaken by blocking faster vehicles.
translated by 谷歌翻译
Many autonomous agents, such as intelligent vehicles, are inherently required to interact with one another. Game theory provides a natural mathematical tool for robot motion planning in such interactive settings. However, tractable algorithms for such problems usually rely on a strong assumption, namely that the objectives of all players in the scene are known. To make such tools applicable for ego-centric planning with only local information, we propose an adaptive model-predictive game solver, which jointly infers other players' objectives online and computes a corresponding generalized Nash equilibrium (GNE) strategy. The adaptivity of our approach is enabled by a differentiable trajectory game solver whose gradient signal is used for maximum likelihood estimation (MLE) of opponents' objectives. This differentiability of our pipeline facilitates direct integration with other differentiable elements, such as neural networks (NNs). Furthermore, in contrast to existing solvers for cost inference in games, our method handles not only partial state observations but also general inequality constraints. In two simulated traffic scenarios, we find superior performance of our approach over both existing game-theoretic methods and non-game-theoretic model-predictive control (MPC) approaches. We also demonstrate our approach's real-time planning capabilities and robustness in two hardware experiments.
translated by 谷歌翻译
我们研究了覆盖的阶段 - 避免多个代理的动态游戏,其中多个代理相互作用,并且每种希望满足不同的目标条件,同时避免失败状态。 Reach-避免游戏通常用于表达移动机器人运动计划中发现的安全关键最优控制问题。虽然这些运动计划问题存在各种方法,但我们专注于找到时间一致的解决方案,其中计划未来的运动仍然是最佳的,尽管先前的次优行动。虽然摘要,时间一致性封装了一个非常理想的财产:即使机器人早期从计划发出的机器人的运动发散,即,由于例如内在的动态不确定性或外在环境干扰,即使机器人的运动分歧,时间一致的运动计划也保持最佳。我们的主要贡献是一种计算 - 避免多种代理的算法算法,避免呈现时间一致的解决方案。我们展示了我们在两位和三位玩家模拟驾驶场景中的方法,其中我们的方法为所有代理商提供了安全控制策略。
translated by 谷歌翻译
然而,由于各种交通/道路结构方案以及人类驾驶员行为的长时间分布,自动驾驶的感应,感知和本地化取得了重大进展,因此,对于智能车辆来说,这仍然是一个持开放态度的挑战始终知道如何在有可用的传感 /感知 /本地化信息的道路上做出和执行最佳决定。在本章中,我们讨论了人工智能,更具体地说,强化学习如何利用运营知识和安全反射来做出战略性和战术决策。我们讨论了一些与强化学习解决方案的鲁棒性及其对自动驾驶驾驶策略的实践设计有关的具有挑战性的问题。我们专注于在高速公路上自动驾驶以及增强学习,车辆运动控制和控制屏障功能的整合,从而实现了可靠的AI驾驶策略,可以安全地学习和适应。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
离线强化学习(RL)为从离线数据提供学习决策的框架,因此构成了现实世界应用程序作为自动驾驶的有希望的方法。自动驾驶车辆(SDV)学习策略,这甚至可能甚至优于次优数据集中的行为。特别是在安全关键应用中,作为自动化驾驶,解释性和可转换性是成功的关键。这激发了使用基于模型的离线RL方法,该方法利用规划。然而,目前的最先进的方法往往忽视了多种子体系统随机行为引起的溶液不确定性的影响。这项工作提出了一种新的基于不确定感知模型的离线强化学习利用规划(伞)的新方法,其解决了以可解释的基于学习的方式共同的预测,规划和控制问题。训练有素的动作调节的随机动力学模型捕获了交通场景的独特不同的未来演化。分析为我们在挑战自动化驾驶模拟中的效力和基于现实世界的公共数据集的方法提供了经验证据。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
自治系统正在成为海洋部门内无处不在和获得势头。由于运输的电气化同时发生,自主海洋船只可以降低环境影响,降低成本并提高效率。虽然仍然需要密切的监控以确保安全,但最终目标是完全自主权。一个主要的里程碑是开发一个控制系统,这足以处理任何也稳健和可靠的天气和遇到。此外,控制系统必须遵守防止海上碰撞的国际法规,以便与人类水手进行成功互动。由于Colregs被编写为人类思想来解释,因此它们以暧昧的散文写成,因此不能获得机器可读或可核实。由于这些挑战和各种情况进行了解决,古典模型的方法证明了实现和计算沉重的复杂性。在机器学习(ML)内,深增强学习(DRL)对广泛的应用表现出了很大的潜力。 DRL的无模型和自学特性使其成为自治船只的有希望的候选人。在这项工作中,使用碰撞风险理论将Colregs的子集合在于基于DRL的路径和障碍物避免系统。由此产生的自主代理在训练场景中的训练场景,孤立的遇难情况和基于AIS的真实情景模拟中动态地插值。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
本研究提出了一种具有动态障碍物和不均匀地形的部分可观察环境中的BipeDal运动的安全任务和运动计划(夯实)的分层综合框架。高级任务规划师采用线性时间逻辑(LTL),用于机器人及其环境之间的反应游戏合成,并为导航安全和任务完成提供正式保证。为了解决环境部分可观察性,在高级导航计划者采用信仰抽象,以估计动态障碍的位置。因此,合成的动作规划器向中级运动规划器发送一组运动动作,同时基于运动过程的阶数模型(ROM)结合从安全定理提取的安全机置规范。运动计划程序采用ROM设计安全标准和采样算法,以生成准确跟踪高级动作的非周期性运动计划。为了解决外部扰动,本研究还调查了关键帧运动状态的安全顺序组成,通过可达性分析实现了对外部扰动的强大转变。最终插值一组基于ROM的超参数,以设计由轨迹优化生成的全身运动机器,并验证基于ROM的可行部署,以敏捷机器人设计的20多个自由的Cassie机器人。
translated by 谷歌翻译
本文介绍了用于自动赛车的多层运动计划和控制架构,能够避免静态障碍,进行主动超越并达到75 $ m/s $以上的速度。使用的脱机全局轨迹生成和在线模型预测控制器高度基于车辆的优化和动态模型,在该模型中,在基本的Pacejka Magic公式的扩展版本中,轮胎和弯曲效果表示。使用多体汽车运动库鉴定并验证了所提出的单轨模型,这些模型允许正确模拟车辆动力学,在丢失实际实验数据时尤其有用。调整了控制器的基本正规化项和约束,以降低输入的变化速率,同时确保可接受的速度和路径跟踪。运动计划策略由一个基于Fren \'ET框架的计划者组成,该计划者考虑了Kalman过滤器产生的对手的预测。策划者选择了无碰撞路径和速度轮廓要在3秒钟的视野中跟踪,以实现不同的目标,例如跟随和超车。该提议的解决方案已应用于达拉拉AV-21赛车,并在椭圆形赛道上进行了测试,可实现高达25 $ m/s^{2} $的横向加速度。
translated by 谷歌翻译
自动驾驶汽车是一项不断发展的技术,旨在通过自动操作从车道变更到超车来提高安全性,可访问性,效率和便利性。超车是自动驾驶汽车最具挑战性的操作之一,当前的自动超车技术仅限于简单情况。本文研究了如何通过允许动作流产来提高自主超车的安全性。我们提出了一个基于深层Q网络的决策过程,以确定是否以及何时需要中止超车的操作。拟议的算法在与交通情况不同的模拟中进行了经验评估,这表明所提出的方法可以改善超车手动过程中的安全性。此外,使用自动班车Iseauto在现实世界实验中证明了该方法。
translated by 谷歌翻译
对自动驾驶的运动计划的安全保证通常涉及在环境中无法控制的参与者(例如道路上的人类驱动的车辆)的任何动作下进行无碰撞的轨迹。结果,他们通常对此类参与者的行为采用保守的束缚,例如可达性分析。我们指出,规划轨迹严格避免全部可覆盖区域是不必要的,而且过于限制,因为将来观察环境将使我们能够修剪大多数。无视这种对未来更新的能力的能力可以禁止对人类驾驶员轻松导航的方案的解决方案。我们建议通过新颖的安全框架,全面的反应性安全来解释自动驾驶汽车对未来环境的反应。在模拟中验证了几种城市驾驶场景,例如未受保护的左转弯和车道合并,所得的计划算法称为反应性ILQR,表现出强大的谈判能力和更好的安全性。
translated by 谷歌翻译
尽管动态游戏为建模代理的互动提供了丰富的范式,但为现实世界应用程序解决这些游戏通常具有挑战性。许多现实的交互式设置涉及一般的非线性状态和输入约束,它们彼此之间的决策相结合。在这项工作中,我们使用约束的游戏理论框架开发了一个高效且快速的计划者,用于在受限设置中进行交互式计划。我们的关键见解是利用代理的目标和约束功能的特殊结构,这些功能在多代理交互中进行快速和可靠的计划。更确切地说,我们确定了代理成本功能的结构,在该结构下,由此产生的动态游戏是受约束潜在动态游戏的实例。受限的潜在动态游戏是一类游戏,而不是解决一组耦合的约束最佳控制问题,而是通过解决单个约束最佳控制问题来找到NASH平衡。这简化了限制的交互式轨迹计划。我们比较了涉及四个平面代理的导航设置中方法的性能,并表明我们的方法平均比最先进的速度快20倍。我们进一步在涉及一个四型和两个人的导航设置中对我们提出的方法提供了实验验证。
translated by 谷歌翻译
尽管等级加固学习的进步,但其在高速公路上自动驾驶中的路径规划的应用是具有挑战性的。一个原因是传统的等级加强学习方法由于其危险而无法自动驾驶,因此代理必须移动避免多个障碍物,例如高度不可预测的其他代理,因此安全区域较小,散射,随着时间的推移而变化。为了克服这一挑战,我们提出了一种用于国家空间和政策空间的空间分层加强学习方法。高级策略不仅选择行为子策略,而且选择在国家空间中和政策空间中的概要中致力于思维的区域。随后,低级政策阐述了代理在由高级命令选择的区域的轮廓内的短期目标位置。我们的方法中建议的网络结构和优化与单级方法一样简洁。各种形状的道路环境的实验表明,我们的方法发现了早期发作的几乎最佳的政策,优于基线等级加强学习方法,特别是在狭窄和复杂的道路上。在道路上产生的轨迹类似于人类策略对行为规划水平的策略。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译