在与其他代理商的社交互动下进行计划是自动驾驶的重要问题。随着自动驾驶汽车在相互作用中的作用会影响,并且也受到其他试剂的影响,因此自动驾驶汽车需要有效地推断其他试剂的反应。大多数现有方法将问题提出为广泛的NASH平衡问题,该问题通过基于优化的方法解决。但是,他们要求过多的计算资源,并且由于非凸度而容易落入本地最低限度。蒙特卡洛树搜索(MCTS)成功解决了游戏理论问题中的此类问题。但是,随着交互游戏树的成倍增长,一般的MCT仍然需要大量迭代才能达到Optima。在本文中,我们通过将预测算法作为启发式算法纳入了基于一般MCT的高效游戏理论轨迹计划算法。最重要的是,符合社会的奖励和贝叶斯推理算法旨在产生多样化的驾驶行为并确定其他驾驶员的驾驶偏好。结果证明了在高度交互式场景中包含自然主义驾驶行为的数据集的提议框架的有效性。
translated by 谷歌翻译
随着越来越多的自主车辆(AVS)正在公共道路上部署,为他们设计的社会兼容行为变得越来越重要。为了产生安全和有效的行动,AVS不仅需要预测其他交通参与者的未来行为,而且需要意识到与这种行为预测相关的不确定性。在本文中,我们提出了一个不确定的综合预测和规划(UAPP)框架。它允许AVS推断在线其他道路用户的特征,并不仅可以为自己的奖励提供优化的行为,也可以对他人提供礼貌,以及他们对预测不确定性的信心。我们首先提出了礼貌和信心的定义。基于此,探讨了对互动驾驶场景中AVS行为的影响。此外,我们通过将产生的行为与地面真理进行比较来评估自然主义人类驾驶数据的提议算法。结果表明,在线推断可以显着提高所产生行为的人类肖像。此外,我们发现人类的司机对他人表示非常适合那些没有权利的人。我们还发现,这种驾驶偏好在不同的文化中有所不同。
translated by 谷歌翻译
一般而言,融合是人类驱动因素和自治车辆的具有挑战性的任务,特别是在密集的交通中,因为合并的车辆通常需要与其他车辆互动以识别或创造间隙并安全合并。在本文中,我们考虑了强制合并方案的自主车辆控制问题。我们提出了一种新的游戏 - 理论控制器,称为领导者跟随者游戏控制器(LFGC),其中自主EGO车辆和其他具有先验不确定驾驶意图的车辆之间的相互作用被建模为部分可观察到的领导者 - 跟随游戏。 LFGC估计基于观察到的轨迹的其他车辆在线在线,然后预测其未来的轨迹,并计划使用模型预测控制(MPC)来同时实现概率保证安全性和合并目标的自我车辆自己的轨迹。为了验证LFGC的性能,我们在模拟和NGSIM数据中测试它,其中LFGC在合并中展示了97.5%的高成功率。
translated by 谷歌翻译
不确定性下的实时计划对于在复杂的动态环境中运行的机器人至关重要。例如,考虑一下,汽车,摩托车,公共汽车等不受监管的城市交通不受监管的自动机器人车辆驾驶。机器人车辆必须在短期和长时间内计划,以便与许多具有不确定意图和不确定意图的交通参与者互动有效驾驶。然而,在很长一段时间内明确规划会产生过度的计算成本,并且在实时限制下是不切实际的。为了实现大规模计划的实时性能,这项工作从树木搜索驾驶(Lets-Drive)中引入了一种新的算法学习,该算法将计划和学习集成到封闭的循环中,并将其应用于拥挤的城市交通中的自动驾驶在模拟中。具体而言,让我们驱动器从在线规划者提供的数据中学习策略及其价值函数,该数据搜索了稀疏采样的信念树;在线规划师依次使用学习的策略和价值功能作为启发式方法来扩展其运行时性能,以实现实时机器人控制。重复这两个步骤以形成一个封闭的循环,以便计划者和学习者相互通知并同步改进。该算法以自我监督的方式自行学习,而无需人工努力明确的数据标记。实验结果表明,让驱动器的表现优于计划或学习,以及计划和学习的开环集成。
translated by 谷歌翻译
人类行为的不确定性对拥挤的城市环境中的自动驾驶构成了重大挑战。部分可观察到的马尔可夫决策过程(POMDP)为不确定性下的计划提供了一个原则的框架,通常利用蒙特卡洛抽样来实现在线绩效进行复杂的任务。但是,抽样还通过潜在缺失关键事件引起了安全问题。为了解决这个问题,我们提出了一种新的算法,学习对驾驶行为(领导者)的关注,这些算法在计划过程中学习了批判性人类行为。领导者学习了一个神经网络生成器,以实时情况下对人类行为的关注。它将注意力集成到信仰空间计划者中,使用重要性抽样来偏向关键事件。为了训练该算法,我们让注意力生成器和计划者组成了最小游戏。通过解决Min-Max游戏,领导者学会了无需人类标签即可执行风险意识的计划。
translated by 谷歌翻译
We present an approach for safe trajectory planning, where a strategic task related to autonomous racing is learned sample-efficient within a simulation environment. A high-level policy, represented as a neural network, outputs a reward specification that is used within the cost function of a parametric nonlinear model predictive controller (NMPC). By including constraints and vehicle kinematics in the NLP, we are able to guarantee safe and feasible trajectories related to the used model. Compared to classical reinforcement learning (RL), our approach restricts the exploration to safe trajectories, starts with a good prior performance and yields full trajectories that can be passed to a tracking lowest-level controller. We do not address the lowest-level controller in this work and assume perfect tracking of feasible trajectories. We show the superior performance of our algorithm on simulated racing tasks that include high-level decision making. The vehicle learns to efficiently overtake slower vehicles and to avoid getting overtaken by blocking faster vehicles.
translated by 谷歌翻译
安全可靠的自治解决方案是下一代智能运输系统的关键组成部分。这种系统中的自动驾驶汽车必须实时考虑复杂而动态的驾驶场景,并预测附近驾驶员的行为。人类驾驶行为非常细微,对个别交通参与者具有特殊性。例如,在合并车辆的情况下,驾驶员可能会显示合作或非合作行为。这些行为必须估算并纳入安全有效驾驶的计划过程中。在这项工作中,我们提出了一个框架,用于估计高速公路上驾驶员的合作水平,并计划将动作与驾驶员的潜在行为合并。潜在参数估计问题使用粒子滤波器解决,以近似合作级别的概率分布。包括潜在状态估算的部分可观察到的马尔可夫决策过程(POMDP)在线解决,以提取合并车辆的政策。我们在高保真汽车模拟器中评估我们的方法,以对潜在状态不可知或依赖于$ \ textit {a先验{先验} $假设。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
这项工作研究了以下假设:与人类驾驶状态的部分可观察到的马尔可夫决策过程(POMDP)计划可以显着提高自动高速公路驾驶的安全性和效率。我们在模拟场景中评估了这一假设,即自动驾驶汽车必须在快速连续中安全执行三个车道变化。通过观测扩大(POMCPOW)算法,通过部分可观察到的蒙特卡洛计划获得了近似POMDP溶液。这种方法的表现优于过度自信和保守的MDP基准,匹配或匹配效果优于QMDP。相对于MDP基准,POMCPOW通常将不安全情况的速率降低了一半或将成功率提高50%。
translated by 谷歌翻译
安全与其他交通参与者的互动是自动驾驶的核心要求之一,尤其是在交叉点和遮挡中。大多数现有的方法都是为特定场景设计的,需要大量的人工劳动参数调整,以应用于不同情况。为了解决这个问题,我们首先提出了一个基于学习的交互点模型(IPM),该模型描述了代理与保护时间和交互优先级之间的相互作用以统一的方式。我们将提出的IPM进一步整合到一个新颖的计划框架中,通过在高度动态的环境中的全面模拟来证明其有效性和鲁棒性。
translated by 谷歌翻译
模拟在有效评估自动驾驶汽车方面发挥了重要作用。现有方法主要依赖于基于启发式的模拟,在该模拟中,交通参与者遵循某些无法产生复杂人类行为的人类编码的规则。因此,提出了反应性仿真概念,以通过利用现实世界数据来弥合模拟和现实世界交通情况之间的人类行为差距。但是,这些反应性模型可以在模拟几个步骤后轻松地产生不合理的行为,我们将模型视为失去其稳定性。据我们所知,没有任何工作明确讨论并分析了反应性仿真框架的稳定性。在本文中,我们旨在对反应性模拟进行彻底的稳定性分析,并提出一种增强稳定性的解决方案。具体而言,我们首先提出了一个新的反应模拟框架,在其中我们发现模拟状态序列的平滑度和一致性是稳定性的关键因素。然后,我们将运动学媒介物模型纳入框架中,以提高反应性模拟的闭环稳定性。此外,在本文中提出了一些新颖的指标,以更好地分析模拟性能。
translated by 谷歌翻译
当自治车辆仍然努力解决在路上驾驶期间解决具有挑战性的情况时,人类长期以来一直掌握具有高效可转移和适应性的驱动能力的推动的本质。通过在驾驶期间模仿人的认知模型和语义理解,我们呈现帽子,一个分层框架,在多助手密集交通环境中产生高质量的驾驶行为。我们的方法层次地由高级意图识别和低级动作生成策略组成。通过语义子任务定义和通用状态表示,分层框架可在不同的驱动方案上传输。此外,我们的模型还能够通过在线适应模块捕获个人和场景之间的驾驶行为的变化。我们展示了在交叉路口和环形交叉路口的真实交通数据的轨迹预测任务中的算法,我们对该提出的方法进行了广泛的研究,并证明了我们的方法在预测准确性和可转移性方面的方式表现出其他方法。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
我们解决了由具有不同驱动程序行为的道路代理人填充的密集模拟交通环境中的自我车辆导航问题。由于其异构行为引起的代理人的不可预测性,这种环境中的导航是挑战。我们提出了一种新的仿真技术,包括丰富现有的交通模拟器,其具有与不同程度的侵略性程度相对应的行为丰富的轨迹。我们在驾驶员行为建模算法的帮助下生成这些轨迹。然后,我们使用丰富的模拟器培训深度加强学习(DRL)策略,包括一组高级车辆控制命令,并在测试时间使用此策略来执行密集流量的本地导航。我们的政策隐含地模拟了交通代理商之间的交互,并计算了自助式驾驶员机动,例如超速,超速,编织和突然道路变化的激进驾驶员演习的安全轨迹。我们增强的行为丰富的模拟器可用于生成由对应于不同驱动程序行为和流量密度的轨迹组成的数据集,我们的行为的导航方案可以与最先进的导航算法相结合。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
Proper functioning of connected and automated vehicles (CAVs) is crucial for the safety and efficiency of future intelligent transport systems. Meanwhile, transitioning to fully autonomous driving requires a long period of mixed autonomy traffic, including both CAVs and human-driven vehicles. Thus, collaboration decision-making for CAVs is essential to generate appropriate driving behaviors to enhance the safety and efficiency of mixed autonomy traffic. In recent years, deep reinforcement learning (DRL) has been widely used in solving decision-making problems. However, the existing DRL-based methods have been mainly focused on solving the decision-making of a single CAV. Using the existing DRL-based methods in mixed autonomy traffic cannot accurately represent the mutual effects of vehicles and model dynamic traffic environments. To address these shortcomings, this article proposes a graph reinforcement learning (GRL) approach for multi-agent decision-making of CAVs in mixed autonomy traffic. First, a generic and modular GRL framework is designed. Then, a systematic review of DRL and GRL methods is presented, focusing on the problems addressed in recent research. Moreover, a comparative study on different GRL methods is further proposed based on the designed framework to verify the effectiveness of GRL methods. Results show that the GRL methods can well optimize the performance of multi-agent decision-making for CAVs in mixed autonomy traffic compared to the DRL methods. Finally, challenges and future research directions are summarized. This study can provide a valuable research reference for solving the multi-agent decision-making problems of CAVs in mixed autonomy traffic and can promote the implementation of GRL-based methods into intelligent transportation systems. The source code of our work can be found at https://github.com/Jacklinkk/Graph_CAVs.
translated by 谷歌翻译
本文介绍了一个混合在线的部分可观察到的马尔可夫决策过程(POMDP)计划系统,该系统在存在环境中其他代理商引入的多模式不确定性的情况下解决了自主导航的问题。作为一个特别的例子,我们考虑了密集的行人和障碍物中的自主航行问题。该问题的流行方法首先使用完整的计划者(例如,混合A*)生成一条路径,具有对不确定性的临时假设,然后使用基于在线树的POMDP求解器来解决问题的不确定性,并控制问题的有限方面(即沿着路径的速度)。我们提出了一种更有能力和响应的实时方法,使POMDP规划师能够控制更多的自由度(例如,速度和标题),以实现更灵活,更有效的解决方案。这种修改大大扩展了POMDP规划师必须推荐的国家空间区域,从而大大提高了在实时控制提供的有限计算预算中找到有效的推出政策的重要性。我们的关键见解是使用多Query运动计划技术(例如,概率路线图或快速行进方法)作为先验,以快速生成在有限的地平线搜索中POMDP规划树可能达到的每个状态的高效推出政策。我们提出的方法产生的轨迹比以前的方法更安全,更有效,即使在较长的计划范围内密集拥挤的动态环境中。
translated by 谷歌翻译
我们提出了一种涉及无罪交叉口,环形交叉路口和合并期间的人类驱动因素和自治车辆(AVS)的多智能经纪人规划的新方法。在多代理规划中,主要挑战是预测其他代理人,特别是人类驱动因素的行为,因为他们的意图隐藏着其他代理人。我们的算法使用博弈论开发一个名为GamePlan的新拍卖,这直接基于其驱动风格来确定每个代理的最佳动作(这是可通过常用传感器观察到的)。 GamePlan为更具攻击性或不耐烦的驱动程序和更低的优先级分配更高的优先级,以及更多保守或患者司机的优先级;理论上,我们证明了这种方法是游戏 - 理论上最佳地防止冲突和死锁。我们将我们的方法与先前的最先进的拍卖技术进行比较,包括经济拍卖,基于时间的拍卖(先进先出)和随机竞标,并表明这些方法中的每一种都会导致代理商之间的碰撞帐户驱动程序行为。我们另外与基于深度加强学习,深度学习和博弈理论的方法进行比较,并呈现我们对这些方法的好处。最后,我们表明我们的方法可以在现实世界与人类驱动程序实施。
translated by 谷歌翻译
相应地预测周围交通参与者的未来状态,并计划安全,平稳且符合社会的轨迹对于自动驾驶汽车至关重要。当前的自主驾驶系统有两个主要问题:预测模块通常与计划模块解耦,并且计划的成本功能很难指定和调整。为了解决这些问题,我们提出了一个端到端的可区分框架,该框架集成了预测和计划模块,并能够从数据中学习成本函数。具体而言,我们采用可区分的非线性优化器作为运动计划者,该运动计划将神经网络给出的周围剂的预测轨迹作为输入,并优化了自动驾驶汽车的轨迹,从而使框架中的所有操作都可以在框架中具有可观的成本,包括成本功能权重。提出的框架经过大规模的现实驾驶数据集进行了训练,以模仿整个驾驶场景中的人类驾驶轨迹,并在开环和闭环界面中进行了验证。开环测试结果表明,所提出的方法的表现优于各种指标的基线方法,并提供以计划为中心的预测结果,从而使计划模块能够输出接近人类的轨迹。在闭环测试中,提出的方法表明能够处理复杂的城市驾驶场景和鲁棒性,以抵抗模仿学习方法所遭受的分配转移。重要的是,我们发现计划和预测模块的联合培训比在开环和闭环测试中使用单独的训练有素的预测模块进行计划要比计划更好。此外,消融研究表明,框架中的可学习组件对于确保计划稳定性和性能至关重要。
translated by 谷歌翻译
游戏理论运动计划者是控制多个高度交互式机器人系统的有效解决方案。大多数现有的游戏理论规划师不切实际地假设所有代理都可以使用先验的目标功能知识。为了解决这个问题,我们提出了一个容忍度的退缩水平游戏理论运动计划者,该计划者利用了与意图假设的可能性相互交流。具体而言,机器人传达其目标函数以结合意图。离散的贝叶斯过滤器旨在根据观察到的轨迹与传达意图的轨迹之间的差异来实时推断目标。在仿真中,我们考虑了三种安全至关重要的自主驾驶场景,即超车,车道交叉和交叉点,以证明我们计划者在存在通信网络中存在错误的传输情况下利用替代意图假设来产生安全轨迹的能力。
translated by 谷歌翻译