交通模拟器是运输系统运营和计划中的重要组成部分。常规的交通模拟器通常采用校准的物理跟踪模型来描述车辆的行为及其与交通环境的相互作用。但是,没有普遍的物理模型可以准确地预测不同情况下车辆行为的模式。鉴于交通动态的非平稳性质,固定的物理模型在复杂的环境中往往不太有效。在本文中,我们将流量模拟作为一个反向加强学习问题,并提出一个参数共享对抗性逆增强学习模型,以进行动态射击模拟学习。我们提出的模型能够模仿现实世界中车辆的轨迹,同时恢复奖励功能,从而揭示了车辆的真实目标,这是不同动态的不变。关于合成和现实世界数据集的广泛实验表明,与最先进的方法相比,我们方法的出色性能及其对流量变化动态的鲁棒性。
translated by 谷歌翻译
在自主驾驶场中,人类知识融合到深增强学习(DRL)通常基于在模拟环境中记录的人类示范。这限制了在现实世界交通中的概率和可行性。我们提出了一种两级DRL方法,从真实的人类驾驶中学习,实现优于纯DRL代理的性能。培训DRL代理商是在Carla的框架内完成了机器人操作系统(ROS)。对于评估,我们设计了不同的真实驾驶场景,可以将提出的两级DRL代理与纯DRL代理进行比较。在从人驾驶员中提取“良好”行为之后,例如在信号交叉口中的预期,该代理变得更有效,并且驱动更安全,这使得这种自主代理更适应人体机器人交互(HRI)流量。
translated by 谷歌翻译
Imitation learning (IL) is a simple and powerful way to use high-quality human driving data, which can be collected at scale, to identify driving preferences and produce human-like behavior. However, policies based on imitation learning alone often fail to sufficiently account for safety and reliability concerns. In this paper, we show how imitation learning combined with reinforcement learning using simple rewards can substantially improve the safety and reliability of driving policies over those learned from imitation alone. In particular, we use a combination of imitation and reinforcement learning to train a policy on over 100k miles of urban driving data, and measure its effectiveness in test scenarios grouped by different levels of collision risk. To our knowledge, this is the first application of a combined imitation and reinforcement learning approach in autonomous driving that utilizes large amounts of real-world human driving data.
translated by 谷歌翻译
对自动驾驶车辆性能的定量评估,交通模拟引起了很多兴趣。为了使模拟器成为有价值的测试工作台,要求对现场每个交通代理的驾驶策略动画,就像人类在保持最小安全保证的同时一样。从记录的人类驾驶数据或通过强化学习中学习交通代理的驾驶政策似乎是在不受控制的交叉路口或回旋处中产生现实且高度互动的交通状况的有吸引力的解决方案。在这项工作中,我们表明,在学习驾驶政策时模仿人类驾驶与保持安全性之间存在权衡。我们通过比较应用于驾驶任务时的各种模仿学习和强化学习算法的性能来做到这一点。我们还提出了一种多物镜学习算法(MOPPO),可以共同提高两个目标。我们在从交互数据集中提取的高度互动驾驶方案上测试驾驶政策,以评估它们的表现如何。
translated by 谷歌翻译
自动驾驶在过去二十年中吸引了重要的研究兴趣,因为它提供了许多潜在的好处,包括释放驾驶和减轻交通拥堵的司机等。尽管进展有前途,但车道变化仍然是自治车辆(AV)的巨大挑战,特别是在混合和动态的交通方案中。最近,强化学习(RL)是一种强大的数据驱动控制方法,已被广泛探索了在令人鼓舞的效果中的通道中的车道改变决策。然而,这些研究的大多数研究专注于单车展,并且在多个AVS与人类驱动车辆(HDV)共存的情况下,道路变化已经受到稀缺的关注。在本文中,我们在混合交通公路环境中制定了多个AVS的车道改变决策,作为多功能增强学习(Marl)问题,其中每个AV基于相邻AV的动作使车道变化的决定和HDV。具体地,使用新颖的本地奖励设计和参数共享方案开发了一种多代理优势演员批评网络(MA2C)。特别是,提出了一种多目标奖励功能来纳入燃油效率,驾驶舒适度和自主驾驶的安全性。综合实验结果,在三种不同的交通密度和各级人类司机侵略性下进行,表明我们所提出的Marl框架在效率,安全和驾驶员舒适方面始终如一地优于几个最先进的基准。
translated by 谷歌翻译
本文解决了逆增强学习(IRL)的问题 - 从观察其行为中推断出代理的奖励功能。 IRL可以为学徒学习提供可概括和紧凑的代表,并能够准确推断人的偏好以帮助他们。 %并提供更准确的预测。但是,有效的IRL具有挑战性,因为许多奖励功能可以与观察到的行为兼容。我们专注于如何利用先前的强化学习(RL)经验,以使学习这些偏好更快,更高效。我们提出了IRL算法基础(通过样本中的连续功能意图推断行为获取行为),该算法利用多任务RL预培训和后继功能,使代理商可以为跨越可能的目标建立强大的基础,从而跨越可能的目标。给定的域。当仅接触一些专家演示以优化新颖目标时,代理商会使用其基础快速有效地推断奖励功能。我们的实验表明,我们的方法非常有效地推断和优化显示出奖励功能,从而准确地从少于100个轨迹中推断出奖励功能。
translated by 谷歌翻译
自动驾驶汽车和自主驾驶研究一直受到现代人工智能应用中主要有希望的前景。根据先进的驾驶员辅助系统(ADAS)的演变,自动驾驶车辆和自主驱动系统的设计变得复杂和安全至关重要。通常,智能系统同时和有效地激活ADAS功能。因此,必须考虑可靠的ADAS功能协调,安全地控制驱动系统。为了处理这个问题,本文提出了一种随机的对抗性模仿学习(RAIL)算法。铁路是一种新的无衍生仿制学习方法,用于具有各种ADAS功能协调的自主驾驶;因此,它模仿决策者的运作,可以使用各种ADAS功能控制自动驾驶。该方法能够培训涉及激光雷达数据的决策者,并控制多车道复合道环境中的自主驾驶。基于仿真的评估验证了所提出的方法实现了所需的性能。
translated by 谷歌翻译
仅国家模仿学习的最新进展将模仿学习的适用性扩展到现实世界中的范围,从而减轻了观察专家行动的需求。但是,现有的解决方案只学会从数据中提取州对行动映射策略,而无需考虑专家如何计划到目标。这阻碍了利用示威游行并限制政策的灵活性的能力。在本文中,我们介绍了解耦政策优化(DEPO),该策略优化(DEPO)明确将策略脱离为高级状态计划者和逆动力学模型。借助嵌入式的脱钩策略梯度和生成对抗训练,DEPO可以将知识转移到不同的动作空间或状态过渡动态,并可以将规划师推广到无示威的状态区域。我们的深入实验分析表明,DEPO在学习最佳模仿性能的同时学习通用目标状态计划者的有效性。我们证明了DEPO通过预训练跨任务转移的吸引力,以及与各种技能共同培训的潜力。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
在未来几年和几十年中,自动驾驶汽车(AV)将变得越来越普遍,为更安全,更方便的旅行提供了新的机会,并可能利用自动化和连接性的更智能的交通控制方法。跟随汽车是自动驾驶中的主要功能。近年来,基于强化学习的汽车已受到关注,目的是学习和达到与人类相当的绩效水平。但是,大多数现有的RL方法将汽车模拟为单方面问题,仅感知前方的车辆。然而,最近的文献,王和霍恩[16]表明,遵循的双边汽车考虑了前方的车辆,而后面的车辆表现出更好的系统稳定性。在本文中,我们假设可以使用RL学习这款双边汽车,同时学习其他目标,例如效率最大化,混蛋最小化和安全奖励,从而导致学识渊博的模型超过了人类驾驶。我们通过将双边信息集成到基于双边控制模型(BCM)的CAR遵循控制的状态和奖励功能的情况下,提出并引入了遵循控制遵循的汽车的深钢筋学习(DRL)框架。此外,我们使用分散的多代理增强学习框架来为每个代理生成相​​应的控制动作。我们的仿真结果表明,我们学到的政策比(a)汽车间的前进方向,(b)平均速度,(c)混蛋,(d)碰撞时间(TTC)和(e)的速度更好。字符串稳定性。
translated by 谷歌翻译
离线强化学习(RL)为从离线数据提供学习决策的框架,因此构成了现实世界应用程序作为自动驾驶的有希望的方法。自动驾驶车辆(SDV)学习策略,这甚至可能甚至优于次优数据集中的行为。特别是在安全关键应用中,作为自动化驾驶,解释性和可转换性是成功的关键。这激发了使用基于模型的离线RL方法,该方法利用规划。然而,目前的最先进的方法往往忽视了多种子体系统随机行为引起的溶液不确定性的影响。这项工作提出了一种新的基于不确定感知模型的离线强化学习利用规划(伞)的新方法,其解决了以可解释的基于学习的方式共同的预测,规划和控制问题。训练有素的动作调节的随机动力学模型捕获了交通场景的独特不同的未来演化。分析为我们在挑战自动化驾驶模拟中的效力和基于现实世界的公共数据集的方法提供了经验证据。
translated by 谷歌翻译
解释性对于自主车辆和其他机器人系统在操作期间与人类和其他物体相互作用至关重要。人类需要了解和预测机器采取的行动,以获得可信赖和安全的合作。在这项工作中,我们的目标是开发一个可解释的模型,可以与人类领域知识和模型的固有因果关系一致地产生解释。特别是,我们专注于自主驾驶,多代理交互建模的基本构建块。我们提出了接地的关系推理(GRI)。它通过推断代理关系的相互作用图来模拟交互式系统的底层动态。我们通过将关系潜空间接地为具有专家域知识定义的语义互动行为来确保语义有意义的交互图。我们展示它可以在模拟和现实世界中建模交互式交通方案,并生成解释车辆行为的语义图。
translated by 谷歌翻译
在自主驾驶的复杂情况下,培训多个代理商以进行安全和合作的控制是一个挑战。对于一小群汽车,本文提出了麻木,这是一种培训多个代理商的新方法。 Lepus采用了一种纯粹的合作方式来培训多个代理,以策略网络的共享参数和多个代理的共享奖励函数为特色。特别是,Lepus通过对抗过程预先培训政策网络,提高其协作决策能力并进一步促进汽车驾驶的稳定性。此外,由于减轻了稀疏奖励的问题,Lepus通过结合随机网络和蒸馏网络从专家轨迹中学习了近似奖励功能。我们在Madras模拟平台上进行了广泛的实验。实验结果表明,通过麻法训练的多种代理可以避免同时驾驶时尽可能多的碰撞并超越其他四种方法,即DDPG-FDE,PSDDPG,MADDPG和MAGAIL和MAGAIL(DDPG)(DDPG)在稳定性方面。
translated by 谷歌翻译
我们研究了离线模仿学习(IL)的问题,在该问题中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。取而代之的是,该代理来自次优行为的补充离线数据集。解决此问题的先前工作要么要求专家数据占据离线数据集的大部分比例,要么需要学习奖励功能并在以后执行离线加强学习(RL)。在本文中,我们旨在解决问题,而无需进行奖励学习和离线RL培训的其他步骤,当时示范包含大量次优数据。基于行为克隆(BC),我们引入了一个额外的歧视者,以区分专家和非专家数据。我们提出了一个合作框架,以增强这两个任务的学习,基于此框架,我们设计了一种新的IL算法,其中歧视者的输出是BC损失的权重。实验结果表明,与基线算法相比,我们提出的算法可获得更高的回报和更快的训练速度。
translated by 谷歌翻译
Designing a safe and human-like decision-making system for an autonomous vehicle is a challenging task. Generative imitation learning is one possible approach for automating policy-building by leveraging both real-world and simulated decisions. Previous work that applies generative imitation learning to autonomous driving policies focuses on learning a low-level controller for simple settings. However, to scale to complex settings, many autonomous driving systems combine fixed, safe, optimization-based low-level controllers with high-level decision-making logic that selects the appropriate task and associated controller. In this paper, we attempt to bridge this gap in complexity by employing Safety-Aware Hierarchical Adversarial Imitation Learning (SHAIL), a method for learning a high-level policy that selects from a set of low-level controller instances in a way that imitates low-level driving data on-policy. We introduce an urban roundabout simulator that controls non-ego vehicles using real data from the Interaction dataset. We then demonstrate empirically that even with simple controller options, our approach can produce better behavior than previous approaches in driver imitation that have difficulty scaling to complex environments. Our implementation is available at https://github.com/sisl/InteractionImitation.
translated by 谷歌翻译
自动驾驶汽车的一个主要挑战是安全,平稳地与其他交通参与者进行互动。处理此类交通交互的一种有希望的方法是为自动驾驶汽车配备与感知的控制器(IACS)。这些控制器预测,周围人类驾驶员将如何根据驾驶员模型对自动驾驶汽车的行为做出响应。但是,很少验证IACS中使用的驱动程序模型的预测有效性,这可能会限制IACS在简单的模拟环境之外的交互功能。在本文中,我们认为,除了评估IAC的互动能力外,还应在自然的人类驾驶行为上验证其潜在的驱动器模型。我们为此验证提出了一个工作流程,其中包括基于方案的数据提取和基于人为因素文献的两阶段(战术/操作)评估程序。我们在一项案例研究中证明了该工作流程,该案例研究对现有IAC复制的基于反向的基于学习的驱动程序模型。该模型仅在40%的预测中显示出正确的战术行为。该模型的操作行为与观察到的人类行为不一致。案例研究表明,有原则的评估工作流程是有用和需要的。我们认为,我们的工作流将支持为将来的自动化车辆开发适当的驾驶员模型。
translated by 谷歌翻译
仿制学习(IL)是一个框架,了解从示范中模仿专家行为。最近,IL显示了高维和控制任务的有希望的结果。然而,IL通常遭受环境互动方面的样本低效率,这严重限制了它们对模拟域的应用。在工业应用中,学习者通常具有高的相互作用成本,与环境的互动越多,对环境的损害越多,学习者本身就越多。在本文中,我们努力通过引入逆钢筋学习的新颖方案来提高样本效率。我们的方法,我们调用\ texit {model redion函数基础的模仿学习}(mrfil),使用一个集合动态模型作为奖励功能,是通过专家演示培训的内容。关键的想法是通过在符合专家示范分布时提供积极奖励,为代理商提供与漫长地平线相匹配的演示。此外,我们展示了新客观函数的收敛保证。实验结果表明,与IL方法相比,我们的算法达到了竞争性能,并显着降低了环境交互。
translated by 谷歌翻译
Current approaches to multi-agent cooperation rely heavily on centralized mechanisms or explicit communication protocols to ensure convergence. This paper studies the problem of distributed multi-agent learning without resorting to centralized components or explicit communication. It examines the use of distribution matching to facilitate the coordination of independent agents. In the proposed scheme, each agent independently minimizes the distribution mismatch to the corresponding component of a target visitation distribution. The theoretical analysis shows that under certain conditions, each agent minimizing its individual distribution mismatch allows the convergence to the joint policy that generated the target distribution. Further, if the target distribution is from a joint policy that optimizes a cooperative task, the optimal policy for a combination of this task reward and the distribution matching reward is the same joint policy. This insight is used to formulate a practical algorithm (DM$^2$), in which each individual agent matches a target distribution derived from concurrently sampled trajectories from a joint expert policy. Experimental validation on the StarCraft domain shows that combining (1) a task reward, and (2) a distribution matching reward for expert demonstrations for the same task, allows agents to outperform a naive distributed baseline. Additional experiments probe the conditions under which expert demonstrations need to be sampled to obtain the learning benefits.
translated by 谷歌翻译
安全驾驶需要人类和智能代理的多种功能,例如无法看到环境的普遍性,对周围交通的安全意识以及复杂的多代理设置中的决策。尽管强化学习取得了巨大的成功(RL),但由于缺乏集成的环境,大多数RL研究工作分别研究了每个能力。在这项工作中,我们开发了一个名为MetAdrive的新驾驶模拟平台,以支持对机器自治的可概括增强学习算法的研究。 Metadrive具有高度的组成性,可以从程序生成和实际数据导入的实际数据中产生无限数量的不同驾驶场景。基于Metadrive,我们在单一代理和多代理设置中构建了各种RL任务和基线,包括在看不见的场景,安全探索和学习多机构流量的情况下进行基准标记。对程序生成的场景和现实世界情景进行的概括实验表明,增加训练集的多样性和大小会导致RL代理的推广性提高。我们进一步评估了元数据环境中各种安全的增强学习和多代理增强学习算法,并提供基准。源代码,文档和演示视频可在\ url {https://metadriverse.github.io/metadrive}上获得。
translated by 谷歌翻译
自驱动粒子(SDP)描述了日常生活中常见的一类常见的多种子体系统,例如植绒鸟类和交通流量。在SDP系统中,每个代理商都追求自己的目标,并不断改变其与附近代理商的合作或竞争行为。手动设计用于此类SDP系统的控制器是耗时的,而产生的紧急行为往往是不可逼真的,也不是更广泛的。因此,SDP系统的现实模拟仍然具有挑战性。强化学习提供了一种吸引人的替代方案,用于自动化SDP控制器的开发。然而,以前的多档强化学习(Marl)方法将代理人定义为手头之前的队友或敌人,这未能捕获每个代理的作用的SDP的本质,即使在一个集中也变化或竞争。为了用Marl模拟SDP,一个关键挑战是协调代理的行为,同时仍然最大化个人目标。将交通仿真作为测试床,在这项工作中,我们开发了一种称为协调政策优化(Copo)的新型MARL方法,该方法包括社会心理学原理来学习SDP的神经控制器。实验表明,与各种度量标准的Marl基线相比,该方法可以实现优越的性能。明显的车辆明显地表现出复杂和多样化的社会行为,以提高整个人口的性能和安全性。演示视频和源代码可用于:https://decisionforce.github.io/copo/
translated by 谷歌翻译