工程高性能赛车需要使用现实世界测试或驾驶员模拟直接考虑人类驾驶员。除此之外,具有类似人类的赛车模型的离线模拟可以使该车辆开发过程更加有效,但由于各种挑战而难以获得。通过这项工作,我们打算更好地了解赛车驾驶员的行为,并根据模仿学习引入自适应的人类竞赛驱动程序模型。使用现有的发现和与专业赛车工程师的访谈,我们确定了基本适应机制,以及驾驶员如何学习在新轨道上优化圈速。随后,我们使用这些见解来开发概率驱动器建模方法的概括和适应技术,并使用专业赛车驱动程序和最先进的赛车模拟器的数据对其进行评估。我们表明,我们的框架可以在几乎像人类的表现上在看不见的赛道上创建现实的驾驶线路分布。此外,我们的驾驶员模型可以通过圈速优化其驾驶圈,从而在实现更快的圈速时纠正以前的圈驾驶错误。这项工作有助于对人类驾驶员的更好理解和建模,旨在加快现代车辆开发过程中的仿真方法,并可能支持自动驾驶和赛车技术。
translated by 谷歌翻译
本文探讨了强化学习(RL)模型用于自动赛车的使用。与安全车是头等大事的乘用车相反,赛车的目的是最大程度地减少单圈时间。我们将问题视为一项强化学习任务,其中包括由车辆遥测组成的多维输入和连续的动作空间。为了找出哪种RL方法更好地解决了问题,以及获得的模型是否推广到未知轨道上,我们将10种深层确定性策略梯度(DDPG)变体进行了两个实验:i)〜研究RL方法如何学习驱动驱动赛车和ii)研究学习方案如何影响模型的推广能力。我们的研究表明,接受RL训练的模型不仅能够比基线开源手工机器人更快地驾驶,而且还可以推广到未知轨道。
translated by 谷歌翻译
可靠地预测围绕自动赛车的参赛者车辆的动议对于有效和表现计划至关重要。尽管高度表现力,但深度神经网络是黑盒模型,使其在安全至关重要的应用(例如自动驾驶)中具有挑战性。在本文中,我们介绍了一种结构化的方式,以预测具有深神网络的对立赛车的运动。最终可能的输出轨迹集受到限制。因此,可以给出有关预测的质量保证。我们通过将模型与基于LSTM的编码器架构一起评估模型来报告该模型的性能,这些架构是从高保真硬件中获取的数据中获得的。拟议的方法的表现优于预测准确性的基线,但仍能履行质量保证。因此,该模型的强大现实应用已被证明。介绍的模型被部署在慕尼黑技术大学的Indy Automous Challenge 2021中。本研究中使用的代码可作为开放源软件提供,网址为www.github.com/tumftm/mixnet。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
尽管机器人学课程在高等教育方面已建立,但这些课程通常专注于理论,有时缺乏对开发,部署和将软件应用于真实硬件的技术的系统覆盖。此外,大多数用于机器人教学的硬件平台是针对中学水平的年轻学生的低级玩具。为了解决这一差距,开发了一个自动驾驶汽车硬件平台,称为第1 f1 f1tth,用于教授自动驾驶系统。本文介绍了以“赛车”和替换考试的竞赛为主题的各种教育水平教学模块和软件堆栈。第1辆车提供了一个模块化硬件平台及其相关软件,用于教授自动驾驶算法的基础知识。从基本的反应方法到高级计划算法,教学模块通过使用第1辆车的自动驾驶来增强学生的计算思维。第1辆汽车填补了研究平台和低端玩具车之间的空白,并提供了学习自主系统中主题的动手经验。多年的四所大学为他们的学期本科和研究生课程采用了教学模块。学生反馈用于分析第1个平台的有效性。超过80%的学生强烈同意,硬件平台和模块大大激发了他们的学习,而超过70%的学生强烈同意,硬件增强了他们对学科的理解。调查结果表明,超过80%的学生强烈同意竞争激励他们参加课程。
translated by 谷歌翻译
已经使用基于物理学的模型对非全面车辆运动进行了广泛的研究。使用这些模型时,使用线性轮胎模型来解释车轮/接地相互作用时的通用方法,因此可能无法完全捕获各种环境下的非线性和复杂动力学。另一方面,神经网络模型已在该域中广泛使用,证明了功能强大的近似功能。但是,这些黑盒学习策略完全放弃了现有的知名物理知识。在本文中,我们无缝将深度学习与完全不同的物理模型相结合,以赋予神经网络具有可用的先验知识。所提出的模型比大边距的香草神经网络模型显示出更好的概括性能。我们还表明,我们的模型的潜在特征可以准确地表示侧向轮胎力,而无需进行任何其他训练。最后,我们使用从潜在特征得出的本体感受信息开发了一种风险感知的模型预测控制器。我们在未知摩擦下的两个自动驾驶任务中验证了我们的想法,表现优于基线控制框架。
translated by 谷歌翻译
在本文中,我们使用人造风险领域的概念来预测人类操作员如何控制车辆以应对即将到来的道路情况。风险领域将非负风险措施分配给系统状态,以模拟该状态与违反安全财产的距离,例如击中障碍或离开道路。使用风险字段,我们构建了操作员的随机模型,该模型从状态映射到可能的行动。我们在驾驶任务上展示了我们的方法,其中要求人类受试者在逼真的驾驶模拟器中驾驶汽车,同时避免在道路上遇到障碍。我们表明,通过解决凸优化问题,可以获得驾驶数据最有可能的风险字段。接下来,我们将推断的风险领域应用于产生不同的驾驶行为,同时将预测的轨迹与地面真相测量进行比较。我们观察到,风险场在预测未来的轨迹分布方面非常出色,预测精度高达二十秒预测范围。同时,我们观察到一些挑战,例如无法说明驾驶员如何根据道路条件选择加速/减速。
translated by 谷歌翻译
这里,我们提出了一种新方法,在没有任何额外的平滑算法的模型预测路径积分控制(MPPI)任务中产生平滑控制序列。我们的方法有效地减轻了抽样中的喋喋不休,而MPPI的信息定位仍然是相同的。我们展示了具有不同算法的定量评估的挑战性自主驾驶任务中的提出方法。还提出了一种用于估算不同道路摩擦条件下的系统动态的神经网络车辆模型。我们的视频可以找到:\ url {https://youtu.be/o3nmi0ujfqg}。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
延迟在迅速变化的环境中运行的自主系统的危害安全性,例如在自动驾驶和高速赛车方面的交通参与者的非确定性。不幸的是,在传统的控制器设计或在物理世界中部署之前,通常不考虑延迟。在本文中,从非线性优化到运动计划和控制以及执行器引起的其他不可避免的延迟的计算延迟被系统地和统一解决。为了处理所有这些延迟,在我们的框架中:1)我们提出了一种新的过滤方法,而没有事先了解动态和干扰分布的知识,以适应,安全地估算时间变化的计算延迟; 2)我们为转向延迟建模驱动动力学; 3)所有约束优化均在强大的管模型预测控制器中实现。对于应用的优点,我们证明我们的方法适合自动驾驶和自动赛车。我们的方法是独立延迟补偿控制器的新型设计。此外,在假设无延迟作为主要控制器的学习控制器的情况下,我们的方法是主要控制器的安全保护器。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
然而,由于各种交通/道路结构方案以及人类驾驶员行为的长时间分布,自动驾驶的感应,感知和本地化取得了重大进展,因此,对于智能车辆来说,这仍然是一个持开放态度的挑战始终知道如何在有可用的传感 /感知 /本地化信息的道路上做出和执行最佳决定。在本章中,我们讨论了人工智能,更具体地说,强化学习如何利用运营知识和安全反射来做出战略性和战术决策。我们讨论了一些与强化学习解决方案的鲁棒性及其对自动驾驶驾驶策略的实践设计有关的具有挑战性的问题。我们专注于在高速公路上自动驾驶以及增强学习,车辆运动控制和控制屏障功能的整合,从而实现了可靠的AI驾驶策略,可以安全地学习和适应。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
自主赛车的主要挑战之一是在复杂的赛车课程中设计用于运动计划的算法。先前已经提出了端到端轨迹合成,其中根据赛车的摄像头图像计算自我车辆的轨迹。这是在使用行为克隆技术的监督学习设置中完成的。在本文中,我们通过引入差异贝叶斯过滤(DBF)来解决轨迹合成行为克隆方法的局限性,该贝叶斯过滤(DBF)使用概率B \'ezier曲线作为推断基于贝叶斯推论的最佳自主赛车轨迹的基础。我们引入了轨迹采样机构,并将其与过滤过程相结合,该过程能够将汽车推向其物理驾驶极限。 DBF的性能在深度序列的一级模拟环境中进行了评估,并将其与其他几种轨迹合成方法以及人类驾驶性能进行了比较。 DBF通过将赛车推到其控制范围的同时,同时始终保持在轨道范围内,从而达到了最快的圈时间和最快的速度。
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译
本文介绍了一个自适应寻道纯追踪横向控制器,用于优化赛车度量,如圈时间,平均圈速度,以及从自主赛车场景中的参考轨迹的偏离。我们提出了一种贪婪的算法来计算和为每个航空点计算和分配用于改进种族度量的参考轨迹的纯Puppuit控制器的最佳保护距。我们使用基于ROS的自主赛车模拟器来评估自适应纯追踪算法,并将我们的方法与其他基于纯粹的横向控制器进行比较。我们还在使用F1 / 10自动raceCar上展示了我们在缩放实际测试的方法上。我们的方法导致自动racecar的赛车指标中的重大改善(20%)。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
在本文中,我们在局部不同的牵引条件下解决了处理限制的运动规划和控制问题。我们提出了一种新的解决方案方法,其中通过源自预测摩擦估计来表示预测地平线上的牵引变化。在后退地平线时装解决了约束的有限时间最佳控制问题,施加了这些时变的约束。此外,我们的方法具有集成的采样增强程序,该过程解决了对突然约束改变而产生的局部最小值的不可行性和敏感性的问题,例如,由于突然的摩擦变化。我们在一系列临界情景中验证了沃尔沃FH16重型车辆的提议算法。实验结果表明,通过确保计划运动的动态可行性,通过确保高牵引利用时,牵引自适应运动规划和控制改善了避免事故的车辆的能力,既通过适应低局部牵引。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
强化学习(RL)已证明可以在各种任务中达到超级人类水平的表现。但是,与受监督的机器学习不同,将其推广到各种情况的学习策略仍然是现实世界中最具挑战性的问题之一。自主驾驶(AD)提供了一个多方面的实验领域,因为有必要在许多变化的道路布局和可能的交通情况大量分布中学习正确的行为,包括个人驾驶员个性和难以预测的交通事件。在本文中,我们根据可配置,灵活和性能的代码库为AD提出了一个具有挑战性的基准。我们的基准测试使用了随机场景生成器的目录,包括用于道路布局和交通变化的多种机制,不同的数值和视觉观察类型,不同的动作空间,不同的车辆模型,并允许在静态场景定义下使用。除了纯粹的算法见解外,我们面向应用程序的基准还可以更好地理解设计决策的影响,例如行动和观察空间对政策的普遍性。我们的基准旨在鼓励研究人员提出能够在各种情况下成功概括的解决方案,这是当前RL方法失败的任务。基准的代码可在https://github.com/seawee1/driver-dojo上获得。
translated by 谷歌翻译