配备了广泛的传感器,主要的自主驾驶解决方案正变得越来越面向安全系统设计。尽管这些传感器已经奠定了坚实的基础,但最新的大多数生产解决方案仍然属于L2阶段。其中,Comma.ai出现在我们的视线中,声称一个售价999美元的售后设备装有单个相机和内部的木板具有处理L2场景的能力。该项目与Comma.ai发布的整个系统的开源软件一起名为OpenPilot。可能吗?如果是这样,它如何成为可能?考虑到好奇心,我们深入研究了OpenPilot,并得出结论,其成功的关键是端到端系统设计,而不是传统的模块化框架。该模型被简要介绍为SuperCombo,它可以从单眼输入中预测自我车辆的未来轨迹和其他道路语义。不幸的是,无法公开提供所有这些工作的培训过程和大量数据。为了进行深入的调查,我们尝试重新实现培训细节并测试公共基准测试的管道。这项工作中提出的重构网络称为“ op-Deepdive”。为了将我们的版本与原始SuperCombo进行公平的比较,我们引入了双模型部署方案,以测试现实世界中的驾驶性能。 Nuscenes,Comma2K19,Carla和内部现实场景的实验结果证明了低成本设备确实可以实现大多数L2功能,并且与原始的SuperCombo模型相当。在本报告中,我们想分享我们的最新发现,并阐明了从工业产品级别方面进行端到端自动驾驶的新观点,并有可能激发社区继续提高绩效。我们的代码,基准在https://github.com/openperceptionx/openpilot-deepdive上。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.
translated by 谷歌翻译
在本文中,我们提出了一个系统,以培训不仅从自我车辆收集的经验,而且还观察到的所有车辆的经验。该系统使用其他代理的行为来创建更多样化的驾驶场景,而无需收集其他数据。从其他车辆学习的主要困难是没有传感器信息。我们使用一组监督任务来学习一个中间表示,这是对控制车辆的观点不变的。这不仅在训练时间提供了更丰富的信号,而且还可以在推断过程中进行更复杂的推理。了解所有车辆驾驶如何有助于预测测试时的行为,并避免碰撞。我们在闭环驾驶模拟中评估该系统。我们的系统的表现优于公共卡拉排行榜上的所有先前方法,较大的利润率将驾驶得分提高了25,路线完成率提高了24分。我们的方法赢得了2021年的卡拉自动驾驶挑战。代码和数据可在https://github.com/dotchen/lav上获得。
translated by 谷歌翻译
许多现有的自动驾驶范式涉及多个任务的多个阶段离散管道。为了更好地预测控制信号并增强用户安全性,希望从联合时空特征学习中受益的端到端方法是可取的。尽管基于激光雷达的输入或隐式设计有一些开创性的作品,但在本文中,我们在可解释的基于视觉的设置中提出了问题。特别是,我们提出了一种空间性特征学习方案,以同时同时进行感知,预测和计划任务的一组更具代表性的特征,称为ST-P3。具体而言,提出了一种以自我为中心的积累技术来保留3D空间中的几何信息,然后才能感知鸟类视图转化。设计了双重途径建模,以考虑将来的预测,以将过去的运动变化考虑到过去。引入了基于时间的精炼单元,以弥补识别基于视觉的计划的元素。据我们所知,我们是第一个系统地研究基于端视力的自主驾驶系统的每个部分。我们在开环Nuscenes数据集和闭环CARLA模拟上对以前的最先进的方法进行基准测试。结果显示了我们方法的有效性。源代码,模型和协议详细信息可在https://github.com/openperceptionx/st-p3上公开获得。
translated by 谷歌翻译
当前的端到端自动驾驶方法要么基于计划的轨迹运行控制器,要么直接执行控制预测,这已经跨越了两条单独研究的研究线。本文看到了它们彼此的潜在相互利益,主动探讨了这两个发展良好的世界的结合。具体而言,我们的集成方法分别有两个用于轨迹计划和直接控制的分支。轨迹分支可以预测未来的轨迹,而控制分支则涉及一种新颖的多步预测方案,以便可以将当前动作与未来状态之间的关系进行推理。连接了两个分支,因此控制分支在每个时间步骤中从轨迹分支接收相应的指导。然后将来自两个分支的输出融合以实现互补的优势。我们的结果在闭环城市驾驶环境中进行了评估,并使用CARLA模拟器具有挑战性的情况。即使有了单眼相机的输入,建议的方法在官方Carla排行榜上排名第一$,超过了其他具有多个传感器或融合机制的复杂候选人。源代码和数据将在https://github.com/openperceptionx/tcp上公开提供。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
Multi-modal fusion is a basic task of autonomous driving system perception, which has attracted many scholars' interest in recent years. The current multi-modal fusion methods mainly focus on camera data and LiDAR data, but pay little attention to the kinematic information provided by the bottom sensors of the vehicle, such as acceleration, vehicle speed, angle of rotation. These information are not affected by complex external scenes, so it is more robust and reliable. In this paper, we introduce the existing application fields of vehicle bottom information and the research progress of related methods, as well as the multi-modal fusion methods based on bottom information. We also introduced the relevant information of the vehicle bottom information data set in detail to facilitate the research as soon as possible. In addition, new future ideas of multi-modal fusion technology for autonomous driving tasks are proposed to promote the further utilization of vehicle bottom information.
translated by 谷歌翻译
最近,自主驾驶社会上有许多进展,吸引了学术界和工业的很多关注。然而,现有的作品主要专注于汽车,自动驾驶卡车算法和模型仍然需要额外的开发。在本文中,我们介绍了智能自动驾驶卡车系统。我们所呈现的系统由三个主要组成部分组成,1)一个现实的交通仿真模块,用于在测试场景中产生现实的交通流量,2)设计和评估了在现实世界部署中模仿实际卡车响应的高保真卡车模型,3 )具有基于学习的决策算法和多模轨迹策划仪的智能计划模块,考虑到卡车的约束,道路斜率变化和周围的交通流量。我们为每个组分单独提供定量评估,以证明每个部件的保真度和性能。我们还将我们的建议系统部署在真正的卡车上,并进行真实的世界实验,表明我们的系统能力缓解了SIM-TO-REAL差距。我们的代码可以在https://github.com/inceptioresearch/iits提供
translated by 谷歌翻译
在未来几十年中,自动驾驶将普遍存在。闲置在交叉点上提高自动驾驶的安全性,并通过改善交叉点的交通吞吐量来提高效率。在闲置时,路边基础设施通过卸载从车辆到路边基础设施的知觉和计划,在交叉路口远程驾驶自动驾驶汽车。为了实现这一目标,iDriving必须能够以全帧速率以较少100毫秒的尾声处理大量的传感器数据,而无需牺牲准确性。我们描述了算法和优化,使其能够使用准确且轻巧的感知组件实现此目标,该组件是从重叠传感器中得出的复合视图的原因,以及一个共同计划多个车辆的轨迹的计划者。在我们的评估中,闲置始终确保车辆的安全通过,而自动驾驶只能有27%的时间。与其他方法相比,闲置的等待时间还要低5倍,因为它可以实现无流量的交叉点。
translated by 谷歌翻译
最近已经提出了3D车道检测的方法,以解决许多自动驾驶场景(上坡/下坡,颠簸等)中不准确的车道布局问题。先前的工作在复杂的情况下苦苦挣扎,因为它们对前视图和鸟类视图(BEV)之间的空间转换以及缺乏现实数据集的简单设计。在这些问题上,我们介绍了Persformer:具有新型基于变压器的空间特征变换模块的端到端单眼3D车道检测器。我们的模型通过参考摄像头参数来参与相关的前视本地区域来生成BEV功能。 Persformer采用统一的2D/3D锚设计和辅助任务,以同时检测2D/3D车道,从而提高功能一致性并分享多任务学习的好处。此外,我们发布了第一个大型现实世界3D车道数据集之一:OpenLane,具有高质量的注释和场景多样性。 OpenLane包含200,000帧,超过880,000个实例级别的车道,14个车道类别,以及场景标签和封闭式对象注释,以鼓励开发车道检测和更多与工业相关的自动驾驶方法。我们表明,在新的OpenLane数据集和Apollo 3D Lane合成数据集中,Persformer在3D车道检测任务中的表现明显优于竞争基线,并且在OpenLane上的2D任务中也与最新的算法相当。该项目页面可在https://github.com/openperceptionx/persformer_3dlane上找到,OpenLane数据集可在https://github.com/openperceptionx/openlane上提供。
translated by 谷歌翻译
自主系统(AS)越来越多地提出或在安全关键(SC)应用中使用,例如公路车辆。许多这样的系统利用复杂的传感器套件和处理来提供场景理解,从而使“决策”(例如路径计划)提供了信息。传感器处理通常利用机器学习(ML),并且必须在具有挑战性的环境中工作,此外,ML算法具有已知的局限性,例如,对象分类中错误的负面因素或假阳性的可能性。为常规SC系统开发的完善的安全分析方法与AS使用的AS,ML或传感系统没有很好的匹配。本文提出了适应良好的安全分析方法的适应,以解决AS的传感系统的细节,包括解决环境效应和ML的潜在故障模式,并为选择特定的指南或提示集提供了理由。安全分析。它继续展示了如何使用分析结果来告知AS系统的设计和验证,并通过对移动机器人进行部分分析来说明新方法。本文中的插图主要基于光学传感,但是本文讨论了该方法对其他感应方式的适用性及其在更广泛的安全过程中的作用,以解决AS的整体功能
translated by 谷歌翻译
自治机器人目前是最受欢迎的人工智能问题之一,在过去十年中,从自动驾驶汽车和人形系统到交付机器人和无人机,这是一项最受欢迎的智能问题。部分问题是获得一个机器人,以模仿人类的感知,我们的视觉感,用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题,因此来自感知和视觉的观点来看,这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术,机器学习和各种算法来实现对环境感知的关注,使机器人理解环境或场景,移动,调整其轨迹并执行其任务(维护,探索,等。)无需人为干预。在这项工作中,我们从头开始开发一个小型自动车辆,能够仅使用视觉信息理解场景,通过工业环境导航,检测人员和障碍,或执行简单的维护任务。我们审查了基本问题的最先进问题,并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后,我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。
translated by 谷歌翻译
为了关注自动驾驶工具的点对点导航的任务,我们提出了一种新颖的深度学习模型,该模型接受了端到端和多任务学习的方式,以同时执行感知和控制任务。该模型用于通过按照全球规划器定义的一系列路线来安全地驱动自我车辆。模型的感知部分用于编码RGBD摄像机提供的高维观察数据,同时执行语义分割,语义深度云(SDC)映射以及交通灯状态和停止符号预测。然后,控制零件将解码编码的功能以及GPS和速度计提供的其他信息,以预测带有潜在特征空间的路点。此外,还采用了两名代理来处理这些输出,并制定控制策略,以确定转向,油门和制动的水平为最终动作。在Carla模拟器上评估该模型,其各种情况由正常的对抗情况和不同的风雨制成,以模仿现实世界中的情况。此外,我们对一些最近的模型进行了比较研究,以证明驾驶多个方面的性能是合理的。此外,我们还对SDC映射和多代理进行了消融研究,以了解其角色和行为。结果,即使参数和计算负载较少,我们的模型也达到了最高的驾驶得分。为了支持未来的研究,我们可以在https://github.com/oskarnatan/end-to-end-drive上分享我们的代码。
translated by 谷歌翻译
仿真是对机器人系统(例如自动驾驶汽车)进行扩展验证和验证的关键。尽管高保真物理和传感器模拟取得了进步,但在模拟道路使用者的现实行为方面仍然存在一个危险的差距。这是因为,与模拟物理和图形不同,设计人类行为的第一个原理模型通常是不可行的。在这项工作中,我们采用了一种数据驱动的方法,并提出了一种可以学会从现实世界驱动日志中产生流量行为的方法。该方法通过将交通仿真问题分解为高级意图推理和低级驾驶行为模仿,通过利用驾驶行为的双层层次结构来实现高样本效率和行为多样性。该方法还结合了一个计划模块,以获得稳定的长马行为。我们从经验上验证了我们的方法,即交通模拟(位)的双层模仿,并具有来自两个大规模驾驶数据集的场景,并表明位表明,在现实主义,多样性和长途稳定性方面可以达到平衡的交通模拟性能。我们还探索了评估行为现实主义的方法,并引入了一套评估指标以进行交通模拟。最后,作为我们的核心贡献的一部分,我们开发和开源一个软件工具,该工具将跨不同驱动数据集的数据格式统一,并将现有数据集将场景转换为交互式仿真环境。有关其他信息和视频,请参见https://sites.google.com/view/nvr-bits2022/home
translated by 谷歌翻译
具有自动化和连通性的赋予,连接和自动化的车辆旨在成为合作驾驶自动化的革命性推动者。然而,骑士需要对周围环境的高保真感知信息,但从各种车载传感器以及车辆到所有的通信(v2x)通信中都可以昂贵。因此,通过具有成本效益的平台基于高保真传感器的真实感知信息对于启用与CDA相关的研究(例如合作决策或控制)至关重要。大多数针对CAVS的最先进的交通模拟研究都通过直接呼吁对象的内在属性来依赖情况 - 意识信息,这阻碍了CDA算法评估的可靠性和保真度。在这项研究中,\ textit {网络移动镜(CMM)}共模拟平台设计用于通过提供真实感知信息来启用CDA。 \ textit {cmm}共模拟平台可以通过高保真传感器感知系统和具有实时重建系统的网络世界模仿现实世界。具体而言,现实世界的模拟器主要负责模拟交通环境,传感器以及真实的感知过程。 Mirror-World Simulator负责重建对象,并将其信息作为模拟器的内在属性,以支持CD​​A算法的开发和评估。为了说明拟议的共模拟平台的功能,将基于路边的激光雷达的车辆感知系统原型作为研究案例。特定的流量环境和CDA任务是为实验设计的,其结果得到了证明和分析以显示平台的性能。
translated by 谷歌翻译
自动化驾驶系统(ADSS)近年来迅速进展。为确保这些系统的安全性和可靠性,在未来的群心部署之前正在进行广泛的测试。测试道路上的系统是最接近真实世界和理想的方法,但它非常昂贵。此外,使用此类现实世界测试覆盖稀有角案件是不可行的。因此,一种流行的替代方案是在一些设计精心设计的具有挑战性场景中评估广告的性能,A.k.a.基于场景的测试。高保真模拟器已广泛用于此设置中,以最大限度地提高测试的灵活性和便利性 - 如果发生的情况。虽然已经提出了许多作品,但为测试特定系统提供了各种框架/方法,但这些作品之间的比较和连接仍然缺失。为了弥合这一差距,在这项工作中,我们在高保真仿真中提供了基于场景的测试的通用制定,并对现有工作进行了文献综述。我们进一步比较了它们并呈现开放挑战以及潜在的未来研究方向。
translated by 谷歌翻译
这项工作提出了一种新的方法,可以使用有效的鸟类视图表示和卷积神经网络在高速公路场景中预测车辆轨迹。使用基本的视觉表示,很容易将车辆位置,运动历史,道路配置和车辆相互作用轻松包含在预测模型中。 U-NET模型已被选为预测内核,以使用图像到图像回归方法生成场景的未来视觉表示。已经实施了一种方法来从生成的图形表示中提取车辆位置以实现子像素分辨率。该方法已通过预防数据集(一个板载传感器数据集)进行了培训和评估。已经评估了不同的网络配置和场景表示。这项研究发现,使用线性终端层和车辆的高斯表示,具有6个深度水平的U-NET是最佳性能配置。发现使用车道标记不会改善预测性能。平均预测误差为0.47和0.38米,对于纵向和横向坐标的最终预测误差分别为0.76和0.53米,预测轨迹长度为2.0秒。与基线方法相比,预测误差低至50%。
translated by 谷歌翻译
在这项工作中,我们提出了世界上第一个基于闭环ML的自动驾驶计划基准。虽然存在基于ML的ML的越来越多的ML的议员,但缺乏已建立的数据集和指标限制了该领域的进展。自主车辆运动预测的现有基准专注于短期运动预测,而不是长期规划。这导致了以前的作品来使用基于L2的度量标准的开放循环评估,这不适合公平地评估长期规划。我们的基准通过引入大规模驾驶数据集,轻量级闭环模拟器和特定于运动规划的指标来克服这些限制。我们提供高质量的数据集,在美国和亚洲的4个城市提供1500h的人类驾驶数据,具有广泛不同的交通模式(波士顿,匹兹堡,拉斯维加斯和新加坡)。我们将提供具有无功代理的闭环仿真框架,并提供一系列一般和方案特定的规划指标。我们计划在Neurips 2021上发布数据集,并在2022年初开始组织基准挑战。
translated by 谷歌翻译
自动驾驶在过去十年中取得了重大的研究和发展中的重要里程碑。在道路上的自动车辆部署时,对该领域的兴趣越来越令人兴趣,承诺更安全,更生态的运输系统。随着计算强大的人工智能(AI)技术的兴起,自动车辆可以用高精度感测它们的环境,进行安全的实时决策,并在没有人类干预的情况下更可靠地运行。然而,在现有技术中,人类智能决策通常不可能理解,这种缺陷阻碍了这种技术在社会上可接受。因此,除了制造安全的实时决策之外,自治车辆的AI系统还需要解释如何构建这些决策,以便在许多司法管辖区兼容监管。我们的研究在开发可解释的人工智能(XAI)的自治车辆方法上阐明了全面的光芒。特别是,我们做出以下贡献。首先,我们在最先进的自主车辆行业的解释方面彻底概述了目前的差距。然后,我们显示了该领域的解释和解释接收器的分类。第三,我们为端到端自主驾驶系统的架构提出了一个框架,并证明了Xai在调试和调节这些系统中的作用。最后,作为未来的研究方向,我们提供了XAI自主驾驶方法的实地指南,可以提高运营安全性和透明度,以实现监管机构,制造商和所有参与利益相关者的公共批准。
translated by 谷歌翻译