自动驾驶感知的最新进展是由深度学习驱动的。为了实现稳健和准确的场景理解,自动驾驶车辆通常配备有不同的传感器(例如,照相机,激光雷达,雷达),并且可以融合多种感测模态以利用它们的互补特性。在这种情况下,已经提出了许多用于深度多模态感知问题的方法。但是,网络架构设计没有一般性的指导方针,“融合什么”,“何时融合”和“如何融合”等问题依​​然存在。本文综述了自动驾驶中深度多模态目标检测和语义分割的方法论,并对其进行了系统的总结。为此,我们首先概述了测试车辆上的车载传感器,开放数据集和物体检测的背景信息。和自动驾驶研究的语义分割。然后,我们总结了融合方法,讨论了挑战和开放性问题。在附录中,我们提供了总结主题和方法的表格。我们还提供了一个交互式在线平台来浏览每个参考:https://multimodalperception.github.io。
translated by 谷歌翻译
Learning autonomous-driving policies is one of the most challenging but promising tasks for computer vision. Most researchers believe that future research and applications should combine cameras, video recorders and laser scanners to obtain comprehensive semantic understanding of real traffic. However, current approaches only learn from large-scale videos, due to the lack of benchmarks that consist of precise laser-scanner data. In this paper, we are the first to propose a LiDAR-Video dataset, which provides large-scale high-quality point clouds scanned by a Velodyne laser, videos recorded by a dashboard camera and standard drivers' behaviors. Extensive experiments demonstrate that extra depth information help networks to determine driving policies indeed.
translated by 谷歌翻译
本文提出了一种有效的自驾车LiDAR传感器物体检测模型,以及利用不同类型的LiDAR传感器对数据进行训练的策略。目前,用于LiDAR测量的物体检测的最高性能算法基于神经网络。使用监督学习训练这些网络需要大量注释的数据集。这导致了大多数使用神经网络从LiDAR点云进行物体检测的研究是在极少数公开可用的数据集和极少数传感器类型上完成的。本文使用现有的注释数据集来训练可以扫描的神经网络。与LiDAR传感器一起使用,该传感器的分辨率低于用于记录注释数据集的分辨率。这是通过基于较高分辨率数据集模拟来自较低分辨率LiDAR传感器的数据来完成的。此外,还提出了对使用LiDAR范围图像进行物体检测的模型的改进。结果在模拟感应数据和安装在研究车辆上的实际较低分辨率传感器的数据上得到验证。结果表明,该模型可以实时预测360 {\ deg}范围图像中的物体。
translated by 谷歌翻译
This paper overviews challenges in perception and decision making for intelligent, or highly automated, automotive vehicles. We illustrate our development of a complete perception and decision making system which addresses various challenges and propose an action planning method for highly automated vehicles which can merge into a roundabout. We use learning from demonstration to construct a classifier for high-level decision making, and develop a novel set of formulations that is suited to this challenging situation: multiple agents in a highly dynamic environment with interdependencies between agents, partial observability, and a limited amount of training data. Having limited amount of labeled training data is highly constraining, but a very real issue in real-world applications. We believe that our formulations are also well suited to other automated driving scenarios.
translated by 谷歌翻译
3D物体检测是自动驾驶中的基本任务。如果3D输入数据是从精确但昂贵的LiDAR技术中获得的,那么最近的技术具有高度准确的检测率。迄今为止,基于较便宜的单眼或立体图像数据的方法导致了低得多的精度 - 通常归因于基于差图像的深度估计的间隙。然而,在本文中,我们认为datarepresentation(而不是它的质量)占差异的大部分。考虑到卷积神经网络的内部工作,我们建议将基于图像的深度图转换为伪LiDAR表示 - 基本上模仿LiDAR信号。通过这种表示,我们可以应用不同的现有基于LiDAR的检测算法。在广受欢迎的KITTI基准测试中,我们的方法在现有的基于图像的性能方面取得了令人印象深刻的改进 - 提高了22%范围内物体的检测精度,与之前的22%相比以前所未有的74%。在提交时,对于基于立体图像的方法,算法在KITTI 3D对象检测排行板上保持最高条目。
translated by 谷歌翻译
随着学习算法和硬件开发的最新进展,自动驾驶汽车在良好驾驶条件下在结构化环境中运行时显示出前景。然而,对于具有高度不确定性的复杂,混乱和不可见的环境,自动驾驶系统仍经常表现出错误或意外的行为,这可能导致灾难性的后果。自主车辆应该理想地适应驾驶条件;虽然这可以通过多种途径实现,但作为一个能够以某种量化形式表征驾驶性能的第一步将是有益的。为此,本文旨在创建一个框架,用于调查可能影响驾驶性能的不同因素。此外,自适应驾驶系统适应任何驾驶条件的主要机制之一是能够从代表性场景中学习和概括。目前这样做的机器学习算法主要以监督的方式学习,因此需要足够的数据来进行稳健和有效的学习。因此,我们还对45个公共驾驶数据集进行了比较概述,这些数据集可以实现学习并发布此数据集索引:http://sites.google.com/view/driveability-survey-datasets。具体而言,我们根据用例对数据集进行分类,并突出显示捕获复杂危险驾驶条件的数据集,这些数据集可以更好地用于训练强大的驾驶模型。此外,通过讨论现有公共数据集未涵盖哪些驾驶场景以及哪些驾驶性因素需要更多调查和数据采集,本文旨在鼓励有针对性的数据集收集和提高不可驾驶性指标的提议,以提高自动驾驶汽车在恶劣环境中的稳健性。
translated by 谷歌翻译
我们介绍了精确合成图像和LiDAR(PreSIL)数据集的自主车辆感知。 Grand Theft Auto V(GTA V)是一款商业视频游戏,拥有大量详细的世界,具有逼真的图形,可提供广泛的数据采集环境。使用GTA V创建合成数据的自动驾驶的现有工作尚未发布其数据集并依赖于游戏光线投射功能,该功能将人们视为汽缸并且无法捕获超过30米的车辆。我们的工作在GTA V中创建了一个精确的LiDAR模拟器,它与所有实体的详细模型相冲突,无论其类型或位置如何。 PreSIL数据集包含50,000多个实例,包括具有全分辨率深度信息的高清图像,语义分割(图像),逐点分割(点云),地面点标签(点云)以及所有车辆和人员的详细注释。使用我们的框架收集其他数据是完全自动的,并且不需要任何类型的人工注释。我们通过显示当使用我们的数据预先训练最先进的3D物体检测网络时,KITTI 3D物体检测基准挑战的平均精度提高了5%来证明数据集的有效性。数据和代码可用于:http://uwaterloo.ca/waterloo-intelligent-systems-engineering-lab/projects/precise-synthetic-image-and-lidar-presil-dataset-autonomous
translated by 谷歌翻译
我们介绍了PointFusion,这是一种利用图像和3D点云信息的通用3D对象检测方法。与使用多阶段管道或保持传感器和数据集特定假设的现有方法不同,PointFusion在概念上简单且与应用程序无关。图像数据和原始点云数据分别由CNN和PointNet架构独立处理。然后由新的融合网络组合得到的输出,该网络使用输入的3D点作为空间锚点来预测多个3D盒子假设及其信心。我们在两个不同的数据集上评估PointFusion:KITTI数据集,其特点是利用激光雷达相机设置拍摄的场景,以及使用RGB-D相机捕捉室内环境的SUN-RGBD数据集。我们的模型是第一个能够在没有任何数据集特定的模型调整的情况下更好地或与最先进的数据集相媲美的模型。
translated by 谷歌翻译
我们提出了一个LIDAR仿真框架,可以根据LIDAR类型和位置自动生成3Dpoint云。带有地面真实语义标签的点云将被用作训练数据,以提高自动驾驶车辆的环境感知能力。与以前的模拟器不同,我们基于重新环境和实际交通流量生成点云。更具体地说,我们采用带摄像头的移动LIDAR扫描仪来捕捉真实世界的场景。我们的模拟框架的输入包括密集的3D点云和注册的彩色图像。自动识别和记录移动物体(例如汽车,行人,骑自行车者)。然后从输入点云中移除这些对象以恢复静态背景(例如,没有可移动对象的环境)。我们可以在静态背景中插入各种障碍物的合成模型,例如车辆和行人,以创建各种交通场景。一个新颖的LIDAR渲染器采用复合场景生成新的逼真LIDAR点,这些点已经在合成对象的点级注释。实验结果表明,我们的系统能够在不同的应用中将仿真与实际数据之间的性能差距缩小到1~6%,而对于模式调整,只有10%~20%的额外实际数据有助于优于全实数训练的原始模型。数据集。
translated by 谷歌翻译
Detection of non-motorized road users, such as cyclists and pedestrians, is a challenging problem in collision warning/collision avoidance (CW/CA) systems as direct information (e.g. location, speed, and class) cannot be obtained from such users. In this paper, we propose a fusion of LIDAR data and a deep learning-based computer vision algorithm, to substantially improve the detection of regions of interest (ROIs) and subsequent identification of road users. Experimental results on the KITTI object detection benchmark quantify the effectiveness of incorporating LIDAR data with region-based deep convolutional networks. Thus our work provides another step towards the goal of designing safe and smart transportation systems of the future.
translated by 谷歌翻译
避免碰撞是许多应用中的关键任务,例如ADAS(高级驾驶员辅助系统),工业自动化和机器人技术。在工业自动化环境中,某些区域应该禁止自动车辆以保护人员和高价值资产。可以通过映射(例如,GPS)或通过描绘进入区域的信标来隔离这些区域。我们提出了一种描绘方法,其中工业车辆利用LiDAR {(光探测和测距)}和单色摄像机来检测被动信标和模型预测控制以阻止车辆在受限空间中冒走。信标是标准的橙色交通锥,附有高度反射的垂直杆。 LiDAR可以很容易地检测到这些信标,但是由于其他反射表面(例如工人安全背心)而导致误报。在此,我们提出了一种通过深度学习方法将信标投射到摄像机图像中并使用从摄像机到LiDAR空间的神经网络学习投影验证检测来从LiDAR减少假阳性检测的方法。在密西西比州立大学高级车辆系统中心(CAVS)收集的实验数据显示了所提出的系统在保持真实检测同时减轻误报方面的有效性。
translated by 谷歌翻译
This paper describes the architecture and implementation of an autonomous passenger vehicle designed to navigate using locally perceived information in preference to potentially inaccurate or incomplete map data. The vehicle architecture was designed to handle the original DARPA Urban Challenge requirements of perceiving and navigating a road network with segments defined by sparse waypoints. The vehicle implementation includes many heterogeneous sensors with significant communications and computation bandwidth to capture and process high-resolution, high-rate sensor data. The output of the comprehensive environmental sensing subsystem is fed into a kinodynamic motion planning algorithm to generate all vehicle motion. The requirements of driving in lanes, three-point turns, parking, and maneuvering through obstacle fields are all generated with a unified planner. A key aspect of the planner is its use of closed-loop simulation in a rapidly exploring randomized trees algorithm, which can randomly explore the space while efficiently generating smooth trajectories in a dynamic and uncertain environment. The overall system was realized through the creation of a powerful new suite of software tools for message passing, logging, and visualization. These innovations provide a strong platform for future research in autonomous driving in global positioning system-denied and highly dynamic environments with poor a priori information. C 2008 Wiley Periodicals, Inc.
translated by 谷歌翻译
与2D对应物相比,迄今为止,原始和稀疏点云的3D物体检测得到了很大的改进。在本文中,我们提出了一个名为FVNet的新框架,用于3D前视图提议生成和点云对象检测。它包括两个阶段:生成前视图提议和3D边界框参数估计。我们首先将点云投影到圆柱面上,以生成保留丰富信息的前视特征图,而不是从相机图像或鸟瞰图中生成建议。然后,我们引入一个提议生成网络,以从生成的地图中预测3D区域提议,并从整个点云中进一步描述感兴趣的对象。最后,我们提出了另一个网络,从挤出的对象点中提取逐点特征,并在规范坐标中回归最终的3D边界框参数。我们的框架实现了每个pointcloud样本12ms的实时性能。关于3D检测基准KITTI的大量实验表明,所提出的架构在精度和参考时间方面优于最先进的技术,该技术将相机图像或点云作为输入。
translated by 谷歌翻译
This paper presents Autoware on Board, a new profile of Autoware, especially designed to enable autonomous vehicles with embedded systems. Autoware is a popular open-source software project that provides a complete set of self-driving modules, including localization, detection, prediction, planning, and control. We customize and extend the software stack of Autoware to accommodate embedded computing capabilities. In particular, we use DRIVE PX2 as a reference computing platform, which is manufactured by NVIDIA Corporation for development of autonomous vehicles, and evaluate the performance of Autoware on ARM-based embedded processing cores and Tegra-based embedded graphics processing units (GPUs). Given that low-power CPUs are often preferred over high-performance GPUs, from the functional safety point of view, this paper focuses on the application of Autoware on ARM cores rather than Tegra ones. However, some Autoware modules still need to be executed on the Tegra cores to achieve load balancing and real-time processing. The experimental results show that the execution latency imposed on the DRIVE PX2 platform is capped at about three times as much as that on a high-end laptop computer. We believe that this observed computing performance is even acceptable for real-world production of autonomous vehicles in certain scenarios.
translated by 谷歌翻译
我们调查了自DARPA挑战以来开发的自动驾驶汽车文献中发表的关于自动驾驶汽车的研究,这些汽车配备了可归类为SAE 3级或更高等级的自治系统。自动驾驶汽车自治系统的结构通常被组织到感知系统和决策系统中。感知系统通常分为许多子系统,负责执行诸如装配 - 驾驶 - 汽车定位,静态障碍物映射,移动障碍物检测和跟踪,道路测绘,交通信号检测和识别等任务。决策系统通常被划分为许多子系统,负责任务,例如路线规划,路径规划,行为选择,运动规划和控制。在本次调查中,我们展示了自动驾驶汽车自治系统的典型架构。我们还回顾了相关的感知和决策方法的研究。此外,我们还详细描述了UFES汽车自动化系统的架构,IARA 。最后,我们列出了由科技公司开发并在媒体上报道的着名的自主研究汽车。
translated by 谷歌翻译
我们提出AVOD,一种用于自动驾驶场景的聚合视图对象检测网络。所提出的神经网络架构使用LIDAR点云和RGB图像来生成由两个子网共享的特征:区域提议网络(RPN)和第二级检测器网络。所提出的RPN使用能够在高分辨率特征图上执行多模特征融合的新颖架构,以为道路场景中的多个对象类生成可靠的3D对象建议。使用这些提议,第二阶段检测网络执行精确定向的3D边界框回归和类别分类,以预测3D空间中对象的范围,方向和分类。我们提出的架构显示了KITTI 3D物体检测基准测试的最先进结果,同时实时运行且内存占用少,使其成为适合在自动驾驶车辆上部署的候选者。代码位于:https://github.com/kujason/avod
translated by 谷歌翻译
当前的自动驾驶架构给汽车中的图形处理单元(GPU)的信号处理带来了沉重的负担。这直接转化为电池消耗和低能效,是电动汽车的关键因素。这是由于捕获的视频和其他传感输入的高比特率,主要是由于光检测和测距(LiDAR)感知到汽车的顶部,这是当今自动车辆的基本特征。需要LiDAR来获得车辆AI的高精度地图以制定相关决策。然而,这仍然是汽车的一个非常有限的观点。即使在没有诸如Telsa等LiDAR的汽车的情况下也是如此。现有的激光雷达和相机具有有限的水平和垂直视野。在所有情况下,可以认为精度较低,产生较小的地图。这也导致大量数据在一天内以几TB的量级累积,其存储变得具有挑战性。如果我们要减少汽车内部处理单元的工作量,我们需要将数据上传到边缘或适当放置的云。然而,即使随着5G的出现,也难以满足几Gbps的所需数据速率。因此,我们建议将LiDAR外部的一组协调设置在一个海拔高度,这可以提供一个具有更大视野(FoV)的集成视图到集中决策制造体,然后将所需的控制动作发送到具有较低比特率的车辆。我们基于几家制造商的行业标准设备进行的计算表明,这不仅仅是一个概念,而是一个可以实施的可行系统。
translated by 谷歌翻译
In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.
translated by 谷歌翻译
We present a robust real-time LiDAR 3D object detector that leverages heteroscedastic aleatoric uncertainties to significantly improve its detection performance. A multi-loss function is designed to incorporate uncertainty estimations predicted by auxiliary output layers. Using our proposed method, the network ignores to train from noisy samples, and focuses more on informative ones. We validate our method on the KITTI object detection benchmark. Our method surpasses the baseline method which does not explicitly estimate uncertainties by up to nearly 9% in terms of Average Precision (AP). It also produces state-of-the-art results compared to other methods, while running with an inference time of only 72ms. In addition, we conduct extensive experiments to understand how aleatoric uncertainties behave. Extracting aleatoric uncertainties brings almost no additional computation cost during the deployment, making our method highly desirable for autonomous driving applications.
translated by 谷歌翻译
激光雷达已成为自动驾驶的重要传感器,因为它提供了可靠的深度估计。激光雷达也是用于构建3D图像的主要传感器,即使在不使用激光雷达的低成本系统的情况下也可以使用它。激光雷达点云的计算是密集的,因为它需要每秒处理数百万个点。此外,还有许多后续任务,例如聚类,检测,跟踪和分类,这使得实时执行具有挑战性。在本文中,我们讨论了实时动态对象检测算法,该算法利用先前映射的激光雷达点云来减少处理。先前的3D地图提供静态背景模型,并且我们将动态对象检测表示为背景减法问题。描述了映射和在线执行管道中的计算和建模挑战。我们提出了拒绝级联架构来分别减去道路区域和其他3D区域。我们实现了我们提出的算法的初始版本,并评估了CARLAsimulator的准确性。
translated by 谷歌翻译