随着学习算法和硬件开发的最新进展,自动驾驶汽车在良好驾驶条件下在结构化环境中运行时显示出前景。然而,对于具有高度不确定性的复杂,混乱和不可见的环境,自动驾驶系统仍经常表现出错误或意外的行为,这可能导致灾难性的后果。自主车辆应该理想地适应驾驶条件;虽然这可以通过多种途径实现,但作为一个能够以某种量化形式表征驾驶性能的第一步将是有益的。为此,本文旨在创建一个框架,用于调查可能影响驾驶性能的不同因素。此外,自适应驾驶系统适应任何驾驶条件的主要机制之一是能够从代表性场景中学习和概括。目前这样做的机器学习算法主要以监督的方式学习,因此需要足够的数据来进行稳健和有效的学习。因此,我们还对45个公共驾驶数据集进行了比较概述,这些数据集可以实现学习并发布此数据集索引:http://sites.google.com/view/driveability-survey-datasets。具体而言,我们根据用例对数据集进行分类,并突出显示捕获复杂危险驾驶条件的数据集,这些数据集可以更好地用于训练强大的驾驶模型。此外,通过讨论现有公共数据集未涵盖哪些驾驶场景以及哪些驾驶性因素需要更多调查和数据采集,本文旨在鼓励有针对性的数据集收集和提高不可驾驶性指标的提议,以提高自动驾驶汽车在恶劣环境中的稳健性。
translated by 谷歌翻译
Realizing autonomy is a hot research topic for automatic vehicles in recent years. For a long time, most of the efforts to this goal concentrate on understanding the scenes surrounding the ego-vehicle (autonomous vehicle itself). By completing low-level vision tasks, such as detection, tracking and segmentation of the surrounding traffic participants, e.g., pedestrian, cyclists and vehicles, the scenes can be interpreted. However, for an autonomous vehicle, low-level vision tasks are largely insufficient to give help to comprehensive scene understanding. What are and how about the past, the ongoing and the future of the scene participants? This deep question actually steers the vehicles towards truly full automation, just like human beings. Based on this thoughtfulness, this paper attempts to investigate the interpretation of traffic scene in autonomous driving from an event reasoning view. To reach this goal, we study the most relevant literatures and the state-of-the-arts on scene representation, event detection and intention prediction in autonomous driving. In addition, we also discuss the open challenges and problems in this field and endeavor to provide possible solutions.
translated by 谷歌翻译
我们提出了新的道路事件和活动检测(READ)数据集,这些数据集是从自动驾驶汽车的角度设计和创建的,用于对自动驾驶采取行动检测挑战。 READ将为计算机视觉,智能汽车和机器学习的学者提供机会进行研究,以解决激动人心的新问题,例如了解复杂(道路)活动,识别有感知的代理人的行为,以及预测未来行动的标签和位置。事件,最终目标是支持自主决策。
translated by 谷歌翻译
在本文中,我们提出了从未修剪的自然驾驶记录中对战术驾驶员行为检测的初步研究。虽然基于监督学习的检测是一种常见的方法,但是当标记数据发生时它会受到影响。手动注释既耗时又昂贵。为了强调这个问题,我们试验了一个104小时的现实世界自然主义驱动数据集,其中包含一组预定义的驱动行为。数据集中存在三个挑战。首先,在解剖学驾驶设置中预定义的驾驶行为是稀疏的。其次,驾驶行为的分布是长尾的。第三,观察到巨大的类内变化。为了解决这些问题,最近的自我监督和监督学习以及多模式的融合被用于我们的架构设计。报告了初步实验和讨论。
translated by 谷歌翻译
Robust perception-action models should be learned from training data with diverse visual appearances and realistic behaviors, yet current approaches to deep visuomotor policy learning have been generally limited to in-situ models learned from a single vehicle or simulation environment. We advocate learning a generic vehicle motion model from large scale crowd-sourced video data, and develop an end-to-end trainable architecture for learning to predict a distribution over future vehicle egomotion from instantaneous monocular camera observations and previous vehicle state. Our model incorporates a novel FCN-LSTM architecture, which can be learned from large-scale crowd-sourced vehicle action data, and leverages available scene segmenta-tion side tasks to improve performance under a privileged learning paradigm. We provide a novel large-scale dataset of crowd-sourced driving behavior suitable for training our model, and report results predicting the driver action on held out sequences across diverse conditions.
translated by 谷歌翻译
我们在道路驾驶视频中制定了一个新的问题作为对象重要性估计(OIE),如果道路使用者对自我车辆驾驶员的控制决策有影响,则将道路使用者视为重要对象。道路使用者的重要性取决于其在驾驶场景中的视觉动态,例如外观,运动和位置,以及自我车辆的计划路径\ emph {例如}。我们提出了一个新的框架,它结合了视觉模型和目标表示来进行OIE。为了评估我们的框架,我们在现实世界中的交通交叉点收集道路驾驶数据集,并对重要对象进行人工标注注释。实验结果表明,我们的目标导向方法优于基线,并且在左转和右转方案上有了更多的改进。此外,我们探索了使用客观控制进行驾驶控制预测的可能性,并证明了利用对象重要性信息可以改善二元制动预测。
translated by 谷歌翻译
对于人类驾驶员而言,后视镜和侧视镜对于安全驾驶至关重要。它们可以更全面地了解汽车周围发生的事情。人类驾驶员也大量利用他们的心理地图进行导航。尽管如此,已经发布了几种方法,学习驾驶模型只有前置摄像头而没有路线规划器。缺乏这种信息使得自驾车的任务变得十分棘手。我们在一个更现实的环境中调查问题,该环境包括一个带有八个摄像头的环视摄像系统,一个路线规划器和一个CAN总线阅读器。特别是,我们开发了一种传感器设置,可以为车辆周围区域的360度视图,到目的地的行车路线以及人类驾驶员的低级驾驶操作(例如转向角和速度)提供数据。使用这种传感器设置我们收集了一个新的驾驶数据集,涵盖了多样化的场景和不同的天气/照明条件。最后,通过整合来自环绕视图相机和路线规划器的信息,我们学习了一种新颖的驾驶模型。利用两个路线规划器:1)通过将OpenStreetMap上的计划路线表示为一堆GPS坐标,以及2)通过在TomTom Go Mobile上渲染计划路线并将该演进记录到视频中。我们的实验表明:1)360度全景摄像机有助于避免单个前视摄像头发生的故障,特别是对于城市驾驶和交叉场景; 2)路线规划员有助于显着的驾驶任务,尤其是转向角度预测。
translated by 谷歌翻译
在行动最终确定之前需要做出反应的情况下,行动预期至关重要。例如,这是自动驾驶的情况,其中汽车需要例如避免撞击行人并且尊重交通灯。虽然已经提出解决方案来解决驾驶参与任务的子集,但是通过利用各种特定于任务的传感器,没有单一的数据集或框架以一致的方式解决它们。在本文中,我们因此引入了一个新的,大的-scale数据集,名为VIENA2,涵盖5个通用驾驶场景,共有25个不同的动作类。它包含超过15K全高清,5s长的视频,获得了不同的驾驶条件,天气,白天和环境,并辅以一套通用的现实传感器测量。这相当于超过2.25M帧,每个帧都注有一个动作标签,相当于每个动作类600个样本。我们讨论了我们的数据采集策略和数据集的统计数据,以及基准最先进的动作预测技术,包括一种新的多模态LSTM架构,具有有效的损失功能,可用于驾驶场景中的行动预测。
translated by 谷歌翻译
Intersections are known for their integral and complex nature due to a variety of the participants' behaviors and interactions. This paper presents a review of recent studies on the behavior at intersections and the safety analysis for three types of participants at intersections: vehicles, drivers, and pedestrians. This paper emphasizes on techniques which are strong candidates for automation with visual sensing technology. A new behavior and safety classification is presented based on key features used for intersection design, planning, and safety. In addition, performance metrics are introduced to evaluate different studies, and insights are provided regarding the state of the art, inputs, algorithms, challenges, and shortcomings.
translated by 谷歌翻译
Designing autonomous vehicles suitable for urban environments remains an unresolved problem. One of the major dilemmas faced by autonomous cars is how to understand the intention of other road users and communicate with them. The existing datasets do not provide the necessary means for such higher level analysis of traffic scenes. With this in mind, we introduce a novel dataset which in addition to providing the bounding box information for pedestrian detection, also includes the behavioral and contextual annotations for the scenes. This allows combining visual and semantic information for better understanding of pedestri-ans' intentions in various traffic scenarios. We establish baseline approaches for analyzing the data and show that combining visual and contextual information can improve prediction of pedestrian intention at the point of crossing by at least 20%.
translated by 谷歌翻译
深度神经感知和控制网络已成为自动驾驶车辆的关键组成部分。用户接受可能有利于语法解释的文本解释,允许最终用户理解触发特定行为的行为。解释可以由神经控制器触发,即内省解释,或通过神经控制器的输出,即合理化来提供。我们提出了一种新的解释方法,包括两部分。首先,我们使用视觉(空间)注意模型来训练从图像到车辆控制命令的端到端的卷积网络,即加速和改变路径。控制器的注意力识别可能影响网络输出的图像区域。其次,我们使用基于注意力的视频到文本模型来生成模型动作的文本解释。控制器和解释模型的注意力图是对齐的,因此解释是在对控制器很重要的场景部分中进行的。我们探讨注意对齐,强对齐和弱对齐的两种方法。最后,我们探索了一个生成合理化的模型版本,并与同一视频片段的内省解释进行比较。我们在一个新的驾驶数据集上评估这些模型,这些数据集具有真实的人类解释,即伯克利深度驱动程序(BDD-X)数据集。代码可以通过以下网址获得://github.com/JinkyuKimUCB/explainable-deep-driving。
translated by 谷歌翻译
对于在人行道上航行的移动机器人,必须能够跨越街道交叉口。大多数现有方法依赖于交通灯信号的识别以作出明智的交叉决定。尽管这些方法已成为城市导航的关键促成因素,但采用这种方法的机器人的能力仍然有限,仅限于在包含信号交叉口的街道上。在本文中,我们解决了这一挑战,并提出了一种多模式卷积神经网络框架,以预测交叉口的街道交叉口的安全性。 Ourarchitecture包含两个子网络;交互感知轨迹估计流IA-TCNN,其预测场景中所有观察到的交通参与者的未来状态,以及交通灯识别流AthtteNet。我们的IA-TCNN利用扩张的因果卷积来模拟场景中可观察的动态代理的行为,而无需明确地为它们之间的交互分配优先级。虽然AtteNet利用挤压激励块来学习用于从数据中选择相关特征的内容感知机制,从而提高噪声鲁棒性。来自交通灯识别流的学习表示与来自运动预测流的估计轨迹融合以学习交叉决策。此外,我们扩展了我们之前引入的FreiburgStreet Crossing数据集,其中包含了在不同类型的交叉点捕获的序列,展示了交通参与者之间复杂的相互作用。对公共基准数据集和我们提出的数据集的广泛实验评估表明,我们的网络实现了每个子任务的最新性能,以及交叉安全性预测。
translated by 谷歌翻译
Understanding intent and relevance of surrounding agents from video is an essential task for many applications in robotics and computer vision. The modeling and evaluation of contextual, spatio-temporal situation awareness is particularly important in the domain of intelligent vehicles, where a robot is required to smoothly navigate in a complex environment while also interacting with humans. In this paper, we address these issues by studying the task of on-road object importance ranking from video. First, human-centric object importance annotations are employed in order to analyze the relevance of a variety of multi-modal cues for the importance prediction task. A deep convolutional neural network model is used for capturing video-based contextual spatial and temporal cues of scene type, driving task, and object properties related to intent. Second, the proposed importance annotations are used for producing novel analysis of error types in image-based object detectors. Specifically, we demonstrate how cost-sensitive training, informed by the object importance annotations, results in improved detection performance on objects of higher importance. This insight is essential for an application where navigation mistakes are safety-critical, and the quality of automation and human-robot interaction is key.
translated by 谷歌翻译
In this review, we provide an overview of emerging trends and challenges in the field of intelligent and autonomous, or self-driving, vehicles. Recent advances in the field of perception, planning, and decision-making for autonomous vehicles have led to great improvements in functional capabilities, with several prototypes already driving on our roads and streets. Yet challenges remain regarding guaranteed performance and safety under all driving circumstances. For instance, planning methods that provide safe and system-compliant performance in complex, cluttered environments while modeling the uncertain interaction with other traffic participants are required. Furthermore , new paradigms, such as interactive planning and end-to-end learning, open up questions regarding safety and reliability that need to be addressed. In this survey, we emphasize recent approaches for integrated perception and planning and for behavior-aware planning, many of which rely on machine learning. This raises the question of verification and safety, which we also touch upon. Finally, we discuss the state of the art and remaining challenges for managing fleets of autonomous vehicles. 8.1
translated by 谷歌翻译
大多数现有的自动驾驶方法属于两类:模块化管道,构建广泛的环境模型,以及模仿学习方法,直接映射图像控制输出。最近提出的第三种范式,即直接感知,旨在通过使用神经网络来学习适当的低维中间表示来实现两者的优点。然而,现有的直接感知方法仅限于简单的高速公路情况,缺乏导航交叉路口的能力,在交通信号灯处停下或遵守速度限制。在这项工作中,我们提出了一种直接感知方法,该方法将视频输入映射到适合自主导航的中间表示,给出高级方向输入。相比于最先进的强化和条件模仿学习方法,我们在具有挑战性的CARLA模拟基准测试中实现了目标导向导向高达68%的改进。此外,我们的方法是首先通过仅使用图像级标签来处理交通信号灯和速度标志,以及平稳的跟车,从而显着减少模拟中的交通事故。
translated by 谷歌翻译
自动驾驶感知的最新进展是由深度学习驱动的。为了实现稳健和准确的场景理解,自动驾驶车辆通常配备有不同的传感器(例如,照相机,激光雷达,雷达),并且可以融合多种感测模态以利用它们的互补特性。在这种情况下,已经提出了许多用于深度多模态感知问题的方法。但是,网络架构设计没有一般性的指导方针,“融合什么”,“何时融合”和“如何融合”等问题依​​然存在。本文综述了自动驾驶中深度多模态目标检测和语义分割的方法论,并对其进行了系统的总结。为此,我们首先概述了测试车辆上的车载传感器,开放数据集和物体检测的背景信息。和自动驾驶研究的语义分割。然后,我们总结了融合方法,讨论了挑战和开放性问题。在附录中,我们提供了总结主题和方法的表格。我们还提供了一个交互式在线平台来浏览每个参考:https://multimodalperception.github.io。
translated by 谷歌翻译
Learning autonomous-driving policies is one of the most challenging but promising tasks for computer vision. Most researchers believe that future research and applications should combine cameras, video recorders and laser scanners to obtain comprehensive semantic understanding of real traffic. However, current approaches only learn from large-scale videos, due to the lack of benchmarks that consist of precise laser-scanner data. In this paper, we are the first to propose a LiDAR-Video dataset, which provides large-scale high-quality point clouds scanned by a Velodyne laser, videos recorded by a dashboard camera and standard drivers' behaviors. Extensive experiments demonstrate that extra depth information help networks to determine driving policies indeed.
translated by 谷歌翻译
自动驾驶汽车需要了解周围的道路布局,这可以通过最先进的CNN进行预测。这项工作解决了目前缺乏用于确定车道实例的数据,这些数据是各种驾驶员所需要的。主要问题是耗时的手动标记过程,通常适用于每个图像。我们注意到驾驶汽车本身就是一种注解形式。因此,我们提出了一种半自动方法,该方法允许通过利用基于汽车驱动的位置的3D估计的道路平面来预先标记图像序列,并将标记从该平面投影到序列的所有图像中。每张图像的平均标记时间减少到5秒,数据捕获只需要便宜的破折号。我们正在发布24,000个图像的数据集,并另外显示实验语义分割和实例分割结果。
translated by 谷歌翻译
源于计算机视觉和机器学习的快速发展,视频分析任务已经从推断现状到预测未来状态。基于视觉的动作识别和来自视频的预测是这样的任务,其中动作识别是基于完整动作执行来推断人类动作(呈现状态),以及基于不完整动作执行来预测动作(未来状态)的动作预测。这些twotasks最近已经成为特别流行的主题,因为它们具有爆炸性的新兴现实应用,例如视觉监控,自动驾驶车辆,娱乐和视频检索等。在过去的几十年中,为了建立一个强大的应用程序,已经投入了大量的时间。行动识别和预测的有效框架。在本文中,我们调查了动作识别和预测中完整的最先进技术。现有的模型,流行的算法,技术难点,流行的行动数据库,评估协议和有希望的未来方向也提供了系统的讨论。
translated by 谷歌翻译
对复杂的城市街景进行视觉理解是广泛应用的有利因素。物体检测从大规模数据集中获益匪浅,特别是在深度学习的背景下。然而,对于语义城市场景理解,当前的数据集没有充分捕捉到真实世界城市场景的复杂性。为了解决这个问题,我们引入了Cityscapes,一个基准套件和大规模的基准测试,用于训练和测试像素级和实例级语义标签的方法。城市景观由来自50个不同城市的街道中记录的大量不同的立体视频序列组成。其中5000张图像具有高质量的像素级注释; 20000个额外的图像具有粗略的注释,以启用利用大量弱标记数据的方法。至关重要的是,我们的努力超过了以前在数据集大小,注释丰富度,场景可变性和复杂性方面的尝试。 Ouraccompanying实证研究提供了对数据集特征的深入分析,以及基于我们的基准测试的几种最新方法的性能评估。
translated by 谷歌翻译