预测环境的未来占用状态对于实现自动驾驶汽车的明智决定很重要。占用预测中的常见挑战包括消失的动态对象和模糊的预测,尤其是对于长期预测范围。在这项工作中,我们提出了一个双独沟的神经网络体系结构,以预测占用状态的时空演化。一个插脚致力于预测移动的自我车辆将如何观察到静态环境。另一个插脚预测环境中的动态对象将如何移动。在现实Waymo开放数据集上进行的实验表明,两个插脚的融合输出能够保留动态对象并减少预测中比基线模型更长的预测时间范围。
translated by 谷歌翻译
对移动障碍的检测和细分,以及对当地环境的未来占用状态的预测,对于自动驾驶汽车,必不可少的自动驾驶行动至关重要。在本文中,我们提出了一个框架,该框架使用深层神经网络体系结构将两个功能集成在一起。我们的方法首先检测到现场移动对象的段,并使用此信息来预测自动驾驶汽车周围环境的时空演化。为了解决静态动态对象分割和环境预测模型直接集成的问题,我们建议在整个框架中使用基于占用的环境表示。我们的方法在现实Waymo打开数据集上进行了验证,并证明了比基线方法更高的预测准确性。
translated by 谷歌翻译
自治车辆必须推理城市环境中的空间闭塞,以确保安全性而不会过于谨慎。前工作探索了观察到的道路代理人的社会行为的闭塞推动,因此将人们视为传感器。从代理行为推断出占用是一种固有的多模式问题;驾驶员可以同样地表现出与它们之前的不同占用模式类似(例如,驾驶员可以以恒定速度或在开放的道路上移动)。然而,过去的工作不考虑这种多层性,从而忽略了在驾驶员行为及其环境之间的关系中模拟了这种梯级不确定性的来源。我们提出了一种遮挡推理方法,其特征是观察人员的行为作为传感器测量,并将它们与标准传感器套件的熔断器融合。为了捕获炼泥的不确定性,我们用离散的潜在空间训练一个条件变形AutoEncoder,以学习从观察到的驾驶员轨迹到驾驶员前方视图的占用网格表示的多模式映射。我们的方法处理多代理场景,使用证据理论将来自多个观察到的驱动因素的测量结果组合以解决传感器融合问题。我们的方法在真实的数据集中验证,表现出基线,并展示实时能力的性能。我们的代码可在https://github.com/sisl/multiagentvarizingalocclusionInferience获得。
translated by 谷歌翻译
本文报告了一个动态语义映射框架,该框架将3D场景流量测量纳入封闭形式的贝叶斯推理模型中。环境中动态对象的存在可能会导致当前映射算法中的伪影和痕迹,从而导致后方地图不一致。我们利用深度学习利用最新的语义细分和3D流量估计,以提供MAP推断的测量。我们开发了一个贝叶斯模型,该模型以流量传播,并渗透3D连续(即可以在任意分辨率下查询)语义占用率图优于其静态对应物的语义占用图。使用公开数据集的广泛实验表明,所提出的框架对其前身和深度神经网络的输入测量有所改善。
translated by 谷歌翻译
Figure 1: We introduce datasets for 3D tracking and motion forecasting with rich maps for autonomous driving. Our 3D tracking dataset contains sequences of LiDAR measurements, 360 • RGB video, front-facing stereo (middle-right), and 6-dof localization. All sequences are aligned with maps containing lane center lines (magenta), driveable region (orange), and ground height. Sequences are annotated with 3D cuboid tracks (green). A wider map view is shown in the bottom-right.
translated by 谷歌翻译
这项工作提出了一种新的方法,可以使用有效的鸟类视图表示和卷积神经网络在高速公路场景中预测车辆轨迹。使用基本的视觉表示,很容易将车辆位置,运动历史,道路配置和车辆相互作用轻松包含在预测模型中。 U-NET模型已被选为预测内核,以使用图像到图像回归方法生成场景的未来视觉表示。已经实施了一种方法来从生成的图形表示中提取车辆位置以实现子像素分辨率。该方法已通过预防数据集(一个板载传感器数据集)进行了培训和评估。已经评估了不同的网络配置和场景表示。这项研究发现,使用线性终端层和车辆的高斯表示,具有6个深度水平的U-NET是最佳性能配置。发现使用车道标记不会改善预测性能。平均预测误差为0.47和0.38米,对于纵向和横向坐标的最终预测误差分别为0.76和0.53米,预测轨迹长度为2.0秒。与基线方法相比,预测误差低至50%。
translated by 谷歌翻译
In this work, we address the problem of unsupervised moving object segmentation (MOS) in 4D LiDAR data recorded from a stationary sensor, where no ground truth annotations are involved. Deep learning-based state-of-the-art methods for LiDAR MOS strongly depend on annotated ground truth data, which is expensive to obtain and scarce in existence. To close this gap in the stationary setting, we propose a novel 4D LiDAR representation based on multivariate time series that relaxes the problem of unsupervised MOS to a time series clustering problem. More specifically, we propose modeling the change in occupancy of a voxel by a multivariate occupancy time series (MOTS), which captures spatio-temporal occupancy changes on the voxel level and its surrounding neighborhood. To perform unsupervised MOS, we train a neural network in a self-supervised manner to encode MOTS into voxel-level feature representations, which can be partitioned by a clustering algorithm into moving or stationary. Experiments on stationary scenes from the Raw KITTI dataset show that our fully unsupervised approach achieves performance that is comparable to that of supervised state-of-the-art approaches.
translated by 谷歌翻译
这项工作通过创建具有准确而完整的动态场景的新颖户外数据集来解决语义场景完成(SSC)数据中的差距。我们的数据集是由每个时间步骤的随机采样视图形成的,该步骤可监督无需遮挡或痕迹的场景的普遍性。我们通过利用最新的3D深度学习体系结构来使用时间信息来创建最新的开源网络中的SSC基准,并构建基准实时密集的局部语义映射算法MotionsC。我们的网络表明,提出的数据集可以在存在动态对象的情况下量化和监督准确的场景完成,这可以导致改进的动态映射算法的开发。所有软件均可在https://github.com/umich-curly/3dmapping上找到。
translated by 谷歌翻译
不确定性在未来预测中起关键作用。未来是不确定的。这意味着可能有很多可能的未来。未来的预测方法应涵盖坚固的全部可能性。在自动驾驶中,涵盖预测部分中的多种模式对于做出安全至关重要的决策至关重要。尽管近年来计算机视觉系统已大大提高,但如今的未来预测仍然很困难。几个示例是未来的不确定性,全面理解的要求以及嘈杂的输出空间。在本论文中,我们通过以随机方式明确地对运动进行建模并学习潜在空间中的时间动态,从而提出了解决这些挑战的解决方案。
translated by 谷歌翻译
Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.
translated by 谷歌翻译
我们的运输世界正在迅速转变,自治水平不断提高。但是,为了获得全自动车辆的许可以供广泛的公众使用,有必要确保整个系统的安全性,这仍然是一个挑战。这尤其适用于基于AI的感知系统,这些系统必须处理各种环境条件和道路使用者,与此同时,应强调地检测所有相关的对象(即不应发生检测失误)。然而,有限的培训和验证数据可以证明无故障操作几乎无法实现,因为感知系统可能会暴露于公共道路上的新事物或未知的物体或条件。因此,需要针对基于AI的感知系统的新安全方法。因此,我们在本文中提出了一种新型的层次监视方法,能够从主要感知系统验证对象列表,可以可靠地检测检测失误,同时具有非常低的错误警报率。
translated by 谷歌翻译
本文提出了一种使用对象检测网络在汽车雷达数据上学习对象的笛卡尔速度的方法。提出的方法是在为速度生成自己的训练信号方面进行的。标签仅用于单帧,定向边界框(OBB)。不需要昂贵的笛卡尔速度或连续序列的标签。一般的想法是在不使用单帧OBB标签的情况下预先培训对象检测网络,然后利用网络的OBB预测未标记的数据进行速度训练。详细说明,使用预测的速度以及未标记框架的更新OBB之间的距离和标记框架的OBB预测之间的距离,将网络对未标记帧的OBB预测更新为标记帧的时间戳,用于生成一个自我的预测。监督速度的训练信号。检测网络体系结构由一个模块扩展,以说明多次扫描的时间关系和一个模块,以明确表示雷达的径向速度测量值。仅首次训练的两步方法使用OBB检测,然后使用训练OBB检测和速度。此外,由雷达径向速度测量产生的伪标记的预训练引导Bootstraps本文的自我监督方法。公开可用的Nuscenes数据集进行的实验表明,所提出的方法几乎达到了完全监督培训的速度估计性能,但不需要昂贵的速度标签。此外,我们优于基线方法,该方法仅使用径向速度测量作为标签。
translated by 谷歌翻译
了解3D场景是自治代理的关键先决条件。最近,LIDAR和其他传感器已经以点云帧的时间序列形式提供了大量数据。在这项工作中,我们提出了一种新的问题 - 顺序场景流量估计(SSFE) - 该旨在预测给定序列中所有点云的3D场景流。这与先前研究的场景流程估计问题不同,这侧重于两个框架。我们介绍SPCM-NET架构,通过计算相邻点云之间的多尺度时空相关性,然后通过订单不变的复制单元计算多级时空相关性来解决这个问题。我们的实验评估证实,与仅使用两个框架相比,点云序列的复发处理导致SSFE明显更好。另外,我们证明可以有效地修改该方法,用于顺序点云预测(SPF),一种需要预测未来点云帧的相关问题。我们的实验结果是使用SSFE和SPF的新基准进行评估,包括合成和实时数据集。以前,场景流估计的数据集仅限于两个帧。我们为这些数据集提供非琐碎的扩展,用于多帧估计和预测。由于难以获得现实世界数据集的地面真理运动,我们使用自我监督的培训和评估指标。我们认为,该基准将在该领域的未来研究中关键。将可访问基准和型号的所有代码。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
Autonomous driving requires efficient reasoning about the location and appearance of the different agents in the scene, which aids in downstream tasks such as object detection, object tracking, and path planning. The past few years have witnessed a surge in approaches that combine the different taskbased modules of the classic self-driving stack into an End-toEnd(E2E) trainable learning system. These approaches replace perception, prediction, and sensor fusion modules with a single contiguous module with shared latent space embedding, from which one extracts a human-interpretable representation of the scene. One of the most popular representations is the Birds-eye View (BEV), which expresses the location of different traffic participants in the ego vehicle frame from a top-down view. However, a BEV does not capture the chromatic appearance information of the participants. To overcome this limitation, we propose a novel representation that captures various traffic participants appearance and occupancy information from an array of monocular cameras covering 360 deg field of view (FOV). We use a learned image embedding of all camera images to generate a BEV of the scene at any instant that captures both appearance and occupancy of the scene, which can aid in downstream tasks such as object tracking and executing language-based commands. We test the efficacy of our approach on synthetic dataset generated from CARLA. The code, data set, and results can be found at https://rebrand.ly/APP OCC-results.
translated by 谷歌翻译
在由车辆安装的仪表板摄像机捕获的视频中检测危险交通代理(仪表板)对于促进在复杂环境中的安全导航至关重要。与事故相关的视频只是驾驶视频大数据的一小部分,并且瞬态前的事故流程具有高度动态和复杂性。此外,风险和非危险交通代理的外观可能相似。这些使驾驶视频中的风险对象本地化特别具有挑战性。为此,本文提出了一个注意力引导的多式功能融合网络(AM-NET),以将仪表板视频的危险交通代理本地化。两个封闭式复发单元(GRU)网络使用对象边界框和从连续视频帧中提取的光流功能来捕获时空提示,以区分危险交通代理。加上GRUS的注意力模块学会了与事故相关的交通代理。融合了两个功能流,AM-NET预测了视频中交通代理的风险评分。在支持这项研究的过程中,本文还引入了一个名为“风险对象本地化”(ROL)的基准数据集。该数据集包含带有事故,对象和场景级属性的空间,时间和分类注释。拟议的AM-NET在ROL数据集上实现了85.73%的AUC的有希望的性能。同时,AM-NET在DOTA数据集上优于视频异常检测的当前最新视频异常检测。一项彻底的消融研究进一步揭示了AM-NET通过评估其不同组成部分的贡献的优点。
translated by 谷歌翻译
Determining accurate bird's eye view (BEV) positions of objects and tracks in a scene is vital for various perception tasks including object interactions mapping, scenario extraction etc., however, the level of supervision required to accomplish that is extremely challenging to procure. We propose a light-weight, weakly supervised method to estimate 3D position of objects by jointly learning to regress the 2D object detections and scene's depth prediction in a single feed-forward pass of a network. Our proposed method extends a center-point based single-shot object detector \cite{zhou2019objects}, and introduces a novel object representation where each object is modeled as a BEV point spatio-temporally, without the need of any 3D or BEV annotations for training and LiDAR data at query time. The approach leverages readily available 2D object supervision along with LiDAR point clouds (used only during training) to jointly train a single network, that learns to predict 2D object detection alongside the whole scene's depth, to spatio-temporally model object tracks as points in BEV. The proposed method is computationally over $\sim$10x efficient compared to recent SOTA approaches [1, 38] while achieving comparable accuracies on KITTI tracking benchmark.
translated by 谷歌翻译
虽然自动车辆安全验证过程的最明显的部分涉及规划和控制系统,但它通常被忽视,后者的安全性至关重要地取决于前面环境感知的容错。现代感知系统具有复杂且经常基于机器学习的组件,具有各种故障模式,可以危及整体安全性。同时,由于资源约束,例如冗余执行的验证并不总是可行的。在本文中,我们解决了可行和高效的感知监视器的需求,并提出了一种轻质方法,有助于保护感知系统的完整性,同时保持额外的计算开销最小值。与现有解决方案相比,通过传感器检查的良好平衡组合来实现监视器 - 在此处使用LIDAR信息和对象运动历史上的合理性检查。它旨在检测自动化车辆环境中对象的距离和速度中的相关误差。结合适当的规划系统,这种监视器可以帮助安全自动化驱动可行。
translated by 谷歌翻译
自动驾驶汽车的主要挑战是在看不见的动态环境中导航。将移动对象与静态对象分开对于导航,姿势估计以及了解其他交通参与者在不久的将来可能如何移动至关重要。在这项工作中,我们解决了区分当前移动物体(如行人行人或驾驶汽车)的3D激光雷达点的问题,从非移动物体(如墙壁)中获得的点,但还停放了汽车。我们的方法采用了一系列观察到的激光扫描,并将它们变成素化的稀疏4D点云。我们应用计算有效的稀疏4D旋转来共同提取空间和时间特征,并预测序列中所有点的移动对象置信得分。我们制定了一种退化的地平线策略,使我们能够在线预测移动对象,并根据新观察结果对GO进行预测。我们使用二进制贝叶斯过滤器递归整合了扫描的新预测,从而产生了更强的估计。我们在Semantickitti移动对象细分挑战中评估我们的方法,并显示出比现有方法更准确的预测。由于我们的方法仅在随着时间的推移随时间范围的几何信息上运行,因此它可以很好地概括为新的,看不见的环境,我们在阿波罗数据集中评估了这些环境。
translated by 谷歌翻译
检测障碍对于安全有效的自动驾驶至关重要。为此,我们提出了NVRadarnet,这是一种深神经网络(DNN),它使用汽车雷达传感器检测动态障碍物和可驱动的自由空间。该网络利用从多个雷达传感器的时间积累的数据来检测动态障碍,并在自上而下的鸟类视图(BEV)中计算其方向。该网络还可以回归可驱动的自由空间,以检测未分类的障碍。我们的DNN是第一个使用稀疏雷达信号的同类DNN,以实时从雷达数据实时执行障碍物和自由空间检测。在实际的自动驾驶场景中,该网络已成功地用于我们的自动驾驶汽车。该网络在嵌入式GPU上的运行速度快于实时时间,并且在地理区域显示出良好的概括。
translated by 谷歌翻译