凭借其恶劣天气条件和测量速度的能力,雷达传感器已经成为汽车景观的一部分超过二十年的鲁棒性。最近的高清晰度(HD)成像雷达的进展使角分辨率低于程度,从而接近激光扫描性能。然而,数据量为HD雷达提供和计算成本来估计角度位置仍然是一个挑战。在本文中,我们提出了一种新颖的高清雷达传感模型FFT-RADNET,其消除了计算范围 - 方位角多普勒3D张量的开销,从而从范围多普勒频谱恢复角度。 FFT-RADNET培训均以检测车辆和分段免费驾驶空间。在两个任务中,它与最新的基于雷达的模型竞争,同时需要更少的计算和内存。此外,我们在各种环境(城市街道,公路,农村路)中,从同步汽车级传感器(相机,激光,高清雷达)收集和注释了2小时的原始数据。这个独特的数据集,“雷达,lidar等人”的inc-命名的radial是在https://github.com/valeoai/radial上获得的。
translated by 谷歌翻译
在辅助和自动驾驶系统的各种传感器中,即使在不利的天气或照明条件下,汽车雷达也被认为是一种健壮且低成本的解决方案。随着雷达技术的最新发展和开源的注释数据集,带有雷达信号的语义分割变得非常有前途。但是,现有的方法在计算上是昂贵的,或者通过平均将其减少到2D平面,从原始3D雷达信号中丢弃了大量的有价值的信息。在这项工作中,我们引入了Erase-Net,这是一个有效的雷达分割网络,以语义上的原始雷达信号。我们方法的核心是新型的检测到原始雷达信号的段方法。它首先检测每个对象的中心点,然后提取紧凑的雷达信号表示,最后执行语义分割。我们表明,与最新技术(SOTA)技术相比,我们的方法可以在雷达语义分割任务上实现卓越的性能。此外,我们的方法需要减少20倍的计算资源。最后,我们表明所提出的擦除网络可以被40%压缩而不会造成大幅损失,这比SOTA网络大得多,这使其成为实用汽车应用的更有希望的候选人。
translated by 谷歌翻译
Automotive radar sensors provide valuable information for advanced driving assistance systems (ADAS). Radars can reliably estimate the distance to an object and the relative velocity, regardless of weather and light conditions. However, radar sensors suffer from low resolution and huge intra-class variations in the shape of objects. Exploiting the time information (e.g., multiple frames) has been shown to help to capture better the dynamics of objects and, therefore, the variation in the shape of objects. Most temporal radar object detectors use 3D convolutions to learn spatial and temporal information. However, these methods are often non-causal and unsuitable for real-time applications. This work presents RECORD, a new recurrent CNN architecture for online radar object detection. We propose an end-to-end trainable architecture mixing convolutions and ConvLSTMs to learn spatio-temporal dependencies between successive frames. Our model is causal and requires only the past information encoded in the memory of the ConvLSTMs to detect objects. Our experiments show such a method's relevance for detecting objects in different radar representations (range-Doppler, range-angle) and outperform state-of-the-art models on the ROD2021 and CARRADA datasets while being less computationally expensive. The code will be available soon.
translated by 谷歌翻译
本文提出了一种使用对象检测网络在汽车雷达数据上学习对象的笛卡尔速度的方法。提出的方法是在为速度生成自己的训练信号方面进行的。标签仅用于单帧,定向边界框(OBB)。不需要昂贵的笛卡尔速度或连续序列的标签。一般的想法是在不使用单帧OBB标签的情况下预先培训对象检测网络,然后利用网络的OBB预测未标记的数据进行速度训练。详细说明,使用预测的速度以及未标记框架的更新OBB之间的距离和标记框架的OBB预测之间的距离,将网络对未标记帧的OBB预测更新为标记帧的时间戳,用于生成一个自我的预测。监督速度的训练信号。检测网络体系结构由一个模块扩展,以说明多次扫描的时间关系和一个模块,以明确表示雷达的径向速度测量值。仅首次训练的两步方法使用OBB检测,然后使用训练OBB检测和速度。此外,由雷达径向速度测量产生的伪标记的预训练引导Bootstraps本文的自我监督方法。公开可用的Nuscenes数据集进行的实验表明,所提出的方法几乎达到了完全监督培训的速度估计性能,但不需要昂贵的速度标签。此外,我们优于基线方法,该方法仅使用径向速度测量作为标签。
translated by 谷歌翻译
雷达和摄像机多模式融合的环境感知对于自动驾驶至关重要,以提高准确性,完整性和稳健性。本文着重于如何利用毫米波(MMW)雷达和相机传感器融合进行3D对象检测。提出了一种新的方法,该方法在提出了更好的特征表示形式下意识到在鸟眼视图(BEV)下的特征级融合。首先,将雷达特征通过时间积累增强,并发送到时间空间编码器以进行雷达特征提取。同时,通过图像骨干和颈部模型获得了适应各种空间尺度的多尺度图像2D特征。然后,将图像功能转换为使用设计的视图变压器。此外,这项工作将多模式特征与称为点融合和ROI融合的两阶段融合模型融合在一起。最后,检测头会回归对象类别和3D位置。实验结果表明,所提出的方法在最重要的检测指标,平均平均精度(MAP)和NUSCENES检测分数(NDS)下实现了最先进的性能。
translated by 谷歌翻译
我们提出了DeepFusion,这是一种模块化的多模式结构,可在不同组合中以3D对象检测为融合激光雷达,相机和雷达。专门的功能提取器可以利用每种模式,并且可以轻松交换,从而使该方法变得简单而灵活。提取的特征被转化为鸟眼视图,作为融合的共同表示。在特征空间中融合方式之前,先进行空间和语义对齐。最后,检测头利用丰富的多模式特征,以改善3D检测性能。 LIDAR相机,激光摄像头雷达和摄像头融合的实验结果显示了我们融合方法的灵活性和有效性。在此过程中,我们研究了高达225米的遥远汽车检测的很大程度上未开发的任务,显示了激光摄像机融合的好处。此外,我们研究了3D对象检测的LIDAR点所需的密度,并在对不利天气条件的鲁棒性示例中说明了含义。此外,对我们的摄像头融合的消融研究突出了准确深度估计的重要性。
translated by 谷歌翻译
在过去的几年中,自动驾驶的感知系统在其表现方面取得了重大进步。但是,这些系统在极端天气条件下努力表现出稳健性,因为在这些条件下,传感器和相机等传感器套件中的主要传感器都会下降。为了解决此问题,摄像机雷达融合系统为所有可靠的高质量感知提供了独特的机会。相机提供丰富的语义信息,而雷达可以通过遮挡和在所有天气条件下工作。在这项工作中,我们表明,当摄像机输入降解时,最新的融合方法的性能很差,这实际上导致失去了他们设定的全天可靠性。与这些方法相反,我们提出了一种新方法RadSegnet,该方法使用了独立信息提取的新设计理念,并在所有情况下都可以在所有情况下真正实现可靠性,包括遮挡和不利天气。我们在基准ASTYX数据集上开发并验证了我们的系统,并在辐射数据集上进一步验证了这些结果。与最先进的方法相比,Radsegnet在ASTYX上提高了27%,辐射增长了41.46%,平均精度得分,并且在不利天气条件下的性能明显更好
translated by 谷歌翻译
与使用可见光乐队(384 $ \ sim $ 769 THz)和使用红外乐队(361 $ \ sim $ 331 THz)的RGB摄像机不同,雷达使用相对较长的波长无线电(77 $ \ sim $ 81 GHz),从而产生强大不良风雨的测量。不幸的是,与现有的相机和LIDAR数据集相比,现有的雷达数据集仅包含相对较少的样品。这可能会阻碍基于雷达的感知的复杂数据驱动的深度学习技术的发展。此外,大多数现有的雷达数据集仅提供3D雷达张量(3DRT)数据,该数据包含沿多普勒,范围和方位角尺寸的功率测量值。由于没有高程信息,因此要估算3DRT对象的3D边界框是一个挑战。在这项工作中,我们介绍了Kaist-Radar(K-Radar),这是一种新型的大规模对象检测数据集和基准测试,其中包含35K帧的4D雷达张量(4DRT)数据,并具有沿多普勒,范围,Azimuth和Apipation的功率测量值尺寸,以及小心注释的3D边界盒在道路上的物体​​标签。 K-Radar包括在各种道路结构(城市,郊区道路,小巷和高速公路)上进行挑战的驾驶条件,例如不良风雨(雾,雨和雪)。除4DRT外,我们还提供了精心校准的高分辨率激光雷,周围的立体声摄像头和RTK-GPS的辅助测量。我们还提供基于4DRT的对象检测基线神经网络(基线NNS),并表明高度信息对于3D对象检测至关重要。通过将基线NN与类似结构的激光雷达神经网络进行比较,我们证明了4D雷达是不利天气条件的更强大的传感器。所有代码均可在https://github.com/kaist-avelab/k-radar上找到。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
检测障碍对于安全有效的自动驾驶至关重要。为此,我们提出了NVRadarnet,这是一种深神经网络(DNN),它使用汽车雷达传感器检测动态障碍物和可驱动的自由空间。该网络利用从多个雷达传感器的时间积累的数据来检测动态障碍,并在自上而下的鸟类视图(BEV)中计算其方向。该网络还可以回归可驱动的自由空间,以检测未分类的障碍。我们的DNN是第一个使用稀疏雷达信号的同类DNN,以实时从雷达数据实时执行障碍物和自由空间检测。在实际的自动驾驶场景中,该网络已成功地用于我们的自动驾驶汽车。该网络在嵌入式GPU上的运行速度快于实时时间,并且在地理区域显示出良好的概括。
translated by 谷歌翻译
场景流程使自动驾驶汽车可以推理多个独立对象的任意运动,这是长期移动自治的关键。尽管估计LiDAR的场景流动最近进展,但仍未知如何从4D雷达估算场景流动 - 这是一种越来越流行的汽车传感器,因为它在不利的天气和照明条件下的稳健性。与激光点云相比,雷达数据更为稀疏,嘈杂,分辨率更低。在现实世界中,雷达场景流的注释数据集也没有且昂贵。这些因素共同提出了雷达场景流量估计是一个具有挑战性的问题。这项工作旨在解决上述挑战,并通过利用自我监督的学习来估计场景从4-D雷达点云流动。稳健的场景估计架构和三个新颖损失的定制旨在应对棘手的雷达数据。现实世界实验结果验证了我们的方法能够稳健地估计野生中的雷达场景流,并有效地支持运动分割的下游任务。
translated by 谷歌翻译
本文介绍了新型混合体系结构,它们结合了基于网格的处理,以改善基于雷达对象检测网络的检测性能和方向估计。纯粹基于网格的检测模型在输入点云的鸟眼视图(BEV)投影上运行。这些方法通过离散的网格分辨率损失了详细信息的损失。这特别适用于雷达对象检测,其中相对粗糙的网格分辨率通常用于解释雷达点云的稀疏性。相反,基于点的模型不会受到此问题的影响,因为它们在没有离散化的情况下处理点云。但是,它们通常表现出比基于网格的方法更差的检测性能。我们表明,基于点的模型可以在网格渲染之前提取邻域功能,利用点的确切相对位置。这对于随后的基于网格的卷积检测主链具有重大好处。在公共Nuscenes数据集的实验中,我们的混合体系结构在检测性能方面取得了改进(汽车类的地图比次要的雷达范围提交比仅限雷达提交的地图高19.7%)和方向估计值(11.5%的相对方向改善)比以前文献的网络相比。
translated by 谷歌翻译
我们提出了一种自动生成语义标签的方法,以实现汽车范围多普勒(RD)雷达光谱的真实记录。当训练神经网络从雷达数据中识别对象识别时,需要此类标签。自动标记方法除了雷达频谱之外,还取决于相机和激光雷达数据的同时记录。通过将雷达光谱翘曲到相机图像中,可以将最新的对象识别算法应用于相机图像中相关对象(例如汽车)。翘曲操作设计为完全可区分,它允许通过翘曲操作在相机图像上计算出的梯度到雷达数据上运行的神经网络。随着翘曲操作依赖于准确的场景流估计,我们进一步提出了一种新颖的场景流估计算法,该算法利用了相机,激光雷达和雷达传感器的信息。将所提出的场景流估计方法与最新场景流量算法进行比较,并且优于大约30%的W.R.T.平均平均误差。通过评估通过提出的框架以实现到达方向估计的训练的神经网络的性能,可以验证自动标签生成的整体框架的整体框架的可行性。
translated by 谷歌翻译
下一代高分辨率汽车雷达(4D雷达)可以提供额外的高程测量和较密集的点云,从而在自动驾驶中具有3D传感的巨大潜力。在本文中,我们介绍了一个名为TJ4Dradset的数据集,其中包括4D雷达点用于自动驾驶研究。该数据集是在各种驾驶场景中收集的,连续44个序列中总共有7757个同步帧,这些序列用3D边界框和轨道ID很好地注释。我们为数据集提供了基于4D雷达的3D对象检测基线,以证明4D雷达点云的深度学习方法的有效性。可以通过以下链接访问数据集:https://github.com/tjradarlab/tj4dradset。
translated by 谷歌翻译
在自主驾驶中,在使用深神经网络的爆炸中爆炸用于感知,预测和规划任务。由于自主车辆(AVS)更接近生产,多模态传感器输入和具有不同传感器平台的异构车队在该行业中变得越来越普遍。然而,神经网络架构通常是针对特定的传感器平台,并且对输入的变化并不稳健,使得缩放和模型部署的问题特别困难。此外,大多数玩家仍然将软件和硬件的问题视为完全独立的问题。我们提出了一个新的终端架构,广义传感器融合(GSF),其设计成使得传感器输入和目标任务都是模块化和可修改的。这使AV系统设计人员能够轻松地使用不同的传感器配置和方法进行实验,并使用在大型工程组织中共享的相同型号开辟了在异构船队上部署的能力。使用该系统,我们报告了实验结果,我们展示了昂贵的高密度(HD)激光雷达传感器的近似奇偶阶段,具有3D对象检测任务中的廉价低密度(LD)LIDAR加相机设置。这为行业铺平了道路,共同设计硬件和软件架构以及具有异质配置的大船队。
translated by 谷歌翻译
We address the problem of real-time 3D object detection from point clouds in the context of autonomous driving. Computation speed is critical as detection is a necessary component for safety. Existing approaches are, however, expensive in computation due to high dimensionality of point clouds. We utilize the 3D data more efficiently by representing the scene from the Bird's Eye View (BEV), and propose PIXOR, a proposal-free, single-stage detector that outputs oriented 3D object estimates decoded from pixelwise neural network predictions. The input representation, network architecture, and model optimization are especially designed to balance high accuracy and real-time efficiency. We validate PIXOR on two datasets: the KITTI BEV object detection benchmark, and a large-scale 3D vehicle detection benchmark. In both datasets we show that the proposed detector surpasses other state-of-the-art methods notably in terms of Average Precision (AP), while still runs at > 28 FPS.
translated by 谷歌翻译
本文探讨了一种机器学习方法,用于从单芯片MMWave雷达产生高分辨率点云。与激光雷达和基于视觉的系统不同,MMWave雷达可以在恶劣的环境中运行,并通过烟雾,雾气和灰尘等遮挡。不幸的是,与激光点云相比,当前的MMWAVE处理技术可提供差的空间分辨率。本文介绍了Radarhd,这是一种端到端的神经网络,该网络从低分辨率雷达输入中构造了激光雷达点云。由于存在镜面和虚假的反射,增强雷达图像是具有挑战性的。由于信号的类似SINC的扩展模式,雷达数据也不能很好地映射到传统的图像处理技术。我们通过在大量的RAW I/Q雷达数据上训练Radarhd与各种室内环境中的LiDar Point云配对来克服这些挑战。我们的实验表明,即使在训练期间未观察到的场景和存在浓烟的情况下,也能够产生丰富的点云。此外,Radarhd的点云足够高,足以与现有的LiDAR ODOMETIRE和映射工作流程配合使用。
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
合作感允许连接的自动驾驶汽车(CAV)与附近的其他骑士相互作用,以增强对周围物体的感知以提高安全性和可靠性。它可以弥补常规车辆感知的局限性,例如盲点,低分辨率和天气影响。合作感知中间融合方法的有效特征融合模型可以改善特征选择和信息聚集,以进一步提高感知精度。我们建议具有可训练的特征选择模块的自适应特征融合模型。我们提出的模型之一是通过空间自适应特征融合(S-Adafusion)在OPV2V数据集的两个子集上的所有其他最先进的模型:默认的Carla Towns用于车辆检测和用于域适应的Culver City。此外,先前的研究仅测试了合作感的车辆检测。但是,行人在交通事故中更有可能受到重伤。我们使用CODD数据集评估了车辆和行人检测的合作感的性能。与CODD数据集中的车辆和行人检测相比,我们的架构达到的平均精度(AP)高。实验表明,与常规感知过程相比,合作感也可以提高行人检测准确性。
translated by 谷歌翻译
Radar, the only sensor that could provide reliable perception capability in all weather conditions at an affordable cost, has been widely accepted as a key supplement to camera and LiDAR in modern advanced driver assistance systems (ADAS) and autonomous driving systems. Recent state-of-the-art works reveal that fusion of radar and LiDAR can lead to robust detection in adverse weather, such as fog. However, these methods still suffer from low accuracy of bounding box estimations. This paper proposes a bird's-eye view (BEV) fusion learning for an anchor box-free object detection system, which uses the feature derived from the radar range-azimuth heatmap and the LiDAR point cloud to estimate the possible objects. Different label assignment strategies have been designed to facilitate the consistency between the classification of foreground or background anchor points and the corresponding bounding box regressions. Furthermore, the performance of the proposed object detector can be further enhanced by employing a novel interactive transformer module. We demonstrated the superior performance of the proposed methods in this paper using the recently published Oxford Radar RobotCar (ORR) dataset. We showed that the accuracy of our system significantly outperforms the other state-of-the-art methods by a large margin.
translated by 谷歌翻译