Deep learning has been widely used in the perception (e.g., 3D object detection) of intelligent vehicle driving. Due to the beneficial Vehicle-to-Vehicle (V2V) communication, the deep learning based features from other agents can be shared to the ego vehicle so as to improve the perception of the ego vehicle. It is named as Cooperative Perception in the V2V research, whose algorithms have been dramatically advanced recently. However, all the existing cooperative perception algorithms assume the ideal V2V communication without considering the possible lossy shared features because of the Lossy Communication (LC) which is common in the complex real-world driving scenarios. In this paper, we first study the side effect (e.g., detection performance drop) by the lossy communication in the V2V Cooperative Perception, and then we propose a novel intermediate LC-aware feature fusion method to relieve the side effect of lossy communication by a LC-aware Repair Network (LCRN) and enhance the interaction between the ego vehicle and other vehicles by a specially designed V2V Attention Module (V2VAM) including intra-vehicle attention of ego vehicle and uncertainty-aware inter-vehicle attention. The extensive experiment on the public cooperative perception dataset OPV2V (based on digital-twin CARLA simulator) demonstrates that the proposed method is quite effective for the cooperative point cloud based 3D object detection under lossy V2V communication.
translated by 谷歌翻译
采用车辆到车辆通信以提高自动驾驶技术中的感知性能,最近引起了相当大的关注;然而,对于基准测试算法的合适开放数据集已经难以开发和评估合作感知技术。为此,我们介绍了用于车辆到车辆的第一个大型开放模拟数据集。它包含超过70个有趣的场景,11,464帧和232,913帧的注释3D车辆边界盒,从卡拉的8个城镇和洛杉矶的数码镇。然后,我们构建了一个全面的基准,共有16种实施模型来评估若干信息融合策略〜(即早期,晚期和中间融合),最先进的激光雷达检测算法。此外,我们提出了一种新的细心中间融合管线,以从多个连接的车辆汇总信息。我们的实验表明,拟议的管道可以很容易地与现有的3D LIDAR探测器集成,即使具有大的压缩速率也可以实现出色的性能。为了鼓励更多的研究人员来调查车辆到车辆的感知,我们将释放数据集,基准方法以及HTTPS://mobility-lab.seas.ucla.edu/opv2v2v/中的所有相关代码。
translated by 谷歌翻译
在本文中,我们调查了车辆到所有(V2X)通信的应用,以提高自动驾驶汽车的感知性能。我们使用新型视觉变压器提供了一个与V2X通信的强大合作感知框架。具体而言,我们建立了一个整体关注模型,即V2X-VIT,以有效地融合跨道路代理(即车辆和基础设施)的信息。 V2X-VIT由异质多代理自我注意和多尺度窗口自我注意的交替层组成,该层捕获了代理间的相互作用和全面的空间关系。这些关键模块在统一的变压器体系结构中设计,以应对常见的V2X挑战,包括异步信息共享,姿势错误和V2X组件的异质性。为了验证我们的方法,我们使用Carla和OpenCDA创建了一个大规模的V2X感知数据集。广泛的实验结果表明,V2X-VIT设置了3D对象检测的新最先进的性能,即使在恶劣的嘈杂环境下,也可以实现强大的性能。该代码可在https://github.com/derrickxunu/v2x-vit上获得。
translated by 谷歌翻译
合作感允许连接的自动驾驶汽车(CAV)与附近的其他骑士相互作用,以增强对周围物体的感知以提高安全性和可靠性。它可以弥补常规车辆感知的局限性,例如盲点,低分辨率和天气影响。合作感知中间融合方法的有效特征融合模型可以改善特征选择和信息聚集,以进一步提高感知精度。我们建议具有可训练的特征选择模块的自适应特征融合模型。我们提出的模型之一是通过空间自适应特征融合(S-Adafusion)在OPV2V数据集的两个子集上的所有其他最先进的模型:默认的Carla Towns用于车辆检测和用于域适应的Culver City。此外,先前的研究仅测试了合作感的车辆检测。但是,行人在交通事故中更有可能受到重伤。我们使用CODD数据集评估了车辆和行人检测的合作感的性能。与CODD数据集中的车辆和行人检测相比,我们的架构达到的平均精度(AP)高。实验表明,与常规感知过程相比,合作感也可以提高行人检测准确性。
translated by 谷歌翻译
Utilizing the latest advances in Artificial Intelligence (AI), the computer vision community is now witnessing an unprecedented evolution in all kinds of perception tasks, particularly in object detection. Based on multiple spatially separated perception nodes, Cooperative Perception (CP) has emerged to significantly advance the perception of automated driving. However, current cooperative object detection methods mainly focus on ego-vehicle efficiency without considering the practical issues of system-wide costs. In this paper, we introduce VINet, a unified deep learning-based CP network for scalable, lightweight, and heterogeneous cooperative 3D object detection. VINet is the first CP method designed from the standpoint of large-scale system-level implementation and can be divided into three main phases: 1) Global Pre-Processing and Lightweight Feature Extraction which prepare the data into global style and extract features for cooperation in a lightweight manner; 2) Two-Stream Fusion which fuses the features from scalable and heterogeneous perception nodes; and 3) Central Feature Backbone and 3D Detection Head which further process the fused features and generate cooperative detection results. A cooperative perception platform is designed and developed for CP dataset acquisition and several baselines are compared during the experiments. The experimental analysis shows that VINet can achieve remarkable improvements for pedestrians and cars with 2x less system-wide computational costs and 12x less system-wide communicational costs.
translated by 谷歌翻译
感知环境是实现合作驾驶自动化(CDA)的最基本关键之一,该关键被认为是解决当代运输系统的安全性,流动性和可持续性问题的革命性解决方案。尽管目前在计算机视觉的物体感知领域正在发生前所未有的进化,但由于不可避免的物理遮挡和单辆车的接受程度有限,最先进的感知方法仍在与复杂的现实世界流量环境中挣扎系统。基于多个空间分离的感知节点,合作感知(CP)诞生是为了解锁驱动自动化的感知瓶颈。在本文中,我们全面审查和分析了CP的研究进度,据我们所知,这是第一次提出统一的CP框架。审查了基于不同类型的传感器的CP系统的体系结构和分类学,以显示对CP系统的工作流程和不同结构的高级描述。对节点结构,传感器模式和融合方案进行了审查和分析,并使用全面的文献进行了详细的解释。提出了分层CP框架,然后对现有数据集和模拟器进行审查,以勾勒出CP的整体景观。讨论重点介绍了当前的机会,开放挑战和预期的未来趋势。
translated by 谷歌翻译
感知是自动驾驶系统的关键模块之一,最近取得了长足的进步。但是,单个车辆的能力有限,导致感知表现的瓶颈。为了突破个人感知的局限性,已经提出了协作感知,使车辆能够共享信息以了解超出视线和视野的环境。在本文中,我们对有关有前途的协作感知技术的相关工作进行了评论,包括介绍基本概念,推广协作模式并总结协作感知的关键成分和应用。最后,我们讨论了该研究领域的公开挑战和问题,并提供了一些潜在的方向。
translated by 谷歌翻译
车辆到所有(V2X)通信技术使车辆与附近环境中许多其他实体之间的协作可以从根本上改善自动驾驶的感知系统。但是,缺乏公共数据集极大地限制了协作感知的研究进度。为了填补这一空白,我们提出了V2X-SIM,这是一个针对V2X辅助自动驾驶的全面模拟多代理感知数据集。 V2X-SIM提供:(1)\ hl {Multi-Agent}传感器记录来自路边单元(RSU)和多种能够协作感知的车辆,(2)多模式传感器流,可促进多模式感知和多模式感知和(3)支持各种感知任务的各种基础真理。同时,我们在三个任务(包括检测,跟踪和细分)上为最先进的协作感知算法提供了一个开源测试台,并为最先进的协作感知算法提供了基准。 V2X-SIM试图在现实数据集广泛使用之前刺激自动驾驶的协作感知研究。我们的数据集和代码可在\ url {https://ai4ce.github.io/v2x-sim/}上获得。
translated by 谷歌翻译
Bird's Eye View(BEV)语义分割在自动驾驶的空间传感中起着至关重要的作用。尽管最近的文献在BEV MAP的理解上取得了重大进展,但它们都是基于基于摄像头的系统,这些系统难以处理遮挡并检测复杂的交通场景中的遥远对象。车辆到车辆(V2V)通信技术使自动驾驶汽车能够共享感应信息,与单代理系统相比,可以显着改善感知性能和范围。在本文中,我们提出了Cobevt,这是可以合作生成BEV MAP预测的第一个通用多代理多机构感知框架。为了有效地从基础变压器体系结构中的多视图和多代理数据融合相机功能,我们设计了融合的轴向注意力或传真模块,可以捕获跨视图和代理的局部和全局空间交互。 V2V感知数据集OPV2V的广泛实验表明,COBEVT实现了合作BEV语义分段的最新性能。此外,COBEVT被证明可以推广到其他任务,包括1)具有单代理多摄像机的BEV分割和2)具有多代理激光雷达系统的3D对象检测,并实现具有实时性能的最新性能时间推理速度。
translated by 谷歌翻译
现有的多代理感知系统假设每个代理都使用具有相同参数和体系结构的相同模型。由于置信度得分不匹配,因此可以通过不同的感知模型来降低性能。在这项工作中,我们提出了一个模型不足的多代理感知框架,以减少由模型差异造成的负面影响,而无需共享模型信息。具体而言,我们提出了一个可以消除预测置信度得分偏置的置信校准器。每个代理商在标准的公共数据库中独立执行此类校准,以保护知识产权。我们还提出了一个相应的边界盒聚合算法,该算法考虑了相邻框的置信度得分和空间协议。我们的实验阐明了不同试剂的模型校准的必要性,结果表明,提出的框架改善了异质剂的基线3D对象检测性能。
translated by 谷歌翻译
车辆到所有(V2X)网络已使自主驾驶中的合作感达到了协作感,这是对独立情报的根本缺陷的有前途的解决方案,包括盲区和远距离感知。但是,缺乏数据集严重阻碍了协作感知算法的发展。在这项工作中,我们发布了海豚:用于协作感知的数据集,可以使和谐且相互联系的自动驾驶,这是一个新的模拟大规模的各种大规模的各种赛车多模式多模式自动驾驶数据集,该数据集为互连为互连的开创性基准平台提供自动驾驶。海豚在六个维度上优于当前数据集:从车辆和道路侧单元(RSU)(RSUS)的临时图像和点云,启用车辆到车辆(V2V)和车辆到基础设施(V2I)的协作感知; 6具有动态天气条件的典型场景使各种互连的自动驾驶数据集最多;精心选择的观点,提供关键区域和每个对象的全部覆盖范围; 42376帧和292549个对象,以及相应的3D注释,地理位置和校准,构成了最大的协作知觉数据集;全高清图像和64线激光雷达构建高分辨率数据,并具有足够的详细信息;组织良好的API和开源代码可确保海豚的可扩展性。我们还构建了2D检测,3D检测和关于海豚的多视图协作任务的基准。实验结果表明,通过V2X通信的原始融合方案可以帮助提高精度,并在RSU存在时减少昂贵的LiDAR设备的必要性,这可能会加速相互联系的自动驾驶车辆的普及。现在可以在https://dolphins-dataset.net/上获得海豚。
translated by 谷歌翻译
近年来,自主驾驶LIDAR数据的3D对象检测一直在迈出卓越的进展。在最先进的方法中,已经证明了将点云进行编码为鸟瞰图(BEV)是有效且有效的。与透视图不同,BEV在物体之间保留丰富的空间和距离信息;虽然在BEV中相同类型的更远物体不会较小,但它们包含稀疏点云特征。这一事实使用共享卷积神经网络削弱了BEV特征提取。为了解决这一挑战,我们提出了范围感知注意网络(RAANET),提取更强大的BEV功能并产生卓越的3D对象检测。范围感知的注意力(RAA)卷曲显着改善了近距离的特征提取。此外,我们提出了一种新的辅助损耗,用于密度估计,以进一步增强覆盖物体的Raanet的检测精度。值得注意的是,我们提出的RAA卷积轻量级,并兼容,以集成到用于BEV检测的任何CNN架构中。 Nuscenes DataSet上的广泛实验表明,我们的提出方法优于基于LIDAR的3D对象检测的最先进的方法,具有16 Hz的实时推断速度,为LITE版本为22 Hz。该代码在匿名GitHub存储库HTTPS://github.com/Anonymous0522 / ange上公开提供。
translated by 谷歌翻译
为了促进更好的性能带宽权衡,以实现多种代理人的感知,我们提出了一种新颖的蒸馏协作图(光盘),以模拟代理商之间的培训,姿势感知和适应性协作。我们的主要新科特迪斯在两个方面。首先,我们提出了一位教师学生框架通过知识蒸馏训练光盘。教师模型采用与全面查看输入的早期合作;学生模型基于中间协作与单视图输入。我们的框架通过在学生模型中约束协作后的特征地图来列进讨论,以匹配教师模型的对应关系。其次,我们提出了矩阵值的边缘重量。在这样的矩阵中,每个元素将互及的间歇注意力反映在特定空间区域,允许代理自适应地突出显示信息区域。在推论期间,我们只需要使用名为Distilled Collaboration Network的学生模型(Disconet)。归因于师生框架,具有共享Disconet的多个代理商可以协作地与整体视图进行假设教师模型的表现。我们的方法在V2X-SIM 1.0上验证了我们使用Carla和Sumo Co-Simulation合成的大规模多代理感知数据集。我们在多代理3D对象检测中的定量和定性实验表明,Disconet不仅可以实现比最先进的协作的感知方法更好的性能带宽权衡,而且还带来了更直接的设计理由。我们的代码可在https://github.com/ai4ce/disconet上找到。
translated by 谷歌翻译
多代理协作感知可以通过使代理商能够通过交流相互共享互补信息来显着升级感知表现。它不可避免地会导致感知表现与沟通带宽之间的基本权衡。为了解决这个瓶颈问题,我们提出了一个空间置信度图,该图反映了感知信息的空间异质性。它使代理只能在空间上共享稀疏而感知的关键信息,从而有助于沟通。基于这张新型的空间置信度图,我们提出了2Comm,即沟通有效的协作感知框架。其中2Comm具有两个不同的优势:i)它考虑了实用的压缩,并使用较少的沟通来通过专注于感知至关重要的领域来实现更高的感知表现; ii)它可以通过动态调整涉及通信的空间区域来处理不同的通信带宽。要评估2comm的位置,我们考虑了在现实世界和模拟方案中使用两种模式(相机/激光镜头)和两种代理类型(CAR/无人机)的3D对象检测:OPV2V,v2x-sim,dair-v2x和我们的原始的Coperception-uavs。其中2comm始终优于先前的方法;例如,它实现了超过$ 100,000 \ times $较低的通信量,并且在OPV2V上仍然优于脱颖而出和v2x-vit。我们的代码可在https://github.com/mediabrain-sjtu/where2comm上找到。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
Fusing the camera and LiDAR information has become a de-facto standard for 3D object detection tasks. Current methods rely on point clouds from the LiDAR sensor as queries to leverage the feature from the image space. However, people discovered that this underlying assumption makes the current fusion framework infeasible to produce any prediction when there is a LiDAR malfunction, regardless of minor or major. This fundamentally limits the deployment capability to realistic autonomous driving scenarios. In contrast, we propose a surprisingly simple yet novel fusion framework, dubbed BEVFusion, whose camera stream does not depend on the input of LiDAR data, thus addressing the downside of previous methods. We empirically show that our framework surpasses the state-of-the-art methods under the normal training settings. Under the robustness training settings that simulate various LiDAR malfunctions, our framework significantly surpasses the state-of-the-art methods by 15.7% to 28.9% mAP. To the best of our knowledge, we are the first to handle realistic LiDAR malfunction and can be deployed to realistic scenarios without any post-processing procedure. The code is available at https://github.com/ADLab-AutoDrive/BEVFusion.
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
车辆到设施通信技术的最新进展使自动驾驶汽车能够共享感官信息以获得更好的感知性能。随着自动驾驶汽车和智能基础设施的快速增长,V2X感知系统将很快在大规模部署,这引发了一个关键的问题:我们如何在现实世界部署之前在挑战性的交通情况下评估和改善其性能?收集多样化的大型现实世界测试场景似乎是最简单的解决方案,但昂贵且耗时,而且收藏量只能涵盖有限的情况。为此,我们提出了第一个开放的对抗场景生成器V2XP-ASG,该发电机可以为现代基于激光雷达的多代理感知系统产生现实,具有挑战性的场景。 V2XP-ASG学会了构建对抗性协作图,并以对抗性和合理的方式同时扰动多个代理的姿势。该实验表明,V2XP-ASG可以有效地确定各种V2X感知系统的具有挑战性的场景。同时,通过对有限数量的挑战场景进行培训,V2X感知系统的准确性可以进一步提高12.3%,而正常场景的准确性可以进一步提高4%。
translated by 谷歌翻译
它得到了很好的认识到,从深度感知的LIDAR点云和语义富有的立体图像中融合互补信息将有利于3D对象检测。然而,探索稀疏3D点和密集2D像素之间固有的不自然相互作用并不重要。为了简化这种困难,最近的建议通常将3D点投影到2D图像平面上以对图像数据进行采样,然后聚合点处的数据。然而,这种方法往往遭受点云和RGB图像的分辨率之间的不匹配,导致次优性能。具体地,作为多模态数据聚合位置的稀疏点导致高分辨率图像的严重信息丢失,这反过来破坏了多传感器融合的有效性。在本文中,我们呈现VPFNET - 一种新的架构,可以在“虚拟”点处巧妙地对齐和聚合点云和图像数据。特别地,它们的密度位于3D点和2D像素的密度之间,虚拟点可以很好地桥接两个传感器之间的分辨率间隙,从而保持更多信息以进行处理。此外,我们还研究了可以应用于点云和RGB图像的数据增强技术,因为数据增强对迄今为止对3D对象探测器的贡献不可忽略。我们对Kitti DataSet进行了广泛的实验,与最先进的方法相比,观察到了良好的性能。值得注意的是,我们的VPFNET在KITTI测试集上实现了83.21 \%中等3D AP和91.86 \%适度的BEV AP,自2021年5月21日起排名第一。网络设计也考虑了计算效率 - 我们可以实现FPS 15对单个NVIDIA RTX 2080TI GPU。该代码将用于复制和进一步调查。
translated by 谷歌翻译
具有自动化和连通性的赋予,连接和自动化的车辆旨在成为合作驾驶自动化的革命性推动者。然而,骑士需要对周围环境的高保真感知信息,但从各种车载传感器以及车辆到所有的通信(v2x)通信中都可以昂贵。因此,通过具有成本效益的平台基于高保真传感器的真实感知信息对于启用与CDA相关的研究(例如合作决策或控制)至关重要。大多数针对CAVS的最先进的交通模拟研究都通过直接呼吁对象的内在属性来依赖情况 - 意识信息,这阻碍了CDA算法评估的可靠性和保真度。在这项研究中,\ textit {网络移动镜(CMM)}共模拟平台设计用于通过提供真实感知信息来启用CDA。 \ textit {cmm}共模拟平台可以通过高保真传感器感知系统和具有实时重建系统的网络世界模仿现实世界。具体而言,现实世界的模拟器主要负责模拟交通环境,传感器以及真实的感知过程。 Mirror-World Simulator负责重建对象,并将其信息作为模拟器的内在属性,以支持CD​​A算法的开发和评估。为了说明拟议的共模拟平台的功能,将基于路边的激光雷达的车辆感知系统原型作为研究案例。特定的流量环境和CDA任务是为实验设计的,其结果得到了证明和分析以显示平台的性能。
translated by 谷歌翻译