已经证明了现代自动驾驶感知系统在处理互补输入之类的利用图像时,已被证明可以改善互补投入。在孤立中,已发现2D图像非常容易受到对抗性攻击的影响。然而,有有限的研究与图像特征融合的多模态模型的对抗鲁棒性。此外,现有的作品不考虑跨输入方式一致的物理上可实现的扰动。在本文中,我们通过将对抗物体放在主车辆的顶部上展示多传感器检测的实际敏感性。我们专注于身体上可实现的和输入 - 不可行的攻击,因为它们是在实践中执行的可行性,并且表明单个通用对手可以隐藏来自最先进的多模态探测器的不同主机。我们的实验表明,成功的攻击主要是由易于损坏的图像特征引起的。此外,我们发现,在将图像特征中的现代传感器融合方法中,对抗攻击可以利用投影过程来在3D中跨越区域产生误报。朝着更强大的多模态感知系统,我们表明,具有特征剥夺的对抗训练可以显着提高对这种攻击的鲁棒性。然而,我们发现标准的对抗性防御仍然努力防止由3D LIDAR点和2D像素之间不准确的关联引起的误报。
translated by 谷歌翻译
随着点云上的3D对象检测依赖于点之间的几何关系,非标准对象形状可以妨碍方法的检测能力。然而,在安全关键环境中,在分销外和长尾样品上的鲁棒性是对规避危险问题的基础,例如损坏或稀有汽车的误读。在这项工作中,我们通过在训练期间考虑到变形的点云来大大改善3D对象探测器的概括到域名数据。我们通过3D-VFIEL实现这一点:一种新的方法,可以通过越野时代的载体衡量物体。我们的方法将3D点限制以沿着传感器视图幻灯片幻灯片,而既不添加也不添加它们中的任何一个。所获得的载体是可转移的,独立于样的和保持形状平滑度和闭塞。通过在训练期间使用这些载体场产生的变形来增强正常样本,我们显着改善了对不同形状物体的鲁棒性,例如损坏/变形汽车,即使仅在基蒂训练。为此,我们提出并分享开源Crashd:现实损坏和稀有汽车的合成数据集,具有各种碰撞情景。在Kitti,Waymo,我们的Crashd和Sun RGB-D上进行了广泛的实验,表明了我们对室内和室外场景的域外数据,不同型号和传感器,即LIDAR和TOF相机的技术的高度普遍性。我们的crashd数据集可在https://crashd-cars.github.io上获得。
translated by 谷歌翻译
最近,3D深度学习模型已被证明易于对其2D对应物的对抗性攻击影响。大多数最先进的(SOTA)3D对抗性攻击对3D点云进行扰动。为了在物理场景中再现这些攻击,需要重建生成的对抗3D点云以网状,这导致其对抗效果显着下降。在本文中,我们提出了一个名为Mesh攻击的强烈的3D对抗性攻击,通过直接对3D对象的网格进行扰动来解决这个问题。为了利用最有效的基于梯度的攻击,介绍了一种可差异化的样本模块,其反向传播点云梯度以网格传播。为了进一步确保没有异常值和3D可打印的对抗性网状示例,采用了三种网格损耗。广泛的实验表明,所提出的方案优于SOTA 3D攻击,通过显着的保证金。我们还在各种防御下实现了SOTA表现。我们的代码可用于:https://github.com/cuge1995/mesh-attack。
translated by 谷歌翻译
Deep learning-based 3D object detectors have made significant progress in recent years and have been deployed in a wide range of applications. It is crucial to understand the robustness of detectors against adversarial attacks when employing detectors in security-critical applications. In this paper, we make the first attempt to conduct a thorough evaluation and analysis of the robustness of 3D detectors under adversarial attacks. Specifically, we first extend three kinds of adversarial attacks to the 3D object detection task to benchmark the robustness of state-of-the-art 3D object detectors against attacks on KITTI and Waymo datasets, subsequently followed by the analysis of the relationship between robustness and properties of detectors. Then, we explore the transferability of cross-model, cross-task, and cross-data attacks. We finally conduct comprehensive experiments of defense for 3D detectors, demonstrating that simple transformations like flipping are of little help in improving robustness when the strategy of transformation imposed on input point cloud data is exposed to attackers. Our findings will facilitate investigations in understanding and defending the adversarial attacks against 3D object detectors to advance this field.
translated by 谷歌翻译
在过去的十年中,深度学习急剧改变了传统的手工艺特征方式,具有强大的功能学习能力,从而极大地改善了传统任务。然而,最近已经证明了深层神经网络容易受到对抗性例子的影响,这种恶意样本由小型设计的噪音制作,误导了DNNs做出错误的决定,同时仍然对人类无法察觉。对抗性示例可以分为数字对抗攻击和物理对抗攻击。数字对抗攻击主要是在实验室环境中进行的,重点是改善对抗性攻击算法的性能。相比之下,物理对抗性攻击集中于攻击物理世界部署的DNN系统,这是由于复杂的物理环境(即亮度,遮挡等),这是一项更具挑战性的任务。尽管数字对抗和物理对抗性示例之间的差异很小,但物理对抗示例具有特定的设计,可以克服复杂的物理环境的效果。在本文中,我们回顾了基于DNN的计算机视觉任务任务中的物理对抗攻击的开发,包括图像识别任务,对象检测任务和语义细分。为了完整的算法演化,我们将简要介绍不涉及身体对抗性攻击的作品。我们首先提出一个分类方案,以总结当前的物理对抗攻击。然后讨论现有的物理对抗攻击的优势和缺点,并专注于用于维持对抗性的技术,当应用于物理环境中时。最后,我们指出要解决的当前身体对抗攻击的问题并提供有前途的研究方向。
translated by 谷歌翻译
In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.
translated by 谷歌翻译
在过去的几年中,自动驾驶的感知系统在其表现方面取得了重大进步。但是,这些系统在极端天气条件下努力表现出稳健性,因为在这些条件下,传感器和相机等传感器套件中的主要传感器都会下降。为了解决此问题,摄像机雷达融合系统为所有可靠的高质量感知提供了独特的机会。相机提供丰富的语义信息,而雷达可以通过遮挡和在所有天气条件下工作。在这项工作中,我们表明,当摄像机输入降解时,最新的融合方法的性能很差,这实际上导致失去了他们设定的全天可靠性。与这些方法相反,我们提出了一种新方法RadSegnet,该方法使用了独立信息提取的新设计理念,并在所有情况下都可以在所有情况下真正实现可靠性,包括遮挡和不利天气。我们在基准ASTYX数据集上开发并验证了我们的系统,并在辐射数据集上进一步验证了这些结果。与最先进的方法相比,Radsegnet在ASTYX上提高了27%,辐射增长了41.46%,平均精度得分,并且在不利天气条件下的性能明显更好
translated by 谷歌翻译
Although Deep Neural Networks (DNNs) have achieved impressive results in computer vision, their exposed vulnerability to adversarial attacks remains a serious concern. A series of works has shown that by adding elaborate perturbations to images, DNNs could have catastrophic degradation in performance metrics. And this phenomenon does not only exist in the digital space but also in the physical space. Therefore, estimating the security of these DNNs-based systems is critical for safely deploying them in the real world, especially for security-critical applications, e.g., autonomous cars, video surveillance, and medical diagnosis. In this paper, we focus on physical adversarial attacks and provide a comprehensive survey of over 150 existing papers. We first clarify the concept of the physical adversarial attack and analyze its characteristics. Then, we define the adversarial medium, essential to perform attacks in the physical world. Next, we present the physical adversarial attack methods in task order: classification, detection, and re-identification, and introduce their performance in solving the trilemma: effectiveness, stealthiness, and robustness. In the end, we discuss the current challenges and potential future directions.
translated by 谷歌翻译
物体检测中的物理对抗攻击引起了越来越受到关注。然而,最先前的作品专注于通过生成单独的对抗贴片来隐藏来自探测器的物体,该贴片仅覆盖车辆表面的平面部分并且无法在物理场景中攻击多视图,长距离和部分封闭的探测器对象。为了弥合数字攻击与物理攻击之间的差距,我们利用完整的3D车辆表面来提出坚固的全面覆盖伪装攻击(FCA)到愚弄探测器。具体来说,我们首先尝试在整个车辆表面上渲染非平面伪装纹理。为了模仿现实世界的环境条件,我们将引入转换功能,将渲染的伪装车辆转移到照片现实场景中。最后,我们设计了一个有效的损失功能,以优化伪装纹理。实验表明,全面覆盖伪装攻击不仅可以在各种测试用例下优于最先进的方法,而且还可以推广到不同的环境,车辆和物体探测器。 FCA的代码可用于:https://idrl-lab.github.io/full-coverage-camouflage -Adversarial-Attack/。
translated by 谷歌翻译
深度学习大大提高了单眼深度估计(MDE)的性能,这是完全基于视觉的自主驾驶(AD)系统(例如特斯拉和丰田)的关键组成部分。在这项工作中,我们对基于学习的MDE产生了攻击。特别是,我们使用基于优化的方法系统地生成隐形的物理对象贴片来攻击深度估计。我们通过面向对象的对抗设计,敏感的区域定位和自然风格的伪装来平衡攻击的隐身和有效性。使用现实世界的驾驶场景,我们评估了对并发MDE模型的攻击和AD的代表下游任务(即3D对象检测)。实验结果表明,我们的方法可以为不同的目标对象和模型生成隐形,有效和健壮的对抗贴片,并在物体检测中以1/1/的斑点检测到超过6米的平均深度估计误差和93%的攻击成功率(ASR)车辆后部9个。具有实际车辆的三个不同驾驶路线上的现场测试表明,在连续视频帧中,我们导致超过6米的平均深度估计误差,并将对象检测率从90.70%降低到5.16%。
translated by 谷歌翻译
基于LIDAR的传感驱动器电流自主车辆。尽管进展迅速,但目前的激光雷达传感器在分辨率和成本方面仍然落后于传统彩色相机背后的二十年。对于自主驾驶,这意味着靠近传感器的大物体很容易可见,但远方或小物体仅包括一个测量或两个。这是一个问题,尤其是当这些对象结果驾驶危险时。另一方面,在车载RGB传感器中清晰可见这些相同的对象。在这项工作中,我们提出了一种将RGB传感器无缝熔化成基于LIDAR的3D识别方法。我们的方法采用一组2D检测来生成密集的3D虚拟点,以增加否则稀疏的3D点云。这些虚拟点自然地集成到任何基于标准的LIDAR的3D探测器以及常规激光雷达测量。由此产生的多模态检测器简单且有效。大规模NUSCENES数据集的实验结果表明,我们的框架通过显着的6.6地图改善了强大的中心点基线,并且优于竞争融合方法。代码和更多可视化可在https://tianweiy.github.io/mvp/上获得
translated by 谷歌翻译
对象攻击是对象检测的现实世界中可行的。然而,大多数以前的作品都试图学习应用于对象的本地“补丁”到愚蠢的探测器,这在斜视视角变得较低。为了解决这个问题,我们提出了致密的提案攻击(DPA)来学习探测器的单件,物理和针对性的对抗性伪装。伪装是一体的,因为它们是作为一个物体的整体生成的,因为当在任意观点和不同的照明条件下拍摄时,它们保持对抗性,并且由于它们可能导致探测器被定义为特定目标类别的检测器。为了使生成的伪装在物理世界中稳健,我们介绍了改造的组合来模拟物理现象。此外,为了改善攻击,DPA同时攻击固定建议中的所有分类。此外,我们使用Unity Simulation Engine构建虚拟3D场景,以公平地和可重复地评估不同的物理攻击。广泛的实验表明,DPA优于最先进的方法,并且对于任何物体而言,它是通用的,并且对现实世界的广泛性良好,对安全关键的计算机视觉系统构成潜在的威胁。
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
考虑到整个时间领域的信息有助于改善自动驾驶中的环境感知。但是,到目前为止,尚未研究暂时融合的神经网络是否容易受到故意产生的扰动,即对抗性攻击,或者时间历史是否是对它们的固有防御。在这项工作中,我们研究了用于对象检测的时间特征网络是否容易受到通用对抗性攻击的影响。我们评估了两种类型的攻击:整个图像和本地界面贴片的不可察觉噪声。在这两种情况下,使用PGD以白盒方式生成扰动。我们的实验证实,即使攻击时间的一部分时间都足以欺骗网络。我们在视觉上评估生成的扰动,以了解攻击功能。为了增强鲁棒性,我们使用5-PGD应用对抗训练。我们在Kitti和Nuscenes数据集上进行的实验证明了通过K-PGD鲁棒化的模型能够承受研究的攻击,同时保持基于地图的性能与未破坏模型的攻击。
translated by 谷歌翻译
3D object detection is an essential task in autonomous driving. Recent techniques excel with highly accurate detection rates, provided the 3D input data is obtained from precise but expensive LiDAR technology. Approaches based on cheaper monocular or stereo imagery data have, until now, resulted in drastically lower accuracies -a gap that is commonly attributed to poor image-based depth estimation. However, in this paper we argue that it is not the quality of the data but its representation that accounts for the majority of the difference. Taking the inner workings of convolutional neural networks into consideration, we propose to convert image-based depth maps to pseudo-LiDAR representations -essentially mimicking the LiDAR signal. With this representation we can apply different existing LiDAR-based detection algorithms. On the popular KITTI benchmark, our approach achieves impressive improvements over the existing state-of-the-art in image-based performance -raising the detection accuracy of objects within the 30m range from the previous state-of-the-art of 22% to an unprecedented 74%. At the time of submission our algorithm holds the highest entry on the KITTI 3D object detection leaderboard for stereo-image-based approaches. Our code is publicly available at https: //github.com/mileyan/pseudo_lidar.
translated by 谷歌翻译
In this paper we propose to exploit multiple related tasks for accurate multi-sensor 3D object detection. Towards this goal we present an end-to-end learnable architecture that reasons about 2D and 3D object detection as well as ground estimation and depth completion. Our experiments show that all these tasks are complementary and help the network learn better representations by fusing information at various levels. Importantly, our approach leads the KITTI benchmark on 2D, 3D and bird's eye view object detection, while being real-time. * Equal contribution.† Work done as part of Uber AI Residency program.
translated by 谷歌翻译
除了在许多视觉任务中实现高性能外,由于模式之间的冗余信息的可用性,多模式模型对单源故障有预期。在本文中,我们研究了多模式神经网络对单个模态上最坏情况(即对抗性)扰动的鲁棒性。我们首先表明,标准的多模式融合模型容易受到单源对手的影响:对任何单个模式的攻击都可以从多个不受干扰的方式中克服正确的信息,并导致模型失败。这种令人惊讶的脆弱性构成了各种多模式任务,因此需要解决方案。在这一发现的激励下,我们提出了一种对抗性强大的融合策略,该策略训练模型以比较来自所有输入源的信息,检测与其他模式相比,在扰动模式中的不一致之处,并且仅允许来自不受干扰的方式的信息通过。我们的方法在单源鲁棒性方面的最先进方法显着提高,在行动识别方面获得了7.8-25.2%的收益,对象检测的19.7-48.2%和1.6-6.7%的情感分析,而没有降低绩效绩效,在不受干扰的(即清洁)数据上。
translated by 谷歌翻译
现有的对抗示例研究重点是在现有自然图像数据集之上进行数字插入的扰动。这种对抗性例子的构造是不现实的,因为攻击者由于感应和环境影响而在现实世界中部署这种攻击可能是困难的,甚至是不可能的。为了更好地理解针对网络物理系统的对抗性示例,我们提出了通过模拟近似现实世界的。在本文中,我们描述了我们的合成数据集生成工具,该工具可以可扩展收集具有现实的对抗示例的合成数据集。我们使用Carla模拟器收集此类数据集并演示与现实世界图像相同的环境变换和处理的模拟攻击。我们的工具已用于收集数据集以帮助评估对抗性示例的功效,并可以在https://github.com/carla-simulator/carla/pull/4992上找到。
translated by 谷歌翻译
最近,融合了激光雷达点云和相机图像,提高了3D对象检测的性能和稳健性,因为这两种方式自然具有强烈的互补性。在本文中,我们通过引入新型级联双向融合〜(CB融合)模块和多模态一致性〜(MC)损耗来提出用于多模态3D对象检测的EPNet ++。更具体地说,所提出的CB融合模块提高点特征的丰富语义信息,以级联双向交互融合方式具有图像特征,导致更全面且辨别的特征表示。 MC损失明确保证预测分数之间的一致性,以获得更全面且可靠的置信度分数。基蒂,JRDB和Sun-RGBD数据集的实验结果展示了通过最先进的方法的EPNet ++的优越性。此外,我们强调一个关键但很容易被忽视的问题,这是探讨稀疏场景中的3D探测器的性能和鲁棒性。广泛的实验存在,EPNet ++优于现有的SOTA方法,在高稀疏点云壳中具有显着的边距,这可能是降低LIDAR传感器的昂贵成本的可用方向。代码将来会发布。
translated by 谷歌翻译
我们提出了DeepFusion,这是一种模块化的多模式结构,可在不同组合中以3D对象检测为融合激光雷达,相机和雷达。专门的功能提取器可以利用每种模式,并且可以轻松交换,从而使该方法变得简单而灵活。提取的特征被转化为鸟眼视图,作为融合的共同表示。在特征空间中融合方式之前,先进行空间和语义对齐。最后,检测头利用丰富的多模式特征,以改善3D检测性能。 LIDAR相机,激光摄像头雷达和摄像头融合的实验结果显示了我们融合方法的灵活性和有效性。在此过程中,我们研究了高达225米的遥远汽车检测的很大程度上未开发的任务,显示了激光摄像机融合的好处。此外,我们研究了3D对象检测的LIDAR点所需的密度,并在对不利天气条件的鲁棒性示例中说明了含义。此外,对我们的摄像头融合的消融研究突出了准确深度估计的重要性。
translated by 谷歌翻译