在本文中,我们提出了一种先进的方法,用于针对单眼3D车道检测的问题,通过在2D至3D车道重建过程下利用几何结构。受到先前方法的启发,我们首先分析了3D车道与其2D表示之间的几何启发式,并提议根据先验的结构进行明确的监督,这使建立车上和车内的关系可以实现,以促进促进。从本地到全球的3D车道的重建。其次,为了减少2D车道表示中的结构损失,我们直接从前视图图像中提取顶视车道信息,从而极大地缓解了以前方法中遥远的车道特征的混淆。此外,我们通过在管道中综合新的培训数据来分割和重建任务,以应对相机姿势和地面斜率的不平衡数据分布,以改善对看不见的数据的概括,以应对我们的管道中的分割和重建任务,以对抗分割和重建任务,从而提出了一种新颖的任务数据增强方法。我们的工作标志着首次尝试使用几何信息到基于DNN的3D车道检测中的尝试,并使其可用于检测超长距离的车道,从而使原始检测范围增加一倍。提出的方法可以由其他框架平稳地采用,而无需额外的成本。实验结果表明,我们的工作表现优于Apollo 3D合成数据集的最先进方法以82 fps的实时速度在不引入额外参数的情况下实时速度为3.8%。
translated by 谷歌翻译
与2D车道相比,实际3D车道数据很难准确收集。在本文中,我们提出了一种仅使用2D车道标签训练3D车道的新方法,称为弱监督的3D车道检测WS-3D车道。通过在相邻车道上的恒定车道宽度和相等高度的假设,我们间接监督训练中的3D车道高度。为了克服数据收集过程中相机音调动态变化的问题,提出了相机音调自校准方法。在锚固表示中,我们提出了一个具有改进的非限量抑制(NMS)方法的双层锚,该方法使基于锚的方法可以预测两条接近的车道线。实验是在两种监督方法下在3D-LANENEN的基础上进行的。在弱监督的环境下,我们的WS-3D车道的表现优于先前的3D-LANEN:APOLLO 3D合成数据集的F得分上升到92.3%,而F1在3DDLANES上上升到74.5%。同时,在纯监督环境中的WS-3D车道可以提高更多的增量,并且优于最先进的设置。据我们所知,WS-3D车道是在弱监督环境下进行3D车道检测的第一次尝试。
translated by 谷歌翻译
最近已经提出了3D车道检测的方法,以解决许多自动驾驶场景(上坡/下坡,颠簸等)中不准确的车道布局问题。先前的工作在复杂的情况下苦苦挣扎,因为它们对前视图和鸟类视图(BEV)之间的空间转换以及缺乏现实数据集的简单设计。在这些问题上,我们介绍了Persformer:具有新型基于变压器的空间特征变换模块的端到端单眼3D车道检测器。我们的模型通过参考摄像头参数来参与相关的前视本地区域来生成BEV功能。 Persformer采用统一的2D/3D锚设计和辅助任务,以同时检测2D/3D车道,从而提高功能一致性并分享多任务学习的好处。此外,我们发布了第一个大型现实世界3D车道数据集之一:OpenLane,具有高质量的注释和场景多样性。 OpenLane包含200,000帧,超过880,000个实例级别的车道,14个车道类别,以及场景标签和封闭式对象注释,以鼓励开发车道检测和更多与工业相关的自动驾驶方法。我们表明,在新的OpenLane数据集和Apollo 3D Lane合成数据集中,Persformer在3D车道检测任务中的表现明显优于竞争基线,并且在OpenLane上的2D任务中也与最新的算法相当。该项目页面可在https://github.com/openperceptionx/persformer_3dlane上找到,OpenLane数据集可在https://github.com/openperceptionx/openlane上提供。
translated by 谷歌翻译
从相机中检测3D车道是自动车辆的一个上升问题。在此任务中,正确的相机姿势是生成准确通道的关键,可以将图像从透视图转换为顶视图。通过这种转变,我们可以摆脱透视效果,使得3D车道看起来相似,可以精确地装配低阶多项式。然而,主流3D车道探测器依赖于其他传感器提供的完美相机姿势,这是昂贵的并且遇到多传感器校准问题。为了克服这个问题,我们建议通过用双级框架估计来自单个图像的摄像机姿势来预测3D车道。第一阶段针对从透视图图像的相机姿势任务。为了提高姿势估计,我们介绍了辅助3D车道任务和几何约束,从多任务学习中受益,这增强了3D和2D之间的常规,以及在上述两个任务中的兼容性。第二阶段针对3D Lane任务。它使用先前估计的姿势来生成包含距离不变通道外观的顶视图,以预测准确的3D车道。实验表明,如果没有地面真相相机姿势,我们的方法优于最先进的完美相机姿势的方法,并且具有最少的参数和计算。代码在https://github.com/liuruijin17/clgo提供。
translated by 谷歌翻译
3D车道检测是自动驾驶系统的组成部分。以前的CNN和基于变压器的方法通常首先从前视图图像中生成鸟类视图(BEV)特征映射,然后使用带有BEV功能映射的子网络作为输入来预测3D车道。这种方法需要在BEV和前视图之间进行明确的视图转换,这本身仍然是一个具有挑战性的问题。在本文中,我们提出了一种基于单阶段变压器的方法,该方法直接计算3D车道参数并可以规避困难的视图变换步骤。具体而言,我们通过使用曲线查询来将3D车道检测作为曲线传播问题。 3D车道查询由动态和有序的锚点集表示。通过这种方式,在变压器解码器迭代中具有曲线表示的查询可完善3D车道检测结果。此外,引入了曲线交叉意见模块,以计算曲线查询和图像特征之间的相似性。此外,提供了可以捕获曲线查询更多相对图像特征的上下文采样模块,以进一步提高3D车道检测性能。我们评估了合成数据集和现实数据集的3D车道检测方法,实验结果表明,与最先进的方法相比,我们的方法实现了有希望的性能。每个组件的有效性也通过消融研究验证。
translated by 谷歌翻译
LIDAR的准确3D对象检测对于自动驾驶至关重要。现有的研究全都基于平坦的假设。但是,实际的道路可能会在陡峭的部分中很复杂,从而打破了前提。在这种情况下,当前方法由于难以正确检测到倾斜的地形上的物体而受到性能降解。在这项工作中,我们提出了DET6D,这是第一个没有空间和姿势局限性的自由度3D对象检测器,以改善地形鲁棒性。我们通过建立在整个空间范围内检测对象的能力来选择基于点的框架。为了预测包括音高和滚动在内的全程姿势,我们设计了一个利用当地地面约束的地面方向分支。鉴于长尾非平板场景数据收集和6D姿势注释的难度,我们提出了斜坡,这是一种数据增强方法,用于从平面场景中记录的现有数据集中合成非平板地形。各种数据集的实验证明了我们方法在不同地形上的有效性和鲁棒性。我们进一步进行了扩展实验,以探索网络如何预测两个额外的姿势。提出的模块是现有基于点的框架的插件。该代码可在https://github.com/hitsz-nrsl/de6d上找到。
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
Accurate localization ability is fundamental in autonomous driving. Traditional visual localization frameworks approach the semantic map-matching problem with geometric models, which rely on complex parameter tuning and thus hinder large-scale deployment. In this paper, we propose BEV-Locator: an end-to-end visual semantic localization neural network using multi-view camera images. Specifically, a visual BEV (Birds-Eye-View) encoder extracts and flattens the multi-view images into BEV space. While the semantic map features are structurally embedded as map queries sequence. Then a cross-model transformer associates the BEV features and semantic map queries. The localization information of ego-car is recursively queried out by cross-attention modules. Finally, the ego pose can be inferred by decoding the transformer outputs. We evaluate the proposed method in large-scale nuScenes and Qcraft datasets. The experimental results show that the BEV-locator is capable to estimate the vehicle poses under versatile scenarios, which effectively associates the cross-model information from multi-view images and global semantic maps. The experiments report satisfactory accuracy with mean absolute errors of 0.052m, 0.135m and 0.251$^\circ$ in lateral, longitudinal translation and heading angle degree.
translated by 谷歌翻译
由于其稀疏和细长的性质,估算3D空间中准确的车道线仍然具有挑战性。在这项工作中,我们提出了M^2-3dlanenet,这是一个有效3D车道检测的多模式框架。旨在集成来自多传感器的互补信息,M^2-3dlanenet首先将多模式特征提取具有模态特异性骨架,然后将它们融合在统一的鸟眼视图(BEV)空间中。具体而言,我们的方法由两个核心组成部分组成。 1)要获得准确的2D-3D映射,我们提出了自上而下的BEV生成。其中,使用线条限制的变形(LRDA)模块可用于以自上而下的方式有效地增强图像特征,从而充分捕获车道的细长特征。之后,它使用深度感知的举重将2D锥体特征投入到3D空间中,并通过枕形生成BEV特征。 2)我们进一步提出了自下而上的BEV融合,该融合通过多尺度的级联注意力汇总了多模式特征,从而集成了来自摄像头和激光雷达传感器的互补信息。足够的实验证明了M^2-3dlanenet的有效性,该实验的有效性超过了先前的最先进方法,即在OpenLane数据集上提高了12.1%的F1-SCORE改善。
translated by 谷歌翻译
High-definition (HD) semantic map generation of the environment is an essential component of autonomous driving. Existing methods have achieved good performance in this task by fusing different sensor modalities, such as LiDAR and camera. However, current works are based on raw data or network feature-level fusion and only consider short-range HD map generation, limiting their deployment to realistic autonomous driving applications. In this paper, we focus on the task of building the HD maps in both short ranges, i.e., within 30 m, and also predicting long-range HD maps up to 90 m, which is required by downstream path planning and control tasks to improve the smoothness and safety of autonomous driving. To this end, we propose a novel network named SuperFusion, exploiting the fusion of LiDAR and camera data at multiple levels. We benchmark our SuperFusion on the nuScenes dataset and a self-recorded dataset and show that it outperforms the state-of-the-art baseline methods with large margins. Furthermore, we propose a new metric to evaluate the long-range HD map prediction and apply the generated HD map to a downstream path planning task. The results show that by using the long-range HD maps predicted by our method, we can make better path planning for autonomous vehicles. The code will be available at https://github.com/haomo-ai/SuperFusion.
translated by 谷歌翻译
鉴于其经济性与多传感器设置相比,从单眼输入中感知的3D对象对于机器人系统至关重要。它非常困难,因为单个图像无法提供预测绝对深度值的任何线索。通过双眼方法进行3D对象检测,我们利用了相机自我运动提供的强几何结构来进行准确的对象深度估计和检测。我们首先对此一般的两视案例进行了理论分析,并注意两个挑战:1)来自多个估计的累积错误,这些估计使直接预测棘手; 2)由静态摄像机和歧义匹配引起的固有难题。因此,我们建立了具有几何感知成本量的立体声对应关系,作为深度估计的替代方案,并以单眼理解进一步补偿了它,以解决第二个问题。我们的框架(DFM)命名为深度(DFM),然后使用已建立的几何形状将2D图像特征提升到3D空间并检测到其3D对象。我们还提出了一个无姿势的DFM,以使其在摄像头不可用时可用。我们的框架在Kitti基准测试上的优于最先进的方法。详细的定量和定性分析也验证了我们的理论结论。该代码将在https://github.com/tai-wang/depth-from-motion上发布。
translated by 谷歌翻译
在本文中,我们提出了PETRV2,这是来自多视图图像的3D感知统一框架。基于PETR,PETRV2探讨了时间建模的有效性,该时间建模利用先前帧的时间信息来增强3D对象检测。更具体地说,我们扩展了PETR中的3D位置嵌入(3D PE)进行时间建模。 3D PE可以在不同帧的对象位置上实现时间对齐。进一步引入了特征引导的位置编码器,以提高3D PE的数据适应性。为了支持高质量的BEV分割,PETRV2通过添加一组分割查询提供了简单而有效的解决方案。每个分割查询负责分割BEV映射的一个特定补丁。 PETRV2在3D对象检测和BEV细分方面实现了最先进的性能。在PETR框架上还进行了详细的鲁棒性分析。我们希望PETRV2可以作为3D感知的强大基准。代码可在\ url {https://github.com/megvii-research/petr}中获得。
translated by 谷歌翻译
In this paper, we introduce a novel approach for ground plane normal estimation of wheeled vehicles. In practice, the ground plane is dynamically changed due to braking and unstable road surface. As a result, the vehicle pose, especially the pitch angle, is oscillating from subtle to obvious. Thus, estimating ground plane normal is meaningful since it can be encoded to improve the robustness of various autonomous driving tasks (e.g., 3D object detection, road surface reconstruction, and trajectory planning). Our proposed method only uses odometry as input and estimates accurate ground plane normal vectors in real time. Particularly, it fully utilizes the underlying connection between the ego pose odometry (ego-motion) and its nearby ground plane. Built on that, an Invariant Extended Kalman Filter (IEKF) is designed to estimate the normal vector in the sensor's coordinate. Thus, our proposed method is simple yet efficient and supports both camera- and inertial-based odometry algorithms. Its usability and the marked improvement of robustness are validated through multiple experiments on public datasets. For instance, we achieve state-of-the-art accuracy on KITTI dataset with the estimated vector error of 0.39{\deg}. Our code is available at github.com/manymuch/ground_normal_filter.
translated by 谷歌翻译
深度估计,视觉探测器(VO)和Bird's-eye-view(BEV)场景布局估计提出了三个关键任务,这是驾驶场景感知的三个关键任务,这对于自动驾驶中运动计划和导航至关重要。尽管它们是彼此互补的,但先前的工作通常专注于每个任务,并且很少处理所有三个任务。一种幼稚的方法是以顺序或平行的方式独立实现它们,但是有很多缺点,即1)深度和vo结果遭受了固有的规模歧义问题; 2)BEV布局是从前视图像直接预测的,而无需使用任何与深度相关的信息,尽管深度图包含用于推断场景布局的有用几何线索。在本文中,我们通过提出一个名为jperceiver的新型关节感知框架来解决这些问题,该框架可以同时估算从单眼视频序列中估算尺度感知的深度和vo以及BEV布局。它利用了跨视图几何变换(CGT),以基于精心设计的量表损失来传播从道路布局到深度和VO的绝对尺度。同时,设计了一个跨视图和跨模式转移(CCT)模块,以通过注意机制利用深度线索来用于推理道路和车辆布局。可以以端到端的多任务学习方式对JPERCEIVER进行培训,其中CGT量表损失和CCT模块可以促进任务间知识转移以使每个任务的功能学习受益。关于Argoverse,Nuscenes和Kitti的实验表明,在准确性,模型大小和推理速度方面,JPEREVER在上述所有三个任务上的优越性。代码和模型可在〜\ href {https://github.com/sunnyhelen/jperceiver} {https://github.com/sunnyhelen/jperceiver}中获得。
translated by 谷歌翻译
鸟眼视图(BEV)语义分割对于具有强大的空间表示能力的自动驾驶至关重要。由于空间间隙而从单眼图像中估算BEV语义图是一项挑战,因为这是隐含的,以实现均可实现透视到bev-bev的转换和分割。我们提出了一个新型的两阶段几何形状的基于GITNET的基于基于的转换框架,由(i)几何引导的预先对准和(ii)基于射线的变压器组成。在第一阶段,我们将BEV分割分解为透视图的图像分割和基于几何的基于几何映射,并通过将BEV语义标签投影到图像平面上,以明确的监督,以学习可见性吸引的特征和可学习的几何形状,以转化为BEV空间。其次,基于射线的变压器将预先一致的粗细BEV特征进一步变形,以考虑可见性知识。 Gitnet在具有挑战性的Nuscenes和Argoverse数据集上实现了领先的表现。
translated by 谷歌翻译
由于LIDAR传感器捕获的精确深度信息缺乏准确的深度信息,单眼3D对象检测是一个关键而挑战的自主驾驶任务。在本文中,我们提出了一种立体引导的单目3D对象检测网络,称为SGM3D,其利用立体图像提取的鲁棒3D特征来增强从单眼图像中学到的特征。我们创新地研究了多粒度域适配模块(MG-DA)以利用网络的能力,以便仅基于单手套提示产生立体模拟功能。利用粗均衡特征级以及精细锚级域适配,以引导单眼分支。我们介绍了一个基于IOO匹配的对齐模块(iou-ma),用于立体声和单眼域之间的对象级域适应,以减轻先前阶段中的不匹配。我们对最具挑战性的基蒂和Lyft数据集进行了广泛的实验,并实现了新的最先进的性能。此外,我们的方法可以集成到许多其他单眼的方法中以提高性能而不引入任何额外的计算成本。
translated by 谷歌翻译
一个自动驾驶感知模型旨在将3D语义表示从多个相机集体提取到自我汽车的鸟类视图(BEV)坐标框架中,以使下游规划师接地。现有的感知方法通常依赖于整个场景的容易出错的深度估计,或者学习稀疏的虚拟3D表示没有目标几何结构,这两者在性能和/或能力上仍然有限。在本文中,我们介绍了一种新颖的端到端体系结构,用于自我3D表示从任意数量的无限摄像机视图中学习。受射线追踪原理的启发,我们将“想象眼睛”的两极分化网格设计为可学习的自我3D表示,并通过适应性注意机制与3D到2D投影一起以自适应注意机制的形式制定学习过程。至关重要的是,该公式允许从2D图像中提取丰富的3D表示,而无需任何深度监督,并且内置的几何结构一致W.R.T. bev。尽管具有简单性和多功能性,但对标准BEV视觉任务(例如,基于摄像机的3D对象检测和BEV细分)进行了广泛的实验表明,我们的模型的表现均优于所有最新替代方案,从多任务学习。
translated by 谷歌翻译
We tackle a new problem of multi-view camera and subject registration in the bird's eye view (BEV) without pre-given camera calibration. This is a very challenging problem since its only input is several RGB images from different first-person views (FPVs) for a multi-person scene, without the BEV image and the calibration of the FPVs, while the output is a unified plane with the localization and orientation of both the subjects and cameras in a BEV. We propose an end-to-end framework solving this problem, whose main idea can be divided into following parts: i) creating a view-transform subject detection module to transform the FPV to a virtual BEV including localization and orientation of each pedestrian, ii) deriving a geometric transformation based method to estimate camera localization and view direction, i.e., the camera registration in a unified BEV, iii) making use of spatial and appearance information to aggregate the subjects into the unified BEV. We collect a new large-scale synthetic dataset with rich annotations for evaluation. The experimental results show the remarkable effectiveness of our proposed method.
translated by 谷歌翻译
In this paper we propose to exploit multiple related tasks for accurate multi-sensor 3D object detection. Towards this goal we present an end-to-end learnable architecture that reasons about 2D and 3D object detection as well as ground estimation and depth completion. Our experiments show that all these tasks are complementary and help the network learn better representations by fusing information at various levels. Importantly, our approach leads the KITTI benchmark on 2D, 3D and bird's eye view object detection, while being real-time. * Equal contribution.† Work done as part of Uber AI Residency program.
translated by 谷歌翻译