从相机中检测3D车道是自动车辆的一个上升问题。在此任务中,正确的相机姿势是生成准确通道的关键,可以将图像从透视图转换为顶视图。通过这种转变,我们可以摆脱透视效果,使得3D车道看起来相似,可以精确地装配低阶多项式。然而,主流3D车道探测器依赖于其他传感器提供的完美相机姿势,这是昂贵的并且遇到多传感器校准问题。为了克服这个问题,我们建议通过用双级框架估计来自单个图像的摄像机姿势来预测3D车道。第一阶段针对从透视图图像的相机姿势任务。为了提高姿势估计,我们介绍了辅助3D车道任务和几何约束,从多任务学习中受益,这增强了3D和2D之间的常规,以及在上述两个任务中的兼容性。第二阶段针对3D Lane任务。它使用先前估计的姿势来生成包含距离不变通道外观的顶视图,以预测准确的3D车道。实验表明,如果没有地面真相相机姿势,我们的方法优于最先进的完美相机姿势的方法,并且具有最少的参数和计算。代码在https://github.com/liuruijin17/clgo提供。
translated by 谷歌翻译
在本文中,我们提出了一种先进的方法,用于针对单眼3D车道检测的问题,通过在2D至3D车道重建过程下利用几何结构。受到先前方法的启发,我们首先分析了3D车道与其2D表示之间的几何启发式,并提议根据先验的结构进行明确的监督,这使建立车上和车内的关系可以实现,以促进促进。从本地到全球的3D车道的重建。其次,为了减少2D车道表示中的结构损失,我们直接从前视图图像中提取顶视车道信息,从而极大地缓解了以前方法中遥远的车道特征的混淆。此外,我们通过在管道中综合新的培训数据来分割和重建任务,以应对相机姿势和地面斜率的不平衡数据分布,以改善对看不见的数据的概括,以应对我们的管道中的分割和重建任务,以对抗分割和重建任务,从而提出了一种新颖的任务数据增强方法。我们的工作标志着首次尝试使用几何信息到基于DNN的3D车道检测中的尝试,并使其可用于检测超长距离的车道,从而使原始检测范围增加一倍。提出的方法可以由其他框架平稳地采用,而无需额外的成本。实验结果表明,我们的工作表现优于Apollo 3D合成数据集的最先进方法以82 fps的实时速度在不引入额外参数的情况下实时速度为3.8%。
translated by 谷歌翻译
3D车道检测是自动驾驶系统的组成部分。以前的CNN和基于变压器的方法通常首先从前视图图像中生成鸟类视图(BEV)特征映射,然后使用带有BEV功能映射的子网络作为输入来预测3D车道。这种方法需要在BEV和前视图之间进行明确的视图转换,这本身仍然是一个具有挑战性的问题。在本文中,我们提出了一种基于单阶段变压器的方法,该方法直接计算3D车道参数并可以规避困难的视图变换步骤。具体而言,我们通过使用曲线查询来将3D车道检测作为曲线传播问题。 3D车道查询由动态和有序的锚点集表示。通过这种方式,在变压器解码器迭代中具有曲线表示的查询可完善3D车道检测结果。此外,引入了曲线交叉意见模块,以计算曲线查询和图像特征之间的相似性。此外,提供了可以捕获曲线查询更多相对图像特征的上下文采样模块,以进一步提高3D车道检测性能。我们评估了合成数据集和现实数据集的3D车道检测方法,实验结果表明,与最先进的方法相比,我们的方法实现了有希望的性能。每个组件的有效性也通过消融研究验证。
translated by 谷歌翻译
最近已经提出了3D车道检测的方法,以解决许多自动驾驶场景(上坡/下坡,颠簸等)中不准确的车道布局问题。先前的工作在复杂的情况下苦苦挣扎,因为它们对前视图和鸟类视图(BEV)之间的空间转换以及缺乏现实数据集的简单设计。在这些问题上,我们介绍了Persformer:具有新型基于变压器的空间特征变换模块的端到端单眼3D车道检测器。我们的模型通过参考摄像头参数来参与相关的前视本地区域来生成BEV功能。 Persformer采用统一的2D/3D锚设计和辅助任务,以同时检测2D/3D车道,从而提高功能一致性并分享多任务学习的好处。此外,我们发布了第一个大型现实世界3D车道数据集之一:OpenLane,具有高质量的注释和场景多样性。 OpenLane包含200,000帧,超过880,000个实例级别的车道,14个车道类别,以及场景标签和封闭式对象注释,以鼓励开发车道检测和更多与工业相关的自动驾驶方法。我们表明,在新的OpenLane数据集和Apollo 3D Lane合成数据集中,Persformer在3D车道检测任务中的表现明显优于竞争基线,并且在OpenLane上的2D任务中也与最新的算法相当。该项目页面可在https://github.com/openperceptionx/persformer_3dlane上找到,OpenLane数据集可在https://github.com/openperceptionx/openlane上提供。
translated by 谷歌翻译
由于其稀疏和细长的性质,估算3D空间中准确的车道线仍然具有挑战性。在这项工作中,我们提出了M^2-3dlanenet,这是一个有效3D车道检测的多模式框架。旨在集成来自多传感器的互补信息,M^2-3dlanenet首先将多模式特征提取具有模态特异性骨架,然后将它们融合在统一的鸟眼视图(BEV)空间中。具体而言,我们的方法由两个核心组成部分组成。 1)要获得准确的2D-3D映射,我们提出了自上而下的BEV生成。其中,使用线条限制的变形(LRDA)模块可用于以自上而下的方式有效地增强图像特征,从而充分捕获车道的细长特征。之后,它使用深度感知的举重将2D锥体特征投入到3D空间中,并通过枕形生成BEV特征。 2)我们进一步提出了自下而上的BEV融合,该融合通过多尺度的级联注意力汇总了多模式特征,从而集成了来自摄像头和激光雷达传感器的互补信息。足够的实验证明了M^2-3dlanenet的有效性,该实验的有效性超过了先前的最先进方法,即在OpenLane数据集上提高了12.1%的F1-SCORE改善。
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
Accurate localization ability is fundamental in autonomous driving. Traditional visual localization frameworks approach the semantic map-matching problem with geometric models, which rely on complex parameter tuning and thus hinder large-scale deployment. In this paper, we propose BEV-Locator: an end-to-end visual semantic localization neural network using multi-view camera images. Specifically, a visual BEV (Birds-Eye-View) encoder extracts and flattens the multi-view images into BEV space. While the semantic map features are structurally embedded as map queries sequence. Then a cross-model transformer associates the BEV features and semantic map queries. The localization information of ego-car is recursively queried out by cross-attention modules. Finally, the ego pose can be inferred by decoding the transformer outputs. We evaluate the proposed method in large-scale nuScenes and Qcraft datasets. The experimental results show that the BEV-locator is capable to estimate the vehicle poses under versatile scenarios, which effectively associates the cross-model information from multi-view images and global semantic maps. The experiments report satisfactory accuracy with mean absolute errors of 0.052m, 0.135m and 0.251$^\circ$ in lateral, longitudinal translation and heading angle degree.
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
与2D车道相比,实际3D车道数据很难准确收集。在本文中,我们提出了一种仅使用2D车道标签训练3D车道的新方法,称为弱监督的3D车道检测WS-3D车道。通过在相邻车道上的恒定车道宽度和相等高度的假设,我们间接监督训练中的3D车道高度。为了克服数据收集过程中相机音调动态变化的问题,提出了相机音调自校准方法。在锚固表示中,我们提出了一个具有改进的非限量抑制(NMS)方法的双层锚,该方法使基于锚的方法可以预测两条接近的车道线。实验是在两种监督方法下在3D-LANENEN的基础上进行的。在弱监督的环境下,我们的WS-3D车道的表现优于先前的3D-LANEN:APOLLO 3D合成数据集的F得分上升到92.3%,而F1在3DDLANES上上升到74.5%。同时,在纯监督环境中的WS-3D车道可以提高更多的增量,并且优于最先进的设置。据我们所知,WS-3D车道是在弱监督环境下进行3D车道检测的第一次尝试。
translated by 谷歌翻译
单眼3D对象检测是自主驾驶中的重要任务。在存在自我汽车姿势改变W.R.T的情况下,它可以很容易难以解决。地平面。由于道路平滑度和斜坡的轻微波动,这很常见。由于工业应用缺乏洞察力,开放数据集的现有方法忽略了相机姿势信息,这不可避免地导致探测器易受相机外在参数的影响。物体的扰动在工业产品最自主驾驶案件中非常受欢迎。为此,我们提出了一种捕获摄像机姿势的新方法,以配制无自脉扰动的检测器。具体地,所提出的框架通过检测消失点和地平线改变来预测相机外在参数。转换器旨在纠正潜在空间中的扰动特征。通过这样做,我们的3D探测器独立于外在参数变化,并在现实情况下产生准确的结果,例如坑道和不均匀的道路,几乎所有现有的单眼检测器都无法处理。实验证明我们的方法与基蒂3D和NUSCENES数据集的大型裕度相比,我们的方法与其他最先进的最先进。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
Estimating 6D poses of objects from images is an important problem in various applications such as robot manipulation and virtual reality. While direct regression of images to object poses has limited accuracy, matching rendered images of an object against the input image can produce accurate results. In this work, we propose a novel deep neural network for 6D pose matching named DeepIM. Given an initial pose estimation, our network is able to iteratively refine the pose by matching the rendered image against the observed image. The network is trained to predict a relative pose transformation using a disentangled representation of 3D location and 3D orientation and an iterative training process. Experiments on two commonly used benchmarks for 6D pose estimation demonstrate that DeepIM achieves large improvements over stateof-the-art methods. We furthermore show that DeepIM is able to match previously unseen objects.
translated by 谷歌翻译
本文通过将地面图像与高架视图卫星地图匹配,解决了车辆安装的相机本地化问题。现有方法通常将此问题视为跨视图图像检索,并使用学习的深度特征将地面查询图像与卫星图的分区(例如,小补丁)匹配。通过这些方法,定位准确性受卫星图的分配密度(通常是按数米的顺序)限制。本文偏离了图像检索的传统智慧,提出了一种新的解决方案,可以实现高度准确的本地化。关键思想是将任务提出为构成估计,并通过基于神经网络的优化解决。具体而言,我们设计了一个两分支{CNN},分别从地面和卫星图像中提取可靠的特征。为了弥合巨大的跨视界域间隙,我们求助于基于相对摄像头姿势的几何投影模块,该模块从卫星地图到地面视图。为了最大程度地减少投影功能和观察到的功能之间的差异,我们采用了可区分的Levenberg-Marquardt({lm})模块来迭代地搜索最佳相机。整个管道都是可区分的,并且端到端运行。关于标准自动驾驶汽车定位数据集的广泛实验已经证实了该方法的优越性。值得注意的是,例如,从40m x 40m的宽区域内的相机位置的粗略估计开始,我们的方法迅速降低了新的Kitti Cross-view数据集中的横向位置误差在5m之内。
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
Figure 1: Results obtained from our single image, monocular 3D object detection network MonoDIS on a KITTI3D test image with corresponding birds-eye view, showing its ability to estimate size and orientation of objects at different scales.
translated by 谷歌翻译
Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.
translated by 谷歌翻译
自动驾驶汽车的现有空间定位技术主要使用预先建造的3D-HD地图,通常使用调查级3D映射车制造,这不仅昂贵,而且还费力。本文表明,通过使用现成的高清卫星图像作为现成的地图,我们能够实现跨视图的定位,直至令人满意的精度,从而提供了更便宜,更实用的方法本土化。尽管将卫星图像用于跨视图本地化的想法并不是什么新鲜事物,但以前的方法几乎只将任务视为图像检索,即将车辆捕获的地面视图与卫星图像匹配。本文提出了一种新颖的跨视图定位方法,该方法与图像检索的共同智慧背道而驰。具体而言,我们的方法开发(1)几何形状 - 分配特征提取器(GAFE),该提取器(GAFE)利用了3D点来弥合地面视图和高架视图之间的几何差距,(2)采用三重态分支,以鼓励姿势感知的特征提取,(3)使用Levenberg-Marquardt(LM)算法的递归姿势精炼分支(RPRB),将初始姿势与真实车辆的效果对齐。我们的方法在Kitti和Ford Multi-AV季节性数据集上被验证为地面视图和Google Maps作为卫星视图。结果表明,我们的方法在跨视图定位方面具有优势,分别在1米和$ 2^\ circ $之内与空间和角度误差。该代码将公开可用。
translated by 谷歌翻译
我们提出MAPTR,这是一个结构化的端到端框架,用于有效的在线矢量化高清图构建。我们提出了一种基于统一的建模方法,即将MAP元素建模为具有一组等效排列的点集,从而避免了地图元素的定义歧义并简化学习。我们采用层次查询嵌入方案来灵活编码结构化的地图信息,并对地图元素学习执行层次结构匹配。 MAPTR在Nuscenes数据集上实现了现有的矢量化MAP构造方法的最佳性能和效率。尤其是,MAPTR-NANO以RTX 3090的实时推理速度($ 25.1 $ fps)运行,比现有的基于最新的摄像头方法快$ 8 \ times $ $,同时获得$ 3.3 $较高的地图。 Maptr-tiny在更快的速度的同时显着优于现有的最新多模式方法$ 13.5 $地图。定性结果表明,MAPTR在复杂和各种驾驶场景中保持稳定且强大的地图构造质量。可在\ url {https://github.com/hustvl/maptr}上获得丰富的演示,以证明在现实世界情景中的有效性。 MAPTR在自动驾驶中具有巨大的应用价值。代码将发布以促进进一步的研究和应用。
translated by 谷歌翻译
来自运动(SFM)的结构和地面相同估计对自动驾驶和其他机器人应用至关重要。最近,使用深神经网络分别用于SFM和同住估计的深度神经网络。然而,直接应用用于地面平面的现有方法可能会失败,因为道路通常是场景的一小部分。此外,深度SFM方法的性能仍然不如传统方法。在本文中,我们提出了一种方法,了解到以端到端的方式解决这两种问题,提高两者的性能。所提出的网络由深度CNN,姿势CNN和地面CNN组成。分别深度CNN和姿势 - CNN估计致密深度图和自我运动,求解SFM,而姿势 - CNN和地下CNN,接着是相同的相同层求解地面估计问题。通过强制SFM和同情侣估计结果之间的一致性,可以使用除了由搁板分段器提供的道路分割之外的光度损耗和单独的损耗来训练整个网络以结束到结束。综合实验是在基蒂基准上进行的,与各种最先进的方法相比,展示了有希望的结果。
translated by 谷歌翻译
深度估计,视觉探测器(VO)和Bird's-eye-view(BEV)场景布局估计提出了三个关键任务,这是驾驶场景感知的三个关键任务,这对于自动驾驶中运动计划和导航至关重要。尽管它们是彼此互补的,但先前的工作通常专注于每个任务,并且很少处理所有三个任务。一种幼稚的方法是以顺序或平行的方式独立实现它们,但是有很多缺点,即1)深度和vo结果遭受了固有的规模歧义问题; 2)BEV布局是从前视图像直接预测的,而无需使用任何与深度相关的信息,尽管深度图包含用于推断场景布局的有用几何线索。在本文中,我们通过提出一个名为jperceiver的新型关节感知框架来解决这些问题,该框架可以同时估算从单眼视频序列中估算尺度感知的深度和vo以及BEV布局。它利用了跨视图几何变换(CGT),以基于精心设计的量表损失来传播从道路布局到深度和VO的绝对尺度。同时,设计了一个跨视图和跨模式转移(CCT)模块,以通过注意机制利用深度线索来用于推理道路和车辆布局。可以以端到端的多任务学习方式对JPERCEIVER进行培训,其中CGT量表损失和CCT模块可以促进任务间知识转移以使每个任务的功能学习受益。关于Argoverse,Nuscenes和Kitti的实验表明,在准确性,模型大小和推理速度方面,JPEREVER在上述所有三个任务上的优越性。代码和模型可在〜\ href {https://github.com/sunnyhelen/jperceiver} {https://github.com/sunnyhelen/jperceiver}中获得。
translated by 谷歌翻译