通过新兴的大规模自动驾驶数据集和深度学习技术的快速发展,单眼3D对象检测(MONO3D)取得了巨大的改进。但是,由于严重的域间隙(例如,视野(FOV),像素大小和数据集中的对象大小)引起的,MONO3D检测器的泛化难度,导致对看不见的域的性能急剧下降。为了解决这些问题,我们将位置不变的变换和多尺度训练与像素大小的深度策略相结合,以构建有效的统一摄像机将军(CGP)。它充分考虑了不同摄像机捕获的图像的FOV和像素大小的差异。此外,当通过详尽的系统研究交叉描述时,我们进一步研究了定量指标的障碍。我们发现预测的大小偏见会导致巨大的失败。因此,我们提出了2d-3d几何符合对象缩放策略(GCO),以通过实例级级增强来弥合差距。我们称为DGMono3D的方法在所有评估的数据集上都能达到出色的性能,并且即使没有在目标域上使用数据,也超过了无监督域的适应方案。
translated by 谷歌翻译
Compared to typical multi-sensor systems, monocular 3D object detection has attracted much attention due to its simple configuration. However, there is still a significant gap between LiDAR-based and monocular-based methods. In this paper, we find that the ill-posed nature of monocular imagery can lead to depth ambiguity. Specifically, objects with different depths can appear with the same bounding boxes and similar visual features in the 2D image. Unfortunately, the network cannot accurately distinguish different depths from such non-discriminative visual features, resulting in unstable depth training. To facilitate depth learning, we propose a simple yet effective plug-and-play module, One Bounding Box Multiple Objects (OBMO). Concretely, we add a set of suitable pseudo labels by shifting the 3D bounding box along the viewing frustum. To constrain the pseudo-3D labels to be reasonable, we carefully design two label scoring strategies to represent their quality. In contrast to the original hard depth labels, such soft pseudo labels with quality scores allow the network to learn a reasonable depth range, boosting training stability and thus improving final performance. Extensive experiments on KITTI and Waymo benchmarks show that our method significantly improves state-of-the-art monocular 3D detectors by a significant margin (The improvements under the moderate setting on KITTI validation set are $\mathbf{1.82\sim 10.91\%}$ mAP in BEV and $\mathbf{1.18\sim 9.36\%}$ mAP in 3D}. Codes have been released at https://github.com/mrsempress/OBMO.
translated by 谷歌翻译
由于LIDAR传感器捕获的精确深度信息缺乏准确的深度信息,单眼3D对象检测是一个关键而挑战的自主驾驶任务。在本文中,我们提出了一种立体引导的单目3D对象检测网络,称为SGM3D,其利用立体图像提取的鲁棒3D特征来增强从单眼图像中学到的特征。我们创新地研究了多粒度域适配模块(MG-DA)以利用网络的能力,以便仅基于单手套提示产生立体模拟功能。利用粗均衡特征级以及精细锚级域适配,以引导单眼分支。我们介绍了一个基于IOO匹配的对齐模块(iou-ma),用于立体声和单眼域之间的对象级域适应,以减轻先前阶段中的不匹配。我们对最具挑战性的基蒂和Lyft数据集进行了广泛的实验,并实现了新的最先进的性能。此外,我们的方法可以集成到许多其他单眼的方法中以提高性能而不引入任何额外的计算成本。
translated by 谷歌翻译
3D对象检测是各种实际应用所需的重要功能,例如驾驶员辅助系统。单眼3D检测作为基于图像的方法的代表性的常规设置,提供比依赖Lidars的传统设置更经济的解决方案,但仍然产生不令人满意的结果。本文首先提出了对这个问题的系统研究。我们观察到,目前的单目3D检测可以简化为实例深度估计问题:不准确的实例深度阻止所有其他3D属性预测改善整体检测性能。此外,最近的方法直接估计基于孤立的实例或像素的深度,同时忽略不同对象的几何关系。为此,我们在跨预测对象构建几何关系图,并使用该图来促进深度估计。随着每个实例的初步深度估计通常在这种不均匀的环境中通常不准确,我们纳入了概率表示以捕获不确定性。它提供了一个重要的指标,以确定自信的预测并进一步引导深度传播。尽管基本思想的简单性,但我们的方法,PGD对基蒂和NUSCENES基准的显着改进,尽管在所有单眼视觉的方法中实现了第1个,同时仍保持实时效率。代码和模型将在https://github.com/open-mmlab/mmdetection3d发布。
translated by 谷歌翻译
Vision-Centric Bird-Eye-View (BEV) perception has shown promising potential and attracted increasing attention in autonomous driving. Recent works mainly focus on improving efficiency or accuracy but neglect the domain shift problem, resulting in severe degradation of transfer performance. With extensive observations, we figure out the significant domain gaps existing in the scene, weather, and day-night changing scenarios and make the first attempt to solve the domain adaption problem for multi-view 3D object detection. Since BEV perception approaches are usually complicated and contain several components, the domain shift accumulation on multi-latent spaces makes BEV domain adaptation challenging. In this paper, we propose a novel Multi-level Multi-space Alignment Teacher-Student ($M^{2}ATS$) framework to ease the domain shift accumulation, which consists of a Depth-Aware Teacher (DAT) and a Multi-space Feature Aligned (MFA) student model. Specifically, DAT model adopts uncertainty guidance to sample reliable depth information in target domain. After constructing domain-invariant BEV perception, it then transfers pixel and instance-level knowledge to student model. To further alleviate the domain shift at the global level, MFA student model is introduced to align task-relevant multi-space features of two domains. To verify the effectiveness of $M^{2}ATS$, we conduct BEV 3D object detection experiments on four cross domain scenarios and achieve state-of-the-art performance (e.g., +12.6% NDS and +9.1% mAP on Day-Night). Code and dataset will be released.
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
Domain adaptation for Cross-LiDAR 3D detection is challenging due to the large gap on the raw data representation with disparate point densities and point arrangements. By exploring domain-invariant 3D geometric characteristics and motion patterns, we present an unsupervised domain adaptation method that overcomes above difficulties. First, we propose the Spatial Geometry Alignment module to extract similar 3D shape geometric features of the same object class to align two domains, while eliminating the effect of distinct point distributions. Second, we present Temporal Motion Alignment module to utilize motion features in sequential frames of data to match two domains. Prototypes generated from two modules are incorporated into the pseudo-label reweighting procedure and contribute to our effective self-training framework for the target domain. Extensive experiments show that our method achieves state-of-the-art performance on cross-device datasets, especially for the datasets with large gaps captured by mechanical scanning LiDARs and solid-state LiDARs in various scenes. Project homepage is at https://github.com/4DVLab/CL3D.git
translated by 谷歌翻译
鉴于其经济性与多传感器设置相比,从单眼输入中感知的3D对象对于机器人系统至关重要。它非常困难,因为单个图像无法提供预测绝对深度值的任何线索。通过双眼方法进行3D对象检测,我们利用了相机自我运动提供的强几何结构来进行准确的对象深度估计和检测。我们首先对此一般的两视案例进行了理论分析,并注意两个挑战:1)来自多个估计的累积错误,这些估计使直接预测棘手; 2)由静态摄像机和歧义匹配引起的固有难题。因此,我们建立了具有几何感知成本量的立体声对应关系,作为深度估计的替代方案,并以单眼理解进一步补偿了它,以解决第二个问题。我们的框架(DFM)命名为深度(DFM),然后使用已建立的几何形状将2D图像特征提升到3D空间并检测到其3D对象。我们还提出了一个无姿势的DFM,以使其在摄像头不可用时可用。我们的框架在Kitti基准测试上的优于最先进的方法。详细的定量和定性分析也验证了我们的理论结论。该代码将在https://github.com/tai-wang/depth-from-motion上发布。
translated by 谷歌翻译
人的大脑可以毫不费力地识别和定位对象,而基于激光雷达点云的当前3D对象检测方法仍然报告了较低的性能,以检测闭塞和远处的对象:点云的外观由于遮挡而变化很大,并且在沿线的固有差异沿点固有差异变化。传感器的距离。因此,设计功能表示对此类点云至关重要。受到人类联想识别的启发,我们提出了一个新颖的3D检测框架,该框架通过域的适应来使对象完整特征。我们弥合感知域之间的差距,其中特征是从具有亚最佳表示的真实场景中得出的,以及概念域,其中功能是从由不批准对象组成的增强场景中提取的,并具有丰富的详细信息。研究了一种可行的方法,可以在没有外部数据集的情况下构建概念场景。我们进一步介绍了一个基于注意力的重新加权模块,该模块可适应地增强更翔实区域的特征。该网络的功能增强能力将被利用,而无需在推理过程中引入额外的成本,这是各种3D检测框架中的插件。我们以准确性和速度都在Kitti 3D检测基准上实现了新的最先进性能。关于Nuscenes和Waymo数据集的实验也验证了我们方法的多功能性。
translated by 谷歌翻译
在本文中,我们提出了激光雷达蒸馏,以弥合由不同的激光束引起的3D对象检测的域间隙。在许多现实世界中,大规模生产的机器人和车辆使用的激光点通常比大型公共数据集的光束少。此外,随着LIDARS升级到具有不同光束量的其他产品模型,使用先前版本的高分辨率传感器捕获的标记数据变得具有挑战性。尽管域自适应3D检测最近取得了进展,但大多数方法都难以消除梁诱导的域间隙。我们发现,在训练过程中,必须将源域的点云密度与目标域的点云密度保持一致。受到这一发现的启发,我们提出了一个渐进式框架,以减轻光束诱导的域移位。在每次迭代中,我们首先通过下采样高光束点云来产生低光束伪激光雷达。然后,使用教师学生的框架来将丰富的信息从数据中提取更多的信息。 Waymo,Nuscenes和Kitti数据集的大量实验具有三个不同的基于激光雷达的探测器,这证明了我们激光蒸馏的有效性。值得注意的是,我们的方法不会增加推理的任何额外计算成本。
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
由于基于相交的联盟(IOU)优化维持最终IOU预测度量和损失的一致性,因此它已被广泛用于单级2D对象检测器的回归和分类分支。最近,几种3D对象检测方法采用了基于IOU的优化,并用3D iou直接替换了2D iou。但是,由于复杂的实施和效率低下的向后操作,3D中的这种直接计算非常昂贵。此外,基于3D IOU的优化是优化的,因为它对旋转很敏感,因此可能导致训练不稳定性和检测性能恶化。在本文中,我们提出了一种新型的旋转旋转iou(RDIOU)方法,该方法可以减轻旋转敏感性问题,并在训练阶段与3D IOU相比产生更有效的优化目标。具体而言,我们的RDIOU通过将旋转变量解耦为独立术语,但保留3D iou的几何形状来简化回归参数的复杂相互作用。通过将RDIOU纳入回归和分类分支,鼓励网络学习更精确的边界框,并同时克服分类和回归之间的错位问题。基准Kitti和Waymo开放数据集的广泛实验验证我们的RDIOU方法可以为单阶段3D对象检测带来实质性改进。
translated by 谷歌翻译
3D object detection is an essential task in autonomous driving. Recent techniques excel with highly accurate detection rates, provided the 3D input data is obtained from precise but expensive LiDAR technology. Approaches based on cheaper monocular or stereo imagery data have, until now, resulted in drastically lower accuracies -a gap that is commonly attributed to poor image-based depth estimation. However, in this paper we argue that it is not the quality of the data but its representation that accounts for the majority of the difference. Taking the inner workings of convolutional neural networks into consideration, we propose to convert image-based depth maps to pseudo-LiDAR representations -essentially mimicking the LiDAR signal. With this representation we can apply different existing LiDAR-based detection algorithms. On the popular KITTI benchmark, our approach achieves impressive improvements over the existing state-of-the-art in image-based performance -raising the detection accuracy of objects within the 30m range from the previous state-of-the-art of 22% to an unprecedented 74%. At the time of submission our algorithm holds the highest entry on the KITTI 3D object detection leaderboard for stereo-image-based approaches. Our code is publicly available at https: //github.com/mileyan/pseudo_lidar.
translated by 谷歌翻译
不同制造商和激光雷达传感器模型之间的采样差异导致对象的不一致表示。当在其他类型的楣上测试为一个激光雷达培训的3D探测器时,这导致性能下降。 LIDAR制造业的显着进展使机械,固态和最近可调节的扫描图案LIDARS的进展带来了进展。对于后者,现有工作通常需要微调模型,每次调整扫描模式,这是不可行的。我们通过提出一种小型无监督的多目标域适配框架,明确地处理采样差异,参见,用于在固定和灵活的扫描图案Lidars上传送最先进的3D探测器的性能,而无需微调模型通过最终用户。我们的方法在将其传递到检测网络之前,将底层几何形状插值并将其从不同LIDAR的对象的扫描模式正常化。我们展示了在公共数据集上看到的有效性,实现最先进的结果,并另外为新颖的高分辨率LIDAR提供定量结果,以证明我们框架的行业应用。此数据集和我们的代码将公开可用。
translated by 谷歌翻译
单眼3D对象检测是低成本自主剂感知其周围环境的常见解决方案。单眼检测已分为两类:(1)直接从正面视图图像推断3D边界框的直接方法; (2)3D中间表示方法将图像映射到3D空间以进行后续3D检测。第二类不仅脱颖而出,不仅是因为3D检测锻造的伪装在更有意义和代表性的特征的怜悯下,而且还因为新兴的SOTA端到端的预测和计划范式需要从感知中获得鸟类视图的特征图管道。但是,在转换为3D表示形式时,这些方法不能保证对象在潜在空间中的隐式方向和位置与在欧几里得空间中明确观察到的物体一致,这会损害模型性能。因此,我们认为,隐式和显式特征的一致性很重要,并提出了一种新颖的单眼检测方法,名为CIEF,并具有第一个方向感知的图像主链,以消除随后的3D表示中隐式和显式特征的差异。作为第二个贡献,我们引入了射线注意机制。与以前的方法相反,该方法沿着投影射线重复特征或依靠另一个Intermedia froustum Point云,我们将图像特征直接转换为具有稳定特征的Voxel表示。我们还提出了一个手工制作的高斯位置编码函数,该函数的表现优于正弦的编码函数,但保持连续的好处。 CIEF在提交时间的3D和BEV检测基准的所有报告的方法中排名第一。
translated by 谷歌翻译
伪LIDAR表示的建议显着缩小了基于视觉的基于视觉激光痛的3D对象检测之间的差距。但是,当前的研究仅专注于通过利用复杂且耗时的神经网络来推动伪LIDAR的准确性提高。很少探索伪LIDAR代表的深刻特征来获得促进机会。在本文中,我们深入研究伪激光雷达表示,并认为3D对象检测的性能并不完全取决于高精度立体声深度估计。我们证明,即使对于不可靠的深度估计,通过适当的数据处理和精炼,它也可以达到可比的3D对象检测准确性。有了这一发现,我们进一步表明了使用伪大部分系统中快速但不准确的立体声匹配算法来实现低潜伏期响应的可能性。在实验中,我们开发了一个具有功能较低的立体声匹配预测指标的系统,并采用了提出的改进方案来提高准确性。对KITTI基准测试的评估表明,所提出的系统仅使用23毫秒的计算来实现最先进方法的竞争精度,这表明它是部署到真实CAR-HOLD应用程序的合适候选者。
translated by 谷歌翻译
单眼3D对象检测在简单性和成本方面的优势引起了极大的关注。由于单眼成像过程的2D至3D映射本质不足,因此单眼3D对象检测的深度估计不准确,因此3D检测结果较差。为了减轻这个问题,我们建议将地面作为单眼3D对象检测中的先验引入。地面先验是对不足的映射的额外几何条件,并且是深入估算的额外源。这样,我们可以从地面获得更准确的深度估计。同时,为了获得地面平面的充分优势,我们提出了一种深度对准训练策略和精确的两阶段深度推理方法,该方法是为地面平面量身定制的。值得注意的是,引入的地面之前不需要额外的数据源,例如LIDAR,立体声图像和深度信息。 Kitti基准测试的广泛实验表明,与其他方法相比,我们的方法可以在保持非常快速的速度的同时获得最新的结果。我们的代码和型号可在https://github.com/cfzd/monoground上找到。
translated by 谷歌翻译
基于摄像头的3D对象探测器由于其更广泛的部署而欢迎其比LIDAR传感器较低。我们首先重新访问先前的立体声检测器DSGN,以表示代表3D几何和语义的立体音量构建方式。我们抛光立体声建模,并提出高级版本DSGN ++,旨在在三个主要方面增强整个2d到3D管道的有效信息流。首先,为了有效地将2D信息提高到立体声音量,我们提出了深度扫地(DPS),以允许较密集的连接并提取深度引导的特征。其次,为了掌握不同间距的功能,我们提出了一个新颖的立体声音量 - 双视立体声卷(DSV),该卷(DSV)集成了前视图和顶部视图功能,并重建了相机frustum中的子素深度。第三,随着前景区域在3D空间中的占主导地位,我们提出了一种多模式数据编辑策略-Stereo-lidar拷贝性 - 可确保跨模式对齐并提高数据效率。没有铃铛和哨子,在流行的Kitti基准测试中的各种模式设置中进行了广泛的实验表明,我们的方法始终优于所有类别的基于相机的3D检测器。代码可从https://github.com/chenyilun95/dsgn2获得。
translated by 谷歌翻译
单眼3D对象检测对于自动驾驶具有重要意义,但仍然具有挑战性。核心挑战是在没有明确深度信息的情况下预测对象的距离。与在大多数现有方法中将距离作为单个变量回归不同,我们提出了一种基于几何几何距离的分解,以通过其因子恢复距离。分解因素因物体到最具代表性和稳定的变量的距离,即图像平面中的物理高度和投影视觉高度。此外,该分解保持了两个高度之间的自我矛盾,当两个预测高度不准确时,导致距离的距离预测可靠。分解还使我们能够追踪不同场景的距离不确定性的原因。这种分解使距离预测可解释,准确和稳健。我们的方法直接通过紧凑的体系结构从RGB图像中预测3D边界框,从而使训练和推理简单有效。实验结果表明,我们的方法在单眼3D对象检测上实现了最先进的性能,而鸟类视图Kitti数据集的眼睛视图任务,并且可以推广到具有不同摄像机内在的图像。
translated by 谷歌翻译
来自LIDAR或相机传感器的3D对象检测任务对于自动驾驶至关重要。先锋尝试多模式融合的尝试补充了稀疏的激光雷达点云,其中包括图像的丰富语义纹理信息,以额外的网络设计和开销为代价。在这项工作中,我们提出了一个名为SPNET的新型语义传递框架,以通过丰富的上下文绘画的指导来提高现有基于激光雷达的3D检测模型的性能,在推理过程中没有额外的计算成本。我们的关键设计是首先通过训练语义绘制的教师模型来利用地面真实标签中潜在的指导性语义知识,然后引导纯LIDAR网络通过不同的粒度传播模块来学习语义绘制的表示:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类:类别:类别:类别:类别:类别:类别:类别: - 通过,像素的传递和实例传递。实验结果表明,所提出的SPNET可以与大多数现有的3D检测框架无缝合作,其中AP增益为1〜5%,甚至在KITTI测试基准上实现了新的最新3D检测性能。代码可在以下网址获得:https://github.com/jb892/sp​​net。
translated by 谷歌翻译