Motion prediction is highly relevant to the perception of dynamic objects and static map elements in the scenarios of autonomous driving. In this work, we propose PIP, the first end-to-end Transformer-based framework which jointly and interactively performs online mapping, object detection and motion prediction. PIP leverages map queries, agent queries and mode queries to encode the instance-wise information of map elements, agents and motion intentions, respectively. Based on the unified query representation, a differentiable multi-task interaction scheme is proposed to exploit the correlation between perception and prediction. Even without human-annotated HD map or agent's historical tracking trajectory as guidance information, PIP realizes end-to-end multi-agent motion prediction and achieves better performance than tracking-based and HD-map-based methods. PIP provides comprehensive high-level information of the driving scene (vectorized static map and dynamic objects with motion information), and contributes to the downstream planning and control. Code and models will be released for facilitating further research.
translated by 谷歌翻译
We present a simple yet effective end-to-end Video-language Pre-training (VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for video-text retrieval tasks. Our MAC aims to reduce video representation's spatial and temporal redundancy in the VidLP model by a mask sampling mechanism to improve pre-training efficiency. Comparing conventional temporal sparse sampling, we propose to randomly mask a high ratio of spatial regions and only feed visible regions into the encoder as sparse spatial sampling. Similarly, we adopt the mask sampling technique for text inputs for consistency. Instead of blindly applying the mask-then-prediction paradigm from MAE, we propose a masked-then-alignment paradigm for efficient video-text alignment. The motivation is that video-text retrieval tasks rely on high-level alignment rather than low-level reconstruction, and multimodal alignment with masked modeling encourages the model to learn a robust and general multimodal representation from incomplete and unstable inputs. Coupling these designs enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate pre-training (by 3x), and improve performance. Our MAC achieves state-of-the-art results on various video-text retrieval datasets, including MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input modalities. With minimal modifications, we achieve competitive results on image-text retrieval tasks.
translated by 谷歌翻译
我们提出MAPTR,这是一个结构化的端到端框架,用于有效的在线矢量化高清图构建。我们提出了一种基于统一的建模方法,即将MAP元素建模为具有一组等效排列的点集,从而避免了地图元素的定义歧义并简化学习。我们采用层次查询嵌入方案来灵活编码结构化的地图信息,并对地图元素学习执行层次结构匹配。 MAPTR在Nuscenes数据集上实现了现有的矢量化MAP构造方法的最佳性能和效率。尤其是,MAPTR-NANO以RTX 3090的实时推理速度($ 25.1 $ fps)运行,比现有的基于最新的摄像头方法快$ 8 \ times $ $,同时获得$ 3.3 $较高的地图。 Maptr-tiny在更快的速度的同时显着优于现有的最新多模式方法$ 13.5 $地图。定性结果表明,MAPTR在复杂和各种驾驶场景中保持稳定且强大的地图构造质量。可在\ url {https://github.com/hustvl/maptr}上获得丰富的演示,以证明在现实世界情景中的有效性。 MAPTR在自动驾驶中具有巨大的应用价值。代码将发布以促进进一步的研究和应用。
translated by 谷歌翻译
基于参考的线路上色是计算机视觉中的一项具有挑战性的任务。颜色,纹理和阴影是根据抽象草图渲染的,该草图在很大程度上依赖于草图和参考之间的精确远程依赖模型。桥接跨模式信息并建模远程依赖性的流行技术采用了注意机制。但是,在基于参考的线路颜色化的背景下,几种技术将加剧现有的注意力训练困难,例如,自我监督的培训方案和基于GAN的损失。为了了解训练的不稳定,我们检测到注意力的梯度流并观察到注意力分支之间的梯度冲突。这种现象激发了我们通过在消除冲突阶段的同时保留主导梯度分支来减轻梯度问题。我们提出了一种使用这种训练策略,定格梯度注意(SGA)的新型注意机制,通过较大的边缘和更好的训练稳定性优于基线。与最新的线艺术色彩中的最新模块相比,我们的方法表明,FR \'Echet Inception距离(FID,最高27.21%)和结构相似性指数量度(SSIM,高达25.67%)的显着改善。几个基准。 SGA代码可从https://github.com/kunkun0w0/sga获得。
translated by 谷歌翻译
在这项工作中,我们为基于视觉的不均衡的BEV表示学习提出了PolarBev。为了适应摄像机成像的预先处理效果,我们将BEV空间横向和辐射上栅格化,并引入极性嵌入分解,以模拟极性网格之间的关联。极性网格被重新排列到类似阵列的常规表示,以进行有效处理。此外,为了确定2到3D对应关系,我们根据假设平面迭代更新BEV表面,并采用基于高度的特征转换。PolarBev在单个2080TI GPU上保持实时推理速度,并且在BEV语义分割和BEV实例分割方面都优于其他方法。展示彻底消融以验证设计。该代码将在\ url {https://github.com/superz-liu/polarbev}上发布。
translated by 谷歌翻译
基于环绕视图摄像机系统的3D检测是自动驾驶中的一项关键技术。在这项工作中,我们提出了3D检测的极性参数化,该参数化重新定义了偏振系统中的位置参数化,速度分解,感知范围,标签分配和损失函数。极性参数化建立了图像模式与预测目标之间的明确关联,从而利用环绕视觉摄像机的视图对称性为感应偏置,以减轻优化和增强性能。基于极性参数化,我们提出了一个名为polardetr的环绕视图3D检测变压器。Polardetr在不同的主链配置上实现了有希望的性能速度权衡。此外,在提交时间(2022年3月4日)的3D检测和3D跟踪方面,Polardetr在Nuscenes基准的排行榜上排名第一。代码将以\ url {https://github.com/hustvl/polardetr}发布。
translated by 谷歌翻译
检测到分布(OOD)样本对于在现实世界中的分类器的安全部署至关重要。但是,已知深层神经网络对异常数据过于自信。现有作品直接设计得分功能,通过挖掘分别分类器(ID)和OOD的不一致性。在本文中,我们基于以下假设,即对ID数据进行训练的自动编码器无法重建OOD和ID,我们进一步补充了这种不一致性。我们提出了一种新颖的方法,读取(重建误差聚合检测器),以统一分类器和自动编码器的不一致。具体而言,原始像素的重建误差转换为分类器的潜在空间。我们表明,转换后的重建误差桥接了语义差距,并从原始的传承了检测性能。此外,我们提出了一种调整策略,以根据OOD数据的细粒度表征来减轻自动编码器的过度自信问题。在两种情况下,我们分别提出了方法的两个变体,即仅基于预先训练的分类器和读取 - 读取器(欧几里得距离),即读取MD(Mahalanobis距离),该分类器重新训练分类器。我们的方法不需要访问测试时间数据以进行微调超参数。最后,我们通过与最先进的OOD检测算法进行了广泛的比较来证明所提出的方法的有效性。在CIFAR-10预先训练的WideresNet上,我们的方法将平均FPR@95TPR降低了9.8%,而不是先前的最新ART。
translated by 谷歌翻译
DETR方法中引入的查询机制正在改变对象检测的范例,最近有许多基于查询的方法获得了强对象检测性能。但是,当前基于查询的检测管道遇到了以下两个问题。首先,需要多阶段解码器来优化随机初始化的对象查询,从而产生较大的计算负担。其次,训练后的查询是固定的,导致不满意的概括能力。为了纠正上述问题,我们在较快的R-CNN框架中提出了通过查询生成网络预测的特征对象查询,并开发了一个功能性的查询R-CNN。可可数据集的广泛实验表明,我们的特征查询R-CNN获得了所有R-CNN探测器的最佳速度准确性权衡,包括最近的最新稀疏R-CNN检测器。该代码可在\ url {https://github.com/hustvl/featurized-queryrcnn}中获得。
translated by 谷歌翻译
从周围的视角摄像机中学习鸟类视图(BEV)表示对于自动驾驶非常重要。在这项工作中,我们提出了一种几何学引导的内核变压器(GKT),这是一种新颖的2到BEV表示的学习机制。 GKT利用几何先验来指导变压器专注于判别区域,并展开内核特征以生成BEV表示。对于快速推断,我们进一步引入了查找表(LUT)索引方法,以消除在运行时消除相机的校准参数。 GKT在2080TI GPU上的3090 GPU / $ 45.6 $ fps上的价格为$ 72.3 $ fps,并且对摄像机偏差和预定义的BEV高度非常强大。 GKT在Nuscenes Val设置上实现了最新的实时细分结果,即38.0 miou(1亿$ \ times以1亿美元的感知范围,分辨率为0.50万)。鉴于效率,有效性和鲁棒性,GKT在自动驾驶场景中具有巨大的实践价值,尤其是对于实时运行系统。代码和模型将在\ url {https://github.com/hustvl/gkt}上提供。
translated by 谷歌翻译
盒子监督的实例分割最近吸引了大量的研究工作,而在空中图像域中则收到很少的关注。与通用物体集合相比,空中对象具有大型内部差异和阶级相似性与复杂的背景。此外,高分辨率卫星图像中存在许多微小的物体。这使得最近的一对亲和力建模方法不可避免地涉及具有劣势的噪声监督。为了解决这些问题,我们提出了一种新颖的空中实例分割方法,该方法驱动网络为空中对象的一系列级别设置功能,只有盒子注释以端到端的方式。具有精心设计的能量函数的级别集方法而不是学习成对亲和力将对象分段视为曲线演进,这能够准确地恢复对象的边界并防止来自无法区分的背景和类似对象的干扰。实验结果表明,所提出的方法优于最先进的盒子监督实例分段方法。源代码可在https://github.com/liwentomng/boxLevelset上获得。
translated by 谷歌翻译