环境的敏感性和敏感性在自主车辆的安全和安全运行中起着决定性作用。这种对周围的感知是类似于人类视觉表示的方式。人类的大脑通过利用不同的感官频道并开发视图不变的表示模型来感知环境。在这种情况下保持,不同的脱模传感器部署在自主车辆上,以感知环境。最常见的遗赠传感器是自主车辆感知的相机,激光乐队和雷达。尽管存在这些传感器,但在可见的光谱结构域中已经在不利的天气条件下说明了它们的益处,例如,在夜间,它们具有有限的操作能力,这可能导致致命事故。在这项工作中,我们探讨了热对象检测,以通过采用自我监督的对比度学习方法来模拟视图不变模型表示。为此,我们提出了一个深度神经网络自我监督的热网络(SSTN),用于学习通过对比学习来最大化可见和红外光谱域之间的信息,并在使用这些学习特征表示使用的使用多尺度编码器 - 解码器互感器网络。在两个公共可用的数据集中广泛评估所提出的方法:FLIR-ADAS数据集和KAIST多光谱数据集。实验结果说明了所提出的方法的功效。
translated by 谷歌翻译
通过验证SOTIF-ISO / PAS-21448(预期功能的安全)来验证安全标准,构思自动车辆以提供安全和安全的服务。在这种情况下,对环境的感知与本地化,规划和控制模块结合起作用乐器作用。作为感知堆栈中的枢轴算法,对象检测提供了广泛的洞察,进入自动车辆的周围环境。相机和激光雷达广泛用于不同的传感器模式之间的物体检测,但这些脱离传感器在分辨率和恶劣天气条件下具有局限性。在这项工作中,探索基于雷达的对象检测提供了部署的对应传感器模块,并用于恶劣天气条件。雷达提供复杂的数据;为此目的,提出了一种具有变压器编码器 - 解码器网络的通道升压功能集合方法。使用雷达的对象检测任务被制定为一个设置的预测问题,并在公共可用的数据集中进行评估,在良好和良好的天气条件下。使用Coco评估度量广泛评估所提出的方法的功效,最佳拟议的模型将其最先进的同行方法超过12.55 \%$ 12.48 \%$ 12.48 \%$。
translated by 谷歌翻译
研究进步使得在自主车辆中部署的神经网络算法来感知周围。用于感知环境的标准脱墨传感器是摄像机和潮羊段。因此,使用这些脱模传感器开发的神经网络算法已经为自主车辆的感知提供了必要的解决方案。这些脱离传感器的一个主要缺点是它们在恶劣天气条件下的可操作性,例如,低照明和夜间条件。自主车辆传感器套件中热摄像机的可供选择性和可负担能力为自主车辆在恶劣天气条件下的感知方面提供了必要的改进。环境的语义有利于鲁棒的感知,这可以通过在场景中分段不同的对象来实现。在这项工作中,我们使用了用于语义细分的热相机。我们设计了一个名为Artseg的基于关注的反复卷积网络(RCNN)编码器解码器架构,用于热语义分割。这项工作的主要贡献是编码器解码器架构的设计,该架构为每个编码器和解码器块使用RCNN的单位。此外,在解码器模块中采用添加剂注意力,以保持高分辨率特征并改善特征的定位。在可用的公共数据集中评估所提出的方法的功效,显示出与联盟(IOU)的均值交叉口的其他最先进方法更好的性能。
translated by 谷歌翻译
行人检测是自主驱动系统中最关键的模块。虽然相机通常用于此目的,但其质量严重降低了低光夜间驾驶场景。另一方面,热摄像机图像的质量在类似条件下保持不受影响。本文采用RGB和热图像提出了一种用于行人检测的端到端多峰融合模型。其新颖的时空深度网络架构能够有效利用多模式输入。它由两个不同的可变形ResNext-50编码器组成,用于来自两个方式的特征提取。这两个编码特征的融合发生在由几个图形关注网络和特征融合单元组成的多模式特征嵌入模块(MUFEM)内部。随后将MUFEM的最后一个特征融合单元的输出传递给两个CRF的空间细化。通过在四个不同方向横穿四个RNN的帮助下,通过应用渠道明智的关注和提取上下文信息来实现特征的进一步提高。最后,单级解码器使用这些特征映射来生成每个行人和分数图的边界框。我们在三个公开可用的多模式行人检测基准数据集,即Kaist,CVC-14和Utokyo上进行了广泛的框架实验。每个每个结果都改善了各种最先进的性能。在https://youtu.be/fdjdsifuucs,可以看到一个简短的视频以及其定性结果的概述。我们的源代码将在发布论文时发布。
translated by 谷歌翻译
现代车辆配备各种驾驶员辅助系统,包括自动车道保持,这防止了无意的车道偏离。传统车道检测方法采用了手工制作或基于深度的学习功能,然后使用基于帧的RGB摄像机进行通道提取的后处理技术。用于车道检测任务的帧的RGB摄像机的利用易于照明变化,太阳眩光和运动模糊,这限制了车道检测方法的性能。在自主驾驶中的感知堆栈中结合了一个事件摄像机,用于自动驾驶的感知堆栈是用于减轻基于帧的RGB摄像机遇到的挑战的最有希望的解决方案之一。这项工作的主要贡献是设计车道标记检测模型,它采用动态视觉传感器。本文探讨了使用事件摄像机通过设计卷积编码器后跟注意引导的解码器的新颖性应用了车道标记检测。编码特征的空间分辨率由致密的区域空间金字塔池(ASPP)块保持。解码器中的添加剂注意机制可提高促进车道本地化的高维输入编码特征的性能,并缓解后处理计算。使用DVS数据集进行通道提取(DET)的DVS数据集进行评估所提出的工作的功效。实验结果表明,多人和二进制车道标记检测任务中的5.54 \%$ 5.54 \%$ 5.54 \%$ 5.03 \%$ 5.03 \%$ 5.03。此外,在建议方法的联盟($ iou $)分数上的交叉点将超越最佳最先进的方法,分别以6.50 \%$ 6.50 \%$ 6.5.37 \%$ 9.37 \%$ 。
translated by 谷歌翻译
The DETR object detection approach applies the transformer encoder and decoder architecture to detect objects and achieves promising performance. In this paper, we present a simple approach to address the main problem of DETR, the slow convergence, by using representation learning technique. In this approach, we detect an object bounding box as a pair of keypoints, the top-left corner and the center, using two decoders. By detecting objects as paired keypoints, the model builds up a joint classification and pair association on the output queries from two decoders. For the pair association we propose utilizing contrastive self-supervised learning algorithm without requiring specialized architecture. Experimental results on MS COCO dataset show that Pair DETR can converge at least 10x faster than original DETR and 1.5x faster than Conditional DETR during training, while having consistently higher Average Precision scores.
translated by 谷歌翻译
在本文中,我们提出了简单的关注机制,我们称之为箱子。它可以实现网格特征之间的空间交互,从感兴趣的框中采样,并提高变压器的学习能力,以获得几个视觉任务。具体而言,我们呈现拳击手,短暂的框变压器,通过从输入特征映射上的参考窗口预测其转换来参加一组框。通过考虑其网格结构,拳击手通过考虑其网格结构来计算这些框的注意力。值得注意的是,Boxer-2D自然有关于其注意模块内容信息的框信息的原因,使其适用于端到端实例检测和分段任务。通过在盒注意模块中旋转的旋转的不变性,Boxer-3D能够从用于3D端到端对象检测的鸟瞰图平面产生识别信息。我们的实验表明,拟议的拳击手-2D在Coco检测中实现了更好的结果,并且在Coco实例分割上具有良好的和高度优化的掩模R-CNN可比性。 Boxer-3D已经为Waymo开放的车辆类别提供了令人信服的性能,而无需任何特定的类优化。代码将被释放。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
基于查询的变压器在许多图像域任务中构建长期注意力方面表现出了巨大的潜力,但是由于点云数据的压倒性大小,在基于激光雷达的3D对象检测中很少考虑。在本文中,我们提出了CenterFormer,这是一个基于中心的变压器网络,用于3D对象检测。 CenterFormer首先使用中心热图在基于标准的Voxel点云编码器之上选择中心候选者。然后,它将中心候选者的功能用作变压器中的查询嵌入。为了进一步从多个帧中汇总功能,我们通过交叉注意设计一种方法来融合功能。最后,添加回归头以预测输出中心功能表示形式上的边界框。我们的设计降低了变压器结构的收敛难度和计算复杂性。结果表明,与无锚对象检测网络的强基线相比,有了显着改善。 CenterFormer在Waymo Open数据集上实现了单个模型的最新性能,验证集的MAPH为73.7%,测试集的MAPH上有75.6%的MAPH,大大优于所有先前发布的CNN和基于变压器的方法。我们的代码可在https://github.com/tusimple/centerformer上公开获取
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
Radar, the only sensor that could provide reliable perception capability in all weather conditions at an affordable cost, has been widely accepted as a key supplement to camera and LiDAR in modern advanced driver assistance systems (ADAS) and autonomous driving systems. Recent state-of-the-art works reveal that fusion of radar and LiDAR can lead to robust detection in adverse weather, such as fog. However, these methods still suffer from low accuracy of bounding box estimations. This paper proposes a bird's-eye view (BEV) fusion learning for an anchor box-free object detection system, which uses the feature derived from the radar range-azimuth heatmap and the LiDAR point cloud to estimate the possible objects. Different label assignment strategies have been designed to facilitate the consistency between the classification of foreground or background anchor points and the corresponding bounding box regressions. Furthermore, the performance of the proposed object detector can be further enhanced by employing a novel interactive transformer module. We demonstrated the superior performance of the proposed methods in this paper using the recently published Oxford Radar RobotCar (ORR) dataset. We showed that the accuracy of our system significantly outperforms the other state-of-the-art methods by a large margin.
translated by 谷歌翻译
人们在我们的日常互动中互相看待彼此或相互凝视是无处不在的,并且发现相互观察对于理解人类的社会场景具有重要意义。当前的相互视线检测方法集中在两阶段方法上,其推理速度受到两阶段管道的限制,第二阶段的性能受第一阶段的影响。在本文中,我们提出了一个新型的一阶段相互视线检测框架,称为相互视线变压器或MGTR,以端到端的方式执行相互视线检测。通过设计相互视线实例三元,MGTR可以检测每个人头边界框,并基于全局图像信息同时推断相互视线的关系,从而简化整个过程。两个相互视线数据集的实验结果表明,我们的方法能够加速相互视线检测过程而不会失去性能。消融研究表明,MGTR的不同组成部分可以捕获图像中不同级别的语义信息。代码可在https://github.com/gmbition/mgtr上找到
translated by 谷歌翻译
在肉牛的库存中,基于计算机视觉的方法已被广泛用于监测牛状况(例如,物理,生理学和健康)。为此,准确有效的牛行动是一种先决条件。通常,大多数现有模型仅限于个人行为,这些行为使用基于视频的方法提取时空特征来识别每只牛的个体作用。但是,牛之间存在社会性,它们的相互作用通常反映了重要条件,例如Estrus以及基于视频的方法忽略了模型的实时功能。基于这一点,我们解决了本文中单个框架中牛之间的实时识别的具有挑战性的任务。我们方法的管道包括两个主要模块:牛本地化网络和交互识别网络。在每时每刻,牛本地化网络都会从每个检测到的牛输出高质量的互动建议,并将其输入具有三流体系结构的交互识别网络。这样的三流网络使我们能够融合与识别交互有关的不同功能。具体而言,这三种功能是一个视觉特征,它提取了互动建议的外观表示,这是反映牛之间空间关系的几何特征,以及一种语义特征,它捕获了我们对个人动作和相互作用之间关系的先验知识牛。此外,为了解决数量不足的标记数据问题,我们基于自我监督学习的模型预先培训。定性和定量评估证明了我们框架作为实时识别牛相互作用的有效方法的性能。
translated by 谷歌翻译
3D对象检测通过将点云作为唯一的输入来取得了显着的进展。但是,点云通常遭受不完整的几何结构和缺乏语义信息,这使得检测器难以准确地对检测到的对象进行分类。在这项工作中,我们专注于如何有效利用来自图像的对象级信息来提高基于点的3D检测器的性能。我们提出DEMF,这是一种简单而有效的方法,将图像信息融合到点特征中。给定一组点特征和图像特征图,DEMF通过将3D点的投影2D位置作为参考来自适应地汇总图像特征。我们在挑战性的Sun RGB-D数据集上评估了我们的方法,从而提高了最新的结果(+2.1 map@0.25和+2.3map@0.5)。代码可从https://github.com/haoy945/demf获得。
translated by 谷歌翻译
Passive millimeter-wave (PMMW) is a significant potential technique for human security screening. Several popular object detection networks have been used for PMMW images. However, restricted by the low resolution and high noise of PMMW images, PMMW hidden object detection based on deep learning usually suffers from low accuracy and low classification confidence. To tackle the above problems, this paper proposes a Task-Aligned Detection Transformer network, named PMMW-DETR. In the first stage, a Denoising Coarse-to-Fine Transformer (DCFT) backbone is designed to extract long- and short-range features in the different scales. In the second stage, we propose the Query Selection module to introduce learned spatial features into the network as prior knowledge, which enhances the semantic perception capability of the network. In the third stage, aiming to improve the classification performance, we perform a Task-Aligned Dual-Head block to decouple the classification and regression tasks. Based on our self-developed PMMW security screening dataset, experimental results including comparison with State-Of-The-Art (SOTA) methods and ablation study demonstrate that the PMMW-DETR obtains higher accuracy and classification confidence than previous works, and exhibits robustness to the PMMW images of low quality.
translated by 谷歌翻译
DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10× less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https:// github.com/fundamentalvision/Deformable-DETR.
translated by 谷歌翻译
零拍摄对象检测(ZSD),将传统检测模型扩展到检测来自Unseen类别的对象的任务,已成为计算机视觉中的新挑战。大多数现有方法通过严格的映射传输策略来解决ZSD任务,这可能导致次优ZSD结果:1)这些模型的学习过程忽略了可用的看不见的类信息,因此可以轻松地偏向所看到的类别; 2)原始视觉特征空间并不合适,缺乏歧视信息。为解决这些问题,我们开发了一种用于ZSD的新型语义引导的对比网络,命名为Contrastzsd,一种检测框架首先将对比学习机制带入零拍摄检测的领域。特别地,对比度包括两个语义导向的对比学学习子网,其分别与区域类别和区域区域对之间形成对比。成对对比度任务利用从地面真理标签和预定义的类相似性分布派生的附加监督信号。在那些明确的语义监督的指导下,模型可以了解更多关于看不见的类别的知识,以避免看到概念的偏见问题,同时优化视觉功能的数据结构,以更好地辨别更好的视觉语义对齐。广泛的实验是在ZSD,即Pascal VOC和MS Coco的两个流行基准上进行的。结果表明,我们的方法优于ZSD和广义ZSD任务的先前最先进的。
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译