使用空中无人机图像的物体检测近年来收到了很多关注。虽然可见光图像在大多数情况下足以检测对象时,热敏摄像机可以将物体检测的能力扩展到夜间或遮挡物体。因此,对象检测的RGB和红外(IR)融合方法是有用的,重要的方法。将深度学习方法应用于RGB / IR对象检测的最大挑战之一是缺乏无人机IR Imagery的可用培训数据,特别是在晚上。在本文中,我们开发了使用Airsim仿真发动机和Cyclegan创建合成红外图像的若干策略。此外,我们利用照明感知的融合框架来熔化RGB和IR图像以进行地面上的对象检测。我们对模拟和实际数据表示并测试我们的方法。我们的解决方案是在实际无人机上运行的NVIDIA Jetson Xavier上实施,需要每个RGB / IR图像对处理约28毫秒。
translated by 谷歌翻译
Object detection models commonly deployed on uncrewed aerial systems (UAS) focus on identifying objects in the visible spectrum using Red-Green-Blue (RGB) imagery. However, there is growing interest in fusing RGB with thermal long wave infrared (LWIR) images to increase the performance of object detection machine learning (ML) models. Currently LWIR ML models have received less research attention, especially for both ground- and air-based platforms, leading to a lack of baseline performance metrics evaluating LWIR, RGB and LWIR-RGB fused object detection models. Therefore, this research contributes such quantitative metrics to the literature .The results found that the ground-based blended RGB-LWIR model exhibited superior performance compared to the RGB or LWIR approaches, achieving a mAP of 98.4%. Additionally, the blended RGB-LWIR model was also the only object detection model to work in both day and night conditions, providing superior operational capabilities. This research additionally contributes a novel labelled training dataset of 12,600 images for RGB, LWIR, and RGB-LWIR fused imagery, collected from ground-based and air-based platforms, enabling further multispectral machine-driven object detection research.
translated by 谷歌翻译
基于深度学习的检测网络在自动驾驶系统(广告)中取得了显着进展。广告应在各种环境照明和恶劣天气条件下具有可靠的性能。然而,亮度劣化和视觉障碍物(如眩光,雾)导致视觉相机质量差,导致性能下降。为了克服这些挑战,我们探讨了利用不同数据模型的想法,这些数据模块不同于视觉数据。我们提出了一种基于多模式协作框架的全面检测系统,该框架从RGB(来自Visual Cameras)和热(来自红外相机)数据学习。该框架在学习其自身模式的学习最佳特征中提供了灵活性,同时还包含对方的互补知识。我们广泛的经验结果表明,虽然准确性的提高是标称的,但该值在于挑战性和极其困难的边缘情况,这在广告中的安全关键应用中至关重要。我们提供了在检测中使用热成像系统的效果和限制的整体视图。
translated by 谷歌翻译
本文介绍了用于合成近红外(NIR)图像生成和边界盒水平检测系统的数据集。不可否认的是,诸如Tensorflow或Pytorch之类的高质量机器学习框架以及大规模的Imagenet或可可数据集借助于加速GPU硬件,已将机器学习技术的极限推向了数十多年。在这些突破中,高质量的数据集是可以在模型概括和数据驱动的深神经网络的部署方面取得成功的基本构件之一。特别是,综合数据生成任务通常比其他监督方法需要更多的培训样本。因此,在本文中,我们共享从两个公共数据集(即Nirscene和Sen12ms)和我们的新颖NIR+RGB甜椒(辣椒(辣椒)数据集)重新处理的NIR+RGB数据集。我们定量和定性地证明了这些NIR+RGB数据集足以用于合成NIR图像生成。对于NIRSCENE1,SEN12MS和SEWT PEPPER数据集,我们实现了第11.36、26.53、26.53、26.53和40.15的距离(FID)。此外,我们发布了11个水果边界盒的手动注释,可以使用云服务将其作为各种格式导出。四个新添加的水果[蓝莓,樱桃,猕猴桃和小麦]化合物11新颖的边界盒数据集,在我们先前的DeepFruits项目中提出的作品[Apple,Appsicum,Capsicum,Capsicum,Mango,Orange,Rockmelon,Strawberry]。数据集的边界框实例总数为162K,可以从云服务中使用。为了评估数据集,YOLOV5单阶段检测器被利用并报告了令人印象深刻的平均水平前期,MAP [0.5:0.95]的结果为[min:0.49,最大:0.812]。我们希望这些数据集有用,并作为未来研究的基准。
translated by 谷歌翻译
计算机图形技术的最新进展可以使汽车驾驶环境更现实。它们使自动驾驶汽车模拟器(例如DeepGTA-V和Carla(学习采取行动))能够生成大量的合成数据,这些数据可以补充现有的现实世界数据集中,以培训自动驾驶汽车感知。此外,由于自动驾驶汽车模拟器可以完全控制环境,因此它们可以产生危险的驾驶场景,而现实世界中数据集缺乏恶劣天气和事故情况。在本文中,我们将证明将从现实世界收集的数据与模拟世界中生成的数据相结合的有效性,以训练对象检测和本地化任务的感知系统。我们还将提出一个多层次的深度学习感知框架,旨在效仿人类的学习经验,其中在某个领域中学习了一系列从简单到更困难的任务。自动驾驶汽车感知器可以从易于驱动的方案中学习,以通过模拟软件定制的更具挑战性的方案。
translated by 谷歌翻译
Recent object detection models for infrared (IR) imagery are based upon deep neural networks (DNNs) and require large amounts of labeled training imagery. However, publicly-available datasets that can be used for such training are limited in their size and diversity. To address this problem, we explore cross-modal style transfer (CMST) to leverage large and diverse color imagery datasets so that they can be used to train DNN-based IR image based object detectors. We evaluate six contemporary stylization methods on four publicly-available IR datasets - the first comparison of its kind - and find that CMST is highly effective for DNN-based detectors. Surprisingly, we find that existing data-driven methods are outperformed by a simple grayscale stylization (an average of the color channels). Our analysis reveals that existing data-driven methods are either too simplistic or introduce significant artifacts into the imagery. To overcome these limitations, we propose meta-learning style transfer (MLST), which learns a stylization by composing and tuning well-behaved analytic functions. We find that MLST leads to more complex stylizations without introducing significant image artifacts and achieves the best overall detector performance on our benchmark datasets.
translated by 谷歌翻译
在良好的弹药条件下,车辆检测准确性相当准确,但在弱光条件下容易受到检测准确性不佳。弱光和眩光的组合效果或尾灯的眩光导致最新的对象检测模型更有可能错过车辆检测。但是,热红外图像对照明的变化是可靠的,并且基于热辐射。最近,生成对抗网络(GAN)已在图像域传输任务中广泛使用。最先进的GAN型号试图通过将红外图像转换为白天的RGB图像来提高夜间车辆检测准确性。但是,与白天条件相比,在夜间条件下,这些模型在夜间条件下表现不佳。因此,这项研究试图通过提出三种不同的方法来缓解这一缺点,该方法基于两个不同级别的GAN模型的组合,试图减少白天和夜间红外图像之间的特征分布差距。通过使用最新的对象检测模型测试模型,可以完成定量分析以比较提出模型的性能与最新模型的性能。定量和定性分析都表明,所提出的模型在夜间条件下的最新车辆检测模型优于最先进的GAN模型,显示了所提出的模型的功效。
translated by 谷歌翻译
由于其前所未有的优势,在规模,移动,部署和隐蔽观察能力方面,空中平台和成像传感器的快速出现是实现新的空中监测形式。本文从计算机视觉和模式识别的角度来看,全面概述了以人为本的空中监控任务。它旨在为读者提供使用无人机,无人机和其他空中平台的空中监测任务当前状态的深入系统审查和技术分析。感兴趣的主要对象是人类,其中要检测单个或多个受试者,识别,跟踪,重新识别并进行其行为。更具体地,对于这四项任务中的每一个,我们首先讨论与基于地面的设置相比在空中环境中执行这些任务的独特挑战。然后,我们审查和分析公共可用于每项任务的航空数据集,并深入了解航空文学中的方法,并调查他们目前如何应对鸟瞰挑战。我们在讨论缺失差距和开放研究问题的讨论中得出结论,告知未来的研究途径。
translated by 谷歌翻译
近年来,将多光谱数据集成在对象检测中,尤其是可见的和红外图像。由于可见(RGB)和红外(IR)图像可以提供互补的信息来处理光变化,因此在许多领域中使用了配对图像,例如多光谱的行人检测,RGB-IR人群计数和RGB-IR显着对象检测。与天然RGB-IR图像相比,我们发现空中RGB-IR图像中的检测遭受跨模式弱的未对准问题,这些问题表现在同一物体的位置,大小和角度偏差。在本文中,我们主要解决了空中RGB-IR图像中跨模式弱未对准的挑战。具体而言,我们首先解释和分析了弱错位问题的原因。然后,我们提出了一个翻译尺度的反向对齐(TSRA)模块,以通过校准这两种方式的特征图来解决问题。该模块通过对齐过程预测了两个模式对象之间的偏差,并利用模态选择(MS)策略来提高对齐的性能。最后,基于TSRA模块的两流特征比对检测器(TSFADET)是为空中图像中的RGB-IR对象检测构建的。通过对公共无人机数据集进行的全面实验,我们验证我们的方法是否降低了交叉模式未对准的效果并实现了可靠的检测结果。
translated by 谷歌翻译
获取数据以培训基于深入的学习的对象探测器(无人机)昂贵,耗时,甚至可以在特定环境中禁止。另一方面,合成数据快速且便宜。在这项工作中,我们探讨了在各种应用环境中从UVS探讨了对象检测中的合成数据。为此,我们将开源框架DeepGtav扩展到UAV方案的工作。我们在多个域中捕获各种大规模的高分辨率合成数据集,以通过分析多种型号的多种培训策略来展示它们在真实对象检测中的使用。此外,我们分析了几种不同的数据生成和采样参数,以提供可操作的工程建议,以获得进一步的科学研究。DeepGTAV框架可在https://git.io/jyf5j提供。
translated by 谷歌翻译
在自主和移动机器人技术中,主要挑战之一是对环境的坚强感知,通常是未知和动态的,例如自主无人机赛车。在这项工作中,我们提出了一种新型的基于神经网络的感知方法,用于赛车门检测 - 铅笔网 - 依赖于铅笔过滤器顶部的轻质神经网络骨架。这种方法统一了对盖茨的2D位置,距离和方向的预测。我们证明我们的方法对于不需要任何现实世界训练样本的零射击SIM到运行转移学习有效。此外,与最先进的方法相比,在快速飞行下通常看到的照明变化非常强大。一组彻底的实验证明了这种方法在多种挑战的情况下的有效性,在多种挑战性的情况下,无人机在不同的照明条件下完成了各种轨道。
translated by 谷歌翻译
学习在无人驾驶汽车(UAV)捕获的图像中检测物体(例如人类)通常会遭受无人机对物体的位置造成的巨大变化。此外,现有的基于无人机的基准数据集不提供足够的数据集元数据,这对于精确的模型诊断至关重要,并且学习功能不变。在本文中,我们介绍了大天使,这是第一个基于无人机的对象检测数据集,该数据集由具有相似想象条件以及无人机位置以及对象姿势元数据捕获的真实和合成子集组成。一系列实验经过精心设计,使用最先进的对象检测器设计,以证明在模型评估过程中利用元数据的好处。此外,还提供了几种涉及模型微调过程中涉及真实和合成数据的关键见解。最后,我们讨论了有关大天使的优势,局限性和未来方向,以突出其对更广泛的机器学习社区的独特价值。
translated by 谷歌翻译
缺乏有效的目标区域使得在低强度光(包括行人识别和图像到图像翻译)中执行多个视觉功能变得困难。在这种情况下,通过使用红外和可见图像的联合使用来积累高质量的信息,即使在弱光下也可以检测行人。在这项研究中,我们将在LLVIP数据集上使用先进的深度学习模型,例如Pix2Pixgan和Yolov7,其中包含可见的信号图像对,用于低光视觉。该数据集包含33672张图像,大多数图像都是在黑暗场景中捕获的,与时间和位置紧密同步。
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
RGB互补的金属氧化物导体(CMOS)传感器在可见光光谱中起作用。因此,它对环境光条件非常敏感。相反,在8-14微米光谱带中运行的长波红外(LWIR)传感器,与可见光无关。在本文中,我们利用视觉和热感知单元来实现可靠的对象检测目的。在FLIR [1]数据集的精致同步和(交叉)标记之后,该多模式感知数据通过卷积神经网络(CNN),以检测道路上的三个关键物体,即行人,自行车和汽车。在评估RGB和红外线(通常可以互换使用热和红外)传感器后,将各种网络结构进行比较,以有效地将数据融合在功能级别上。我们的RGB-Thermal(RGBT)融合网络利用了新型的熵块注意模块(EBAM),以82.9%的地图优于最先进的网络[2]。
translated by 谷歌翻译
在对象检测中,数据量和成本是一种权衡,在特定领域中收集大量数据是劳动密集型的。因此,现有的大规模数据集用于预训练。但是,当目标域与源域显着不同时,常规传输学习和域的适应性不能弥合域间隙。我们提出了一种数据合成方法,可以解决大域间隙问题。在此方法中,目标图像的一部分被粘贴到源图像上,并通过利用对象边界框的信息来对齐粘贴区域的位置。此外,我们介绍对抗性学习,以区分原始区域或粘贴区域。所提出的方法在大量源图像和一些目标域图像上训练。在非常不同的域问题设置中,所提出的方法比常规方法获得更高的精度,其中RGB图像是源域,而热红外图像是目标域。同样,在模拟图像与真实图像的情况下,提出的方法达到了更高的精度。
translated by 谷歌翻译
在非结构化环境中工作的机器人必须能够感知和解释其周围环境。机器人技术领域基于深度学习模型的主要障碍之一是缺乏针对不同工业应用的特定领域标记数据。在本文中,我们提出了一种基于域随机化的SIM2REAL传输学习方法,用于对象检测,可以自动生成任意大小和对象类型的标记的合成数据集。随后,对最先进的卷积神经网络Yolov4进行了训练,以检测不同类型的工业对象。通过提出的域随机化方法,我们可以在零射击和单次转移的情况下分别缩小现实差距,分别达到86.32%和97.38%的MAP50分数,其中包含190个真实图像。在GEFORCE RTX 2080 TI GPU上,数据生成过程的每图像少于0.5 s,培训持续约12H,这使其方便地用于工业使用。我们的解决方案符合工业需求,因为它可以通过仅使用1个真实图像进行培训来可靠地区分相似的对象类别。据我们所知,这是迄今为止满足这些约束的唯一工作。
translated by 谷歌翻译
Figure. 1. The SYNTHIA Dataset. A sample frame (Left) with its semantic labels (center) and a general view of the city (right).
translated by 谷歌翻译
The goal of this paper is to estimate the 6D pose and dimensions of unseen object instances in an RGB-D image. Contrary to "instance-level" 6D pose estimation tasks, our problem assumes that no exact object CAD models are available during either training or testing time. To handle different and unseen object instances in a given category, we introduce Normalized Object Coordinate Space (NOCS)-a shared canonical representation for all possible object instances within a category. Our region-based neural network is then trained to directly infer the correspondence from observed pixels to this shared object representation (NOCS) along with other object information such as class label and instance mask. These predictions can be combined with the depth map to jointly estimate the metric 6D pose and dimensions of multiple objects in a cluttered scene. To train our network, we present a new contextaware technique to generate large amounts of fully annotated mixed reality data. To further improve our model and evaluate its performance on real data, we also provide a fully annotated real-world dataset with large environment and instance variation. Extensive experiments demonstrate that the proposed method is able to robustly estimate the pose and size of unseen object instances in real environments while also achieving state-of-the-art performance on standard 6D pose estimation benchmarks.
translated by 谷歌翻译
多年来,为各种对象检测任务开发了数据集。海事域中的对象检测对于船舶的安全和导航至关重要。但是,在海事域中,仍然缺乏公开可用的大规模数据集。为了克服这一挑战,我们提出了Kolomverse,这是一个开放的大型图像数据集,可在Kriso(韩国研究所和海洋工程研究所)的海事域中进行物体检测。我们收集了从韩国21个领土水域捕获的5,845小时的视频数据。通过精心设计的数据质量评估过程,我们从视频数据中收集了大约2,151,470 4K分辨率的图像。该数据集考虑了各种环境:天气,时间,照明,遮挡,观点,背景,风速和可见性。 Kolomverse由五个类(船,浮标,渔网浮标,灯塔和风电场)组成,用于海上对象检测。该数据集的图像为3840美元$ \ times $ 2160像素,据我们所知,它是迄今为止最大的公开数据集,用于海上域中的对象检测。我们进行了对象检测实验,并在几个预训练的最先进的架构上评估了我们的数据集,以显示我们数据集的有效性和实用性。该数据集可在:\ url {https://github.com/maritimedataset/kolomverse}中获得。
translated by 谷歌翻译