缺乏有效的目标区域使得在低强度光(包括行人识别和图像到图像翻译)中执行多个视觉功能变得困难。在这种情况下,通过使用红外和可见图像的联合使用来积累高质量的信息,即使在弱光下也可以检测行人。在这项研究中,我们将在LLVIP数据集上使用先进的深度学习模型,例如Pix2Pixgan和Yolov7,其中包含可见的信号图像对,用于低光视觉。该数据集包含33672张图像,大多数图像都是在黑暗场景中捕获的,与时间和位置紧密同步。
translated by 谷歌翻译
在良好的弹药条件下,车辆检测准确性相当准确,但在弱光条件下容易受到检测准确性不佳。弱光和眩光的组合效果或尾灯的眩光导致最新的对象检测模型更有可能错过车辆检测。但是,热红外图像对照明的变化是可靠的,并且基于热辐射。最近,生成对抗网络(GAN)已在图像域传输任务中广泛使用。最先进的GAN型号试图通过将红外图像转换为白天的RGB图像来提高夜间车辆检测准确性。但是,与白天条件相比,在夜间条件下,这些模型在夜间条件下表现不佳。因此,这项研究试图通过提出三种不同的方法来缓解这一缺点,该方法基于两个不同级别的GAN模型的组合,试图减少白天和夜间红外图像之间的特征分布差距。通过使用最新的对象检测模型测试模型,可以完成定量分析以比较提出模型的性能与最新模型的性能。定量和定性分析都表明,所提出的模型在夜间条件下的最新车辆检测模型优于最先进的GAN模型,显示了所提出的模型的功效。
translated by 谷歌翻译
本文介绍了用于合成近红外(NIR)图像生成和边界盒水平检测系统的数据集。不可否认的是,诸如Tensorflow或Pytorch之类的高质量机器学习框架以及大规模的Imagenet或可可数据集借助于加速GPU硬件,已将机器学习技术的极限推向了数十多年。在这些突破中,高质量的数据集是可以在模型概括和数据驱动的深神经网络的部署方面取得成功的基本构件之一。特别是,综合数据生成任务通常比其他监督方法需要更多的培训样本。因此,在本文中,我们共享从两个公共数据集(即Nirscene和Sen12ms)和我们的新颖NIR+RGB甜椒(辣椒(辣椒)数据集)重新处理的NIR+RGB数据集。我们定量和定性地证明了这些NIR+RGB数据集足以用于合成NIR图像生成。对于NIRSCENE1,SEN12MS和SEWT PEPPER数据集,我们实现了第11.36、26.53、26.53、26.53和40.15的距离(FID)。此外,我们发布了11个水果边界盒的手动注释,可以使用云服务将其作为各种格式导出。四个新添加的水果[蓝莓,樱桃,猕猴桃和小麦]化合物11新颖的边界盒数据集,在我们先前的DeepFruits项目中提出的作品[Apple,Appsicum,Capsicum,Capsicum,Mango,Orange,Rockmelon,Strawberry]。数据集的边界框实例总数为162K,可以从云服务中使用。为了评估数据集,YOLOV5单阶段检测器被利用并报告了令人印象深刻的平均水平前期,MAP [0.5:0.95]的结果为[min:0.49,最大:0.812]。我们希望这些数据集有用,并作为未来研究的基准。
translated by 谷歌翻译
在离岸部门以及科学界在水下行动方面的迅速发展,水下车辆变得更加复杂。值得注意的是,许多水下任务,包括对海底基础设施的评估,都是在自动水下车辆(AUV)的帮助下进行的。最近在人工智能(AI)方面取得了突破,尤其是深度学习(DL)模型和应用,这些模型和应用在各种领域都广泛使用,包括空中无人驾驶汽车,自动驾驶汽车导航和其他应用。但是,由于难以获得特定应用的水下数据集,它们在水下应用中并不普遍。从这个意义上讲,当前的研究利用DL领域的最新进步来构建从实验室环境中捕获的物品照片产生的定制数据集。通过将收集到的图像与包含水下环境的照片相结合,将生成的对抗网络(GAN)用于将实验室对象数据集转化为水下域。这些发现证明了创建这样的数据集的可行性,因为与现实世界的水下船体船体图像相比,所得图像与真实的水下环境非常相似。因此,水下环境的人工数据集可以克服因对实际水下图像的有限访问而引起的困难,并用于通过水下对象图像分类和检测来增强水下操作。
translated by 谷歌翻译
像指纹一样的生物识别验证已成为用户身份验证和验证现代技术不可或缺的一部分。它在我们大多数人所意识到的更多方面普遍存在。但是,如果手指脏,湿,受伤或传感器故障时,这些指纹图像的质量会恶化。因此,通过去除噪声并将其重组以重组图像对于其身份验证至关重要,从而解除原始指纹。因此,本文提出了一种深入学习方法,以使用生成(GAN)和细分模型来解决这些问题。在Pix2Pixgan和Cyclean(生成模型)以及U-NET(分割模型)之间进行了定性和定量比较。为了训练该模型,我们创建了自己的数据集NFD-精心设计的嘈杂的指纹数据集,具有不同的背景以及某些图像中的划痕,以使其更现实和强大。在我们的研究中,U-NET模型的性能比GAN网络更好
translated by 谷歌翻译
道路车辙是严重的道路障碍,可能导致早期和昂贵的维护成本的道路过早失败。在过去的几年中,正在积极进行使用图像处理技术和深度学习的道路损害检测研究。但是,这些研究主要集中在检测裂缝,坑洼及其变体上。很少有关于探测道路的研究。本文提出了一个新颖的道路车辙数据集,其中包括949张图像,并提供对象级别和像素级注释。部署了对象检测模型和语义分割模型,以检测所提出的数据集上的道路插道,并对模型预测进行了定量和定性分析,以评估模型性能并确定使用拟议方法检测道路插道时面临的挑战。对象检测模型Yolox-S实现了61.6%的Map@iou = 0.5,语义分割模型PSPNET(RESNET-50)达到54.69,精度为72.67,从而为将来的类似工作提供了基准的准确性。拟议的道路车辙数据集和我们的研究结果将有助于加速使用深度学习发现道路车辙的研究。
translated by 谷歌翻译
我们可以看到这一切吗?我们知道这一切吗?这些是我们当代社会中人类提出的问题,以评估我们解决问题的趋势。最近的研究探索了对象检测中的几种模型。但是,大多数人未能满足对客观性和预测准确性的需求,尤其是在发展中和发达国家中。因此,几种全球安全威胁需要开发有效解决这些问题的方法。本文提出了一种被称为智能监视系统(3S)的网络物理系统的对象检测模型。这项研究提出了一种2阶段的方法,突出了Yolo V3深度学习体系结构在实时和视觉对象检测中的优势。该研究实施了一种转移学习方法,以减少培训时间和计算资源。用于培训模型的数据集是MS COCO数据集,其中包含328,000个注释的图像实例。实施了深度学习技术,例如预处理,数据管道调查和检测,以提高效率。与其他新型研究模型相比,该模型的结果在检测监视镜头中的野生物体方面表现出色。记录了99.71%的精度,改进的地图为61.5。
translated by 谷歌翻译
Unmanned air vehicles (UAVs) popularity is on the rise as it enables the services like traffic monitoring, emergency communications, deliveries, and surveillance. However, the unauthorized usage of UAVs (a.k.a drone) may violate security and privacy protocols for security-sensitive national and international institutions. The presented challenges require fast, efficient, and precise detection of UAVs irrespective of harsh weather conditions, the presence of different objects, and their size to enable SafeSpace. Recently, there has been significant progress in using the latest deep learning models, but those models have shortcomings in terms of computational complexity, precision, and non-scalability. To overcome these limitations, we propose a precise and efficient multiscale and multifeature UAV detection network for SafeSpace, i.e., \textit{MultiFeatureNet} (\textit{MFNet}), an improved version of the popular object detection algorithm YOLOv5s. In \textit{MFNet}, we perform multiple changes in the backbone and neck of the YOLOv5s network to focus on the various small and ignored features required for accurate and fast UAV detection. To further improve the accuracy and focus on the specific situation and multiscale UAVs, we classify the \textit{MFNet} into small (S), medium (M), and large (L): these are the combinations of various size filters in the convolution and the bottleneckCSP layers, reside in the backbone and neck of the architecture. This classification helps to overcome the computational cost by training the model on a specific feature map rather than all the features. The dataset and code are available as an open source: github.com/ZeeshanKaleem/MultiFeatureNet.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
The task of locating and classifying different types of vehicles has become a vital element in numerous applications of automation and intelligent systems ranging from traffic surveillance to vehicle identification and many more. In recent times, Deep Learning models have been dominating the field of vehicle detection. Yet, Bangladeshi vehicle detection has remained a relatively unexplored area. One of the main goals of vehicle detection is its real-time application, where `You Only Look Once' (YOLO) models have proven to be the most effective architecture. In this work, intending to find the best-suited YOLO architecture for fast and accurate vehicle detection from traffic images in Bangladesh, we have conducted a performance analysis of different variants of the YOLO-based architectures such as YOLOV3, YOLOV5s, and YOLOV5x. The models were trained on a dataset containing 7390 images belonging to 21 types of vehicles comprising samples from the DhakaAI dataset, the Poribohon-BD dataset, and our self-collected images. After thorough quantitative and qualitative analysis, we found the YOLOV5x variant to be the best-suited model, performing better than YOLOv3 and YOLOv5s models respectively by 7 & 4 percent in mAP, and 12 & 8.5 percent in terms of Accuracy.
translated by 谷歌翻译
由于其前所未有的优势,在规模,移动,部署和隐蔽观察能力方面,空中平台和成像传感器的快速出现是实现新的空中监测形式。本文从计算机视觉和模式识别的角度来看,全面概述了以人为本的空中监控任务。它旨在为读者提供使用无人机,无人机和其他空中平台的空中监测任务当前状态的深入系统审查和技术分析。感兴趣的主要对象是人类,其中要检测单个或多个受试者,识别,跟踪,重新识别并进行其行为。更具体地,对于这四项任务中的每一个,我们首先讨论与基于地面的设置相比在空中环境中执行这些任务的独特挑战。然后,我们审查和分析公共可用于每项任务的航空数据集,并深入了解航空文学中的方法,并调查他们目前如何应对鸟瞰挑战。我们在讨论缺失差距和开放研究问题的讨论中得出结论,告知未来的研究途径。
translated by 谷歌翻译
图像到图像(I2I)转换是将数据从一个域转换为另一个域的数据,但是在使用如SAR /光学卫星图像的不同域时,目标域中的翻译图像的可用性以及多少原点域名被翻译为目标域仍然不够清楚。本文通过从最先进的I2I算法执行从光学域从光学域的标记数据集的翻译进行了解决,从目标域中的传输功能学习并评估原始数据集的数量是多少转入。添加到此时,提出堆叠作为与不同I2I翻译中学到的知识组合的方式,并针对单一模型进行评估。
translated by 谷歌翻译
电子踏板车已成为全球主要城市的无处不在的车辆。电子摩托车的数量不断升级,增加了与路上其他汽车的互动。 E-Scooter Rider的正常行为对其他易受攻击的道路使用者不同。这种情况为车辆主动安全系统和自动化驾驶功能创造了新的挑战,这需要检测电子踏板车作为第一步。为了我们的最佳知识,没有现有的计算机视觉模型来检测这些电子踏板车骑手。本文介绍了一种基于愿景的基于视觉的系统,可以区分电子踏板车骑车者和常规行人以及自然场景中的电子踏板车骑手的基准数据集。我们提出了一个高效的管道,建立了两种现有的最先进的卷积神经网络(CNN),您只需看一次(Yolov3)和MobileNetv2。我们在我们的数据集中微调MobileNetv2并培训模型以对电子踏板车骑手和行人进行分类。我们在原始测试样品上获得大约0.75左右的召回,以将电子踏板车骑手与整个管道进行分类。此外,YOLOV3顶部培训的MobileNetv2的分类精度超过91%,具有精度,召回超过0.9。
translated by 谷歌翻译
行人检测是自主驱动系统中最关键的模块。虽然相机通常用于此目的,但其质量严重降低了低光夜间驾驶场景。另一方面,热摄像机图像的质量在类似条件下保持不受影响。本文采用RGB和热图像提出了一种用于行人检测的端到端多峰融合模型。其新颖的时空深度网络架构能够有效利用多模式输入。它由两个不同的可变形ResNext-50编码器组成,用于来自两个方式的特征提取。这两个编码特征的融合发生在由几个图形关注网络和特征融合单元组成的多模式特征嵌入模块(MUFEM)内部。随后将MUFEM的最后一个特征融合单元的输出传递给两个CRF的空间细化。通过在四个不同方向横穿四个RNN的帮助下,通过应用渠道明智的关注和提取上下文信息来实现特征的进一步提高。最后,单级解码器使用这些特征映射来生成每个行人和分数图的边界框。我们在三个公开可用的多模式行人检测基准数据集,即Kaist,CVC-14和Utokyo上进行了广泛的框架实验。每个每个结果都改善了各种最先进的性能。在https://youtu.be/fdjdsifuucs,可以看到一个简短的视频以及其定性结果的概述。我们的源代码将在发布论文时发布。
translated by 谷歌翻译
水果苍蝇是果实产量最有害的昆虫物种之一。在AlertTrap中,使用不同的最先进的骨干功能提取器(如MobiLenetv1和MobileNetv2)的SSD架构的实现似乎是实时检测问题的潜在解决方案。SSD-MobileNetv1和SSD-MobileNetv2表现良好并导致AP至0.5分别为0.957和1.0。YOLOV4-TINY优于SSD家族,在AP@0.5中为1.0;但是,其吞吐量速度略微慢。
translated by 谷歌翻译
从汽车和交通检测到自动驾驶汽车系统,可以将街道对象的对象检测应用于各种用例。因此,找到最佳的对象检测算法对于有效应用它至关重要。已经发布了许多对象检测算法,许多对象检测算法比较了对象检测算法,但是很少有人比较了最新的算法,例如Yolov5,主要是侧重于街道级对象。本文比较了各种单阶段探测器算法; SSD MobilenetV2 FPN-Lite 320x320,Yolov3,Yolov4,Yolov5L和Yolov5S在实时图像中用于街道级对象检测。该实验利用了带有3,169张图像的修改后的自动驾驶汽车数据集。数据集分为火车,验证和测试;然后,使用重新处理,色相转移和噪音对其进行预处理和增强。然后对每种算法进行训练和评估。基于实验,算法根据推论时间及其精度,召回,F1得分和平均平均精度(MAP)产生了不错的结果。结果还表明,Yolov5L的映射@.5 of 0.593,MobileNetV2 FPN-Lite的推理时间最快,而其他推理时间仅为3.20ms。还发现Yolov5s是最有效的,其具有Yolov5L精度和速度几乎与MobilenetV2 FPN-Lite一样快。这表明各种算法适用于街道级对象检测,并且足够可行,可以用于自动驾驶汽车。
translated by 谷歌翻译
夜间热红外(NTIR)图像着色,也称为NTIR图像转换为白天颜色图像(NTIR2DC),是一个有希望的研究方向,可促进对人类和不利条件下的智能系统的夜间现场感知(例如,完整的黑暗)。但是,先前开发的方法对于小样本类别的着色性能差。此外,降低伪标签中的高置信度噪声并解决翻译过程中图像梯度消失的问题仍然不足,并且在翻译过程中防止边缘扭曲也很具有挑战性。为了解决上述问题,我们提出了一个新颖的学习框架,称为记忆引导的协作关注生成对抗网络(MORNGAN),该框架受到人类的类似推理机制的启发。具体而言,设计了记忆引导的样本选择策略和自适应协作注意力丧失,以增强小样本类别的语义保存。此外,我们提出了一个在线语义蒸馏模块,以挖掘并完善NTIR图像的伪标记。此外,引入条件梯度修复损失,以减少翻译过程中边缘失真。在NTIR2DC任务上进行的广泛实验表明,在语义保存和边缘一致性方面,提出的Morngan明显优于其他图像到图像翻译方法,这有助于显着提高对象检测精度。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
随着深度卷积神经网络的兴起,对象检测在过去几年中取得了突出的进步。但是,这种繁荣无法掩盖小物体检测(SOD)的不令人满意的情况,这是计算机视觉中臭名昭著的挑战性任务之一,这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外,用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中,我们首先对小物体检测进行了详尽的审查。然后,为了催化SOD的发展,我们分别构建了两个大规模的小物体检测数据集(SODA),SODA-D和SODA-A,分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水,我们收集2510个高分辨率航空图像,并在9个类别上注释800203实例。众所周知,拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后,我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展,并产生该领域的更多突破。数据集和代码将很快在:\ url {https://shaunyuan22.github.io/soda}上。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译