高飞空中无人机捕获的视觉似乎越来越多地用于评估全球生物多样性和动物人口动态。然而,尽管超高分辨率相机,挑战采集场景和空气传播图像中的小型动物描绘,但到目前为止,这一直是利用高信心地应用计算机视觉探测器的因素。在本文中,我们首次通过将具有超级分辨率技术和高度数据组合的深度对象探测器来解决问题。特别是,我们表明,整体关注网络的超级分辨率方法和定制的海拔高度数据剥削网络进入标准识别管道,可以大大提高现实世界中的检测效率。我们评估两个公共,大型空中捕获动物数据集,Savmap和AED系统。我们发现所提出的方法可以一致地改善烧蚀的基线和两个数据集的最先进的性能。此外,我们对动物分辨率与检测性能之间的关系提供了系统分析。我们得出结论,超级分辨率和高度知识利用技术可以显着增加环境的基准,因此,在检测到空中图像中的微小解决的动物时应常规使用。
translated by 谷歌翻译
随着深度卷积神经网络的兴起,对象检测在过去几年中取得了突出的进步。但是,这种繁荣无法掩盖小物体检测(SOD)的不令人满意的情况,这是计算机视觉中臭名昭著的挑战性任务之一,这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外,用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中,我们首先对小物体检测进行了详尽的审查。然后,为了催化SOD的发展,我们分别构建了两个大规模的小物体检测数据集(SODA),SODA-D和SODA-A,分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水,我们收集2510个高分辨率航空图像,并在9个类别上注释800203实例。众所周知,拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后,我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展,并产生该领域的更多突破。数据集和代码将很快在:\ url {https://shaunyuan22.github.io/soda}上。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
由于其前所未有的优势,在规模,移动,部署和隐蔽观察能力方面,空中平台和成像传感器的快速出现是实现新的空中监测形式。本文从计算机视觉和模式识别的角度来看,全面概述了以人为本的空中监控任务。它旨在为读者提供使用无人机,无人机和其他空中平台的空中监测任务当前状态的深入系统审查和技术分析。感兴趣的主要对象是人类,其中要检测单个或多个受试者,识别,跟踪,重新识别并进行其行为。更具体地,对于这四项任务中的每一个,我们首先讨论与基于地面的设置相比在空中环境中执行这些任务的独特挑战。然后,我们审查和分析公共可用于每项任务的航空数据集,并深入了解航空文学中的方法,并调查他们目前如何应对鸟瞰挑战。我们在讨论缺失差距和开放研究问题的讨论中得出结论,告知未来的研究途径。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
本文结合了一条管道中的物种检测,3D模型拟合和度量学习的深度学习技术,通过利用独特的外套图案来从照片中进行单个动物识别。这是尝试此操作的第一项工作,与传统的2D边界框或基于CNN的CNN识别管道相比,该方法提供了有效且明确的视图标准化,并可以直接对学习的生物特征识别人群空间进行直接可视化。请注意,由于使用度量,该管道也很容易适用于打开集和零射击重新识别方案。我们将提出的方法应用于单个Grevy的斑马(Equus Grevyi)识别,并在一项有关Smalst数据集的小型研究中显示,使用3D模型拟合确实可以使性能受益。特别是,与数据集的2D边界框方法相比,来自3D拟合模型的背面纹理将识别精度从48.0%提高到56.8%。尽管该研究的准确程度太小,无法估算大型现实应用程序设置可实现的全部性能潜力,并且与抛光工具相比,我们的工作为下一步的动物生物识别技术奠定了概念和实用的基础,以深度度量学习在开放的人口环境中驱动的,完全3D感知的动物识别。我们将网络权重和相关的促进源代码与本文发布,以完全可重复性,并作为进一步研究的灵感。
translated by 谷歌翻译
本文介绍了用于合成近红外(NIR)图像生成和边界盒水平检测系统的数据集。不可否认的是,诸如Tensorflow或Pytorch之类的高质量机器学习框架以及大规模的Imagenet或可可数据集借助于加速GPU硬件,已将机器学习技术的极限推向了数十多年。在这些突破中,高质量的数据集是可以在模型概括和数据驱动的深神经网络的部署方面取得成功的基本构件之一。特别是,综合数据生成任务通常比其他监督方法需要更多的培训样本。因此,在本文中,我们共享从两个公共数据集(即Nirscene和Sen12ms)和我们的新颖NIR+RGB甜椒(辣椒(辣椒)数据集)重新处理的NIR+RGB数据集。我们定量和定性地证明了这些NIR+RGB数据集足以用于合成NIR图像生成。对于NIRSCENE1,SEN12MS和SEWT PEPPER数据集,我们实现了第11.36、26.53、26.53、26.53和40.15的距离(FID)。此外,我们发布了11个水果边界盒的手动注释,可以使用云服务将其作为各种格式导出。四个新添加的水果[蓝莓,樱桃,猕猴桃和小麦]化合物11新颖的边界盒数据集,在我们先前的DeepFruits项目中提出的作品[Apple,Appsicum,Capsicum,Capsicum,Mango,Orange,Rockmelon,Strawberry]。数据集的边界框实例总数为162K,可以从云服务中使用。为了评估数据集,YOLOV5单阶段检测器被利用并报告了令人印象深刻的平均水平前期,MAP [0.5:0.95]的结果为[min:0.49,最大:0.812]。我们希望这些数据集有用,并作为未来研究的基准。
translated by 谷歌翻译
尽管近期基于深度学习的语义细分,但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题,由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界,阴影区域,以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题,我们提出了一种生成的对抗基于网络的基于网络的分割框架,其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块,旨在精炼预测的建筑地图。边缘注意力增强了边界特征,以估计更高的精度,并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准,截至2021年12月4日,它在Deepglobe公共领导板上的第二名,尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩,我们的网络实现了81.28%的总体验证,总体准确性为97.03%。沿着同一条线,对于官方Inria测试数据集,我们的网络总体上得分77.86%和96.41%,而且准确性。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
航空图像中的微小对象检测(TOD)是具有挑战性的,因为一个小物体只包含几个像素。最先进的对象探测器由于缺乏判别特征的监督而无法为微小对象提供令人满意的结果。我们的主要观察结果是,联合度量(IOU)及其扩展的相交对微小物体的位置偏差非常敏感,这在基于锚固的探测器中使用时会大大恶化标签分配的质量。为了解决这个问题,我们提出了一种新的评估度量标准,称为标准化的Wasserstein距离(NWD)和一个新的基于排名的分配(RKA)策略,以进行微小对象检测。提出的NWD-RKA策略可以轻松地嵌入到各种基于锚的探测器中,以取代标准的基于阈值的检测器,从而大大改善了标签分配并为网络培训提供了足够的监督信息。在四个数据集中测试,NWD-RKA可以始终如一地提高微小的对象检测性能。此外,在空中图像(AI-TOD)数据集中观察到显着的嘈杂标签,我们有动力将其重新标记并释放AI-TOD-V2及其相应的基准。在AI-TOD-V2中,丢失的注释和位置错误问题得到了大大减轻,从而促进了更可靠的培训和验证过程。将NWD-RKA嵌入探测器中,检测性能比AI-TOD-V2上的最先进竞争对手提高了4.3个AP点。数据集,代码和更多可视化可在以下网址提供:https://chasel-tsui.g​​ithub.io/ai/ai-tod-v2/
translated by 谷歌翻译
车辆分类是一台热电电脑视觉主题,研究从地面查看到顶视图。在遥感中,顶视图的使用允许了解城市模式,车辆集中,交通管理等。但是,在瞄准像素方面的分类时存在一些困难:(a)大多数车辆分类研究使用对象检测方法,并且最公开的数据集设计用于此任务,(b)创建实例分段数据集是费力的,并且(C )传统的实例分段方法由于对象很小,因此在此任务上执行此任务。因此,本研究目标是:(1)提出使用GIS软件的新型半监督迭代学习方法,(2)提出一种自由盒实例分割方法,(3)提供城市规模的车辆数据集。考虑的迭代学习程序:(1)标记少数车辆,(2)在这些样本上列车,(3)使用模型对整个图像进行分类,(4)将图像预测转换为多边形shapefile,(5 )纠正有错误的一些区域,并将其包含在培训数据中,(6)重复,直到结果令人满意。为了单独的情况,我们考虑了车辆内部和车辆边界,DL模型是U-Net,具有高效网络B7骨架。当移除边框时,车辆内部变为隔离,允许唯一的对象识别。要恢复已删除的1像素边框,我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN(IOU中67%的82%)相比的更好的像素 - 明智的指标。关于每个对象分析,整体准确性,精度和召回大于90%。该管道适用于任何遥感目标,对分段和生成数据集非常有效。
translated by 谷歌翻译
在现场遥远的小物体和物体的检测是监视应用中的一个重大挑战。此类对象由图像中的少量像素表示,并且缺乏足够的细节,因此很难使用常规检测器检测到它们。在这项工作中,提出了一个称为切片辅助超推理(SAHI)的开源框架,该框架提供了一种通用切片的辅助推理和用于小对象检测的微调管道。提出的技术是通用的,因为它可以在任何可用的对象检测器之上应用于而无需任何微调。实验评估,使用对象检测基线在Visdrone和Xview Aerial对象检测数据集上表明,FCO,VFNET和TOOD检测器分别将对象检测方法分别增加6.8%,5.1%和5.3%。此外,通过切片辅助微调可以进一步提高检测准确性,从而导致累计增加12.7%,13.4%和14.5%的AP按照相同的顺序。拟议的技术已与DestectRon2,MMDetection和Yolov5模型集成在一起,并在https://github.com/obss/sahi.git上公开获得。
translated by 谷歌翻译
高分辨率遥感图像用于广泛的任务,包括对象的检测和分类。然而,高分辨率图像昂贵,而较低的分辨率图像通常是可自由的可用的,并且可以由公众用于社会良好应用范围。为此,我们使用从Spacenet 7挑战的PlanetsCope图像策划多个频谱多图像超分辨率数据集作为高分辨率参考和与低分辨率图像相同的图像的多个Sentinel-2重新定位。我们介绍了将多图像超分辨率(MISR)应用于多光谱遥感图像的第一个结果。此外,我们还将辐射级一致性模块引入MISR模型,以保持哨声-2传感器的高辐射分辨率。我们表明MISR优于一系列图像保真度指标的单图像超分辨率和其他基线。此外,我们对建筑描绘的多图像超分辨率的效用进行了第一次评估,显示利用多个图像导致这些下游任务中的更好的性能。
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
在过去的二十年中,在遥感(RS)图像中,开发对象检测方法的重大努力。在大多数情况下,遥感图像中的小对象检测的数据集不足。许多研究人员使用了场景分类数据集进行对象检测,这具有其限制;例如,大型对象在对象类别中寡出小对象。因此,他们缺乏多样性;这进一步影响了RS图像中的小对象探测器的检测性能。本文审查了当前数据集和对象检测方法(基于深度学习),用于遥感图像。我们还提出了一种大规模的公开可用的基准遥感超分辨率对象检测(RSSOD)数据集。 RSSOD数据集由1,759个手注释的图像组成,具有22,091个非常高分辨率(VHR)图像,空间分辨率为约0.05米。每个类有五个类别,每个类的标签频率不同。从卫星图像中提取图像贴片,包括真实图像扭曲,例如切向尺度失真和歪斜失真。我们还提出了一种新型多级循环超分辨率生成的对抗网络,具有残余特征聚合(MCGR)和辅助YOLOV5检测器,用于基于基于图像超分辨率的对象检测,并与现有的基于最先进的方法进行比较在图像超分辨率(SR)。与当前最先进的NLSN方法相比,所提出的MCGR为图像SR实现了最新的图像SR性能。 MCGR分别实现了0.758,0.881,0.841和0.983的最佳物体检测映射,分别超过最先进的对象探测器的性能YOLOV5,高效文件,更快的RCNN,SSD和RETINANET。
translated by 谷歌翻译
缺乏有效的目标区域使得在低强度光(包括行人识别和图像到图像翻译)中执行多个视觉功能变得困难。在这种情况下,通过使用红外和可见图像的联合使用来积累高质量的信息,即使在弱光下也可以检测行人。在这项研究中,我们将在LLVIP数据集上使用先进的深度学习模型,例如Pix2Pixgan和Yolov7,其中包含可见的信号图像对,用于低光视觉。该数据集包含33672张图像,大多数图像都是在黑暗场景中捕获的,与时间和位置紧密同步。
translated by 谷歌翻译
在本文中,我们为RSI(名为Superyolo)提出了一种准确而快速的小对象检测方法,该方法融合了多模式数据并通过利用辅助超级分辨率(SR)学习并考虑既有辅助的超级分辨率(SR)对象进行高分辨率(HR)对象检测检测准确性和计算成本。首先,我们通过删除焦点模块来保持人力资源特征并显着克服小物体缺失的误差来构建紧凑的基线。其次,我们利用像素级的多模式融合(MF)从各种数据中提取信息,以促进RSI中的小物体更合适和有效的功能。此外,我们设计了一个简单且灵活的SR分支来学习HR特征表示,可以区分具有低分辨率(LR)输入的庞大背景的小物体,从而进一步提高了检测准确性。此外,为避免引入其他计算,SR分支在推理阶段被丢弃,并且由于LR输入而减少了网络模型的计算。实验结果表明,在广泛使用的Vedai RS数据集上,Superyolo的精度为73.61%(在MAP50方面),比SOTA大型模型(例如Yolov5L,Yolov5X和RS设计的Yolors)高10%以上。同时,Superyolo的Gfolps和参数大小比Yolov5X少约18.1倍,4.2倍。我们提出的模型显示出与最新模型相比,具有良好的准确性速度权衡。该代码将在https://github.com/icey-zhang/superyolo上开放。
translated by 谷歌翻译
本文介绍了一种新的,高度结果的设置,用于将计算机视觉用于环境可持续性。浓缩动物喂养行动(CAFO)(又称密集牲畜农场或“工厂农场”)产生了巨大的肥料和污染。在冬季,倾倒粪便构成了重大的环境风险,并在许多州违反了环境法。然而,联邦环境保护署(EPA)和州机构主要依靠自我报告来监视此类“土地应用”。我们的论文做出了四个贡献。首先,我们介绍了CAFO和土地应用的环境,政策和农业环境。其次,我们提供了一个新的高效率数据集(每天至每周至每周)3M/像素卫星图像,从2018 - 20年使用威斯康星州的330个CAFO,并带有手工标记的土地应用实例(n = 57,697)。第三,我们开发了一个对象检测模型,以预测土地应用和一个系统以实时进行推断。我们表明,该系统似乎有效地检测到土地应用(PR AUC = 0.93),并且我们发现了几个异常设施,这些设施似乎定期适用。最后,我们估计2021/22冬季土地应用事件的人口流行率。我们表明,土地应用的普遍性要比设施自我报告的要高得多。该系统可以由环境监管机构和利益集团使用,该系统是在过去冬天根据该系统进行的试点探访的。总体而言,我们的应用程序展示了基于AI的计算机视觉系统解决环境符合近日图像的主要问题的潜力。
translated by 谷歌翻译
我们介绍了一种新颖的深度学习方法,用于使用高分辨率的多光谱空中图像在城市环境中检测单个树木。我们使用卷积神经网络来回归一个置信图,指示单个树的位置,该位置是使用峰查找算法本地化的。我们的方法通过检测公共和私人空间中的树木来提供完整的空间覆盖范围,并可以扩展到很大的区域。在我们的研究区域,跨越南加州的五个城市,我们的F评分为0.735,RMSE为2.157 m。我们使用我们的方法在加利福尼亚城市森林中生产所有树木的地图,这表明我们有可能在前所未有的尺度上支持未来的城市林业研究。
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译