车辆分类是一台热电电脑视觉主题,研究从地面查看到顶视图。在遥感中,顶视图的使用允许了解城市模式,车辆集中,交通管理等。但是,在瞄准像素方面的分类时存在一些困难:(a)大多数车辆分类研究使用对象检测方法,并且最公开的数据集设计用于此任务,(b)创建实例分段数据集是费力的,并且(C )传统的实例分段方法由于对象很小,因此在此任务上执行此任务。因此,本研究目标是:(1)提出使用GIS软件的新型半监督迭代学习方法,(2)提出一种自由盒实例分割方法,(3)提供城市规模的车辆数据集。考虑的迭代学习程序:(1)标记少数车辆,(2)在这些样本上列车,(3)使用模型对整个图像进行分类,(4)将图像预测转换为多边形shapefile,(5 )纠正有错误的一些区域,并将其包含在培训数据中,(6)重复,直到结果令人满意。为了单独的情况,我们考虑了车辆内部和车辆边界,DL模型是U-Net,具有高效网络B7骨架。当移除边框时,车辆内部变为隔离,允许唯一的对象识别。要恢复已删除的1像素边框,我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN(IOU中67%的82%)相比的更好的像素 - 明智的指标。关于每个对象分析,整体准确性,精度和召回大于90%。该管道适用于任何遥感目标,对分段和生成数据集非常有效。
translated by 谷歌翻译
Panoptic semonation组合实例和语义预测,允许同时检测“事物”和“东西”。在许多具有挑战性的问题中有效地接近远程感测的数据中的Panoptic分段可能是吉祥的,因为它允许连续映射和特定的目标计数。有几个困难阻止了遥感中这项任务的增长:(a)大多数算法都设计用于传统图像,(b)图像标签必须包含“事物”和“填写”类,并且(c)注释格式复杂。因此,旨在解决和提高遥感中Panoptic分割的可操作性,这项研究有五个目标:(1)创建一个新的Panoptic分段数据准备管道,(2)提出注释转换软件以产生Panoptic注释; (3)在城市地区提出一个小说数据集,(4)修改任务的Detectron2,(5)评估城市环境中这项任务的困难。我们使用的空中图像,考虑14级,使用0,24米的空间分辨率。我们的管道考虑了三个图像输入,所提出的软件使用点Shapefile来创建Coco格式的样本。我们的研究生成了3,400个样本,具有512x512像素尺寸。我们使用了带有两个骨干板(Reset-50和Reset-101)的Panoptic-FPN,以及模型评估被视为语义实例和Panoptic指标。我们获得了93.9,47.7和64.9的平均iou,box ap和pq。我们的研究提出了一个用于Panoptic Seation的第一个有效管道,以及用于其他研究人员的广泛数据库使用和处理需要彻底了解的其他数据或相关问题。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
随着深度卷积神经网络的兴起,对象检测在过去几年中取得了突出的进步。但是,这种繁荣无法掩盖小物体检测(SOD)的不令人满意的情况,这是计算机视觉中臭名昭著的挑战性任务之一,这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外,用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中,我们首先对小物体检测进行了详尽的审查。然后,为了催化SOD的发展,我们分别构建了两个大规模的小物体检测数据集(SODA),SODA-D和SODA-A,分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水,我们收集2510个高分辨率航空图像,并在9个类别上注释800203实例。众所周知,拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后,我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展,并产生该领域的更多突破。数据集和代码将很快在:\ url {https://shaunyuan22.github.io/soda}上。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译
计算机视觉在智能运输系统(ITS)和交通监视中发挥了重要作用。除了快速增长的自动化车辆和拥挤的城市外,通过实施深层神经网络的实施,可以使用视频监视基础架构进行自动和高级交通管理系统(ATM)。在这项研究中,我们为实时交通监控提供了一个实用的平台,包括3D车辆/行人检测,速度检测,轨迹估算,拥塞检测以及监视车辆和行人的相互作用,都使用单个CCTV交通摄像头。我们适应了定制的Yolov5深神经网络模型,用于车辆/行人检测和增强的排序跟踪算法。还开发了基于混合卫星的基于混合卫星的逆透视图(SG-IPM)方法,用于摄像机自动校准,从而导致准确的3D对象检测和可视化。我们还根据短期和长期的时间视频数据流开发了层次结构的交通建模解决方案,以了解脆弱道路使用者的交通流量,瓶颈和危险景点。关于现实世界情景和与最先进的比较的几项实验是使用各种交通监控数据集进行的,包括从高速公路,交叉路口和城市地区收集的MIO-TCD,UA-DETRAC和GRAM-RTM,在不同的照明和城市地区天气状况。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
这项研究介绍了\ textit {landslide4sense},这是一种从遥感中检测到滑坡检测的参考基准。该存储库具有3,799个图像贴片,可从Sentinel-2传感器中融合光学层,并带有数字高程模型和来自ALOS Palsar的斜率层。附加的地形信息促进了对滑坡边界的准确检测,而最近的研究表明,仅使用光学数据,这是具有挑战性的。广泛的数据集支持在滑坡检测中进行深度学习(DL)研究,以及用于系统更新滑坡库存的方法的开发和验证。基准数据集已在四个不同的时间和地理位置收集:伊伯里(2018年9月),科达古(2018年8月),戈尔卡(2015年4月)和台湾(2009年8月)。每个图像像素均标记为属于滑坡,包括各种来源和彻底的手动注释。然后,我们评估11个最先进的DL分割模型的滑坡检测性能:U-NET,RESU-NET,PSPNET,CONTECTNET,DEEPLAB-V2,DEEPLAB-V3+,FCN-8,LINKNET,FRRRN-A,FRRN-A,, FRRN-B和SQNET。所有型号均已从划痕上对每个研究区域的四分之一的补丁进行培训,并在其他三个季度的独立贴片上进行了测试。我们的实验表明,Resu-NET的表现优于其他模型,用于滑坡检测任务。我们在\ url {www.landslide4sense.org}公开获得多种源滑坡基准数据(Landslide4sense)和经过测试的DL模型,为遥感,计算机视觉和机器学习社区建立了重要的资源通常,尤其是对滑坡检测的应用。
translated by 谷歌翻译
语义分割是图像的像素明智标记。由于在像素级别定义了问题,因此确定图像类标签是不可接受的,而是在原始图像像素分辨率下本地化它们是必要的。通过卷积神经网络(CNN)在创建语义,高级和分层图像特征方面的非凡能力推动;在过去十年中提出了几种基于深入的学习的2D语义分割方法。在本调查中,我们主要关注最近的语义细分科学发展,特别是在使用2D图像的基于深度学习的方法。我们开始分析了对2D语义分割的公共图像集和排行榜,概述了性能评估中使用的技术。在研究现场的演变时,我们按时间顺序分类为三个主要时期,即预先和早期的深度学习时代,完全卷积的时代和后FCN时代。我们在技术上分析了解决领域的基本问题的解决方案,例如细粒度的本地化和规模不变性。在借阅我们的结论之前,我们提出了一张来自所有提到的时代的方法表,每个方法都概述了他们对该领域的贡献。我们通过讨论现场当前的挑战以及他们已经解决的程度来结束调查。
translated by 谷歌翻译
在其他计算机视觉任务中,深入学习导致对象检测和实例分割的最近进步。这些进步导致广泛的基于学习方法和相关方法的广泛应用于卫星图像的对象检测任务中。在本文中,我们介绍了MIS检查水坝,从卫星图像中的卫星图像进行新数据集,用于构建用于检查和映射的自动化系统,专注于用于农业的灌溉结构的重要性。我们审查了一些最新的对象检测和实例分段方法,并在我们的新数据集中评估其性能。我们根据各种网络配置和骨干架构评估了几个基于单级,两阶段和注意的方法。数据集和预训练型号可在https://www.cse.iitb.ac.in.in/gramdridisti/上获得。
translated by 谷歌翻译
通过丘陵形成的现场制备是一种常用的造林治疗,通过机械地创建称为丘的植物植物物质来改善树木生长条件。在现场准备之后,下一个关键步骤是计算土墩的数量,该堆积的数量为森林经理提供了对给定种植园块所需的幼苗数量的精确估计。计算土墩数量通常是通过林业工人的手动现场调查来进行的,林业工人昂贵且容易出错,尤其是在大面积地区。为了解决这个问题,我们提出了一个新颖的框架,利用无人机成像和计算机视觉的进步,以准确估计种植块上的土墩数量。提出的框架包括两个主要组件。首先,我们利用基于深度学习算法的视觉识别方法来通过基于像素的分割来进行多个对象检测。这使得可见的土墩以及其他经常看到的物体(例如树木,碎屑,水的积累)的初步计数可用于表征种植块。其次,由于视觉识别可能会受到几个扰动因子(例如丘陵侵蚀,遮挡)的限制,因此我们采用机器学习估计功能,该功能可预测基于第一阶段提取的局部块属性的最终数量。我们在新的无人机数据集上评估了所提出的框架,该数据集代表具有不同功能的众多种植块。所提出的方法在相对计数精度方面优于手动计数方法,表明它在困难情况下具有有利和有效的潜力。
translated by 谷歌翻译
现有的计算机视觉系统可以与人类竞争,以理解物体的可见部分,但在描绘部分被遮挡物体的无形部分时,仍然远远远远没有达到人类。图像Amodal的完成旨在使计算机具有类似人类的Amodal完成功能,以了解完整的对象,尽管该对象被部分遮住。这项调查的主要目的是对图像Amodal完成领域的研究热点,关键技术和未来趋势提供直观的理解。首先,我们对这个新兴领域的最新文献进行了全面的评论,探讨了图像Amodal完成中的三个关键任务,包括Amodal形状完成,Amodal外观完成和订单感知。然后,我们检查了与图像Amodal完成有关的流行数据集及其共同的数据收集方法和评估指标。最后,我们讨论了现实世界中的应用程序和未来的研究方向,以实现图像的完成,从而促进了读者对现有技术和即将到来的研究趋势的挑战的理解。
translated by 谷歌翻译
在过去的二十年中,在遥感(RS)图像中,开发对象检测方法的重大努力。在大多数情况下,遥感图像中的小对象检测的数据集不足。许多研究人员使用了场景分类数据集进行对象检测,这具有其限制;例如,大型对象在对象类别中寡出小对象。因此,他们缺乏多样性;这进一步影响了RS图像中的小对象探测器的检测性能。本文审查了当前数据集和对象检测方法(基于深度学习),用于遥感图像。我们还提出了一种大规模的公开可用的基准遥感超分辨率对象检测(RSSOD)数据集。 RSSOD数据集由1,759个手注释的图像组成,具有22,091个非常高分辨率(VHR)图像,空间分辨率为约0.05米。每个类有五个类别,每个类的标签频率不同。从卫星图像中提取图像贴片,包括真实图像扭曲,例如切向尺度失真和歪斜失真。我们还提出了一种新型多级循环超分辨率生成的对抗网络,具有残余特征聚合(MCGR)和辅助YOLOV5检测器,用于基于基于图像超分辨率的对象检测,并与现有的基于最先进的方法进行比较在图像超分辨率(SR)。与当前最先进的NLSN方法相比,所提出的MCGR为图像SR实现了最新的图像SR性能。 MCGR分别实现了0.758,0.881,0.841和0.983的最佳物体检测映射,分别超过最先进的对象探测器的性能YOLOV5,高效文件,更快的RCNN,SSD和RETINANET。
translated by 谷歌翻译
组织学图像中核和腺体的实例分割是用于癌症诊断,治疗计划和生存分析的计算病理学工作流程中的重要一步。随着现代硬件的出现,大规模质量公共数据集的最新可用性以及社区组织的宏伟挑战已经看到了自动化方法的激增,重点是特定领域的挑战,这对于技术进步和临床翻译至关重要。在这项调查中,深入分析了过去五年(2017-2022)中发表的原子核和腺体实例细分的126篇论文,进行了深入分析,讨论了当前方法的局限性和公开挑战。此外,提出了潜在的未来研究方向,并总结了最先进方法的贡献。此外,还提供了有关公开可用数据集的概括摘要以及关于说明每种挑战的最佳性能方法的巨大挑战的详细见解。此外,我们旨在使读者现有研究的现状和指针在未来的发展方向上开发可用于临床实践的方法,从而可以改善诊断,分级,预后和癌症的治疗计划。据我们所知,以前没有工作回顾了朝向这一方向的组织学图像中的实例细分。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
我们介绍了一种新颖的深度学习方法,用于使用高分辨率的多光谱空中图像在城市环境中检测单个树木。我们使用卷积神经网络来回归一个置信图,指示单个树的位置,该位置是使用峰查找算法本地化的。我们的方法通过检测公共和私人空间中的树木来提供完整的空间覆盖范围,并可以扩展到很大的区域。在我们的研究区域,跨越南加州的五个城市,我们的F评分为0.735,RMSE为2.157 m。我们使用我们的方法在加利福尼亚城市森林中生产所有树木的地图,这表明我们有可能在前所未有的尺度上支持未来的城市林业研究。
translated by 谷歌翻译
滑坡在陡峭的斜坡上具有破坏性和反复发生的自然灾害,并代表了生命和财产的风险。了解遗物滑坡的位置对于了解其机制,更新库存图并改善风险评估至关重要。但是,在覆盖着雨林植被的热带地区,遗物滑坡映射很复杂。提出了一种新的CNN方法,用于半自动检测遗物滑坡,该检测使用由K均值聚类算法生成的数据集并具有预训练步骤。在预训练中计算的权重用于微调CNN训练过程。使用CBERS-4A WPM图像进行了建议和标准方法之间的比较。使用三个用于语义分割的CNN(U-NET,FPN,Linknet)带有两个增强数据集。总共测试了42种CNN组合。在测试的组合之间,精度和回忆的值非常相似。每种组合的召回率都高于75 \%,但是精度值通常小于20 \%。假阳性(FP)样品被称为这些低精度值的原因。提出的方法的预测更准确,正确检测到更多的滑坡。这项工作表明,在被雨林覆盖的区域发现遗物滑坡存在局限性,这主要与牧场的光谱响应与与\ textit {gleichenella sp。}蕨类植物的森林砍伐区域之间的相似性有关,通常用作lands斑scars的指示。
translated by 谷歌翻译