美国庞大的桥梁网络对其维护和康复提出了很高的要求。手动视觉检查的大量费用在某种程度上是一定程度的负担。高级机器人已被利用以自动化检查数据收集。在大量检查图像数据中,自动化多类元素的分割以及元素的表面缺陷将有助于对桥梁条件进行有效评估。培训单独的单任务网络,用于元素解析(即多类元素的语义分割)和缺陷分段无法在检查图像中合并这两个任务之间的密切连接,其中存在可识别的结构元素和明显的表面缺陷。本文的动机是开发多任务深神经网络,该网络完全利用桥梁元素和缺陷之间的这种相互依赖性来提高模型的性能和概括。此外,研究了提议的网络设计改善任务性能的有效性,包括特征分解,串扰共享和多目标损耗函数。开发了带有桥梁元件和腐蚀的像素级标签的数据集,用于培训和评估模型。评估开发的多任务深神经网络的定量和定性结果表明,推荐的网络不仅超过了独立的单任务网络(在桥梁解析上高2.59%,在腐蚀细分方面高2.59%),而且在计算时间和实施中也是如此能力。
translated by 谷歌翻译
空中机器人(例如无人机)已被利用进行桥梁检查。可以通过板载摄像机收集具有可识别的结构元素和明显表面缺陷的检查图像,以提供有价值的信息以进行条件评估。本文旨在确定用于在检查图像中解析多类桥梁元素的合适的深神经网络(DNN)。一组广泛的定量评估以及定性示例表明,高分辨率净(HRNET)具有所需的能力。通过数据增强和130张图像的训练样本,预先训练的HRNET有效地转移到结构元件解析的任务中,并达到了92.67%的平均F1得分和86.33%的平均值。
translated by 谷歌翻译
Semantic segmentation works on the computer vision algorithm for assigning each pixel of an image into a class. The task of semantic segmentation should be performed with both accuracy and efficiency. Most of the existing deep FCNs yield to heavy computations and these networks are very power hungry, unsuitable for real-time applications on portable devices. This project analyzes current semantic segmentation models to explore the feasibility of applying these models for emergency response during catastrophic events. We compare the performance of real-time semantic segmentation models with non-real-time counterparts constrained by aerial images under oppositional settings. Furthermore, we train several models on the Flood-Net dataset, containing UAV images captured after Hurricane Harvey, and benchmark their execution on special classes such as flooded buildings vs. non-flooded buildings or flooded roads vs. non-flooded roads. In this project, we developed a real-time UNet based model and deployed that network on Jetson AGX Xavier module.
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
使用远程摄像机和无人机(UAVS)基于计算机视觉的损害检测可实现高效且低成本的桥梁健康监控,从而降低了人工成本以及传感器安装和维护的需求。通过利用最近的语义图像分割方法,我们能够找到关键结构组件的区域,并使用图像作为唯一的输入来识别像素级别的损坏。但是,当发现少量损坏(例如裂缝和裸露的钢筋)和具有有限图像样本的薄物体时,现有方法的性能很差,尤其是当感兴趣的组件高度不平衡时。为此,本文介绍了一个语义分割框架,该框架强加了组件类别和损害类型之间的层次语义关系。例如,仅在桥柱上存在的某些混凝土裂纹,因此在检测到此类损害时,非列区域将被掩盖。通过这种方式,损坏检测模型只能集中在可能受损区域的学习特征上,并避免其他无关区域的影响。我们还利用多尺度的扩展,可提供不同尺度的视图,可保留每个图像的上下文信息,而不会失去处理小对象的能力。此外,提出的框架采用了重要的样本,该样本反复样本包含稀有组件(例如铁路卧铺和裸露的钢筋)的图像提供了更多的数据样本,从而解决了数据不平衡的数据挑战。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
Semantic segmentation is a classic computer vision problem dedicated to labeling each pixel with its corresponding category. As a basic task for advanced tasks such as industrial quality inspection, remote sensing information extraction, medical diagnostic aid, and autonomous driving, semantic segmentation has been developed for a long time in combination with deep learning, and a lot of works have been accumulated. However, neither the classic FCN-based works nor the popular Transformer-based works have attained fine-grained localization of pixel labels, which remains the main challenge in this field. Recently, with the popularity of autonomous driving, the segmentation of road scenes has received increasing attention. Based on the cross-task consistency theory, we incorporate edge priors into semantic segmentation tasks to obtain better results. The main contribution is that we provide a model-agnostic method that improves the accuracy of semantic segmentation models with zero extra inference runtime overhead, verified on the datasets of road and non-road scenes. From our experimental results, our method can effectively improve semantic segmentation accuracy.
translated by 谷歌翻译
检查裂缝是正确监视和维护建筑物的重要过程。但是,手动裂缝检查是耗时,不一致且危险的(例如,在高建筑物中)。由于开源AI技术的开发,可用的无人机(UAV)的增加以及智能手机摄像机的可用性,已经有可能自动化建筑物裂纹检查过程。这项研究介绍了使用最先进的分段算法来开发一种易于使用,免费和开源的自动化建筑物外部裂纹检查软件(ABECIS),用于建筑和设施经理定量和定性报告。使用在现实世界中的无人机和智能手机摄像机和受控实验室环境中收集的图像对Abecis进行了测试。从算法的原始输出来看,用于测试实验的工会上的中值相交​​是(1)0.686,用于使用商业无人机在受控的实验室环境中使用商业无人机在室内裂纹检测实验,(2)0.186,用于使用室内裂纹检测在施工现场检测的室内裂纹。智能手机和(3)0.958使用商业无人机在大学校园进行户外裂纹检测。当人类操作员选择性地消除误报时,这些IOU结果可以显着提高到0.8以上。通常,Abecis最适合室外无人机图像,将算法预测与人类验证/干预相结合提供非常准确的裂纹检测结果。该软件可公开可用,可以下载以供开箱即用:https://github.com/smart-nyuad/abecis
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
给定空中图像,空中场景解析(ASP)目标,以解释图像内容的语义结构,例如,通过将语义标签分配给图像的每个像素来解释图像内容的语义结构。随着数据驱动方法的推广,过去几十年通过在使用高分辨率航空图像时,通过接近基于瓦片级场景分类或分段的图像分析的方案来解决了对ASP的有希望的进展。然而,前者的方案通常会产生瓷砖技术边界的结果,而后者需要处理从像素到语义的复杂建模过程,这通常需要具有像素 - 明智语义标签的大规模和良好的图像样本。在本文中,我们在ASP中解决了这些问题,从瓷砖级场景分类到像素明智语义标签的透视图。具体而言,我们首先通过文献综述重新审视空中图像解释。然后,我们提出了一个大规模的场景分类数据集,其中包含一百万个空中图像被称为百万援助。使用所提出的数据集,我们还通过经典卷积神经网络(CNN)报告基准测试实验。最后,我们通过统一瓦片级场景分类和基于对象的图像分析来实现ASP,以实现像素明智的语义标记。密集实验表明,百万援助是一个具有挑战性但有用的数据集,可以作为评估新开发的算法的基准。当从百万辅助救援方面传输知识时,百万辅助的微调CNN模型始终如一,而不是那些用于空中场景分类的预磨料想象。此外,我们设计的分层多任务学习方法实现了对挑战GID的最先进的像素 - 明智的分类,拓宽了用于航空图像解释的像素明智语义标记的瓦片级场景分类。
translated by 谷歌翻译
在本文中,我们专注于探索有效的方法,以更快,准确和域的不可知性语义分割。受到相邻视频帧之间运动对齐的光流的启发,我们提出了一个流对齐模块(FAM),以了解相邻级别的特征映射之间的\ textit {语义流},并将高级特征广播到高分辨率特征有效地,有效地有效。 。此外,将我们的FAM与共同特征的金字塔结构集成在一起,甚至在轻量重量骨干网络(例如Resnet-18和DFNET)上也表现出优于其他实时方法的性能。然后,为了进一步加快推理过程,我们还提出了一个新型的封闭式双流对齐模块,以直接对齐高分辨率特征图和低分辨率特征图,在该图中我们将改进版本网络称为SFNET-LITE。广泛的实验是在几个具有挑战性的数据集上进行的,结果显示了SFNET和SFNET-LITE的有效性。特别是,建议的SFNET-LITE系列在使用RESNET-18主链和78.8 MIOU以120 fps运行的情况下,使用RTX-3090上的STDC主链在120 fps运行时,在60 fps运行时达到80.1 miou。此外,我们将四个具有挑战性的驾驶数据集(即CityScapes,Mapillary,IDD和BDD)统一到一个大数据集中,我们将其命名为Unified Drive细分(UDS)数据集。它包含不同的域和样式信息。我们基准了UDS上的几项代表性作品。 SFNET和SFNET-LITE仍然可以在UDS上取得最佳的速度和准确性权衡,这在如此新的挑战性环境中是强大的基准。所有代码和模型均可在https://github.com/lxtgh/sfsegnets上公开获得。
translated by 谷歌翻译
土地覆盖分类是一项多级分割任务,将每个像素分类为地球表面的某些天然或人为类别,例如水,土壤,自然植被,农作物和人类基础设施。受硬件计算资源和内存能力的限制,大多数现有研究通过将它们放置或将其裁剪成小于512*512像素的小斑块来预处理原始遥感图像,然后再将它们发送到深神经网络。然而,下调图像会导致空间细节损失,使小细分市场难以区分,并逆转了数十年来努力获得的空间分辨率进度。将图像裁剪成小斑块会导致远程上下文信息的丢失,并将预测的结果恢复为原始大小会带来额外的延迟。为了响应上述弱点,我们提出了称为Mkanet的有效的轻巧的语义分割网络。 Mkanet针对顶视图高分辨率遥感图像的特征,利用共享内核同时且同样处理不一致的尺度的地面段,还采用平行且浅层的体系结构来提高推理速度和友好的支持速度和友好的支持图像贴片,超过10倍。为了增强边界和小段歧视,我们还提出了一种捕获类别杂质区域的方法,利用边界信息并对边界和小部分错误判断施加额外的惩罚。广泛实验的视觉解释和定量指标都表明,Mkanet在两个土地覆盖分类数据集上获得了最先进的准确性,并且比其他竞争性轻量级网络快2倍。所有这些优点突出了Mkanet在实际应用中的潜力。
translated by 谷歌翻译
自动检测视网膜结构,例如视网膜血管(RV),凹起的血管区(FAZ)和视网膜血管连接(RVJ),对于了解眼睛的疾病和临床决策非常重要。在本文中,我们提出了一种新型的基于投票的自适应特征融合多任务网络(VAFF-NET),用于在光学相干性层析成像(OCTA)中对RV,FAZ和RVJ进行联合分割,检测和分类。提出了一个特定于任务的投票门模块,以适应并融合两个级别的特定任务的不同功能:来自单个编码器的不同空间位置的特征,以及来自多个编码器的功能。特别是,由于八八座图像中微脉管系统的复杂性使视网膜血管连接连接到分叉/跨越具有挑战性的任务的同时定位和分类,因此我们通过结合热图回归和网格分类来专门设计任务头。我们利用来自各种视网膜层的三个不同的\ textit {en face}血管造影,而不是遵循仅使用单个\ textit {en face}的现有方法。为了促进进一步的研究,已经发布了这些数据集的部分数据集,并已发布了公共访问:https://github.com/imed-lab/vaff-net。
translated by 谷歌翻译
语义分割是图像的像素明智标记。由于在像素级别定义了问题,因此确定图像类标签是不可接受的,而是在原始图像像素分辨率下本地化它们是必要的。通过卷积神经网络(CNN)在创建语义,高级和分层图像特征方面的非凡能力推动;在过去十年中提出了几种基于深入的学习的2D语义分割方法。在本调查中,我们主要关注最近的语义细分科学发展,特别是在使用2D图像的基于深度学习的方法。我们开始分析了对2D语义分割的公共图像集和排行榜,概述了性能评估中使用的技术。在研究现场的演变时,我们按时间顺序分类为三个主要时期,即预先和早期的深度学习时代,完全卷积的时代和后FCN时代。我们在技术上分析了解决领域的基本问题的解决方案,例如细粒度的本地化和规模不变性。在借阅我们的结论之前,我们提出了一张来自所有提到的时代的方法表,每个方法都概述了他们对该领域的贡献。我们通过讨论现场当前的挑战以及他们已经解决的程度来结束调查。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
Jaccard索引,也称为交叉联盟(iou),是图像语义分段中最关键的评估度量之一。然而,由于学习目的既不可分解也不是可分解的,则iou得分的直接优化是非常困难的。虽然已经提出了一些算法来优化其代理,但没有提供泛化能力的保证。在本文中,我们提出了一种边缘校准方法,可以直接用作学习目标,在数据分布上改善IOO的推广,通过刚性下限为基础。本方案理论上,根据IOU分数来确保更好的分割性能。我们评估了在七个图像数据集中所提出的边缘校准方法的有效性,显示使用深度分割模型的其他学习目标的IOU分数大量改进。
translated by 谷歌翻译
基础设施检查是一个非常昂贵的任务,需要技术人员访问远程或难以到达的地方。这是电力传动塔的情况,这些塔稀疏地定位,需要培训的工人爬上它们以寻找损坏。最近,在行业中使用无人机或直升机进行遥控录音,使技术人员进行这种危险的任务。然而,这留下了分析大量图像的问题,这具有很大的自动化潜力。由于几个原因,这是一个具有挑战性的任务。首先,缺乏可自由的培训数据和难以收集它的问题。另外,构成损坏的界限是模糊的,在数据​​标记中引入了一定程度的主观性。图像中的不平衡类分布也在增加任务的难度方面发挥作用。本文解决了传输塔中结构损伤检测的问题,解决了这些问题。我们的主要贡献是在远程获取的无人机图像上开发损坏检测,应用技术来克服数据稀缺和歧义的问题,以及评估这种方法解决这个特殊问题的方法的可行性。
translated by 谷歌翻译
近年来,多任务学习在各种应用程序中都取得了巨大的成功。尽管这些年来,单个模型培训已承诺取得出色的成果,但它忽略了有价值的信息,这些信息可能有助于我们更好地估计一个指标。在与学习相关的任务下,多任务学习能够更好地概括模型。我们试图通过在相关任务和归纳转移学习之间共享功能来增强多任务模型的功能映射。此外,我们的兴趣是学习各种任务之间的任务关系,以从多任务学习中获得更好的收益。在本章中,我们的目标是可视化现有的多任务模型,比较其性能,用于评估多任务模型性能的方法,讨论在各个领域的设计和实施过程中所面临的问题,以及他们实现的优势和里程碑
translated by 谷歌翻译