随着半导体晶片的整合密度和设计的复杂性的增加,它们中缺陷的幅度和复杂性也在上升。由于对晶圆缺陷的手动检查是昂贵的,因此高度需要基于自动的人工智能(AI)计算机视觉方法。先前关于缺陷分析的作品具有多个局限性,例如准确性低以及对分类和分割的单独模型的需求。为了分析混合型缺陷,一些以前的作品需要为每种缺陷类型分别训练一个模型,这是不可估计的。在本文中,我们介绍了基于编码器架构的新型网络WafersegClassnet(WSCN)。 WSCN执行单个和混合型晶圆缺陷的同时分类和分割。 WSCN使用“共享编码器”进行分类和细分,允许训练WSCN端到端。我们使用N-PAIR对比度损失首先预处理编码器,然后使用BCE-DICE损失进行分割,并进行分类的分类横向损失。使用N-PAIR对比度损失有助于更好地嵌入晶圆图的潜在维度。 WSCN的模型大小仅为0.51MB,仅执行0.2m的拖鞋。因此,它比其他最先进的型号轻得多。同样,它仅需要150个时期才能收敛,而先前的工作需要4,000个时代。我们在具有38,015张图像的混合WM38数据集上评估了我们的模型。 WSCN的平均分类精度为98.2%,骰子系数为0.9999。我们是第一个在混合WM38数据集上显示分割结果的人。可以从https://github.com/ckmvigil/wafersegclassnet获得源代码。
translated by 谷歌翻译
我们提出了一种名为ACLNET的新型深度学习模型,用于从地面图像中分割云。ACLNET同时使用深神经网络和机器学习(ML)算法来提取互补功能。具体而言,它使用有效网络-B0作为骨干,“``trous tos blacial pyramid boming''(ASPP)在多个接受场上学习,并从图像中提取细节细节。ACLNET还使用K-均值聚类来更精确地提取云边界。ACLNET对白天和夜间图像都有效。它提供的错误率较低,较高的召回率和更高的F1得分比Art最先进的云分割模型。ACLNET的源代码可在此处获得:https://github.com/ckmvigil/aclnet。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
由于红外图像的背景和噪音复杂,红外小目标检测是计算机视觉领域中最困难的问题之一。在大多数现有研究中,语义分割方法通常用于取得更好的结果。每个目标的质心是根据分割图作为检测结果计算的。相比之下,我们提出了一个新颖的端到端框架,用于在本文中针对小型目标检测和分割。首先,通过将UNET用作保持分辨率和语义信息的主链,我们的模型可以通过附加简单的无锚头来实现比其他最先进方法更高的检测精度。然后,使用金字塔池模块来进一步提取特征并提高目标分割的精度。接下来,我们使用语义分割任务,这些任务更加关注像素级特征,以帮助对象检测的训练过程,从而提高了平均精度,并允许模型检测一些以前无法检测到的目标。此外,我们开发了用于红外小目标检测和分割的多任务框架。与复合单任务模型相比,我们的多任务学习模型在保持准确性的同时,将复杂性降低了近一半,并将推断加速近两次。代码和模型可在https://github.com/chenastron/mtunet上公开获得。
translated by 谷歌翻译
医疗图像分割有助于计算机辅助诊断,手术和治疗。数字化组织载玻片图像用于分析和分段腺,核和其他生物标志物,这些标志物进一步用于计算机辅助医疗应用中。为此,许多研究人员开发了不同的神经网络来对组织学图像进行分割,主要是这些网络基于编码器编码器体系结构,并且还利用了复杂的注意力模块或变压器。但是,这些网络不太准确地捕获相关的本地和全局特征,并在多个尺度下具有准确的边界检测,因此,我们提出了一个编码器折叠网络,快速注意模块和多损耗函数(二进制交叉熵(BCE)损失的组合) ,焦点损失和骰子损失)。我们在两个公开可用数据集上评估了我们提出的网络的概括能力,用于医疗图像分割Monuseg和Glas,并胜过最先进的网络,在Monuseg数据集上提高了1.99%的提高,而GLAS数据集则提高了7.15%。实施代码可在此链接上获得:https://bit.ly/histoseg
translated by 谷歌翻译
为了确保全球粮食安全和利益相关者的总体利润,正确检测和分类植物疾病的重要性至关重要。在这方面,基于深度学习的图像分类的出现引入了大量解决方案。但是,这些解决方案在低端设备中的适用性需要快速,准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法,用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像,以改善分类。我们的系统使用组合模型来提取功能,该模型由预审计的MobilenETV2体系结构和分类器网络组成,以进行有效的预测。传统的增强方法被运行时的增加取代,以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明,所提出的体系结构可实现99.30%的精度,型号大小为9.60mb和4.87亿个浮点操作,使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。
translated by 谷歌翻译
从医用试剂染色图像中分割牙齿斑块为诊断和确定随访治疗计划提供了宝贵的信息。但是,准确的牙菌斑分割是一项具有挑战性的任务,需要识别牙齿和牙齿斑块受到语义腔区域的影响(即,在牙齿和牙齿斑块之间的边界区域中存在困惑的边界)以及实例形状的复杂变化,这些变化均未完全解决。现有方法。因此,我们提出了一个语义分解网络(SDNET),该网络介绍了两个单任务分支,以分别解决牙齿和牙齿斑块的分割,并设计了其他约束,以学习每个分支的特定类别特征,从而促进语义分解并改善该类别的特征牙齿分割的性能。具体而言,SDNET以分裂方式学习了两个单独的分割分支和牙齿的牙齿,以解除它们之间的纠缠关系。指定类别的每个分支都倾向于产生准确的分割。为了帮助这两个分支更好地关注特定类别的特征,进一步提出了两个约束模块:1)通过最大化不同类别表示之间的距离来学习判别特征表示,以了解判别特征表示形式,以减少减少负面影响关于特征提取的语义腔区域; 2)结构约束模块(SCM)通过监督边界感知的几何约束提供完整的结构信息,以提供各种形状的牙菌斑。此外,我们构建了一个大规模的开源染色牙菌斑分割数据集(SDPSEG),该数据集为牙齿和牙齿提供高质量的注释。 SDPSEG数据集的实验结果显示SDNET达到了最新的性能。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
数据驱动的故障检测已被视为3D图像分割任务。从合成数据训练的模型在某些调查中很难概括。最近,使用稀疏手动2D切片的训练3D断层分割被认为会产生令人鼓舞的结果,但是手动标记具有许多假阴性标签(异常注释),这对训练有害,因此对检测性能有害。在稀疏的2D标签下训练3D断层分割网络的动机,同时抑制假阴性标签,我们分析了训练过程梯度,并提出了蒙版骰子(MD)损失。此外,故障是一个边缘功能,并且当前的编码器decoder架构广泛用于故障检测(例如,U形网络)不利于边缘表示。因此,提出了故障网络,该故障网络是为故障的特征而设计的,采用高分辨率传播特征,并嵌入多尺度压缩融合块以融合多尺度信息,从而使边缘信息在传播和融合过程中得到充分保存,从而通过几个计算资源实现高级性能。实验表明,MD损失支持将人类经验纳入训练中,并抑制其中的假阴性标签,从而使基线模型可以提高性能并推广到更多的调查。故障网络能够提供对故障的更稳定和可靠的解释,它使用极低的计算资源,并且推断的速度明显快于其他模型。我们的方法表明与几种主流方法相比,最佳性能。
translated by 谷歌翻译
随着深度学习方法的进步,如深度卷积神经网络,残余神经网络,对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割,以解决目标区域或子区域的识别和检测的自动化。在最近的研究中,基于U-Net的方法在不同应用中显示了最先进的性能,以便在脑肿瘤,肺癌,阿尔茨海默,乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等,使用各种方式。本文通过描述U-Net框架来提出这些方法的成功,然后通过执行1)型号的U-Net变体进行综合分析,2)模特内分类,建立更好的见解相关的挑战和解决方案。此外,本文还强调了基于U-Net框架在持续的大流行病,严重急性呼吸综合征冠状病毒2(SARS-COV-2)中的贡献也称为Covid-19。最后,分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战,以发现该领域的未来未来的研究方向。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
无线胶囊内窥镜检查是检查胃肠道的最先进的非侵入性方法之一。一种用于检测胃肠道异常(如息肉,出血,炎症等)的智能计算机辅助诊断系统在无线胶囊内窥镜图像分析中非常紧张。异常的形状,大小,颜色和纹理有很大不同,有些在视觉上与正常区域相似。由于类内的变化,这在设计二进制分类器方面构成了挑战。在这项研究中,提出了一个混合卷积神经网络,用于异常检测,该检测从无线胶囊内窥镜图像中提取了丰富的有意义的特征,并使用各种卷积操作提取。它由三个平行的卷积神经网络组成,每个神经网络具有独特的特征学习能力。第一个网络利用了深度可分离的卷积,而第二个网络采用余弦归一化的卷积操作。在第三个网络中引入了一种新颖的元效力提取机制,以从第一和第二网络及其自己的先前层中生成的特征中汲取的统计信息中提取模式。网络三重奏有效地处理了类内的方差,并有效地检测到胃肠道异常。拟议的混合卷积神经网络模型对两个广泛使用的公开数据集进行了训练和测试。测试结果表明,所提出的模型在KID和Kvasir-Capsule数据集上分别优于97 \%和98 \%分类精度的六种最先进方法。交叉数据集评估结果还证明了所提出的模型的概括性能。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中,提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络,以提高路面裂纹分割精度。 RHA-NET是通过将残留块(重阻)和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能,以帮助模型专注于正确的频道和裂纹区域,从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集,其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比,所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外,通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度,而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2(25 fps)上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。
translated by 谷歌翻译
组织学图像中核和腺体的实例分割是用于癌症诊断,治疗计划和生存分析的计算病理学工作流程中的重要一步。随着现代硬件的出现,大规模质量公共数据集的最新可用性以及社区组织的宏伟挑战已经看到了自动化方法的激增,重点是特定领域的挑战,这对于技术进步和临床翻译至关重要。在这项调查中,深入分析了过去五年(2017-2022)中发表的原子核和腺体实例细分的126篇论文,进行了深入分析,讨论了当前方法的局限性和公开挑战。此外,提出了潜在的未来研究方向,并总结了最先进方法的贡献。此外,还提供了有关公开可用数据集的概括摘要以及关于说明每种挑战的最佳性能方法的巨大挑战的详细见解。此外,我们旨在使读者现有研究的现状和指针在未来的发展方向上开发可用于临床实践的方法,从而可以改善诊断,分级,预后和癌症的治疗计划。据我们所知,以前没有工作回顾了朝向这一方向的组织学图像中的实例细分。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
光学相干断层扫描(OCT)有助于眼科医生评估黄斑水肿,流体的积累以及微观分辨率的病变。视网膜流体的定量对于OCT引导的治疗管理是必需的,这取决于精确的图像分割步骤。由于对视网膜流体的手动分析是一项耗时,主观和容易出错的任务,因此对快速和健壮的自动解决方案的需求增加了。在这项研究中,提出了一种名为Retifluidnet的新型卷积神经结构,用于多级视网膜流体分割。该模型受益于层次表示使用新的自适应双重注意(SDA)模块的纹理,上下文和边缘特征的学习,多个基于自适应的Skip Connections(SASC)以及一种新颖的多尺度深度自我监督学习(DSL)方案。拟议的SDA模块中的注意机制使该模型能够自动提取不同级别的变形感知表示,并且引入的SASC路径进一步考虑了空间通道相互依存,以串联编码器和解码器单元,从而提高了表示能力。还使用包含加权版本的骰子重叠和基于边缘的连接损失的联合损失函数进行了优化的retifluidnet,其中将多尺度局部损失的几个分层阶段集成到优化过程中。该模型根据三个公开可用数据集进行验证:润饰,Optima和Duke,并与几个基线进行了比较。数据集的实验结果证明了在视网膜OCT分割中提出的模型的有效性,并揭示了建议的方法比现有的最新流体分割算法更有效,以适应各种图像扫描仪器记录的视网膜OCT扫描。
translated by 谷歌翻译
Semantic segmentation works on the computer vision algorithm for assigning each pixel of an image into a class. The task of semantic segmentation should be performed with both accuracy and efficiency. Most of the existing deep FCNs yield to heavy computations and these networks are very power hungry, unsuitable for real-time applications on portable devices. This project analyzes current semantic segmentation models to explore the feasibility of applying these models for emergency response during catastrophic events. We compare the performance of real-time semantic segmentation models with non-real-time counterparts constrained by aerial images under oppositional settings. Furthermore, we train several models on the Flood-Net dataset, containing UAV images captured after Hurricane Harvey, and benchmark their execution on special classes such as flooded buildings vs. non-flooded buildings or flooded roads vs. non-flooded roads. In this project, we developed a real-time UNet based model and deployed that network on Jetson AGX Xavier module.
translated by 谷歌翻译
法医分析取决于从操纵图像识别隐藏迹线。由于它们无法处理功能衰减和依赖主导空间特征,传统的神经网络失败。在这项工作中,我们提出了一种新颖的门控语言注意力网络(GCA-NET),用于全球背景学习的非本地关注块。另外,我们利用所通用的注意机制结合密集的解码器网络,以引导在解码阶段期间的相关特征的流动,允许精确定位。所提出的注意力框架允许网络通过过滤粗糙度来专注于相关区域。此外,通过利用多尺度特征融合和有效的学习策略,GCA-Net可以更好地处理操纵区域的比例变化。我们表明,我们的方法在多个基准数据集中平均优于最先进的网络,平均为4.2%-5.4%AUC。最后,我们还开展了广泛的消融实验,以展示该方法对图像取证的鲁棒性。
translated by 谷歌翻译