这项研究提出了一个可靠的模型,用于识别具有最高精度的不同建筑材料,该模型被利用为用于广泛的施工应用(例如自动进度监控)的有利工具。在这项研究中,一种称为视觉变压器(VIT)的新型深度学习结构用于检测和分类建筑材料。使用不同的图像数据集评估了所采用方法的鲁棒性。为此,对模型进行了训练和测试,并在两个大型不平衡数据集上进行了测试,即建筑材料库(CML)和建筑材料数据集(BMD)。还通过组合CML和BMD来创建更不平衡的数据集并评估使用方法的功能来生成第三个数据集。所达到的结果揭示了评估指标的精度为100%,例如三个不同数据集的每个材料类别的准确性,精度,召回率和F1得分。据信,建议的模型实现了用于检测和分类不同材料类型的强大工具。迄今为止,许多研究试图自动对仍然存在一些错误的各种建筑材料进行分类。这项研究将解决上述缺点,并提出一个模型以更高的精度检测材料类型。所采用的模型也能够被推广到不同的数据集。
translated by 谷歌翻译
Covid-19是一种攻击上呼吸道和肺部的新型病毒。它的人对人的传播性非常迅速,这在个人生活的各个方面都引起了严重的问题。尽管一些感染的人可能仍然完全无症状,但经常被目睹有轻度至重度症状。除此之外,全球成千上万的死亡案件表明,检测Covid-19是社区的紧急需求。实际上,这是在筛选医学图像(例如计算机断层扫描(CT)和X射线图像)的帮助下进行的。但是,繁琐的临床程序和大量的每日病例对医生构成了巨大挑战。基于深度学习的方法在广泛的医疗任务中表现出了巨大的潜力。结果,我们引入了一种基于变压器的方法,用于使用紧凑卷积变压器(CCT)自动从X射线图像中自动检测COVID-19。我们的广泛实验证明了该方法的疗效,精度为98%,比以前的作品表现优于先前的作品。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究,为农业作物制定了自动杂草管理系统。在这个过程中,其中一个主要任务是识别图像中的杂草。但是,杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色,纹理和形状类似,可以通过成像条件,当记录图像时的成像条件,地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中,我们调查了五个最先进的深神经网络,即VGG16,Reset-50,Inception-V3,Inception-Resnet-V2和MobileNetv2,并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是,我们通过组合几个较小的数据集,通过数据增强构成了一个大型DataSet,缓解了类别不平衡,并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行,而ResET-50比其他大型数据集上的其他深网络更好地执行。
translated by 谷歌翻译
农民常规施用氮气(N)肥料以增加作物产量。目前,农民经常在某些位置或时间点上过度应用N肥料,因为它们没有高分辨率作物N状态数据。 N用效率可以很低,剩下的N损失环境,导致生产成本高,环境污染。准确和及时估计作物中的N状况至关重要,从而提高种植系统的经济和环境可持续性。基于组织分析的常规方法在实验室中估算植物中的N个状态是耗时和破坏性的。遥感和机器学习的最新进展表明了以非破坏性方式解决上述挑战的承诺。我们提出了一种新的深度学习框架:一种基于频道空间关注的视觉变压器(CSVT),用于估计从麦田中从UAV收集的大图像的作物N状态。与现有的作品不同,所提出的CSVT引入了通道注意力块(CAB)和空间交互块(SIB),其允许捕获来自UAV数字空中图像的空间和通道功能的非线性特性,以获得准确的N状态预测在小麦作物。此外,由于获得标记的数据是耗时且昂贵的,因此引入了本地到全局自我监督的学习,以预先培训CSVT,具有广泛的未标记数据。建议的CSVT与最先进的模型进行了比较,在测试和独立数据集上进行测试和验证。该方法实现了高精度(0.96),具有良好的普遍性和对小麦N状况估算的再现性。
translated by 谷歌翻译
糖尿病足溃疡分类系统使用伤口感染(伤口内的细菌)和缺血(限制血供给)作为重要的临床指标治疗和预测伤口愈合。研究使用自动化计算机化方法在糖尿病足伤中使用自动化计算机化方法的使用和缺血的使用是有限的,这是有限的,因为存在的公开可用数据集和严重数据不平衡存在。糖尿病脚溃疡挑战2021提供了一种具有更大量数据集的参与者,其总共包括15,683只糖尿病足溃疡贴剂,用于训练5,734,用于测试,额外的3,994个未标记的贴片,以促进半监督和弱的发展 - 监督深度学习技巧。本文提供了对糖尿病足溃疡攻击2021中使用的方法的评估,并总结了从每个网络获得的结果。最佳性能的网络是前3种型号的结果的集合,宏观平均F1分数为0.6307。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
我们的粮食安全建立在土壤的基础上。如果土壤不健康,农民将无法用纤维,食物和燃料喂养我们。准确预测土壤的类型有助于规划土壤的使用,从而提高生产率。这项研究采用了最先进的视觉变压器,并与SVM,Alexnet,Resnet和CNN等不同模型进行了比较。此外,这项研究还着重于区分不同的视觉变压器体系结构。对于土壤类型的分类,数据集由4种不同类型的土壤样品组成,例如冲积,红色,黑色和粘土。 Visual Transformer模型在测试和测试时达到98.13%的训练和93.62%的范围,在测试和训练精度方面都优于其他模型。视觉变压器的性能超过了其他模型的性能至少2%。因此,新颖的视觉变压器可用于计算机视觉任务,包括土壤分类。
translated by 谷歌翻译
2019年12月,一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展,但技术也证明了在战斗中的重要性。此外,许多医疗应用中已采用人工智能,以诊断许多疾病,甚至陷入困境的经验丰富的医生。因此,本调查纸探讨了提议的方法,可以提前援助医生和研究人员,廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试,但机器和深度学习可以采用显着的方式。另一方面,对不同类型的医学图像的访问已经激励了研究人员。结果,提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后,我们会收集常用的数据集及其用例日期。此外,我们还显示了采用深入学习的机器学习的研究人员的百分比。因此,我们对这种情况进行了彻底的分析。最后,在研究挑战中,我们详细阐述了Covid-19研究中面临的问题,我们解决了我们的理解,以建立一个明亮健康的环境。
translated by 谷歌翻译
无线电星系的连续排放通常可以分为不同的形态学类,如FRI,Frii,弯曲或紧凑。在本文中,我们根据使用深度学习方法使用小规模数据集的深度学习方法来探讨基于形态的无线电星系分类的任务($ \ SIM 2000 $ Samples)。我们基于双网络应用了几次射击学习技术,并使用预先培训的DENSENET模型进行了先进技术的传输学习技术,如循环学习率和歧视性学习迅速训练模型。我们使用最佳表演模型实现了超过92 \%的分类准确性,其中最大的混乱来源是弯曲和周五型星系。我们的结果表明,专注于一个小但策划数据集随着使用最佳实践来训练神经网络可能会导致良好的结果。自动分类技术对于即将到来的下一代无线电望远镜的调查至关重要,这预计将在不久的将来检测数十万个新的无线电星系。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
全景牙科射线照相(PDR)图像处理是法医医学中最广泛使用的方法之一。深度学习模型由于其高处理速度,准确性和稳定性而被广泛用于当今放射学图像的自动分析。提出了一些使用转移学习的方法来分类PDR图像。在这项研究中,使用了Densenet121卷积神经网络(CNN)分类器,该分类器是预先训练的深度学习体系结构之一。提出的Densenet121网络已在最后一层之前进行了几层扩展和微调,以提高其从数据中理解更复杂模式的能力。在此阶段结束时,它已经通过包含PDR图像的牙科数据集进行了培训,并变得更有经验。采用了K折的交叉验证方法来提高所提出的Densenet121模型的准确性。在这项研究中,对于4,800个测试数据集的分类精度为97.25%,实现了最佳性能。提出的模型以及基于Grad-CAM的分析还表明,下颌骨和牙齿是性别分类中最重要的领域。
translated by 谷歌翻译
植物疾病是全球作物损失的主要原因,对世界经济产生了影响。为了解决这些问题,智能农业解决方案正在发展,将物联网和机器学习结合起来,以进行早期疾病检测和控制。许多这样的系统使用基于视觉的机器学习方法进行实时疾病检测和诊断。随着深度学习技术的发展,已经出现了新方法,这些方法采用卷积神经网络进行植物性疾病检测和鉴定。基于视觉的深度学习的另一个趋势是使用视觉变压器,事实证明,这些变压器是分类和其他问题的强大模型。但是,很少研究视力变压器以进行植物病理应用。在这项研究中,为植物性疾病鉴定提出了一个启用视觉变压器的卷积神经网络模型。提出的模型将传统卷积神经网络的能力与视觉变压器有效地识别出多种农作物的大量植物疾病。拟议的模型具有轻巧的结构,只有80万个可训练的参数,这使其适合基于物联网的智能农业服务。 PlantXvit的性能在五个公开可用的数据集上进行了评估。拟议的PlantXvit网络在所有五个数据集上的性能要比五种最先进的方法更好。即使在挑战性的背景条件下,识别植物性疾病的平均准确性分别超过了苹果,玉米和稻米数据集的93.55%,92.59%和98.33%。使用梯度加权的类激活图和局部可解释的模型不可思议的解释来评估所提出模型的解释性效率。
translated by 谷歌翻译
To ensure proper knowledge representation of the kitchen environment, it is vital for kitchen robots to recognize the states of the food items that are being cooked. Although the domain of object detection and recognition has been extensively studied, the task of object state classification has remained relatively unexplored. The high intra-class similarity of ingredients during different states of cooking makes the task even more challenging. Researchers have proposed adopting Deep Learning based strategies in recent times, however, they are yet to achieve high performance. In this study, we utilized the self-attention mechanism of the Vision Transformer (ViT) architecture for the Cooking State Recognition task. The proposed approach encapsulates the globally salient features from images, while also exploiting the weights learned from a larger dataset. This global attention allows the model to withstand the similarities between samples of different cooking objects, while the employment of transfer learning helps to overcome the lack of inductive bias by utilizing pretrained weights. To improve recognition accuracy, several augmentation techniques have been employed as well. Evaluation of our proposed framework on the `Cooking State Recognition Challenge Dataset' has achieved an accuracy of 94.3%, which significantly outperforms the state-of-the-art.
translated by 谷歌翻译
自动图像分类是食品科学中监督机器学习的常见任务。一个例子是基于图像的水果外部质量或成熟度的分类。为此,通常使用深层卷积神经网络(CNN)。这些模型通常需要大量标记的培训样本和增强的计算资源。尽管商业水果分类线很容易满足这些要求,但这些先决条件可能会阻碍机器学习方法的使用,尤其是对于发展中国家的小农户。我们提出了一种基于预先训练的视觉变压器(VIT)的替代方法,该方法特别适用于数据可用性较低和计算资源有限的域。可以在标准设备上使用有限的资源来轻松实施,这可以使这些模型在发展中国家的基于智能手机的图像分类中民主化。我们通过用良好的CNN方法基准对香蕉和苹果水果的域数据集进行两项不同的分类任务来证明我们方法的竞争力。我们的方法在3745张图像的训练数据集上,分类精度低于表现最佳的CNN(0.950 vs. 0.958)的分类精度。同时,当只有少量标记的训练样本可用时,我们的方法是优越的。与CNN相比,它需要少三倍才能达到0.90的精度。此外,低维特征嵌入的可视化表明,我们的研究中使用的模型从看不见的数据中提取了出色的特征,而无需分配标签。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is considered one of the primary concerns due to its effect on vision loss among most people with diabetes globally. The severity of DR is mostly comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this paper, we adopt transformer-based learning models to capture the crucial features of retinal images to understand DR severity better. We work with ensembling image transformers, where we adopt four models, namely ViT (Vision Transformer), BEiT (Bidirectional Encoder representation for image Transformer), CaiT (Class-Attention in Image Transformers), and DeiT (Data efficient image Transformers), to infer the degree of DR severity from fundus photographs. For experiments, we used the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
translated by 谷歌翻译
With the development of a series of Galaxy sky surveys in recent years, the observations increased rapidly, which makes the research of machine learning methods for galaxy image recognition a hot topic. Available automatic galaxy image recognition researches are plagued by the large differences in similarity between categories, the imbalance of data between different classes, and the discrepancy between the discrete representation of Galaxy classes and the essentially gradual changes from one morphological class to the adjacent class (DDRGC). These limitations have motivated several astronomers and machine learning experts to design projects with improved galaxy image recognition capabilities. Therefore, this paper proposes a novel learning method, ``Hierarchical Imbalanced data learning with Weighted sampling and Label smoothing" (HIWL). The HIWL consists of three key techniques respectively dealing with the above-mentioned three problems: (1) Designed a hierarchical galaxy classification model based on an efficient backbone network; (2) Utilized a weighted sampling scheme to deal with the imbalance problem; (3) Adopted a label smoothing technique to alleviate the DDRGC problem. We applied this method to galaxy photometric images from the Galaxy Zoo-The Galaxy Challenge, exploring the recognition of completely round smooth, in between smooth, cigar-shaped, edge-on and spiral. The overall classification accuracy is 96.32\%, and some superiorities of the HIWL are shown based on recall, precision, and F1-Score in comparing with some related works. In addition, we also explored the visualization of the galaxy image features and model attention to understand the foundations of the proposed scheme.
translated by 谷歌翻译
乳腺癌是女性可能发生的最严重的癌症之一。通过分析组织学图像(HIS)来自动诊断乳腺癌对患者及其预后很重要。他的分类为临床医生提供了对疾病的准确了解,并使他们可以更有效地治疗患者。深度学习(DL)方法已成功地用于各种领域,尤其是医学成像,因为它们有能力自动提取功能。这项研究旨在使用他的乳腺癌对不同类型的乳腺癌进行分类。在这项研究中,我们提出了一个增强的胶囊网络,该网络使用RES2NET块和四个额外的卷积层提取多尺度特征。此外,由于使用了小的卷积内核和RES2NET块,因此所提出的方法具有较少的参数。结果,新方法的表现优于旧方法,因为它会自动学习最佳功能。测试结果表明该模型的表现优于先前的DL方法。
translated by 谷歌翻译