我们的粮食安全建立在土壤的基础上。如果土壤不健康,农民将无法用纤维,食物和燃料喂养我们。准确预测土壤的类型有助于规划土壤的使用,从而提高生产率。这项研究采用了最先进的视觉变压器,并与SVM,Alexnet,Resnet和CNN等不同模型进行了比较。此外,这项研究还着重于区分不同的视觉变压器体系结构。对于土壤类型的分类,数据集由4种不同类型的土壤样品组成,例如冲积,红色,黑色和粘土。 Visual Transformer模型在测试和测试时达到98.13%的训练和93.62%的范围,在测试和训练精度方面都优于其他模型。视觉变压器的性能超过了其他模型的性能至少2%。因此,新颖的视觉变压器可用于计算机视觉任务,包括土壤分类。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is considered one of the primary concerns due to its effect on vision loss among most people with diabetes globally. The severity of DR is mostly comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this paper, we adopt transformer-based learning models to capture the crucial features of retinal images to understand DR severity better. We work with ensembling image transformers, where we adopt four models, namely ViT (Vision Transformer), BEiT (Bidirectional Encoder representation for image Transformer), CaiT (Class-Attention in Image Transformers), and DeiT (Data efficient image Transformers), to infer the degree of DR severity from fundus photographs. For experiments, we used the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
translated by 谷歌翻译
由于独特的驾驶特征,人类驾驶员具有独特的驾驶技术,知识和情感。驾驶员嗜睡一直是一个严重的问题,危害道路安全。因此,必须设计有效的嗜睡检测算法以绕过道路事故。杂项研究工作已经解决了检测异常的人类驾驶员行为的问题,以通过计算机视觉技术检查驾驶员和汽车动力学的正面面孔。尽管如此,常规方法仍无法捕获复杂的驾驶员行为特征。但是,以深度学习体系结构的起源,还进行了大量研究,以分析和识别使用神经网络算法的驾驶员的嗜睡。本文介绍了一个基于视觉变形金刚和Yolov5架构的新颖框架,以实现驾驶员嗜睡的识别。提出了定制的Yolov5预训练的结构,以提取面部提取,目的是提取感兴趣的区域(ROI)。由于以前的体系结构的局限性,本文引入了视觉变压器进行二进制图像分类,该二进制图像分类在公共数据集UTA-RLDD上经过训练和验证。该模型分别达到了96.2 \%和97.4 \%的培训和验证精度。为了进行进一步的评估,在各种光明情况下的39名参与者的自定义数据集上测试了拟议的框架,并获得了95.5 \%的准确性。进行的实验揭示了我们在智能运输系统中实用应用框架的重要潜力。
translated by 谷歌翻译
滚动轴承是旋转机械的最关键组成部分。及时识别有缺陷的轴承可能会阻止整个机械系统的故障。由于机器零件的快速发展,机械状况监测场已进入大数据阶段。当使用大量数据时,手动特征提取方法的缺点是效率低下和不准确。近年来,诸如深度学习方法之类的数据驱动方法已成功用于机械智能故障检测。卷积神经网络(CNN)主要用于早期研究中,以检测和识别轴承断层。但是,CNN模型遭受了难以管理故障时间信息的缺点,这导致缺乏分类结果。在这项研究中,使用最先进的视觉变压器(VIT)对轴承缺陷进行了分类。使用Case Western Reserve University(CWRU)实验室实验数据对轴承缺陷进行了分类。该研究还考虑了除正常轴承条件外,在0负载情况下的13种不同类型的缺陷。使用短时傅立叶变换(STFT),将振动信号转换为2D时频图像。 2D时频图像用作VIT的输入参数。该模型的总体准确度为98.8%。
translated by 谷歌翻译
为了产生最大的影响,必须使用基于证据的决策制定公共卫生计划。创建机器学习算法是为了收集,存储,处理和分析数据以提供知识和指导决策。任何监视系统的关键部分是图像分析。截至最近,计算机视觉和机器学习的社区最终对此感到好奇。这项研究使用各种机器学习和图像处理方法来检测和预测疟疾疾病。在我们的研究中,我们发现了深度学习技术作为具有更广泛适用于疟疾检测的智能工具的潜力,通过协助诊断病情,可以使医生受益。我们研究了针对计算机框架和组织的深度学习的共同限制,计算需要准备数据,准备开销,实时执行和解释能力,并发现对这些限制的轴承的未来询问。
translated by 谷歌翻译
这项研究提出了一个可靠的模型,用于识别具有最高精度的不同建筑材料,该模型被利用为用于广泛的施工应用(例如自动进度监控)的有利工具。在这项研究中,一种称为视觉变压器(VIT)的新型深度学习结构用于检测和分类建筑材料。使用不同的图像数据集评估了所采用方法的鲁棒性。为此,对模型进行了训练和测试,并在两个大型不平衡数据集上进行了测试,即建筑材料库(CML)和建筑材料数据集(BMD)。还通过组合CML和BMD来创建更不平衡的数据集并评估使用方法的功能来生成第三个数据集。所达到的结果揭示了评估指标的精度为100%,例如三个不同数据集的每个材料类别的准确性,精度,召回率和F1得分。据信,建议的模型实现了用于检测和分类不同材料类型的强大工具。迄今为止,许多研究试图自动对仍然存在一些错误的各种建筑材料进行分类。这项研究将解决上述缺点,并提出一个模型以更高的精度检测材料类型。所采用的模型也能够被推广到不同的数据集。
translated by 谷歌翻译
执法和城市安全受到监视系统中的暴力事件的严重影响。尽管现代(智能)相机广泛可用且负担得起,但在大多数情况下,这种技术解决方案无能为力。此外,监测CCTV记录的人员经常显示出迟来的反应,从而导致对人和财产的灾难。因此,对迅速行动的暴力自动检测至关重要。拟议的解决方案使用了一种新颖的端到端深度学习视频视觉变压器(Vivit),可以在视频序列中熟练地辨别战斗,敌对运动和暴力事件。该研究提出了利用数据增强策略来克服较弱的电感偏见的缺点,同时在较小的培训数据集中训练视觉变压器。评估的结果随后可以发送给当地有关当局,可以分析捕获的视频。与最先进的(SOTA)相比,所提出的方法在某些具有挑战性的基准数据集上实现了吉祥的性能。
translated by 谷歌翻译
To ensure proper knowledge representation of the kitchen environment, it is vital for kitchen robots to recognize the states of the food items that are being cooked. Although the domain of object detection and recognition has been extensively studied, the task of object state classification has remained relatively unexplored. The high intra-class similarity of ingredients during different states of cooking makes the task even more challenging. Researchers have proposed adopting Deep Learning based strategies in recent times, however, they are yet to achieve high performance. In this study, we utilized the self-attention mechanism of the Vision Transformer (ViT) architecture for the Cooking State Recognition task. The proposed approach encapsulates the globally salient features from images, while also exploiting the weights learned from a larger dataset. This global attention allows the model to withstand the similarities between samples of different cooking objects, while the employment of transfer learning helps to overcome the lack of inductive bias by utilizing pretrained weights. To improve recognition accuracy, several augmentation techniques have been employed as well. Evaluation of our proposed framework on the `Cooking State Recognition Challenge Dataset' has achieved an accuracy of 94.3%, which significantly outperforms the state-of-the-art.
translated by 谷歌翻译
自动图像分类是食品科学中监督机器学习的常见任务。一个例子是基于图像的水果外部质量或成熟度的分类。为此,通常使用深层卷积神经网络(CNN)。这些模型通常需要大量标记的培训样本和增强的计算资源。尽管商业水果分类线很容易满足这些要求,但这些先决条件可能会阻碍机器学习方法的使用,尤其是对于发展中国家的小农户。我们提出了一种基于预先训练的视觉变压器(VIT)的替代方法,该方法特别适用于数据可用性较低和计算资源有限的域。可以在标准设备上使用有限的资源来轻松实施,这可以使这些模型在发展中国家的基于智能手机的图像分类中民主化。我们通过用良好的CNN方法基准对香蕉和苹果水果的域数据集进行两项不同的分类任务来证明我们方法的竞争力。我们的方法在3745张图像的训练数据集上,分类精度低于表现最佳的CNN(0.950 vs. 0.958)的分类精度。同时,当只有少量标记的训练样本可用时,我们的方法是优越的。与CNN相比,它需要少三倍才能达到0.90的精度。此外,低维特征嵌入的可视化表明,我们的研究中使用的模型从看不见的数据中提取了出色的特征,而无需分配标签。
translated by 谷歌翻译
Fruit is a key crop in worldwide agriculture feeding millions of people. The standard supply chain of fruit products involves quality checks to guarantee freshness, taste, and, most of all, safety. An important factor that determines fruit quality is its stage of ripening. This is usually manually classified by experts in the field, which makes it a labor-intensive and error-prone process. Thus, there is an arising need for automation in the process of fruit ripeness classification. Many automatic methods have been proposed that employ a variety of feature descriptors for the food item to be graded. Machine learning and deep learning techniques dominate the top-performing methods. Furthermore, deep learning can operate on raw data and thus relieve the users from having to compute complex engineered features, which are often crop-specific. In this survey, we review the latest methods proposed in the literature to automatize fruit ripeness classification, highlighting the most common feature descriptors they operate on.
translated by 谷歌翻译
随着变压器作为语言处理的标准及其在计算机视觉方面的进步,参数大小和培训数据的数量相应地增长。许多人开始相信,因此,变形金刚不适合少量数据。这种趋势引起了人们的关注,例如:某些科学领域中数据的可用性有限,并且排除了该领域研究资源有限的人。在本文中,我们旨在通过引入紧凑型变压器来提出一种小规模学习的方法。我们首次表明,具有正确的尺寸,卷积令牌化,变压器可以避免在小数据集上过度拟合和优于最先进的CNN。我们的模型在模型大小方面具有灵活性,并且在获得竞争成果的同时,参数可能仅为0.28亿。当在CIFAR-10上训练Cifar-10,只有370万参数训练时,我们的最佳模型可以达到98%的准确性,这是与以前的基于变形金刚的模型相比,数据效率的显着提高,比其他变压器小于10倍,并且是15%的大小。在实现类似性能的同时,重新NET50。 CCT还表现优于许多基于CNN的现代方法,甚至超过一些基于NAS的方法。此外,我们在Flowers-102上获得了新的SOTA,具有99.76%的TOP-1准确性,并改善了Imagenet上现有基线(82.71%精度,具有29%的VIT参数)以及NLP任务。我们针对变压器的简单而紧凑的设计使它们更可行,可以为那些计算资源和/或处理小型数据集的人学习,同时扩展了在数据高效变压器中的现有研究工作。我们的代码和预培训模型可在https://github.com/shi-labs/compact-transformers上公开获得。
translated by 谷歌翻译
蚊子传播的疾病(MBD),例如登革热病毒,基孔肯雅病毒和西尼罗河病毒,每年在全球造成超过100万人死亡。由于许多这样的疾病都被伊蚊和库氏蚊子传播,因此跟踪这些幼虫对于缓解MBD的传播至关重要。即使公民科学成长并获得了较大的蚊子图像数据集,蚊子图像的手动注释变得越来越耗时且效率低下。先前的研究使用计算机视觉识别蚊子物种,卷积神经网络(CNN)已成为图像分类的事实。但是,这些模型通常需要大量的计算资源。这项研究介绍了视觉变压器(VIT)在比较研究中的应用,以改善伊蚊和库尔克斯幼虫的图像分类。在蚊子幼虫图像数据上对两个VIT模型,Vit-Base和CVT-13以及两个CNN模型进行了RESNET-18和CORVNEXT的培训,并比较确定最有效的模型,以将蚊子幼虫区分为AEDES或CULEX。测试表明,Convnext获得了所有分类指标的最大值,证明了其对蚊子幼虫分类的生存能力。基于这些结果,未来的研究包括通过结合CNN和Transformer架构元素来创建专门为蚊子幼虫分类设计的模型。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
人类活动识别是计算机视觉中的新出现和重要领域,旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络(CNN)的组合来从数据和复发性神经网络(RNN)中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络:一个经常性变压器(RET),这是一个专门的神经网络,用于对数据序列进行预测,以及视觉变压器(VIT),一种用于提取显着的变压器的变压器(VIT)图像的特征,以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。
translated by 谷歌翻译
农民常规施用氮气(N)肥料以增加作物产量。目前,农民经常在某些位置或时间点上过度应用N肥料,因为它们没有高分辨率作物N状态数据。 N用效率可以很低,剩下的N损失环境,导致生产成本高,环境污染。准确和及时估计作物中的N状况至关重要,从而提高种植系统的经济和环境可持续性。基于组织分析的常规方法在实验室中估算植物中的N个状态是耗时和破坏性的。遥感和机器学习的最新进展表明了以非破坏性方式解决上述挑战的承诺。我们提出了一种新的深度学习框架:一种基于频道空间关注的视觉变压器(CSVT),用于估计从麦田中从UAV收集的大图像的作物N状态。与现有的作品不同,所提出的CSVT引入了通道注意力块(CAB)和空间交互块(SIB),其允许捕获来自UAV数字空中图像的空间和通道功能的非线性特性,以获得准确的N状态预测在小麦作物。此外,由于获得标记的数据是耗时且昂贵的,因此引入了本地到全局自我监督的学习,以预先培训CSVT,具有广泛的未标记数据。建议的CSVT与最先进的模型进行了比较,在测试和独立数据集上进行测试和验证。该方法实现了高精度(0.96),具有良好的普遍性和对小麦N状况估算的再现性。
translated by 谷歌翻译
人类活动识别(Har)是一个正在进行的研究主题。它具有医疗支持,体育,健身,社交网络,人机界面,高级护理,娱乐,监控以及列表的应用。传统上,电脑视觉方法用于Har,它具有许多问题,例如保密或隐私,环境因素的影响,流动性,更高的运行成本,闭塞等。最近出现了使用传感器,尤其是惯性传感器的新趋势。使用传感器数据作为传统计算机视觉算法的替代方案存在若干优点。在文献中记录了计算机视觉算法的许多局限,包括利用传感器数据的深度神经网络(DNN)和机器学习(ML)方法的研究。我们使用智能手机的惯性传感器数据检查并分析了人类活动识别的不同机器学习和深度学习方法。为了确定哪种方法最适合此应用。
translated by 谷歌翻译
2019年12月,一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展,但技术也证明了在战斗中的重要性。此外,许多医疗应用中已采用人工智能,以诊断许多疾病,甚至陷入困境的经验丰富的医生。因此,本调查纸探讨了提议的方法,可以提前援助医生和研究人员,廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试,但机器和深度学习可以采用显着的方式。另一方面,对不同类型的医学图像的访问已经激励了研究人员。结果,提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后,我们会收集常用的数据集及其用例日期。此外,我们还显示了采用深入学习的机器学习的研究人员的百分比。因此,我们对这种情况进行了彻底的分析。最后,在研究挑战中,我们详细阐述了Covid-19研究中面临的问题,我们解决了我们的理解,以建立一个明亮健康的环境。
translated by 谷歌翻译
注意机制对研究界提出了重大兴趣,因为他们承诺改善神经网络架构的表现。但是,在任何特定的问题中,我们仍然缺乏主要的方法来选择导致保证改进的具体机制和超参数。最近,已经提出了自我关注并广泛用于变压器 - 类似的架构中,导致某些应用中的重大突破。在这项工作中,我们专注于两种形式的注意机制:注意模块和自我关注。注意模块用于重新重量每个层输入张量的特征。不同的模块具有不同的方法,可以在完全连接或卷积层中执行此重复。研究的注意力模型是完全模块化的,在这项工作中,它们将与流行的Reset架构一起使用。自我关注,最初在自然语言处理领域提出,可以将所有项目与输入序列中的所有项目相关联。自我关注在计算机视觉中越来越受欢迎,其中有时与卷积层相结合,尽管最近的一些架构与卷曲完全消失。在这项工作中,我们研究并执行了在特定计算机视觉任务中许多不同关注机制的客观的比较,在广泛使用的皮肤癌MNIST数据集中的样本分类。结果表明,关注模块有时会改善卷积神经网络架构的性能,也是这种改进虽然明显且统计学意义,但在不同的环境中并不一致。另一方面,通过自我关注机制获得的结果表明了一致和显着的改进,即使在具有减少数量的参数的架构中,也可以实现最佳结果。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
植物疾病是全球作物损失的主要原因,对世界经济产生了影响。为了解决这些问题,智能农业解决方案正在发展,将物联网和机器学习结合起来,以进行早期疾病检测和控制。许多这样的系统使用基于视觉的机器学习方法进行实时疾病检测和诊断。随着深度学习技术的发展,已经出现了新方法,这些方法采用卷积神经网络进行植物性疾病检测和鉴定。基于视觉的深度学习的另一个趋势是使用视觉变压器,事实证明,这些变压器是分类和其他问题的强大模型。但是,很少研究视力变压器以进行植物病理应用。在这项研究中,为植物性疾病鉴定提出了一个启用视觉变压器的卷积神经网络模型。提出的模型将传统卷积神经网络的能力与视觉变压器有效地识别出多种农作物的大量植物疾病。拟议的模型具有轻巧的结构,只有80万个可训练的参数,这使其适合基于物联网的智能农业服务。 PlantXvit的性能在五个公开可用的数据集上进行了评估。拟议的PlantXvit网络在所有五个数据集上的性能要比五种最先进的方法更好。即使在挑战性的背景条件下,识别植物性疾病的平均准确性分别超过了苹果,玉米和稻米数据集的93.55%,92.59%和98.33%。使用梯度加权的类激活图和局部可解释的模型不可思议的解释来评估所提出模型的解释性效率。
translated by 谷歌翻译