智能论文笔记

Explainable vision transformer enabled convolutional neural network for plant disease identification: PlantXViT

Poornima Singh Thakur , Pritee Khanna , Tanuja Sheorey , Aparajita Ojha

分类：计算机视觉

2022-07-16

植物疾病是全球作物损失的主要原因，对世界经济产生了影响。为了解决这些问题，智能农业解决方案正在发展，将物联网和机器学习结合起来，以进行早期疾病检测和控制。许多这样的系统使用基于视觉的机器学习方法进行实时疾病检测和诊断。随着深度学习技术的发展，已经出现了新方法，这些方法采用卷积神经网络进行植物性疾病检测和鉴定。基于视觉的深度学习的另一个趋势是使用视觉变压器，事实证明，这些变压器是分类和其他问题的强大模型。但是，很少研究视力变压器以进行植物病理应用。在这项研究中，为植物性疾病鉴定提出了一个启用视觉变压器的卷积神经网络模型。提出的模型将传统卷积神经网络的能力与视觉变压器有效地识别出多种农作物的大量植物疾病。拟议的模型具有轻巧的结构，只有80万个可训练的参数，这使其适合基于物联网的智能农业服务。 PlantXvit的性能在五个公开可用的数据集上进行了评估。拟议的PlantXvit网络在所有五个数据集上的性能要比五种最先进的方法更好。即使在挑战性的背景条件下，识别植物性疾病的平均准确性分别超过了苹果，玉米和稻米数据集的93.55％，92.59％和98.33％。使用梯度加权的类激活图和局部可解释的模型不可思议的解释来评估所提出模型的解释性效率。

translated by 谷歌翻译

Less is More: Lighter and Faster Deep Neural Architecture for Tomato Leaf Disease Classification

Sabbir Ahmed , Md. Bakhtiar Hasan , Tasnim Ahmed , Redwan Karim Sony , Md. Hasanul Kabir

分类：计算机视觉 | 机器学习

2021-09-06

为了确保全球粮食安全和利益相关者的总体利润，正确检测和分类植物疾病的重要性至关重要。在这方面，基于深度学习的图像分类的出现引入了大量解决方案。但是，这些解决方案在低端设备中的适用性需要快速，准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法，用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像，以改善分类。我们的系统使用组合模型来提取功能，该模型由预审计的MobilenETV2体系结构和分类器网络组成，以进行有效的预测。传统的增强方法被运行时的增加取代，以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明，所提出的体系结构可实现99.30％的精度，型号大小为9.60mb和4.87亿个浮点操作，使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。

translated by 谷歌翻译

A Hybrid Convolutional Neural Network with Meta Feature Learning for Abnormality Detection in Wireless Capsule Endoscopy Images

Samir Jain , Ayan Seal , Aparajita Ojha

分类：计算机视觉 | 人工智能

2022-07-20

无线胶囊内窥镜检查是检查胃肠道的最先进的非侵入性方法之一。一种用于检测胃肠道异常（如息肉，出血，炎症等）的智能计算机辅助诊断系统在无线胶囊内窥镜图像分析中非常紧张。异常的形状，大小，颜色和纹理有很大不同，有些在视觉上与正常区域相似。由于类内的变化，这在设计二进制分类器方面构成了挑战。在这项研究中，提出了一个混合卷积神经网络，用于异常检测，该检测从无线胶囊内窥镜图像中提取了丰富的有意义的特征，并使用各种卷积操作提取。它由三个平行的卷积神经网络组成，每个神经网络具有独特的特征学习能力。第一个网络利用了深度可分离的卷积，而第二个网络采用余弦归一化的卷积操作。在第三个网络中引入了一种新颖的元效力提取机制，以从第一和第二网络及其自己的先前层中生成的特征中汲取的统计信息中提取模式。网络三重奏有效地处理了类内的方差，并有效地检测到胃肠道异常。拟议的混合卷积神经网络模型对两个广泛使用的公开数据集进行了训练和测试。测试结果表明，所提出的模型在KID和Kvasir-Capsule数据集上分别优于97 \％和98 \％分类精度的六种最先进方法。交叉数据集评估结果还证明了所提出的模型的概括性能。

translated by 谷歌翻译

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery

A S M Mahmudul Hasan , Ferdous Sohel , Dean Diepeveen , Hamid Laga , Michael G. K. Jones

分类：计算机视觉 | 人工智能

2021-12-15

大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究，为农业作物制定了自动杂草管理系统。在这个过程中，其中一个主要任务是识别图像中的杂草。但是，杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色，纹理和形状类似，可以通过成像条件，当记录图像时的成像条件，地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中，我们调查了五个最先进的深神经网络，即VGG16，Reset-50，Inception-V3，Inception-Resnet-V2和MobileNetv2，并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是，我们通过组合几个较小的数据集，通过数据增强构成了一个大型DataSet，缓解了类别不平衡，并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行，而ResET-50比其他大型数据集上的其他深网络更好地执行。

translated by 谷歌翻译

Rice Diseases Detection and Classification Using Attention Based Neural Network and Bayesian Optimization

Yibin Wang , Haifeng Wang , Zhaohua Peng

分类：计算机视觉

2022-01-03

在该研究中，提出了一种具有贝叶斯优化（ADSNN-BO）的关注深度可分离的神经网络，以检测和分类稻米图像的水稻疾病。水稻疾病经常导致20至40％的公司生产损失的产量，与全球经济有关。快速疾病鉴定对于计划及时计划治疗并减少CORP损失至关重要。水稻疾病诊断仍然主要是手动进行的。为实现AI辅助快速准确的疾病检测，我们提出了基于MobileNet结构的Adsnn-Bo模型和增强注意机制。此外，贝叶斯优化方法应用于调整模型的超级参数。交叉验证的分类实验是基于公共米病数据集进行的，总共有四个类别。实验结果表明，我们的移动兼容ADSNN-BO模型实现了94.65 \％的测试精度，这占据了所有最先进的模型。为了检查我们所提出的模型的可解释性，还进行了包括激活图和过滤器可视化方法的特征分析。结果表明，我们提出的基于关注机制可以更有效地引导Adsnn-Bo模型学习信息性功能。本研究的结果将促进农业领域快速植物疾病诊断和控制的人工智能。

translated by 谷歌翻译

Monkeypox virus detection using pre-trained deep learning-based approaches

Chiranjibi Sitaula , Tej Bahadur Shahi

分类：计算机视觉 | 机器学习

2022-09-06

随着世界各地的COVID-19病毒感染的下降，Monkeypox病毒正在缓慢地出现。人们害怕它，认为它看起来像是Covid-19的大流行。因此，在广泛的社区传播之前，至关重要的是检测到它们。基于AI的检测可以帮助他们在早期识别它们。在本文中，我们首先比较了13个不同的预训练的深度学习（DL）模型，以检测蒙基氧基病毒。为此，我们首先将它们添加到所有这些层中，并使用四个完善的措施进行分析：精度，召回，F1得分和准确性。在确定了表现最佳的DL模型之后，我们将它们整合以利用从其获得的概率输出的多数投票来提高整体绩效。我们在公开可用的数据集上执行实验，这表明我们的集合方法提供了精度，召回，F1得分和精度为85.44 \％，85.47 \％，85.40 \％和87.13 \％。这些令人鼓舞的结果表明，所提出的方法适用于卫生从业人员进行大规模筛查。

translated by 谷歌翻译

Efficient deep learning models for land cover image classification

Ioannis Papoutsis , Nikolaos-Ioannis Bountos , Angelos Zavras , Dimitrios Michail , Christos Tryfonopoulos

分类：计算机视觉

2021-11-18

哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖（Lulc）映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中，我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集，包括卷积神经网络，多层感知，视觉变压器，高效导通和宽残余网络（WRN）架构。我们的目标是利用分类准确性，培训时间和推理率。我们提出了一种基于用于网络深度，宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架，以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构，增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数，实现所有19个LULC类的平均F分类准确度达到4.5％，并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号，以及我们在多个GPU节点上分布式培训的代码。

translated by 谷歌翻译

Plant Species Classification Using Transfer Learning by Pretrained Classifier VGG-19

Thiru Siddharth , Bhupendra Singh Kirar , Dheeraj Kumar Agrawal

分类：计算机视觉 | (统计)机器学习

2022-09-07

深度学习目前是机器学习中最重要的分支，在语音识别，计算机视觉，图像分类和医学成像分析中的应用。植物识别是可以使用图像分类通过其叶子识别植物物种的领域之一。植物学家通过亲自检查将大量时间用于识别植物物种。本文描述了一种剖析瑞典叶子和识别植物物种的颜色图像的方法。为了实现更高的准确性，该任务是在预先训练的分类器VGG-19的帮助下使用转移学习完成的。分类的四个主要过程是图像预处理，图像增强，特征提取和识别，这些过程是作为整体模型评估的一部分进行的。 VGG-19分类器通过采用预定义的隐藏层（例如卷积层，最大池层和完全连接的层）来掌握叶子的特征，并最终使用Soft-Max层为所有植物类生成特征表示。该模型获得了与瑞典叶数据集的各个方面相关的知识，其中包含15种树类，并有助于预测未知植物的适当类别，准确性为99.70％，这比以前报告的研究工作高。

translated by 谷歌翻译

Discriminative Kernel Convolution Network for Multi-Label Ophthalmic Disease Detection on Imbalanced Fundus Image Dataset

Amit Bhati , Neha Gour , Pritee Khanna , Aparajita Ojha

分类：计算机视觉

2022-07-16

通过研究视网膜生物结构的进展，可以识别眼病的存在和严重性是可行的。眼底检查是检查眼睛的生物结构和异常的诊断程序。诸如青光眼，糖尿病性视网膜病和白内障等眼科疾病是世界各地视觉障碍的主要原因。眼疾病智能识别（ODIR-5K）是研究人员用于多标签的多份多疾病分类的基准结构底面图像数据集。这项工作提出了一个歧视性内核卷积网络（DKCNET），该网络探讨了歧视区域的特征，而无需增加额外的计算成本。 DKCNET由注意力块组成，然后是挤压和激发（SE）块。注意块从主干网络中获取功能，并生成歧视性特征注意图。 SE块采用区分特征图并改善了通道相互依赖性。使用InceptionResnet骨干网络观察到DKCNET的更好性能，用于具有96.08 AUC，94.28 F1-SCORE和0.81 KAPPA得分的ODIR-5K底面图像的多标签分类。所提出的方法根据诊断关键字将通用目标标签拆分为眼对。基于这些标签，进行了过采样和不足采样以解决阶级失衡。为了检查拟议模型对培训数据的偏见，对ODIR数据集进行了训练的模型将在三个公开可用的基准数据集上进行测试。发现它在完全看不见的底面图像上也具有良好的性能。

translated by 谷歌翻译

The channel-spatial attention-based vision transformer network for automated, accurate prediction of crop nitrogen status from UAV imagery

Xin Zhang , Liangxiu Han , Tam Sobeih , Lewis Lappin , Mark Lee , Andew Howard , Aron Kisdi

分类：计算机视觉

2021-11-12

农民常规施用氮气（N）肥料以增加作物产量。目前，农民经常在某些位置或时间点上过度应用N肥料，因为它们没有高分辨率作物N状态数据。 N用效率可以很低，剩下的N损失环境，导致生产成本高，环境污染。准确和及时估计作物中的N状况至关重要，从而提高种植系统的经济和环境可持续性。基于组织分析的常规方法在实验室中估算植物中的N个状态是耗时和破坏性的。遥感和机器学习的最新进展表明了以非破坏性方式解决上述挑战的承诺。我们提出了一种新的深度学习框架：一种基于频道空间关注的视觉变压器（CSVT），用于估计从麦田中从UAV收集的大图像的作物N状态。与现有的作品不同，所提出的CSVT引入了通道注意力块（CAB）和空间交互块（SIB），其允许捕获来自UAV数字空中图像的空间和通道功能的非线性特性，以获得准确的N状态预测在小麦作物。此外，由于获得标记的数据是耗时且昂贵的，因此引入了本地到全局自我监督的学习，以预先培训CSVT，具有广泛的未标记数据。建议的CSVT与最先进的模型进行了比较，在测试和独立数据集上进行测试和验证。该方法实现了高精度（0.96），具有良好的普遍性和对小麦N状况估算的再现性。

translated by 谷歌翻译

CCTCOVID: COVID-19 Detection from Chest X-Ray Images Using Compact Convolutional Transformers

Abdolreza Marefat , Mahdieh Marefat , Javad Hasannataj Joloudari , Mohammad Ali Nematollahi , Reza Lashgari

分类：计算机视觉

2022-09-27

Covid-19是一种攻击上呼吸道和肺部的新型病毒。它的人对人的传播性非常迅速，这在个人生活的各个方面都引起了严重的问题。尽管一些感染的人可能仍然完全无症状，但经常被目睹有轻度至重度症状。除此之外，全球成千上万的死亡案件表明，检测Covid-19是社区的紧急需求。实际上，这是在筛选医学图像（例如计算机断层扫描（CT）和X射线图像）的帮助下进行的。但是，繁琐的临床程序和大量的每日病例对医生构成了巨大挑战。基于深度学习的方法在广泛的医疗任务中表现出了巨大的潜力。结果，我们引入了一种基于变压器的方法，用于使用紧凑卷积变压器（CCT）自动从X射线图像中自动检测COVID-19。我们的广泛实验证明了该方法的疗效，精度为98％，比以前的作品表现优于先前的作品。

translated by 谷歌翻译

The Power of Transfer Learning in Agricultural Applications: AgriNet

Zahraa Al Sahili , Mariette Awad

分类：计算机视觉 | 机器学习

2022-07-08

深度学习和转移学习的进步为农业的各种自动化分类任务铺平了道路，包括植物疾病，害虫，杂草和植物物种检测。然而，农业自动化仍然面临各种挑战，例如数据集的大小和缺乏植物域特异性预处理模型。特定于域的预处理模型显示了各种计算机视觉任务的最先进的表现，包括面部识别和医学成像诊断。在本文中，我们提出了Agrinet数据集，该数据集是来自19个地理位置的160k农业图像的集合，几个图像标题为设备，以及423种以上的植物物种和疾病。我们还介绍了Agrinet模型，这是一组预处理的模型：VGG16，VGG19，Inception-V3，InceptionResnet-V2和Xception。 Agrinet-VGG19的分类准确性最高的94％，最高的F1分数为92％。此外，发现所有提出的模型都可以准确地对423种植物物种，疾病，害虫和杂草分类，而Inception-V3模型的精度最低为87％。与ImageNet相比，实验以评估Agrinet模型优势的实验在两个外部数据集上进行了模型：来自孟加拉国的害虫和植物疾病数据集和来自克什米尔的植物疾病数据集。

translated by 谷歌翻译

IL-MCAM: An interactive learning and multi-channel attention mechanism-based weakly supervised colorectal histopathology image classification approach

Haoyuan Chen , Chen Li , Xiaoyan Li , Md Mamunur Rahaman , Weiming Hu , Yixin Li , Wanli Liu , Changhao Sun , Hongzan Sun , Xinyu Huang

分类：计算机视觉

2022-06-07

近年来，大肠癌已成为危害人类健康最重要的疾病之一。深度学习方法对于结直肠组织病理学图像的分类越来越重要。但是，现有方法更多地集中在使用计算机而不是人类计算机交互的端到端自动分类。在本文中，我们提出了一个IL-MCAM框架。它基于注意机制和互动学习。提出的IL-MCAM框架包括两个阶段：自动学习（AL）和交互性学习（IL）。在AL阶段，使用包含三种不同注意机制通道和卷积神经网络的多通道注意机制模型用于提取多通道特征进行分类。在IL阶段，提出的IL-MCAM框架不断地将错误分类的图像添加到交互式方法中，从而提高了MCAM模型的分类能力。我们对数据集进行了比较实验，并在HE-NCT-CRC-100K数据集上进行了扩展实验，以验证拟议的IL-MCAM框架的性能，分别达到98.98％和99.77％的分类精度。此外，我们进行了消融实验和互换性实验，以验证三个通道的能力和互换性。实验结果表明，所提出的IL-MCAM框架在结直肠组织病理学图像分类任务中具有出色的性能。

translated by 谷歌翻译

A Mosquito is Worth 16x16 Larvae: Evaluation of Deep Learning Architectures for Mosquito Larvae Classification

Aswin Surya , David B. Peral , Austin VanLoon , Akhila Rajesh

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-16

蚊子传播的疾病（MBD），例如登革热病毒，基孔肯雅病毒和西尼罗河病毒，每年在全球造成超过100万人死亡。由于许多这样的疾病都被伊蚊和库氏蚊子传播，因此跟踪这些幼虫对于缓解MBD的传播至关重要。即使公民科学成长并获得了较大的蚊子图像数据集，蚊子图像的手动注释变得越来越耗时且效率低下。先前的研究使用计算机视觉识别蚊子物种，卷积神经网络（CNN）已成为图像分类的事实。但是，这些模型通常需要大量的计算资源。这项研究介绍了视觉变压器（VIT）在比较研究中的应用，以改善伊蚊和库尔克斯幼虫的图像分类。在蚊子幼虫图像数据上对两个VIT模型，Vit-Base和CVT-13以及两个CNN模型进行了RESNET-18和CORVNEXT的培训，并比较确定最有效的模型，以将蚊子幼虫区分为AEDES或CULEX。测试表明，Convnext获得了所有分类指标的最大值，证明了其对蚊子幼虫分类的生存能力。基于这些结果，未来的研究包括通过结合CNN和Transformer架构元素来创建专门为蚊子幼虫分类设计的模型。

translated by 谷歌翻译

GasHis-Transformer: A Multi-scale Visual Transformer Approach for Gastric Histopathology Image Classification

Haoyuan Chen , Chen Li , Xiaoyan Li , Ge Wang , Weiming Hu , Yixin Li , Wanli Liu , Changhao Sun , Yudong Yao , Yueyang Teng

分类：计算机视觉

2021-04-29

现有的胃癌诊断深层学习方法，常用卷积神经网络。最近，视觉变压器由于其性能和效率而引起了极大的关注，但其应用主要在计算机视野领域。本文提出了一种用于Gashis变压器的多尺度视觉变压器模型，用于胃组织病理学图像分类（GHIC），其使微观胃图像自动分类为异常和正常情况。 GASHIS-COMPURANCER模型由两个关键模块组成：全球信息模块和局部信息模块有效提取组织病理特征。在我们的实验中，具有280个异常和正常图像的公共血毒素和曙红（H＆E）染色的胃组织病理学数据集分为训练，验证和测试组，比率为1：1：2胃组织病理学数据集测试组精度，召回，F1分数和准确性分别为98.0％，100.0％，96.0％和98.0％。此外，进行了关键的研究以评估Gashis变压器的稳健性，其中添加了10个不同的噪声，包括四种对抗性攻击和六种传统图像噪声。此外，执行临床上有意义的研究以测试Gashis变压器的胃肠癌鉴定性能，具有620个异常图像，精度达到96.8％。最后，进行比较研究以测试在淋巴瘤图像数据集和乳腺癌数据集上的H＆E和免疫组织化学染色图像的概括性，产生可比的F1分数（85.6％和82.8％）和精度（83.9％和89.4％），分别。总之，Gashistransformer演示了高分类性能，并在GHIC任务中显示出其显着潜力。

translated by 谷歌翻译

Image Quality Assessment for Foliar Disease Identification (AgroPath)

Nisar Ahmed , Hafiz Muhammad Shahzad Asif , Gulshan Saleem , Muhammad Usman Younus

分类：计算机视觉

2022-09-26

作物疾病是对粮食安全的主要威胁，其快速识别对于防止产量损失很重要。由于缺乏必要的基础设施，因此很难迅速识别这些疾病。计算机视觉的最新进展和智能手机渗透的渗透为智能手机辅助疾病识别铺平了道路。大多数植物疾病在植物的叶面结构上留下了特定的文物。这项研究于2020年在巴基斯坦拉合尔工程技术大学计算机科学与工程系进行，以检查基于叶片的植物疾病识别。这项研究为叶面疾病鉴定提供了基于神经网络的深度解决方案，并纳入了图像质量评估，以选择执行识别所需质量的图像，并将其命名为农业病理学家（AGRO PATH）。新手摄影师的捕获图像可能包含噪音，缺乏结构和模糊，从而导致诊断失败或不准确。此外，Agropath模型具有99.42％的叶面疾病鉴定精度。拟议的添加对于在农业领域的叶面疾病鉴定的应用特别有用。

translated by 谷歌翻译

MSHT: Multi-stage Hybrid Transformer for the ROSE Image Analysis of Pancreatic Cancer

Tianyi Zhang , Yunlu Feng , Yu Zhao , Guangda Fan , Aiming Yang , Shangqin Lyu , Peng Zhang , Fan Song , Chenbin Ma , Yangyang Sun

分类：计算机视觉 | 机器学习

2021-12-27

胰腺癌是世界上最严重恶性的癌症之一，这种癌症迅速迅速，具有很高的死亡率。快速的现场评估（玫瑰）技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程，这使得在这种紧压的过程中能够更快的诊断。然而，由于缺乏经验丰富的病理学家，玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题，我们提出了一个混合高性能深度学习模型，以实现自动化工作流程，从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段，由卷积神经网络（CNN）产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导，这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器（MSHT）在分类精度下实现95.68％，其鲜明地高于最先进的模型。面对对可解释性的需求，MSHT以更准确的关注区域表达其对应物。结果表明，MSHT可以以前所未有的图像规模精确地区分癌症样本，奠定了部署自动决策系统的基础，并在临床实践中扩大玫瑰。代码和记录可在：https://github.com/sagizty/multi-stage-ybrid-transformer。

translated by 谷歌翻译

Current Trends in Deep Learning for Earth Observation: An Open-source Benchmark Arena for Image Classification

Ivica Dimitrovski , Ivan Kitanovski , Dragi Kocev , Nikola Simidjievski

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-14

我们提出“ AITLAS：基准竞技场” - 一个开源基准测试框架，用于评估地球观察中图像分类的最新深度学习方法（EO）。为此，我们介绍了从九种不同的最先进的体系结构得出的400多个模型的全面比较分析，并将它们与来自22个具有不同尺寸的数据集的各种多级和多标签分类任务进行比较和属性。除了完全在这些数据集上训练的模型外，我们还基于在转移学习的背景下训练的模型，利用预训练的模型变体，因为通常在实践中执行。所有提出的方法都是一般的，可以轻松地扩展到本研究中未考虑的许多其他遥感图像分类任务。为了确保可重复性并促进更好的可用性和进一步的开发，所有实验资源在内的所有实验资源，包括训练的模型，模型配置和数据集的处理详细信息（以及用于培训和评估模型的相应拆分）都在存储库上公开可用：HTTPS ：//github.com/biasvariancelabs/aitlas-arena。

translated by 谷歌翻译

Mushroom image recognition and distance generation based on attention-mechanism model and genetic information

Wenbin Liao , Jiewen Xiao , Chengbo Zhao , Yonggong Han , ZhiJie Geng , Jianxin Wang , Yihua Yang

分类：计算机视觉

2022-06-27

大芬基的物种鉴定，即蘑菇，一直是一项具有挑战性的任务。仍然有大量有毒的蘑菇，这对人们的生命构成了风险。但是，传统的识别方法需要大量在手动识别的分类学领域具有知识的专家，而且不仅效率低下，而且消耗了大量的人力和资本成本。在本文中，我们提出了一个基于注意力机构的新模型，Mushroomnet，该模型将轻型网络MobilenetV3应用于骨干模型，并结合了我们提出的注意力结构，并在蘑菇识别任务中实现了出色的性能。在公共数据集上，Mushroomnet模型的测试准确性已达到83.9％，在本地数据集上，测试精度已达到77.4％。提出的注意机制很好地将注意力集中在蘑菇图像的身体上，以进行混合通道注意力，并通过GRAD-CAM可视化的注意热图。此外，在这项研究中，将遗传距离添加到蘑菇图像识别任务中，将遗传距离用作表示空间，并且数据集中每对蘑菇物种之间的遗传距离被用作遗传距离表示的嵌入空间，以预测图像距离和物种。确认。我们发现，使用MES激活函数可以很好地预测蘑菇的遗传距离，但精度低于软疗法。拟议的蘑菇网已被证明，它显示出自动和在线蘑菇图像的巨大潜力，拟议的自动程序将有助于并参考传统的蘑菇分类。

translated by 谷歌翻译

HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical Image Classification

Xiangzuo Huo , Gang Sun , Shengwei Tian , Yan Wang , Long Yu , Jun Long , Wendong Zhang , Aolun Li

分类：计算机视觉

2022-09-21

在卷积神经网络（CNN）的动力下，医学图像分类迅速发展。由于卷积内核的接受场的固定尺寸，很难捕获医学图像的全局特征。尽管基于自发的变压器可以对远程依赖性进行建模，但它具有很高的计算复杂性，并且缺乏局部电感偏见。许多研究表明，全球和本地特征对于图像分类至关重要。但是，医学图像具有许多嘈杂，分散的特征，类内的变化和类间的相似性。本文提出了三个分支分层的多尺度特征融合网络结构，称为医学图像分类为新方法。它可以融合多尺度层次结构的变压器和CNN的优势，而不会破坏各自的建模，从而提高各种医学图像的分类精度。局部和全局特征块的平行层次结构旨在有效地提取各种语义尺度的本地特征和全局表示，并灵活地在不同的尺度上建模，并与图像大小相关的线性计算复杂性。此外，自适应分层特征融合块（HFF块）旨在全面利用在不同层次级别获得的功能。 HFF块包含空间注意力，通道注意力，残留的倒置MLP和快捷方式，以在每个分支的各个规模特征之间适应融合语义信息。我们在ISIC2018数据集上提出的模型的准确性比基线高7.6％，COVID-19数据集的准确性为21.5％，Kvasir数据集的准确性为10.4％。与其他高级模型相比，HIFUSE模型表现最好。我们的代码是开源的，可从https://github.com/huoxiangzuo/hifuse获得。

translated by 谷歌翻译