智能论文笔记

Deeply Supervised Skin Lesions Diagnosis with Stage and Branch Attention

Wei Dai , Rui Liu , Tianyi Wu , Min Wang , Jianqin Yin , Jun Liu

分类：计算机视觉 | 机器学习

2022-05-09

皮肤病变的准确和公正检查对于早期诊断和治疗皮肤疾病至关重要。皮肤病变的视觉特征明显差异，因为图像是通过使用不同的成像设备从具有不同病变颜色和形态的患者中收集的。最近的研究报告说，结合卷积神经网络（CNN）是实用的，可以对图像进行分类以早期诊断皮肤疾病。但是，这些连接的CNN的实际使用受到限制，因为这些网络是重量级的，并且不足以处理上下文信息。尽管开发了轻量级网络（例如MobileNetV3和ExcilityNet），以减少参数来实现移动设备上的深神经网络，但功能表示深度不足会限制性能。为了解决现有的局限性，我们开发了一个新的精简神经网络，即Hierattn。 Hierattn采用了一种新颖的深度监督策略，通过使用只有一种训练损失的多阶段和多分支注意力机制来学习本地和全球特征。通过使用皮肤镜图像数据集ISIC2019和智能手机照片数据集PAD-FIFES-20（PAD2020）评估Hierattn的功效。实验结果表明，Hierattn在最先进的轻量级网络中达到了曲线（AUC）下最佳的精度和面积。该代码可从https://github.com/anthonyweidai/hierattn获得。

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

DCSAU-Net: A Deeper and More Compact Split-Attention U-Net for Medical Image Segmentation

Qing Xu , Zhicheng Ma , Na HE , Wenting Duan

分类：计算机视觉 | 机器学习

2022-02-02

卷积神经网络（CNN）的深度学习体系结构在计算机视野领域取得了杰出的成功。 CNN构建的编码器架构U-Net在生物医学图像分割方面取得了重大突破，并且已在各种实用的情况下应用。但是，编码器部分中每个下采样层和简单堆积的卷积的平等设计不允许U-NET从不同深度提取足够的特征信息。医学图像的复杂性日益增加为现有方法带来了新的挑战。在本文中，我们提出了一个更深层，更紧凑的分裂注意U形网络（DCSAU-NET），该网络有效地利用了基于两个新颖框架的低级和高级语义信息：主要功能保护和紧凑的分裂注意力堵塞。我们评估了CVC-ClinicDB，2018 Data Science Bowl，ISIC-2018和SEGPC-2021数据集的建议模型。结果，DCSAU-NET在联合（MIOU）和F1-SOCRE的平均交点方面显示出比其他最先进的方法（SOTA）方法更好的性能。更重要的是，提出的模型在具有挑战性的图像上表现出了出色的细分性能。我们的工作代码以及更多技术细节，请访问https://github.com/xq141839/dcsau-net。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

ColonFormer: An Efficient Transformer based Method for Colon Polyp Segmentation

Nguyen Thanh Duc , Nguyen Thi Oanh , Nguyen Thi Thuy , Tran Minh Triet , Dinh Viet Sang

分类：计算机视觉

2022-05-17

识别息肉对于在计算机辅助临床支持系统中自动分析内窥镜图像的自动分析具有挑战性。已经提出了基于卷积网络（CNN），变压器及其组合的模型，以分割息肉以有希望的结果。但是，这些方法在模拟息肉的局部外观方面存在局限性，或者在解码过程中缺乏用于空间依赖性的多层次特征。本文提出了一个新颖的网络，即结肠形式，以解决这些局限性。 Colonformer是一种编码器架构，能够在编码器和解码器分支上对远程语义信息进行建模。编码器是一种基于变压器的轻量级体系结构，用于在多尺度上建模全局语义关系。解码器是一种层次结构结构，旨在学习多层功能以丰富特征表示。此外，添加了一个新的Skip连接技术，以完善整体地图中的息肉对象的边界以进行精确分割。已经在五个流行的基准数据集上进行了广泛的实验，以进行息肉分割，包括Kvasir，CVC-Clinic DB，CVC-ColondB，CVC-T和Etis-Larib。实验结果表明，我们的结肠构造者在所有基准数据集上的表现优于其他最先进的方法。

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译

Modality specific U-Net variants for biomedical image segmentation: A survey

Narinder Singh Punn , Sonali Agarwal

分类：计算机视觉

2021-07-09

随着深度学习方法的进步，如深度卷积神经网络，残余神经网络，对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割，以解决目标区域或子区域的识别和检测的自动化。在最近的研究中，基于U-Net的方法在不同应用中显示了最先进的性能，以便在脑肿瘤，肺癌，阿尔茨海默，乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等，使用各种方式。本文通过描述U-Net框架来提出这些方法的成功，然后通过执行1）型号的U-Net变体进行综合分析，2）模特内分类，建立更好的见解相关的挑战和解决方案。此外，本文还强调了基于U-Net框架在持续的大流行病，严重急性呼吸综合征冠状病毒2（SARS-COV-2）中的贡献也称为Covid-19。最后，分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战，以发现该领域的未来未来的研究方向。

translated by 谷歌翻译

Deeply Supervised Layer Selective Attention Network: Towards Label-Efficient Learning for Medical Image Classification

Peng Jiang , Juan Liu , Lang Wang , Zhihui Ynag , Hongyu Dong , Jing Feng

分类：计算机视觉

2022-09-28

标记医学图像取决于专业知识，因此很难在短时间内以高质量获取大量注释的医学图像。因此，在小型数据集中充分利用有限标记的样品来构建高性能模型是医疗图像分类问题的关键。在本文中，我们提出了一个深入监督的层选择性注意网络（LSANET），该网络全面使用功能级和预测级监督中的标签信息。对于特征级别的监督，为了更好地融合低级功能和高级功能，我们提出了一个新颖的视觉注意模块，层选择性注意（LSA），以专注于不同层的特征选择。 LSA引入了一种权重分配方案，该方案可以在整个训练过程中动态调整每个辅助分支的加权因子，以进一步增强深入监督的学习并确保其概括。对于预测级的监督，我们采用知识协同策略，通过成对知识匹配来促进所有监督分支之间的层次信息互动。使用公共数据集MedMnist，这是用于涵盖多种医学专业的生物医学图像分类的大规模基准，我们评估了LSANET在多个主流CNN体系结构和各种视觉注意模块上评估。实验结果表明，我们所提出的方法对其相应的对应物进行了实质性改进，这表明LSANET可以为医学图像分类领域的标签有效学习提供有希望的解决方案。

translated by 谷歌翻译

EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications

Muhammad Maaz , Abdelrahman Shaker , Hisham Cholakkal , Salman Khan , Syed Waqas Zamir , Rao Muhammad Anwer , Fahad Shahbaz Khan

分类：计算机视觉

2022-06-21

为了实现不断增长的准确性，通常会开发大型和复杂的神经网络。这样的模型需要高度的计算资源，因此不能在边缘设备上部署。由于它们在几个应用领域的有用性，建立资源有效的通用网络非常感兴趣。在这项工作中，我们努力有效地结合了CNN和变压器模型的优势，并提出了一种新的有效混合体系结构。特别是在EDGENEXT中，我们引入了分裂深度转置注意力（SDTA）编码器，该编码器将输入张量分解为多个通道组，并利用深度旋转以及跨通道维度的自我注意力，以隐含地增加接受场并编码多尺度特征。我们在分类，检测和分割任务上进行的广泛实验揭示了所提出的方法的优点，优于相对较低的计算要求的最先进方法。我们具有130万参数的EDGENEXT模型在Imagenet-1k上达到71.2 \％TOP-1的精度，超过移动设备的绝对增益为2.2 \％，而拖鞋减少了28 \％。此外，我们具有560万参数的EDGENEXT模型在Imagenet-1k上达到了79.4 \％TOP-1的精度。代码和模型可在https://t.ly/_vu9上公开获得。

translated by 谷歌翻译

HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical Image Classification

Xiangzuo Huo , Gang Sun , Shengwei Tian , Yan Wang , Long Yu , Jun Long , Wendong Zhang , Aolun Li

分类：计算机视觉

2022-09-21

在卷积神经网络（CNN）的动力下，医学图像分类迅速发展。由于卷积内核的接受场的固定尺寸，很难捕获医学图像的全局特征。尽管基于自发的变压器可以对远程依赖性进行建模，但它具有很高的计算复杂性，并且缺乏局部电感偏见。许多研究表明，全球和本地特征对于图像分类至关重要。但是，医学图像具有许多嘈杂，分散的特征，类内的变化和类间的相似性。本文提出了三个分支分层的多尺度特征融合网络结构，称为医学图像分类为新方法。它可以融合多尺度层次结构的变压器和CNN的优势，而不会破坏各自的建模，从而提高各种医学图像的分类精度。局部和全局特征块的平行层次结构旨在有效地提取各种语义尺度的本地特征和全局表示，并灵活地在不同的尺度上建模，并与图像大小相关的线性计算复杂性。此外，自适应分层特征融合块（HFF块）旨在全面利用在不同层次级别获得的功能。 HFF块包含空间注意力，通道注意力，残留的倒置MLP和快捷方式，以在每个分支的各个规模特征之间适应融合语义信息。我们在ISIC2018数据集上提出的模型的准确性比基线高7.6％，COVID-19数据集的准确性为21.5％，Kvasir数据集的准确性为10.4％。与其他高级模型相比，HIFUSE模型表现最好。我们的代码是开源的，可从https://github.com/huoxiangzuo/hifuse获得。

translated by 谷歌翻译

Efficient deep learning models for land cover image classification

Ioannis Papoutsis , Nikolaos-Ioannis Bountos , Angelos Zavras , Dimitrios Michail , Christos Tryfonopoulos

分类：计算机视觉

2021-11-18

哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖（Lulc）映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中，我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集，包括卷积神经网络，多层感知，视觉变压器，高效导通和宽残余网络（WRN）架构。我们的目标是利用分类准确性，培训时间和推理率。我们提出了一种基于用于网络深度，宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架，以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构，增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数，实现所有19个LULC类的平均F分类准确度达到4.5％，并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号，以及我们在多个GPU节点上分布式培训的代码。

translated by 谷歌翻译

MSHT: Multi-stage Hybrid Transformer for the ROSE Image Analysis of Pancreatic Cancer

Tianyi Zhang , Yunlu Feng , Yu Zhao , Guangda Fan , Aiming Yang , Shangqin Lyu , Peng Zhang , Fan Song , Chenbin Ma , Yangyang Sun

分类：计算机视觉 | 机器学习

2021-12-27

胰腺癌是世界上最严重恶性的癌症之一，这种癌症迅速迅速，具有很高的死亡率。快速的现场评估（玫瑰）技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程，这使得在这种紧压的过程中能够更快的诊断。然而，由于缺乏经验丰富的病理学家，玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题，我们提出了一个混合高性能深度学习模型，以实现自动化工作流程，从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段，由卷积神经网络（CNN）产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导，这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器（MSHT）在分类精度下实现95.68％，其鲜明地高于最先进的模型。面对对可解释性的需求，MSHT以更准确的关注区域表达其对应物。结果表明，MSHT可以以前所未有的图像规模精确地区分癌症样本，奠定了部署自动决策系统的基础，并在临床实践中扩大玫瑰。代码和记录可在：https://github.com/sagizty/multi-stage-ybrid-transformer。

translated by 谷歌翻译

Salient Skin Lesion Segmentation via Dilated Scale-Wise Feature Fusion Network

Pourya Shamsolmoali , Masoumeh Zareapoor , Eric Granger , Huiyu Zhou

分类：计算机视觉

2022-05-20

皮肤镜图像中的皮肤病变检测对于通过计算机化设备对皮肤癌的准确和早期诊断至关重要。当前的皮肤病变细分方法在具有挑战性的环境中表现出较差的性能，例如不明显的病变边界，病变和周围区域之间的对比度低，或导致皮肤病变分割的异质背景。为了准确识别邻近区域的病变，我们提出了基于卷积分解的扩张尺度特征融合网络。我们的网络旨在同时提取不同尺度的功能，这些功能是系统地融合的，以更好地检测。提出的模型具有令人满意的精度和效率。进行病变分割的各种实验以及与最新模型的比较。我们提出的模型始终展示最先进的结果。

translated by 谷歌翻译

TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation

Ruiping Liu , Kailun Yang , Alina Roitberg , Jiaming Zhang , Kunyu Peng , Huayao Liu , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-02-27

大型预训练的变压器是现代语义分割基准的顶部，但具有高计算成本和冗长的培训。为了提高这种约束，我们从综合知识蒸馏的角度来研究有效的语义分割，并考虑弥合多源知识提取和特定于变压器特定的斑块嵌入之间的差距。我们提出了基于变压器的知识蒸馏（TransKD）框架，该框架通过蒸馏出大型教师变压器的特征地图和补丁嵌入来学习紧凑的学生变形金刚，绕过长期的预训练过程并将FLOPS降低> 85.0％。具体而言，我们提出了两个基本和两个优化模块：（1）交叉选择性融合（CSF）可以通过通道注意和层次变压器内的特征图蒸馏之间的知识转移；（2）嵌入对齐（PEA）在斑块过程中执行尺寸转换，以促进贴片嵌入蒸馏；（3）全局本地上下文混合器（GL-MIXER）提取了代表性嵌入的全局和局部信息；（4）嵌入助手（EA）是一种嵌入方法，可以无缝地桥接老师和学生模型，并具有老师的渠道数量。关于CityScapes，ACDC和NYUV2数据集的实验表明，TransKD的表现优于最先进的蒸馏框架，并竞争了耗时的预训练方法。代码可在https://github.com/ruipingl/transkd上找到。

translated by 谷歌翻译

HoVer-Trans: Anatomy-aware HoVer-Transformer for ROI-free Breast Cancer Diagnosis in Ultrasound Images

Yuhao Mo , Chu Han , Yu Liu , Min Liu , Zhenwei Shi , Jiatai Lin , Bingchao Zhao , Chunwang Huang , Bingjiang Qiu , Yanfen Cui

分类：计算机视觉

2022-05-17

超声检查是乳腺癌诊断的重要常规检查，这是由于其无创，无辐射和低成本的特性。但是，由于其固有的局限性，乳腺癌的诊断准确性仍然受到限制。如果我们可以通过乳房超声图像（BUS）精确诊断乳腺癌，那将是一个巨大的成功。已经提出了许多基于学习的计算机辅助诊断方法来实现乳腺癌诊断/病变分类。但是，其中大多数需要预定的ROI，然后对ROI内的病变进行分类。常规的分类骨架，例如VGG16和RESNET50，可以在没有ROI要求的情况下获得有希望的分类结果。但是这些模型缺乏解释性，因此限制了它们在临床实践中的使用。在这项研究中，我们提出了一种具有可解释特征表示的超声图像中乳腺癌诊断的新型无ROI模型。我们利用解剖学的先验知识，即恶性肿瘤和良性肿瘤在不同的组织层之间具有不同的空间关系，并提出了悬停转换器来提出这种先验知识。提出的悬停式跨界块水平和垂直地提取层间和层内空间信息。我们进行并释放一个开放的数据集GDPH＆SYSUCC，以用于公共汽车中的乳腺癌诊断。通过与四个基于CNN的模型和两个Vision Transformer模型进行比较，通过五倍的交叉验证来评估所提出的模型。它通过最佳模型可解释性实现最新的分类性能。同时，我们提出的模型在仅给出一张公交图像时，在乳腺癌诊断方面优于两名高级超声检查员。

translated by 谷歌翻译

CMT: Convolutional Neural Networks Meet Vision Transformers

Jianyuan Guo , Kai Han , Han Wu , Yehui Tang , Xinghao Chen , Yunhe Wang , Chang Xu

分类：计算机视觉

2021-07-13

视觉变压器由于能够捕获图像中的长期依赖性的能力而成功地应用于图像识别任务。但是，变压器与现有卷积神经网络（CNN）之间的性能和计算成本仍然存在差距。在本文中，我们旨在解决此问题，并开发一个网络，该网络不仅可以超越规范变压器，而且可以超越高性能卷积模型。我们通过利用变压器来捕获长期依赖性和CNN来建模本地特征，从而提出了一个新的基于变压器的混合网络。此外，我们将其扩展为获得一个称为CMT的模型家族，比以前的基于卷积和基于变压器的模型获得了更好的准确性和效率。特别是，我们的CMT-S在ImageNet上获得了83.5％的TOP-1精度，而在拖鞋上的拖曳率分别比现有的DEIT和EficitiveNet小14倍和2倍。拟议的CMT-S还可以很好地概括CIFAR10（99.2％），CIFAR100（91.7％），花（98.7％）以及其他具有挑战性的视觉数据集，例如可可（44.3％地图），计算成本较小。

translated by 谷歌翻译

DAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation

Reza Azad , René Arimond , Ehsan Khodapanah Aghdam , Amirhosein Kazerouni , Dorit Merhof

分类：计算机视觉

2022-12-27

Transformers have recently gained attention in the computer vision domain due to their ability to model long-range dependencies. However, the self-attention mechanism, which is the core part of the Transformer model, usually suffers from quadratic computational complexity with respect to the number of tokens. Many architectures attempt to reduce model complexity by limiting the self-attention mechanism to local regions or by redesigning the tokenization process. In this paper, we propose DAE-Former, a novel method that seeks to provide an alternative perspective by efficiently designing the self-attention mechanism. More specifically, we reformulate the self-attention mechanism to capture both spatial and channel relations across the whole feature dimension while staying computationally efficient. Furthermore, we redesign the skip connection path by including the cross-attention module to ensure the feature reusability and enhance the localization power. Our method outperforms state-of-the-art methods on multi-organ cardiac and skin lesion segmentation datasets without requiring pre-training weights. The code is publicly available at https://github.com/mindflow-institue/DAEFormer.

translated by 谷歌翻译

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection

Junpu Wang , Guili Xu , Fuju Yan , Jinjin Wang , Zhengsheng Wang

分类：计算机视觉

2022-07-17

表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今，基于编码器架构的卷积神经网络（CNN）在各种缺陷检测任务中取得了巨大的成功。然而，由于卷积的内在局部性，它们通常在明确建模长距离相互作用时表现出限制，这对于复杂情况下的像素缺陷检测至关重要，例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性，但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性，我们提出了一个有效的混合变压器体系结构，称为缺陷变压器（faft），用于表面缺陷检测，该检测将CNN和Transferaler纳入统一模型，以协作捕获本地和非本地关系。具体而言，在编码器模块中，首先采用卷积茎块来保留更详细的空间信息。然后，贴片聚合块用于生成具有四个层次结构的多尺度表示形式，每个层次结构之后分别是一系列的feft块，该块分别包括用于本地位置编码的本地位置块，一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系，以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后，提出了一个简单但有效的解码器模块，以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比，三个数据集上的广泛实验证明了我们方法的优势和效率。

translated by 谷歌翻译

Rice Diseases Detection and Classification Using Attention Based Neural Network and Bayesian Optimization

Yibin Wang , Haifeng Wang , Zhaohua Peng

分类：计算机视觉

2022-01-03

在该研究中，提出了一种具有贝叶斯优化（ADSNN-BO）的关注深度可分离的神经网络，以检测和分类稻米图像的水稻疾病。水稻疾病经常导致20至40％的公司生产损失的产量，与全球经济有关。快速疾病鉴定对于计划及时计划治疗并减少CORP损失至关重要。水稻疾病诊断仍然主要是手动进行的。为实现AI辅助快速准确的疾病检测，我们提出了基于MobileNet结构的Adsnn-Bo模型和增强注意机制。此外，贝叶斯优化方法应用于调整模型的超级参数。交叉验证的分类实验是基于公共米病数据集进行的，总共有四个类别。实验结果表明，我们的移动兼容ADSNN-BO模型实现了94.65 \％的测试精度，这占据了所有最先进的模型。为了检查我们所提出的模型的可解释性，还进行了包括激活图和过滤器可视化方法的特征分析。结果表明，我们提出的基于关注机制可以更有效地引导Adsnn-Bo模型学习信息性功能。本研究的结果将促进农业领域快速植物疾病诊断和控制的人工智能。

translated by 谷歌翻译