In this paper, we present a robust and low complexity deep learning model for Remote Sensing Image Classification (RSIC), the task of identifying the scene of a remote sensing image. In particular, we firstly evaluate different low complexity and benchmark deep neural networks: MobileNetV1, MobileNetV2, NASNetMobile, and EfficientNetB0, which present the number of trainable parameters lower than 5 Million (M). After indicating best network architecture, we further improve the network performance by applying attention schemes to multiple feature maps extracted from middle layers of the network. To deal with the issue of increasing the model footprint as using attention schemes, we apply the quantization technique to satisfies the number trainable parameter of the model lower than 5 M. By conducting extensive experiments on the benchmark datasets NWPU-RESISC45, we achieve a robust and low-complexity model, which is very competitive to the state-of-the-art systems and potential for real-life applications on edge devices.
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
已证明卷积神经网络中的渠道注意机制在各种计算机视觉任务中有效。但是,性能改进具有额外的模型复杂性和计算成本。在本文中,我们提出了一种被称为信道分流块的轻量级和有效的注意模块,以通过在全球层面建立信道关系来增强全局背景。与其他通道注意机制不同,所提出的模块通过在考虑信道激活时更加关注空间可区分的渠道,专注于最辨别的特征。与其他介绍模块不同的其他中间层之间的其他关注模型不同,所提出的模块嵌入在骨干网络的末尾,使其易于实现。在CiFar-10,SVHN和微型想象中心数据集上进行了广泛的实验表明,所提出的模块平均提高了基线网络的性能3%的余量。
translated by 谷歌翻译
注意机制对研究界提出了重大兴趣,因为他们承诺改善神经网络架构的表现。但是,在任何特定的问题中,我们仍然缺乏主要的方法来选择导致保证改进的具体机制和超参数。最近,已经提出了自我关注并广泛用于变压器 - 类似的架构中,导致某些应用中的重大突破。在这项工作中,我们专注于两种形式的注意机制:注意模块和自我关注。注意模块用于重新重量每个层输入张量的特征。不同的模块具有不同的方法,可以在完全连接或卷积层中执行此重复。研究的注意力模型是完全模块化的,在这项工作中,它们将与流行的Reset架构一起使用。自我关注,最初在自然语言处理领域提出,可以将所有项目与输入序列中的所有项目相关联。自我关注在计算机视觉中越来越受欢迎,其中有时与卷积层相结合,尽管最近的一些架构与卷曲完全消失。在这项工作中,我们研究并执行了在特定计算机视觉任务中许多不同关注机制的客观的比较,在广泛使用的皮肤癌MNIST数据集中的样本分类。结果表明,关注模块有时会改善卷积神经网络架构的性能,也是这种改进虽然明显且统计学意义,但在不同的环境中并不一致。另一方面,通过自我关注机制获得的结果表明了一致和显着的改进,即使在具有减少数量的参数的架构中,也可以实现最佳结果。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机,引入了计算机视觉中的注意力机制,目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功,包括图像分类,对象检测,语义分割,视频理解,图像生成,3D视觉,多模态任务和自我监督的学习。在本调查中,我们对计算机愿景中的各种关注机制进行了全面的审查,并根据渠道注意,空间关注,暂时关注和分支注意力进行分类。相关的存储库https://github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。
translated by 谷歌翻译
与RGB图像相比,高光谱图像包含更多数量的通道,因此包含有关图像中实体的更多信息。卷积神经网络(CNN)和多层感知器(MLP)已被证明是一种有效的图像分类方法。但是,他们遭受了长期培训时间和大量标记数据的要求,以达到预期的结果。在处理高光谱图像时,这些问题变得更加复杂。为了减少训练时间并减少对大型标记数据集的依赖性,我们建议使用转移学习方法。使用PCA将高光谱数据集预处理到较低的维度,然后将深度学习模型应用于分类。然后,转移学习模型使用该模型学到的功能来解决看不见的数据集上的新分类问题。进行了CNN和多个MLP体系结构模型的详细比较,以确定最适合目标的最佳体系结构。结果表明,层的缩放并不总是会导致准确性的提高,但通常会导致过度拟合,并增加训练时间。通过应用转移学习方法而不仅仅是解决问题,训练时间更大程度地减少了。通过直接在大型数据集上训练新模型,而不会影响准确性。
translated by 谷歌翻译
有效的自定义合并技术可以积极地修剪特征图的尺寸,从而减少用于资源约束计算机视觉应用程序的推理计算和内存足迹,最近已获得了显着的牵引力。但是,先前的合并作品仅提取激活图的局部环境,从而限制了它们的有效性。相比之下,我们提出了一种新型的非本地自我煽动合并方法,该方法可用作标准合并层的液位替换,例如最大/平均池或跨性别卷积。所提出的自我发项模块使用斑块嵌入,多头自我注意力和空间通道恢复,然后进行乙状结肠激活和指数软效果。这种自我注意的机制有效地聚集了在下采样过程中非本地激活斑之间的依赖性。具有各种卷积神经网络(CNN)体系结构的标准对象分类和检测任务的广泛实验证明了我们所提出的机制优于最先进的(SOTA)合并技术。特别是,我们超过了在Imabilenet-V2上不同变体上的现有合并技术的测试准确性,平均平均为1.2%。随着初始层中激活图的激进下采样(可减少记忆消耗的22倍),与具有ISO-MEMORY足迹的SOTA技术相比,我们的方法的测试准确性提高了1.43%。这使我们的模型可以在内存受限的设备中部署,例如微型控制器(不会失去明显的精度),因为初始激活映射会消耗大量的芯片内存储器,用于复杂视觉任务所需的高分辨率图像。我们提出的合并方法还利用了通道修剪的想法,以进一步减少记忆足迹。
translated by 谷歌翻译
在该研究中,提出了一种具有贝叶斯优化(ADSNN-BO)的关注深度可分离的神经网络,以检测和分类稻米图像的水稻疾病。水稻疾病经常导致20至40%的公司生产损失的产量,与全球经济有关。快速疾病鉴定对于计划及时计划治疗并减​​少CORP损失至关重要。水稻疾病诊断仍然主要是手动进行的。为实现AI辅助快速准确的疾病检测,我们提出了基于MobileNet结构的Adsnn-Bo模型和增强注意机制。此外,贝叶斯优化方法应用于调整模型的超级参数。交叉验证的分类实验是基于公共米病数据集进行的,总共有四个类别。实验结果表明,我们的移动兼容ADSNN-BO模型实现了94.65 \%的测试精度,这占据了所有最先进的模型。为了检查我们所提出的模型的可解释性,还进行了包括激活图和过滤器可视化方法的特征分析。结果表明,我们提出的基于关注机制可以更有效地引导Adsnn-Bo模型学习信息性功能。本研究的结果将促进农业领域快速植物疾病诊断和控制的人工智能。
translated by 谷歌翻译
Deploying convolutional neural networks (CNNs) on embedded devices is difficult due to the limited memory and computation resources. The redundancy in feature maps is an important characteristic of those successful CNNs, but has rarely been investigated in neural architecture design. This paper proposes a novel Ghost module to generate more feature maps from cheap operations. Based on a set of intrinsic feature maps, we apply a series of linear transformations with cheap cost to generate many ghost feature maps that could fully reveal information underlying intrinsic features. The proposed Ghost module can be taken as a plug-and-play component to upgrade existing convolutional neural networks. Ghost bottlenecks are designed to stack Ghost modules, and then the lightweight Ghost-Net can be easily established. Experiments conducted on benchmarks demonstrate that the proposed Ghost module is an impressive alternative of convolution layers in baseline models, and our GhostNet can achieve higher recognition performance (e.g. 75.7% top-1 accuracy) than MobileNetV3 with similar computational cost on the ImageNet ILSVRC-2012 classification dataset. Code is available at https: //github.com/huawei-noah/ghostnet.
translated by 谷歌翻译
我们提出了自我监督的隐式注意力(SSIA),这是一种新方法,可以适应性地指导深度神经网络模型,以通过利用模型本身的特性来吸引注意力。 SSIA是一种新颖的注意机制,在推理过程中不需要任何额外的参数,计算或内存访问成本,这与现有的注意机制相反。简而言之,通过将注意力重量视为高级语义信息,我们重新考虑了现有注意机制的实现,并进一步提出了从较高网络层中生成监督信号,以指导较低的网络层以进行参数更新。我们通过使用网络本身的层次特征来构建自我监督的学习任务,从而实现了这一目标,该任务仅在培训阶段起作用。为了验证SSIA的有效性,我们在卷积神经网络模型中执行了特定的实现(称为SSIA块),并在几个图像分类数据集上验证了它。实验结果表明,SSIA块可以显着改善模型性能,即使胜过许多流行的注意方法,这些方法需要其他参数和计算成本,例如挤压和激发和卷积障碍物注意模块。我们的实施将在GitHub上获得。
translated by 谷歌翻译
近年来,大肠癌已成为危害人类健康最重要的疾病之一。深度学习方法对于结直肠组织病理学图像的分类越来越重要。但是,现有方法更多地集中在使用计算机而不是人类计算机交互的端到端自动分类。在本文中,我们提出了一个IL-MCAM框架。它基于注意机制和互动学习。提出的IL-MCAM框架包括两个阶段:自动学习(AL)和交互性学习(IL)。在AL阶段,使用包含三种不同注意机制通道和卷积神经网络的多通道注意机制模型用于提取多通道特征进行分类。在IL阶段,提出的IL-MCAM框架不断地将错误分类的图像添加到交互式方法中,从而提高了MCAM模型的分类能力。我们对数据集进行了比较实验,并在HE-NCT-CRC-100K数据集上进行了扩展实验,以验证拟议的IL-MCAM框架的性能,分别达到98.98%和99.77%的分类精度。此外,我们进行了消融实验和互换性实验,以验证三个通道的能力和互换性。实验结果表明,所提出的IL-MCAM框架在结直肠组织病理学图像分类任务中具有出色的性能。
translated by 谷歌翻译
语义细分需要在处理大量数据时学习高级特征的方法。卷积神经网络(CNN)可以学习独特和适应性的特征,以实现这一目标。但是,由于遥感图像的大尺寸和高空间分辨率,这些网络无法有效地分析整个场景。最近,Deep Transformers证明了它们能够记录图像中不同对象之间的全局相互作用的能力。在本文中,我们提出了一个新的分割模型,该模型将卷积神经网络与变压器结合在一起,并表明这种局部和全局特征提取技术的混合物在遥感分割中提供了显着优势。此外,提出的模型包括两个融合层,这些融合层旨在有效地表示网络的多模式输入和输出。输入融合层提取物具有总结图像内容与高程图(DSM)之间关系的地图。输出融合层使用一种新型的多任务分割策略,其中使用特定于类的特征提取层和损耗函数来识别类标签。最后,使用快速制定的方法将所有不明的类标签转换为其最接近的邻居。我们的结果表明,与最新技术相比,提出的方法可以提高分割精度。
translated by 谷歌翻译
需要连续监测足部溃疡愈合,以确保给定治疗的功效并避免任何恶化。脚下溃疡分割是伤口诊断的重要步骤。我们开发了一种模型,其精神与良好的编码器编码器和残留卷积神经网络相似。我们的模型包括剩余的连接以及在每个卷积块中集成的通道和空间注意力。一种基于贴剂训练,测试时间增加以及对获得预测的多数投票的简单方法,导致了卓越的性能。我们的模型没有利用任何容易获得的骨干架构,在类似的外部数据集或任何转移学习技术上进行预训练。与用于足球溃疡细分任务的可用最新模型相比,网络参数的总数约为500万,这使其成为一个显着的轻巧模型。我们的实验在斑块级和图像级别上呈现了结果。我们的模型应用于Miccai 2021的公开脚步溃疡细分(Fuseg)挑战数据集,就骰子相似性得分而言,最先进的图像级绩效为88.22%,在官方挑战排行榜中排名第二。我们还展示了一个非常简单的解决方案,可以将其与更高级的体系结构进行比较。
translated by 谷歌翻译
由于2017年介绍了变压器架构,因此许多尝试将自我关注范例带入计算机愿景领域。在本文中,我们提出了一种新颖的自我关注模块,可以很容易地集成在几乎每个卷积神经网络中,专门为计算机视觉设计,LHC:本地(多)头通道(自我关注)。 LHC是基于两个主要思想:首先,我们认为在电脑视觉中利用自我关注范式的最佳方式是渠道明智的应用而不是更探索的空间关注,并且卷积不会被引起的注意力替换经常性网络在NLP中;其次,局部方法有可能更好地克服卷积的局限性而不是全球关注。通过LHC-Net,我们设法在着名的FER2013数据集中实现了新的艺术状态,与先前的SOTA相比,在计算成本方面的复杂性和对“宿主”架构的复杂性显着和影响。
translated by 谷歌翻译
我们提出了一个用于图像分类的端到端可训练的功能增强模块,该模块提取和利用多视图本地功能来增强模型性能。不同于使用全球平均池(GAP)仅从全局视图中提取矢量化特征,我们建议我们采样和集成多样的多视图本地特征,以提高模型鲁棒性。为了示例班级代表性的本地功能,我们合并了一个简单的辅助分类器头(仅包含1 $ \ times $ 1卷积层),通过我们建议的Adacam(适应性的Adacam)(适应性的Adacam)(适应性的ADACAM)有效地适应了特征图的类别歧视局部区域()。广泛的实验表明,我们的多视图功能增强模块获得了一致且明显的性能提高。
translated by 谷歌翻译
在本文中,我们建议使用注意机制和全球环境进行图像分类的一般框架,该框架可以与各种网络体系结构结合起来以提高其性能。为了调查全球环境的能力,我们比较了四个数学模型,并观察到分开的条件生成模型中编码的全球环境可以提供更多的指导,因为“知道什么是任务无关紧要的,也将知道什么是相关的”。基于此观察结果,我们定义了一个新型的分离全球环境(CDGC),并设计了一个深层网络来获得它。通过参加CDGC,基线网络可以更准确地识别感兴趣的对象,从而改善性能。我们将框架应用于许多不同的网络体系结构,并与四个公开可用数据集的最新框架进行比较。广泛的结果证明了我们方法的有效性和优势。代码将在纸上接受公开。
translated by 谷歌翻译
分布式声音传感器(DAS)是有效的设备,在许多应用区域中广泛使用,用于记录各种事件的信号,这些事件沿光纤沿光纤沿着非常高的空间分辨率。为了正确地检测和识别记录的事件,具有高计算需求的高级信号处理算法至关重要。卷积神经网络是提取空间信息的高功能工具,非常适合DAS中的事件识别应用。长期术语内存(LSTM)是处理顺序数据的有效仪器。在这项研究中,我们提出了一种多输入的多输出,两个阶段特征提取方法,该方法将这些神经网络体系结构的能力与转移学习的能力结合在一起,以将压电传感器应用于光纤上的振动进行分类。首先,我们从相位-OTDR记录中提取了差幅度和相位信息,并将它们存储在时间空间数据矩阵中。然后,我们在第一阶段使用了最先进的预训练的CNN作为特征提取器。在第二阶段,我们使用LSTMS进一步分析了CNN提取的特征。最后,我们使用密集层来对提取的特征进行分类。为了观察使用的CNN体​​系结构的效果,我们通过五个最先进的预训练模型(VGG-16,Resnet-50,Densenet-121,Mobilenet和Inception-V3)测试了模型。结果表明,在我们的框架中使用VGG-16体系结构可以在50个培训中获得100%的分类精度,并在我们的相位数据集中获得最佳结果。这项研究的结果表明,与LSTM结合的预训练的CNN非常适合分析差分振幅和相位信息,在时间空间数据矩阵中表示,这对于DAS应用中的事件识别操作很有希望。
translated by 谷歌翻译
Change detection (CD) aims to find the difference between two images at different times and outputs a change map to represent whether the region has changed or not. To achieve a better result in generating the change map, many State-of-The-Art (SoTA) methods design a deep learning model that has a powerful discriminative ability. However, these methods still get lower performance because they ignore spatial information and scaling changes between objects, giving rise to blurry or wrong boundaries. In addition to these, they also neglect the interactive information of two different images. To alleviate these problems, we propose our network, the Scale and Relation-Aware Siamese Network (SARAS-Net) to deal with this issue. In this paper, three modules are proposed that include relation-aware, scale-aware, and cross-transformer to tackle the problem of scene change detection more effectively. To verify our model, we tested three public datasets, including LEVIR-CD, WHU-CD, and DSFIN, and obtained SoTA accuracy. Our code is available at https://github.com/f64051041/SARAS-Net.
translated by 谷歌翻译
Image manipulation localization aims at distinguishing forged regions from the whole test image. Although many outstanding prior arts have been proposed for this task, there are still two issues that need to be further studied: 1) how to fuse diverse types of features with forgery clues; 2) how to progressively integrate multistage features for better localization performance. In this paper, we propose a tripartite progressive integration network (TriPINet) for end-to-end image manipulation localization. First, we extract both visual perception information, e.g., RGB input images, and visual imperceptible features, e.g., frequency and noise traces for forensic feature learning. Second, we develop a guided cross-modality dual-attention (gCMDA) module to fuse different types of forged clues. Third, we design a set of progressive integration squeeze-and-excitation (PI-SE) modules to improve localization performance by appropriately incorporating multiscale features in the decoder. Extensive experiments are conducted to compare our method with state-of-the-art image forensics approaches. The proposed TriPINet obtains competitive results on several benchmark datasets.
translated by 谷歌翻译