已经研究了各种关注机制,以提高各种计算机视觉任务的性能。然而,先前的方法忽略了保留关于通道和空间方面的信息的重要性,以增强交叉尺寸相互作用。因此,我们提出了一种全球关注机制,通过减少信息减少和放大全球互动表示来提高深度神经网络的性能。我们将3D排列引入了多层 - Perceptron,用于伴随着卷积的空间注意子模块的频道注意。对CiFar-100和ImageNet-1K上的图像分类任务的提出机制的评估表明,我们的方法稳定地优于Reset和轻量级Mobilenet的几个最近的关注机制。
translated by 谷歌翻译
识别不太突出的功能是模型压缩的键。但是,它尚未在革命性的关注机制中进行调查。在这项工作中,我们提出了一种基于新的标准化的注意力模块(NAM),其抑制了不太突出的重量。因此,它将重量稀疏性罚款施加到注意模块,从而使它们更加计算有效,同时保持类似的性能。与Reset和MobileNet上的三种其他关注机制的比较表明我们的方法能够更高的准确性。本文的代码可以在https://github.com/christian -lyc/nam公开访问。
translated by 谷歌翻译
We propose Convolutional Block Attention Module (CBAM), a simple yet effective attention module for feed-forward convolutional neural networks. Given an intermediate feature map, our module sequentially infers attention maps along two separate dimensions, channel and spatial, then the attention maps are multiplied to the input feature map for adaptive feature refinement. Because CBAM is a lightweight and general module, it can be integrated into any CNN architectures seamlessly with negligible overheads and is end-to-end trainable along with base CNNs. We validate our CBAM through extensive experiments on ImageNet-1K, MS COCO detection, and VOC 2007 detection datasets. Our experiments show consistent improvements in classification and detection performances with various models, demonstrating the wide applicability of CBAM. The code and models will be publicly available.
translated by 谷歌翻译
Channel and spatial attention mechanism has proven to provide an evident performance boost of deep convolution neural networks (CNNs). Most existing methods focus on one or run them parallel (series), neglecting the collaboration between the two attentions. In order to better establish the feature interaction between the two types of attention, we propose a plug-and-play attention module, which we term "CAT"-activating the Collaboration between spatial and channel Attentions based on learned Traits. Specifically, we represent traits as trainable coefficients (i.e., colla-factors) to adaptively combine contributions of different attention modules to fit different image hierarchies and tasks better. Moreover, we propose the global entropy pooling (GEP) apart from global average pooling (GAP) and global maximum pooling (GMP) operators, an effective component in suppressing noise signals by measuring the information disorder of feature maps. We introduce a three-way pooling operation into attention modules and apply the adaptive mechanism to fuse their outcomes. Extensive experiments on MS COCO, Pascal-VOC, Cifar-100, and ImageNet show that our CAT outperforms existing state-of-the-art attention mechanisms in object detection, instance segmentation, and image classification. The model and code will be released soon.
translated by 谷歌翻译
Semiconductor manufacturing is on the cusp of a revolution: the Internet of Things (IoT). With IoT we can connect all the equipment and feed information back to the factory so that quality issues can be detected. In this situation, more and more edge devices are used in wafer inspection equipment. This edge device must have the ability to quickly detect defects. Therefore, how to develop a high-efficiency architecture for automatic defect classification to be suitable for edge devices is the primary task. In this paper, we present a novel architecture that can perform defect classification in a more efficient way. The first function is self-proliferation, using a series of linear transformations to generate more feature maps at a cheaper cost. The second function is self-attention, capturing the long-range dependencies of feature map by the channel-wise and spatial-wise attention mechanism. We named this method as self-proliferation-and-attention neural network. This method has been successfully applied to various defect pattern classification tasks. Compared with other latest methods, SP&A-Net has higher accuracy and lower computation cost in many defect inspection tasks.
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
已证明卷积神经网络中的渠道注意机制在各种计算机视觉任务中有效。但是,性能改进具有额外的模型复杂性和计算成本。在本文中,我们提出了一种被称为信道分流块的轻量级和有效的注意模块,以通过在全球层面建立信道关系来增强全局背景。与其他通道注意机制不同,所提出的模块通过在考虑信道激活时更加关注空间可区分的渠道,专注于最辨别的特征。与其他介绍模块不同的其他中间层之间的其他关注模型不同,所提出的模块嵌入在骨干网络的末尾,使其易于实现。在CiFar-10,SVHN和微型想象中心数据集上进行了广泛的实验表明,所提出的模块平均提高了基线网络的性能3%的余量。
translated by 谷歌翻译
近年来,渠道注意机制被广泛研究了改善深卷积神经网络(CNNS)性能的巨大潜力。然而,在大多数现有方法中,只有相邻卷积层的输出被馈送到注意层以计算信道权重。忽略其他卷积图层的信息。通过这些观察,提出了一种简单的策略,名为PRINGSING NET(BA-NET),以获得更好的渠道注意机制。这种设计的主要思想是通过跳过通道权重生成的跳过连接来弥合先前卷积层的输出。 BA-NET不仅可以提供更丰富的功能,可以在馈电时计算频道重量,还可以在反向轮胎时乘以参数更新的路径。综合评价表明,与准确性和速度的现有方法相比,拟议的方法实现了最先进的性能。桥梁关注提供了一种新的神经网络架构设计的透视,并显示出改善现有通道注意力机制的性能的巨大潜力。该代码可用于\ url {https://github.com/zhaoy376/表弟主持 - 机制
translated by 谷歌翻译
现有的多尺度解决方案会导致仅增加接受场大小的风险,同时忽略小型接受场。因此,有效构建自适应神经网络以识别各种空间尺度对象是一个具有挑战性的问题。为了解决这个问题,我们首先引入一个新的注意力维度,即除了现有的注意力维度(例如渠道,空间和分支)之外,并提出了一个新颖的选择性深度注意网络,以对称地处理各种视觉中的多尺度对象任务。具体而言,在给定神经网络的每个阶段内的块,即重新连接,输出层次功能映射共享相同的分辨率但具有不同的接收场大小。基于此结构属性,我们设计了一个舞台建筑模块,即SDA,其中包括树干分支和类似SE的注意力分支。躯干分支的块输出融合在一起,以通过注意力分支指导其深度注意力分配。根据提出的注意机制,我们可以动态选择不同的深度特征,这有助于自适应调整可变大小输入对象的接收场大小。这样,跨块信息相互作用会导致沿深度方向的远距离依赖关系。与其他多尺度方法相比,我们的SDA方法结合了从以前的块到舞台输出的多个接受场,从而提供了更广泛,更丰富的有效接收场。此外,我们的方法可以用作其他多尺度网络以及注意力网络的可插入模块,并创造为SDA- $ x $ net。它们的组合进一步扩展了有效的接受场的范围,可以实现可解释的神经网络。我们的源代码可在\ url {https://github.com/qingbeiguo/sda-xnet.git}中获得。
translated by 谷歌翻译
由于单峰生物识别系统的不稳定性和局限性,多模式系统吸引了研究人员的关注。但是,如何利用不同方式之间的独立和互补信息仍然是一个关键和具有挑战性的问题。在本文中,我们提出了一种基于指纹和手指静脉的多模式融合识别算法(指纹手指静脉 - 通道 - 通道空间注意融合模块,FPV-CSAFM)。具体而言,对于每对指纹和手指静脉图像,我们首先提出一个简单有效的卷积神经网络(CNN)来提取特征。然后,我们构建一个多模式融合模块(通道空间注意融合模块,CSAFM),以完全融合指纹和指纹之间的互补信息。与现有的融合策略不同,我们的融合方法可以根据渠道和空间维度不同模态的重要性动态调整融合权重,以便更好地将信息之间的信息更好地结合在一起,并提高整体识别性能。为了评估我们方法的性能,我们在多个公共数据集上进行了一系列实验。实验结果表明,所提出的FPV-CSAFM基于指纹和手指静脉在三个多模式数据集上实现了出色的识别性能。
translated by 谷歌翻译
最近,对卷积神经网络(CNNS)的注意机制越来越令人兴趣,以解决计算机视觉任务。大多数这些方法学会了解明确地识别和突出场景的相关部分并将参与图像传递给网络的其他层。在本文中,我们认为这种方法可能不是最佳的。可以说,明确地学习图像的哪些部分是相关的,通常比学习图像的图像较小的哪些部分更难,因此应该忽略。事实上,在视觉域中,存在许多易于识别的无关功能模式。例如,接近边界的图像区域不太可能包含分类任务的有用信息。基于这个想法,我们建议在CNNS中重构注意力机制,以学会忽略而不是学习参加。具体而言,我们建议明确地学习场景中的无关信息,并在产生的表示中抑制它,只保留重要属性。这种隐式关注方案可以纳入任何现有的注意机制。在这项工作中,我们使用最近的两个注意方法挤压和激励(SE)块和卷积块注意模块(CBAM)来验证这个想法。不同数据集和模型架构上的实验结果表明,学习忽略,即隐含的注意力,与标准方法相比,产生卓越的性能。
translated by 谷歌翻译
卷积神经网络(CNNS)的注意力模块是增强网络对多个计算机视觉任务的性能的有效方法。虽然许多作品专注于通过适当的渠道,空间和自我关注建立更有效的模块,但它们主要以供给送出方式运作。因此,注意机制强烈取决于单个输入特征激活的代表能力,并且可以从语义上更丰富的更高级别激活中受益,该激活可以通过自上而下信息流指定“有什么和位置”。这种反馈连接在灵长类动物视觉皮层中也普遍存在,并且神经科学家被认为是灵长类动物视觉关注的关键组成部分。因此,在这项工作中,我们提出了一种轻量级的自上而下(TD)注意模块,其迭代地产生“视觉探照灯”以执行自上而下的信道和其输入的空间调制,从而在每个计算步骤中输出更多的选择性特征激活。我们的实验表明,集成CNNS中的TD在Imagenet-1K分类上增强了它们的性能,并且优于突出的注意模块,同时具有更多参数和记忆力。此外,我们的模型在推理期间更改输入分辨率更加强大,并通过在没有任何显式监督的情况下本地化各个对象或特征来学习“转移注意”。除了改进细粒度和多标签分类的情况下,这种能力在弱监督对象定位上导致RESET50改进了5%。
translated by 谷歌翻译
标准卷积神经网络(CNN)设计很少专注于明确捕获各种功能以增强网络性能的重要性。相反,大多数现有方法遵循增加或调整网络深度和宽度的间接方法,这在许多情况下显着提高了计算成本。受生物视觉系统的启发,我们提出了一种多样化和自适应的卷积网络(DA $ ^ {2} $ - net),它使任何前锋CNN能够明确地捕获不同的功能,并自适应地选择并强调最具信息性的功能有效地提高网络的性能。 DA $ ^ {2} $ - NET会引入可忽略不计的计算开销,它旨在与任何CNN架构轻松集成。我们广泛地评估了基准数据集的DA $ ^ {2} $ - 网上,包括CNN架构的CNN100,SVHN和Imagenet,包括CNN100。实验结果显示DA $ ^ {2} $ - NET提供了具有非常最小的计算开销的显着性能改进。
translated by 谷歌翻译
现代的高性能语义分割方法采用沉重的主链和扩张的卷积来提取相关特征。尽管使用上下文和语义信息提取功能对于分割任务至关重要,但它为实时应用程序带来了内存足迹和高计算成本。本文提出了一种新模型,以实现实时道路场景语义细分的准确性/速度之间的权衡。具体来说,我们提出了一个名为“比例吸引的条带引导特征金字塔网络”(s \ textsuperscript {2} -fpn)的轻巧模型。我们的网络由三个主要模块组成:注意金字塔融合(APF)模块,比例吸引条带注意模块(SSAM)和全局特征Upsample(GFU)模块。 APF采用了注意力机制来学习判别性多尺度特征,并有助于缩小不同级别之间的语义差距。 APF使用量表感知的关注来用垂直剥离操作编码全局上下文,并建模长期依赖性,这有助于将像素与类似的语义标签相关联。此外,APF还采用频道重新加权块(CRB)来强调频道功能。最后,S \ TextSuperScript {2} -fpn的解码器然后采用GFU,该GFU用于融合APF和编码器的功能。已经对两个具有挑战性的语义分割基准进行了广泛的实验,这表明我们的方法通过不同的模型设置实现了更好的准确性/速度权衡。提出的模型已在CityScapes Dataset上实现了76.2 \%miou/87.3fps,77.4 \%miou/67fps和77.8 \%miou/30.5fps,以及69.6 \%miou,71.0 miou,71.0 \%miou,和74.2 \%\%\%\%\%\%。 miou在Camvid数据集上。这项工作的代码将在\ url {https://github.com/mohamedac29/s2-fpn提供。
translated by 谷歌翻译
In this work, we propose "Residual Attention Network", a convolutional neural network using attention mechanism which can incorporate with state-of-art feed forward network architecture in an end-to-end training fashion. Our Residual Attention Network is built by stacking Attention Modules which generate attention-aware features. The attention-aware features from different modules change adaptively as layers going deeper. Inside each Attention Module, bottom-up top-down feedforward structure is used to unfold the feedforward and feedback attention process into a single feedforward process. Importantly, we propose attention residual learning to train very deep Residual Attention Networks which can be easily scaled up to hundreds of layers.Extensive analyses are conducted on CIFAR-10 and CIFAR-100 datasets to verify the effectiveness of every module mentioned above. Our Residual Attention Network achieves state-of-the-art object recognition performance on three benchmark datasets including CIFAR-10 (3.90% error), CIFAR-100 (20.45% error) and ImageNet (4.8% single model and single crop, top-5 error). Note that, our method achieves 0.6% top-1 accuracy improvement with 46% trunk depth and 69% forward FLOPs comparing to ResNet-200. The experiment also demonstrates that our network is robust against noisy labels.
translated by 谷歌翻译
在每个卷积层中学习一个静态卷积内核是现代卷积神经网络(CNN)的常见训练范式。取而代之的是,动态卷积的最新研究表明,学习$ n $卷积核与输入依赖性注意的线性组合可以显着提高轻重量CNN的准确性,同时保持有效的推断。但是,我们观察到现有的作品endow卷积内核具有通过一个维度(关于卷积内核编号)的动态属性(关于内核空间的卷积内核编号),但其他三个维度(关于空间大小,输入通道号和输出通道编号和输出通道号,每个卷积内核)被忽略。受到这一点的启发,我们提出了Omni维动态卷积(ODCONV),这是一种更普遍而优雅的动态卷积设计,以推进这一研究。 ODCONV利用了一种新型的多维注意机制,采用平行策略来学习沿着任何卷积层的内核空间的所有四个维度学习卷积内核的互补关注。作为定期卷积的倒数替换,可以将ODCONV插入许多CNN架构中。 ImageNet和MS-Coco数据集的广泛实验表明,ODCONV为包括轻量重量和大型的各种盛行的CNN主链带来了可靠的准确性提升,例如3.77%〜5.71%| 1.86%〜3.72%〜3.72%的绝对1个绝对1改进至ImabivLenetV2 | ImageNet数据集上的重新连接家族。有趣的是,由于其功能学习能力的提高,即使具有一个单个内核的ODCONV也可以与具有多个内核的现有动态卷积对应物竞争或超越现有的动态卷积对应物,从而大大降低了额外的参数。此外,ODCONV也优于其他注意模块,用于调节输出特征或卷积重量。
translated by 谷歌翻译
被广泛采用的缩减采样是为了在视觉识别的准确性和延迟之间取得良好的权衡。不幸的是,没有学习常用的合并层,因此无法保留重要信息。作为另一个降低方法,自适应采样权重和与任务相关的过程区域,因此能够更好地保留有用的信息。但是,自适应采样的使用仅限于某些层。在本文中,我们表明,在深神经网络的构件中使用自适应采样可以提高其效率。特别是,我们提出了SSBNET,该SSBNET是通过将采样层反复插入Resnet等现有网络构建的。实验结果表明,所提出的SSBNET可以在ImageNet和可可数据集上实现竞争性图像分类和对象检测性能。例如,SSB-Resnet-RS-200在Imagenet数据集上的精度达到82.6%,比基线RESNET-RS-152高0.6%,具有相似的复杂性。可视化显示了SSBNET在允许不同层专注于不同位置的优势,而消融研究进一步验证了自适应采样比均匀方法的优势。
translated by 谷歌翻译
3D到2D视网膜血管分割是光学相干断层造影血管造影(OctA)图像中有挑战性的问题。准确的视网膜血管分割对于眼科疾病的诊断和预防是重要的。然而,充分利用Octa卷的3D数据是获得令人满意的分割结果的重要因素。在本文中,我们基于提取富有特征表示提取的注意机制,提出了一种渐进的关注增强网络(PAENET)。具体地,框架包括两个主要部分,三维特征学习路径和二维分割路径。在三维特征学习路径中,我们设计了一种新型自适应池模块(APM),并提出了一种新的四倍注意模块(QAM)。 APM沿着卷的投影方向捕获依赖关系,并学习一系列用于特征融合的池系数,从而有效地减少了特征尺寸。此外,QAM通过捕获四组交叉尺寸依赖性来重新重复该特征,这使得最大限度地使用4D特征张力。在二维分割路径中,为了获取更详细的信息,我们提出了一个特征融合模块(FFM)来将3D信息注入2D路径。同时,我们采用极化的自我关注(PSA)块分别在空间和通道尺寸中模拟语义相互依赖性。在实验上,我们在Octa-500数据集上进行了广泛的实验表明,与以前的方法相比,我们所提出的算法实现了最先进的性能。
translated by 谷歌翻译
注意机制对研究界提出了重大兴趣,因为他们承诺改善神经网络架构的表现。但是,在任何特定的问题中,我们仍然缺乏主要的方法来选择导致保证改进的具体机制和超参数。最近,已经提出了自我关注并广泛用于变压器 - 类似的架构中,导致某些应用中的重大突破。在这项工作中,我们专注于两种形式的注意机制:注意模块和自我关注。注意模块用于重新重量每个层输入张量的特征。不同的模块具有不同的方法,可以在完全连接或卷积层中执行此重复。研究的注意力模型是完全模块化的,在这项工作中,它们将与流行的Reset架构一起使用。自我关注,最初在自然语言处理领域提出,可以将所有项目与输入序列中的所有项目相关联。自我关注在计算机视觉中越来越受欢迎,其中有时与卷积层相结合,尽管最近的一些架构与卷曲完全消失。在这项工作中,我们研究并执行了在特定计算机视觉任务中许多不同关注机制的客观的比较,在广泛使用的皮肤癌MNIST数据集中的样本分类。结果表明,关注模块有时会改善卷积神经网络架构的性能,也是这种改进虽然明显且统计学意义,但在不同的环境中并不一致。另一方面,通过自我关注机制获得的结果表明了一致和显着的改进,即使在具有减少数量的参数的架构中,也可以实现最佳结果。
translated by 谷歌翻译
我们提出了自我监督的隐式注意力(SSIA),这是一种新方法,可以适应性地指导深度神经网络模型,以通过利用模型本身的特性来吸引注意力。 SSIA是一种新颖的注意机制,在推理过程中不需要任何额外的参数,计算或内存访问成本,这与现有的注意机制相反。简而言之,通过将注意力重量视为高级语义信息,我们重新考虑了现有注意机制的实现,并进一步提出了从较高网络层中生成监督信号,以指导较低的网络层以进行参数更新。我们通过使用网络本身的层次特征来构建自我监督的学习任务,从而实现了这一目标,该任务仅在培训阶段起作用。为了验证SSIA的有效性,我们在卷积神经网络模型中执行了特定的实现(称为SSIA块),并在几个图像分类数据集上验证了它。实验结果表明,SSIA块可以显着改善模型性能,即使胜过许多流行的注意方法,这些方法需要其他参数和计算成本,例如挤压和激发和卷积障碍物注意模块。我们的实施将在GitHub上获得。
translated by 谷歌翻译