最近的基于学习的图像分类和语音识别方法使得广泛利用注意力机制来实现最先进的识别力,这表明了注意力机制的有效性。由于调制无线电信号的频率和时间信息对调制模式识别至关重要的事实,本文提出了一种卷积神经网络(CNN)的调制识别框架的频率时间注意机制。所提出的频率 - 时间注意模块旨在了解哪些频道,频率和时间信息在CNN中更有意义,以进行调制识别。我们分析了所提出的频率时期注意机制的有效性,并比较了两个现有的基于学习的方法的提出方法。在开源调制识别数据集上的实验表明,所提出的框架的识别性能优于框架的识别性能,而无需朝向基于学习的方法。
translated by 谷歌翻译
We propose Convolutional Block Attention Module (CBAM), a simple yet effective attention module for feed-forward convolutional neural networks. Given an intermediate feature map, our module sequentially infers attention maps along two separate dimensions, channel and spatial, then the attention maps are multiplied to the input feature map for adaptive feature refinement. Because CBAM is a lightweight and general module, it can be integrated into any CNN architectures seamlessly with negligible overheads and is end-to-end trainable along with base CNNs. We validate our CBAM through extensive experiments on ImageNet-1K, MS COCO detection, and VOC 2007 detection datasets. Our experiments show consistent improvements in classification and detection performances with various models, demonstrating the wide applicability of CBAM. The code and models will be publicly available.
translated by 谷歌翻译
未来的通信网络必须解决稀缺范围,以适应异质无线设备的广泛增长。无线信号识别对于频谱监视,频谱管理,安全通信等越来越重要。因此,对边缘的综合频谱意识有可能成为超越5G网络的新兴推动力。该领域的最新研究具有(i)仅关注单个任务 - 调制或信号(协议)分类 - 在许多情况下,该系统不足以对系统作用,(ii)考虑要么考虑雷达或通信波形(同质波形类别),(iii)在神经网络设计阶段没有解决边缘部署。在这项工作中,我们首次在无线通信域中,我们利用了基于深神经网络的多任务学习(MTL)框架的潜力,同时学习调制和信号分类任务,同时考虑异质无线信号,例如雷达和通信波形。在电磁频谱中。提出的MTL体系结构受益于两项任务之间的相互关系,以提高分类准确性以及使用轻型神经网络模型的学习效率。此外,我们还将对模型进行实验评估,并通过空中收集的样品进行了对模型压缩的第一手洞察力,以及在资源受限的边缘设备上部署的深度学习管道。我们在两个参考体系结构上展示了所提出的模型的显着计算,记忆和准确性提高。除了建模适用于资源约束的嵌入式无线电平台的轻型MTL模型外,我们还提供了一个全面的异质无线信号数据集,以供公众使用。
translated by 谷歌翻译
轴承诊断对于降低旋转机器的损害风险并进一步改善经济利润至关重要。最近,以深度学习为代表的机器学习在轴承诊断方面取得了巨大进展。但是,将深度学习应用到这样的任务仍然面临一个主要问题。众所周知,深层网络是黑匣子。很难知道模型如何分类分类背后的正常原理和物理原理的错误信号。为了解决可解释性问题,首先,我们原型是一个具有最近发明的二次神经元的卷积网络。由于二次神经元的特征表示能力,这种二次神经元授权网络可以鉴定噪声轴承数据。此外,我们通过将学到的二次功能分解为类似于注意力的二次神经元(称为Qttention)的注意机制独立得出了注意力机制,从而使模型具有固有解释的二次神经元。公众和我们的数据集进行的实验表明,提出的网络可以促进有效且可解释的轴承故障诊断。
translated by 谷歌翻译
卷积神经网络(CNN)不仅被广泛普及,而且在包括图像分类,恢复和生成在内的许多应用中都取得了明显的结果。尽管卷积的重量共享特性使它们在各种任务中被广泛采用,但其内容不足的特征也可以视为主要缺点。为了解决这个问题,在本文中,我们提出了一个新型操作,称为Pixel自适应核(PAKA)。 Paka通过从可学习的功能中乘以空间变化的注意力来提供对滤波器重量的方向性。所提出的方法会沿通道和空间方向分别渗入像素自适应的注意图,以使用较少的参数来解决分解模型。我们的方法可以以端到端的方式训练,并且适用于任何基于CNN的模型。此外,我们建议使用PAKA改进的信息聚合模块,称为层次PAKA模块(HPM)。与常规信息聚合模块相比,我们通过在语义细分方面提出最先进的性能来证明HPM的优势。我们通过其他消融研究来验证提出的方法,并可视化PAKA的效果,从而为卷积的权重提供了方向性。我们还通过将其应用于多模式任务,尤其是颜色引导的深度图超分辨率来显示该方法的普遍性。
translated by 谷歌翻译
我们提出了自我监督的隐式注意力(SSIA),这是一种新方法,可以适应性地指导深度神经网络模型,以通过利用模型本身的特性来吸引注意力。 SSIA是一种新颖的注意机制,在推理过程中不需要任何额外的参数,计算或内存访问成本,这与现有的注意机制相反。简而言之,通过将注意力重量视为高级语义信息,我们重新考虑了现有注意机制的实现,并进一步提出了从较高网络层中生成监督信号,以指导较低的网络层以进行参数更新。我们通过使用网络本身的层次特征来构建自我监督的学习任务,从而实现了这一目标,该任务仅在培训阶段起作用。为了验证SSIA的有效性,我们在卷积神经网络模型中执行了特定的实现(称为SSIA块),并在几个图像分类数据集上验证了它。实验结果表明,SSIA块可以显着改善模型性能,即使胜过许多流行的注意方法,这些方法需要其他参数和计算成本,例如挤压和激发和卷积障碍物注意模块。我们的实施将在GitHub上获得。
translated by 谷歌翻译
卷积神经网络在过去十年中允许在单个图像超分辨率(SISR)中的显着进展。在SISR最近的进展中,关注机制对于高性能SR模型至关重要。但是,注意机制仍然不清楚为什么它在SISR中的工作原理。在这项工作中,我们试图量化和可视化SISR中的注意力机制,并表明并非所有关注模块都同样有益。然后,我们提出了关注网络(A $ ^ 2 $ n)的注意力,以获得更高效和准确的SISR。具体来说,$ ^ 2 $ n包括非关注分支和耦合注意力分支。提出了一种动态注意力模块,为这两个分支产生权重,以动态地抑制不需要的注意力调整,其中权重根据输入特征自适应地改变。这允许注意模块专门从事惩罚的有益实例,从而大大提高了注意力网络的能力,即几个参数开销。实验结果表明,我们的最终模型A $ ^ 2 $ n可以实现与类似尺寸的最先进网络相比的卓越的权衡性能。代码可以在https://github.com/haoyuc/a2n获得。
translated by 谷歌翻译
由于单峰生物识别系统的不稳定性和局限性,多模式系统吸引了研究人员的关注。但是,如何利用不同方式之间的独立和互补信息仍然是一个关键和具有挑战性的问题。在本文中,我们提出了一种基于指纹和手指静脉的多模式融合识别算法(指纹手指静脉 - 通道 - 通道空间注意融合模块,FPV-CSAFM)。具体而言,对于每对指纹和手指静脉图像,我们首先提出一个简单有效的卷积神经网络(CNN)来提取特征。然后,我们构建一个多模式融合模块(通道空间注意融合模块,CSAFM),以完全融合指纹和指纹之间的互补信息。与现有的融合策略不同,我们的融合方法可以根据渠道和空间维度不同模态的重要性动态调整融合权重,以便更好地将信息之间的信息更好地结合在一起,并提高整体识别性能。为了评估我们方法的性能,我们在多个公共数据集上进行了一系列实验。实验结果表明,所提出的FPV-CSAFM基于指纹和手指静脉在三个多模式数据集上实现了出色的识别性能。
translated by 谷歌翻译
近年来,深度学习已被广​​泛应用于沟通,并取得了显着的绩效提高。大多数现有作品都是基于数据驱动的深度学习,该学习需要大量的通信模型培训数据,以适应新的环境,并为收集数据和重新训练模型提供庞大的计算资源。在本文中,我们将通过利用已知环境的学习经验来大大减少新环境所需的培训数据。因此,我们介绍了很少的学习学习,以使通信模型推广到新环境,这是通过基于注意力的方法实现的。随着注意网络嵌入了基于深度学习的沟通模型中,可以在培训过程中一起学习具有不同功率延迟概况的环境,这称为学习经验。通过利用学习经验,沟通模型只需要很少的飞行员块即可在新环境中表现良好。通过基于深度学习的渠道估计的示例,我们证明了这种新颖的设计方法比为少数拍摄学习设计的现有数据驱动方法的性能更好。
translated by 谷歌翻译
变压器与卷积编码器结合使用,最近已使用微型多普勒特征用于手势识别(HGR)。我们为HGR提出了一个基于视觉转换器的架构,该体系结构具有多腹腔连续波多普勒雷达接收器。所提出的架构由三个模块组成:一个卷积编码器,带有三个变压器层的注意模块和一个多层感知器。新型的卷积解码器有助于将具有较大尺寸的斑块喂入注意力模块,以改善特征提取。用与两种抗连续波多普勒雷达接收器相对应的数据集获得的实验结果(Skaria等人出版)证实,所提出的体系结构的准确性达到了98.3%,从而实质上超过了现状的阶段。 - 在使用的数据集上进行艺术。
translated by 谷歌翻译
人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机,引入了计算机视觉中的注意力机制,目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功,包括图像分类,对象检测,语义分割,视频理解,图像生成,3D视觉,多模态任务和自我监督的学习。在本调查中,我们对计算机愿景中的各种关注机制进行了全面的审查,并根据渠道注意,空间关注,暂时关注和分支注意力进行分类。相关的存储库https://github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。
translated by 谷歌翻译
最近,注意机制已成功应用于基于神经网络的说话者验证系统。将挤压和兴奋的块纳入卷积神经网络中的表现出色。但是,它使用全球平均池(GAP)简单地沿时间和频率维度平均功能,这无法在功能地图中保留足够的扬声器信息。在这项研究中,我们表明GAP是时间频域在数学上仅使用频率分解中最低频率分量的特殊情况。为了增强扬声器信息提取能力,我们建议利用多频信息,并设计两个新颖的有效注意模块,称为单频率单通道(SFSC)注意模块和多频单通道(MFSC)注意模块。提出的注意模块可以根据DCT有效地从多个频率组件中捕获更多扬声器信息。我们在Voxceleb数据集上进行了全面的实验,并对第148个UTD法医语料库进行了探测评估。实验结果表明,我们提出的SFSC和MFSC注意模块可以有效地产生更具歧视性的扬声器表示,并且优于RESNET34-SE和ECAPA-TDNN系统,而EER降低了20.9%和20.2%,而无需添加额外的网络参数。
translated by 谷歌翻译
通过大量多输入和多重输出实现的许多性能增长取决于发射机(基站)下链路通道状态信息(CSI)的准确性,这通常是通过在接收器(用户终端)估算并馈入的。到发射器。 CSI反馈的开销占据了大量的上行链路带宽资源,尤其是当传输天线数量较大时。基于深度学习(DL)的CSI反馈是指基于DL的自动编码器的CSI压缩和重建,并且可以大大减少反馈开销。在本文中,提供了有关该主题的最新研究的全面概述,首先是在CSI反馈中广泛使用的基本DL概念,然后对一些现有的基于DL的反馈作品进行分类和描述。重点是新型的神经网络体系结构和沟通专家知识的利用来提高CSI反馈准确性。还介绍了有关CSI反馈和CSI反馈与其他通信模块的联合设计的作品,并讨论了一些实际问题,包括培训数据集收集,在线培训,复杂性,概括和标准化效果。在本文的最后,确定了与未来无线通信系统中基于DL的CSI反馈相关的一些挑战和潜在的研究方向。
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
区分计算机生成(CG)和自然摄影图像(PG)图像对于验证数字图像的真实性和独创性至关重要。但是,最近的尖端生成方法使CG图像中的合成质量很高,这使得这项具有挑战性的任务变得更加棘手。为了解决这个问题,提出了具有深层质地和高频特征的联合学习策略,以进行CG图像检测。我们首先制定并深入分析CG和PG图像的不同采集过程。基于这样的发现,即图像采集中的多个不同模块将导致对图像中基于卷积神经网络(CNN)渲染的不同敏感性不一致,我们提出了一个深层纹理渲染模块,以增强纹理差异和歧视性纹理表示。具体而言,生成语义分割图来指导仿射转换操作,该操作用于恢复输入图像不同区域中的纹理。然后,原始图像和原始图像和渲染图像的高频组件的组合被馈入配备了注意机制的多支球神经网络,该神经网络分别优化了中间特征,并分别促进了空间和通道维度的痕量探索。在两个公共数据集和一个具有更现实和多样化图像的新构建的数据集上进行的广泛实验表明,所提出的方法的表现优于现有方法,从而明确的余量。此外,结果还证明了拟议方法后处理操作和生成对抗网络(GAN)生成的图像的检测鲁棒性和泛化能力。
translated by 谷歌翻译
最近,场景文本检测是一个具有挑战性的任务。具有任意形状或大宽高比的文本通常很难检测。以前的基于分段的方法可以更准确地描述曲线文本,但遭受过分分割和文本粘附。在本文中,我们提出了基于关注的特征分解 - 改变 - 用于场景文本检测,它利用上下文信息和低级功能来增强基于分段的文本检测器的性能。在特征融合的阶段,我们引入交叉级注意模块来通过添加融合多缩放功能的注意机制来丰富文本的上下文信息。在概率图生成的阶段,提出了一种特征分解 - 重建模块来缓解大宽高比文本的过分分割问题,其根据其频率特性分解文本特征,然后通过添加低级特征来重建它。实验已经在两个公共基准数据集中进行,结果表明,我们的提出方法实现了最先进的性能。
translated by 谷歌翻译
第五代(5G)网络和超越设想巨大的东西互联网(物联网)推出,以支持延长现实(XR),增强/虚拟现实(AR / VR),工业自动化,自主驾驶和智能所有带来的破坏性应用一起占用射频(RF)频谱的大规模和多样化的IOT设备。随着频谱嘎嘎和吞吐量挑战,这种大规模的无线设备暴露了前所未有的威胁表面。 RF指纹识别是预约的作为候选技术,可以与加密和零信任安全措施相结合,以确保无线网络中的数据隐私,机密性和完整性。在未来的通信网络中,在这项工作中,在未来的通信网络中的相关性,我们对RF指纹识别方法进行了全面的调查,从传统观点到最近的基于深度学习(DL)的算法。现有的调查大多专注于无线指纹方法的受限制呈现,然而,许多方面仍然是不可能的。然而,在这项工作中,我们通过解决信号智能(SIGINT),应用程序,相关DL算法,RF指纹技术的系统文献综述来缓解这一点,跨越过去二十年的RF指纹技术的系统文献综述,对数据集和潜在研究途径的讨论 - 必须以百科全书的方式阐明读者的必要条件。
translated by 谷歌翻译
Channel and spatial attention mechanism has proven to provide an evident performance boost of deep convolution neural networks (CNNs). Most existing methods focus on one or run them parallel (series), neglecting the collaboration between the two attentions. In order to better establish the feature interaction between the two types of attention, we propose a plug-and-play attention module, which we term "CAT"-activating the Collaboration between spatial and channel Attentions based on learned Traits. Specifically, we represent traits as trainable coefficients (i.e., colla-factors) to adaptively combine contributions of different attention modules to fit different image hierarchies and tasks better. Moreover, we propose the global entropy pooling (GEP) apart from global average pooling (GAP) and global maximum pooling (GMP) operators, an effective component in suppressing noise signals by measuring the information disorder of feature maps. We introduce a three-way pooling operation into attention modules and apply the adaptive mechanism to fuse their outcomes. Extensive experiments on MS COCO, Pascal-VOC, Cifar-100, and ImageNet show that our CAT outperforms existing state-of-the-art attention mechanisms in object detection, instance segmentation, and image classification. The model and code will be released soon.
translated by 谷歌翻译
卷积神经网络(CNNS)的注意力模块是增强网络对多个计算机视觉任务的性能的有效方法。虽然许多作品专注于通过适当的渠道,空间和自我关注建立更有效的模块,但它们主要以供给送出方式运作。因此,注意机制强烈取决于单个输入特征激活的代表能力,并且可以从语义上更丰富的更高级别激活中受益,该激活可以通过自上而下信息流指定“有什么和位置”。这种反馈连接在灵长类动物视觉皮层中也普遍存在,并且神经科学家被认为是灵长类动物视觉关注的关键组成部分。因此,在这项工作中,我们提出了一种轻量级的自上而下(TD)注意模块,其迭代地产生“视觉探照灯”以执行自上而下的信道和其输入的空间调制,从而在每个计算步骤中输出更多的选择性特征激活。我们的实验表明,集成CNNS中的TD在Imagenet-1K分类上增强了它们的性能,并且优于突出的注意模块,同时具有更多参数和记忆力。此外,我们的模型在推理期间更改输入分辨率更加强大,并通过在没有任何显式监督的情况下本地化各个对象或特征来学习“转移注意”。除了改进细粒度和多标签分类的情况下,这种能力在弱监督对象定位上导致RESET50改进了5%。
translated by 谷歌翻译
由于卷积神经网络在从大规模数据中学习可概括的图像先验方面表现良好,因此这些模型已被广泛用于图像DeNoise任务。但是,在复杂模型上,计算复杂性也急剧增加。在本文中,我们提出了一个新颖的轻巧互补注意模块,其中包括密度模块和稀疏模块,该模块可以合作地挖掘浓密和稀疏功能,以供特征互补学习,以构建有效的轻质体系结构。此外,为了减少因denoing而导致的细节丢失,本文构建了基于梯度的结构保护分支。我们利用基于梯度的分支来获取其他结构先验来进行降级,并使模型通过优化梯度损失优化,使模型更加关注图像几何细节。基于上述,我们提出了一个具有双分支的有效的UNET结构化网络,视觉结果显示这可以有效地保留原始图像的结构细节,我们评估了包括Sidd和DND在内的基准,其中Scanet在PSNR和SSIM中实现了最先进的性能,同时大大降低了计算成本。
translated by 谷歌翻译