智能论文笔记

Finger Multimodal Feature Fusion and Recognition Based on Channel Spatial Attention

Jian Guo , Jiaxiang Tu , Hengyi Ren , Chong Han , Lijuan Sun

分类：计算机视觉

2022-09-06

由于单峰生物识别系统的不稳定性和局限性，多模式系统吸引了研究人员的关注。但是，如何利用不同方式之间的独立和互补信息仍然是一个关键和具有挑战性的问题。在本文中，我们提出了一种基于指纹和手指静脉的多模式融合识别算法（指纹手指静脉 - 通道 - 通道空间注意融合模块，FPV-CSAFM）。具体而言，对于每对指纹和手指静脉图像，我们首先提出一个简单有效的卷积神经网络（CNN）来提取特征。然后，我们构建一个多模式融合模块（通道空间注意融合模块，CSAFM），以完全融合指纹和指纹之间的互补信息。与现有的融合策略不同，我们的融合方法可以根据渠道和空间维度不同模态的重要性动态调整融合权重，以便更好地将信息之间的信息更好地结合在一起，并提高整体识别性能。为了评估我们方法的性能，我们在多个公共数据集上进行了一系列实验。实验结果表明，所提出的FPV-CSAFM基于指纹和手指静脉在三个多模式数据集上实现了出色的识别性能。

translated by 谷歌翻译

Touchless Palmprint Recognition based on 3D Gabor Template and Block Feature Refinement

Zhaoqun Li , Xu Liang , Dandan Fan , Jinxing Li , Wei Jia , David Zhang

分类：计算机视觉 | 人工智能

2021-03-03

随着对手工卫生的需求不断增长和使用的便利性，掌上识别最近具有淡淡的发展，为人识别提供了有效的解决方案。尽管已经致力于该地区的许多努力，但仍然不确定无接触棕榈污染的辨别能力，特别是对于大规模数据集。为了解决问题，在本文中，我们构建了一个大型无尺寸的棕榈纹数据集，其中包含了来自1167人的2334个棕榈手机。为了我们的最佳知识，它是有史以来最大的非接触式手掌形象基准，而是关于个人和棕榈树的数量收集。此外，我们提出了一个名为3DCPN（3D卷积棕榈识别网络）的无棕榈识别的新型深度学习框架，它利用3D卷积来动态地集成多个Gabor功能。在3DCPN中，嵌入到第一层中的新颖变体以增强曲线特征提取。通过精心设计的集合方案，然后将低级别的3D功能卷积以提取高级功能。最后在顶部，我们设置了基于地区的损失功能，以加强全局和本地描述符的辨别能力。为了展示我们方法的优越性，在我们的数据集和其他流行数据库同济和IITD上进行了广泛的实验，其中结果显示了所提出的3DCPN实现最先进的或可比性的性能。

translated by 谷歌翻译

Attention Mechanisms in Computer Vision: A Survey

Meng-Hao Guo , Tian-Xing Xu , Jiang-Jiang Liu , Zheng-Ning Liu , Peng-Tao Jiang , Tai-Jiang Mu , Song-Hai Zhang , Ralph R. Martin , Ming-Ming Cheng , Shi-Min Hu

分类：计算机视觉

2021-11-15

人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机，引入了计算机视觉中的注意力机制，目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功，包括图像分类，对象检测，语义分割，视频理解，图像生成，3D视觉，多模态任务和自我监督的学习。在本调查中，我们对计算机愿景中的各种关注机制进行了全面的审查，并根据渠道注意，空间关注，暂时关注和分支注意力进行分类。相关的存储库https：//github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。

translated by 谷歌翻译

Fusion of medical imaging and electronic health records with attention and multi-head machanisms

Cheng Jiang , Yihao Chen , Jianbo Chang , Ming Feng , Renzhi Wang , Jianhua Yao

分类：计算机视觉

2021-12-22

医生经常基于患者的图像扫描，例如磁共振成像（MRI），以及患者的电子健康记录（EHR），如年龄，性别，血压等。尽管在计算机视觉或自然语言研究领域的图像或文本分析中提出了大量的自动方法，但已经为医学图像的融合和医疗问题的EHR数据进行了更少的研究。在现有的早期或中间融合方法中，两种方式的特征串联仍然是一个主流。为了更好地利用图像和EHR数据，我们提出了一种多模态注意力模块，该模块使用EHR数据来帮助选择传统CNN的图像特征提取过程期间的重要区域。此外，我们建议将多头Machnib纳入门控多媒体单元（GMU），使其能够在不同子空间中平行熔断图像和EHR特征。在两个模块的帮助下，可以使用两个模态增强现有的CNN架构。预测脑内出血患者的Glasgow结果规模（GOS）和分类Alzheimer病的实验表明，该方法可以自动关注任务相关领域，并通过更好地利用图像和EHR功能来实现更好的结果。

translated by 谷歌翻译

Global-Local Attention for Emotion Recognition

Nhat Le , Khanh Nguyen , Anh Nguyen , Bac Le

分类：计算机视觉

2021-11-07

人类的情感认可是人工智能的积极研究领域，在过去几年中取得了实质性的进展。许多最近的作品主要关注面部区域以推断人类的情感，而周围的上下文信息没有有效地利用。在本文中，我们提出了一种新的深网络，有效地识别使用新的全球局部注意机制的人类情绪。我们的网络旨在独立地从两个面部和上下文区域提取特征，然后使用注意模块一起学习它们。以这种方式，面部和上下文信息都用于推断人类的情绪，从而增强分类器的歧视。密集实验表明，我们的方法超越了最近的最先进的方法，最近的情感数据集是公平的保证金。定性地，我们的全球局部注意力模块可以提取比以前的方法更有意义的注意图。我们网络的源代码和培训模型可在https://github.com/minhnhatvt/glamor-net上获得

translated by 谷歌翻译

A Efficient Multimodal Framework for Large Scale Emotion Recognition by Fusing Music and Electrodermal Activity Signals

Guanghao Yin , Shouqian Sun , Dian Yu , Dejian Li , Kejun Zhang

分类：计算机视觉

2020-08-22

在情感计算领域的基于生理信号的情感识别，已经支付了相当大的关注。对于可靠性和用户友好的采集，电卸电子活动（EDA）在实际应用中具有很大的优势。然而，基于EDA的情感识别与数百个科目仍然缺乏有效的解决方案。在本文中，我们的工作试图融合主题的各个EDA功能和外部诱发的音乐功能。我们提出了端到端的多模式框架，1维剩余时间和通道注意网络（RTCAN-1D）。对于EDA特征，基于新型的基于凸优化的EDA（CVXEDA）方法被应用于将EDA信号分解为PAHSIC和TONC信号，以进行动态和稳定的功能。首先涉及基于EDA的情感识别的渠道时间关注机制，以改善时间和渠道明智的表示。对于音乐功能，我们将音乐信号与开源工具包opensmile处理，以获取外部特征向量。来自EDA信号和来自音乐的外部情绪基准的个体情感特征在分类层中融合。我们对三个多模式数据集（PMEMO，DEAP，AMIGOS）进行了系统的比较，适用于2级薪酬/唤醒情感识别。我们提出的RTCAN-1D优于现有的最先进的模型，这也验证了我们的工作为大规模情感认可提供了可靠和有效的解决方案。我们的代码已在https://github.com/guanghaoyin/rtcan-1发布。

translated by 谷歌翻译

RHA-Net: An Encoder-Decoder Network with Residual Blocks and Hybrid Attention Mechanisms for Pavement Crack Segmentation

Guijie Zhu , Zhun Fan , Jiacheng Liu , Duan Yuan , Peili Ma , Meihua Wang , Weihua Sheng , Kelvin C. P. Wang

分类：计算机视觉 | 机器学习

2022-07-28

人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中，提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络，以提高路面裂纹分割精度。 RHA-NET是通过将残留块（重阻）和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能，以帮助模型专注于正确的频道和裂纹区域，从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集，其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比，所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外，通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度，而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2（25 fps）上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。

translated by 谷歌翻译

From Noise to Feature: Exploiting Intensity Distribution as a Novel Soft Biometric Trait for Finger Vein Recognition

Wenxiong Kang , Yuting Lu , Dejian Li , Wei Jia

分类：计算机视觉

2021-12-15

大多数手指静脉特征提取算法由于其质地表示能力而达到满意的性能，尽管同时忽略了手指组织形成的强度分布，以及在某些情况下，将其加工为背景噪声。在本文中，我们利用这种噪音作为一种新型软生物识别性状，以实现更好的手指静脉识别性能。首先，提出了对手指静脉成像原理的详细分析和图像的特性，以表明由背景中的手指组织形成的强度分布可以作为柔软的生物分析来识别。然后，提出了两个指静脉背景层提取算法和三个软生物识别性提取算法，用于强度分布特征提取。最后，提出了一种混合匹配策略来解决初级和软生物识别性质之间的尺寸差异在得分水平上。三个开放式数据库的一系列严格对比实验表明，我们所提出的方法是手指静脉识别的可行和有效。

translated by 谷歌翻译

ISA-Net: Improved spatial attention network for PET-CT tumor segmentation

Zhengyong Huang , Sijuan Zou , Guoshuai Wang , Zixiang Chen , Hao Shen , Haiyan Wang , Na Zhang , Lu Zhang , Fan Yang , Haining Wangg

分类：计算机视觉

2022-11-04

Achieving accurate and automated tumor segmentation plays an important role in both clinical practice and radiomics research. Segmentation in medicine is now often performed manually by experts, which is a laborious, expensive and error-prone task. Manual annotation relies heavily on the experience and knowledge of these experts. In addition, there is much intra- and interobserver variation. Therefore, it is of great significance to develop a method that can automatically segment tumor target regions. In this paper, we propose a deep learning segmentation method based on multimodal positron emission tomography-computed tomography (PET-CT), which combines the high sensitivity of PET and the precise anatomical information of CT. We design an improved spatial attention network(ISA-Net) to increase the accuracy of PET or CT in detecting tumors, which uses multi-scale convolution operation to extract feature information and can highlight the tumor region location information and suppress the non-tumor region location information. In addition, our network uses dual-channel inputs in the coding stage and fuses them in the decoding stage, which can take advantage of the differences and complementarities between PET and CT. We validated the proposed ISA-Net method on two clinical datasets, a soft tissue sarcoma(STS) and a head and neck tumor(HECKTOR) dataset, and compared with other attention methods for tumor segmentation. The DSC score of 0.8378 on STS dataset and 0.8076 on HECKTOR dataset show that ISA-Net method achieves better segmentation performance and has better generalization. Conclusions: The method proposed in this paper is based on multi-modal medical image tumor segmentation, which can effectively utilize the difference and complementarity of different modes. The method can also be applied to other multi-modal data or single-modal data by proper adjustment.

translated by 谷歌翻译

Attention in Attention Network for Image Super-Resolution

Haoyu Chen , Jinjin Gu , Zhi Zhang

分类：计算机视觉

2021-04-19

卷积神经网络在过去十年中允许在单个图像超分辨率（SISR）中的显着进展。在SISR最近的进展中，关注机制对于高性能SR模型至关重要。但是，注意机制仍然不清楚为什么它在SISR中的工作原理。在这项工作中，我们试图量化和可视化SISR中的注意力机制，并表明并非所有关注模块都同样有益。然后，我们提出了关注网络（A $ ^ 2 $ n）的注意力，以获得更高效和准确的SISR。具体来说，$ ^ 2 $ n包括非关注分支和耦合注意力分支。提出了一种动态注意力模块，为这两个分支产生权重，以动态地抑制不需要的注意力调整，其中权重根据输入特征自适应地改变。这允许注意模块专门从事惩罚的有益实例，从而大大提高了注意力网络的能力，即几个参数开销。实验结果表明，我们的最终模型A $ ^ 2 $ n可以实现与类似尺寸的最先进网络相比的卓越的权衡性能。代码可以在https://github.com/haoyuc/a2n获得。

translated by 谷歌翻译

CAT: Learning to Collaborate Channel and Spatial Attention from Multi-Information Fusion

Zizhang Wu , Man Wang , Weiwei Sun , Yuchen Li , Tianhao Xu , Fan Wang , Keke Huang

分类：计算机视觉

2022-12-13

Channel and spatial attention mechanism has proven to provide an evident performance boost of deep convolution neural networks (CNNs). Most existing methods focus on one or run them parallel (series), neglecting the collaboration between the two attentions. In order to better establish the feature interaction between the two types of attention, we propose a plug-and-play attention module, which we term "CAT"-activating the Collaboration between spatial and channel Attentions based on learned Traits. Specifically, we represent traits as trainable coefficients (i.e., colla-factors) to adaptively combine contributions of different attention modules to fit different image hierarchies and tasks better. Moreover, we propose the global entropy pooling (GEP) apart from global average pooling (GAP) and global maximum pooling (GMP) operators, an effective component in suppressing noise signals by measuring the information disorder of feature maps. We introduce a three-way pooling operation into attention modules and apply the adaptive mechanism to fuse their outcomes. Extensive experiments on MS COCO, Pascal-VOC, Cifar-100, and ImageNet show that our CAT outperforms existing state-of-the-art attention mechanisms in object detection, instance segmentation, and image classification. The model and code will be released soon.

translated by 谷歌翻译

Semantic Interleaving Global Channel Attention for Multilabel Remote Sensing Image Classification

Yongkun Liu , Kesong Ni , Yuhan Zhang , Lijian Zhou , Kun Zhao

分类：计算机视觉

2022-08-04

多标签遥感图像分类（MLRSIC）已获得越来越多的研究兴趣。将多个标签的辅助关系作为其他信息有助于提高此任务的性能。当前方法着重于使用它来限制卷积神经网络（CNN）的最终功能输出。一方面，这些方法不会充分利用标签相关来形成特征表示。另一方面，它们增加了系统的标签噪声灵敏度，导致稳健性差。在本文中，提出了一种称为语义交织的全球通道注意（Signa）的新颖方法。首先，根据数据集的统计信息获得标签共发生图。标签共发生图用作图形神经网络（GNN）的输入，以生成最佳特征表示。然后，语义特征和视觉特征交错，以指导图像从原始特征空间到具有嵌入式标签关系的语义特征空间的特征表达。 Signa在新的语义特征空间中触发了特征地图通道的全球关注，以提取更重要的视觉特征。提出了基于多头签名的功能自适应加权网络，以插件的方式对任何CNN作用。对于遥感图像，可以通过将CNN插入浅层层来实现更好的分类性能。我们对三个数据集进行了广泛的实验比较：UCM数据集，AID数据集和DFC15数据集。实验结果表明，与最新方法（SOTA）方法相比，所提出的Signa具有出色的分类性能。值得一提的是，本文的代码将向社区开放，以进行可重复性研究。我们的代码可在https://github.com/kyle-one/signa上找到。

translated by 谷歌翻译

GaitFi: Robust Device-Free Human Identification via WiFi and Vision Multimodal Learning

Lang Deng , Jianfei Yang , Shenghai Yuan , Han Zou , Chris Xiaoxuan Lu , Lihua Xie

分类：计算机视觉 | 人工智能

2022-08-30

作为人类识别的重要生物标志物，可以通过被动传感器在没有主题合作的情况下以远距离收集人步态，这在预防犯罪，安全检测和其他人类识别应用中起着至关重要的作用。目前，大多数研究工作都是基于相机和计算机视觉技术来执行步态识别的。但是，在面对不良的照明时，基于视觉的方法并不可靠，导致性能降解。在本文中，我们提出了一种新型的多模式步态识别方法，即gaitfi，该方法利用WiFi信号和视频进行人类识别。在GAITFI中，收集了反映WiFi多路径传播的通道状态信息（CSI），以捕获人体步态，而视频则由相机捕获。为了了解强大的步态信息，我们建议使用轻量级残留卷积网络（LRCN）作为骨干网络，并通过集成WiFi和Vision功能来进一步提出两流性gaitfi，以进行步态检索任务。通过在不同级别的特征上的三胞胎损失和分类损失进行训练。广泛的实验是在现实世界中进行的，该实验表明，基于单个WiFi或摄像机的GAITFI优于最先进的步态识别方法，对于12个受试者的人类识别任务而达到94.2％。

translated by 谷歌翻译

HTML版本

TANet: Transformer-based Asymmetric Network for RGB-D Salient Object Detection

Chang Liu , Gang Yang , Shuo Wang , Hangxu Wang , Yunhua Zhang , Yutao Wang

分类：计算机视觉

2022-07-04

现有的RGB-D SOD方法主要依赖于对称的两个基于CNN的网络来分别提取RGB和深度通道特征。但是，对称传统网络结构有两个问题：首先，CNN在学习全球环境中的能力是有限的。其次，对称的两流结构忽略了模态之间的固有差异。在本文中，我们提出了一个基于变压器的非对称网络（TANET），以解决上述问题。我们采用了变压器（PVTV2）的强大功能提取能力，从RGB数据中提取全局语义信息，并设计轻巧的CNN骨架（LWDEPTHNET），以从深度数据中提取空间结构信息，而无需预训练。不对称混合编码器（AHE）有效地减少了模型中参数的数量，同时不牺牲性能而增加速度。然后，我们设计了一个跨模式特征融合模块（CMFFM），该模块增强并互相融合了RGB和深度特征。最后，我们将边缘预测添加为辅助任务，并提出一个边缘增强模块（EEM）以生成更清晰的轮廓。广泛的实验表明，我们的方法在六个公共数据集上实现了超过14种最先进的RGB-D方法的卓越性能。我们的代码将在https://github.com/lc012463/tanet上发布。

translated by 谷歌翻译

Fingerprint Presentation Attack Detection by Channel-wise Feature Denoising

Feng Liu , Zhe Kong , Haozhe Liu , Wentian Zhang , Linlin Shen

分类：计算机视觉

2021-11-15

由于攻击材料的多样性，指纹识别系统（AFRSS）容易受到恶意攻击的影响。为AFRSS的安全性和可靠性提出有效的指纹介绍攻击检测（PAD）方法是非常重要的。然而，当前焊盘方法通常在新攻击材料或传感器设置下具有差的鲁棒性。因此，本文通过考虑处理先前作品中忽略的冗余“噪声”信息，提出了一种新的通道 - 方向特征去噪焊盘（CFD-PAD）方法。所提出的方法通过加权每个信道的重要性并找到这些鉴别性信道和“噪声”通道来学习指纹图像的重要特征。然后，在特征图中抑制了“噪声”通道的传播以减少干扰。具体地，设计了PA-Adaption损耗来限制特征分布，以使实时指纹的特征分布更具聚合和欺骗指纹更多的分散。我们在Livdet 2017上评估的实验结果表明，当假检出率等于1.0％（TDR @FDR = 1％）时，我们所提出的CFD-PAD可以达到2.53％的ace和93.83％的真实检测率，并且优于基于最佳的单一模型在ACE（2.53％与4.56％）和TDR @FDR方面的方法明显显着（93.83％，93.83％\％），这证明了该方法的有效性。虽然我们已经实现了与最先进的基于多模型的方法相比的可比结果，但是通过我们的方法仍然可以实现TDR @ FDR增加到91.19％的1％至93.83％。此外，与基于多模型的多模型的方法相比，我们的模型更简单，更轻，更高效，更高效地实现了74.76％的耗时减少。代码将公开。

translated by 谷歌翻译

In-field early disease recognition of potato late blight based on deep learning and proximal hyperspectral imaging

Chao Qi , Murilo Sandroni , Jesper Cairo Westergaard , Ea Høegh Riis Sundmark , Merethe Bagge , Erik Alexandersson , Junfeng Gao

分类：计算机视觉

2021-11-23

有效的早期检测马铃薯晚枯萎病（PLB）是马铃薯栽培的必要方面。然而，由于缺乏在冠层水平上缺乏视觉线索，在具有传统成像方法的领域的早期阶段来检测晚期枯萎是一项挑战。高光谱成像可以，捕获来自宽范围波长的光谱信号也在视觉波长之外。在这种情况下，通过将2D卷积神经网络（2D-CNN）和3D-CNN与深度合作的网络（PLB-2D-3D-A）组合来提出高光谱图像的深度学习分类架构。首先，2D-CNN和3D-CNN用于提取丰富的光谱空间特征，然后使用注意力块和SE-RESET用于强调特征图中的突出特征，并提高模型的泛化能力。数据集采用15,360张图像（64x64x204）构建，从在实验领域捕获的240个原始图像裁剪，具有超过20种马铃薯基因型。 2000年图像的测试数据集中的精度在全带中达到0.739，特定带中的0.790（492nm，519nm，560nm，592nm，717nm和765nm）。本研究表明，具有深入学习和近端高光谱成像的早期检测PLB的令人鼓舞的结果。

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

Multi-modal land cover mapping of remote sensing images using pyramid attention and gated fusion networks

Qinghui Liu , Michael Kampffmeyer , Robert Jenssen , Arnt-Børre Salberg

分类：计算机视觉

2021-11-06

多模态数据在遥感（RS）中变得容易获得，并且可以提供有关地球表面的互补信息。因此，多模态信息的有效融合对于卢比的各种应用是重要的，而且由于域差异，噪音和冗余，也是非常具有挑战性的。缺乏有效和可扩展的融合技术，用于遍布多种模式编码器和完全利用互补信息。为此，我们提出了一种基于新型金字塔注意融合（PAF）模块和门控融合单元（GFU）的多模态遥感数据的新型多模态网络（Multimodnet）。 PAF模块旨在有效地从每个模态中获得丰富的细粒度上下文表示，具有内置的交叉级别和巧克力关注融合机制，GFU模块利用了新颖的门控机制，用于早期合并特征，从而降低隐藏的冗余和噪音。这使得可以有效地提取补充方式来提取最迟到的特征融合的最有价值和互补的信息。两个代表性RS基准数据集的广泛实验证明了多模态土地覆盖分类的多模型的有效性，鲁棒性和优越性。

translated by 谷歌翻译

An Attention-based Multi-Scale Feature Learning Network for Multimodal Medical Image Fusion

Meng Zhou , Xiaolan Xu , Yuxuan Zhang

分类：计算机视觉

2022-12-09

Medical images play an important role in clinical applications. Multimodal medical images could provide rich information about patients for physicians to diagnose. The image fusion technique is able to synthesize complementary information from multimodal images into a single image. This technique will prevent radiologists switch back and forth between different images and save lots of time in the diagnostic process. In this paper, we introduce a novel Dilated Residual Attention Network for the medical image fusion task. Our network is capable to extract multi-scale deep semantic features. Furthermore, we propose a novel fixed fusion strategy termed Softmax-based weighted strategy based on the Softmax weights and matrix nuclear norm. Extensive experiments show our proposed network and fusion strategy exceed the state-of-the-art performance compared with reference image fusion methods on four commonly used fusion metrics.

translated by 谷歌翻译

Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection

Xiurong Jiang , Lin Zhu , Yifan Hou , Hui Tian

分类：计算机视觉

2022-07-07

RGB-thermal显着对象检测（RGB-T SOD）旨在定位对齐可见的和热红外图像对的共同突出对象，并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感，它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此，RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整，因为不可避免的是，由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中，我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络（MCNET）。具体而言，我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后，通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积（SDC）特征融合模块，提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后，基于镜子互补结构，即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性，我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明，所提出的方法优于最先进的方法，包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。

translated by 谷歌翻译