近年来,变压器架构目睹了快速发展,优于许多计算机视觉任务中的CNN架构,如视觉变压器(VIV)用于图像分类。然而,现有的视觉变压器模型旨在提取用于高级任务的语义信息,例如分类和检测。这些方法忽略输入图像的空间分辨率的重要性,从而牺牲相邻像素的局部相关信息。在本文中,我们提出了一个贴片金字塔变换器(PPT),以有效地解决上述问题。一致地,我们首先设计一个贴片变换器,将图像转换为一系列补丁,其中对每个修补程序执行变压器编码以提取本地表示。此外,我们构建了金字塔变换器,以有效地从整个图像中提取非本地信息。在获得原始图像的一组多尺度,多维和多角度特征之后,我们设计图像重建网络,以确保可以将特征重建为原始输入。为了验证有效性,我们将建议的贴片金字塔变压器应用于图像融合任务。实验结果表明其具有卓越的性能,而最先进的融合方法,在几种评估指标上实现了最佳结果。由于PPT网络的潜在代表性容量,它可以直接应用于不同的图像融合任务,而无需重新设计或再培训网络。
translated by 谷歌翻译
图像分解是图像处理领域的关键主题。它可以从源图像中提取显着特征。我们提出了一种基于卷积神经网络的新图像分解方法。该方法可以应用于许多图像处理任务。在本文中,我们将图像分解网络应用于图像融合任务。我们输入红外图像和可见光图像,并将它们分解为三个高频特征图像和低频特征图像。使用特定的融合策略融合了两组特征图像,以获得融合特征图像。最后,重建功能图像以获得融合图像。与最先进的融合方法相比,该方法在主观和客观评估中都取得了更好的性能。
translated by 谷歌翻译
与卷积神经网络(CNN)相比,视觉变压器(VIT)正在变得越来越流行和主导技术。作为计算机视觉中苛刻的技术,VIT已成功解决了各种视觉问题,同时着眼于远程关系。在本文中,我们首先介绍自我注意机制的基本概念和背景。接下来,我们提供了最新表现最好的VIT方法的全面概述,该方法在强度和弱点,计算成本以及培训和测试数据集方面描述。我们彻底比较了流行基准数据集上各种VIT算法和大多数代表性CNN方法的性能。最后,我们通过有见地的观察来探索一些局限性,并提供进一步的研究方向。项目页面以及论文集可通过https://github.com/khawar512/vit-survey获得
translated by 谷歌翻译
图像垫是指从自然图像中预测未知前景区域的α值。先前的方法集中在传播已知区域到未知区域的α值。但是,并非所有自然图像都有特别已知的前景。透明物体(例如玻璃,烟雾,网络等)的图像具有较少或没有已知的前景图像。在本文中,我们提出了一个基于变压器的网络传输,以模拟具有大型接收场的透明对象。具体而言,我们将三个可学习的三动物重新设计为将先进的语义特征引入自我发项机制。提出了一个小型的卷积网络,以利用全局功能和非背景掩码来指导从编码器到解码器的多尺度特征传播,以维护透明对象的上下文。此外,我们创建了具有小型已知前景区域的透明物体的高分辨率垫子数据集。在几个基准基准上进行的实验证明了我们提出的方法比当前最新方法的优越性。
translated by 谷歌翻译
近年来,基于深度学习,各种计算机视觉应用已取得了重大进展,该进展已被广泛用于图像融合,并证明可以实现足够的性能。然而,对于不同源图像的空间对应关系的能力有限,对于现有的无监督图像融合模型的挑战仍然是一个巨大的挑战,即提取适当的功能并实现适应性和平衡的融合。在本文中,我们提出了一个新颖的跨注意指导图像融合网络,该网络是多模式图像融合,多曝光图像融合和多聚焦图像融合的统一且无监督的框架。与现有的自我发项模块不同,我们的交叉意见模块着重于建模不同源图像之间的互相关。使用拟议的交叉注意模块作为核心块,建立一个密集连接的交叉注意引导网络是为了动态地学习空间对应,以从不同的输入图像中获得更好的重要细节。同时,还设计了一个辅助分支来对远程信息进行建模,并附加了合并网络以最终重建融合图像。在公开可用的数据集上进行了广泛的实验,结果表明,所提出的模型在定量和质量上优于最先进的模型。
translated by 谷歌翻译
Camouflaged objects are seamlessly blended in with their surroundings, which brings a challenging detection task in computer vision. Optimizing a convolutional neural network (CNN) for camouflaged object detection (COD) tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue which inevitably leads to missing or redundant regions of objects. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among image regions. In order to obtain feature maps that could activate full object extent, keeping the segmental results from being overwhelmed by noisy features, a novel framework termed Cross-Model Detail Querying network (DQnet) is proposed. It reasons the relations between long-range-aware representations and multi-scale local details to make the enhanced representation fully highlight the object regions and eliminate noise on non-object regions. Specifically, a vanilla ViT pretrained with self-supervised learning (SSL) is employed to model long-range dependencies among image regions. A ResNet is employed to enable learning fine-grained spatial local details in multiple scales. Then, to effectively retrieve object-related details, a Relation-Based Querying (RBQ) module is proposed to explore window-based interactions between the global representations and the multi-scale local details. Extensive experiments are conducted on the widely used COD datasets and show that our DQnet outperforms the current state-of-the-arts.
translated by 谷歌翻译
由于长距离依赖性建模的能力,变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明,将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而,目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中,我们探索了语义图像分割的新框架,它是基于编码器 - 解码器的完全变压器网络(FTN)。具体地,我们首先提出金字塔组变压器(PGT)作为逐步学习分层特征的编码器,同时降低标准视觉变压器(VIT)的计算复杂性。然后,我们将特征金字塔变换器(FPT)提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是,这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果,包括帕斯卡背景,ADE20K,Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
Medical images play an important role in clinical applications. Multimodal medical images could provide rich information about patients for physicians to diagnose. The image fusion technique is able to synthesize complementary information from multimodal images into a single image. This technique will prevent radiologists switch back and forth between different images and save lots of time in the diagnostic process. In this paper, we introduce a novel Dilated Residual Attention Network for the medical image fusion task. Our network is capable to extract multi-scale deep semantic features. Furthermore, we propose a novel fixed fusion strategy termed Softmax-based weighted strategy based on the Softmax weights and matrix nuclear norm. Extensive experiments show our proposed network and fusion strategy exceed the state-of-the-art performance compared with reference image fusion methods on four commonly used fusion metrics.
translated by 谷歌翻译
计算机辅助医学图像分割已广泛应用于诊断和治疗,以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中,基于卷积神经网络(CNN)的方法(例如,U-Net)占主导地位,但仍遭受了不足的远程信息捕获。因此,最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体,并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而,它们促进了禁止的计算成本,尤其是在3D医学图像(例如,CT和MRI)上。在本文中,我们提出了一种称为扩张变压器的新方法,该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核,我们以扩张的方式进行全球自我关注,扩大接收领域而不增加所涉及的斑块,从而降低计算成本。基于这种扩展变压器的设计,我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明,我们的D-Ager Model从头开始培训,以低计算成本从划痕训练,优于各种竞争力的CNN或基于变压器的分段模型,而不耗时的每训练过程。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
在本文中,我们提出了一种使用自我监督的多任务学习的基于变换器的多曝光图像融合框架的传输。该框架基于编码器解码器网络,可以在大型自然图像数据集上培训,并且不需要地面真理融合图像。我们根据多曝光图像的特点设计三个自我监督的重建任务,并使用多任务学习同时进行这些任务;通过该过程,网络可以学习多曝光图像的特征并提取更多的广义特征。此外,为了补偿在基于CNN的架构中建立远程依赖性的缺陷,我们设计了一个与变压器模块相结合的编码器。这种组合使网络能够专注于本地和全局信息。我们评估了我们的方法,并将其与最新释放的多曝光图像融合基准数据集进行了11个基于竞争的传统和深入学习的方法,我们的方法在主观和客观评估中实现了最佳性能。
translated by 谷歌翻译
Dunhuang murals are a collection of Chinese style and national style, forming a self-contained Chinese-style Buddhist art. It has very high historical and cultural value and research significance. Among them, the lines of Dunhuang murals are highly general and expressive. It reflects the character's distinctive character and complex inner emotions. Therefore, the outline drawing of murals is of great significance to the research of Dunhuang Culture. The contour generation of Dunhuang murals belongs to image edge detection, which is an important branch of computer vision, aims to extract salient contour information in images. Although convolution-based deep learning networks have achieved good results in image edge extraction by exploring the contextual and semantic features of images. However, with the enlargement of the receptive field, some local detail information is lost. This makes it impossible for them to generate reasonable outline drawings of murals. In this paper, we propose a novel edge detector based on self-attention combined with convolution to generate line drawings of Dunhuang murals. Compared with existing edge detection methods, firstly, a new residual self-attention and convolution mixed module (Ramix) is proposed to fuse local and global features in feature maps. Secondly, a novel densely connected backbone extraction network is designed to efficiently propagate rich edge feature information from shallow layers into deep layers. Compared with existing methods, it is shown on different public datasets that our method is able to generate sharper and richer edge maps. In addition, testing on the Dunhuang mural dataset shows that our method can achieve very competitive performance.
translated by 谷歌翻译
多年来,卷积神经网络(CNN)已成为多种计算机视觉任务的事实上的标准。尤其是,基于开创性体系结构(例如具有跳过连接的U形模型)或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而,作为一般共识,CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外,从全球信息建模中获利的变压器源于自我发项机制,最近在自然语言处理和计算机视觉方面取得了出色的表现。然而,以前的研究证明,局部和全局特征对于密集预测的深层模型至关重要,例如以不同的形状和配置对复杂的结构进行分割。为此,本文提出了TransDeeplab,这是一种新型的DeepLab样纯变压器,用于医学图像分割。具体而言,我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池(ASPP)模块。对相关文献的彻底搜索结果是,我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明,我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论,并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
卷积神经网络(CNN)已成为医疗图像分割任务的共识。但是,由于卷积操作的性质,它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题,但它们未能捕获低级功能。相比之下,证明本地和全球特征对于密集的预测至关重要,例如在具有挑战性的环境中细分。在本文中,我们提出了一种新型方法,该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言,我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合,我们建议在编码器编码器结构的跳过连接中提出一个双层融合(DLF)模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的,基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取:https://github.com/amirhossein-kz/hiformer
translated by 谷歌翻译
高动态范围(HDR)DEGHOSTING算法旨在生成具有现实细节的无幽灵HDR图像。受到接收场的局部性的限制,现有的基于CNN的方法通常容易产生大型运动和严重饱和的情况下产生鬼影和强度扭曲。在本文中,我们提出了一种新颖的背景感知视觉变压器(CA-VIT),用于无幽灵的高动态范围成像。 CA-VIT被设计为双分支结构,可以共同捕获全球和本地依赖性。具体而言,全球分支采用基于窗口的变压器编码器来建模远程对象运动和强度变化以解决hosting。对于本地分支,我们设计了局部上下文提取器(LCE)来捕获短范围的图像特征,并使用频道注意机制在提取的功能上选择信息丰富的本地详细信息,以补充全局分支。通过将CA-VIT作为基本组件纳入基本组件,我们进一步构建了HDR-Transformer,这是一个分层网络,以重建高质量的无幽灵HDR图像。在三个基准数据集上进行的广泛实验表明,我们的方法在定性和定量上优于最先进的方法,而计算预算大大降低。代码可从https://github.com/megvii-research/hdr-transformer获得
translated by 谷歌翻译
大多数息肉分段方法使用CNNS作为其骨干,导致在编码器和解码器之间的信息交换信息时的两个关键问题:1)考虑到不同级别特征之间的贡献的差异; 2)设计有效机制,以融合这些功能。不同于现有的基于CNN的方法,我们采用了一个变压器编码器,它学会了更强大和强大的表示。此外,考虑到息肉的图像采集影响和难以实现的性质,我们介绍了三种新模块,包括级联融合模块(CFM),伪装识别模块(CIM),A和相似性聚集模块(SAM)。其中,CFM用于从高级功能收集息肉的语义和位置信息,而CIM应用于在低级功能中伪装的息肉信息。在SAM的帮助下,我们将息肉区域的像素特征扩展到整个息肉区域的高电平语义位置信息,从而有效地融合了交叉级别特征。所提出的模型名为Polyp-PVT,有效地抑制了特征中的噪声,并显着提高了他们的表现力。在五个广泛采用的数据集上进行了广泛的实验表明,所提出的模型对各种具有挑战性的情况(例如,外观变化,小物体)比现有方法更加强大,并实现了新的最先进的性能。拟议的模型可在https://github.com/dengpingfan/polyp-pvt获得。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
本文提出了一种用于红外和可见图像的新型Res2net的融合框架。所提出的融合模型分别有三个部分:分别是编码器,融合层和解码器。基于RES2Net的编码器用于提取源图像的多尺度特征,该文件引入了用于培训仅使用单个图像的Res2net的编码器的新培训策略。然后,基于注意模型开发了一种新的融合策略。最后,解码器重建融合图像。还详细分析了所提出的方法。实验表明,我们的方法通过与现有方法进行比较,实现了客观和主观评估中的最先进的融合性能。
translated by 谷歌翻译