高光谱图像(HSI)重建旨在从编码光圈快照频谱成像(CASSI)系统中的2D测量中恢复3D空间光谱信号。 HSI表示在光谱维度上具有高度相似和相关性。建模频谱间相互作用对HSI重建有益。然而,现有的基于CNN的方法显示了捕获光谱和远程依赖性的限制。此外,HSI信息由CASSI中的编码孔径(物理掩码)调制。尽管如此,目前的算法尚未完全探索掩模的掩模恢复的引导效果。在本文中,我们提出了一种新颖的框架,掩模引导的光谱 - 明智变压器(MST),用于HSI重建。具体地,我们介绍了一种频谱,用于将每个光谱特征视为令牌的频谱 - 明智的多头自我注意(S-MSA)并计算沿光谱尺寸的自我关注。此外,我们自定义一个掩模导向机构(mm),指示S-MSA,以注意具有高保真谱表示的空间区域。广泛的实验表明,我们的MST在模拟和真实HSI数据集上显着优于最先进的(SOTA)方法,同时需要大幅更便宜的计算和内存成本。
translated by 谷歌翻译
已经开发了许多算法来解决编码光圈快照光谱成像(CASSI)的反问题,即从2D压缩测量中恢复3D高光谱图像(HSIS)。近年来,基于学习的方法证明了有希望的表现,并主导了主流研究方向。但是,现有的基于CNN的方法显示了捕获长期依赖性和非本地自相似性的局限性。以前的基于变压器的方法密集样本令牌,其中一些是不明显的,并计算了某些在内容中无关的令牌之间的多头自我注意力(MSA)。这不符合HSI信号的空间稀疏性质,并限制了模型可伸缩性。在本文中,我们提出了一种新型的基于变压器的方法,即粗到细稀疏变压器(CST),首先将HSI的稀疏嵌入到HSI重建的深度学习中。特别是,CST使用我们提出的光谱感知筛选机制(SASM)进行粗贴片选择。然后,选定的贴片被馈入我们的定制光谱 - 聚集多头自我注意力(SAH-MSA),以进行精细的像素聚类和自相似性捕获。全面的实验表明,我们的CST在需要廉价的计算成本的同时,明显优于最先进的方法。代码和模型将在https://github.com/caiyuanhao1998/mst上发布
translated by 谷歌翻译
在时空邻域中利用类似和更清晰的场景补丁对于视频去纹理至关重要。然而,基于CNN的方法显示了捕获远程依赖性和建模非本地自相相似性的限制。在本文中,我们提出了一种新颖的框架,流引导稀疏变压器(FGST),用于视频去掩模。在FGST中,我们定制自我关注模块,流动引导的基于稀疏窗口的多头自我关注(FGSW-MSA)。对于模糊参考帧上的每个$查询$元素,FGSW-MSA享有估计的光流向全局样本的指导,其空间稀疏但与相邻帧中相同的场景补丁对应的高度相关$键$元素。此外,我们介绍了一种反复嵌入(RE)机制,以从过去的框架转移信息并加强远程时间依赖性。综合实验表明,我们提出的FGST优于DVD和GoPro数据集的最先进的(SOTA)方法,甚至在真实视频去纹理中产生更多视觉上令人愉悦的结果。代码和型号将发布给公众。
translated by 谷歌翻译
在本文中,我们呈现了UFFORER,一种用于图像恢复的有效和高效的变换器架构,其中我们使用变压器块构建分层编码器解码器网络。在UFFAR中,有两个核心设计。首先,我们介绍了一个新颖的本地增强型窗口(Lewin)变压器块,其执行基于窗口的自我关注而不是全局自我关注。它显着降低了高分辨率特征映射的计算复杂性,同时捕获本地上下文。其次,我们提出了一种以多尺度空间偏置的形式提出了一种学习的多尺度恢复调制器,以调整UFFORER解码器的多个层中的特征。我们的调制器展示了卓越的能力,用于恢复各种图像恢复任务的详细信息,同时引入边缘额外参数和计算成本。通过这两个设计提供支持,UFFORER享有高能力,可以捕获本地和全局依赖性的图像恢复。为了评估我们的方法,在几种图像恢复任务中进行了广泛的实验,包括图像去噪,运动脱棕,散焦和污染物。没有钟声和口哨,与最先进的算法相比,我们的UFormer实现了卓越的性能或相当的性能。代码和模型可在https://github.com/zhendongwang6/uformer中找到。
translated by 谷歌翻译
在编码的光圈快照光谱压缩成像(CASSI)系统中,采用高光谱图像(HSI)重建方法从压缩测量中恢复了空间光谱信号。在这些算法中,深层展开的方法表现出令人鼓舞的表现,但遭受了两个问题的困扰。首先,他们没有从高度相关的CASSI估计降解模式和不适当的程度来指导迭代学习。其次,它们主要基于CNN,显示出捕获长期依赖性的局限性。在本文中,我们提出了一个原则性的降级感知框架(DAUF),该框架(DAUF)从压缩图像和物理掩码中估算参数,然后使用这些参数来控制每个迭代。此外,我们自定义了一种新颖的半剃须变压器(HST),该变压器(HST)同时捕获本地内容和非本地依赖性。通过将HST插入DAUF,我们为HSI重建建立了第一个基于变压器的深层展开方法,即降解感知的降解 - 降解的半个剃须刀变压器(DAUHST)。实验表明,Dauhst显着超过了最先进的方法,同时需要更便宜的计算和存储成本。代码和模型将在https://github.com/caiyuanhao1998/mst上发布
translated by 谷歌翻译
用于深度卷积神经网络的视频插值的现有方法,因此遭受其内在限制,例如内部局限性核心权重和受限制的接收领域。为了解决这些问题,我们提出了一种基于变换器的视频插值框架,允许内容感知聚合权重,并考虑具有自我关注操作的远程依赖性。为避免全球自我关注的高计算成本,我们将当地注意的概念引入视频插值并将其扩展到空间域。此外,我们提出了一个节省时间的分离策略,以节省内存使用,这也提高了性能。此外,我们开发了一种多尺度帧合成方案,以充分实现变压器的潜力。广泛的实验证明了所提出的模型对最先进的方法来说,定量和定性地在各种基准数据集上进行定量和定性。
translated by 谷歌翻译
卷积神经网络(CNNS)成功地进行了压缩图像感测。然而,由于局部性和重量共享的归纳偏差,卷积操作证明了建模远程依赖性的内在限制。变压器,最初作为序列到序列模型设计,在捕获由于基于自我关注的架构而捕获的全局背景中,即使它可以配备有限的本地化能力。本文提出了一种混合框架,一个混合框架,其集成了从CNN提供的借用的优点以及变压器提供的全局上下文,以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中,通过学习的采样矩阵测量图像逐块。在重建阶段,将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆,另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发,并且本地特征和全局表示在不同的分辨率下融合,以最大化功能的互补性。此外,我们探索一个渐进的战略和基于窗口的变压器块,以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性,与不同数据集的最先进方法相比,实现了卓越的性能。
translated by 谷歌翻译
盲面修复(BFR)旨在从相应的低质量(LQ)输入中构建高质量(HQ)面部图像。最近,已经提出了许多BFR方法,并取得了杰出的成功。但是,这些方法经过私人合成的数据集进行了培训或评估,这使得与后续方法相比的方法是不可行的。为了解决这个问题,我们首先合成两个称为EDFEACE-CELEB-1M(BFR128)和EDFACE-CELEB-150K(BFR512)的盲面恢复基准数据集。在五个设置下,将最先进的方法在它们的五个设置下进行了基准测试,包括模糊,噪声,低分辨率,JPEG压缩伪像及其组合(完全退化)。为了使比较更全面,应用了五个广泛使用的定量指标和两个任务驱动的指标,包括平均面部标志距离(AFLD)和平均面部ID余弦相似性(AFICS)。此外,我们开发了一个有效的基线模型,称为Swin Transformer U-NET(昏迷)。带有U-NET体系结构的昏迷器应用了注意机制和移动的窗口方案,以捕获远程像素相互作用,并更多地关注重要功能,同时仍受到有效训练。实验结果表明,所提出的基线方法对各种BFR任务的SOTA方法表现出色。
translated by 谷歌翻译
虽然变压器在各种高级视觉任务中取得了显着性能,但它仍然具有挑战性地利用变压器在图像恢复中的全部潜力。 CRUX在典型的编码器 - 解码器框架中应用了有限的应用变压器,用于图像恢复,从层次的不同深度(尺度)的繁重的自我关注计算负荷和低效通信产生。在本文中,我们为图像恢复提供了一种深度和有效的变换器网络,称为U2-iner,能够使用变压器作为核心操作以在深度编码和解码空间中执行图像恢复。具体地,它利用嵌套的U形结构来促进不同层的不同层的相互作用。此外,我们通过引入要压缩令牌表示的特征过滤机制来优化基本变压器块的计算效率。除了典型的图像恢复方式外,我们的U2-ider还在多个方面进行对比学习,以进一步与背景图像分离噪声分量。对各种图像恢复任务的广泛实验,分别包括反射去除,雨串去除和除去,证明了所提出的U2-inter的有效性。
translated by 谷歌翻译
磁共振成像(MRI)是一种重要的非侵入性临床工具,可以产生高分辨率和可重复的图像。然而,高质量的MR图像需要长时间的扫描时间,这导致患者的疲惫和不适,由于患者的自愿运动和非自愿的生理运动,诱导更多人工制品。为了加速扫描过程,通过K空间欠采样和基于深度学习的重建的方法已经推广。这项工作引进了SwinMR,这是一种基于新型的Swin变压器的快速MRI重建方法。整个网络由输入模块(IM)组成,特征提取模块(FEM)和输出模块(OM)。 IM和OM是2D卷积层,并且FEM由级联的残留的Swin变压器块(RSTBS)和2D卷积层组成。 RSTB由一系列SWIN变压器层(STL)组成。 STL的Shifted Windows多头自我关注(W-MSA / SW-MSA)在移位的窗口中执行,而不是整个图像空间中原始变压器的多头自我关注(MSA)。通过使用灵敏度图提出了一种新的多通道损耗,这被证明是为了保留更多纹理和细节。我们在Calgary-Campinas公共大脑MR DataSet中进行了一系列比较研究和消融研究,并在多模态脑肿瘤细分挑战2017年数据集中进行了下游分段实验。结果表明,与其他基准方法相比,我们的SwinMR实现了高质量的重建,并且它在噪音中断和不同的数据集中显示了不同的遮光罩掩模的稳健性。该代码在https://github.com/ayanglab/swinmr公开使用。
translated by 谷歌翻译
水下杂质的光吸收和散射导致水下较差的水下成像质量。现有的基于数据驱动的基于数据的水下图像增强(UIE)技术缺乏包含各种水下场景和高保真参考图像的大规模数据集。此外,不同颜色通道和空间区域的不一致衰减不完全考虑提升增强。在这项工作中,我们构建了一个大规模的水下图像(LSUI)数据集,包括5004个图像对,并报告了一个U形变压器网络,其中变压器模型首次引入UIE任务。 U形变压器与通道 - 方面的多尺度特征融合变压器(CMSFFT)模块和空间全局功能建模变压器(SGFMT)模块集成在一起,可使用更多地加强网络对色频道和空间区域的关注严重衰减。同时,为了进一步提高对比度和饱和度,在人类视觉原理之后,设计了组合RGB,实验室和LCH颜色空间的新型损失函数。可用数据集的广泛实验验证了报告的技术的最先进性能,具有超过2dB的优势。
translated by 谷歌翻译
最近的研究表明,在介绍问题中建模长期相互作用的重要性。为了实现这一目标,现有方法利用独立的注意技术或变压器,但考虑到计算成本,通常在低分辨率下。在本文中,我们提出了一个基于变压器的新型模型,用于大孔介入,该模型统一了变压器和卷积的优点,以有效地处理高分辨率图像。我们仔细设计框架的每个组件,以确保恢复图像的高保真度和多样性。具体而言,我们自定义了一个面向内部的变压器块,其中注意模块仅从部分有效令牌中汇总非本地信息,该信息由动态掩码表示。广泛的实验证明了在多个基准数据集上新模型的最新性能。代码在https://github.com/fenglinglwb/mat上发布。
translated by 谷歌翻译
近年来,面部语义指导(包括面部地标,面部热图和面部解析图)和面部生成对抗网络(GAN)近年来已广泛用于盲面修复(BFR)。尽管现有的BFR方法在普通案例中取得了良好的性能,但这些解决方案在面对严重降解和姿势变化的图像时具有有限的弹性(例如,在现实世界情景中看起来右,左看,笑等)。在这项工作中,我们提出了一个精心设计的盲人面部修复网络,具有生成性面部先验。所提出的网络主要由非对称编解码器和stylegan2先验网络组成。在非对称编解码器中,我们采用混合的多路残留块(MMRB)来逐渐提取输入图像的弱纹理特征,从而可以更好地保留原始面部特征并避免过多的幻想。 MMRB也可以在其他网络中插入插件。此外,多亏了StyleGAN2模型的富裕和多样化的面部先验,我们采用了微调的方法来灵活地恢复自然和现实的面部细节。此外,一种新颖的自我监督训练策略是专门设计用于面部修复任务的,以使分配更接近目标并保持训练稳定性。关于合成和现实世界数据集的广泛实验表明,我们的模型在面部恢复和面部超分辨率任务方面取得了卓越的表现。
translated by 谷歌翻译
最近的变形金刚和多层Perceptron(MLP)模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的,但在图像识别之类的愿景中,仍然存在挑战,使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中,我们介绍了一个多轴MLP基于MARIC的架构,称为Maxim,可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构,并支持由空间门控MLP启用的远程交互。具体而言,Maxim包含两个基于MLP的构建块:多轴门控MLP,允许局部和全球视觉线索的高效和可扩展的空间混合,以及交叉栅栏,替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP,而且还受益于全局和“全卷积”,两个属性对于图像处理是可取的。我们广泛的实验结果表明,所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能,包括去噪,失败,派热,脱落和增强,同时需要更少或相当的数量参数和拖鞋而不是竞争模型。
translated by 谷歌翻译
桥接全球上下文交互正确对大面具的高保真图像完成非常重要。先前的方法通过深或大的接收领域(RF)卷积无法逃离附近互动的主导地位,这可能是劣等的。在本文中,我们建议将图像完成视为无缝的序列到序列预测任务,并部署变压器以直接捕获编码器中的远程依赖性。至关重要,我们使用具有小而非重叠的RF的限制性CNN,用于加权令牌表示,这允许变压器明确地模拟所有层中的相同重要性,而在使用较大的RF时,没有隐含地混淆邻居令牌。为了改善可见区域之间的外观一致性,引入了一种新的注意力层(aal)以更好地利用远方相关的高频功能。总体而言,与若干数据集上的最先进方法相比,大量实验表现出卓越的性能。
translated by 谷歌翻译
尽管在广泛的愿景任务中取得了诱人的成功,但变形金刚尚未在高分辨率图像生成建模中作为Convnets的讨论能力。在本文中,我们寻求探索使用纯变压器来构建用于高分辨率图像合成的生成对抗网络。为此,我们认为,当地的关注是在计算效率和建模能力之间取得平衡至关重要。因此,所提出的发电机采用基于风格的架构中的Swin变压器。为了实现更大的接收领域,我们提出了双重关注,同时利用本地和移位窗的上下文,从而提高了发电质量。此外,我们表明提供了在基于窗口的变压器中丢失的绝对位置的知识极大地利益了代理。所提出的STYLESWIN可扩展到高分辨率,粗糙几何和细结构都受益于变压器的强效力。然而,在高分辨率合成期间发生阻塞伪像,因为以块明智的方式执行局部注意力可能会破坏空间一致性。为了解决这一点,我们经验研究了各种解决方案,其中我们发现采用小波鉴别器来检查光谱差异的措施有效地抑制伪影。广泛的实验表明了对现有的基于变压器的GAN的优越性,特别是在高分辨率上,例如高分辨率,例如1024x1024。如果没有复杂的培训策略,则在Celeba-HQ 1024上赢得了STYLEGAN,并且在FFHQ-1024上实现了对PAR的表现,证明了使用变压器进行高分辨率图像生成的承诺。代码和模型将在https://github.com/microsoft/styleswin上使用。
translated by 谷歌翻译
基于深入的学习的断层摄影图像重建一直在这些年来引起了很多关注。稀疏视图数据重建是典型的未确定逆问题之一,如何从数十个投影重建高质量CT图像仍然是实践中的挑战。为了解决这一挑战,在本文中,我们提出了一个多域一体化的Swin变压器网络(MIST-NET)。首先,使用灵活的网络架构,所提出的雾网掺入了来自数据,残差数据,图像和剩余图像的豪华域特征。这里,残差数据和残差 - 图像域网组件可以被认为是数据一致性模块,以消除残差数据和图像域中的插值误差,然后进一步保持图像细节。其次,为了检测图像特征和进一步保护图像边缘,将培训的Sobel滤波器结合到网络中以提高编码解码能力。第三,随着经典的Swin变压器,我们进一步设计了高质量的重建变压器(即,REFFORMER)来提高重建性能。 REFFORMER继承了SWIN变压器的功率以捕获重建图像的全局和本地特征。具有48种视图的数值数据集的实验证明了我们所提出的雾网提供更高的重建图像质量,具有小的特征恢复和边缘保护,而不是其他竞争对手,包括高级展开网络。定量结果表明,我们的雾网也获得了最佳性能。训练有素的网络被转移到真实的心脏CT数据集,48次视图,重建结果进一步验证了我们的雾网的优势,进一步证明了临床应用中雾的良好稳健性。
translated by 谷歌翻译
变压器在计算机视觉中变得普遍,特别是对于高级视觉任务。然而,采用生成的对抗性网络(GaN)框架中的变压器仍然是一个开放但具有挑战性的问题。本文进行了一项全面的实证研究,探讨了高保真图像合成的GaN中变压器的性能。我们的分析亮点并重申了特征局部度在图像生成中的重要性,尽管局部性的优点在分类任务中是众所周知的。也许更有趣的是,我们发现自我关注层中的残余连接有害,以利用基于变压器的鉴别器和条件发电机。我们仔细检查了影响力,并提出了减轻负面影响的有效方法。我们的研究导致GaN中的变压器的新替代设计,卷积神经网络(CNN) - 免费发电机称为晶体 - G,这在无条件和条件图像代中实现了竞争导致。基于变压器的鉴别器,Strans-D也显着降低了其基于CNN的鉴别器的间隙。
translated by 谷歌翻译
由于卷积神经网络(CNNS)在从大规模数据中进行了学习的可概括图像前沿执行井,因此这些模型已被广泛地应用于图像恢复和相关任务。最近,另一类神经架构,变形金刚表现出对自然语言和高级视觉任务的显着性能。虽然变压器模型减轻了CNNS的缺点(即,有限的接收领域并对输入内容而无关),但其计算复杂性以空间分辨率二次大转,因此可以对涉及高分辨率图像的大多数图像恢复任务应用得不可行。在这项工作中,我们通过在构建块(多头关注和前锋网络)中进行多个关键设计,提出了一种有效的变压器模型,使得它可以捕获远程像素相互作用,同时仍然适用于大图像。我们的模型,命名恢复变压器(RESTORMER),实现了最先进的结果,导致几种图像恢复任务,包括图像派生,单图像运动脱棕,散焦去纹(单图像和双像素数据)和图像去噪(高斯灰度/颜色去噪,真实的图像去噪)。源代码和预先训练的型号可在https://github.com/swz30/restormer上获得。
translated by 谷歌翻译
盲面修复是从未知的降解中恢复高质量的面部图像。由于面部图像包含丰富的上下文信息,因此我们提出了一种方法,还可以修复器,该方法探讨了完全空间的关注,以模拟上下文信息并超越了使用本地运营商的现有作品。与先前的艺术相比,还原构造器具有多种好处。首先,与以前视觉变压器(VIT)中传统的多头自我发作不同,还原构图结合了多头跨注意层,以学习损坏的查询与高质量的键值对之间的完全空间相互作用。其次,从重建为导向的高质量词典中对Resotreformer中的钥匙值对进行采样,其元素具有富含高质量的面部特征,专门针对面部重建,从而导致出色的恢复结果。第三,RestoreFormer优于一个合成数据集和三个现实世界数据集上的先进的最新方法,并且可以产生具有更好视觉质量的图像。
translated by 谷歌翻译