去除阴影的关键是通过非阴影区域的指导恢复阴影区域的内容。由于远程建模不足,基于CNN的方法无法彻底研究非阴影地区的信息。为了解决这个问题,我们提出了一个新颖的清洁效果图网络(CNSNET),并具有面向阴影的自适应归一化(SOAN)模块,并根据阴影蒙版带有带有变压器(SAAT)模块的阴影吸引的聚合。在影子面罩的指导下,Soan模块制定了非阴影区域的统计数据,并将它们适应到阴影区域以进行区域修复。 SAAT模块利用阴影面膜来精确指导每个阴影像素的修复,通过考虑来自无阴影区域的高度相关像素以进行全球像素恢复。在三个基准数据集(ISTD,ISTD+和SRD)上进行了广泛的实验表明,我们的方法可实现出色的脱落性能。
translated by 谷歌翻译
旨在恢复图像中影子区域的原始强度,并使它们与剩余的非阴影区域兼容,而没有跟踪,删除阴影是一个非常具有挑战性的问题,使许多下游图像/视频相关的任务受益。最近,变形金刚通过捕获全局像素相互作用来显示它们在各种应用中的强大能力,并且这种能力在删除阴影时非常可取。然而,由于以下两个原因,应用变压器促进阴影去除是非平凡的:1)修补程序操作不适用于由于不规则的阴影形状而导致阴影去除; 2)阴影去除只需要从非阴影区域到阴影区域的单向交互,而不是图像中所有像素之间的共同双向相互作用。在本文中,我们提出了一种新型的跨区域变压器,即CRFormer,用于去除阴影,它与现有变压器的不同之处仅通过考虑从非阴影区域到阴影区域的像素相互作用而不将图像分为斑块。这是通过精心设计的区域感知的跨注意操作来实现的,该操作可以汇总以非阴影区域特征为条件的恢复的阴影区域特征。与其他最先进的方法相比,关于ISTD,AISTD,SRD和视频阴影删除数据集的广泛实验证明了我们方法的优势。
translated by 谷歌翻译
在许多收集的图像中,由于未经污染的图像对于许多下游多媒体任务至关重要,因此阴影删除引起了人们的关注。当前的方法考虑了阴影和非阴影区域的相同卷积操作,同时忽略了阴影区域和非阴影区域的颜色映射之间的巨大差距,从而导致重建图像的质量差和沉重的计算负担。为了解决这个问题,本文介绍了一个新颖的插件阴影感知动态卷积(SADC)模块,以使阴影区域与非阴影区域之间的相互依赖性解除。受到以下事实的启发:非阴影区域的颜色映射更易于学习,我们的SDC以计算上的轻巧卷积模块的方式处理非阴影区域,并以计算上的廉价方式处理,并使用更复杂的卷积模块恢复阴影区域图像重建的质量。鉴于非阴影区域通常包含更多背景颜色信息,我们进一步开发了一种新型的卷积内蒸馏损失,以增强从非阴影区域到阴影区域的信息流。在ISTD和SRD数据集上进行的广泛实验表明,我们的方法在许多最先进的情况下取得了更好的阴影去除性能。我们的代码可从https://github.com/xuyimin0926/sadc获得。
translated by 谷歌翻译
本文着重于当前过度参数化的阴影去除模型的局限性。我们提出了一个新颖的轻型深神经网络,该网络在实验室色彩空间中处理阴影图像。提出的称为“实验室网络”的网络是由以下三个观察结果激励的:首先,实验室颜色空间可以很好地分离亮度信息和颜色属性。其次,顺序堆叠的卷积层无法完全使用来自不同接受场的特征。第三,非阴影区域是重要的先验知识,可以减少阴影和非阴影区域之间的剧烈差异。因此,我们通过涉及两个分支结构的结构来设计实验室网络:L和AB分支。因此,与阴影相关的亮度信息可以很好地处理在L分支中,而颜色属性则很好地保留在AB分支中。此外,每个分支由几个基本块,局部空间注意模块(LSA)和卷积过滤器组成。每个基本块由多个平行的扩张扩张率的扩张卷积组成,以接收不同的接收场,这些接收场具有不同的网络宽度,以节省模型参数和计算成本。然后,构建了增强的通道注意模块(ECA),以从不同的接受场聚集特征,以更好地去除阴影。最后,进一步开发了LSA模块,以充分利用非阴影区域中的先前信息来清洁阴影区域。我们在ISTD和SRD数据集上执行广泛的实验。实验结果表明,我们的实验室网络井胜过最先进的方法。同样,我们的模型参数和计算成本降低了几个数量级。我们的代码可在https://github.com/ngrxmu/lab-net上找到。
translated by 谷歌翻译
Shadow removal improves the visual quality and legibility of digital copies of documents. However, document shadow removal remains an unresolved subject. Traditional techniques rely on heuristics that vary from situation to situation. Given the quality and quantity of current public datasets, the majority of neural network models are ill-equipped for this task. In this paper, we propose a Transformer-based model for document shadow removal that utilizes shadow context encoding and decoding in both shadow and shadow-free regions. Additionally, shadow detection and pixel-level enhancement are included in the whole coarse-to-fine process. On the basis of comprehensive benchmark evaluations, it is competitive with state-of-the-art methods.
translated by 谷歌翻译
在本文中,我们提出了端到端的水疗形式,以从单个阴影图像中恢复无阴影的图像。与需要两个步骤进行阴影检测然后再删除阴影的传统方法不同,Spa-Former将这些步骤统一为一个,这是一个单阶段网络,能够直接学习阴影和无阴影之间的映射功能,不需要一个单独的阴影检测。因此,SPA形式适应于实际图像去阴影,以适应投影在不同语义区域上的阴影。SPA形式由变压器层和一系列关节傅立叶变压残留块和两轮关节空间注意力组成。本文中的网络能够在达到非常快速的处理效率的同时处理任务。我们的代码在https://github.com/ zhangbaijin/spatial-transformer-shadow-removal上重新发布
translated by 谷歌翻译
从单个图像中删除阴影通常仍然是一个开放的问题。大多数现有的基于学习的方法都使用监督的学习,并需要大量的配对图像(阴影和相应的非阴影图像)进行培训。最近的无监督方法,面具 - 饰面方法解决了这一限制。但是,它需要二进制掩码来表示阴影区域,从而使其不适合柔软的阴影。为了解决这个问题,在本文中,我们提出了一个无监督的域分类器引导删除网络DC-Shadownet。具体而言,我们建议将无阴影/无阴影域分类器集成到发电机及其歧视器中,从而使它们能够专注于阴影区域。为了训练我们的网络,我们引入了基于基于物理的无阴影色彩,阴影的感知特征和边界平滑度的新颖损失。此外,我们表明我们的无监督网络可用于测试时间培训,以进一步改善结果。我们的实验表明,所有这些新型组件允许我们的方法处理柔和的阴影,并且比现有的最新阴影去除方法在定量和定性上都能在硬阴影上表现更好。
translated by 谷歌翻译
Recent deep learning methods have achieved promising results in image shadow removal. However, their restored images still suffer from unsatisfactory boundary artifacts, due to the lack of degradation prior embedding and the deficiency in modeling capacity. Our work addresses these issues by proposing a unified diffusion framework that integrates both the image and degradation priors for highly effective shadow removal. In detail, we first propose a shadow degradation model, which inspires us to build a novel unrolling diffusion model, dubbed ShandowDiffusion. It remarkably improves the model's capacity in shadow removal via progressively refining the desired output with both degradation prior and diffusive generative prior, which by nature can serve as a new strong baseline for image restoration. Furthermore, ShadowDiffusion progressively refines the estimated shadow mask as an auxiliary task of the diffusion generator, which leads to more accurate and robust shadow-free image generation. We conduct extensive experiments on three popular public datasets, including ISTD, ISTD+, and SRD, to validate our method's effectiveness. Compared to the state-of-the-art methods, our model achieves a significant improvement in terms of PSNR, increasing from 31.69dB to 34.73dB over SRD dataset.
translated by 谷歌翻译
Most shadow removal methods rely on the invasion of training images associated with laborious and lavish shadow region annotations, leading to the increasing popularity of shadow image synthesis. However, the poor performance also stems from these synthesized images since they are often shadow-inauthentic and details-impaired. In this paper, we present a novel generation framework, referred to as HQSS, for high-quality pseudo shadow image synthesis. The given image is first decoupled into a shadow region identity and a non-shadow region identity. HQSS employs a shadow feature encoder and a generator to synthesize pseudo images. Specifically, the encoder extracts the shadow feature of a region identity which is then paired with another region identity to serve as the generator input to synthesize a pseudo image. The pseudo image is expected to have the shadow feature as its input shadow feature and as well as a real-like image detail as its input region identity. To fulfill this goal, we design three learning objectives. When the shadow feature and input region identity are from the same region identity, we propose a self-reconstruction loss that guides the generator to reconstruct an identical pseudo image as its input. When the shadow feature and input region identity are from different identities, we introduce an inter-reconstruction loss and a cycle-reconstruction loss to make sure that shadow characteristics and detail information can be well retained in the synthesized images. Our HQSS is observed to outperform the state-of-the-art methods on ISTD dataset, Video Shadow Removal dataset, and SRD dataset. The code is available at https://github.com/zysxmu/HQSS.
translated by 谷歌翻译
卷积神经网络(CNN)和变压器在多媒体应用中取得了巨大成功。但是,几乎没有努力有效,有效地协调这两个架构以满足图像的范围。本文旨在统一这两种架构,以利用其学习优点来降低图像。特别是,CNN的局部连通性和翻译等效性以及变压器中自我注意力(SA)的全球聚合能力被完全利用用于特定的局部环境和全球结构表示。基于雨水分布揭示降解位置和程度的观察,我们在帮助背景恢复之前引入退化,并因此呈现关联细化方案。提出了一种新型的多输入注意模块(MAM),以将降雨的去除和背景恢复关联。此外,我们为模型配备了有效的深度可分离卷积,以学习特定的特征表示并权衡计算复杂性。广泛的实验表明,我们提出的方法(称为ELF)的表现平均比最先进的方法(MPRNET)优于0.25 dB,但仅占其计算成本和参数的11.7 \%和42.1 \%。源代码可从https://github.com/kuijiang94/magic-elf获得。
translated by 谷歌翻译
在恶劣天气下降雪场景的图像恢复是一项艰巨的任务。雪图像具有复杂的降解,并在干净的图像上混乱,改变了干净的图像的分布。以前基于CNN的方法由于缺乏特定的全球建模能力,因此在恢复雪场景中完全恢复了雪场的挑战。在本文中,我们将视觉变压器应用于从单个图像中去除积雪的任务。具体而言,我们建议沿通道拆分的并行网络体系结构分别执行本地功能改进和全局信息建模。我们利用频道洗牌操作来结合其各自的优势以增强网络性能。其次,我们提出了MSP模块,该模块利用多规模的AVGPOOL来汇总不同大小的信息,并同时对多头自我注意力进行多尺度投影自我注意,以提高模型在不同规模下降下的表示能力。最后,我们设计了一个轻巧,简单的本地捕获模块,可以完善模型的本地捕获能力。在实验部分,我们进行了广泛的实验以证明我们方法的优越性。我们比较了三个雪场数据集上的先前清除方法。实验结果表明,我们的方法超过了更少的参数和计算的最新方法。在CSD测试数据集上,我们实现了1.99dB和SSIM 0.03的实质增长。在SRR和SNOW100K数据集上,与Transweather方法相比,我们还增加了2.47dB和1.62dB,在SSIM中提高了0.03。在视觉比较部分中,我们的MSP形式比现有方法获得了更好的视觉效果,证明了我们方法的可用性。
translated by 谷歌翻译
学习自然图像恢复的一般性先验是一项重要但具有挑战性的任务。早期方法主要涉及手工制作的先验,包括归一化稀疏性,L_0梯度,暗通道先验等。最近,深层神经网络已用于学习各种图像先验,但不能保证概括。在本文中,我们提出了一种新颖的方法,该方法将任务敏捷的先验嵌入到变压器中。我们的方法称为任务不合时宜的先验嵌入(磁带),由两个阶段组成,即,任务不合时宜的预训练和特定于任务的微调,第一阶段将有关自然图像的先验知识嵌入到变压器中,第二阶段嵌入了第二阶段。阶段提取知识以帮助下游图像恢复。对各种降解的实验验证了胶带的有效性。根据PSNR的图像恢复性能提高了多达1.45dB,甚至超过了特定于任务的算法。更重要的是,磁带显示了从退化的图像中解开广义图像先验的能力,这些图像具有良好的转移能力,可以转移到未知的下游任务。
translated by 谷歌翻译
在本文中,我们呈现了UFFORER,一种用于图像恢复的有效和高效的变换器架构,其中我们使用变压器块构建分层编码器解码器网络。在UFFAR中,有两个核心设计。首先,我们介绍了一个新颖的本地增强型窗口(Lewin)变压器块,其执行基于窗口的自我关注而不是全局自我关注。它显着降低了高分辨率特征映射的计算复杂性,同时捕获本地上下文。其次,我们提出了一种以多尺度空间偏置的形式提出了一种学习的多尺度恢复调制器,以调整UFFORER解码器的多个层中的特征。我们的调制器展示了卓越的能力,用于恢复各种图像恢复任务的详细信息,同时引入边缘额外参数和计算成本。通过这两个设计提供支持,UFFORER享有高能力,可以捕获本地和全局依赖性的图像恢复。为了评估我们的方法,在几种图像恢复任务中进行了广泛的实验,包括图像去噪,运动脱棕,散焦和污染物。没有钟声和口哨,与最先进的算法相比,我们的UFormer实现了卓越的性能或相当的性能。代码和模型可在https://github.com/zhendongwang6/uformer中找到。
translated by 谷歌翻译
当检测较小,不清楚或具有模糊边缘时的阴影区域时,电流阴影检测方法表现不佳。在这项工作中,我们试图在两个前面解决这个问题。首先,我们提出了一个精细的上下文感知阴影检测网络(FCSD-NET),在那里我们约束接收字段大小并专注于低级功能以学习精细上下文的功能更好。其次,我们提出了一种新的学习策略,称为恢复来检测(R2D),在那里我们表明,当深度神经网络训练恢复时(暗影删除),它也会学习有意义的功能来描绘阴影面具。为了利用阴影检测和删除任务的这种互补性,我们培训辅助网络进行影子拆卸,并提出互补特征学习块(CFL),以从阴影清除网络到阴影检测网络学习和融合有意义的功能。我们使用多个数据集的R2D学习策略培训所提出的网络FCSD-Net。三个公共影子检测数据集(ISTD,SBU和UCF)的实验结果表明,与其他最近的方法相比,我们的方法能够更好地检测到微观上下文的同时提高阴影检测性能。
translated by 谷歌翻译
卷积神经网络(CNNS)成功地进行了压缩图像感测。然而,由于局部性和重量共享的归纳偏差,卷积操作证明了建模远程依赖性的内在限制。变压器,最初作为序列到序列模型设计,在捕获由于基于自我关注的架构而捕获的全局背景中,即使它可以配备有限的本地化能力。本文提出了一种混合框架,一个混合框架,其集成了从CNN提供的借用的优点以及变压器提供的全局上下文,以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中,通过学习的采样矩阵测量图像逐块。在重建阶段,将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆,另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发,并且本地特征和全局表示在不同的分辨率下融合,以最大化功能的互补性。此外,我们探索一个渐进的战略和基于窗口的变压器块,以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性,与不同数据集的最先进方法相比,实现了卓越的性能。
translated by 谷歌翻译
表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今,基于编码器架构的卷积神经网络(CNN)在各种缺陷检测任务中取得了巨大的成功。然而,由于卷积的内在局部性,它们通常在明确建模长距离相互作用时表现出限制,这对于复杂情况下的像素缺陷检测至关重要,例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性,但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性,我们提出了一个有效的混合变压器体系结构,称为缺陷变压器(faft),用于表面缺陷检测,该检测将CNN和Transferaler纳入统一模型,以协作捕获本地和非本地关系。具体而言,在编码器模块中,首先采用卷积茎块来保留更详细的空间信息。然后,贴片聚合块用于生成具有四个层次结构的多尺度表示形式,每个层次结构之后分别是一系列的feft块,该块分别包括用于本地位置编码的本地位置块,一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系,以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后,提出了一个简单但有效的解码器模块,以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比,三个数据集上的广泛实验证明了我们方法的优势和效率。
translated by 谷歌翻译
高动态范围(HDR)DEGHOSTING算法旨在生成具有现实细节的无幽灵HDR图像。受到接收场的局部性的限制,现有的基于CNN的方法通常容易产生大型运动和严重饱和的情况下产生鬼影和强度扭曲。在本文中,我们提出了一种新颖的背景感知视觉变压器(CA-VIT),用于无幽灵的高动态范围成像。 CA-VIT被设计为双分支结构,可以共同捕获全球和本地依赖性。具体而言,全球分支采用基于窗口的变压器编码器来建模远程对象运动和强度变化以解决hosting。对于本地分支,我们设计了局部上下文提取器(LCE)来捕获短范围的图像特征,并使用频道注意机制在提取的功能上选择信息丰富的本地详细信息,以补充全局分支。通过将CA-VIT作为基本组件纳入基本组件,我们进一步构建了HDR-Transformer,这是一个分层网络,以重建高质量的无幽灵HDR图像。在三个基准数据集上进行的广泛实验表明,我们的方法在定性和定量上优于最先进的方法,而计算预算大大降低。代码可从https://github.com/megvii-research/hdr-transformer获得
translated by 谷歌翻译
传统的基于CNNS的脱水模型遭受了两个基本问题:脱水框架(可解释性有限)和卷积层(内容无关,无效地学习远程依赖信息)。在本文中,我们提出了一种新的互补特征增强框架,其中互补特征由几个互补的子任务学习,然后一起用于提高主要任务的性能。新框架的一个突出优势之一是,有目的选择的互补任务可以专注于学习弱依赖性的互补特征,避免重复和无效的网络学习。我们根据这样一个框架设计了一种新的脱瘟网络。具体地,我们选择内在图像分解作为补充任务,其中反射率和阴影预测子任务用于提取色彩和纹理的互补特征。为了有效地聚合这些互补特征,我们提出了一种互补特征选择模块(CFSM),以选择图像脱水的更有用功能。此外,我们介绍了一个名为Hybrid Local-Global Vision变换器(Hylog-Vit)的新版本的Vision变换器块,并将其包含在我们的脱水网络中。 Hylog-VIT块包括用于捕获本地和全球依赖性的本地和全局视觉变压器路径。结果,Hylog-VIT引入网络中的局部性并捕获全局和远程依赖性。在均匀,非均匀和夜间脱水任务上的广泛实验表明,所提出的脱水网络可以实现比基于CNNS的去吸收模型的相当甚至更好的性能。
translated by 谷歌翻译
现实世界图像Denoising是一个实用的图像恢复问题,旨在从野外嘈杂的输入中获取干净的图像。最近,Vision Transformer(VIT)表现出强大的捕获远程依赖性的能力,许多研究人员试图将VIT应用于图像DeNosing任务。但是,现实世界的图像是一个孤立的框架,它使VIT构建了内部贴片的远程依赖性,该依赖性将图像分为贴片并混乱噪声模式和梯度连续性。在本文中,我们建议通过使用连续的小波滑动转换器来解决此问题,该小波滑动转换器在现实世界中构建频率对应关系,称为dnswin。具体而言,我们首先使用CNN编码器从嘈杂的输入图像中提取底部功能。 DNSWIN的关键是将高频和低频信息与功能和构建频率依赖性分开。为此,我们提出了小波滑动窗口变压器,该变压器利用离散的小波变换,自我注意力和逆离散小波变换来提取深度特征。最后,我们使用CNN解码器将深度特征重建为DeNo的图像。对现实世界的基准测试的定量和定性评估都表明,拟议的DNSWIN对最新方法的表现良好。
translated by 谷歌翻译
高光谱图像(HSI)重建旨在从编码光圈快照频谱成像(CASSI)系统中的2D测量中恢复3D空间光谱信号。 HSI表示在光谱维度上具有高度相似和相关性。建模频谱间相互作用对HSI重建有益。然而,现有的基于CNN的方法显示了捕获光谱和远程依赖性的限制。此外,HSI信息由CASSI中的编码孔径(物理掩码)调制。尽管如此,目前的算法尚未完全探索掩模的掩模恢复的引导效果。在本文中,我们提出了一种新颖的框架,掩模引导的光谱 - 明智变压器(MST),用于HSI重建。具体地,我们介绍了一种频谱,用于将每个光谱特征视为令牌的频谱 - 明智的多头自我注意(S-MSA)并计算沿光谱尺寸的自我关注。此外,我们自定义一个掩模导向机构(mm),指示S-MSA,以注意具有高保真谱表示的空间区域。广泛的实验表明,我们的MST在模拟和真实HSI数据集上显着优于最先进的(SOTA)方法,同时需要大幅更便宜的计算和内存成本。
translated by 谷歌翻译