生成模型已成为许多图像合成和编辑任务的基本构件。该领域的最新进展还使得能够生成具有多视图或时间一致性的高质量3D或视频内容。在我们的工作中,我们探索了学习无条件生成3D感知视频的4D生成对抗网络(GAN)。通过将神经隐式表示与时间感知歧视器相结合,我们开发了一个GAN框架,该框架仅通过单眼视频进行监督的3D视频。我们表明,我们的方法学习了可分解的3D结构和动作的丰富嵌入,这些结构和动作可以使时空渲染的新视觉效果,同时以与现有3D或视频gan相当的质量产生图像。
translated by 谷歌翻译
本文报告了NTIRE 2022关于感知图像质量评估(IQA)的挑战,并与CVPR 2022的图像恢复和增强研讨会(NTIRE)研讨会(NTIRE)讲习班的新趋势举行。感知图像处理算法。这些算法的输出图像与传统扭曲具有完全不同的特征,并包含在此挑战中使用的PIP数据集中。这个挑战分为两条曲目,一个类似于以前的NTIRE IQA挑战的全参考IQA轨道,以及一条侧重于No-Reference IQA方法的新曲目。挑战有192和179名注册参与者的两条曲目。在最后的测试阶段,有7和8个参与的团队提交了模型和事实表。几乎所有这些都比现有的IQA方法取得了更好的结果,并且获胜方法可以证明最先进的性能。
translated by 谷歌翻译
视频修复旨在从多个低质量框架中恢复多个高质量的帧。现有的视频修复方法通常属于两种极端情况,即它们并行恢复所有帧,或者以复发方式恢复视频框架,这将导致不同的优点和缺点。通常,前者具有时间信息融合的优势。但是,它遭受了较大的模型尺寸和密集的内存消耗;后者的模型大小相对较小,因为它在跨帧中共享参数。但是,它缺乏远程依赖建模能力和并行性。在本文中,我们试图通过提出经常性视频恢复变压器(即RVRT)来整合两种情况的优势。 RVRT在全球经常性的框架内并行处理本地相邻框架,该框架可以在模型大小,有效性和效率之间实现良好的权衡。具体而言,RVRT将视频分为多个剪辑,并使用先前推断的剪辑功能来估计后续剪辑功能。在每个剪辑中,通过隐式特征聚合共同更新不同的帧功能。在不同的剪辑中,引导的变形注意力是为剪辑对齐对齐的,该剪辑对齐可预测整个推断的夹子中的多个相关位置,并通过注意机制汇总其特征。关于视频超分辨率,DeBlurring和DeNoising的广泛实验表明,所提出的RVRT在具有平衡模型大小,测试内存和运行时的基准数据集上实现了最先进的性能。
translated by 谷歌翻译
在编码的光圈快照光谱压缩成像(CASSI)系统中,采用高光谱图像(HSI)重建方法从压缩测量中恢复了空间光谱信号。在这些算法中,深层展开的方法表现出令人鼓舞的表现,但遭受了两个问题的困扰。首先,他们没有从高度相关的CASSI估计降解模式和不适当的程度来指导迭代学习。其次,它们主要基于CNN,显示出捕获长期依赖性的局限性。在本文中,我们提出了一个原则性的降级感知框架(DAUF),该框架(DAUF)从压缩图像和物理掩码中估算参数,然后使用这些参数来控制每个迭代。此外,我们自定义了一种新颖的半剃须变压器(HST),该变压器(HST)同时捕获本地内容和非本地依赖性。通过将HST插入DAUF,我们为HSI重建建立了第一个基于变压器的深层展开方法,即降解感知的降解 - 降解的半个剃须刀变压器(DAUHST)。实验表明,Dauhst显着超过了最先进的方法,同时需要更便宜的计算和存储成本。代码和模型将在https://github.com/caiyuanhao1998/mst上发布
translated by 谷歌翻译
我们提出了一个可训练的图像信号处理(ISP)框架,该框架生成智能手机捕获的原始图像的数码单反相关图像。为了解决训练图对之间的颜色错位,我们采用了颜色条件的ISP网络,并优化了每个输入原始和参考DSLR图像之间的新型参数颜色映射。在推断期间,我们通过设计具有有效的全局上下文变压器模块的颜色预测网络来预测目标颜色图像。后者有效利用全球信息来学习一致的颜色和音调映射。我们进一步提出了一个强大的掩盖对齐损失,以识别和丢弃训练期间运动估计不准确的区域。最后,我们在野外(ISPW)数据集中介绍ISP,由弱配对的RAW和DSLR SRGB图像组成。我们广泛评估我们的方法,在两个数据集上设置新的最新技术。
translated by 谷歌翻译
已经开发了许多算法来解决编码光圈快照光谱成像(CASSI)的反问题,即从2D压缩测量中恢复3D高光谱图像(HSIS)。近年来,基于学习的方法证明了有希望的表现,并主导了主流研究方向。但是,现有的基于CNN的方法显示了捕获长期依赖性和非本地自相似性的局限性。以前的基于变压器的方法密集样本令牌,其中一些是不明显的,并计算了某些在内容中无关的令牌之间的多头自我注意力(MSA)。这不符合HSI信号的空间稀疏性质,并限制了模型可伸缩性。在本文中,我们提出了一种新型的基于变压器的方法,即粗到细稀疏变压器(CST),首先将HSI的稀疏嵌入到HSI重建的深度学习中。特别是,CST使用我们提出的光谱感知筛选机制(SASM)进行粗贴片选择。然后,选定的贴片被馈入我们的定制光谱 - 聚集多头自我注意力(SAH-MSA),以进行精细的像素聚类和自相似性捕获。全面的实验表明,我们的CST在需要廉价的计算成本的同时,明显优于最先进的方法。代码和模型将在https://github.com/caiyuanhao1998/mst上发布
translated by 谷歌翻译
深度学习的快速发展为高光谱图像(HSI)的端到端重建提供了更好的解决方案。但是,现有的基于学习的方法有两个主要缺陷。首先,具有自我注意力的网络通常会牺牲内部分辨率,以平衡模型性能与复杂性,失去细粒度的高分辨率(HR)功能。其次,即使专注于空间光谱域学习(SDL)的优化也会收敛到理想解决方案,但重建的HSI与真相之间仍然存在显着的视觉差异。因此,我们为HSI重建提出了一个高分辨率双域学习网络(HDNET)。一方面,提出的及其有效特征融合的人力资源空间光谱注意模块可提供连续且精细的像素级特征。另一方面,引入了频域学习(FDL),以供HSI重建以缩小频域差异。动态FDL监督迫使模型重建细粒频率,并补偿由像素级损失引起的过度平滑和失真。我们的HDNET相互促进HSI感知质量的人力资源像素水平的注意力和频率级别的完善。广泛的定量和定性评估实验表明,我们的方法在模拟和真实的HSI数据集上实现了SOTA性能。代码和模型将在https://github.com/caiyuanhao1998/mst上发布
translated by 谷歌翻译
视频修复(例如,视频超分辨率)旨在从低品质框架中恢复高质量的帧。与单图像恢复不同,视频修复通常需要从多个相邻但通常未对准视频帧的时间信息。现有的深度方法通常通过利用滑动窗口策略或经常性体系结构来解决此问题,该策略要么受逐帧恢复的限制,要么缺乏远程建模能力。在本文中,我们提出了一个带有平行框架预测和远程时间依赖性建模能力的视频恢复变压器(VRT)。更具体地说,VRT由多个量表组成,每个量表由两种模块组成:时间相互注意(TMSA)和平行翘曲。 TMSA将视频分为小剪辑,将相互关注用于关节运动估计,特征对齐和特征融合,而自我注意力则用于特征提取。为了启用交叉交互,视频序列对其他每一层都发生了变化。此外,通过并行功能翘曲,并行翘曲用于进一步从相邻帧中融合信息。有关五项任务的实验结果,包括视频超分辨率,视频脱张,视频denoising,视频框架插值和时空视频超级分辨率,证明VRT优于大幅度的最先进方法($ \ textbf) {最高2.16db} $)在十四个基准数据集上。
translated by 谷歌翻译
自由格式介绍是在任意二进制掩码指定的区域中向图像中添加新内容的任务。大多数现有方法训练了一定的面具分布,这将其概括能力限制为看不见的掩模类型。此外,通过像素和知觉损失的训练通常会导致对缺失区域的简单质地扩展,而不是语义上有意义的一代。在这项工作中,我们提出重新启动:基于deno的扩散概率模型(DDPM)的内部介入方法,甚至适用于极端掩模。我们采用预定的无条件DDPM作为生成先验。为了调节生成过程,我们仅通过使用给定的图像信息对未掩盖的区域进行采样来改变反向扩散迭代。由于该技术不会修改或调节原始DDPM网络本身,因此该模型可为任何填充形式产生高质量和不同的输出图像。我们使用标准面具和极端口罩验证面部和通用图像的方法。重新粉刷优于最先进的自动回归,而GAN的方法至少在六个面具分布中进行了五个。 github存储库:git.io/repaint
translated by 谷歌翻译
在时空邻域中利用类似和更清晰的场景补丁对于视频去纹理至关重要。然而,基于CNN的方法显示了捕获远程依赖性和建模非本地自相相似性的限制。在本文中,我们提出了一种新颖的框架,流引导稀疏变压器(FGST),用于视频去掩模。在FGST中,我们定制自我关注模块,流动引导的基于稀疏窗口的多头自我关注(FGSW-MSA)。对于模糊参考帧上的每个$查询$元素,FGSW-MSA享有估计的光流向全局样本的指导,其空间稀疏但与相邻帧中相同的场景补丁对应的高度相关$键$元素。此外,我们介绍了一种反复嵌入(RE)机制,以从过去的框架转移信息并加强远程时间依赖性。综合实验表明,我们提出的FGST优于DVD和GoPro数据集的最先进的(SOTA)方法,甚至在真实视频去纹理中产生更多视觉上令人愉悦的结果。代码和型号将发布给公众。
translated by 谷歌翻译