尽管在深层视频降级中取得了重大进展,但利用历史和未来框架仍然非常具有挑战性。双向反复网络(BIRNN)在几个视频恢复任务中表现出吸引力的表现。但是,Birnn本质上是离线的,因为它使用向后的复发模块从最后一个帧传播到当前帧,这会导致高潜伏期和大型内存消耗。为了解决Birnn的离线问题,我们提出了一个新颖的经常性网络,该网络由向单向视频DeNoising的前向和观察的经常性模块组成。特别是,look-aver-aph模块是一个精心设计的前向模块,用于利用近距离框架的信息。当降级当前框架时,将隐藏的特征组合出来,并相互反复的模块组合,从而使其可行,可以利用历史和近乎未来的框架。由于不邻近框架之间的现场运动,当从近距离框架到当前框架的扭曲外观功能时,可能会失踪边界像素,这可以通过合并前向翘曲和拟议边框扩大来大大减轻。实验表明,我们的方法通过持续的延迟和记忆消耗实现最先进的性能。代码可在https://github.com/nagejacob/flornn上提供可用。
translated by 谷歌翻译
视频修复(例如,视频超分辨率)旨在从低品质框架中恢复高质量的帧。与单图像恢复不同,视频修复通常需要从多个相邻但通常未对准视频帧的时间信息。现有的深度方法通常通过利用滑动窗口策略或经常性体系结构来解决此问题,该策略要么受逐帧恢复的限制,要么缺乏远程建模能力。在本文中,我们提出了一个带有平行框架预测和远程时间依赖性建模能力的视频恢复变压器(VRT)。更具体地说,VRT由多个量表组成,每个量表由两种模块组成:时间相互注意(TMSA)和平行翘曲。 TMSA将视频分为小剪辑,将相互关注用于关节运动估计,特征对齐和特征融合,而自我注意力则用于特征提取。为了启用交叉交互,视频序列对其他每一层都发生了变化。此外,通过并行功能翘曲,并行翘曲用于进一步从相邻帧中融合信息。有关五项任务的实验结果,包括视频超分辨率,视频脱张,视频denoising,视频框架插值和时空视频超级分辨率,证明VRT优于大幅度的最先进方法($ \ textbf) {最高2.16db} $)在十四个基准数据集上。
translated by 谷歌翻译
Video super-resolution (VSR) aiming to reconstruct a high-resolution (HR) video from its low-resolution (LR) counterpart has made tremendous progress in recent years. However, it remains challenging to deploy existing VSR methods to real-world data with complex degradations. On the one hand, there are few well-aligned real-world VSR datasets, especially with large super-resolution scale factors, which limits the development of real-world VSR tasks. On the other hand, alignment algorithms in existing VSR methods perform poorly for real-world videos, leading to unsatisfactory results. As an attempt to address the aforementioned issues, we build a real-world 4 VSR dataset, namely MVSR4$\times$, where low- and high-resolution videos are captured with different focal length lenses of a smartphone, respectively. Moreover, we propose an effective alignment method for real-world VSR, namely EAVSR. EAVSR takes the proposed multi-layer adaptive spatial transform network (MultiAdaSTN) to refine the offsets provided by the pre-trained optical flow estimation network. Experimental results on RealVSR and MVSR4$\times$ datasets show the effectiveness and practicality of our method, and we achieve state-of-the-art performance in real-world VSR task. The dataset and code will be publicly available.
translated by 谷歌翻译
现有视频超分辨率(VSR)算法的成功主要是从相邻框架中利用时间信息。但是,这些方法都没有讨论带有固定物体和背景的贴片中时间冗余的影响,并且通常使用相邻框架中的所有信息而没有任何歧视。在本文中,我们观察到时间冗余将对信息传播产生不利影响,这限制了最现有的VSR方法的性能。在这一观察结果的推动下,我们旨在通过以优化的方式处理时间冗余贴片来改善现有的VSR算法。我们开发了两种简单但有效的插件方法,以提高广泛使用的公共视频中现有的本地和非本地传播算法的性能。为了更全面地评估现有VSR算法的鲁棒性和性能,我们还收集了一个新数据集,其中包含各种公共视频作为测试集。广泛的评估表明,所提出的方法可以显着提高野生场景中收集的视频的现有VSR方法的性能,同时保持其在现有常用数据集上的性能。该代码可在https://github.com/hyhsimon/boosted-vsr上找到。
translated by 谷歌翻译
远程时间对齐至关重要,但对视频恢复任务有挑战性。最近,一些作品试图将远程对齐分成几个子对齐并逐步处理它们。虽然该操作有助于建模遥控对应关系,但由于传播机制,误差累积是不可避免的。在这项工作中,我们提出了一种新颖的通用迭代对准模块,其采用逐渐改进方案进行子对准,产生更准确的运动补偿。为了进一步提高对准精度和时间一致性,我们开发了一种非参数重新加权方法,其中每个相邻帧的重要性以用于聚合的空间方式自适应地评估。凭借拟议的策略,我们的模型在一系列视频恢复任务中实现了多个基准测试的最先进的性能,包括视频超分辨率,去噪和去束性。我们的项目可用于\ url {https:/github.com/redrock303/revisiting-temporal-alignment-for-video-Restion.git}。
translated by 谷歌翻译
长期信息的开发一直是视频恢复的一个长期问题。最近的BASICVSR和BASICVSR ++通过长期传播和有效的对齐方式在视频超分辨率方面表现出色。他们的成功导致了一个问题,即是否可以将它们转移到不同的视频修复任务中。在这项工作中,我们将BASICVSR ++扩展到用于视频恢复任务的通用框架。在输入和输出具有相同空间尺寸的任务中,输入分辨率通过稳定的卷积以维持效率而降低。只有从BASICVSR ++进行的最小变化,所提出的框架在各种视频恢复任务中都具有出色的效率,包括视频Deblurring和DeNoising。值得注意的是,BASICVSR ++的性能与基于变压器的方法相当,最多占参数降低和44倍加速的79%。有希望的结果表明,不仅仅是视频超级分辨率,在视频恢复任务中传播和对齐的重要性。代码和型号可在https://github.com/ckkelvinchan/basicvsr_plusplus上找到。
translated by 谷歌翻译
视频修复旨在从多个低质量框架中恢复多个高质量的帧。现有的视频修复方法通常属于两种极端情况,即它们并行恢复所有帧,或者以复发方式恢复视频框架,这将导致不同的优点和缺点。通常,前者具有时间信息融合的优势。但是,它遭受了较大的模型尺寸和密集的内存消耗;后者的模型大小相对较小,因为它在跨帧中共享参数。但是,它缺乏远程依赖建模能力和并行性。在本文中,我们试图通过提出经常性视频恢复变压器(即RVRT)来整合两种情况的优势。 RVRT在全球经常性的框架内并行处理本地相邻框架,该框架可以在模型大小,有效性和效率之间实现良好的权衡。具体而言,RVRT将视频分为多个剪辑,并使用先前推断的剪辑功能来估计后续剪辑功能。在每个剪辑中,通过隐式特征聚合共同更新不同的帧功能。在不同的剪辑中,引导的变形注意力是为剪辑对齐对齐的,该剪辑对齐可预测整个推断的夹子中的多个相关位置,并通过注意机制汇总其特征。关于视频超分辨率,DeBlurring和DeNoising的广泛实验表明,所提出的RVRT在具有平衡模型大小,测试内存和运行时的基准数据集上实现了最先进的性能。
translated by 谷歌翻译
时空视频超分辨率(STVSR)的目标是增加低分辨率(LR)和低帧速率(LFR)视频的空间分辨率。基于深度学习的最新方法已取得了重大改进,但是其中大多数仅使用两个相邻帧,即短期功能,可以合成缺失的框架嵌入,这无法完全探索连续输入LR帧的信息流。此外,现有的STVSR模型几乎无法明确利用时间上下文以帮助高分辨率(HR)框架重建。为了解决这些问题,在本文中,我们提出了一个称为STDAN的可变形注意网络。首先,我们设计了一个长短的术语特征插值(LSTFI)模块,该模块能够通过双向RNN结构从更相邻的输入帧中挖掘大量的内容,以进行插值。其次,我们提出了一个空间 - 周期性变形特征聚合(STDFA)模块,其中动态视频框架中的空间和时间上下文被自适应地捕获并汇总以增强SR重建。几个数据集的实验结果表明,我们的方法的表现优于最先进的STVSR方法。该代码可在https://github.com/littlewhitesea/stdan上找到。
translated by 谷歌翻译
如何正确对视频序列中的框架间关系进行建模是视频恢复(VR)的重要挑战。在这项工作中,我们提出了一个无监督的流动对准​​序列模型(S2SVR)来解决此问题。一方面,在VR中首次探讨了在自然语言处理领域的序列到序列模型。优化的序列化建模显示了捕获帧之间远程依赖性的潜力。另一方面,我们为序列到序列模型配备了无监督的光流估计器,以最大程度地发挥其潜力。通过我们提出的无监督蒸馏损失对流量估计器进行了训练,这可以减轻数据差异和以前基于流动的方法的降解光流问题的不准确降解。通过可靠的光流,我们可以在多个帧之间建立准确的对应关系,从而缩小了1D语言和2D未对准框架之间的域差异,并提高了序列到序列模型的潜力。 S2SVR在多个VR任务中显示出卓越的性能,包括视频脱张,视频超分辨率和压缩视频质量增强。代码和模型可在https://github.com/linjing7/vr-baseline上公开获得
translated by 谷歌翻译
基于常规卷积网络的视频超分辨率(VSR)方法具有很强的视频序列的时间建模能力。然而,在单向反复卷积网络中的不同反复单元接收的输入信息不平衡。早期重建帧接收较少的时间信息,导致模糊或工件效果。虽然双向反复卷积网络可以缓解这个问题,但它大大提高了重建时间和计算复杂性。它也不适用于许多应用方案,例如在线超分辨率。为了解决上述问题,我们提出了一种端到端信息预构建的经常性重建网络(IPRRN),由信息预构建网络(IPNet)和经常性重建网络(RRNET)组成。通过将足够的信息从视频的前面集成来构建初始复发单元所需的隐藏状态,以帮助恢复较早的帧,信息预构建的网络在不向后传播之前和之后的输入信息差异。此外,我们展示了一种紧凑的复发性重建网络,可显着改善恢复质量和时间效率。许多实验已经验证了我们所提出的网络的有效性,并与现有的最先进方法相比,我们的方法可以有效地实现更高的定量和定性评估性能。
translated by 谷歌翻译
现有的视频denoising方法通常假设嘈杂的视频通过添加高斯噪声从干净的视频中降低。但是,经过这种降解假设训练的深层模型将不可避免地导致由于退化不匹配而导致的真实视频的性能差。尽管一些研究试图在摄像机捕获的嘈杂和无噪声视频对上训练深层模型,但此类模型只能对特定的相机很好地工作,并且对其他视频的推广不佳。在本文中,我们建议提高此限制,并专注于一般真实视频的问题,目的是在看不见的现实世界视频上概括。我们首先调查视频噪音的共同行为来解决这个问题,并观察两个重要特征:1)缩减有助于降低空间空间中的噪声水平; 2)来自相邻框架的信息有助于消除时间上的当前框架的噪声空间。在这两个观察结果的推动下,我们通过充分利用上述两个特征提出了多尺度的复发架构。其次,我们通过随机调整不同的噪声类型来训练Denoising模型来提出合成真实的噪声降解模型。借助合成和丰富的降解空间,我们的退化模型可以帮助弥合训练数据和现实世界数据之间的分布差距。广泛的实验表明,与现有方法相比,我们所提出的方法实现了最先进的性能和更好的概括能力,而在合成高斯denoising和实用的真实视频denoisising方面都具有现有方法。
translated by 谷歌翻译
Video restoration tasks, including super-resolution, deblurring, etc, are drawing increasing attention in the computer vision community. A challenging benchmark named REDS is released in the NTIRE19 Challenge. This new benchmark challenges existing methods from two aspects:(1) how to align multiple frames given large motions, and (2) how to effectively fuse different frames with diverse motion and blur. In this work, we propose a novel Video Restoration framework with Enhanced Deformable convolutions, termed EDVR, to address these challenges. First, to handle large motions, we devise a Pyramid, Cascading and Deformable (PCD) alignment module, in which frame alignment is done at the feature level using deformable convolutions in a coarse-to-fine manner. Second, we propose a Temporal and Spatial Attention (TSA) fusion module, in which attention is applied both temporally and spatially, so as to emphasize important features for subsequent restoration. Thanks to these modules, our EDVR wins the champions and outperforms the second place by a large margin in all four tracks in the NTIRE19 video restoration and enhancement challenges. EDVR also demonstrates superior performance to state-of-the-art published methods on video super-resolution and deblurring. The code is available at https://github.com/xinntao/EDVR.
translated by 谷歌翻译
在本文中,我们研究了实用的时空视频超分辨率(STVSR)问题,该问题旨在从低型低分辨率的低分辨率模糊视频中生成高富含高分辨率的夏普视频。当使用低填充和低分辨率摄像头记录快速动态事件时,通常会发生这种问题,而被捕获的视频将遭受三个典型问题:i)运动模糊发生是由于曝光时间内的对象/摄像机运动而发生的; ii)当事件时间频率超过时间采样的奈奎斯特极限时,运动异叠是不可避免的; iii)由于空间采样率低,因此丢失了高频细节。这些问题可以通过三个单独的子任务的级联来缓解,包括视频脱张,框架插值和超分辨率,但是,这些问题将无法捕获视频序列之间的空间和时间相关性。为了解决这个问题,我们通过利用基于模型的方法和基于学习的方法来提出一个可解释的STVSR框架。具体而言,我们将STVSR作为联合视频脱张,框架插值和超分辨率问题,并以另一种方式将其作为两个子问题解决。对于第一个子问题,我们得出了可解释的分析解决方案,并将其用作傅立叶数据变换层。然后,我们为第二个子问题提出了一个反复的视频增强层,以进一步恢复高频细节。广泛的实验证明了我们方法在定量指标和视觉质量方面的优势。
translated by 谷歌翻译
尽管运动补偿大大提高了视频质量,但单独执行运动补偿和视频脱张需要大量的计算开销。本文提出了一个实时视频Deblurring框架,该框架由轻巧的多任务单元组成,该单元以有效的方式支持视频脱张和运动补偿。多任务单元是专门设计的,用于使用单个共享网络处理两个任务的大部分,并由多任务详细网络和简单的网络组成,用于消除和运动补偿。多任务单元最大程度地减少了将运动补偿纳入视频Deblurring的成本,并实现了实时脱毛。此外,通过堆叠多个多任务单元,我们的框架在成本和过度质量之间提供了灵活的控制。我们通过实验性地验证了方法的最先进的质量,与以前的方法相比,该方法的运行速度要快得多,并显示了实时的实时性能(在DVD数据集中测量了30.99db@30fps)。
translated by 谷歌翻译
视频通常将流和连续的视觉数据记录为离散的连续帧。由于存储成本对于高保真度的视频来说是昂贵的,因此大多数存储以相对较低的分辨率和帧速率存储。最新的时空视频超分辨率(STVSR)的工作是开发出来的,以将时间插值和空间超分辨率纳入统一框架。但是,其中大多数仅支持固定的上采样量表,这限制了其灵活性和应用。在这项工作中,我们没有遵循离散表示,我们提出了视频隐式神经表示(videoinr),并显示了其对STVSR的应用。学到的隐式神经表示可以解码为任意空间分辨率和帧速率的视频。我们表明,Videoinr在常见的上采样量表上使用最先进的STVSR方法实现了竞争性能,并且在连续和训练的分布量表上显着优于先前的作品。我们的项目页面位于http://zeyuan-chen.com/videoinr/。
translated by 谷歌翻译
视频流连续交付,以节省存储和设备内存的成本。用户设备上通常采用实时denoising算法,以消除视频流的拍摄和传输过程中所涉及的噪声。但是,基于滑动窗口的方法为单个输出和缺乏计算效率的多个输入帧提供了多个输入帧。最近的多输出推荐工作可以通过平行或经常性的框架传播双向时间功能,这要么在剪辑的时间边缘上的性能下降,要么无法在线推断。在本文中,我们提出了一个双向流视频Denoisising(BSVD)框架,以实现具有过去和将来的暂时接收领域的流式传输视频的高保真实时DENOSISing。在线推理的双向时间融合被认为不适用于Movinet。但是,我们引入了一个新型的双向缓冲块作为我们BSVD的核心模块,这使我们在管道风格的推理过程中成为可能。此外,我们的方法简洁明了,可以在非盲和盲视频降解中使用。我们将模型与各种最先进的视频denoising模型在定性和定量上在合成和真实噪声上进行了比较。我们的方法在恢复保真度和运行时优于先前的方法。我们的源代码可在https://github.com/chenyangqiqi/bsvd上公开获得。
translated by 谷歌翻译
不同于单图像超分辨率(SISR)任务,视频超分辨率(VSR)任务的键是在帧中充分利用互补信息来重建高分辨率序列。由于来自不同帧的图像具有不同的运动和场景,因此精确地对准多个帧并有效地融合不同的帧,这始终是VSR任务的关键研究工作。为了利用邻近框架的丰富互补信息,在本文中,我们提出了一种多级VSR深度架构,称为PP-MSVSR,局部融合模块,辅助损耗和重新对准模块,以逐步改进增强率。具体地,为了加强特征传播中帧的特征的融合,在阶段-1中设计了局部融合模块,以在特征传播之前执行局部特征融合。此外,我们在阶段-2中引入辅助损耗,使得通过传播模块获得的特征储备更多相关的信息连接到HR空间,并在阶段-3中引入重新对准模块以充分利用该特征信息前一阶段。广泛的实验证实,PP-MSVSR实现了VID4数据集的有希望的性能,其实现了28.13dB的PSNR,仅具有1.45米的参数。并且PP-MSVSR-L具有相当大的参数的REDS4数据集上的所有状态。代码和模型将在Paddlegan \脚注{https://github.com/paddlepaddle/paddlegan。}。
translated by 谷歌翻译
在时空邻域中利用类似和更清晰的场景补丁对于视频去纹理至关重要。然而,基于CNN的方法显示了捕获远程依赖性和建模非本地自相相似性的限制。在本文中,我们提出了一种新颖的框架,流引导稀疏变压器(FGST),用于视频去掩模。在FGST中,我们定制自我关注模块,流动引导的基于稀疏窗口的多头自我关注(FGSW-MSA)。对于模糊参考帧上的每个$查询$元素,FGSW-MSA享有估计的光流向全局样本的指导,其空间稀疏但与相邻帧中相同的场景补丁对应的高度相关$键$元素。此外,我们介绍了一种反复嵌入(RE)机制,以从过去的框架转移信息并加强远程时间依赖性。综合实验表明,我们提出的FGST优于DVD和GoPro数据集的最先进的(SOTA)方法,甚至在真实视频去纹理中产生更多视觉上令人愉悦的结果。代码和型号将发布给公众。
translated by 谷歌翻译
时空视频超分辨率(ST-VSR)技术生成具有更高分辨率和较高帧速率的高质量视频。现有的高级方法通过空间和时间视频超分辨率(S-VSR和T-VSR)的关联来完成ST-VSR任务。这些方法需要在S-VSR和T-VSR中进行两个比对和融合,这显然是冗余的,并且无法充分探索连续的空间LR帧的信息流。尽管引入了双向学习(未来到档案和过去到现场)以涵盖所有输入框架,但最终预测的直接融合无法充分利用双向运动学习和空间信息的固有相关性,并从所有框架中进行空间信息。我们提出了一个有效但有效的经常性网络,该网络具有ST-VSR的双向相互作用,其中仅需要一个对齐和融合。具体而言,它首先从未来到过去执行向后推断,然后遵循向前推理到超溶解中间帧。向后和向前的推论被分配给学习结构和详细信息,以通过联合优化简化学习任务。此外,混合融合模块(HFM)旨在汇总和提炼信息以完善空间信息并重建高质量的视频帧。在两个公共数据集上进行的广泛实验表明,我们的方法在效率方面优于最先进的方法,并将计算成本降低约22%。
translated by 谷歌翻译
相邻帧的比对被认为是视频超分辨率(VSR)中的重要操作。高级VSR模型,包括最新的VSR变形金刚,通常配备精心设计的对齐模块。但是,自我注意机制的进步可能违反了这种常识。在本文中,我们重新考虑了对齐在VSR变压器中的作用,并进行了几种违反直觉的观察。我们的实验表明:(i)VSR变形金刚可以直接利用来自非对齐视频的多帧信息,并且(ii)现有的对齐方法有时对VSR变形金刚有害。这些观察结果表明,我们可以仅通过删除对齐模块并采用更大的注意力窗口来进一步提高VSR变压器的性能。然而,这样的设计将大大增加计算负担,无法处理大型动议。因此,我们提出了一种称为斑块对齐的新的,有效的对准方法,该方法将图像贴片而不是像素对齐。配备贴片对齐的VSR变形金刚可以在多个基准测试上证明最先进的性能。我们的工作提供了有关如何在VSR中使用多帧信息以及如何为不同网络/数据集选择对齐方法的宝贵见解。代码和模型将在https://github.com/xpixelgroup/rethinkvsralignment上发布。
translated by 谷歌翻译