视频通常将流和连续的视觉数据记录为离散的连续帧。由于存储成本对于高保真度的视频来说是昂贵的,因此大多数存储以相对较低的分辨率和帧速率存储。最新的时空视频超分辨率(STVSR)的工作是开发出来的,以将时间插值和空间超分辨率纳入统一框架。但是,其中大多数仅支持固定的上采样量表,这限制了其灵活性和应用。在这项工作中,我们没有遵循离散表示,我们提出了视频隐式神经表示(videoinr),并显示了其对STVSR的应用。学到的隐式神经表示可以解码为任意空间分辨率和帧速率的视频。我们表明,Videoinr在常见的上采样量表上使用最先进的STVSR方法实现了竞争性能,并且在连续和训练的分布量表上显着优于先前的作品。我们的项目页面位于http://zeyuan-chen.com/videoinr/。
translated by 谷歌翻译
时空视频超分辨率(STVSR)的目标是增加低分辨率(LR)和低帧速率(LFR)视频的空间分辨率。基于深度学习的最新方法已取得了重大改进,但是其中大多数仅使用两个相邻帧,即短期功能,可以合成缺失的框架嵌入,这无法完全探索连续输入LR帧的信息流。此外,现有的STVSR模型几乎无法明确利用时间上下文以帮助高分辨率(HR)框架重建。为了解决这些问题,在本文中,我们提出了一个称为STDAN的可变形注意网络。首先,我们设计了一个长短的术语特征插值(LSTFI)模块,该模块能够通过双向RNN结构从更相邻的输入帧中挖掘大量的内容,以进行插值。其次,我们提出了一个空间 - 周期性变形特征聚合(STDFA)模块,其中动态视频框架中的空间和时间上下文被自适应地捕获并汇总以增强SR重建。几个数据集的实验结果表明,我们的方法的表现优于最先进的STVSR方法。该代码可在https://github.com/littlewhitesea/stdan上找到。
translated by 谷歌翻译
Video restoration tasks, including super-resolution, deblurring, etc, are drawing increasing attention in the computer vision community. A challenging benchmark named REDS is released in the NTIRE19 Challenge. This new benchmark challenges existing methods from two aspects:(1) how to align multiple frames given large motions, and (2) how to effectively fuse different frames with diverse motion and blur. In this work, we propose a novel Video Restoration framework with Enhanced Deformable convolutions, termed EDVR, to address these challenges. First, to handle large motions, we devise a Pyramid, Cascading and Deformable (PCD) alignment module, in which frame alignment is done at the feature level using deformable convolutions in a coarse-to-fine manner. Second, we propose a Temporal and Spatial Attention (TSA) fusion module, in which attention is applied both temporally and spatially, so as to emphasize important features for subsequent restoration. Thanks to these modules, our EDVR wins the champions and outperforms the second place by a large margin in all four tracks in the NTIRE19 video restoration and enhancement challenges. EDVR also demonstrates superior performance to state-of-the-art published methods on video super-resolution and deblurring. The code is available at https://github.com/xinntao/EDVR.
translated by 谷歌翻译
视频框架合成由插值和外推组成,是一种必不可少的视频处理技术,可应用于各种情况。但是,大多数现有方法无法处理小物体或大型运动,尤其是在高分辨率视频(例如4K视频)中。为了消除此类局限性,我们引入了基于流动帧合成的邻居对应匹配(NCM)算法。由于当前的帧在视频框架合成中不可用,因此NCM以当前框架的方式进行,以在每个像素的空间型社区中建立多尺度对应关系。基于NCM的强大运动表示能力,我们进一步建议在异质的粗到细节方案中估算框架合成的中间流。具体而言,粗尺度模块旨在利用邻居的对应关系来捕获大型运动,而细尺度模块在计算上更有效地加快了估计过程。两个模块都经过逐步训练,以消除培训数据集和现实世界视频之间的分辨率差距。实验结果表明,NCM在多个基准测试中实现了最先进的性能。此外,NCM可以应用于各种实践场景,例如视频压缩,以实现更好的性能。
translated by 谷歌翻译
视频修复(例如,视频超分辨率)旨在从低品质框架中恢复高质量的帧。与单图像恢复不同,视频修复通常需要从多个相邻但通常未对准视频帧的时间信息。现有的深度方法通常通过利用滑动窗口策略或经常性体系结构来解决此问题,该策略要么受逐帧恢复的限制,要么缺乏远程建模能力。在本文中,我们提出了一个带有平行框架预测和远程时间依赖性建模能力的视频恢复变压器(VRT)。更具体地说,VRT由多个量表组成,每个量表由两种模块组成:时间相互注意(TMSA)和平行翘曲。 TMSA将视频分为小剪辑,将相互关注用于关节运动估计,特征对齐和特征融合,而自我注意力则用于特征提取。为了启用交叉交互,视频序列对其他每一层都发生了变化。此外,通过并行功能翘曲,并行翘曲用于进一步从相邻帧中融合信息。有关五项任务的实验结果,包括视频超分辨率,视频脱张,视频denoising,视频框架插值和时空视频超级分辨率,证明VRT优于大幅度的最先进方法($ \ textbf) {最高2.16db} $)在十四个基准数据集上。
translated by 谷歌翻译
时空视频超分辨率(STVSR)的目标是提高帧速率(也称为时间分辨率)和给定视频的空间分辨率。最近的方法通过端到端的深神经网络解决了STVSR。一个流行的解决方案是首先提高视频的帧速率;然后在不同的框架功能之间执行特征改进;最后增加了这些功能的空间分辨率。在此过程中,仔细利用了不同帧的特征之间的时间相关性。然而,尚未强调不同(空间)分辨率的特征之间的空间相关性。在本文中,我们提出了一个时空特征交互网络,以通过在不同框架和空间分辨率的特征之间利用空间和时间相关来增强STVSR。具体而言,引入了空间 - 周期框架插值模块,以同时和互动性地插值低分辨率和高分辨率的中间框架特征。后来分别部署了空间 - 周期性的本地和全局细化模块,以利用不同特征之间的空间 - 周期相关性进行细化。最后,采用了新的运动一致性损失来增强重建帧之间的运动连续性。我们对三个标准基准测试,即VID4,Vimeo-90K和Adobe240进行实验,结果表明,我们的方法可以通过相当大的余量提高了最先进的方法。我们的代码将在https://github.com/yuezijie/stinet-pace time-video-super-resolution上找到。
translated by 谷歌翻译
How to represent an image? While the visual world is presented in a continuous manner, machines store and see the images in a discrete way with 2D arrays of pixels. In this paper, we seek to learn a continuous representation for images. Inspired by the recent progress in 3D reconstruction with implicit neural representation, we propose Local Implicit Image Function (LIIF), which takes an image coordinate and the 2D deep features around the coordinate as inputs, predicts the RGB value at a given coordinate as an output. Since the coordinates are continuous, LIIF can be presented in arbitrary resolution. To generate the continuous representation for images, we train an encoder with LIIF representation via a self-supervised task with superresolution. The learned continuous representation can be presented in arbitrary resolution even extrapolate to ×30 higher resolution, where the training tasks are not provided. We further show that LIIF representation builds a bridge between discrete and continuous representation in 2D, it naturally supports the learning tasks with size-varied image ground-truths and significantly outperforms the method with resizing the ground-truths. Our project page with code is at https://yinboc.github.io/liif/.
translated by 谷歌翻译
时空视频超分辨率(STVSR)旨在从相应的低帧速率,低分辨率视频序列构建高空时间分辨率视频序列。灵感来自最近的成功,考虑空间时间超级分辨率的空间信息,我们在这项工作中的主要目标是在快速动态事件的视频序列中充分考虑空间和时间相关性。为此,我们提出了一种新颖的单级内存增强图注意网络(Megan),用于时空视频超分辨率。具体地,我们构建新颖的远程存储图聚合(LMGA)模块,以沿着特征映射的信道尺寸动态捕获相关性,并自适应地聚合信道特征以增强特征表示。我们介绍了一个非本地剩余块,其使每个通道明智的功能能够参加全局空间分层特征。此外,我们采用渐进式融合模块通过广泛利用来自多个帧的空间 - 时间相关性来进一步提高表示能力。实验结果表明,我们的方法与定量和视觉上的最先进的方法相比,实现了更好的结果。
translated by 谷歌翻译
时空视频超分辨率(ST-VSR)技术生成具有更高分辨率和较高帧速率的高质量视频。现有的高级方法通过空间和时间视频超分辨率(S-VSR和T-VSR)的关联来完成ST-VSR任务。这些方法需要在S-VSR和T-VSR中进行两个比对和融合,这显然是冗余的,并且无法充分探索连续的空间LR帧的信息流。尽管引入了双向学习(未来到档案和过去到现场)以涵盖所有输入框架,但最终预测的直接融合无法充分利用双向运动学习和空间信息的固有相关性,并从所有框架中进行空间信息。我们提出了一个有效但有效的经常性网络,该网络具有ST-VSR的双向相互作用,其中仅需要一个对齐和融合。具体而言,它首先从未来到过去执行向后推断,然后遵循向前推理到超溶解中间帧。向后和向前的推论被分配给学习结构和详细信息,以通过联合优化简化学习任务。此外,混合融合模块(HFM)旨在汇总和提炼信息以完善空间信息并重建高质量的视频帧。在两个公共数据集上进行的广泛实验表明,我们的方法在效率方面优于最先进的方法,并将计算成本降低约22%。
translated by 谷歌翻译
在本文中,我们研究了实用的时空视频超分辨率(STVSR)问题,该问题旨在从低型低分辨率的低分辨率模糊视频中生成高富含高分辨率的夏普视频。当使用低填充和低分辨率摄像头记录快速动态事件时,通常会发生这种问题,而被捕获的视频将遭受三个典型问题:i)运动模糊发生是由于曝光时间内的对象/摄像机运动而发生的; ii)当事件时间频率超过时间采样的奈奎斯特极限时,运动异叠是不可避免的; iii)由于空间采样率低,因此丢失了高频细节。这些问题可以通过三个单独的子任务的级联来缓解,包括视频脱张,框架插值和超分辨率,但是,这些问题将无法捕获视频序列之间的空间和时间相关性。为了解决这个问题,我们通过利用基于模型的方法和基于学习的方法来提出一个可解释的STVSR框架。具体而言,我们将STVSR作为联合视频脱张,框架插值和超分辨率问题,并以另一种方式将其作为两个子问题解决。对于第一个子问题,我们得出了可解释的分析解决方案,并将其用作傅立叶数据变换层。然后,我们为第二个子问题提出了一个反复的视频增强层,以进一步恢复高频细节。广泛的实验证明了我们方法在定量指标和视觉质量方面的优势。
translated by 谷歌翻译
Many video enhancement algorithms rely on optical flow to register frames in a video sequence. Precise flow estimation is however intractable; and optical flow itself is often a sub-optimal representation for particular video processing tasks. In this paper, we propose task-oriented flow (TOFlow), a motion representation learned in a selfsupervised, task-specific manner. We design a neural network with a trainable motion estimation component and a video processing component, and train them jointly to learn the task-oriented flow. For evaluation, we build Vimeo-90K, a large-scale, high-quality video dataset for low-level video processing. TOFlow outperforms traditional optical flow on standard benchmarks as well as our Vimeo-90K dataset in three video processing tasks: frame interpolation, video denoising/deblocking, and video super-resolution. IntroductionMotion estimation is a key component in video processing tasks such as temporal frame interpolation, video denoising,
translated by 谷歌翻译
We address the problem of synthesizing new video frames in an existing video, either in-between existing frames (interpolation), or subsequent to them (extrapolation). This problem is challenging because video appearance and motion can be highly complex. Traditional optical-flow-based solutions often fail where flow estimation is challenging, while newer neural-network-based methods that hallucinate pixel values directly often produce blurry results. We combine the advantages of these two methods by training a deep network that learns to synthesize video frames by flowing pixel values from existing ones, which we call deep voxel flow. Our method requires no human supervision, and any video can be used as training data by dropping, and then learning to predict, existing frames. The technique is efficient, and can be applied at any video resolution. We demonstrate that our method produces results that both quantitatively and qualitatively improve upon the state-ofthe-art.
translated by 谷歌翻译
远程时间对齐至关重要,但对视频恢复任务有挑战性。最近,一些作品试图将远程对齐分成几个子对齐并逐步处理它们。虽然该操作有助于建模遥控对应关系,但由于传播机制,误差累积是不可避免的。在这项工作中,我们提出了一种新颖的通用迭代对准模块,其采用逐渐改进方案进行子对准,产生更准确的运动补偿。为了进一步提高对准精度和时间一致性,我们开发了一种非参数重新加权方法,其中每个相邻帧的重要性以用于聚合的空间方式自适应地评估。凭借拟议的策略,我们的模型在一系列视频恢复任务中实现了多个基准测试的最先进的性能,包括视频超分辨率,去噪和去束性。我们的项目可用于\ url {https:/github.com/redrock303/revisiting-temporal-alignment-for-video-Restion.git}。
translated by 谷歌翻译
Video super-resolution (VSR) aiming to reconstruct a high-resolution (HR) video from its low-resolution (LR) counterpart has made tremendous progress in recent years. However, it remains challenging to deploy existing VSR methods to real-world data with complex degradations. On the one hand, there are few well-aligned real-world VSR datasets, especially with large super-resolution scale factors, which limits the development of real-world VSR tasks. On the other hand, alignment algorithms in existing VSR methods perform poorly for real-world videos, leading to unsatisfactory results. As an attempt to address the aforementioned issues, we build a real-world 4 VSR dataset, namely MVSR4$\times$, where low- and high-resolution videos are captured with different focal length lenses of a smartphone, respectively. Moreover, we propose an effective alignment method for real-world VSR, namely EAVSR. EAVSR takes the proposed multi-layer adaptive spatial transform network (MultiAdaSTN) to refine the offsets provided by the pre-trained optical flow estimation network. Experimental results on RealVSR and MVSR4$\times$ datasets show the effectiveness and practicality of our method, and we achieve state-of-the-art performance in real-world VSR task. The dataset and code will be publicly available.
translated by 谷歌翻译
我们提出了一种称为基于DNN的基于DNN的框架,称为基于增强的相关匹配的视频帧插值网络,以支持4K的高分辨率,其具有大规模的运动和遮挡。考虑到根据分辨率的网络模型的可扩展性,所提出的方案采用经常性金字塔架构,该架构分享每个金字塔层之间的参数进行光学流量估计。在所提出的流程估计中,通过追踪具有最大相关性的位置来递归地改进光学流。基于前扭曲的相关匹配可以通过排除遮挡区域周围的错误扭曲特征来提高流量更新的准确性。基于最终双向流动,使用翘曲和混合网络合成任意时间位置的中间帧,通过细化网络进一步改善。实验结果表明,所提出的方案在4K视频数据和低分辨率基准数据集中占据了之前的工作,以及具有最小型号参数的客观和主观质量。
translated by 谷歌翻译
相邻帧的比对被认为是视频超分辨率(VSR)中的重要操作。高级VSR模型,包括最新的VSR变形金刚,通常配备精心设计的对齐模块。但是,自我注意机制的进步可能违反了这种常识。在本文中,我们重新考虑了对齐在VSR变压器中的作用,并进行了几种违反直觉的观察。我们的实验表明:(i)VSR变形金刚可以直接利用来自非对齐视频的多帧信息,并且(ii)现有的对齐方法有时对VSR变形金刚有害。这些观察结果表明,我们可以仅通过删除对齐模块并采用更大的注意力窗口来进一步提高VSR变压器的性能。然而,这样的设计将大大增加计算负担,无法处理大型动议。因此,我们提出了一种称为斑块对齐的新的,有效的对准方法,该方法将图像贴片而不是像素对齐。配备贴片对齐的VSR变形金刚可以在多个基准测试上证明最先进的性能。我们的工作提供了有关如何在VSR中使用多帧信息以及如何为不同网络/数据集选择对齐方法的宝贵见解。代码和模型将在https://github.com/xpixelgroup/rethinkvsralignment上发布。
translated by 谷歌翻译
translated by 谷歌翻译
视频框架插值(VFI)旨在合成两个连续帧之间的中间框架。最先进的方法通常采用两步解决方案,其中包括1)通过基于流动的运动估计来生成本地光线的像素,2)将扭曲的像素混合以通过深神经合成网络形成全帧。但是,由于两个连续的帧不一致,新帧的扭曲功能通常不会对齐,这会导致扭曲和模糊的帧,尤其是在发生大型和复杂的运动时。为了解决这个问题,在本文中,我们提出了一种新颖的视频框架插值变压器(TTVFI)。特别是,我们以不一致的动作为查询令牌制定了扭曲的特征,并将运动轨迹中的相关区域从两个原始的连续帧中提出到键和值。在沿轨迹的相关令牌上学习了自我注意力,以通过端到端训练将原始特征融合到中间框架中。实验结果表明,我们的方法在四个广泛使用的VFI基准中优于其他最先进的方法。代码和预培训模型都将很快发布。
translated by 谷歌翻译
压缩视频超分辨率(VSR)旨在从压缩的低分辨率对应物中恢复高分辨率帧。最近的VSR方法通常通过借用相邻视频帧的相关纹理来增强输入框架。尽管已经取得了一些进展,但是从压缩视频中有效提取和转移高质量纹理的巨大挑战,这些视频通常会高度退化。在本文中,我们提出了一种用于压缩视频超分辨率(FTVSR)的新型频率转换器,该频率在联合时空频域中进行自我注意。首先,我们将视频框架分为斑块,然后将每个贴片转换为DCT光谱图,每个通道代表频带。这样的设计使每个频带都可以进行细粒度的自我注意力,因此可以将真实的视觉纹理与伪影区分开,并进一步用于视频框架修复。其次,我们研究了不同的自我发场方案,并发现在对每个频带上应用暂时关注之前,会引起关节空间的注意力,从而带来最佳的视频增强质量。两个广泛使用的视频超分辨率基准的实验结果表明,FTVSR在未压缩和压缩视频的最先进的方法中都具有清晰的视觉边距。代码可在https://github.com/researchmm/ftvsr上找到。
translated by 谷歌翻译
最近,与常规像素的隐性表示相比,视频的图像隐式神经表示,其有希望的结果和迅速的速度因其有希望的结果和迅速的速度而受欢迎。但是,网络结构内的冗余参数在扩大理想性能时会导致大型模型大小。这种现象的关键原因是神经的耦合公式,该公式直接从框架索引输入中输出视频帧的空间和时间信息。在本文中,我们提出了E-NERV,它通过将图像的隐式神经代表分解为单独的空间和时间上下文来显着加快神经的速度。在这种新公式的指导下,我们的模型大大降低了冗余模型参数,同时保留表示能力。我们从实验上发现,我们的方法可以通过更少的参数改善性能,从而使收敛的速度更快地提高了$ 8 \ times $。代码可在https://github.com/kyleleey/e-nerv上找到。
translated by 谷歌翻译