视频帧插值(VFI)目前是一个非常活跃的研究主题,具有跨越计算机视觉,后期生产和视频编码的应用程序。 VFI可能非常具有挑战性,特别是在含有大型运动,闭塞或动态纹理的序列中,现有方法未能提供感知鲁棒的插值性能。在这种情况下,我们基于时空多流量架构介绍了一种基于深度学习的VFI方法ST-MFNET。 ST-MFNET采用新的多尺度多流量预测器来估计多对一的中间流动,它们与传统的一对一光流组合以捕获大型和复杂的运动。为了增强各种纹理的插值性能,还用于在扩展时间窗口上模拟内容动态的3D CNN。此外,ST-MFNET已经在ST-GaN框架内培训,该框架最初是为纹理合成而开发的,目的是进一步提高感知插值质量。我们的方法已被全面评估 - 与十四个最先进的VFI算法相比 - 清楚地展示了ST-MFNET在各种和代表性测试数据集上始终如一地优于这些基准,在PSNR中具有显着的收益,用于案件在PSNR中高达1.09dB包括大型运动和动态纹理。项目页面:https://danielism97.github.io/st-mfnet。
translated by 谷歌翻译
视频框架插值(VFI)旨在通过从双向历史参考文献中扭曲可学习的动作来产生预测帧。大多数现有的作品都利用时空语义信息提取器来实现运动估计和插值建模,考虑到产生的中间运动的实际机械合理性,没有足够的考虑。在本文中,我们将VFI重新制定为多变量的非线性(MNL)回归问题,并提出了联合非线性运动回归(JNMR)策略来模拟框架间的复杂运动。为了建立MNL回归,采用ConvlSTM来构建时间维度的完整运动的分布。目标框架和多个参考帧之间的运动相关性可以通过建模的分布进行回归。此外,功能学习网络旨在为MNL回归建模进行优化。进一步进行了一个粗到精细的合成增强模块,以通过重复回归和插值来学习不同分辨率的视觉动力学。框架插值上的高度竞争性实验结果表明,与最先进的性能相比,有效性和显着提高,以及复杂运动估计的鲁棒性通过MNL运动回归提高。
translated by 谷歌翻译
我们提出了一种称为基于DNN的基于DNN的框架,称为基于增强的相关匹配的视频帧插值网络,以支持4K的高分辨率,其具有大规模的运动和遮挡。考虑到根据分辨率的网络模型的可扩展性,所提出的方案采用经常性金字塔架构,该架构分享每个金字塔层之间的参数进行光学流量估计。在所提出的流程估计中,通过追踪具有最大相关性的位置来递归地改进光学流。基于前扭曲的相关匹配可以通过排除遮挡区域周围的错误扭曲特征来提高流量更新的准确性。基于最终双向流动,使用翘曲和混合网络合成任意时间位置的中间帧,通过细化网络进一步改善。实验结果表明,所提出的方案在4K视频数据和低分辨率基准数据集中占据了之前的工作,以及具有最小型号参数的客观和主观质量。
translated by 谷歌翻译
我们为基于运动的视频框架插值提供了一种新颖的简单而有效的算法。现有的基于运动的插值方法通常依赖于预先训练的光流模型或基于U-NET的金字塔网络进行运动估计,该运动估计要么具有较大的模型大小或有限的处理复合物和大型运动案例的容量。在这项工作中,通过仔细整合了中间方向的前射击,轻质特征编码器和相关量为金字塔复发框架,我们得出一个紧凑的模型,以同时估计输入帧之间的双向运动。它的尺寸比PWC-NET小15倍,但可以更可靠,更灵活地处理具有挑战性的运动案例。基于估计的双向运动,我们向前射击输入帧及其上下文特征到中间帧,并采用合成网络来估算扭曲表示的中间帧。我们的方法在广泛的视频框架插值基准测试中实现了出色的性能。代码将很快可用。
translated by 谷歌翻译
在本文中,我们提出了一个生成的对抗网络(GAN)框架,以增强压缩视频的感知质量。我们的框架包括单个模型中对不同量化参数(QP)的注意和适应。注意模块利用了可以捕获和对齐连续框架之间的远程相关性的全球接收场,这可能有益于提高视频感知质量。要增强的框架与其相邻的框架一起馈入深网,并在第一阶段的特征中提取不同深度的特征。然后提取的特征被馈入注意力块以探索全局的时间相关性,然后进行一系列上采样和卷积层。最后,通过利用相应的QP信息的QP条件适应模块处理所得的功能。这样,单个模型可用于增强对各种QP的适应性,而无需针对每个QP值的多个模型,同时具有相似的性能。实验结果表明,与最先进的压缩视频质量增强算法相比,所提出的PEQUENET的表现出色。
translated by 谷歌翻译
Flow-guide synthesis provides a common framework for frame interpolation, where optical flow is typically estimated by a pyramid network, and then leveraged to guide a synthesis network to generate intermediate frames between input frames. In this paper, we present UPR-Net, a novel Unified Pyramid Recurrent Network for frame interpolation. Cast in a flexible pyramid framework, UPR-Net exploits lightweight recurrent modules for both bi-directional flow estimation and intermediate frame synthesis. At each pyramid level, it leverages estimated bi-directional flow to generate forward-warped representations for frame synthesis; across pyramid levels, it enables iterative refinement for both optical flow and intermediate frame. In particular, we show that our iterative synthesis can significantly improve the robustness of frame interpolation on large motion cases. Despite being extremely lightweight (1.7M parameters), UPR-Net achieves excellent performance on a large range of benchmarks. Code will be available soon.
translated by 谷歌翻译
我们提出了一种框架插值算法,该算法从两个输入图像中综合了具有大型内部运动的两个输入图像。最近的方法使用多个网络来估计光流或深度以及专用于框架合成的单独网络。这通常是复杂的,需要稀缺的光流或深度地面真相。在这项工作中,我们提出了一个单一的统一网络,该网络以多尺度的特征提取器为特色,该特征提取器在各个尺度上共享权重,并且可以单独从框架中训练。为了综合酥脆和令人愉悦的框架,我们建议使用革兰氏矩阵损失来优化我们的网络,从而衡量特征地图之间的相关差异。我们的方法优于XIPH大型运动基准的最先进方法。与使用感知损失的方法相比,我们还可以在Vimeo-90K,Middlebury和UCF101上获得更高的分数。我们研究了体重共享和培训的效果,该数据集的运动范围不断增加。最后,我们证明了模型在综合高质量和临时连贯的视频中的有效性,该视频在具有挑战性的近乎修复的照片数据集中。代码和预训练模型可在https://film-net.github.io上找到。
translated by 谷歌翻译
视频框架插值(VFI)旨在合成两个连续帧之间的中间框架。最先进的方法通常采用两步解决方案,其中包括1)通过基于流动的运动估计来生成本地光线的像素,2)将扭曲的像素混合以通过深神经合成网络形成全帧。但是,由于两个连续的帧不一致,新帧的扭曲功能通常不会对齐,这会导致扭曲和模糊的帧,尤其是在发生大型和复杂的运动时。为了解决这个问题,在本文中,我们提出了一种新颖的视频框架插值变压器(TTVFI)。特别是,我们以不一致的动作为查询令牌制定了扭曲的特征,并将运动轨迹中的相关区域从两个原始的连续帧中提出到键和值。在沿轨迹的相关令牌上学习了自我注意力,以通过端到端训练将原始特征融合到中间框架中。实验结果表明,我们的方法在四个广泛使用的VFI基准中优于其他最先进的方法。代码和预培训模型都将很快发布。
translated by 谷歌翻译
我们提出了一种用于视频帧插值(VFI)的实时中流估计算法。许多最近的基于流的VFI方法首先估计双向光学流,然后缩放并将它们倒转到近似中间流动,导致运动边界上的伪像。RIFE使用名为IFNET的神经网络,可以直接估计中间流量从粗细流,速度更好。我们设计了一种用于训练中间流动模型的特权蒸馏方案,这导致了大的性能改善。Rife不依赖于预先训练的光流模型,可以支持任意时间的帧插值。实验表明,普里埃雷在若干公共基准上实现了最先进的表现。\ url {https://github.com/hzwer/arxiv2020-rife}。
translated by 谷歌翻译
We address the problem of synthesizing new video frames in an existing video, either in-between existing frames (interpolation), or subsequent to them (extrapolation). This problem is challenging because video appearance and motion can be highly complex. Traditional optical-flow-based solutions often fail where flow estimation is challenging, while newer neural-network-based methods that hallucinate pixel values directly often produce blurry results. We combine the advantages of these two methods by training a deep network that learns to synthesize video frames by flowing pixel values from existing ones, which we call deep voxel flow. Our method requires no human supervision, and any video can be used as training data by dropping, and then learning to predict, existing frames. The technique is efficient, and can be applied at any video resolution. We demonstrate that our method produces results that both quantitatively and qualitatively improve upon the state-ofthe-art.
translated by 谷歌翻译
视频框架合成由插值和外推组成,是一种必不可少的视频处理技术,可应用于各种情况。但是,大多数现有方法无法处理小物体或大型运动,尤其是在高分辨率视频(例如4K视频)中。为了消除此类局限性,我们引入了基于流动帧合成的邻居对应匹配(NCM)算法。由于当前的帧在视频框架合成中不可用,因此NCM以当前框架的方式进行,以在每个像素的空间型社区中建立多尺度对应关系。基于NCM的强大运动表示能力,我们进一步建议在异质的粗到细节方案中估算框架合成的中间流。具体而言,粗尺度模块旨在利用邻居的对应关系来捕获大型运动,而细尺度模块在计算上更有效地加快了估计过程。两个模块都经过逐步训练,以消除培训数据集和现实世界视频之间的分辨率差距。实验结果表明,NCM在多个基准测试中实现了最先进的性能。此外,NCM可以应用于各种实践场景,例如视频压缩,以实现更好的性能。
translated by 谷歌翻译
translated by 谷歌翻译
时空视频超分辨率(STVSR)的目标是提高帧速率(也称为时间分辨率)和给定视频的空间分辨率。最近的方法通过端到端的深神经网络解决了STVSR。一个流行的解决方案是首先提高视频的帧速率;然后在不同的框架功能之间执行特征改进;最后增加了这些功能的空间分辨率。在此过程中,仔细利用了不同帧的特征之间的时间相关性。然而,尚未强调不同(空间)分辨率的特征之间的空间相关性。在本文中,我们提出了一个时空特征交互网络,以通过在不同框架和空间分辨率的特征之间利用空间和时间相关来增强STVSR。具体而言,引入了空间 - 周期框架插值模块,以同时和互动性地插值低分辨率和高分辨率的中间框架特征。后来分别部署了空间 - 周期性的本地和全局细化模块,以利用不同特征之间的空间 - 周期相关性进行细化。最后,采用了新的运动一致性损失来增强重建帧之间的运动连续性。我们对三个标准基准测试,即VID4,Vimeo-90K和Adobe240进行实验,结果表明,我们的方法可以通过相当大的余量提高了最先进的方法。我们的代码将在https://github.com/yuezijie/stinet-pace time-video-super-resolution上找到。
translated by 谷歌翻译
视频通常将流和连续的视觉数据记录为离散的连续帧。由于存储成本对于高保真度的视频来说是昂贵的,因此大多数存储以相对较低的分辨率和帧速率存储。最新的时空视频超分辨率(STVSR)的工作是开发出来的,以将时间插值和空间超分辨率纳入统一框架。但是,其中大多数仅支持固定的上采样量表,这限制了其灵活性和应用。在这项工作中,我们没有遵循离散表示,我们提出了视频隐式神经表示(videoinr),并显示了其对STVSR的应用。学到的隐式神经表示可以解码为任意空间分辨率和帧速率的视频。我们表明,Videoinr在常见的上采样量表上使用最先进的STVSR方法实现了竞争性能,并且在连续和训练的分布量表上显着优于先前的作品。我们的项目页面位于http://zeyuan-chen.com/videoinr/。
translated by 谷歌翻译
基于DNN的框架插值从两个连续的帧中生成中间帧,通常取决于具有大量功能的模型体系结构,从而阻止其在具有有限资源的系统(例如移动设备)上部署。我们提出了一种用于框架插值的压缩驱动的网络设计,该设计通过稀疏性诱导优化来利用模型,以大大降低模型大小,同时达到更高的性能。具体而言,我们首先压缩了最近提出的ADACOF模型,并证明了10次压缩ADACOF的性能类似于其原始对应物,在各种超参数设置下,对使用layerwise稀疏信息作为指导的不同策略进行了全面研究。然后,我们通过引入一个多分辨率翘曲模块来增强这种压缩模型,从而提高了视觉一致性,并通过多层次的细节来提高视觉一致性。结果,我们通过原始AdaCof的四分之一获得了可观的性能增长。此外,我们的模型在各种数据集上对其他最先进的方法都表现出色。我们注意到,建议的压缩驱动框​​架是通用的,可以轻松地传输到其他基于DNN的框架插值算法中。源代码可在https://github.com/tding1/cdfi上获得。
translated by 谷歌翻译
Given two consecutive frames, video interpolation aims at generating intermediate frame(s) to form both spatially and temporally coherent video sequences. While most existing methods focus on single-frame interpolation, we propose an end-to-end convolutional neural network for variable-length multi-frame video interpolation, where the motion interpretation and occlusion reasoning are jointly modeled. We start by computing bi-directional optical flow between the input images using a U-Net architecture. These flows are then linearly combined at each time step to approximate the intermediate bi-directional optical flows. These approximate flows, however, only work well in locally smooth regions and produce artifacts around motion boundaries. To address this shortcoming, we employ another U-Net to refine the approximated flow and also predict soft visibility maps. Finally, the two input images are warped and linearly fused to form each intermediate frame. By applying the visibility maps to the warped images before fusion, we exclude the contribution of occluded pixels to the interpolated intermediate frame to avoid artifacts. Since none of our learned network parameters are time-dependent, our approach is able to produce as many intermediate frames as needed. To train our network, we use 1,132 240-fps video clips, containing 300K individual video frames. Experimental results on several datasets, predicting different numbers of interpolated frames, demonstrate that our approach performs consistently better than existing methods.
translated by 谷歌翻译
在本文中,我们提出了一种新颖的联合去钻头和多帧插值(DEMFI)框架,称为DEMFI-NET,该网球被准确地将较低帧速率的模糊视频以基于流动引导的更高帧速率转换为尖锐的视频基于关提性的相关性的特征借助于多帧插值(MFI)的借助于基于相关的特征Bolstering(FAC-FB)模块和递归升压(RB)。 DEMFI-NET联合执行DeBlurring和MFI,其中其基线版本执行与FAC-FB模块的基于特征流的翘曲,以获得尖锐插值的帧,也可以解置两个中心输入帧。此外,其扩展版本进一步提高了基于基于像素的RB的像素流的翘曲的联合任务性能。我们的FAC-FB模块在特征域中的模糊输入帧中有效地聚集了分布式模糊像素信息,以改善整体关节性能,这是计算上有效的,因为其细心的相关性仅聚焦。结果,与最近的SOTA方法相比,我们的DEMFI-Net实现了最先进的数据集,用于近期SOTA方法,用于脱孔和MFI。所有源代码包括预押德福网在https://github.com/jihyongoh/demfi上公开提供。
translated by 谷歌翻译
Standard video frame interpolation methods first estimate optical flow between input frames and then synthesize an intermediate frame guided by motion. Recent ap-proaches merge these two steps into a single convolution process by convolving input frames with spatially adaptive kernels that account for motion and re-sampling simultaneously. These methods require large kernels to handle large motion, which limits the number of pixels whose kernels can be estimated at once due to the large memory demand. To address this problem, this paper formulates frame interpolation as local separable convolution over input frames using pairs of 1D kernels. Compared to regular 2D kernels, the 1D kernels require significantly fewer parameters to be estimated. Our method develops a deep fully convolutional neural network that takes two input frames and estimates pairs of 1D kernels for all pixels simultaneously. Since our method is able to estimate kernels and synthesizes the whole video frame at once, it allows for the incorporation of perceptual loss to train the neural network to produce visually pleasing frames. This deep neural network is trained end-to-end using widely available video data without any human annotation. Both qualitative and quantitative experiments show that our method provides a practical solution to high-quality video frame interpolation.
translated by 谷歌翻译
视频框架插值是一项经典且具有挑战性的低级计算机视觉任务。最近,基于深度学习的方法取得了令人印象深刻的结果,并且已证明基于光流的方法可以合成具有更高质量的帧。但是,大多数基于流动的方法都假设两个输入帧之间具有恒定速度的线轨迹。只有一点点工作可以使用曲线轨迹执行预测,但这需要两个以上的框架作为输入来估计加速度,这需要更多的时间和内存才能执行。为了解决这个问题,我们提出了一个基于ARC轨迹的模型(ATCA),该模型仅从连续两个帧中就可以在前学习运动,而且轻量级。实验表明,我们的方法的性能要比许多参数较少且推理速度更快的SOTA方法更好。
translated by 谷歌翻译
本文提出了一种新颖的视频介绍方法。我们做出了三个主要贡献:首先,我们通过引入基于贴片的同型(DEPTH)扩展了以前的变压器,以补丁的对齐方式扩展了贴片对齐,该均值(DEPTH)改善了补丁级的功能对齐,而没有其他有各种变形的监督和受益的挑战场景。其次,我们引入了基于面膜修剪的贴片注意力(MPPA),以通过修剪较少的基本功能和使用显着性图来改善贴合的功能匹配。MPPA用无效的像素增强了扭曲令牌之间的匹配精度。第三,我们引入了空间加权适配器(STA)模块,以在从深度中学到的变形因子的指导下,准确地关注空间代币,尤其是对于具有敏捷运动的视频。实验结果表明,我们的方法在定性和定量上优于最新方法,并实现了新的最新方法。
translated by 谷歌翻译