将基于深学习视频编码已经吸引了大量的关注它的巨大潜力排挤视频序列的时空冗余。本文提出了一种高效的编解码器,即双路径生成对抗性的基于网络的视频编解码器(DGVC)。首先,我们提出了一个双通道的增强与生成对抗网络(DPEG)重建压缩视频的详细信息。所述DPEG由一个$ \阿尔法$自动编码器和卷积长短期记忆(ConvLSTM),它具有大的感受域和多帧的引用,和$ \测试$利于结构特征重构的-path - 残余关注块的路径,这有利于局部纹理特征的重建。两条路径融合,并通过生成对抗性的流程协同训练。其次,我们重用两个运动补偿和质量增强模块,这是与运动估计进一步结合DPEG网络,并在我们的DGVC框架熵编码模块。第三,我们采用深视频压缩和提高了联合训练,进一步提高率失真(RD)性能。与X265 LDP非常快的方式相比,我们的DGVC由39.39%/ 54.92%在相同的PSNR / MS-SSIM,其通过一个胜过国家的本领域深视频编解码器降低平均比特每像素(BPP)相当幅度。
translated by 谷歌翻译
Conventional video compression approaches use the predictive coding architecture and encode the corresponding motion information and residual information. In this paper, taking advantage of both classical architecture in the conventional video compression method and the powerful nonlinear representation ability of neural networks, we propose the first end-to-end video compression deep model that jointly optimizes all the components for video compression. Specifically, learning based optical flow estimation is utilized to obtain the motion information and reconstruct the current frames. Then we employ two auto-encoder style neural networks to compress the corresponding motion and residual information. All the modules are jointly learned through a single loss function, in which they collaborate with each other by considering the trade-off between reducing the number of compression bits and improving quality of the decoded video. Experimental results show that the proposed approach can outperform the widely used video coding standard H.264 in terms of PSNR and be even on par with the latest standard H.265 in terms of MS-SSIM. Code is released at https://github.com/GuoLusjtu/DVC. * Corresponding author (a) Original frame (Bpp/MS-SSIM) (b) H.264 (0.0540Bpp/0.945) (c) H.265 (0.082Bpp/0.960) (d) Ours ( 0.0529Bpp/ 0.961
translated by 谷歌翻译
学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题,其中运动补偿被认为是最具挑战性的问题之一。在本文中,我们通过异质变形补偿策略(HDCVC)提出了一个学识渊博的视频压缩框架,以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说,所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形(Hetdeform)内核偏移量,而不是利用光流或单尺内核变形对齐。然后,我们将参考特征转换为HetDeform卷积以完成运动补偿。此外,我们设计了一个空间 - 邻化的分裂归一化(SNCDN),以实现更有效的数据高斯化结合了广义分裂的归一化。此外,我们提出了一个多框架增强的重建模块,用于利用上下文和时间信息以提高质量。实验结果表明,HDCVC比最近最新学习的视频压缩方法取得了优越的性能。
translated by 谷歌翻译
传统的视频压缩(VC)方法基于运动补偿变换编码,并且由于端到端优化问题的组合性质,运动估计,模式和量化参数选择的步骤和熵编码是单独优化的。学习VC允许同时对端到端速率失真(R-D)优化非线性变换,运动和熵模型的优化训练。大多数工作都在学习VC基于R-D损耗对连续帧的对考虑连续视频编解码器的端到端优化。它在传统的VC中众所周知的是,双向编码优于顺序压缩,因为它能够使用过去和未来的参考帧。本文提出了一种学习的分层双向视频编解码器(LHBDC),其结合了分层运动补偿预测和端到端优化的益处。实验结果表明,我们达到了迄今为​​止在PSNR和MS-SSIM中的学习VC方案报告的最佳R-D结果。与传统的视频编解码器相比,我们的端到端优化编解码器的RD性能优于PSNR和MS-SSIM中的X265和SVT-HEVC编码器(“非常流”预设)以及MS-中的HM 16.23参考软件。 SSIM。我们提出了由于所提出的新颖工具,例如学习屏蔽,流场附带和时间流量矢量预测等新颖工具,展示了表现出性能提升。重现我们结果的模型和说明可以在https://github.com/makinyilmaz/lhbdc/中找到
translated by 谷歌翻译
本文为我们最近在端到端优化的层次阶段性视频压缩方面提供了改进和新颖的补充,以进一步推进学到的视频压缩中的最新时间。作为改进,我们将运动估计和预测模块结合在一起,并压缩精制的残留运动向量,以提高速率延伸性能。作为新颖的添加,我们将提出的图像压缩的增益单元改编为柔性率视频压缩以两种方式:首先,增益单元使单个编码器模型能够以多速度距离操作点运行;其次,我们利用增益单元来控制内部编码与双向编码框架之间的位分配,通过微调相应的模型,用于真正的灵活率学习的视频编码。实验结果表明,我们获得的最先进的利率延伸性能超过了学到的视频编码中所有先前艺术的效果。
translated by 谷歌翻译
我们地址结束学习视频压缩,特别关注更好地学习和利用时间上下文。对于时间上下文挖掘,我们建议不仅存储先前重建的帧,还可以存储到广义解码图像缓冲器中的传播功能。从存储的传播功能中,我们建议学习多尺度的时间上下文,并将学习的时间上下文重新填充到压缩方案的模块中,包括上下文编码器 - 解码器,帧生成器和时间上下文编码器。我们的计划丢弃了并行化 - 不友好的自动回归熵模型,以追求更实用的解码时间。我们将我们的计划与X264和X265(分别代表H.264和H.265的工业软件)以及H.264,H.265和H.266(JM,HM和VTM的官方参考软件(JM,HM和VTM)进行比较, 分别)。当周期为32次并定向为PSNR时,我们的方案优于H.265 - HM以14.4%的比特率储蓄;当取向MS-SSIM时,我们的方案优于21.1%比特率保存的H.266 - VTM。
translated by 谷歌翻译
在本文中,我们介绍了第一个神经视频编解码器,可以在用于低延迟模式的UVG数据集上的SRGB PSNR方面与最新编码标准H.266 / VVC竞争。现有的神经混合视频编码方法依赖于用于预测的光流或高斯尺度流,这不能支持对不同运动内容的细粒度适应性。为了更具内容 - 自适应预测,我们提出了一种新颖的跨尺度预测模块,实现更有效的运动补偿。具体地,一方面,我们生产参考特征金字塔作为预测源,然后传输利用特征尺度的横级流来控制预测的精度。另一方面,我们将加权预测的机制介绍到具有单个参考帧的预测场景的机制,其中发送交叉尺度权重映射以合成精细预测结果。除了串尺度预测模块之外,我们还提出了一种多级量化策略,这提高了在推理期间没有额外计算惩罚的速率失真性能。我们展示了我们有效的神经视频编解码器(ENVC)对几个常见的基准数据集的令人鼓舞的表现,并详细分析了每个重要组成部分的有效性。
translated by 谷歌翻译
在本文中,我们提出了一个生成的对抗网络(GAN)框架,以增强压缩视频的感知质量。我们的框架包括单个模型中对不同量化参数(QP)的注意和适应。注意模块利用了可以捕获和对齐连续框架之间的远程相关性的全球接收场,这可能有益于提高视频感知质量。要增强的框架与其相邻的框架一起馈入深网,并在第一阶段的特征中提取不同深度的特征。然后提取的特征被馈入注意力块以探索全局的时间相关性,然后进行一系列上采样和卷积层。最后,通过利用相应的QP信息的QP条件适应模块处理所得的功能。这样,单个模型可用于增强对各种QP的适应性,而无需针对每个QP值的多个模型,同时具有相似的性能。实验结果表明,与最先进的压缩视频质量增强算法相比,所提出的PEQUENET的表现出色。
translated by 谷歌翻译
学习的视频压缩方法在赶上其速率 - 失真(R-D)性能时,追赶传统视频编解码器的许多承诺。然而,现有的学习视频压缩方案受预测模式和固定网络框架的绑定限制。它们无法支持各种帧间预测模式,从而不适用于各种场景。在本文中,为了打破这种限制,我们提出了一种多功能学习的视频压缩(VLVC)框架,它使用一个模型来支持所有可能的预测模式。具体而言,为了实现多功能压缩,我们首先构建一个运动补偿模块,该模块应用用于在空间空间中的加权三线性翘曲的多个3D运动矢量字段(即,Voxel流量)。 Voxel流量传达了时间参考位置的信息,有助于与框架设计中的帧间预测模式分离。其次,在多参考帧预测的情况下,我们应用流预测模块以预测具有统一多项式函数的准确运动轨迹。我们表明流量预测模块可以大大降低体素流的传输成本。实验结果表明,我们提出的VLVC不仅支持各种设置中的多功能压缩,而且还通过MS-SSIM的最新VVC标准实现了可比的R-D性能。
translated by 谷歌翻译
先前的深视频压缩方法仅使用单一运动补偿策略,并且很少采用来自传统标准(例如H.264/h.265)的模式预测技术来进行运动和残留压缩。在这项工作中,我们首先提出了一个粗到精细的(C2F)深视频压缩框架,以进行更好的运动补偿,其中我们以粗到良好的方式进行了两次运动估计,压缩和补偿。我们的C2F框架可以实现更好的运动补偿结果,而不会显着增加位成本。观察高优势网络中的高优势信息(即平均值和方差值)包含不同斑块的判别统计信息,我们还提出了两种有效的超优先指导模式预测方法。具体而言,使用高优势信息作为输入,我们建议两个模式预测网络分别预测最佳块分辨率,以进行更好的运动编码,并决定是否从每个块中跳过剩余信息以进行更好的剩余编码,而无需引入额外的位置,同时带来可忽略的额外计算成本。全面的实验结果表明,配备了新的高位指导模式预测方法,我们提出的C2F视频压缩框架实现了HEVC,UVG和MCL-JCV数据集的最新性能。
translated by 谷歌翻译
学识渊博的视频压缩方法已经对视频编码社区产生了各种兴趣,因为它们已经匹配甚至超过传统视频编解码器的速度差异(RD)性能。但是,许多当前基于学习的方法致力于利用短期时间信息,从而限制其性能。在本文中,我们专注于利用视频内容的独特特征,并进一步探索时间信息以增强压缩性能。具体而言,对于远程时间信息开发,我们提出了时间验证,可以在推理过程中在图片组(GOP)中连续更新。在这种情况下,时间先验包含当前共和党中所有解码图像的宝贵时间信息。至于短期时间信息,我们提出了逐步的指导运动补偿,以实现强大而有效的补偿。详细说明,我们设计了一个层次结构,以实现多尺度的补偿。更重要的是,我们使用光流引导来生成每个尺度特征图之间的像素偏移,每个尺度下的补偿结果将用于指导以下规模的补偿。足够的实验结果表明,与最先进的视频压缩方法相比,我们的方法可以获得更好的RD性能。该代码可公开可用:https://github.com/huairui/lstvc。
translated by 谷歌翻译
最近,学习的视频压缩引起了很多关注,并显示出令人鼓舞的结果的快速发展趋势。但是,先前的作品仍然存在一些批评问题,并且在广泛使用的PSNR度量方面,具有传统压缩标准的性​​能差距。在本文中,我们提出了几种技术来有效提高性能。首先,为了解决累积错误的问题,我们将有条件的I框架作为GOP中的第一帧,该框架稳定了重建的质量并节省了比特率。其次,为了有效地提高相互预测的准确性而不增加解码器的复杂性,我们提出了一种像素到功能的运动预测方法,可以帮助我们获得高质量的运动信息。第三,我们提出了一种基于概率的熵跳过方法,该方法不仅带来了性能增长,而且大大降低了熵编码的运行时。借助这些强大的技术,本文提出了Alphavc,这是一种高性能且高效的学习视频压缩方案。据我们所知,Alphavc是第一个E2E AI编解码器,它超过了PSNR的所有常见测试数据集上最新的压缩标准VVC(-28.2%BD率节省)和MSSSSIM(-52.2%BD-rate节省),并且具有非常快速的编码(0.001x VVC)和解码(1.69x VVC)速度。
translated by 谷歌翻译
对于神经视频编解码器,设计有效的熵模型至关重要但又具有挑战性,该模型可以准确预测量化潜在表示的概率分布。但是,大多数现有的视频编解码器直接使用图像编解码器的现成的熵模型来编码残差或运动,并且不会完全利用视频中的时空特性。为此,本文提出了一个强大的熵模型,该模型有效地捕获了空间和时间依赖性。特别是,我们介绍了潜在的先验,这些先验利用了潜在表示之间的相关性来挤压时间冗余。同时,提出了双重空间先验,以平行友好的方式降低空间冗余。此外,我们的熵模型也是通用的。除了估计概率分布外,我们的熵模型还在空间通道上生成量化步骤。这种内容自适应的量化机制不仅有助于我们的编解码器在单个模型中实现平滑的速率调整,而且还通过动态位分配来改善最终速率延伸性能。实验结果表明,与H.266(VTM)相比,使用最高的压缩率配置,我们的神经编解码器在提出的熵模型中,我们的神经编解码器可以在UVG数据集上节省18.2%的比特率。它在神经视频编解码器的开发中是一个新的里程碑。这些代码在https://github.com/microsoft/dcvc上。
translated by 谷歌翻译
大多数现有的神经视频压缩方法采用预测编码框架,该预测编码框架首先生成预测帧,然后用当前帧编码其残差。然而,对于压缩比,预测编码只是子最优解,因为它使用简单的减法操作来消除跨越帧的冗余。在本文中,我们提出了一种深度上下文视频压缩框架,以使从预测编码转换到条件编码。特别是,我们尝试回答以下问题:如何在深度视频压缩框架下定义,使用和学习条件。要点击条件编码的可能性,我们将使用要素域上下文提出为条件。这使我们能够利用高维上下文来对编码器和解码器携带丰富的信息,这有助于重建高频内容以获得更高的视频质量。我们的框架也是可扩展的,其中条件可以灵活设计。实验表明,我们的方法可以显着优于先前的最先进(SOTA)深度视频压缩方法。与使用SifeSlow预设相比,我们可以为1080p标准测试视频达到26.0%的比特率保存。
translated by 谷歌翻译
本文基于条件增强归一化流(ANF),介绍了一种基于端到端的学习视频压缩系统,称为CANF-VC。大多数博学的视频压缩系统采用与传统编解码器相同的基于混合的编码体系结构。关于条件编码的最新研究表明,基于混合的编码的亚地区,并为深层生成模型打开了在创建新编码框架中发挥关键作用的机会。 CANF-VC代表了一种新的尝试,该尝试利用条件ANF学习有条件框架间编码的视频生成模型。我们之所以选择ANF,是因为它是一种特殊类型的生成模型,其中包括各种自动编码器作为一种特殊情况,并且能够获得更好的表现力。 CANF-VC还将条件编码的想法扩展到运动编码,形成纯粹的条件编码框架。对常用数据集的广泛实验结果证实了CANF-VC对最新方法的优越性。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译
神经图像编码现在表示现有的图像压缩方法。但是,在视频域中仍有很多工作。在这项工作中,我们提出了一部结束了学习的视频编解码器,介绍了几个建筑Noveltize以及培训Noveltizes,围绕适应和关注的概念。我们的编解码器被组织为与帧间编解码器配对的帧内编解码器。作为一种建筑新颖,我们建议培训帧间编解码器模型以基于输入视频的分辨率来调整运动估计处理。第二个建筑新奇是一种新的神经块,它将基于分裂的神经网络和Densenets的概念结合了。最后,我们建议在推理时间内过度装备一组解码器侧乘法参数。通过消融研究和对现有技术的比较,我们在编码收益方面表现出我们所提出的技术的好处。我们将编解码器与VVC / H.266和RLVC进行比较,该rlvc分别代表最先进的传统和端到端学习的编解码器,并在2021年在2021年在2021年执行端到端学习方法竞争,e2e_t_ol。我们的编解码器显然优于E2E_T_OL,并在某些设置中对VVC和RLVC有利地进行比较。
translated by 谷歌翻译
Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.
translated by 谷歌翻译
这项工作介绍了称为B-CANF的B帧编码框架,该框架利用有条件的增强标准化流量来进行B框架编码。学到的B框架编码的探索较少,更具挑战性。B-CANF是由有条件的P框架编码的最新进展的动机,是将基于流的模型应用于条件运动和框架间编码的首次尝试。B-CANF功能帧型自适应编码,该编码可以学习层次B框架编码更好的位分配。B-Canf还引入了一种特殊类型的B帧,称为B*-Frame,以模拟P框架编码。在常用数据集上,B-CANF达到了最新的压缩性能,在随机访问配置下显示了与HM-16.23相当的BD速率结果(在PSNR-RGB方面)。
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译