我们提出了一种压缩具有隐式神经表示的全分辨率视频序列的方法。每个帧表示为映射坐标位置到像素值的神经网络。我们使用单独的隐式网络来调制坐标输入,从而实现帧之间的有效运动补偿。与一个小的残余网络一起,这允许我们有效地相对于前一帧压缩p帧。通过使用学习的整数量化存储网络权重,我们进一步降低了比特率。我们呼叫隐式像素流(IPF)的方法,提供了几种超简化的既定神经视频编解码器:它不需要接收器可以访问预先磨普的神经网络,不使用昂贵的内插基翘曲操作,而不是需要单独的培训数据集。我们展示了神经隐式压缩对图像和视频数据的可行性。
translated by 谷歌翻译
我们引入基于实例自适应学习的视频压缩算法。在要传输的每个视频序列上,我们介绍了预训练的压缩模型。最佳参数与潜在代码一起发送到接收器。通过熵编码在合适的混合模型下的参数更新,我们确保可以有效地编码网络参数。该实例自适应压缩算法对于基础模型的选择是不可知的,并且具有改进任何神经视频编解码器的可能性。在UVG,HEVC和XIPH数据集上,我们的CODEC通过21%至26%的BD速率节省,提高了低延迟尺度空间流量模型的性能,以及最先进的B帧模型17至20%的BD速率储蓄。我们还证明了实例 - 自适应FineTuning改善了域移位的鲁棒性。最后,我们的方法降低了压缩模型的容量要求。我们表明它即使在将网络大小减少72%之后也能实现最先进的性能。
translated by 谷歌翻译
由于深层网络的计算复杂性和功率约束的移动硬件的计算复杂性,因此在移动设备上实现神经视频编解码器的潜力是一项巨大的技术挑战。我们通过利用高通公司的技术和创新来证明可行性,从而弥合了从基于神经网络的编解码器模拟在壁式工作站运行的差距,再到由Snapdragon技术供电的移动设备上的实时操作。我们显示有史以来第一个在商用手机上运行的框架间神经视频解码器,实时解码高清视频,同时保持低比特率和高视觉质量。
translated by 谷歌翻译
Implicit Neural Representations (INR) have recently shown to be powerful tool for high-quality video compression. However, existing works are limiting as they do not explicitly exploit the temporal redundancy in videos, leading to a long encoding time. Additionally, these methods have fixed architectures which do not scale to longer videos or higher resolutions. To address these issues, we propose NIRVANA, which treats videos as groups of frames and fits separate networks to each group performing patch-wise prediction. This design shares computation within each group, in the spatial and temporal dimensions, resulting in reduced encoding time of the video. The video representation is modeled autoregressively, with networks fit on a current group initialized using weights from the previous group's model. To further enhance efficiency, we perform quantization of the network parameters during training, requiring no post-hoc pruning or quantization. When compared with previous works on the benchmark UVG dataset, NIRVANA improves encoding quality from 37.36 to 37.70 (in terms of PSNR) and the encoding speed by 12X, while maintaining the same compression rate. In contrast to prior video INR works which struggle with larger resolution and longer videos, we show that our algorithm is highly flexible and scales naturally due to its patch-wise and autoregressive designs. Moreover, our method achieves variable bitrate compression by adapting to videos with varying inter-frame motion. NIRVANA achieves 6X decoding speed and scales well with more GPUs, making it practical for various deployment scenarios.
translated by 谷歌翻译
隐式神经表示(INR)被出现为代表信号的强大范例,例如图像,视频,3D形状等。尽管它已经示出了能够表示精细细节的能力,但其效率尚未得到广泛研究数据表示。在INR中,数据以神经网络的参数的形式存储,并且通用优化算法通常不会利用信号中的空间和时间冗余。在本文中,我们建议通过明确地删除数据冗余来表示和压缩视频的新型INR方法。我们提出了跨视频帧和残差的主体剩余流场(NRFF)而不是存储原始RGB颜色,而不是存储原始RGB颜色。维护通常更光滑和更复杂的运动信息,比原始信号更少,需要更少的参数。此外,重用冗余像素值进一步提高了网络参数效率。实验结果表明,所提出的方法优于基线方法的显着边际。代码可用于https://github.com/daniel03c1/eff_video_repruseentation。
translated by 谷歌翻译
最近隐含的神经表示(INRS)作为各种数据类型的新颖且有效的表现。到目前为止,事先工作主要集中在优化其重建性能。这项工作从新颖的角度来调查INRS,即作为图像压缩的工具。为此,我们提出了基于INR的第一综合压缩管线,包括量化,量化感知再培训和熵编码。使用INRS进行编码,即对数据示例的过度装备,通常是较慢的秩序。为缓解此缺点,我们基于MAML利用META学习初始化,以便在较少的渐变更新中达到编码,这也通常提高INR的速率失真性能。我们发现,我们对INR的源压缩方法非常优于类似的事先工作,具有专门针对图像专门设计的常见压缩算法,并将基于速率 - 失真自动分析器的差距缩小到最先进的学习方法。此外,我们提供了对我们希望促进这种新颖方法对图像压缩的未来研究的重要性的广泛消融研究。
translated by 谷歌翻译
在视频压缩中,通过运动和剩余补偿从先前解码的帧重复使用像素来提高编码效率。我们在视频帧中定义了两个层次冗余的两个级别:1)一阶:像素空间中的冗余,即跨相邻帧的像素值的相似性,该框架的相似性是通过运动和残差补偿有效捕获的,2)二阶:二阶:冗余:自然视频中的平稳运动引起的运动和残留地图。尽管大多数现有的神经视频编码文献都涉及一阶冗余,但我们解决了通过预测变量在神经视频编解码器中捕获二阶冗余的问题。我们引入了通用运动和残留预测因子,这些预测因素学会从先前解码的数据中推断出来。这些预测因子是轻量级的,可以使用大多数神经视频编解码器来提高其率延伸性能。此外,虽然RGB是神经视频编码文献中的主导色彩空间,但我们引入了神经视频编解码器的一般修改,以包含YUV420 Colorspace并报告YUV420的结果。我们的实验表明,使用众所周知的神经视频编解码器使用我们的预测因子可在UVG数据集中测得的RGB和YUV420 Colorspace中节省38%和34%的比特率。
translated by 谷歌翻译
在本文中,我们介绍了第一个神经视频编解码器,可以在用于低延迟模式的UVG数据集上的SRGB PSNR方面与最新编码标准H.266 / VVC竞争。现有的神经混合视频编码方法依赖于用于预测的光流或高斯尺度流,这不能支持对不同运动内容的细粒度适应性。为了更具内容 - 自适应预测,我们提出了一种新颖的跨尺度预测模块,实现更有效的运动补偿。具体地,一方面,我们生产参考特征金字塔作为预测源,然后传输利用特征尺度的横级流来控制预测的精度。另一方面,我们将加权预测的机制介绍到具有单个参考帧的预测场景的机制,其中发送交叉尺度权重映射以合成精细预测结果。除了串尺度预测模块之外,我们还提出了一种多级量化策略,这提高了在推理期间没有额外计算惩罚的速率失真性能。我们展示了我们有效的神经视频编解码器(ENVC)对几个常见的基准数据集的令人鼓舞的表现,并详细分析了每个重要组成部分的有效性。
translated by 谷歌翻译
Neural fields, also known as coordinate-based or implicit neural representations, have shown a remarkable capability of representing, generating, and manipulating various forms of signals. For video representations, however, mapping pixel-wise coordinates to RGB colors has shown relatively low compression performance and slow convergence and inference speed. Frame-wise video representation, which maps a temporal coordinate to its entire frame, has recently emerged as an alternative method to represent videos, improving compression rates and encoding speed. While promising, it has still failed to reach the performance of state-of-the-art video compression algorithms. In this work, we propose FFNeRV, a novel method for incorporating flow information into frame-wise representations to exploit the temporal redundancy across the frames in videos inspired by the standard video codecs. Furthermore, we introduce a fully convolutional architecture, enabled by one-dimensional temporal grids, improving the continuity of spatial features. Experimental results show that FFNeRV yields the best performance for video compression and frame interpolation among the methods using frame-wise representations or neural fields. To reduce the model size even further, we devise a more compact convolutional architecture using the group and pointwise convolutions. With model compression techniques, including quantization-aware training and entropy coding, FFNeRV outperforms widely-used standard video codecs (H.264 and HEVC) and performs on par with state-of-the-art video compression algorithms.
translated by 谷歌翻译
神经压缩算法通常基于需要专门编码器和解码器体系结构的自动编码器,以实现不同的数据模式。在本文中,我们提出了Coin ++,这是一种神经压缩框架,无缝处理广泛的数据模式。我们的方法基于将数据转换为隐式神经表示,即映射坐标(例如像素位置)为特征(例如RGB值)的神经函数。然后,我们不用直接存储隐式神经表示的权重,而是存储应用于元学习的基础网络作为数据的压缩代码的调制。我们进一步量化和熵代码这些调制,从而导致大量压缩增益,同时与基线相比,将编码时间缩短了两个数量级。我们通过压缩从图像和音频到医学和气候数据的各种数据方式来证明我们方法的有效性。
translated by 谷歌翻译
传统的视频压缩(VC)方法基于运动补偿变换编码,并且由于端到端优化问题的组合性质,运动估计,模式和量化参数选择的步骤和熵编码是单独优化的。学习VC允许同时对端到端速率失真(R-D)优化非线性变换,运动和熵模型的优化训练。大多数工作都在学习VC基于R-D损耗对连续帧的对考虑连续视频编解码器的端到端优化。它在传统的VC中众所周知的是,双向编码优于顺序压缩,因为它能够使用过去和未来的参考帧。本文提出了一种学习的分层双向视频编解码器(LHBDC),其结合了分层运动补偿预测和端到端优化的益处。实验结果表明,我们达到了迄今为​​止在PSNR和MS-SSIM中的学习VC方案报告的最佳R-D结果。与传统的视频编解码器相比,我们的端到端优化编解码器的RD性能优于PSNR和MS-SSIM中的X265和SVT-HEVC编码器(“非常流”预设)以及MS-中的HM 16.23参考软件。 SSIM。我们提出了由于所提出的新颖工具,例如学习屏蔽,流场附带和时间流量矢量预测等新颖工具,展示了表现出性能提升。重现我们结果的模型和说明可以在https://github.com/makinyilmaz/lhbdc/中找到
translated by 谷歌翻译
Conventional video compression approaches use the predictive coding architecture and encode the corresponding motion information and residual information. In this paper, taking advantage of both classical architecture in the conventional video compression method and the powerful nonlinear representation ability of neural networks, we propose the first end-to-end video compression deep model that jointly optimizes all the components for video compression. Specifically, learning based optical flow estimation is utilized to obtain the motion information and reconstruct the current frames. Then we employ two auto-encoder style neural networks to compress the corresponding motion and residual information. All the modules are jointly learned through a single loss function, in which they collaborate with each other by considering the trade-off between reducing the number of compression bits and improving quality of the decoded video. Experimental results show that the proposed approach can outperform the widely used video coding standard H.264 in terms of PSNR and be even on par with the latest standard H.265 in terms of MS-SSIM. Code is released at https://github.com/GuoLusjtu/DVC. * Corresponding author (a) Original frame (Bpp/MS-SSIM) (b) H.264 (0.0540Bpp/0.945) (c) H.265 (0.082Bpp/0.960) (d) Ours ( 0.0529Bpp/ 0.961
translated by 谷歌翻译
我们展示了如何使用变压器来大大简化神经视频压缩。以前的方法一直依赖越来越多的建筑偏见和先进的方法,包括运动预测和翘曲操作,从而产生复杂的模型。取而代之的是,我们独立地将输入帧映射到表示形式,并使用变压器对其依赖性进行建模,让它预测给定过去的未来表示的分布。最终的视频压缩变压器优于标准视频压缩数据集上的先前方法。合成数据的实验表明,我们的模型学会了处理复杂的运动模式,例如纯粹从数据中模糊和褪色。我们的方法易于实施,我们发布代码以促进未来的研究。
translated by 谷歌翻译
学习的视频压缩方法在赶上其速率 - 失真(R-D)性能时,追赶传统视频编解码器的许多承诺。然而,现有的学习视频压缩方案受预测模式和固定网络框架的绑定限制。它们无法支持各种帧间预测模式,从而不适用于各种场景。在本文中,为了打破这种限制,我们提出了一种多功能学习的视频压缩(VLVC)框架,它使用一个模型来支持所有可能的预测模式。具体而言,为了实现多功能压缩,我们首先构建一个运动补偿模块,该模块应用用于在空间空间中的加权三线性翘曲的多个3D运动矢量字段(即,Voxel流量)。 Voxel流量传达了时间参考位置的信息,有助于与框架设计中的帧间预测模式分离。其次,在多参考帧预测的情况下,我们应用流预测模块以预测具有统一多项式函数的准确运动轨迹。我们表明流量预测模块可以大大降低体素流的传输成本。实验结果表明,我们提出的VLVC不仅支持各种设置中的多功能压缩,而且还通过MS-SSIM的最新VVC标准实现了可比的R-D性能。
translated by 谷歌翻译
学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题,其中运动补偿被认为是最具挑战性的问题之一。在本文中,我们通过异质变形补偿策略(HDCVC)提出了一个学识渊博的视频压缩框架,以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说,所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形(Hetdeform)内核偏移量,而不是利用光流或单尺内核变形对齐。然后,我们将参考特征转换为HetDeform卷积以完成运动补偿。此外,我们设计了一个空间 - 邻化的分裂归一化(SNCDN),以实现更有效的数据高斯化结合了广义分裂的归一化。此外,我们提出了一个多框架增强的重建模块,用于利用上下文和时间信息以提高质量。实验结果表明,HDCVC比最近最新学习的视频压缩方法取得了优越的性能。
translated by 谷歌翻译
In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
translated by 谷歌翻译
我们介绍了基于生成的对抗性网络(GANS)的第一神经视频压缩方法。我们的方法显着优于用户研究中的先前神经和非神经视频压缩方法,为神经方法的视觉质量设置新的最先进。我们表明GaN亏损至关重要,以获得这种高视觉质量。两个组件使GaN丢失有效:我们)通过调节从翘曲的先前的重建提取的潜伏的发电机来合成细节,然后II)以高质量的流传播该细节。我们发现,用户学习必须比较方法,即,我们的定量指标都无法预测所有研究。我们详细展示了网络设计选择,并通过用户研究消除了它们。
translated by 谷歌翻译
这项工作介绍了称为B-CANF的B帧编码框架,该框架利用有条件的增强标准化流量来进行B框架编码。学到的B框架编码的探索较少,更具挑战性。B-CANF是由有条件的P框架编码的最新进展的动机,是将基于流的模型应用于条件运动和框架间编码的首次尝试。B-CANF功能帧型自适应编码,该编码可以学习层次B框架编码更好的位分配。B-Canf还引入了一种特殊类型的B帧,称为B*-Frame,以模拟P框架编码。在常用数据集上,B-CANF达到了最新的压缩性能,在随机访问配置下显示了与HM-16.23相当的BD速率结果(在PSNR-RGB方面)。
translated by 谷歌翻译
当网络条件恶化时,视频会议系统的用户体验差,因为当前的视频编解码器根本无法在极低的比特率下运行。最近,已经提出了几种神经替代方案,可以使用每个框架的稀疏表示,例如面部地标信息,以非常低的比特率重建说话的头视频。但是,这些方法在通话过程中具有重大运动或遮挡的情况下会产生不良的重建,并且不会扩展到更高的分辨率。我们设计了Gemino,这是一种基于新型高频条件超分辨率管道的新型神经压缩系统,用于视频会议。 Gemino根据从单个高分辨率参考图像中提取的信息来增强高频细节(例如,皮肤纹理,头发等),为每个目标框架的一个非常低分辨率的版本(例如,皮肤纹理,头发等)。我们使用多尺度体系结构,该体系结构在不同的分辨率下运行模型的不同组件,从而使其扩展到可与720p相当的分辨率,并且我们个性化模型以学习每个人的特定细节,在低比特率上实现了更好的保真度。我们在AIORTC上实施了Gemino,这是WEBRTC的开源Python实现,并表明它在A100 GPU上实时在1024x1024视频上运行,比比特率的比特率低于传统的视频Codecs,以相同的感知质量。
translated by 谷歌翻译
本文为我们最近在端到端优化的层次阶段性视频压缩方面提供了改进和新颖的补充,以进一步推进学到的视频压缩中的最新时间。作为改进,我们将运动估计和预测模块结合在一起,并压缩精制的残留运动向量,以提高速率延伸性能。作为新颖的添加,我们将提出的图像压缩的增益单元改编为柔性率视频压缩以两种方式:首先,增益单元使单个编码器模型能够以多速度距离操作点运行;其次,我们利用增益单元来控制内部编码与双向编码框架之间的位分配,通过微调相应的模型,用于真正的灵活率学习的视频编码。实验结果表明,我们获得的最先进的利率延伸性能超过了学到的视频编码中所有先前艺术的效果。
translated by 谷歌翻译