最近,基于学习的图像压缩已经达到了与传统图像编解码器(例如JPEG,BPG,WEPP)相当的性能。然而,计算复杂性和速率灵活性仍然是其实际部署的两个主要挑战。为了解决这些问题,本文提出了两个名为基于能量的信道门控(ECG)和比特率调制器(BM)的通用模块,可以直接嵌入到现有的端到端图像压缩模型中。ECG使用动态修剪来减少卷积层中超过50±50°的絮凝物,并且BM对可以调制潜在表示以控制频道明智的方式控制比特率。通过实现这两个模块,现有的基于学习的图像编解码器可以获得用单个模型和减少计算来输出任意比特率的能力。
translated by 谷歌翻译
随着深度学习技术的发展,深度学习与图像压缩的结合引起了很多关注。最近,学到的图像压缩方法在速率绩效方面超出了其经典对应物。但是,连续的速率适应仍然是一个悬而未决的问题。一些学到的图像压缩方法将多个网络用于多个速率,而另一些则使用一个模型,而牺牲了计算复杂性的增加和性能降解。在本文中,我们提出了一个不断的可调节率的学术图像压缩框架,不对称获得了变异自动编码器(AG-VAE)。 AG-VAE利用一对增益单元在一个单个模型中实现离散率适应,并具有可忽略的附加计算。然后,通过使用指数插值,可以在不损害性能的情况下实现连续速率适应。此外,我们提出了不对称的高斯熵模型,以进行更准确的熵估计。详尽的实验表明,与经典图像编解码器相比,我们的方法通过SOTA学习的图像压缩方法获得了可比的定量性能,并且定性性能更好。在消融研究中,我们证实了增益单元和不对称高斯熵模型的有用性和优势。
translated by 谷歌翻译
最近,基于深度学习的图像压缩已取得了显着的进步,并且在主观度量和更具挑战性的客观指标中,与最新的传统方法H.266/vvc相比,取得了更好的评分(R-D)性能。但是,一个主要问题是,许多领先的学识渊博的方案无法保持绩效和复杂性之间的良好权衡。在本文中,我们提出了一个效率和有效的图像编码框架,该框架的复杂性比最高的状态具有相似的R-D性能。首先,我们开发了改进的多尺度残差块(MSRB),该块可以扩展容纳长石,并且更容易获得全球信息。它可以进一步捕获和减少潜在表示的空间相关性。其次,引入了更高级的重要性图网络,以自适应地分配位置到图像的不同区域。第三,我们应用2D定量后flter(PQF)来减少视频编码中样本自适应偏移量(SAO)flter的动机。此外,我们认为编码器和解码器的复杂性对图像压缩性能有不同的影响。基于这一观察结果,我们设计了一个不对称范式,其中编码器采用三个阶段的MSRB来提高学习能力,而解码器只需要一个srb的一个阶段就可以产生令人满意的重建,从而在不牺牲性能的情况下降低了解码的复杂性。实验结果表明,与最先进的方法相比,所提出方法的编码和解码时间速度约为17倍,而R-D性能仅在Kodak和Tecnick数据集中降低了1%,而R-D性能仅少于1%。它仍然比H.266/VVC(4:4:4)和其他基于学习的方法更好。我们的源代码可在https://github.com/fengyurenpingsheng上公开获得。
translated by 谷歌翻译
In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
translated by 谷歌翻译
可扩展的编码,可以适应通道带宽变化,在当今复杂的网络环境中表现良好。然而,现有的可扩展压缩方法面临两个挑战:降低压缩性能和可扩展性不足。在本文中,我们提出了第一所学习的细粒度可扩展图像压缩模型(DeepFGS)来克服上述两个缺点。具体地,我们介绍一个特征分离骨干,将图像信息划分为基本和可伸缩的功能,然后通过信息重新排列策略通过通道重新分配特征通道。以这种方式,我们可以通过一次通过编码来生成连续可扩展的比特流。此外,我们重复使用解码器以降低DeepFGS的参数和计算复杂性。实验表明,我们的DeePFGS优于PSNR和MS-SSIM度量中的所有基于学习的可伸缩图像压缩模型和传统可伸缩图像编解码器。据我们所知,我们的DeePFGS是对学习的细粒度可扩展编码的首次探索,与基于学习的方法相比,实现了最优质的可扩展性。
translated by 谷歌翻译
Recently, many neural network-based image compression methods have shown promising results superior to the existing tool-based conventional codecs. However, most of them are often trained as separate models for different target bit rates, thus increasing the model complexity. Therefore, several studies have been conducted for learned compression that supports variable rates with single models, but they require additional network modules, layers, or inputs that often lead to complexity overhead, or do not provide sufficient coding efficiency. In this paper, we firstly propose a selective compression method that partially encodes the latent representations in a fully generalized manner for deep learning-based variable-rate image compression. The proposed method adaptively determines essential representation elements for compression of different target quality levels. For this, we first generate a 3D importance map as the nature of input content to represent the underlying importance of the representation elements. The 3D importance map is then adjusted for different target quality levels using importance adjustment curves. The adjusted 3D importance map is finally converted into a 3D binary mask to determine the essential representation elements for compression. The proposed method can be easily integrated with the existing compression models with a negligible amount of overhead increase. Our method can also enable continuously variable-rate compression via simple interpolation of the importance adjustment curves among different quality levels. The extensive experimental results show that the proposed method can achieve comparable compression efficiency as those of the separately trained reference compression models and can reduce decoding time owing to the selective compression. The sample codes are publicly available at https://github.com/JooyoungLeeETRI/SCR.
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译
端到端优化的神经图像压缩(NIC)最近获得了优异的损耗压缩性能。在本文中,我们考虑了NIC率的速率变形(R-D)特征分析和建模问题。我们努力制定使用深网络描述NIC的R-D行为的基本数学函数。因此,通过通过单个培训的网络利用这种模型可以典范地实现任意比特率点。我们提出了一个插件模块,以了解自动编码器的潜变量的目标比特率和二进制表示之间的关系。该方案解决了培训明显模型的问题,以达到R-D空间中不同的点。此外,我们分别模拟NIC的速率和失真特性分别为编码参数$ \ lambda $的函数。我们的实验表明,我们的提出方法易于采用,实现了最先进的连续比特率编码性能,这意味着我们的方法将有利于NIC的实际部署。
translated by 谷歌翻译
上下文自适应熵模型的应用显着提高了速率 - 渗透率(R-D)的性能,在该表现中,超级培训和自回归模型被共同利用来有效捕获潜在表示的空间冗余。但是,潜在表示仍然包含一些空间相关性。此外,这些基于上下文自适应熵模型的方法在解码过程中无法通过并行计算设备,例如FPGA或GPU。为了减轻这些局限性,我们提出了一个学识渊博的多分辨率图像压缩框架,该框架利用了最近开发的八度卷积,以将潜在表示形式分配到高分辨率(HR)和低分辨率(LR)部分,类似于小波变换,这进一步改善了R-D性能。为了加快解码的速度,我们的方案不使用上下文自适应熵模型。取而代之的是,我们利用一个额外的超层,包括超级编码器和超级解码器,以进一步删除潜在表示的空间冗余。此外,将跨分辨率参数估计(CRPE)引入提出的框架中,以增强信息流并进一步改善速率延伸性能。提出了对总损耗函数提出的其他信息损失,以调整LR部分对最终位流的贡献。实验结果表明,与最先进的学术图像压缩方法相比,我们的方法分别将解码时间减少了约73.35%和93.44%,R-D性能仍然优于H.266/VVC(4:4::4:: 2:0)以及对PSNR和MS-SSIM指标的一些基于学习的方法。
translated by 谷歌翻译
学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题,其中运动补偿被认为是最具挑战性的问题之一。在本文中,我们通过异质变形补偿策略(HDCVC)提出了一个学识渊博的视频压缩框架,以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说,所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形(Hetdeform)内核偏移量,而不是利用光流或单尺内核变形对齐。然后,我们将参考特征转换为HetDeform卷积以完成运动补偿。此外,我们设计了一个空间 - 邻化的分裂归一化(SNCDN),以实现更有效的数据高斯化结合了广义分裂的归一化。此外,我们提出了一个多框架增强的重建模块,用于利用上下文和时间信息以提高质量。实验结果表明,HDCVC比最近最新学习的视频压缩方法取得了优越的性能。
translated by 谷歌翻译
在近期深度图像压缩神经网络中,熵模型在估计深度图像编码的先前分配时起着重要作用。现有方法将HydupRior与熵估计功能中的本地上下文组合。由于没有全球愿景,这大大限制了他们的表现。在这项工作中,我们提出了一种新的全局参考模型,用于图像压缩,以有效地利用本地和全局上下文信息,导致增强的压缩率。所提出的方法扫描解码的潜伏,然后找到最相关的潜伏,以帮助分布估计当前潜伏。这项工作的副产品是一种平均转换GDN模块的创新,进一步提高了性能。实验结果表明,所提出的模型优于行业中大多数最先进方法的速率变形性能。
translated by 谷歌翻译
量化图像超分辨率的深卷积神经网络大大降低了它们的计算成本。然而,现有的作品既不患有4个或低位宽度的超低精度的严重性能下降,或者需要沉重的微调过程以恢复性能。据我们所知,这种对低精度的漏洞依赖于特征映射值的两个统计观察。首先,特征贴图值的分布每个通道和每个输入图像都变化显着变化。其次,特征映射具有可以主导量化错误的异常值。基于这些观察,我们提出了一种新颖的分布感知量化方案(DAQ),其促进了超低精度的准确训练量化。 DAQ的简单功能确定了具有低计算负担的特征图和权重的动态范围。此外,我们的方法通过计算每个通道的相对灵敏度来实现混合精度量化,而无需涉及任何培训过程。尽管如此,量化感知培训也适用于辅助性能增益。我们的新方法优于最近的培训甚至基于培训的量化方法,以超低精度为最先进的图像超分辨率网络。
translated by 谷歌翻译
这项工作解决了基于深度神经网络的端到端学习图像压缩(LIC)的两个主要问题:可变速率学习,其中需要单独的网络以不同的质量生成压缩图像,以及可微分近似之间的列车测试不匹配量化和真正的硬量化。我们介绍了LIC的在线元学习(OML)设置,将Meta学习和在线学习中的思想结合在条件变分自动编码器(CVAE)框架中。通过将条件变量视为元参数并将生成的条件特征视为元前沿,可以通过元参数控制所需的重建以适应变量质量的压缩。在线学习框架用于更新元参数,以便为当前图像自适应地调整条件重建。通过OML机制,可以通过SGD有效更新元参数。条件重建基于解码器网络中的量化潜在表示,因此有助于弥合训练估计与真正量化的潜在分布之间的间隙。实验表明,我们的OML方法可以灵活地应用于不同的最先进的LIC方法,以实现具有很少的计算和传输开销的额外性能改进。
translated by 谷歌翻译
对于神经视频编解码器,设计有效的熵模型至关重要但又具有挑战性,该模型可以准确预测量化潜在表示的概率分布。但是,大多数现有的视频编解码器直接使用图像编解码器的现成的熵模型来编码残差或运动,并且不会完全利用视频中的时空特性。为此,本文提出了一个强大的熵模型,该模型有效地捕获了空间和时间依赖性。特别是,我们介绍了潜在的先验,这些先验利用了潜在表示之间的相关性来挤压时间冗余。同时,提出了双重空间先验,以平行友好的方式降低空间冗余。此外,我们的熵模型也是通用的。除了估计概率分布外,我们的熵模型还在空间通道上生成量化步骤。这种内容自适应的量化机制不仅有助于我们的编解码器在单个模型中实现平滑的速率调整,而且还通过动态位分配来改善最终速率延伸性能。实验结果表明,与H.266(VTM)相比,使用最高的压缩率配置,我们的神经编解码器在提出的熵模型中,我们的神经编解码器可以在UVG数据集上节省18.2%的比特率。它在神经视频编解码器的开发中是一个新的里程碑。这些代码在https://github.com/microsoft/dcvc上。
translated by 谷歌翻译
Learning-based image compression has improved to a level where it can outperform traditional image codecs such as HEVC and VVC in terms of coding performance. In addition to good compression performance, device interoperability is essential for a compression codec to be deployed, i.e., encoding and decoding on different CPUs or GPUs should be error-free and with negligible performance reduction. In this paper, we present a method to solve the device interoperability problem of a state-of-the-art image compression network. We implement quantization to entropy networks which output entropy parameters. We suggest a simple method which can ensure cross-platform encoding and decoding, and can be implemented quickly with minor performance deviation, of 0.3% BD-rate, from floating point model results.
translated by 谷歌翻译
作为常用的图像压缩格式,JPEG已广泛应用于图像的传输和存储。为了进一步降低压缩成本,同时保持JPEG图像的质量,已提出无损的转码技术来重新压缩DCT域中的压缩JPEG图像。另一方面,以前的工作通常会降低DCT系数的冗余性,并以手工制作的方式优化熵编码的概率预测,缺乏概括能力和灵活性。为了应对上述挑战,我们提出了通过关节损失和残留压缩的学习的无损JPEG转码框架。我们没有直接优化熵估计,而是关注DCT系数中存在的冗余。据我们所知,我们是第一个利用学习的端到端损失变换编码来减少紧凑型代表域中DCT系数的冗余的人。我们还引入了无损转编码的残留压缩,在使用基于上下文的熵编码对其进行压缩之前,它会自适应地学习残留DCT系数的分布。我们提出的转码结构在JPEG图像的压缩中表现出显着的优势,这要归功于学习的损失变换编码和残留熵编码的协作。在多个数据集上进行的广泛实验表明,根据JPEG压缩,我们提出的框架平均可以节省约21.49%的位,这表现优于典型的无损失转码框架JPEG-XL的jpeg-XL 3.51%。
translated by 谷歌翻译
最近,引入了卷积自动编码器(CAE)进行图像编码。他们对最新的JPEG2000方法实现了性能改进。但是,这些表演是使用具有大量参数的大型CAE获得的,并且其训练需要大量的计算能力。\\在本文中,我们使用具有较小的内存足迹和低计算功率使用的CAE解决了有损图像压缩的问题。为了克服计算成本问题,大多数文献都使用拉格朗日近端正则化方法,这些方法很耗时。\\在这项工作中,我们提出了一种约束的方法和一种新的结构化稀疏学习方法。我们设计了一个算法并在三个约束上进行测试:经典$ \ ell_1 $约束,$ \ ell_ {1,\ infty} $和新的$ \ ell_ {1,1} $约束。实验结果表明,$ \ ell_ {1,1} $约束提供了最佳的结构性稀疏性,从而导致内存和计算成本的高度降低,并且与密集网络相似的速率延伸性能。
translated by 谷歌翻译
基于学习的方法有效地促进了图像压缩社区。同时,基于变异的自动编码器(VAE)的可变速率方法最近引起了很多关注,以避免使用一组不同的网络来用于各种压缩率。尽管已经取得了显着的性能,但一旦执行了多个压缩/减压操作,这些方法将很容易损坏,从而导致图像质量将被大幅下降并且会出现强大的伪像。因此,我们试图解决高保真的细度可变速率图像压缩的问题,并提出可逆激活变换(IAT)模块。我们以单个速率可逆神经网络(INN)模型(Qlevel)以数学可逆的方式实施IAT,并将质量级别(QLevel)送入IAT,以产生缩放和偏置张量。 IAT和QLEVEL一起为图像压缩模型提供了罚款可变速率控制的能力,同时更好地保持图像保真度。广泛的实验表明,配备了我们IAT模块的单率图像压缩模型具有实现可变速率控制而无需任何妥协的能力。并且我们的IAT包裹模型通过最新的基于学习的图像压缩方法获得了可比的利率延伸性能。此外,我们的方法的表现优于最新的可变速率图像压缩方法,尤其是在多次重新编码之后。
translated by 谷歌翻译
Conventional video compression approaches use the predictive coding architecture and encode the corresponding motion information and residual information. In this paper, taking advantage of both classical architecture in the conventional video compression method and the powerful nonlinear representation ability of neural networks, we propose the first end-to-end video compression deep model that jointly optimizes all the components for video compression. Specifically, learning based optical flow estimation is utilized to obtain the motion information and reconstruct the current frames. Then we employ two auto-encoder style neural networks to compress the corresponding motion and residual information. All the modules are jointly learned through a single loss function, in which they collaborate with each other by considering the trade-off between reducing the number of compression bits and improving quality of the decoded video. Experimental results show that the proposed approach can outperform the widely used video coding standard H.264 in terms of PSNR and be even on par with the latest standard H.265 in terms of MS-SSIM. Code is released at https://github.com/GuoLusjtu/DVC. * Corresponding author (a) Original frame (Bpp/MS-SSIM) (b) H.264 (0.0540Bpp/0.945) (c) H.265 (0.082Bpp/0.960) (d) Ours ( 0.0529Bpp/ 0.961
translated by 谷歌翻译
最近的工作表明,变异自动编码器(VAE)与速率失真理论之间有着密切的理论联系。由此激发,我们从生成建模的角度考虑了有损图像压缩的问题。从最初是为数据(图像)分布建模设计的Resnet VAE开始,我们使用量化意识的后验和先验重新设计其潜在变量模型,从而实现易于量化和熵编码的图像压缩。除了改进的神经网络块外,我们还提出了一类强大而有效的有损图像编码器类别,超过了自然图像(有损)压缩的先前方法。我们的模型以粗略的方式压缩图像,并支持并行编码和解码,从而在GPU上快速执行。
translated by 谷歌翻译