对于许多技术领域的专业用户,例如医学,遥感,精密工程和科学研究,无损和近乎无情的图像压缩至关重要。但是,尽管在基于学习的图像压缩方面的研究兴趣迅速增长,但没有发表的方法提供无损和近乎无情的模式。在本文中,我们提出了一个统一而强大的深层损失加上残留(DLPR)编码框架,以实现无损和近乎无情的图像压缩。在无损模式下,DLPR编码系统首先执行有损压缩,然后执行残差的无损编码。我们在VAE的方法中解决了关节损失和残留压缩问题,并添加残差的自回归上下文模型以增强无损压缩性能。在近乎荒谬的模式下,我们量化了原始残差以满足给定的$ \ ell_ \ infty $错误绑定,并提出了可扩展的近乎无情的压缩方案,该方案适用于可变$ \ ell_ \ infty $ bunds而不是训练多个网络。为了加快DLPR编码,我们通过新颖的编码环境设计提高了算法并行化的程度,并以自适应残留间隔加速熵编码。实验结果表明,DLPR编码系统以竞争性的编码速度实现了最先进的无损和近乎无效的图像压缩性能。
translated by 谷歌翻译
最近的工作表明,变异自动编码器(VAE)与速率失真理论之间有着密切的理论联系。由此激发,我们从生成建模的角度考虑了有损图像压缩的问题。从最初是为数据(图像)分布建模设计的Resnet VAE开始,我们使用量化意识的后验和先验重新设计其潜在变量模型,从而实现易于量化和熵编码的图像压缩。除了改进的神经网络块外,我们还提出了一类强大而有效的有损图像编码器类别,超过了自然图像(有损)压缩的先前方法。我们的模型以粗略的方式压缩图像,并支持并行编码和解码,从而在GPU上快速执行。
translated by 谷歌翻译
上下文自适应熵模型的应用显着提高了速率 - 渗透率(R-D)的性能,在该表现中,超级培训和自回归模型被共同利用来有效捕获潜在表示的空间冗余。但是,潜在表示仍然包含一些空间相关性。此外,这些基于上下文自适应熵模型的方法在解码过程中无法通过并行计算设备,例如FPGA或GPU。为了减轻这些局限性,我们提出了一个学识渊博的多分辨率图像压缩框架,该框架利用了最近开发的八度卷积,以将潜在表示形式分配到高分辨率(HR)和低分辨率(LR)部分,类似于小波变换,这进一步改善了R-D性能。为了加快解码的速度,我们的方案不使用上下文自适应熵模型。取而代之的是,我们利用一个额外的超层,包括超级编码器和超级解码器,以进一步删除潜在表示的空间冗余。此外,将跨分辨率参数估计(CRPE)引入提出的框架中,以增强信息流并进一步改善速率延伸性能。提出了对总损耗函数提出的其他信息损失,以调整LR部分对最终位流的贡献。实验结果表明,与最先进的学术图像压缩方法相比,我们的方法分别将解码时间减少了约73.35%和93.44%,R-D性能仍然优于H.266/VVC(4:4::4:: 2:0)以及对PSNR和MS-SSIM指标的一些基于学习的方法。
translated by 谷歌翻译
我们提出了一种与变压器的端到端图像压缩和分析模型,针对基于云的图像分类应用程序。代替将现有的变换器的图像分类模型直接放置在图像编解码器之后,我们的目的是重新设计视觉变换器(VIV)模型,以从压缩特征执行图像分类,并促进来自变压器的长期信息的图像压缩。具体而言,我们首先用由卷积神经网络建模的轻量级图像编码器更换vit模型的涂抹杆(即图像分裂和嵌入)。由图像编码器产生的压缩特征被注入卷积电感偏压,并被馈送到变压器,用于绕过图像重建。同时,我们提出了一种特征聚合模块,使压缩特征熔断具有变压器的所选中间特征,并将聚合特征馈送到用于图像重建的解卷积神经网络。聚合特征可以从变压器的自我关注机构获得长期信息,并提高压缩性能。速率 - 失真准确度优化问题最终通过两步培训策略解决。实验结果证明了所提出的模型在图像压缩和分类任务中的有效性。
translated by 谷歌翻译
Recent models for learned image compression are based on autoencoders, learning approximately invertible mappings from pixels to a quantized latent representation. These are combined with an entropy model, a prior on the latent representation that can be used with standard arithmetic coding algorithms to yield a compressed bitstream. Recently, hierarchical entropy models have been introduced as a way to exploit more structure in the latents than simple fully factorized priors, improving compression performance while maintaining end-to-end optimization. Inspired by the success of autoregressive priors in probabilistic generative models, we examine autoregressive, hierarchical, as well as combined priors as alternatives, weighing their costs and benefits in the context of image compression. While it is well known that autoregressive models come with a significant computational penalty, we find that in terms of compression performance, autoregressive and hierarchical priors are complementary and, together, exploit the probabilistic structure in the latents better than all previous learned models. The combined model yields state-of-the-art rate-distortion performance, providing a 15.8% average reduction in file size over the previous state-of-the-art method based on deep learning, which corresponds to a 59.8% size reduction over JPEG, more than 35% reduction compared to WebP and JPEG2000, and bitstreams 8.4% smaller than BPG, the current state-of-the-art image codec. To the best of our knowledge, our model is the first learning-based method to outperform BPG on both PSNR and MS-SSIM distortion metrics.32nd Conference on Neural Information Processing Systems (NIPS 2018),
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译
最近,基于深度学习的图像压缩已取得了显着的进步,并且在主观度量和更具挑战性的客观指标中,与最新的传统方法H.266/vvc相比,取得了更好的评分(R-D)性能。但是,一个主要问题是,许多领先的学识渊博的方案无法保持绩效和复杂性之间的良好权衡。在本文中,我们提出了一个效率和有效的图像编码框架,该框架的复杂性比最高的状态具有相似的R-D性能。首先,我们开发了改进的多尺度残差块(MSRB),该块可以扩展容纳长石,并且更容易获得全球信息。它可以进一步捕获和减少潜在表示的空间相关性。其次,引入了更高级的重要性图网络,以自适应地分配位置到图像的不同区域。第三,我们应用2D定量后flter(PQF)来减少视频编码中样本自适应偏移量(SAO)flter的动机。此外,我们认为编码器和解码器的复杂性对图像压缩性能有不同的影响。基于这一观察结果,我们设计了一个不对称范式,其中编码器采用三个阶段的MSRB来提高学习能力,而解码器只需要一个srb的一个阶段就可以产生令人满意的重建,从而在不牺牲性能的情况下降低了解码的复杂性。实验结果表明,与最先进的方法相比,所提出方法的编码和解码时间速度约为17倍,而R-D性能仅在Kodak和Tecnick数据集中降低了1%,而R-D性能仅少于1%。它仍然比H.266/VVC(4:4:4)和其他基于学习的方法更好。我们的源代码可在https://github.com/fengyurenpingsheng上公开获得。
translated by 谷歌翻译
作为常用的图像压缩格式,JPEG已广泛应用于图像的传输和存储。为了进一步降低压缩成本,同时保持JPEG图像的质量,已提出无损的转码技术来重新压缩DCT域中的压缩JPEG图像。另一方面,以前的工作通常会降低DCT系数的冗余性,并以手工制作的方式优化熵编码的概率预测,缺乏概括能力和灵活性。为了应对上述挑战,我们提出了通过关节损失和残留压缩的学习的无损JPEG转码框架。我们没有直接优化熵估计,而是关注DCT系数中存在的冗余。据我们所知,我们是第一个利用学习的端到端损失变换编码来减少紧凑型代表域中DCT系数的冗余的人。我们还引入了无损转编码的残留压缩,在使用基于上下文的熵编码对其进行压缩之前,它会自适应地学习残留DCT系数的分布。我们提出的转码结构在JPEG图像的压缩中表现出显着的优势,这要归功于学习的损失变换编码和残留熵编码的协作。在多个数据集上进行的广泛实验表明,根据JPEG压缩,我们提出的框架平均可以节省约21.49%的位,这表现优于典型的无损失转码框架JPEG-XL的jpeg-XL 3.51%。
translated by 谷歌翻译
在本文中,我们提出了一类新的高效的深源通道编码方法,可以在非线性变换下的源分布下,可以在名称非线性变换源通道编码(NTSCC)下收集。在所考虑的模型中,发射器首先了解非线性分析变换以将源数据映射到潜伏空间中,然后通过深关节源通道编码将潜在的表示发送到接收器。我们的模型在有效提取源语义特征并提供源通道编码的侧面信息之前,我们的模型包括强度。与现有的传统深度联合源通道编码方法不同,所提出的NTSCC基本上学习源潜像和熵模型,作为先前的潜在表示。因此,开发了新的自适应速率传输和高辅助辅助编解码器改进机制以升级深关节源通道编码。整个系统设计被制定为优化问题,其目标是最小化建立感知质量指标下的端到端传输率失真性能。在简单的示例源和测试图像源上,我们发现所提出的NTSCC传输方法通常优于使用标准的深关节源通道编码和基于经典分离的数字传输的模拟传输。值得注意的是,由于其剧烈的内容感知能力,所提出的NTSCC方法可能会支持未来的语义通信。
translated by 谷歌翻译
可扩展的编码,可以适应通道带宽变化,在当今复杂的网络环境中表现良好。然而,现有的可扩展压缩方法面临两个挑战:降低压缩性能和可扩展性不足。在本文中,我们提出了第一所学习的细粒度可扩展图像压缩模型(DeepFGS)来克服上述两个缺点。具体地,我们介绍一个特征分离骨干,将图像信息划分为基本和可伸缩的功能,然后通过信息重新排列策略通过通道重新分配特征通道。以这种方式,我们可以通过一次通过编码来生成连续可扩展的比特流。此外,我们重复使用解码器以降低DeepFGS的参数和计算复杂性。实验表明,我们的DeePFGS优于PSNR和MS-SSIM度量中的所有基于学习的可伸缩图像压缩模型和传统可伸缩图像编解码器。据我们所知,我们的DeePFGS是对学习的细粒度可扩展编码的首次探索,与基于学习的方法相比,实现了最优质的可扩展性。
translated by 谷歌翻译
无损图像压缩是图像压缩中必不可少的研究领域。最近,与传统的无损方法(例如WebP,JPEG2000和FLIF)相比,基于学习的图像压缩方法具有令人印象深刻的性能。但是,仍然有许多令人印象深刻的有损压缩方法可应用于无损压缩。因此,在本文中,我们探讨了广泛用于有损压缩的方法,并将其应用于无损压缩。受损失压缩显示的高斯混合模型(GMM)的令人印象深刻的性能的启发,我们与GMM生成了无损网络体系结构。除了注意到注意模块和自回归模型的成功成就外,我们建议利用注意模块,并为我们的网络体系结构中的原始图像添加额外的自动回归模型,以提高性能。实验结果表明,我们的方法优于大多数经典的无损压缩方法和现有基于学习的方法。
translated by 谷歌翻译
最近,学到的图像压缩方法优于传统手工制作的方法,包括BPG。该成功的关键之一是学习的熵模型,该模型估计了量化潜在表示的概率分布。与其他视觉任务一样,最近学习的熵模型基于卷积神经网络(CNN)。但是,CNN由于局部连接性的性质而在建模长期依赖性方面有限制,这在图像压缩中可能是一个重要的瓶颈,其中降低空间冗余是一个关键点。为了克服这个问题,我们提出了一个名为Informand Transformer(Informer)的新型熵模型,该模型使用注意机制以内容依赖性方式利用全球和局部信息。我们的实验表明,告密者可以提高利率 - 对柯达和Tecnick数据集的最先进方法的延伸性能,而没有二次计算复杂性问题。我们的源代码可在https://github.com/naver-ai/informer上获得。
translated by 谷歌翻译
We describe an end-to-end trainable model for image compression based on variational autoencoders. The model incorporates a hyperprior to effectively capture spatial dependencies in the latent representation. This hyperprior relates to side information, a concept universal to virtually all modern image codecs, but largely unexplored in image compression using artificial neural networks (ANNs). Unlike existing autoencoder compression methods, our model trains a complex prior jointly with the underlying autoencoder. We demonstrate that this model leads to state-of-the-art image compression when measuring visual quality using the popular MS-SSIM index, and yields rate-distortion performance surpassing published ANN-based methods when evaluated using a more traditional metric based on squared error (PSNR). Furthermore, we provide a qualitative comparison of models trained for different distortion metrics.
translated by 谷歌翻译
Recent neural compression methods have been based on the popular hyperprior framework. It relies on Scalar Quantization and offers a very strong compression performance. This contrasts from recent advances in image generation and representation learning, where Vector Quantization is more commonly employed. In this work, we attempt to bring these lines of research closer by revisiting vector quantization for image compression. We build upon the VQ-VAE framework and introduce several modifications. First, we replace the vanilla vector quantizer by a product quantizer. This intermediate solution between vector and scalar quantization allows for a much wider set of rate-distortion points: It implicitly defines high-quality quantizers that would otherwise require intractably large codebooks. Second, inspired by the success of Masked Image Modeling (MIM) in the context of self-supervised learning and generative image models, we propose a novel conditional entropy model which improves entropy coding by modelling the co-dependencies of the quantized latent codes. The resulting PQ-MIM model is surprisingly effective: its compression performance on par with recent hyperprior methods. It also outperforms HiFiC in terms of FID and KID metrics when optimized with perceptual losses (e.g. adversarial). Finally, since PQ-MIM is compatible with image generation frameworks, we show qualitatively that it can operate under a hybrid mode between compression and generation, with no further training or finetuning. As a result, we explore the extreme compression regime where an image is compressed into 200 bytes, i.e., less than a tweet.
translated by 谷歌翻译
基于生成模型的图像无损压缩算法在改善压缩比方面取得了巨大的成功。但是,即使使用最先进的AI加速芯片,它们中大多数的吞吐量也小于1 Mb/s,从而阻止了它们的大多数现实应用应用,通常需要100 MB/s。在本文中,我们提出了PILC,这是一种端到端图像无损压缩框架,使用单个NVIDIA TESLA V100 GPU实现200 Mb/s的压缩和减压,比以前最有效的速度快10倍。为了获得此结果,我们首先开发了一个AI编解码器,该AI编解码器结合了自动回归模型和VQ-VAE,在轻质设置中性能很好,然后我们设计了一个低复杂性熵编码器,可与我们的编解码器配合使用。实验表明,在多个数据集中,我们的框架压缩比PNG高30%。我们认为,这是将AI压缩推向商业用途的重要步骤。
translated by 谷歌翻译
随着深度学习技术的发展,深度学习与图像压缩的结合引起了很多关注。最近,学到的图像压缩方法在速率绩效方面超出了其经典对应物。但是,连续的速率适应仍然是一个悬而未决的问题。一些学到的图像压缩方法将多个网络用于多个速率,而另一些则使用一个模型,而牺牲了计算复杂性的增加和性能降解。在本文中,我们提出了一个不断的可调节率的学术图像压缩框架,不对称获得了变异自动编码器(AG-VAE)。 AG-VAE利用一对增益单元在一个单个模型中实现离散率适应,并具有可忽略的附加计算。然后,通过使用指数插值,可以在不损害性能的情况下实现连续速率适应。此外,我们提出了不对称的高斯熵模型,以进行更准确的熵估计。详尽的实验表明,与经典图像编解码器相比,我们的方法通过SOTA学习的图像压缩方法获得了可比的定量性能,并且定性性能更好。在消融研究中,我们证实了增益单元和不对称高斯熵模型的有用性和优势。
translated by 谷歌翻译
现在,存储快速增长的大数据是不可取的,这需要高性能的无损压缩技术。基于可能性的生成模型在无损压缩中获得了成功,其中基于流基的模型在允许与映射映射进行精确的数据似然优化时是可取的。然而,常见的连续流是矛盾的,并且编码方案的离散性,这需要1)对流量模型的严格约束来降低性能或2)编码许多减少效率的诸多的映射误差。在本文中,我们调查了对无损压缩的音量保持流动,并显示了一个没有错误的自由度映射。我们提出了来自总体积保护流的数值可释放的流量(IVPF)。通过在流模型上引入新颖的计算算法,在没有任何数值误差的情况下实现精确的映射映射。我们还提出了一种基于IVPF的无损压缩算法。各种数据集的实验表明,基于IVPF的算法通过轻量级压缩算法实现了最先进的压缩比。
translated by 谷歌翻译
In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
translated by 谷歌翻译
最近基于学习的无损图像压缩方法在子图像单元中编码图像,并实现传统的非学习算法的可比性。然而,这些方法不考虑高频区域中的性能下降,给出低频区域的相同考虑。在本文中,我们提出了一种新的无损图像压缩方法,其以粗略的方式进行编码,以不同地分离和处理低频区域。我们最初压缩低频分量,然后将它们用作额外的输入来编码剩余的高频区域。在这种情况下,低频分量在此情况下发挥作用,这导致高频区域的估计改善。此外,我们设计频率分解过程,以适应颜色通道,空间位置和图像特征。结果,我们的方法导出了低/高频分量的图像特异性最佳比率。实验表明,该方法实现了基准高分辨率数据集的最先进的性能。
translated by 谷歌翻译
学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题,其中运动补偿被认为是最具挑战性的问题之一。在本文中,我们通过异质变形补偿策略(HDCVC)提出了一个学识渊博的视频压缩框架,以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说,所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形(Hetdeform)内核偏移量,而不是利用光流或单尺内核变形对齐。然后,我们将参考特征转换为HetDeform卷积以完成运动补偿。此外,我们设计了一个空间 - 邻化的分裂归一化(SNCDN),以实现更有效的数据高斯化结合了广义分裂的归一化。此外,我们提出了一个多框架增强的重建模块,用于利用上下文和时间信息以提高质量。实验结果表明,HDCVC比最近最新学习的视频压缩方法取得了优越的性能。
translated by 谷歌翻译