作为常用的图像压缩格式,JPEG已广泛应用于图像的传输和存储。为了进一步降低压缩成本,同时保持JPEG图像的质量,已提出无损的转码技术来重新压缩DCT域中的压缩JPEG图像。另一方面,以前的工作通常会降低DCT系数的冗余性,并以手工制作的方式优化熵编码的概率预测,缺乏概括能力和灵活性。为了应对上述挑战,我们提出了通过关节损失和残留压缩的学习的无损JPEG转码框架。我们没有直接优化熵估计,而是关注DCT系数中存在的冗余。据我们所知,我们是第一个利用学习的端到端损失变换编码来减少紧凑型代表域中DCT系数的冗余的人。我们还引入了无损转编码的残留压缩,在使用基于上下文的熵编码对其进行压缩之前,它会自适应地学习残留DCT系数的分布。我们提出的转码结构在JPEG图像的压缩中表现出显着的优势,这要归功于学习的损失变换编码和残留熵编码的协作。在多个数据集上进行的广泛实验表明,根据JPEG压缩,我们提出的框架平均可以节省约21.49%的位,这表现优于典型的无损失转码框架JPEG-XL的jpeg-XL 3.51%。
translated by 谷歌翻译
对于许多技术领域的专业用户,例如医学,遥感,精密工程和科学研究,无损和近乎无情的图像压缩至关重要。但是,尽管在基于学习的图像压缩方面的研究兴趣迅速增长,但没有发表的方法提供无损和近乎无情的模式。在本文中,我们提出了一个统一而强大的深层损失加上残留(DLPR)编码框架,以实现无损和近乎无情的图像压缩。在无损模式下,DLPR编码系统首先执行有损压缩,然后执行残差的无损编码。我们在VAE的方法中解决了关节损失和残留压缩问题,并添加残差的自回归上下文模型以增强无损压缩性能。在近乎荒谬的模式下,我们量化了原始残差以满足给定的$ \ ell_ \ infty $错误绑定,并提出了可扩展的近乎无情的压缩方案,该方案适用于可变$ \ ell_ \ infty $ bunds而不是训练多个网络。为了加快DLPR编码,我们通过新颖的编码环境设计提高了算法并行化的程度,并以自适应残留间隔加速熵编码。实验结果表明,DLPR编码系统以竞争性的编码速度实现了最先进的无损和近乎无效的图像压缩性能。
translated by 谷歌翻译
最近,基于深度学习的图像压缩已取得了显着的进步,并且在主观度量和更具挑战性的客观指标中,与最新的传统方法H.266/vvc相比,取得了更好的评分(R-D)性能。但是,一个主要问题是,许多领先的学识渊博的方案无法保持绩效和复杂性之间的良好权衡。在本文中,我们提出了一个效率和有效的图像编码框架,该框架的复杂性比最高的状态具有相似的R-D性能。首先,我们开发了改进的多尺度残差块(MSRB),该块可以扩展容纳长石,并且更容易获得全球信息。它可以进一步捕获和减少潜在表示的空间相关性。其次,引入了更高级的重要性图网络,以自适应地分配位置到图像的不同区域。第三,我们应用2D定量后flter(PQF)来减少视频编码中样本自适应偏移量(SAO)flter的动机。此外,我们认为编码器和解码器的复杂性对图像压缩性能有不同的影响。基于这一观察结果,我们设计了一个不对称范式,其中编码器采用三个阶段的MSRB来提高学习能力,而解码器只需要一个srb的一个阶段就可以产生令人满意的重建,从而在不牺牲性能的情况下降低了解码的复杂性。实验结果表明,与最先进的方法相比,所提出方法的编码和解码时间速度约为17倍,而R-D性能仅在Kodak和Tecnick数据集中降低了1%,而R-D性能仅少于1%。它仍然比H.266/VVC(4:4:4)和其他基于学习的方法更好。我们的源代码可在https://github.com/fengyurenpingsheng上公开获得。
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译
上下文自适应熵模型的应用显着提高了速率 - 渗透率(R-D)的性能,在该表现中,超级培训和自回归模型被共同利用来有效捕获潜在表示的空间冗余。但是,潜在表示仍然包含一些空间相关性。此外,这些基于上下文自适应熵模型的方法在解码过程中无法通过并行计算设备,例如FPGA或GPU。为了减轻这些局限性,我们提出了一个学识渊博的多分辨率图像压缩框架,该框架利用了最近开发的八度卷积,以将潜在表示形式分配到高分辨率(HR)和低分辨率(LR)部分,类似于小波变换,这进一步改善了R-D性能。为了加快解码的速度,我们的方案不使用上下文自适应熵模型。取而代之的是,我们利用一个额外的超层,包括超级编码器和超级解码器,以进一步删除潜在表示的空间冗余。此外,将跨分辨率参数估计(CRPE)引入提出的框架中,以增强信息流并进一步改善速率延伸性能。提出了对总损耗函数提出的其他信息损失,以调整LR部分对最终位流的贡献。实验结果表明,与最先进的学术图像压缩方法相比,我们的方法分别将解码时间减少了约73.35%和93.44%,R-D性能仍然优于H.266/VVC(4:4::4:: 2:0)以及对PSNR和MS-SSIM指标的一些基于学习的方法。
translated by 谷歌翻译
In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
translated by 谷歌翻译
可扩展的编码,可以适应通道带宽变化,在当今复杂的网络环境中表现良好。然而,现有的可扩展压缩方法面临两个挑战:降低压缩性能和可扩展性不足。在本文中,我们提出了第一所学习的细粒度可扩展图像压缩模型(DeepFGS)来克服上述两个缺点。具体地,我们介绍一个特征分离骨干,将图像信息划分为基本和可伸缩的功能,然后通过信息重新排列策略通过通道重新分配特征通道。以这种方式,我们可以通过一次通过编码来生成连续可扩展的比特流。此外,我们重复使用解码器以降低DeepFGS的参数和计算复杂性。实验表明,我们的DeePFGS优于PSNR和MS-SSIM度量中的所有基于学习的可伸缩图像压缩模型和传统可伸缩图像编解码器。据我们所知,我们的DeePFGS是对学习的细粒度可扩展编码的首次探索,与基于学习的方法相比,实现了最优质的可扩展性。
translated by 谷歌翻译
学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题,其中运动补偿被认为是最具挑战性的问题之一。在本文中,我们通过异质变形补偿策略(HDCVC)提出了一个学识渊博的视频压缩框架,以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说,所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形(Hetdeform)内核偏移量,而不是利用光流或单尺内核变形对齐。然后,我们将参考特征转换为HetDeform卷积以完成运动补偿。此外,我们设计了一个空间 - 邻化的分裂归一化(SNCDN),以实现更有效的数据高斯化结合了广义分裂的归一化。此外,我们提出了一个多框架增强的重建模块,用于利用上下文和时间信息以提高质量。实验结果表明,HDCVC比最近最新学习的视频压缩方法取得了优越的性能。
translated by 谷歌翻译
Conventional video compression approaches use the predictive coding architecture and encode the corresponding motion information and residual information. In this paper, taking advantage of both classical architecture in the conventional video compression method and the powerful nonlinear representation ability of neural networks, we propose the first end-to-end video compression deep model that jointly optimizes all the components for video compression. Specifically, learning based optical flow estimation is utilized to obtain the motion information and reconstruct the current frames. Then we employ two auto-encoder style neural networks to compress the corresponding motion and residual information. All the modules are jointly learned through a single loss function, in which they collaborate with each other by considering the trade-off between reducing the number of compression bits and improving quality of the decoded video. Experimental results show that the proposed approach can outperform the widely used video coding standard H.264 in terms of PSNR and be even on par with the latest standard H.265 in terms of MS-SSIM. Code is released at https://github.com/GuoLusjtu/DVC. * Corresponding author (a) Original frame (Bpp/MS-SSIM) (b) H.264 (0.0540Bpp/0.945) (c) H.265 (0.082Bpp/0.960) (d) Ours ( 0.0529Bpp/ 0.961
translated by 谷歌翻译
无损图像压缩是图像压缩中必不可少的研究领域。最近,与传统的无损方法(例如WebP,JPEG2000和FLIF)相比,基于学习的图像压缩方法具有令人印象深刻的性能。但是,仍然有许多令人印象深刻的有损压缩方法可应用于无损压缩。因此,在本文中,我们探讨了广泛用于有损压缩的方法,并将其应用于无损压缩。受损失压缩显示的高斯混合模型(GMM)的令人印象深刻的性能的启发,我们与GMM生成了无损网络体系结构。除了注意到注意模块和自回归模型的成功成就外,我们建议利用注意模块,并为我们的网络体系结构中的原始图像添加额外的自动回归模型,以提高性能。实验结果表明,我们的方法优于大多数经典的无损压缩方法和现有基于学习的方法。
translated by 谷歌翻译
对于神经视频编解码器,设计有效的熵模型至关重要但又具有挑战性,该模型可以准确预测量化潜在表示的概率分布。但是,大多数现有的视频编解码器直接使用图像编解码器的现成的熵模型来编码残差或运动,并且不会完全利用视频中的时空特性。为此,本文提出了一个强大的熵模型,该模型有效地捕获了空间和时间依赖性。特别是,我们介绍了潜在的先验,这些先验利用了潜在表示之间的相关性来挤压时间冗余。同时,提出了双重空间先验,以平行友好的方式降低空间冗余。此外,我们的熵模型也是通用的。除了估计概率分布外,我们的熵模型还在空间通道上生成量化步骤。这种内容自适应的量化机制不仅有助于我们的编解码器在单个模型中实现平滑的速率调整,而且还通过动态位分配来改善最终速率延伸性能。实验结果表明,与H.266(VTM)相比,使用最高的压缩率配置,我们的神经编解码器在提出的熵模型中,我们的神经编解码器可以在UVG数据集上节省18.2%的比特率。它在神经视频编解码器的开发中是一个新的里程碑。这些代码在https://github.com/microsoft/dcvc上。
translated by 谷歌翻译
在近期深度图像压缩神经网络中,熵模型在估计深度图像编码的先前分配时起着重要作用。现有方法将HydupRior与熵估计功能中的本地上下文组合。由于没有全球愿景,这大大限制了他们的表现。在这项工作中,我们提出了一种新的全局参考模型,用于图像压缩,以有效地利用本地和全局上下文信息,导致增强的压缩率。所提出的方法扫描解码的潜伏,然后找到最相关的潜伏,以帮助分布估计当前潜伏。这项工作的副产品是一种平均转换GDN模块的创新,进一步提高了性能。实验结果表明,所提出的模型优于行业中大多数最先进方法的速率变形性能。
translated by 谷歌翻译
为了提高图像压缩性能,最近的基于神经网络的基于神经网络的研究可以分为三类:学习编解码器,后处理网络和紧凑型表示网络。学习编解码器专为超出传统压缩模块而设计的端到端学习。后处理网络使用基于示例的学习增加解码图像的质量。学习紧凑的表示网络,以降低输入图像的容量,以减少比特率的同时保持解码图像的质量。然而,这些方法与现有的编解码器不兼容,或者不会最佳地增加编码效率。具体地,由于编解码器的不准确性,难以在先前的研究中实现最佳学习。在本文中,我们提出了一种基于辅助编解码器网络(ACN)的新颖的标准兼容图像压缩框架。 ACNS旨在模仿现有编解码器的图像劣化操作,这为紧凑型表示网络提供了更准确的梯度。因此,可以有效地和最佳地学习紧凑的表示和后处理网络。我们证明,我们基于JPEG和高效视频编码(HEVC)标准的建议框架基本上以标准的兼容方式大致优于现有的图像压缩算法。
translated by 谷歌翻译
最近,学到的图像压缩方法优于传统手工制作的方法,包括BPG。该成功的关键之一是学习的熵模型,该模型估计了量化潜在表示的概率分布。与其他视觉任务一样,最近学习的熵模型基于卷积神经网络(CNN)。但是,CNN由于局部连接性的性质而在建模长期依赖性方面有限制,这在图像压缩中可能是一个重要的瓶颈,其中降低空间冗余是一个关键点。为了克服这个问题,我们提出了一个名为Informand Transformer(Informer)的新型熵模型,该模型使用注意机制以内容依赖性方式利用全球和局部信息。我们的实验表明,告密者可以提高利率 - 对柯达和Tecnick数据集的最先进方法的延伸性能,而没有二次计算复杂性问题。我们的源代码可在https://github.com/naver-ai/informer上获得。
translated by 谷歌翻译
学习的图像压缩技术近年来取得了相当大的发展。在本文中,我们发现性能瓶颈位于使用单个高度解码器,在这种情况下,三元高斯模型折叠到二进制文件。为了解决这个问题,我们建议使用三个高度解码器来分离混合参数的解码过程,以分散的高斯混合似然性,实现更准确的参数估计。实验结果表明,与最先进的方法相比,MS-SSSIM优化的所提出的方法实现了3.36%的BD速率。所提出的方法对编码时间和拖鞋的贡献可以忽略不计。
translated by 谷歌翻译
视觉信号压缩是一个长期存在的问题。通过深度学习的最近进步,令人兴奋的进展已经推动。尽管压缩性能更好,但现有的端到端压缩算法仍然以速率失真优化而设计更好的信号质量。在本文中,我们表明,网络架构的设计和优化可以进一步改善压缩机器视觉。我们为机器视觉的端到端压缩的编码器提出了一种反转的瓶颈结构,这特别考虑了语义信息的有效表示。此外,我们通过将分析精度纳入优化过程来追求优化的能力,并且通过以迭代方式进一步探索具有广义速率准确优化的最优性。我们使用对象检测作为展示用于机器视觉的端到端压缩,并且广泛的实验表明,该方案在分析性能方面实现了显着的BD速率。此外,由于信号电平重建,还对其他机器视觉任务的强大泛化能力表明了该方案的承诺。
translated by 谷歌翻译
最近,越来越多的图像被压缩并发送到用于机器分析任务的后端设备〜(\ textIt {e.g。,}对象检测),而不是纯粹由人类观察。但是,大多数传统图像编解码器旨在最大程度地减少人类视觉系统的失真,而无需考虑机器视觉系统的需求增加。在这项工作中,我们为机器视觉任务提出了一种预处理增强的图像压缩方法,以应对这一挑战。我们的框架不是依靠学习的图像编解码器进行端到端优化,而是基于传统的非差异编解码器,这意味着它是标准兼容的,并且可以轻松地部署在实际应用中。具体而言,我们在编码器之前提出了一个神经预处理模块,以维护下游任务的有用语义信息,并抑制无关信息以节省比特率。此外,我们的神经预处理模块是量化自适应的,可用于不同的压缩比。更重要的是,要通过下游机器视觉任务共同优化预处理模块,我们在后传播阶段介绍了传统非差异编解码器的代理网络。我们通过评估具有不同骨干网络的两个代表性下游任务的压缩方法来提供广泛的实验。实验结果表明,我们的方法通过节省约20%的比特率来实现编码比特率和下游机器视觉任务的性能之间的更好权衡。
translated by 谷歌翻译
大多数现有的神经视频压缩方法采用预测编码框架,该预测编码框架首先生成预测帧,然后用当前帧编码其残差。然而,对于压缩比,预测编码只是子最优解,因为它使用简单的减法操作来消除跨越帧的冗余。在本文中,我们提出了一种深度上下文视频压缩框架,以使从预测编码转换到条件编码。特别是,我们尝试回答以下问题:如何在深度视频压缩框架下定义,使用和学习条件。要点击条件编码的可能性,我们将使用要素域上下文提出为条件。这使我们能够利用高维上下文来对编码器和解码器携带丰富的信息,这有助于重建高频内容以获得更高的视频质量。我们的框架也是可扩展的,其中条件可以灵活设计。实验表明,我们的方法可以显着优于先前的最先进(SOTA)深度视频压缩方法。与使用SifeSlow预设相比,我们可以为1080p标准测试视频达到26.0%的比特率保存。
translated by 谷歌翻译
最近基于学习的无损图像压缩方法在子图像单元中编码图像,并实现传统的非学习算法的可比性。然而,这些方法不考虑高频区域中的性能下降,给出低频区域的相同考虑。在本文中,我们提出了一种新的无损图像压缩方法,其以粗略的方式进行编码,以不同地分离和处理低频区域。我们最初压缩低频分量,然后将它们用作额外的输入来编码剩余的高频区域。在这种情况下,低频分量在此情况下发挥作用,这导致高频区域的估计改善。此外,我们设计频率分解过程,以适应颜色通道,空间位置和图像特征。结果,我们的方法导出了低/高频分量的图像特异性最佳比率。实验表明,该方法实现了基准高分辨率数据集的最先进的性能。
translated by 谷歌翻译
Recently, many neural network-based image compression methods have shown promising results superior to the existing tool-based conventional codecs. However, most of them are often trained as separate models for different target bit rates, thus increasing the model complexity. Therefore, several studies have been conducted for learned compression that supports variable rates with single models, but they require additional network modules, layers, or inputs that often lead to complexity overhead, or do not provide sufficient coding efficiency. In this paper, we firstly propose a selective compression method that partially encodes the latent representations in a fully generalized manner for deep learning-based variable-rate image compression. The proposed method adaptively determines essential representation elements for compression of different target quality levels. For this, we first generate a 3D importance map as the nature of input content to represent the underlying importance of the representation elements. The 3D importance map is then adjusted for different target quality levels using importance adjustment curves. The adjusted 3D importance map is finally converted into a 3D binary mask to determine the essential representation elements for compression. The proposed method can be easily integrated with the existing compression models with a negligible amount of overhead increase. Our method can also enable continuously variable-rate compression via simple interpolation of the importance adjustment curves among different quality levels. The extensive experimental results show that the proposed method can achieve comparable compression efficiency as those of the separately trained reference compression models and can reduce decoding time owing to the selective compression. The sample codes are publicly available at https://github.com/JooyoungLeeETRI/SCR.
translated by 谷歌翻译