由于智能手机摄像机中配备了相对较小的传感器,通常在当今捕获的图像中通常存在高噪声,在这种情况下,噪声带来了有损图像压缩算法的额外挑战。如果没有能力分辨图像细节和噪声之间的差异,一般图像压缩方法分配了其他位,以在压缩过程中明确存储不需要的图像噪声,并在减压期间恢复不愉快的嘈杂图像。基于观察结果,我们优化图像压缩算法是噪声吸引的,因为关节降解和压缩以解决位不当分配问题。关键是要通过消除压缩过程中的不希望的噪声来将原始噪声图像转换为无噪声的位,以后将其作为干净的图像解压缩。具体而言,我们提出了一种新型的两分支,重量分担的架构,并具有插件功能Denoisers,以允许在几乎没有计算成本的情况下简单有效地实现目标。实验结果表明,我们的方法对合成数据集和现实数据集的现有基线方法有了显着改进。我们的源代码可从https://github.com/felixcheng97/denoisecompression获得。
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译
In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
translated by 谷歌翻译
当涉及数码相机中的图像压缩时,传统上是在压缩之前执行的。但是,在某些应用中,可能需要进行图像噪声来证明图像的可信度,例如法院证据和图像取证。这意味着除干净的图像本身外,还需要编码噪声本身。在本文中,我们提出了一个基于学习的图像压缩框架,在该框架中共同执行图像denoising和压缩。图像编解码器的潜在空间以可扩展的方式组织,以便可以从潜在空间的子集(基础层)中解码清洁图像,而嘈杂的图像则以较高的速率从完整的潜在空间解码。使用潜在空间的子集作为剥落图像,可以以较低的速率进行deno。除了提供嘈杂的输入图像的可扩展表示外,用压缩共同执行deno,这是直观的意义,因为噪声很难压缩;因此,可压缩性是可能有助于区分信号的标准之一。将提出的编解码器与已建立的压缩和降解基准进行了比较,并且与最先进的编解码器和最先进的Denoiser的级联组合相比,实验显示了大量的比特率节省。
translated by 谷歌翻译
最近的工作表明,变异自动编码器(VAE)与速率失真理论之间有着密切的理论联系。由此激发,我们从生成建模的角度考虑了有损图像压缩的问题。从最初是为数据(图像)分布建模设计的Resnet VAE开始,我们使用量化意识的后验和先验重新设计其潜在变量模型,从而实现易于量化和熵编码的图像压缩。除了改进的神经网络块外,我们还提出了一类强大而有效的有损图像编码器类别,超过了自然图像(有损)压缩的先前方法。我们的模型以粗略的方式压缩图像,并支持并行编码和解码,从而在GPU上快速执行。
translated by 谷歌翻译
基于学习的方法有效地促进了图像压缩社区。同时,基于变异的自动编码器(VAE)的可变速率方法最近引起了很多关注,以避免使用一组不同的网络来用于各种压缩率。尽管已经取得了显着的性能,但一旦执行了多个压缩/减压操作,这些方法将很容易损坏,从而导致图像质量将被大幅下降并且会出现强大的伪像。因此,我们试图解决高保真的细度可变速率图像压缩的问题,并提出可逆激活变换(IAT)模块。我们以单个速率可逆神经网络(INN)模型(Qlevel)以数学可逆的方式实施IAT,并将质量级别(QLevel)送入IAT,以产生缩放和偏置张量。 IAT和QLEVEL一起为图像压缩模型提供了罚款可变速率控制的能力,同时更好地保持图像保真度。广泛的实验表明,配备了我们IAT模块的单率图像压缩模型具有实现可变速率控制而无需任何妥协的能力。并且我们的IAT包裹模型通过最新的基于学习的图像压缩方法获得了可比的利率延伸性能。此外,我们的方法的表现优于最新的可变速率图像压缩方法,尤其是在多次重新编码之后。
translated by 谷歌翻译
在本文中,我们提出了一类新的高效的深源通道编码方法,可以在非线性变换下的源分布下,可以在名称非线性变换源通道编码(NTSCC)下收集。在所考虑的模型中,发射器首先了解非线性分析变换以将源数据映射到潜伏空间中,然后通过深关节源通道编码将潜在的表示发送到接收器。我们的模型在有效提取源语义特征并提供源通道编码的侧面信息之前,我们的模型包括强度。与现有的传统深度联合源通道编码方法不同,所提出的NTSCC基本上学习源潜像和熵模型,作为先前的潜在表示。因此,开发了新的自适应速率传输和高辅助辅助编解码器改进机制以升级深关节源通道编码。整个系统设计被制定为优化问题,其目标是最小化建立感知质量指标下的端到端传输率失真性能。在简单的示例源和测试图像源上,我们发现所提出的NTSCC传输方法通常优于使用标准的深关节源通道编码和基于经典分离的数字传输的模拟传输。值得注意的是,由于其剧烈的内容感知能力,所提出的NTSCC方法可能会支持未来的语义通信。
translated by 谷歌翻译
在近期深度图像压缩神经网络中,熵模型在估计深度图像编码的先前分配时起着重要作用。现有方法将HydupRior与熵估计功能中的本地上下文组合。由于没有全球愿景,这大大限制了他们的表现。在这项工作中,我们提出了一种新的全局参考模型,用于图像压缩,以有效地利用本地和全局上下文信息,导致增强的压缩率。所提出的方法扫描解码的潜伏,然后找到最相关的潜伏,以帮助分布估计当前潜伏。这项工作的副产品是一种平均转换GDN模块的创新,进一步提高了性能。实验结果表明,所提出的模型优于行业中大多数最先进方法的速率变形性能。
translated by 谷歌翻译
最近,基于深度学习的图像压缩已取得了显着的进步,并且在主观度量和更具挑战性的客观指标中,与最新的传统方法H.266/vvc相比,取得了更好的评分(R-D)性能。但是,一个主要问题是,许多领先的学识渊博的方案无法保持绩效和复杂性之间的良好权衡。在本文中,我们提出了一个效率和有效的图像编码框架,该框架的复杂性比最高的状态具有相似的R-D性能。首先,我们开发了改进的多尺度残差块(MSRB),该块可以扩展容纳长石,并且更容易获得全球信息。它可以进一步捕获和减少潜在表示的空间相关性。其次,引入了更高级的重要性图网络,以自适应地分配位置到图像的不同区域。第三,我们应用2D定量后flter(PQF)来减少视频编码中样本自适应偏移量(SAO)flter的动机。此外,我们认为编码器和解码器的复杂性对图像压缩性能有不同的影响。基于这一观察结果,我们设计了一个不对称范式,其中编码器采用三个阶段的MSRB来提高学习能力,而解码器只需要一个srb的一个阶段就可以产生令人满意的重建,从而在不牺牲性能的情况下降低了解码的复杂性。实验结果表明,与最先进的方法相比,所提出方法的编码和解码时间速度约为17倍,而R-D性能仅在Kodak和Tecnick数据集中降低了1%,而R-D性能仅少于1%。它仍然比H.266/VVC(4:4:4)和其他基于学习的方法更好。我们的源代码可在https://github.com/fengyurenpingsheng上公开获得。
translated by 谷歌翻译
Conventional video compression approaches use the predictive coding architecture and encode the corresponding motion information and residual information. In this paper, taking advantage of both classical architecture in the conventional video compression method and the powerful nonlinear representation ability of neural networks, we propose the first end-to-end video compression deep model that jointly optimizes all the components for video compression. Specifically, learning based optical flow estimation is utilized to obtain the motion information and reconstruct the current frames. Then we employ two auto-encoder style neural networks to compress the corresponding motion and residual information. All the modules are jointly learned through a single loss function, in which they collaborate with each other by considering the trade-off between reducing the number of compression bits and improving quality of the decoded video. Experimental results show that the proposed approach can outperform the widely used video coding standard H.264 in terms of PSNR and be even on par with the latest standard H.265 in terms of MS-SSIM. Code is released at https://github.com/GuoLusjtu/DVC. * Corresponding author (a) Original frame (Bpp/MS-SSIM) (b) H.264 (0.0540Bpp/0.945) (c) H.265 (0.082Bpp/0.960) (d) Ours ( 0.0529Bpp/ 0.961
translated by 谷歌翻译
虽然昼夜投影(ERP)是存储全向图像(也称为360度图像)的方便形式,但它既不是等区别也不是共形的,因此与随后的视觉通信不友好。在图像压缩的背景下,ERP将过度采样和变形和靠近杆子的东西,使得感知上最佳的比特分配难以实现。在传统的360度图像压缩中,引入了诸如区域明智的包装和平铺表示的技术以减轻过采样问题,实现有限的成功。在本文中,我们首次尝试学习用于全向图像压缩的深度神经网络之一。我们首先描述参数伪压花表示作为常见的伪变性地图突起的概括。提出了一种计算上易贪婪的方法,以确定关于速率失真性能的新型代理目标的假阴压表示的(子) - 优化配置。然后,我们提出了假阴压卷曲的360度图像压缩。在参数表示的合理约束下,可以通过标准卷积与所谓的假阴压填充有效地实现假阴压卷积。为了展示我们想法的可行性,我们实现了一个端到端的360度图像压缩系统,由学习的假阴短表示,分析变换,非均匀量化器,合成变换和熵模型组成。实验结果为19,790美元$ 9,790 $全向图像表明,我们的方法始终如一的比竞争方法达到更好的速率失真性能。此外,对于所有比特率的所有图像,我们的方法的视觉质量显着提高。
translated by 谷歌翻译
本文提出了图像恢复的新变异推理框架和一个卷积神经网络(CNN)结构,该结构可以解决所提出的框架所描述的恢复问题。较早的基于CNN的图像恢复方法主要集中在网络体系结构设计或培训策略上,具有非盲方案,其中已知或假定降解模型。为了更接近现实世界的应用程序,CNN还接受了整个数据集的盲目培训,包括各种降解。然而,给定有多样化的图像的高质量图像的条件分布太复杂了,无法通过单个CNN学习。因此,也有一些方法可以提供其他先验信息来培训CNN。与以前的方法不同,我们更多地专注于基于贝叶斯观点以及如何重新重新重构目标的恢复目标。具体而言,我们的方法放松了原始的后推理问题,以更好地管理子问题,因此表现得像分裂和互动方案。结果,与以前的框架相比,提出的框架提高了几个恢复问题的性能。具体而言,我们的方法在高斯denoising,现实世界中的降噪,盲图超级分辨率和JPEG压缩伪像减少方面提供了最先进的性能。
translated by 谷歌翻译
We describe an end-to-end trainable model for image compression based on variational autoencoders. The model incorporates a hyperprior to effectively capture spatial dependencies in the latent representation. This hyperprior relates to side information, a concept universal to virtually all modern image codecs, but largely unexplored in image compression using artificial neural networks (ANNs). Unlike existing autoencoder compression methods, our model trains a complex prior jointly with the underlying autoencoder. We demonstrate that this model leads to state-of-the-art image compression when measuring visual quality using the popular MS-SSIM index, and yields rate-distortion performance surpassing published ANN-based methods when evaluated using a more traditional metric based on squared error (PSNR). Furthermore, we provide a qualitative comparison of models trained for different distortion metrics.
translated by 谷歌翻译
Recent models for learned image compression are based on autoencoders, learning approximately invertible mappings from pixels to a quantized latent representation. These are combined with an entropy model, a prior on the latent representation that can be used with standard arithmetic coding algorithms to yield a compressed bitstream. Recently, hierarchical entropy models have been introduced as a way to exploit more structure in the latents than simple fully factorized priors, improving compression performance while maintaining end-to-end optimization. Inspired by the success of autoregressive priors in probabilistic generative models, we examine autoregressive, hierarchical, as well as combined priors as alternatives, weighing their costs and benefits in the context of image compression. While it is well known that autoregressive models come with a significant computational penalty, we find that in terms of compression performance, autoregressive and hierarchical priors are complementary and, together, exploit the probabilistic structure in the latents better than all previous learned models. The combined model yields state-of-the-art rate-distortion performance, providing a 15.8% average reduction in file size over the previous state-of-the-art method based on deep learning, which corresponds to a 59.8% size reduction over JPEG, more than 35% reduction compared to WebP and JPEG2000, and bitstreams 8.4% smaller than BPG, the current state-of-the-art image codec. To the best of our knowledge, our model is the first learning-based method to outperform BPG on both PSNR and MS-SSIM distortion metrics.32nd Conference on Neural Information Processing Systems (NIPS 2018),
translated by 谷歌翻译
上下文自适应熵模型的应用显着提高了速率 - 渗透率(R-D)的性能,在该表现中,超级培训和自回归模型被共同利用来有效捕获潜在表示的空间冗余。但是,潜在表示仍然包含一些空间相关性。此外,这些基于上下文自适应熵模型的方法在解码过程中无法通过并行计算设备,例如FPGA或GPU。为了减轻这些局限性,我们提出了一个学识渊博的多分辨率图像压缩框架,该框架利用了最近开发的八度卷积,以将潜在表示形式分配到高分辨率(HR)和低分辨率(LR)部分,类似于小波变换,这进一步改善了R-D性能。为了加快解码的速度,我们的方案不使用上下文自适应熵模型。取而代之的是,我们利用一个额外的超层,包括超级编码器和超级解码器,以进一步删除潜在表示的空间冗余。此外,将跨分辨率参数估计(CRPE)引入提出的框架中,以增强信息流并进一步改善速率延伸性能。提出了对总损耗函数提出的其他信息损失,以调整LR部分对最终位流的贡献。实验结果表明,与最先进的学术图像压缩方法相比,我们的方法分别将解码时间减少了约73.35%和93.44%,R-D性能仍然优于H.266/VVC(4:4::4:: 2:0)以及对PSNR和MS-SSIM指标的一些基于学习的方法。
translated by 谷歌翻译
对于许多技术领域的专业用户,例如医学,遥感,精密工程和科学研究,无损和近乎无情的图像压缩至关重要。但是,尽管在基于学习的图像压缩方面的研究兴趣迅速增长,但没有发表的方法提供无损和近乎无情的模式。在本文中,我们提出了一个统一而强大的深层损失加上残留(DLPR)编码框架,以实现无损和近乎无情的图像压缩。在无损模式下,DLPR编码系统首先执行有损压缩,然后执行残差的无损编码。我们在VAE的方法中解决了关节损失和残留压缩问题,并添加残差的自回归上下文模型以增强无损压缩性能。在近乎荒谬的模式下,我们量化了原始残差以满足给定的$ \ ell_ \ infty $错误绑定,并提出了可扩展的近乎无情的压缩方案,该方案适用于可变$ \ ell_ \ infty $ bunds而不是训练多个网络。为了加快DLPR编码,我们通过新颖的编码环境设计提高了算法并行化的程度,并以自适应残留间隔加速熵编码。实验结果表明,DLPR编码系统以竞争性的编码速度实现了最先进的无损和近乎无效的图像压缩性能。
translated by 谷歌翻译
学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题,其中运动补偿被认为是最具挑战性的问题之一。在本文中,我们通过异质变形补偿策略(HDCVC)提出了一个学识渊博的视频压缩框架,以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说,所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形(Hetdeform)内核偏移量,而不是利用光流或单尺内核变形对齐。然后,我们将参考特征转换为HetDeform卷积以完成运动补偿。此外,我们设计了一个空间 - 邻化的分裂归一化(SNCDN),以实现更有效的数据高斯化结合了广义分裂的归一化。此外,我们提出了一个多框架增强的重建模块,用于利用上下文和时间信息以提高质量。实验结果表明,HDCVC比最近最新学习的视频压缩方法取得了优越的性能。
translated by 谷歌翻译
学习的图像压缩技术近年来取得了相当大的发展。在本文中,我们发现性能瓶颈位于使用单个高度解码器,在这种情况下,三元高斯模型折叠到二进制文件。为了解决这个问题,我们建议使用三个高度解码器来分离混合参数的解码过程,以分散的高斯混合似然性,实现更准确的参数估计。实验结果表明,与最先进的方法相比,MS-SSSIM优化的所提出的方法实现了3.36%的BD速率。所提出的方法对编码时间和拖鞋的贡献可以忽略不计。
translated by 谷歌翻译
我们使用氚(DPICT)算法提出了深度渐进的图像压缩,该算法是支持细粒度可扩展性(FGS)的第一学习的编解码器。首先,我们使用分析网络将图像转换为潜在的张量。然后,我们代表三元数字中的潜在张量(氚),并通过氚平面将其以减少的意义顺序编码为压缩比特流慢平面。此外,在每个氚平面内,我们根据其速率失真优先级对速度进行排序,并首先传输更重要的信息。由于压缩网络对使用更少的氚平面的情况较少优化,因此我们开发了用于以低速率精炼重建图像的后处理网络。实验结果表明,DPICT显着优于传统的渐进式编解码器,同时实现FGS传输。
translated by 谷歌翻译
可扩展的编码,可以适应通道带宽变化,在当今复杂的网络环境中表现良好。然而,现有的可扩展压缩方法面临两个挑战:降低压缩性能和可扩展性不足。在本文中,我们提出了第一所学习的细粒度可扩展图像压缩模型(DeepFGS)来克服上述两个缺点。具体地,我们介绍一个特征分离骨干,将图像信息划分为基本和可伸缩的功能,然后通过信息重新排列策略通过通道重新分配特征通道。以这种方式,我们可以通过一次通过编码来生成连续可扩展的比特流。此外,我们重复使用解码器以降低DeepFGS的参数和计算复杂性。实验表明,我们的DeePFGS优于PSNR和MS-SSIM度量中的所有基于学习的可伸缩图像压缩模型和传统可伸缩图像编解码器。据我们所知,我们的DeePFGS是对学习的细粒度可扩展编码的首次探索,与基于学习的方法相比,实现了最优质的可扩展性。
translated by 谷歌翻译