为了提高图像压缩性能,最近的基于神经网络的基于神经网络的研究可以分为三类:学习编解码器,后处理网络和紧凑型表示网络。学习编解码器专为超出传统压缩模块而设计的端到端学习。后处理网络使用基于示例的学习增加解码图像的质量。学习紧凑的表示网络,以降低输入图像的容量,以减少比特率的同时保持解码图像的质量。然而,这些方法与现有的编解码器不兼容,或者不会最佳地增加编码效率。具体地,由于编解码器的不准确性,难以在先前的研究中实现最佳学习。在本文中,我们提出了一种基于辅助编解码器网络(ACN)的新颖的标准兼容图像压缩框架。 ACNS旨在模仿现有编解码器的图像劣化操作,这为紧凑型表示网络提供了更准确的梯度。因此,可以有效地和最佳地学习紧凑的表示和后处理网络。我们证明,我们基于JPEG和高效视频编码(HEVC)标准的建议框架基本上以标准的兼容方式大致优于现有的图像压缩算法。
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译
In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
translated by 谷歌翻译
最近,基于深度学习的图像压缩已取得了显着的进步,并且在主观度量和更具挑战性的客观指标中,与最新的传统方法H.266/vvc相比,取得了更好的评分(R-D)性能。但是,一个主要问题是,许多领先的学识渊博的方案无法保持绩效和复杂性之间的良好权衡。在本文中,我们提出了一个效率和有效的图像编码框架,该框架的复杂性比最高的状态具有相似的R-D性能。首先,我们开发了改进的多尺度残差块(MSRB),该块可以扩展容纳长石,并且更容易获得全球信息。它可以进一步捕获和减少潜在表示的空间相关性。其次,引入了更高级的重要性图网络,以自适应地分配位置到图像的不同区域。第三,我们应用2D定量后flter(PQF)来减少视频编码中样本自适应偏移量(SAO)flter的动机。此外,我们认为编码器和解码器的复杂性对图像压缩性能有不同的影响。基于这一观察结果,我们设计了一个不对称范式,其中编码器采用三个阶段的MSRB来提高学习能力,而解码器只需要一个srb的一个阶段就可以产生令人满意的重建,从而在不牺牲性能的情况下降低了解码的复杂性。实验结果表明,与最先进的方法相比,所提出方法的编码和解码时间速度约为17倍,而R-D性能仅在Kodak和Tecnick数据集中降低了1%,而R-D性能仅少于1%。它仍然比H.266/VVC(4:4:4)和其他基于学习的方法更好。我们的源代码可在https://github.com/fengyurenpingsheng上公开获得。
translated by 谷歌翻译
图像超分辨率(SR)是重要的图像处理方法之一,可改善计算机视野领域的图像分辨率。在过去的二十年中,在超级分辨率领域取得了重大进展,尤其是通过使用深度学习方法。这项调查是为了在深度学习的角度进行详细的调查,对单像超分辨率的最新进展进行详细的调查,同时还将告知图像超分辨率的初始经典方法。该调查将图像SR方法分类为四个类别,即经典方法,基于学习的方法,无监督学习的方法和特定领域的SR方法。我们还介绍了SR的问题,以提供有关图像质量指标,可用参考数据集和SR挑战的直觉。使用参考数据集评估基于深度学习的方法。一些审查的最先进的图像SR方法包括增强的深SR网络(EDSR),周期循环gan(Cincgan),多尺度残留网络(MSRN),Meta残留密度网络(META-RDN) ,反复反射网络(RBPN),二阶注意网络(SAN),SR反馈网络(SRFBN)和基于小波的残留注意网络(WRAN)。最后,这项调查以研究人员将解决SR的未来方向和趋势和开放问题的未来方向和趋势。
translated by 谷歌翻译
Conventional video compression approaches use the predictive coding architecture and encode the corresponding motion information and residual information. In this paper, taking advantage of both classical architecture in the conventional video compression method and the powerful nonlinear representation ability of neural networks, we propose the first end-to-end video compression deep model that jointly optimizes all the components for video compression. Specifically, learning based optical flow estimation is utilized to obtain the motion information and reconstruct the current frames. Then we employ two auto-encoder style neural networks to compress the corresponding motion and residual information. All the modules are jointly learned through a single loss function, in which they collaborate with each other by considering the trade-off between reducing the number of compression bits and improving quality of the decoded video. Experimental results show that the proposed approach can outperform the widely used video coding standard H.264 in terms of PSNR and be even on par with the latest standard H.265 in terms of MS-SSIM. Code is released at https://github.com/GuoLusjtu/DVC. * Corresponding author (a) Original frame (Bpp/MS-SSIM) (b) H.264 (0.0540Bpp/0.945) (c) H.265 (0.082Bpp/0.960) (d) Ours ( 0.0529Bpp/ 0.961
translated by 谷歌翻译
学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题,其中运动补偿被认为是最具挑战性的问题之一。在本文中,我们通过异质变形补偿策略(HDCVC)提出了一个学识渊博的视频压缩框架,以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说,所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形(Hetdeform)内核偏移量,而不是利用光流或单尺内核变形对齐。然后,我们将参考特征转换为HetDeform卷积以完成运动补偿。此外,我们设计了一个空间 - 邻化的分裂归一化(SNCDN),以实现更有效的数据高斯化结合了广义分裂的归一化。此外,我们提出了一个多框架增强的重建模块,用于利用上下文和时间信息以提高质量。实验结果表明,HDCVC比最近最新学习的视频压缩方法取得了优越的性能。
translated by 谷歌翻译
上下文自适应熵模型的应用显着提高了速率 - 渗透率(R-D)的性能,在该表现中,超级培训和自回归模型被共同利用来有效捕获潜在表示的空间冗余。但是,潜在表示仍然包含一些空间相关性。此外,这些基于上下文自适应熵模型的方法在解码过程中无法通过并行计算设备,例如FPGA或GPU。为了减轻这些局限性,我们提出了一个学识渊博的多分辨率图像压缩框架,该框架利用了最近开发的八度卷积,以将潜在表示形式分配到高分辨率(HR)和低分辨率(LR)部分,类似于小波变换,这进一步改善了R-D性能。为了加快解码的速度,我们的方案不使用上下文自适应熵模型。取而代之的是,我们利用一个额外的超层,包括超级编码器和超级解码器,以进一步删除潜在表示的空间冗余。此外,将跨分辨率参数估计(CRPE)引入提出的框架中,以增强信息流并进一步改善速率延伸性能。提出了对总损耗函数提出的其他信息损失,以调整LR部分对最终位流的贡献。实验结果表明,与最先进的学术图像压缩方法相比,我们的方法分别将解码时间减少了约73.35%和93.44%,R-D性能仍然优于H.266/VVC(4:4::4:: 2:0)以及对PSNR和MS-SSIM指标的一些基于学习的方法。
translated by 谷歌翻译
随着流媒体技术的发展,沟通的增加取决于声音和视觉信息,这给在线媒体带来了巨大的负担。数据压缩对于减少数据传输和存储的数量变得越来越重要。为了进一步提高图像压缩的效率,研究人员利用各种图像处理方法来补偿常规编解码器和基于先进的基于学习的压缩方法的局限性。我们没有修改面向压缩的方法,而是提出了一个称为Kuchen的统一图像压缩预处理框架,该框架旨在进一步提高现有编解码器的性能。该框架由混合数据标记系统以及基于学习的主链组成,以模拟个性化的预处理。据我们所知,这是在图像压缩任务中设置统一预处理基准测试的第一次探索。结果表明,我们统一的预处理框架优化的现代编解码器不断提高最新压缩的效率。
translated by 谷歌翻译
传统的视频压缩(VC)方法基于运动补偿变换编码,并且由于端到端优化问题的组合性质,运动估计,模式和量化参数选择的步骤和熵编码是单独优化的。学习VC允许同时对端到端速率失真(R-D)优化非线性变换,运动和熵模型的优化训练。大多数工作都在学习VC基于R-D损耗对连续帧的对考虑连续视频编解码器的端到端优化。它在传统的VC中众所周知的是,双向编码优于顺序压缩,因为它能够使用过去和未来的参考帧。本文提出了一种学习的分层双向视频编解码器(LHBDC),其结合了分层运动补偿预测和端到端优化的益处。实验结果表明,我们达到了迄今为​​止在PSNR和MS-SSIM中的学习VC方案报告的最佳R-D结果。与传统的视频编解码器相比,我们的端到端优化编解码器的RD性能优于PSNR和MS-SSIM中的X265和SVT-HEVC编码器(“非常流”预设)以及MS-中的HM 16.23参考软件。 SSIM。我们提出了由于所提出的新颖工具,例如学习屏蔽,流场附带和时间流量矢量预测等新颖工具,展示了表现出性能提升。重现我们结果的模型和说明可以在https://github.com/makinyilmaz/lhbdc/中找到
translated by 谷歌翻译
先前的深视频压缩方法仅使用单一运动补偿策略,并且很少采用来自传统标准(例如H.264/h.265)的模式预测技术来进行运动和残留压缩。在这项工作中,我们首先提出了一个粗到精细的(C2F)深视频压缩框架,以进行更好的运动补偿,其中我们以粗到良好的方式进行了两次运动估计,压缩和补偿。我们的C2F框架可以实现更好的运动补偿结果,而不会显着增加位成本。观察高优势网络中的高优势信息(即平均值和方差值)包含不同斑块的判别统计信息,我们还提出了两种有效的超优先指导模式预测方法。具体而言,使用高优势信息作为输入,我们建议两个模式预测网络分别预测最佳块分辨率,以进行更好的运动编码,并决定是否从每个块中跳过剩余信息以进行更好的剩余编码,而无需引入额外的位置,同时带来可忽略的额外计算成本。全面的实验结果表明,配备了新的高位指导模式预测方法,我们提出的C2F视频压缩框架实现了HEVC,UVG和MCL-JCV数据集的最新性能。
translated by 谷歌翻译
视觉信号压缩是一个长期存在的问题。通过深度学习的最近进步,令人兴奋的进展已经推动。尽管压缩性能更好,但现有的端到端压缩算法仍然以速率失真优化而设计更好的信号质量。在本文中,我们表明,网络架构的设计和优化可以进一步改善压缩机器视觉。我们为机器视觉的端到端压缩的编码器提出了一种反转的瓶颈结构,这特别考虑了语义信息的有效表示。此外,我们通过将分析精度纳入优化过程来追求优化的能力,并且通过以迭代方式进一步探索具有广义速率准确优化的最优性。我们使用对象检测作为展示用于机器视觉的端到端压缩,并且广泛的实验表明,该方案在分析性能方面实现了显着的BD速率。此外,由于信号电平重建,还对其他机器视觉任务的强大泛化能力表明了该方案的承诺。
translated by 谷歌翻译
基于神经网络的图像压缩已经过度研究。模型稳健性很大程度上被忽视,但它对服务能够实现至关重要。我们通过向原始源图像注入少量噪声扰动来执行对抗攻击,然后使用主要学习的图像压缩模型来编码这些对抗示例。实验报告对逆势实例的重建中的严重扭曲,揭示了现有方法的一般漏洞,无论用于底层压缩模型(例如,网络架构,丢失功能,质量标准)和用于注射扰动的优化策略(例如,噪声阈值,信号距离测量)。后来,我们应用迭代对抗的FineTuning来细化掠夺模型。在每次迭代中,将随机源图像和对抗示例混合以更新底层模型。结果通过大大提高压缩模型稳健性来表明提出的FineTuning策略的有效性。总体而言,我们的方法是简单,有效和更广泛的,使其具有开发稳健的学习图像压缩解决方案的吸引力。所有材料都在HTTPS://njuvision.github.io/trobustn中公开访问,以便可重复研究。
translated by 谷歌翻译
Recently, many neural network-based image compression methods have shown promising results superior to the existing tool-based conventional codecs. However, most of them are often trained as separate models for different target bit rates, thus increasing the model complexity. Therefore, several studies have been conducted for learned compression that supports variable rates with single models, but they require additional network modules, layers, or inputs that often lead to complexity overhead, or do not provide sufficient coding efficiency. In this paper, we firstly propose a selective compression method that partially encodes the latent representations in a fully generalized manner for deep learning-based variable-rate image compression. The proposed method adaptively determines essential representation elements for compression of different target quality levels. For this, we first generate a 3D importance map as the nature of input content to represent the underlying importance of the representation elements. The 3D importance map is then adjusted for different target quality levels using importance adjustment curves. The adjusted 3D importance map is finally converted into a 3D binary mask to determine the essential representation elements for compression. The proposed method can be easily integrated with the existing compression models with a negligible amount of overhead increase. Our method can also enable continuously variable-rate compression via simple interpolation of the importance adjustment curves among different quality levels. The extensive experimental results show that the proposed method can achieve comparable compression efficiency as those of the separately trained reference compression models and can reduce decoding time owing to the selective compression. The sample codes are publicly available at https://github.com/JooyoungLeeETRI/SCR.
translated by 谷歌翻译
可扩展的编码,可以适应通道带宽变化,在当今复杂的网络环境中表现良好。然而,现有的可扩展压缩方法面临两个挑战:降低压缩性能和可扩展性不足。在本文中,我们提出了第一所学习的细粒度可扩展图像压缩模型(DeepFGS)来克服上述两个缺点。具体地,我们介绍一个特征分离骨干,将图像信息划分为基本和可伸缩的功能,然后通过信息重新排列策略通过通道重新分配特征通道。以这种方式,我们可以通过一次通过编码来生成连续可扩展的比特流。此外,我们重复使用解码器以降低DeepFGS的参数和计算复杂性。实验表明,我们的DeePFGS优于PSNR和MS-SSIM度量中的所有基于学习的可伸缩图像压缩模型和传统可伸缩图像编解码器。据我们所知,我们的DeePFGS是对学习的细粒度可扩展编码的首次探索,与基于学习的方法相比,实现了最优质的可扩展性。
translated by 谷歌翻译
尽管速率失真优化是传统图像和视频压缩的关键部分,但存在不存在许多方法,将该概念传送到端到端训练的图像压缩。大多数框架包含静态压缩和解压缩模型,在训练后固定,因此不可能实现高效的速率失真优化。在以前的工作中,我们提出了RDONET,它使RDO方法能够与HEVC中的自适应块分区相当。在本文中,我们通过引入RDO的低复杂性估算来增强培训,该培训将结果归因于培训。此外,我们提出了快速且非常快速的RDO推理模式。通过我们的小说训练方法,我们在先前的RDONET模型上实现了MS-SSIM的平均节省19.6%,其在可比较的传统深图像编码器上等于27.3%的速率节省。
translated by 谷歌翻译
最近,一些研究在图像压缩感测(CS)任务中应用了深层卷积神经网络(CNN),以提高重建质量。但是,卷积层通常具有一个小的接受场。因此,使用CNN捕获远程像素相关性是具有挑战性的,这限制了其在Image CS任务中的重建性能。考虑到这一限制,我们为图像CS任务(称为uformer-ics)提出了一个U形变压器。我们通过将CS的先验投影知识集成到原始变压器块中,然后使用基于投影基于投影的变压器块和残留卷积块构建对称重建模型来开发一个基于投影的变压器块。与以前的基于CNN的CS方法相比,只能利用本地图像特征,建议的重建模型可以同时利用图像的局部特征和远程依赖性,以及CS理论的先前投影知识。此外,我们设计了一个自适应采样模型,该模型可以基于块稀疏性自适应采样图像块,这可以确保压缩结果保留在固定采样比下原始图像的最大可能信息。提出的UFORFORFOR-ICS是一个端到端框架,同时学习采样和重建过程。实验结果表明,与现有的基于深度学习的CS方法相比,它的重建性能明显优于重建性能。
translated by 谷歌翻译
Neural Architecture Search (NAS) for automatically finding the optimal network architecture has shown some success with competitive performances in various computer vision tasks. However, NAS in general requires a tremendous amount of computations. Thus reducing computational cost has emerged as an important issue. Most of the attempts so far has been based on manual approaches, and often the architectures developed from such efforts dwell in the balance of the network optimality and the search cost. Additionally, recent NAS methods for image restoration generally do not consider dynamic operations that may transform dimensions of feature maps because of the dimensionality mismatch in tensor calculations. This can greatly limit NAS in its search for optimal network structure. To address these issues, we re-frame the optimal search problem by focusing at component block level. From previous work, it's been shown that an effective denoising block can be connected in series to further improve the network performance. By focusing at block level, the search space of reinforcement learning becomes significantly smaller and evaluation process can be conducted more rapidly. In addition, we integrate an innovative dimension matching modules for dealing with spatial and channel-wise mismatch that may occur in the optimal design search. This allows much flexibility in optimal network search within the cell block. With these modules, then we employ reinforcement learning in search of an optimal image denoising network at a module level. Computational efficiency of our proposed Denoising Prior Neural Architecture Search (DPNAS) was demonstrated by having it complete an optimal architecture search for an image restoration task by just one day with a single GPU.
translated by 谷歌翻译
最近,越来越多的图像被压缩并发送到用于机器分析任务的后端设备〜(\ textIt {e.g。,}对象检测),而不是纯粹由人类观察。但是,大多数传统图像编解码器旨在最大程度地减少人类视觉系统的失真,而无需考虑机器视觉系统的需求增加。在这项工作中,我们为机器视觉任务提出了一种预处理增强的图像压缩方法,以应对这一挑战。我们的框架不是依靠学习的图像编解码器进行端到端优化,而是基于传统的非差异编解码器,这意味着它是标准兼容的,并且可以轻松地部署在实际应用中。具体而言,我们在编码器之前提出了一个神经预处理模块,以维护下游任务的有用语义信息,并抑制无关信息以节省比特率。此外,我们的神经预处理模块是量化自适应的,可用于不同的压缩比。更重要的是,要通过下游机器视觉任务共同优化预处理模块,我们在后传播阶段介绍了传统非差异编解码器的代理网络。我们通过评估具有不同骨干网络的两个代表性下游任务的压缩方法来提供广泛的实验。实验结果表明,我们的方法通过节省约20%的比特率来实现编码比特率和下游机器视觉任务的性能之间的更好权衡。
translated by 谷歌翻译
本文提出了解码器 - 侧交叉分辨率合成(CRS)模块,以追求更好的压缩效率超出最新的通用视频编码(VVC),在那里我们在原始高分辨率(HR)处编码帧内帧,以较低的分辨率压缩帧帧间( LR),然后通过在先前的HR帧内和相邻的LR帧间帧内解解码LR帧间帧间帧帧。对于LR帧间帧,设计运动对准和聚合网络(MAN)以产生时间汇总的运动表示,以最佳保证时间平滑度;使用另一个纹理补偿网络(TCN)来生成从解码的HR帧内帧的纹理表示,以便更好地增强空间细节;最后,相似性驱动的融合引擎将运动和纹理表示合成为Upscale LR帧帧,以便去除压缩和分辨率重新采样噪声。我们使用所提出的CRS增强VVC,显示平均为8.76%和11.93%BJ {\ O} NTEGAARD Delta率(BD速率)分别在随机接入(RA)和低延延迟P(LDP)设置中的最新VVC锚点。此外,对基于最先进的超分辨率(SR)的VVC增强方法和消融研究的实验比较,进一步报告了所提出的算法的卓越效率和泛化。所有材料都将在HTTPS://njuvision.github.io /crs上公开进行可重复的研究。
translated by 谷歌翻译