随着事物(AIOT)的发展,在我们的日常工作和生活中产生了大量的视觉数据,例如图像和视频。这些视觉数据不仅用于人类观察或理解,而且用于机器分析或决策,例如智能监控,自动化车辆和许多其他智能城市应用。为此,在这项工作中提出了一种用于人机和机器使用的新图像编解码器范例。首先,利用神经网络提取高级实例分割图和低级信号特征。然后,实例分割图还被表示为具有所提出的16位灰度表示的简档。之后,两个16位灰度曲线和信号特征都以无损编解码器编码。同时,设计和培训图像预测器以实现具有16位灰度曲线简曲和信号特征的一般质量图像重建。最后,使用用于高质量图像重建的有损编解码器来压缩原始图像和预测的剩余地图。通过这种设计,一方面,我们可以实现可扩展的图像压缩,以满足不同人类消费的要求;另一方面,我们可以通过解码的16位灰度分布配置,例如对象分类,检测和分割,直接在解码器侧直接实现多个机器视觉任务。实验结果表明,该建议的编解码器在PSNR和MS-SSIM方面实现了基于大多数基于学习的编解码器,并且优于传统编解码器(例如,BPG和JPEG2000)以进行图像重建。同时,它在对象检测和分割的映射方面优于现有的编解码器。
translated by 谷歌翻译
视觉信号压缩是一个长期存在的问题。通过深度学习的最近进步,令人兴奋的进展已经推动。尽管压缩性能更好,但现有的端到端压缩算法仍然以速率失真优化而设计更好的信号质量。在本文中,我们表明,网络架构的设计和优化可以进一步改善压缩机器视觉。我们为机器视觉的端到端压缩的编码器提出了一种反转的瓶颈结构,这特别考虑了语义信息的有效表示。此外,我们通过将分析精度纳入优化过程来追求优化的能力,并且通过以迭代方式进一步探索具有广义速率准确优化的最优性。我们使用对象检测作为展示用于机器视觉的端到端压缩,并且广泛的实验表明,该方案在分析性能方面实现了显着的BD速率。此外,由于信号电平重建,还对其他机器视觉任务的强大泛化能力表明了该方案的承诺。
translated by 谷歌翻译
视频编码技术已不断改进,以更高的分辨率以更高的压缩比。但是,最先进的视频编码标准(例如H.265/HEVC和多功能视频编码)仍在设计中,该假设将被人类观看。随着深度神经网络在解决计算机视觉任务方面的巨大进步和成熟,越来越多的视频通过无人参与的深度神经网络直接分析。当计算机视觉应用程序使用压缩视频时,这种传统的视频编码标准设计并不是最佳的。尽管人类视觉系统对具有高对比度的内容一直敏感,但像素对计算机视觉算法的影响是由特定的计算机视觉任务驱动的。在本文中,我们探索并总结了计算机视觉任务的视频编码和新兴视频编码标准,机器的视频编码。
translated by 谷歌翻译
机器的图像编码(ICM)旨在压缩图像进行AI任务分析,而不是满足人类的看法。学习一种既是一般(用于AI任务)的特征,也是紧凑的(用于压缩)的功能,这对于其成功而言至关重要。在本文中,我们试图通过学习通用功能,同时考虑压缩来开发ICM框架。我们将诸如无所不能功能和相应框架的功能命名为Omni-ICM。考虑到自我监督学习(SSL)提高了特征的概括,我们将其与压缩任务集成到OMNI-ICM框架中,以学习无所不能的功能。但是,在SSL中协调语义建模并在压缩中删除冗余是不平凡的,因此我们通过合作实例区分和熵最小化以自适应掉落的信息来设计新颖的信息过滤(如果)模块,以较弱相关的信息执行AI任务(例如,某些纹理冗余)。与以前的特定解决方案不同,Omni-ICM可以直接基于学习的无能功能的AI任务分析,而无需联合培训或额外的转换。尽管简单而直观,但Omni-ICM在多个基本愿景任务上大大优于现有的传统和基于学习的编解码器。
translated by 谷歌翻译
语义通信引起了人们的兴趣,因为它可以显着减少在不丢失关键信息的情况下要传输的数据量。大多数现有作品都探索文本的语义编码和传输,并在自然语言处理(NLP)中应用技术来解释文本的含义。在本文中,我们构想了图像数据的语义通信,这些语义数据在语义和带宽敏感方面更为丰富。我们提出了一种基于增强学习的自适应语义编码(RL-ASC)方法,该方法编码超过像素级别的图像。首先,我们定义了图像数据的语义概念,该概念包括类别,空间布置和视觉特征作为表示单元,并提出卷积语义编码器以提取语义概念。其次,我们提出了图像重建标准,该标准从传统像素的相似性演变为语义相似性和感知性能。第三,我们设计了一种基于RL的新型语义位分配模型,其奖励是用自适应量化水平编码某个语义概念后的速率语义感知性能的提高。因此,与任务相关的信息得到正确保存和重建,同时丢弃了较少重要的数据。最后,我们提出了基于生成的对抗网(GAN)的语义解码器,该语义解码器通过注意模块融合本地和全球特征。实验结果表明,所提出的RL-ASC具有噪声稳定性,可以重建视觉上令人愉悦和语义一致的图像,并节省与标准编解码器和其他基于深度学习的图像编解码器相比,可以节省位置的时间。
translated by 谷歌翻译
最近,越来越多的图像被压缩并发送到用于机器分析任务的后端设备〜(\ textIt {e.g。,}对象检测),而不是纯粹由人类观察。但是,大多数传统图像编解码器旨在最大程度地减少人类视觉系统的失真,而无需考虑机器视觉系统的需求增加。在这项工作中,我们为机器视觉任务提出了一种预处理增强的图像压缩方法,以应对这一挑战。我们的框架不是依靠学习的图像编解码器进行端到端优化,而是基于传统的非差异编解码器,这意味着它是标准兼容的,并且可以轻松地部署在实际应用中。具体而言,我们在编码器之前提出了一个神经预处理模块,以维护下游任务的有用语义信息,并抑制无关信息以节省比特率。此外,我们的神经预处理模块是量化自适应的,可用于不同的压缩比。更重要的是,要通过下游机器视觉任务共同优化预处理模块,我们在后传播阶段介绍了传统非差异编解码器的代理网络。我们通过评估具有不同骨干网络的两个代表性下游任务的压缩方法来提供广泛的实验。实验结果表明,我们的方法通过节省约20%的比特率来实现编码比特率和下游机器视觉任务的性能之间的更好权衡。
translated by 谷歌翻译
视频内容不仅是人类观看的,而且越来越多地被机器观看。例如,机器学习模型分析监视视频,以进行安全性和流量监控,通过YouTube视频搜索不适当的内容,等等。在本文中,我们提出了一个可扩展的视频编码框架,该框架通过其基础层bitstream和人类视觉通过其增强层的bitstream来支持机器视觉(特别是对象检测)。所提出的框架包括基于常规神经网络(DNN)的视频编码的组件。结果表明,与最先进的视频编解码器相比,在对象检测中,提议的框架可节省13-19%的位,同时在人类视觉任务上保持竞争力。
translated by 谷歌翻译
可扩展的编码,可以适应通道带宽变化,在当今复杂的网络环境中表现良好。然而,现有的可扩展压缩方法面临两个挑战:降低压缩性能和可扩展性不足。在本文中,我们提出了第一所学习的细粒度可扩展图像压缩模型(DeepFGS)来克服上述两个缺点。具体地,我们介绍一个特征分离骨干,将图像信息划分为基本和可伸缩的功能,然后通过信息重新排列策略通过通道重新分配特征通道。以这种方式,我们可以通过一次通过编码来生成连续可扩展的比特流。此外,我们重复使用解码器以降低DeepFGS的参数和计算复杂性。实验表明,我们的DeePFGS优于PSNR和MS-SSIM度量中的所有基于学习的可伸缩图像压缩模型和传统可伸缩图像编解码器。据我们所知,我们的DeePFGS是对学习的细粒度可扩展编码的首次探索,与基于学习的方法相比,实现了最优质的可扩展性。
translated by 谷歌翻译
最近的工作表明,学习的图像压缩策略可以倾销标准的手工制作压缩算法,这些压缩算法已经开发了几十年的速率 - 失真折衷的研究。随着计算机视觉的不断增长的应用,来自可压缩表示的高质量图像重建通常是次要目标。压缩,可确保计算机视觉任务等高精度,例如图像分割,分类和检测,因此具有跨各种设置的显着影响的可能性。在这项工作中,我们开发了一个框架,它产生适合人类感知和机器感知的压缩格式。我们表明可以了解到表示,同时优化核心视觉任务的压缩和性能。我们的方法允许直接从压缩表示培训模型,并且这种方法会产生新任务和低拍学习设置的性能。我们呈现出与标准高质量JPG相比细分和检测性能提高的结果,但是在每像素的比特方面,表示表示的表示性比率为4至10倍。此外,与天真的压缩方法不同,在比标准JEPG的十倍小的级别,我们格式培训的分段和检测模型仅在性能下遭受轻微的降级。
translated by 谷歌翻译
In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
translated by 谷歌翻译
最近,基于深度学习的图像压缩已取得了显着的进步,并且在主观度量和更具挑战性的客观指标中,与最新的传统方法H.266/vvc相比,取得了更好的评分(R-D)性能。但是,一个主要问题是,许多领先的学识渊博的方案无法保持绩效和复杂性之间的良好权衡。在本文中,我们提出了一个效率和有效的图像编码框架,该框架的复杂性比最高的状态具有相似的R-D性能。首先,我们开发了改进的多尺度残差块(MSRB),该块可以扩展容纳长石,并且更容易获得全球信息。它可以进一步捕获和减少潜在表示的空间相关性。其次,引入了更高级的重要性图网络,以自适应地分配位置到图像的不同区域。第三,我们应用2D定量后flter(PQF)来减少视频编码中样本自适应偏移量(SAO)flter的动机。此外,我们认为编码器和解码器的复杂性对图像压缩性能有不同的影响。基于这一观察结果,我们设计了一个不对称范式,其中编码器采用三个阶段的MSRB来提高学习能力,而解码器只需要一个srb的一个阶段就可以产生令人满意的重建,从而在不牺牲性能的情况下降低了解码的复杂性。实验结果表明,与最先进的方法相比,所提出方法的编码和解码时间速度约为17倍,而R-D性能仅在Kodak和Tecnick数据集中降低了1%,而R-D性能仅少于1%。它仍然比H.266/VVC(4:4:4)和其他基于学习的方法更好。我们的源代码可在https://github.com/fengyurenpingsheng上公开获得。
translated by 谷歌翻译
上下文自适应熵模型的应用显着提高了速率 - 渗透率(R-D)的性能,在该表现中,超级培训和自回归模型被共同利用来有效捕获潜在表示的空间冗余。但是,潜在表示仍然包含一些空间相关性。此外,这些基于上下文自适应熵模型的方法在解码过程中无法通过并行计算设备,例如FPGA或GPU。为了减轻这些局限性,我们提出了一个学识渊博的多分辨率图像压缩框架,该框架利用了最近开发的八度卷积,以将潜在表示形式分配到高分辨率(HR)和低分辨率(LR)部分,类似于小波变换,这进一步改善了R-D性能。为了加快解码的速度,我们的方案不使用上下文自适应熵模型。取而代之的是,我们利用一个额外的超层,包括超级编码器和超级解码器,以进一步删除潜在表示的空间冗余。此外,将跨分辨率参数估计(CRPE)引入提出的框架中,以增强信息流并进一步改善速率延伸性能。提出了对总损耗函数提出的其他信息损失,以调整LR部分对最终位流的贡献。实验结果表明,与最先进的学术图像压缩方法相比,我们的方法分别将解码时间减少了约73.35%和93.44%,R-D性能仍然优于H.266/VVC(4:4::4:: 2:0)以及对PSNR和MS-SSIM指标的一些基于学习的方法。
translated by 谷歌翻译
尽管人类可以通过利用对内容的高级理解的传统或最新学习的图像压缩编解码器来毫不费力地将复杂的视觉场景转变为简单的单词,而另一种方式似乎并没有利用视觉内容的语义含义。潜在的。此外,它们主要集中在率延伸上,并且在感知质量上的表现不佳,尤其是在低比特率方案中,并且常常无视下游计算机视觉算法的性能,这是一个快速增长的压缩图像的快速消费者组。在本文中,我们(1)提出了一个通用框架,该框架可以使任何图像编解码器能够利用高级语义,(2)研究感知质量和失真的关节优化。我们的想法是,鉴于任何编解码器,我们利用高级语义来增强其提取的低级视觉特征,并产生基本上的新的语义意识编解码器。我们提出了一个三相训练方案,该方案教授语义意识的编解码器来利用语义的力量来共同优化速率感知渗透率(R-PD)的性能。作为另一个好处,语义感知的编解码器还提高了下游计算机视觉算法的性能。为了验证我们的主张,我们进行了广泛的经验评估,并提供定量和定性结果。
translated by 谷歌翻译
作为人类视觉系统(HVS)的重要感知特性,已经研究了几十年的图像和视频处理(例如,感知视觉信号压缩)已经研究了刚刚明显的差异(JND)。然而,对于深度机器视觉(DMV)的JND存在很少的探索,尽管DMV在许多机器视觉任务中取得了很大的进步。在本文中,我们进行了初步尝试,并证明DMV具有JND,称为DMV-JND。然后,我们为DMV中的图像分类任务提出了JND模型。已经发现DMV可以通过与所提出的DMV-JND-NET的无监督学习产生JND来容忍平均PSNR的扭曲图像,其平均PSNR仅为9.56dB(越来越越好)。特别是,设计语义引导的冗余评估策略旨在抑制DMV-JND的幅度和空间分布。图像分类的实验结果表明,我们成功找到了深度机视觉的JND。我们的DMV-JND有助于DMV导向图像和视频压缩,水印,质量评估,深度神经网络安全等方向的可能方向。
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译
基于神经网络的图像压缩已经过度研究。模型稳健性很大程度上被忽视,但它对服务能够实现至关重要。我们通过向原始源图像注入少量噪声扰动来执行对抗攻击,然后使用主要学习的图像压缩模型来编码这些对抗示例。实验报告对逆势实例的重建中的严重扭曲,揭示了现有方法的一般漏洞,无论用于底层压缩模型(例如,网络架构,丢失功能,质量标准)和用于注射扰动的优化策略(例如,噪声阈值,信号距离测量)。后来,我们应用迭代对抗的FineTuning来细化掠夺模型。在每次迭代中,将随机源图像和对抗示例混合以更新底层模型。结果通过大大提高压缩模型稳健性来表明提出的FineTuning策略的有效性。总体而言,我们的方法是简单,有效和更广泛的,使其具有开发稳健的学习图像压缩解决方案的吸引力。所有材料都在HTTPS://njuvision.github.io/trobustn中公开访问,以便可重复研究。
translated by 谷歌翻译
传统的图像/视频压缩旨在以尽可能高的信号保真度降低传输/存储成本。但是,随着近年来对机器分析和语义监测的需求不断增长,语义保真度而不是信号忠诚度正在成为图像/视频压缩中的另一个新兴关注点。随着交叉模态翻译和生成的最新进展,在本文中,我们提出了交叉模态压缩〜(CMC),即视觉数据的语义压缩框架,以转换高冗余的视觉数据〜(例如图像,视频等) 。具体而言,我们首先将CMC问题作为率延伸优化问题。其次,我们研究了与传统图像/视频压缩和最新特征压缩框架的关系,显示了我们的CMC和这些先前的框架之间的差异。然后,我们为CMC提出了一种新颖的范式,以证明其有效性。定性和定量结果表明,我们提出的CMC可以通过超高压缩比实现令人鼓舞的重建结果,比广泛使用的JPEG基线显示出更好的压缩性能。
translated by 谷歌翻译
为了提高图像压缩性能,最近的基于神经网络的基于神经网络的研究可以分为三类:学习编解码器,后处理网络和紧凑型表示网络。学习编解码器专为超出传统压缩模块而设计的端到端学习。后处理网络使用基于示例的学习增加解码图像的质量。学习紧凑的表示网络,以降低输入图像的容量,以减少比特率的同时保持解码图像的质量。然而,这些方法与现有的编解码器不兼容,或者不会最佳地增加编码效率。具体地,由于编解码器的不准确性,难以在先前的研究中实现最佳学习。在本文中,我们提出了一种基于辅助编解码器网络(ACN)的新颖的标准兼容图像压缩框架。 ACNS旨在模仿现有编解码器的图像劣化操作,这为紧凑型表示网络提供了更准确的梯度。因此,可以有效地和最佳地学习紧凑的表示和后处理网络。我们证明,我们基于JPEG和高效视频编码(HEVC)标准的建议框架基本上以标准的兼容方式大致优于现有的图像压缩算法。
translated by 谷歌翻译
随着流媒体技术的发展,沟通的增加取决于声音和视觉信息,这给在线媒体带来了巨大的负担。数据压缩对于减少数据传输和存储的数量变得越来越重要。为了进一步提高图像压缩的效率,研究人员利用各种图像处理方法来补偿常规编解码器和基于先进的基于学习的压缩方法的局限性。我们没有修改面向压缩的方法,而是提出了一个称为Kuchen的统一图像压缩预处理框架,该框架旨在进一步提高现有编解码器的性能。该框架由混合数据标记系统以及基于学习的主链组成,以模拟个性化的预处理。据我们所知,这是在图像压缩任务中设置统一预处理基准测试的第一次探索。结果表明,我们统一的预处理框架优化的现代编解码器不断提高最新压缩的效率。
translated by 谷歌翻译
近年来,随着深度神经网络的发展,端到端优化的图像压缩已取得了重大进展,并超过了速度延伸性能的经典方法。但是,大多数基于学习的图像压缩方法是未标记的,在优化模型时不考虑图像语义或内容。实际上,人眼对不同内容具有不同的敏感性,因此还需要考虑图像内容。在本文中,我们提出了一种面向内容的图像压缩方法,该方法处理具有不同策略的不同类型的图像内容。广泛的实验表明,与最先进的端到端学习的图像压缩方法或经典方法相比,所提出的方法可实现竞争性的主观结果。
translated by 谷歌翻译