最近,引入了卷积自动编码器(CAE)进行图像编码。他们对最新的JPEG2000方法实现了性能改进。但是,这些表演是使用具有大量参数的大型CAE获得的,并且其训练需要大量的计算能力。\\在本文中,我们使用具有较小的内存足迹和低计算功率使用的CAE解决了有损图像压缩的问题。为了克服计算成本问题,大多数文献都使用拉格朗日近端正则化方法,这些方法很耗时。\\在这项工作中,我们提出了一种约束的方法和一种新的结构化稀疏学习方法。我们设计了一个算法并在三个约束上进行测试:经典$ \ ell_1 $约束,$ \ ell_ {1,\ infty} $和新的$ \ ell_ {1,1} $约束。实验结果表明,$ \ ell_ {1,1} $约束提供了最佳的结构性稀疏性,从而导致内存和计算成本的高度降低,并且与密集网络相似的速率延伸性能。
translated by 谷歌翻译
在本文中,我们提出了一种新的方法,可以解决针对生物医学应用的半监督分类任务,涉及有监督的自动编码器网络。我们创建一个网络体系结构,该网络体系结构将标签编码为自动编码器的潜在空间,并定义组合分类和重建损失的全局标准。我们使用双重下降算法在标记的数据上训练半监督自动编码器(SSAE)。然后,我们使用学习网络对未标记的样本进行了分类,这要归功于应用于潜在空间的SoftMax分类器,该分类器为每个类提供了分类置信度得分。我们使用模型,优化器,调度程序和损失功能的Pytorch框架实现了SSAE方法。我们将半监督自动编码器方法(SSAE)与经典的半监督方法(例如标签传播和标签扩展)以及完全连接的神经网络(FCNN)进行比较。实验表明,SSAE在合成数据集和两个现实世界的生物数据集上都超过标签传播和扩散以及完全连接的神经网络。
translated by 谷歌翻译
最近,基于深度学习的图像压缩已取得了显着的进步,并且在主观度量和更具挑战性的客观指标中,与最新的传统方法H.266/vvc相比,取得了更好的评分(R-D)性能。但是,一个主要问题是,许多领先的学识渊博的方案无法保持绩效和复杂性之间的良好权衡。在本文中,我们提出了一个效率和有效的图像编码框架,该框架的复杂性比最高的状态具有相似的R-D性能。首先,我们开发了改进的多尺度残差块(MSRB),该块可以扩展容纳长石,并且更容易获得全球信息。它可以进一步捕获和减少潜在表示的空间相关性。其次,引入了更高级的重要性图网络,以自适应地分配位置到图像的不同区域。第三,我们应用2D定量后flter(PQF)来减少视频编码中样本自适应偏移量(SAO)flter的动机。此外,我们认为编码器和解码器的复杂性对图像压缩性能有不同的影响。基于这一观察结果,我们设计了一个不对称范式,其中编码器采用三个阶段的MSRB来提高学习能力,而解码器只需要一个srb的一个阶段就可以产生令人满意的重建,从而在不牺牲性能的情况下降低了解码的复杂性。实验结果表明,与最先进的方法相比,所提出方法的编码和解码时间速度约为17倍,而R-D性能仅在Kodak和Tecnick数据集中降低了1%,而R-D性能仅少于1%。它仍然比H.266/VVC(4:4:4)和其他基于学习的方法更好。我们的源代码可在https://github.com/fengyurenpingsheng上公开获得。
translated by 谷歌翻译
最近,基于学习的图像压缩已经达到了与传统图像编解码器(例如JPEG,BPG,WEPP)相当的性能。然而,计算复杂性和速率灵活性仍然是其实际部署的两个主要挑战。为了解决这些问题,本文提出了两个名为基于能量的信道门控(ECG)和比特率调制器(BM)的通用模块,可以直接嵌入到现有的端到端图像压缩模型中。ECG使用动态修剪来减少卷积层中超过50±50°的絮凝物,并且BM对可以调制潜在表示以控制频道明智的方式控制比特率。通过实现这两个模块,现有的基于学习的图像编解码器可以获得用单个模型和减少计算来输出任意比特率的能力。
translated by 谷歌翻译
上下文自适应熵模型的应用显着提高了速率 - 渗透率(R-D)的性能,在该表现中,超级培训和自回归模型被共同利用来有效捕获潜在表示的空间冗余。但是,潜在表示仍然包含一些空间相关性。此外,这些基于上下文自适应熵模型的方法在解码过程中无法通过并行计算设备,例如FPGA或GPU。为了减轻这些局限性,我们提出了一个学识渊博的多分辨率图像压缩框架,该框架利用了最近开发的八度卷积,以将潜在表示形式分配到高分辨率(HR)和低分辨率(LR)部分,类似于小波变换,这进一步改善了R-D性能。为了加快解码的速度,我们的方案不使用上下文自适应熵模型。取而代之的是,我们利用一个额外的超层,包括超级编码器和超级解码器,以进一步删除潜在表示的空间冗余。此外,将跨分辨率参数估计(CRPE)引入提出的框架中,以增强信息流并进一步改善速率延伸性能。提出了对总损耗函数提出的其他信息损失,以调整LR部分对最终位流的贡献。实验结果表明,与最先进的学术图像压缩方法相比,我们的方法分别将解码时间减少了约73.35%和93.44%,R-D性能仍然优于H.266/VVC(4:4::4:: 2:0)以及对PSNR和MS-SSIM指标的一些基于学习的方法。
translated by 谷歌翻译
在物联网(IoT)支持的网络边缘(IOT)上的人工智能(AI)的最新进展已通过启用低延期性和计算效率来实现多种应用程序(例如智能农业,智能医院和智能工厂)的优势情报。但是,部署最先进的卷积神经网络(CNN),例如VGG-16和在资源约束的边缘设备上的重新连接,由于其大量参数和浮点操作(Flops),因此实际上是不可行的。因此,将网络修剪作为一种模型压缩的概念正在引起注意在低功率设备上加速CNN。结构化或非结构化的最先进的修剪方法都不认为卷积层表现出的复杂性的不同基本性质,并遵循训练放回训练的管道,从而导致其他计算开销。在这项工作中,我们通过利用CNN的固有层层级复杂性来提出一种新颖和计算高效的修剪管道。与典型的方法不同,我们提出的复杂性驱动算法根据其对整体网络复杂性的贡献选择了特定层用于滤波器。我们遵循一个直接训练修剪模型并避免计算复杂排名和微调步骤的过程。此外,我们定义了修剪的三种模式,即参数感知(PA),拖网(FA)和内存感知(MA),以引入CNN的多功能压缩。我们的结果表明,我们的方法在准确性和加速方面的竞争性能。最后,我们提出了不同资源和准确性之间的权衡取舍,这对于开发人员在资源受限的物联网环境中做出正确的决策可能会有所帮助。
translated by 谷歌翻译
遇到错误的损耗压缩正成为必不可少的技术,即当今科学项目的成功,并在模拟或仪器数据获取过程中产生了大量数据。它不仅可以显着减少数据大小,而且还可以基于用户指定的错误界限控制压缩错误。自动编码器(AE)模型已被广泛用于图像压缩中,但是很少有基于AE的压缩方法支持遇到错误的功能,这是科学应用所要求的。为了解决这个问题,我们使用卷积自动编码器探索以改善科学数据的错误损失压缩,并提供以下三个关键贡献。 (1)我们对各种自动编码器模型的特性进行了深入的研究,并根据SZ模型开发了基于错误的自动编码器的框架。 (2)我们在设计的基于AE的错误压缩框架中优化了主要阶段的压缩质量,并微调块大小和潜在尺寸,并优化了潜在向量的压缩效率。 (3)我们使用五个现实世界的科学数据集评估了我们提出的解决方案,并将其与其他六项相关作品进行了比较。实验表明,我们的解决方案在测试中的所有压缩机中表现出非常具有竞争性的压缩质量。从绝对的角度来看,与SZ2.1和ZFP相比,在高压比的情况下,它可以获得更好的压缩质量(压缩率和相同数据失真的100%〜800%提高)。
translated by 谷歌翻译
由于稀疏神经网络通常包含许多零权重,因此可以在不降低网络性能的情况下潜在地消除这些不必要的网络连接。因此,设计良好的稀疏神经网络具有显着降低拖鞋和计算资源的潜力。在这项工作中,我们提出了一种新的自动修剪方法 - 稀疏连接学习(SCL)。具体地,重量被重新参数化为可培训权重变量和二进制掩模的元素方向乘法。因此,由二进制掩模完全描述网络连接,其由单位步进函数调制。理论上,从理论上证明了使用直通估计器(STE)进行网络修剪的基本原理。这一原则是STE的代理梯度应该是积极的,确保掩模变量在其最小值处收敛。在找到泄漏的Relu后,SoftPlus和Identity Stes可以满足这个原理,我们建议采用SCL的身份STE以进行离散面膜松弛。我们发现不同特征的面具梯度非常不平衡,因此,我们建议将每个特征的掩模梯度标准化以优化掩码变量训练。为了自动训练稀疏掩码,我们将网络连接总数作为我们的客观函数中的正则化术语。由于SCL不需要由网络层设计人员定义的修剪标准或超级参数,因此在更大的假设空间中探讨了网络,以实现最佳性能的优化稀疏连接。 SCL克服了现有自动修剪方法的局限性。实验结果表明,SCL可以自动学习并选择各种基线网络结构的重要网络连接。 SCL培训的深度学习模型以稀疏性,精度和减少脚波特的SOTA人类设计和自动修剪方法训练。
translated by 谷歌翻译
我们使用氚(DPICT)算法提出了深度渐进的图像压缩,该算法是支持细粒度可扩展性(FGS)的第一学习的编解码器。首先,我们使用分析网络将图像转换为潜在的张量。然后,我们代表三元数字中的潜在张量(氚),并通过氚平面将其以减少的意义顺序编码为压缩比特流慢平面。此外,在每个氚平面内,我们根据其速率失真优先级对速度进行排序,并首先传输更重要的信息。由于压缩网络对使用更少的氚平面的情况较少优化,因此我们开发了用于以低速率精炼重建图像的后处理网络。实验结果表明,DPICT显着优于传统的渐进式编解码器,同时实现FGS传输。
translated by 谷歌翻译
当涉及数码相机中的图像压缩时,传统上是在压缩之前执行的。但是,在某些应用中,可能需要进行图像噪声来证明图像的可信度,例如法院证据和图像取证。这意味着除干净的图像本身外,还需要编码噪声本身。在本文中,我们提出了一个基于学习的图像压缩框架,在该框架中共同执行图像denoising和压缩。图像编解码器的潜在空间以可扩展的方式组织,以便可以从潜在空间的子集(基础层)中解码清洁图像,而嘈杂的图像则以较高的速率从完整的潜在空间解码。使用潜在空间的子集作为剥落图像,可以以较低的速率进行deno。除了提供嘈杂的输入图像的可扩展表示外,用压缩共同执行deno,这是直观的意义,因为噪声很难压缩;因此,可压缩性是可能有助于区分信号的标准之一。将提出的编解码器与已建立的压缩和降解基准进行了比较,并且与最先进的编解码器和最先进的Denoiser的级联组合相比,实验显示了大量的比特率节省。
translated by 谷歌翻译
我们提出了一种用于在仅在解码器处作为侧面信息可用时压缩图像的新型神经网络(DNN)架构。该问题在信息理论中称为分布式源编码(DSC)。特别地,我们考虑一对立体图像,其由于视野的重叠场而通常彼此具有高相关,并且假设要压缩和发送该对的一个图像,而另一个图像仅在解码器。在所提出的架构中,编码器将输入图像映射到潜像,量化潜在表示,并使用熵编码压缩它。训练解码器以仅使用后者使用后者提取输入图像和相关图像之间的公共信息。接收的潜在表示和本地生成的公共信息通过解码器网络来获得增强的输入图像的增强重建。公共信息提供了ReceIver上相关信息的简洁表示。我们训练并展示所提出的方法对立体声图像对的拟议方法的有效性。我们的结果表明,该建筑的架构能够利用仅解码器的侧面信息,并且在使用解码器侧信息的情况下优于立体图像压缩的先前工作。
translated by 谷歌翻译
Recent models for learned image compression are based on autoencoders, learning approximately invertible mappings from pixels to a quantized latent representation. These are combined with an entropy model, a prior on the latent representation that can be used with standard arithmetic coding algorithms to yield a compressed bitstream. Recently, hierarchical entropy models have been introduced as a way to exploit more structure in the latents than simple fully factorized priors, improving compression performance while maintaining end-to-end optimization. Inspired by the success of autoregressive priors in probabilistic generative models, we examine autoregressive, hierarchical, as well as combined priors as alternatives, weighing their costs and benefits in the context of image compression. While it is well known that autoregressive models come with a significant computational penalty, we find that in terms of compression performance, autoregressive and hierarchical priors are complementary and, together, exploit the probabilistic structure in the latents better than all previous learned models. The combined model yields state-of-the-art rate-distortion performance, providing a 15.8% average reduction in file size over the previous state-of-the-art method based on deep learning, which corresponds to a 59.8% size reduction over JPEG, more than 35% reduction compared to WebP and JPEG2000, and bitstreams 8.4% smaller than BPG, the current state-of-the-art image codec. To the best of our knowledge, our model is the first learning-based method to outperform BPG on both PSNR and MS-SSIM distortion metrics.32nd Conference on Neural Information Processing Systems (NIPS 2018),
translated by 谷歌翻译
学习的图像压缩技术近年来取得了相当大的发展。在本文中,我们发现性能瓶颈位于使用单个高度解码器,在这种情况下,三元高斯模型折叠到二进制文件。为了解决这个问题,我们建议使用三个高度解码器来分离混合参数的解码过程,以分散的高斯混合似然性,实现更准确的参数估计。实验结果表明,与最先进的方法相比,MS-SSSIM优化的所提出的方法实现了3.36%的BD速率。所提出的方法对编码时间和拖鞋的贡献可以忽略不计。
translated by 谷歌翻译
在近期深度图像压缩神经网络中,熵模型在估计深度图像编码的先前分配时起着重要作用。现有方法将HydupRior与熵估计功能中的本地上下文组合。由于没有全球愿景,这大大限制了他们的表现。在这项工作中,我们提出了一种新的全局参考模型,用于图像压缩,以有效地利用本地和全局上下文信息,导致增强的压缩率。所提出的方法扫描解码的潜伏,然后找到最相关的潜伏,以帮助分布估计当前潜伏。这项工作的副产品是一种平均转换GDN模块的创新,进一步提高了性能。实验结果表明,所提出的模型优于行业中大多数最先进方法的速率变形性能。
translated by 谷歌翻译
在本文中,我们提出了一类新的高效的深源通道编码方法,可以在非线性变换下的源分布下,可以在名称非线性变换源通道编码(NTSCC)下收集。在所考虑的模型中,发射器首先了解非线性分析变换以将源数据映射到潜伏空间中,然后通过深关节源通道编码将潜在的表示发送到接收器。我们的模型在有效提取源语义特征并提供源通道编码的侧面信息之前,我们的模型包括强度。与现有的传统深度联合源通道编码方法不同,所提出的NTSCC基本上学习源潜像和熵模型,作为先前的潜在表示。因此,开发了新的自适应速率传输和高辅助辅助编解码器改进机制以升级深关节源通道编码。整个系统设计被制定为优化问题,其目标是最小化建立感知质量指标下的端到端传输率失真性能。在简单的示例源和测试图像源上,我们发现所提出的NTSCC传输方法通常优于使用标准的深关节源通道编码和基于经典分离的数字传输的模拟传输。值得注意的是,由于其剧烈的内容感知能力,所提出的NTSCC方法可能会支持未来的语义通信。
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译
In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
translated by 谷歌翻译
最近的作品表明,现代机器学习技术可以为长期存在的联合源通道编码(JSCC)问题提供另一种方法。非常有希望的初始结果,优于使用单独的源代码和通道代码的流行数字方案,已被证明用于使用深神经网络(DNNS)的无线图像和视频传输。但是,此类方案的端到端培训需要可区分的通道输入表示。因此,先前的工作假设可以通过通道传输任何复杂值。这可以防止在硬件或协议只能接收数字星座规定的某些频道输入集的情况下应用这些代码。本文中,我们建议使用有限通道输入字母的端到端优化的JSCC解决方案DeepJSCC-Q。我们表明,DEEPJSCC-Q可以实现与允许任何复杂的有价值通道输入的先前作品相似的性能,尤其是在可用的高调制订单时,并且在调制顺序增加的情况下,性能渐近接近无约束通道输入的情况。重要的是,DEEPJSCC-Q保留了不可预测的渠道条件下图像质量的优雅降级,这是在频道迅速变化的移动系统中部署的理想属性。
translated by 谷歌翻译
最近的作品表明,可以通过使用机器学习技术来学习图像的无线传输的任务。已经通过训练了自动化器,非常有前沿图像质量,优于利用源和信道编码分离的流行数字方案,以具有中间的不可培训的沟道层,优于利用源和信道编码分离。然而,这些方法假设可以通过信道传输任何复数,这可以防止硬件或协议只能承认某些信道输入的场景中的算法,例如使用数字星座的使用。这里,我们提出了DeepJSCC-Q,用于无线图像传输的端到端优化的联合源信道编码方案,其能够用固定信道输入字母操作。我们表明DeepJSCC-Q可以对使用连续值通道输入的模型来实现类似的性能。重要的是,在信道条件恶化的情况下,保留在现有工作中观察到的图像质量的正常劣化,使DeepJSCC-Q在实际系统中部署更具吸引力。
translated by 谷歌翻译
我们呈现深度,第一端到端联合源通道编码(JSCC)视频传输方案,其利用深神经网络(DNN)的力量直接将视频信号映射到信道符号,组合视频压缩,信道编码并且调制步骤进入单个神经变换。我们的DNN解码器预测无失真反馈的残差,这通过占闭塞/脱离和相机运动来提高视频质量。我们同时培训不同的带宽分配网络,以允许变量带宽传输。然后,我们使用强化学习(RL)训练带宽分配网络,该钢筋学习(RL)优化视频帧之间的有限可用信道带宽的分配,以最大限度地提高整体视觉质量。我们的研究结果表明,深度可以克服悬崖效应,这在传统的分离的数字通信方案中普遍存在,并在估计和实际信道质量之间取得不匹配来实现优雅的降级。 DeepWive优于H.264视频压缩,然后在所有信道条件下的低密度奇偶校验(LDPC)代码在多尺度结构相似性指数(MS-SSIM)方面平均达到0.0462,同时跳动H.265 + LDPC平均高达0.0058。我们还说明了通过显示我们的最佳带宽分配策略优于NA \“IVE统一分配来优化JSCC视频传输中的带宽分配的重要性。我们相信这是实现端到端潜力的重要一步优化的JSCC无线视频传输系统优于当前的基于分离的设计。
translated by 谷歌翻译