据估计,2020年世界生产了59美元(5.9美元×13} GB $),导致数据存储和传输的巨大成本。幸运的是,深度生成模型的最近进步已经刺激了一类新的所谓的“神经压缩”算法,这在压缩比方面显着优于传统的编解码器。不幸的是,由于其带宽有限,神经压缩加法器的应用很少的商业利益;因此,开发高效框架具有重要的重要性。在本文中,我们讨论了使用正常化流动的无损压缩,这已经表现出了实现高压缩比的很大容量。因此,我们介绍了iflow,一种实现有效的无损压缩的新方法。我们首先提出模块化尺度变换(MST)和基于MST的数值可逆的流动变换的新颖家族。然后我们介绍统一的基础转换系统(UBC),将快速均匀分布编解码器结合到IFLow中,从而实现有效的压缩。 IFLow实现最先进的压缩比率,比其他高性能方案更快5倍。此外,本文提出的技术可用于加速广泛的基于流的算法的编码时间。
translated by 谷歌翻译
现在,存储快速增长的大数据是不可取的,这需要高性能的无损压缩技术。基于可能性的生成模型在无损压缩中获得了成功,其中基于流基的模型在允许与映射映射进行精确的数据似然优化时是可取的。然而,常见的连续流是矛盾的,并且编码方案的离散性,这需要1)对流量模型的严格约束来降低性能或2)编码许多减少效率的诸多的映射误差。在本文中,我们调查了对无损压缩的音量保持流动,并显示了一个没有错误的自由度映射。我们提出了来自总体积保护流的数值可释放的流量(IVPF)。通过在流模型上引入新颖的计算算法,在没有任何数值误差的情况下实现精确的映射映射。我们还提出了一种基于IVPF的无损压缩算法。各种数据集的实验表明,基于IVPF的算法通过轻量级压缩算法实现了最先进的压缩比。
translated by 谷歌翻译
基于生成模型的图像无损压缩算法在改善压缩比方面取得了巨大的成功。但是,即使使用最先进的AI加速芯片,它们中大多数的吞吐量也小于1 Mb/s,从而阻止了它们的大多数现实应用应用,通常需要100 MB/s。在本文中,我们提出了PILC,这是一种端到端图像无损压缩框架,使用单个NVIDIA TESLA V100 GPU实现200 Mb/s的压缩和减压,比以前最有效的速度快10倍。为了获得此结果,我们首先开发了一个AI编解码器,该AI编解码器结合了自动回归模型和VQ-VAE,在轻质设置中性能很好,然后我们设计了一个低复杂性熵编码器,可与我们的编解码器配合使用。实验表明,在多个数据集中,我们的框架压缩比PNG高30%。我们认为,这是将AI压缩推向商业用途的重要步骤。
translated by 谷歌翻译
最近的工作表明,变异自动编码器(VAE)与速率失真理论之间有着密切的理论联系。由此激发,我们从生成建模的角度考虑了有损图像压缩的问题。从最初是为数据(图像)分布建模设计的Resnet VAE开始,我们使用量化意识的后验和先验重新设计其潜在变量模型,从而实现易于量化和熵编码的图像压缩。除了改进的神经网络块外,我们还提出了一类强大而有效的有损图像编码器类别,超过了自然图像(有损)压缩的先前方法。我们的模型以粗略的方式压缩图像,并支持并行编码和解码,从而在GPU上快速执行。
translated by 谷歌翻译
对于许多技术领域的专业用户,例如医学,遥感,精密工程和科学研究,无损和近乎无情的图像压缩至关重要。但是,尽管在基于学习的图像压缩方面的研究兴趣迅速增长,但没有发表的方法提供无损和近乎无情的模式。在本文中,我们提出了一个统一而强大的深层损失加上残留(DLPR)编码框架,以实现无损和近乎无情的图像压缩。在无损模式下,DLPR编码系统首先执行有损压缩,然后执行残差的无损编码。我们在VAE的方法中解决了关节损失和残留压缩问题,并添加残差的自回归上下文模型以增强无损压缩性能。在近乎荒谬的模式下,我们量化了原始残差以满足给定的$ \ ell_ \ infty $错误绑定,并提出了可扩展的近乎无情的压缩方案,该方案适用于可变$ \ ell_ \ infty $ bunds而不是训练多个网络。为了加快DLPR编码,我们通过新颖的编码环境设计提高了算法并行化的程度,并以自适应残留间隔加速熵编码。实验结果表明,DLPR编码系统以竞争性的编码速度实现了最先进的无损和近乎无效的图像压缩性能。
translated by 谷歌翻译
明确的深度生成模型(DGMS),例如VAES和归一化流量,已经显示出有效的数据建模替代因素,以获得无损压缩。然而,DGMS本身通常需要大的存储空间,从而污染通过精确的数据密度估计所带来的优点。为了消除对不同目标数据集的保存单独模型的要求,我们提出了一种从预磨削的深生成模型开始的新颖设置,并将数据批量压缩,同时使用动态系统仅为一个时代调整模型。我们将此设置形式形式为DGMS的单次在线适配(OSOA),无损压缩,并在此设置下提出香草算法。实验结果表明,Vanilla OsoA可以使用一个型号为所有目标节省大量时间与训练定制模型和空间与空间。具有相同的适应步骤数或适应时间,显示Vanilla OsoA可以表现出更好的空间效率,例如47美元的空间,而不是微调预先调整预制模型并保存微调模型。此外,我们展示了OSOA的潜力,并通过显示每个批次和早期停止的多个更新的进一步空间或时间效率来激励更复杂的OSOA算法。
translated by 谷歌翻译
通过将熵编解码器应用于学习的数据分布,神经压缩机在压缩比方面显着优于传统编解码器。但是,神经网络的高推断潜伏期阻碍了实际应用中神经压缩机的部署。在这项工作中,我们提出了仅整数离散流(IODF),这是一种具有仅整数算术的有效神经压缩机。我们的工作建立在整数离散流的基础上,该流程包括离散随机变量之间的可逆转换。我们提出了基于8位量化的纯整数算术的有效可逆转换。我们的可逆转换配备了可学习的二进制门,以在推理过程中去除冗余过滤器。我们在GPU上使用Tensorrt部署IODF,与现有最快的神经压缩机相比,达到10倍推理的速度,同时保留了Imagenet32和Imagenet64上的高压缩率。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
预计机器学习算法的大多数实际问题都可以通过1)未知数据分配来解决这种情况; 2)小领域特定知识; 3)注释有限的数据集。我们通过使用潜在变量(NPC-LV)的压缩提出非参数学习,这是任何数据集的学习框架,这些数据集具有丰富的未标记数据,但很少有标签的数据。通过仅以无监督的方式训练生成模型,该框架利用数据分配来构建压缩机。使用源自Kolmogorov复杂性的基于压缩机的距离度量,加上很少的标记数据,NPC-LV无需进一步的训练而进行分类。我们表明,在低数据制度中,NPC-LV在图像分类的所有三个数据集上都优于监督方法,甚至超过了CIFAR-10上的半监督学习方法。我们证明了如何以及何时使用负面证据下降(Nelbo)作为分类的近似压缩长度。通过揭示压缩率和分类精度之间的相关性,我们说明在NPC-LV下,生成模型的改进可以增强下游分类精度。
translated by 谷歌翻译
Normalizing Flows are generative models which produce tractable distributions where both sampling and density evaluation can be efficient and exact. The goal of this survey article is to give a coherent and comprehensive review of the literature around the construction and use of Normalizing Flows for distribution learning. We aim to provide context and explanation of the models, review current state-of-the-art literature, and identify open questions and promising future directions.
translated by 谷歌翻译
熵编码是骨干数据压缩。新的机器学习基于的压缩方法通常使用名为非对称数字系统(ANS)的新的熵编码器[Duda等人,2015],它提供非常接近最佳比特率并简化[Townsend等,2019]高级压缩技术作为位编码。然而,在机器学习中的研究人员往往很难了解ANS的工作原理,这可以防止它们利用其完全多功能性。本文作为教育资源,通过从潜在变量模型和所谓的位诀窍的新视角呈现它,使其更加接近。我们将读者逐步引导到Python编程语言中的完整实现,然后我们将概括为更高级的用例。我们还展示并经验评估了为研究和生产而设计的各种熵编码器的开源库。相关教学视频和问题集可在线获取。
translated by 谷歌翻译
A normalizing flow models a complex probability density as an invertible transformation of a simple base density. Flows based on either coupling or autoregressive transforms both offer exact density evaluation and sampling, but rely on the parameterization of an easily invertible elementwise transformation, whose choice determines the flexibility of these models. Building upon recent work, we propose a fully-differentiable module based on monotonic rational-quadratic splines, which enhances the flexibility of both coupling and autoregressive transforms while retaining analytic invertibility. We demonstrate that neural spline flows improve density estimation, variational inference, and generative modeling of images.
translated by 谷歌翻译
尽管在图像生成方面广泛进展,但在应用于无损压缩时,深度生成模型是次优。例如,由于其潜在变量,诸如VAE的模型遭受压缩成本开销,其潜在的变量只能被部分地消除,这些方案诸如位编码,导致单个样本压缩率不良。为了克服这些问题,我们建立了一类新的易旧的无损压缩模型,允许有效的编码和解码:概率电路(PC)。这些是一类神经网络,涉及$ | $ COWS $ COMPUTIONATION单位,支持高效的$ D $特征尺寸的任意子集,从而实现有效的算术编码。我们推出了有效的编码和解码方案,即有时间复杂度$ \ mathcal {o}(\ log(d)\ cdot | p | p |)$,其中天真的方案在$ d $和$ | p | $ ,使方法高度可扩展。经验,我们的PC基(DE)压缩算法比实现类似比特率的神经压缩算法更快地运行5-20倍。通过缩放传统的PC结构学习管道,我们在诸如MNIST之类的图像数据集上实现了最先进的结果。此外,PC可以自然地与现有的神经压缩算法集成,以改善在自然图像数据集上的这些基础模型的性能。我们的结果突出了非标准学习架构可能对神经数据压缩的潜在影响。
translated by 谷歌翻译
The framework of normalizing flows provides a general strategy for flexible variational inference of posteriors over latent variables. We propose a new type of normalizing flow, inverse autoregressive flow (IAF), that, in contrast to earlier published flows, scales well to high-dimensional latent spaces. The proposed flow consists of a chain of invertible transformations, where each transformation is based on an autoregressive neural network. In experiments, we show that IAF significantly improves upon diagonal Gaussian approximate posteriors. In addition, we demonstrate that a novel type of variational autoencoder, coupled with IAF, is competitive with neural autoregressive models in terms of attained log-likelihood on natural images, while allowing significantly faster synthesis.
translated by 谷歌翻译
It has been witnessed that learned image compression has outperformed conventional image coding techniques and tends to be practical in industrial applications. One of the most critical issues that need to be considered is the non-deterministic calculation, which makes the probability prediction cross-platform inconsistent and frustrates successful decoding. We propose to solve this problem by introducing well-developed post-training quantization and making the model inference integer-arithmetic-only, which is much simpler than presently existing training and fine-tuning based approaches yet still keeps the superior rate-distortion performance of learned image compression. Based on that, we further improve the discretization of the entropy parameters and extend the deterministic inference to fit Gaussian mixture models. With our proposed methods, the current state-of-the-art image compression models can infer in a cross-platform consistent manner, which makes the further development and practice of learned image compression more promising.
translated by 谷歌翻译
归一化流量是漫射的,通常是维持尺寸保存,使用模型的可能性训练的模型。我们使用Surve Framework通过新的层构建尺寸减少调节流量,称为漏斗。我们展示了对各种数据集的功效,并表明它改善或匹配现有流量的性能,同时具有降低的潜在空间尺寸。漏斗层可以由各种变换构成,包括限制卷积和馈送前部。
translated by 谷歌翻译
归一化流量是输入和潜在表示之间的基础映射,具有完全分解的分布。由于精确的可能性估值和有效的抽样,它们非常有吸引力。然而,由于杀硅约束限制了模型宽度,因此它们的有效容量通常不足。我们通过逐渐填充噪音的中间表示来解决此问题。我们根据先前可逆的单位预处理噪声,我们将其描述为交叉单元耦合。我们可逆的发光模块通过融合具有腹部自我关注的密集连接块来提高模型表达性。我们将我们的体系结构称为致密流,因为跨单元和模块内联轴器都依赖于密集的连接。实验表现出显着的改善,因为拟议的贡献和揭示了中等计算预算下的最先进的密度估算。
translated by 谷歌翻译
基于流量的生成模型最近已成为模拟数据生成的最有效方法之一。实际上,它们是由一系列可逆和可触觉转换构建的。Glow首先使用可逆$ 1 \ times 1 $卷积引入了一种简单的生成流。但是,与标准卷积相比,$ 1 \ times 1 $卷积的灵活性有限。在本文中,我们提出了一种新颖的可逆$ n \ times n $卷积方法,该方法克服了可逆$ 1 \ times 1 $卷积的局限性。此外,我们所提出的网络不仅可以处理和可逆,而且比标准卷积使用的参数少。CIFAR-10,ImageNet和Celeb-HQ数据集的实验表明,我们可逆的$ N \ times n $卷积有助于显着提高生成模型的性能。
translated by 谷歌翻译
We describe an end-to-end trainable model for image compression based on variational autoencoders. The model incorporates a hyperprior to effectively capture spatial dependencies in the latent representation. This hyperprior relates to side information, a concept universal to virtually all modern image codecs, but largely unexplored in image compression using artificial neural networks (ANNs). Unlike existing autoencoder compression methods, our model trains a complex prior jointly with the underlying autoencoder. We demonstrate that this model leads to state-of-the-art image compression when measuring visual quality using the popular MS-SSIM index, and yields rate-distortion performance surpassing published ANN-based methods when evaluated using a more traditional metric based on squared error (PSNR). Furthermore, we provide a qualitative comparison of models trained for different distortion metrics.
translated by 谷歌翻译
在本文中,我们提出了一类新的高效的深源通道编码方法,可以在非线性变换下的源分布下,可以在名称非线性变换源通道编码(NTSCC)下收集。在所考虑的模型中,发射器首先了解非线性分析变换以将源数据映射到潜伏空间中,然后通过深关节源通道编码将潜在的表示发送到接收器。我们的模型在有效提取源语义特征并提供源通道编码的侧面信息之前,我们的模型包括强度。与现有的传统深度联合源通道编码方法不同,所提出的NTSCC基本上学习源潜像和熵模型,作为先前的潜在表示。因此,开发了新的自适应速率传输和高辅助辅助编解码器改进机制以升级深关节源通道编码。整个系统设计被制定为优化问题,其目标是最小化建立感知质量指标下的端到端传输率失真性能。在简单的示例源和测试图像源上,我们发现所提出的NTSCC传输方法通常优于使用标准的深关节源通道编码和基于经典分离的数字传输的模拟传输。值得注意的是,由于其剧烈的内容感知能力,所提出的NTSCC方法可能会支持未来的语义通信。
translated by 谷歌翻译