明确的深度生成模型(DGMS),例如VAES和归一化流量,已经显示出有效的数据建模替代因素,以获得无损压缩。然而,DGMS本身通常需要大的存储空间,从而污染通过精确的数据密度估计所带来的优点。为了消除对不同目标数据集的保存单独模型的要求,我们提出了一种从预磨削的深生成模型开始的新颖设置,并将数据批量压缩,同时使用动态系统仅为一个时代调整模型。我们将此设置形式形式为DGMS的单次在线适配(OSOA),无损压缩,并在此设置下提出香草算法。实验结果表明,Vanilla OsoA可以使用一个型号为所有目标节省大量时间与训练定制模型和空间与空间。具有相同的适应步骤数或适应时间,显示Vanilla OsoA可以表现出更好的空间效率,例如47美元的空间,而不是微调预先调整预制模型并保存微调模型。此外,我们展示了OSOA的潜力,并通过显示每个批次和早期停止的多个更新的进一步空间或时间效率来激励更复杂的OSOA算法。
translated by 谷歌翻译
现在,存储快速增长的大数据是不可取的,这需要高性能的无损压缩技术。基于可能性的生成模型在无损压缩中获得了成功,其中基于流基的模型在允许与映射映射进行精确的数据似然优化时是可取的。然而,常见的连续流是矛盾的,并且编码方案的离散性,这需要1)对流量模型的严格约束来降低性能或2)编码许多减少效率的诸多的映射误差。在本文中,我们调查了对无损压缩的音量保持流动,并显示了一个没有错误的自由度映射。我们提出了来自总体积保护流的数值可释放的流量(IVPF)。通过在流模型上引入新颖的计算算法,在没有任何数值误差的情况下实现精确的映射映射。我们还提出了一种基于IVPF的无损压缩算法。各种数据集的实验表明,基于IVPF的算法通过轻量级压缩算法实现了最先进的压缩比。
translated by 谷歌翻译
基于生成模型的图像无损压缩算法在改善压缩比方面取得了巨大的成功。但是,即使使用最先进的AI加速芯片,它们中大多数的吞吐量也小于1 Mb/s,从而阻止了它们的大多数现实应用应用,通常需要100 MB/s。在本文中,我们提出了PILC,这是一种端到端图像无损压缩框架,使用单个NVIDIA TESLA V100 GPU实现200 Mb/s的压缩和减压,比以前最有效的速度快10倍。为了获得此结果,我们首先开发了一个AI编解码器,该AI编解码器结合了自动回归模型和VQ-VAE,在轻质设置中性能很好,然后我们设计了一个低复杂性熵编码器,可与我们的编解码器配合使用。实验表明,在多个数据集中,我们的框架压缩比PNG高30%。我们认为,这是将AI压缩推向商业用途的重要步骤。
translated by 谷歌翻译
预计机器学习算法的大多数实际问题都可以通过1)未知数据分配来解决这种情况; 2)小领域特定知识; 3)注释有限的数据集。我们通过使用潜在变量(NPC-LV)的压缩提出非参数学习,这是任何数据集的学习框架,这些数据集具有丰富的未标记数据,但很少有标签的数据。通过仅以无监督的方式训练生成模型,该框架利用数据分配来构建压缩机。使用源自Kolmogorov复杂性的基于压缩机的距离度量,加上很少的标记数据,NPC-LV无需进一步的训练而进行分类。我们表明,在低数据制度中,NPC-LV在图像分类的所有三个数据集上都优于监督方法,甚至超过了CIFAR-10上的半监督学习方法。我们证明了如何以及何时使用负面证据下降(Nelbo)作为分类的近似压缩长度。通过揭示压缩率和分类精度之间的相关性,我们说明在NPC-LV下,生成模型的改进可以增强下游分类精度。
translated by 谷歌翻译
据估计,2020年世界生产了59美元(5.9美元×13} GB $),导致数据存储和传输的巨大成本。幸运的是,深度生成模型的最近进步已经刺激了一类新的所谓的“神经压缩”算法,这在压缩比方面显着优于传统的编解码器。不幸的是,由于其带宽有限,神经压缩加法器的应用很少的商业利益;因此,开发高效框架具有重要的重要性。在本文中,我们讨论了使用正常化流动的无损压缩,这已经表现出了实现高压缩比的很大容量。因此,我们介绍了iflow,一种实现有效的无损压缩的新方法。我们首先提出模块化尺度变换(MST)和基于MST的数值可逆的流动变换的新颖家族。然后我们介绍统一的基础转换系统(UBC),将快速均匀分布编解码器结合到IFLow中,从而实现有效的压缩。 IFLow实现最先进的压缩比率,比其他高性能方案更快5倍。此外,本文提出的技术可用于加速广泛的基于流的算法的编码时间。
translated by 谷歌翻译
分发(OOD)检测和无损压缩构成了两个问题,可以通过对第一个数据集的概率模型进行训练来解决,其中在第二数据集上的后续似然评估,其中数据分布不同。通过在可能性方面定义概率模型的概括,我们表明,在图像模型的情况下,泛展能力通过本地特征主导。这激励了我们对本地自回归模型的提议,该模型专门为局部图像特征而达到改善的性能。我们将拟议的模型应用于检测任务,并在未引入其他数据的情况下实现最先进的无监督的检测性能。此外,我们使用我们的模型来构建新的无损图像压缩机:Nelloc(神经本地无损压缩机)和报告最先进的压缩率和模型大小。
translated by 谷歌翻译
尽管在图像生成方面广泛进展,但在应用于无损压缩时,深度生成模型是次优。例如,由于其潜在变量,诸如VAE的模型遭受压缩成本开销,其潜在的变量只能被部分地消除,这些方案诸如位编码,导致单个样本压缩率不良。为了克服这些问题,我们建立了一类新的易旧的无损压缩模型,允许有效的编码和解码:概率电路(PC)。这些是一类神经网络,涉及$ | $ COWS $ COMPUTIONATION单位,支持高效的$ D $特征尺寸的任意子集,从而实现有效的算术编码。我们推出了有效的编码和解码方案,即有时间复杂度$ \ mathcal {o}(\ log(d)\ cdot | p | p |)$,其中天真的方案在$ d $和$ | p | $ ,使方法高度可扩展。经验,我们的PC基(DE)压缩算法比实现类似比特率的神经压缩算法更快地运行5-20倍。通过缩放传统的PC结构学习管道,我们在诸如MNIST之类的图像数据集上实现了最先进的结果。此外,PC可以自然地与现有的神经压缩算法集成,以改善在自然图像数据集上的这些基础模型的性能。我们的结果突出了非标准学习架构可能对神经数据压缩的潜在影响。
translated by 谷歌翻译
熵编码是骨干数据压缩。新的机器学习基于的压缩方法通常使用名为非对称数字系统(ANS)的新的熵编码器[Duda等人,2015],它提供非常接近最佳比特率并简化[Townsend等,2019]高级压缩技术作为位编码。然而,在机器学习中的研究人员往往很难了解ANS的工作原理,这可以防止它们利用其完全多功能性。本文作为教育资源,通过从潜在变量模型和所谓的位诀窍的新视角呈现它,使其更加接近。我们将读者逐步引导到Python编程语言中的完整实现,然后我们将概括为更高级的用例。我们还展示并经验评估了为研究和生产而设计的各种熵编码器的开源库。相关教学视频和问题集可在线获取。
translated by 谷歌翻译
最近的工作表明,变异自动编码器(VAE)与速率失真理论之间有着密切的理论联系。由此激发,我们从生成建模的角度考虑了有损图像压缩的问题。从最初是为数据(图像)分布建模设计的Resnet VAE开始,我们使用量化意识的后验和先验重新设计其潜在变量模型,从而实现易于量化和熵编码的图像压缩。除了改进的神经网络块外,我们还提出了一类强大而有效的有损图像编码器类别,超过了自然图像(有损)压缩的先前方法。我们的模型以粗略的方式压缩图像,并支持并行编码和解码,从而在GPU上快速执行。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
Most semantic communication systems leverage deep learning models to provide end-to-end transmission performance surpassing the established source and channel coding approaches. While, so far, research has mainly focused on architecture and model improvements, but such a model trained over a full dataset and ergodic channel responses is unlikely to be optimal for every test instance. Due to limitations on the model capacity and imperfect optimization and generalization, such learned models will be suboptimal especially when the testing data distribution or channel response is different from that in the training phase, as is likely to be the case in practice. To tackle this, in this paper, we propose a novel semantic communication paradigm by leveraging the deep learning model's overfitting property. Our model can for instance be updated after deployment, which can further lead to substantial gains in terms of the transmission rate-distortion (RD) performance. This new system is named adaptive semantic communication (ASC). In our ASC system, the ingredients of wireless transmitted stream include both the semantic representations of source data and the adapted decoder model parameters. Specifically, we take the overfitting concept to the extreme, proposing a series of ingenious methods to adapt the semantic codec or representations to an individual data or channel state instance. The whole ASC system design is formulated as an optimization problem whose goal is to minimize the loss function that is a tripartite tradeoff among the data rate, model rate, and distortion terms. The experiments (including user study) verify the effectiveness and efficiency of our ASC system. Notably, the substantial gain of our overfitted coding paradigm can catalyze semantic communication upgrading to a new era.
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
我们可以使用机器学习来压缩图形数据吗?在图中没有排序对传统压缩算法构成了重大挑战,限制了其可达到的收益以及他们发现相关模式的能力。另一方面,大多数图表压缩方法依赖于域依赖的手工制作表示,并且无法适应不同的底层图分布。这项工作旨在建立必要的原则,无损图形压缩方法应遵循以接近熵储存下限。我们不是对图形分布进行僵化的假设,我们将压缩机作为概率模型制定,可以从数据学习并概括到看不见的实例。我们的“分区和代码”框架需要三个步骤:首先,分区算法将图形分解为子图,然后映射到我们学习概率分布的小词典的元素,最后,熵编码器转换了表示进入比特。所有组件(分区,字典和分发)都是参数化的,可以用梯度下降训练。理论上,从温和条件下理论上比较了几个图形编码的压缩质量,并证明了PNC实现了线性或二次以顶点的数量而产生的压缩增益。经验上,PNC对不同的现实网络产生了显着的压缩改进。
translated by 谷歌翻译
在本文中,我们提出了一类新的高效的深源通道编码方法,可以在非线性变换下的源分布下,可以在名称非线性变换源通道编码(NTSCC)下收集。在所考虑的模型中,发射器首先了解非线性分析变换以将源数据映射到潜伏空间中,然后通过深关节源通道编码将潜在的表示发送到接收器。我们的模型在有效提取源语义特征并提供源通道编码的侧面信息之前,我们的模型包括强度。与现有的传统深度联合源通道编码方法不同,所提出的NTSCC基本上学习源潜像和熵模型,作为先前的潜在表示。因此,开发了新的自适应速率传输和高辅助辅助编解码器改进机制以升级深关节源通道编码。整个系统设计被制定为优化问题,其目标是最小化建立感知质量指标下的端到端传输率失真性能。在简单的示例源和测试图像源上,我们发现所提出的NTSCC传输方法通常优于使用标准的深关节源通道编码和基于经典分离的数字传输的模拟传输。值得注意的是,由于其剧烈的内容感知能力,所提出的NTSCC方法可能会支持未来的语义通信。
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
对于许多技术领域的专业用户,例如医学,遥感,精密工程和科学研究,无损和近乎无情的图像压缩至关重要。但是,尽管在基于学习的图像压缩方面的研究兴趣迅速增长,但没有发表的方法提供无损和近乎无情的模式。在本文中,我们提出了一个统一而强大的深层损失加上残留(DLPR)编码框架,以实现无损和近乎无情的图像压缩。在无损模式下,DLPR编码系统首先执行有损压缩,然后执行残差的无损编码。我们在VAE的方法中解决了关节损失和残留压缩问题,并添加残差的自回归上下文模型以增强无损压缩性能。在近乎荒谬的模式下,我们量化了原始残差以满足给定的$ \ ell_ \ infty $错误绑定,并提出了可扩展的近乎无情的压缩方案,该方案适用于可变$ \ ell_ \ infty $ bunds而不是训练多个网络。为了加快DLPR编码,我们通过新颖的编码环境设计提高了算法并行化的程度,并以自适应残留间隔加速熵编码。实验结果表明,DLPR编码系统以竞争性的编码速度实现了最先进的无损和近乎无效的图像压缩性能。
translated by 谷歌翻译
我们引入基于实例自适应学习的视频压缩算法。在要传输的每个视频序列上,我们介绍了预训练的压缩模型。最佳参数与潜在代码一起发送到接收器。通过熵编码在合适的混合模型下的参数更新,我们确保可以有效地编码网络参数。该实例自适应压缩算法对于基础模型的选择是不可知的,并且具有改进任何神经视频编解码器的可能性。在UVG,HEVC和XIPH数据集上,我们的CODEC通过21%至26%的BD速率节省,提高了低延迟尺度空间流量模型的性能,以及最先进的B帧模型17至20%的BD速率储蓄。我们还证明了实例 - 自适应FineTuning改善了域移位的鲁棒性。最后,我们的方法降低了压缩模型的容量要求。我们表明它即使在将网络大小减少72%之后也能实现最先进的性能。
translated by 谷歌翻译
It has been witnessed that learned image compression has outperformed conventional image coding techniques and tends to be practical in industrial applications. One of the most critical issues that need to be considered is the non-deterministic calculation, which makes the probability prediction cross-platform inconsistent and frustrates successful decoding. We propose to solve this problem by introducing well-developed post-training quantization and making the model inference integer-arithmetic-only, which is much simpler than presently existing training and fine-tuning based approaches yet still keeps the superior rate-distortion performance of learned image compression. Based on that, we further improve the discretization of the entropy parameters and extend the deterministic inference to fit Gaussian mixture models. With our proposed methods, the current state-of-the-art image compression models can infer in a cross-platform consistent manner, which makes the further development and practice of learned image compression more promising.
translated by 谷歌翻译
Helmholtz机器(HMS)是由两个Sigmoid信念网络(SBN)组成的一类生成模型,分别用作编码器和解码器。这些模型通常是使用称为唤醒 - 睡眠(WS)的两步优化算法对这些模型进行的,并且最近通过改进版本(例如重新恢复的尾流(RWS)和双向Helmholtz Machines(BIHM))进行了改进版本。 SBN中连接的局部性在与概率模型相关的Fisher信息矩阵中诱导稀疏性,并以细粒粒度的块状结构的形式引起。在本文中,我们利用自然梯度利用该特性来有效地训练SBN和HMS。我们提出了一种新颖的算法,称为“自然重新唤醒”(NRWS),该算法与其标准版本的几何适应相对应。以类似的方式,我们还引入了天然双向Helmholtz机器(NBIHM)。与以前的工作不同,我们将展示如何有效地计算自然梯度,而无需引入Fisher信息矩阵结构的任何近似值。在文献中进行的标准数据集进行的实验表明,NRW和NBIHM不仅在其非几何基准方面,而且在HMS的最先进培训算法方面都具有一致的改善。在训练后,汇聚速度以及对数可能达到的对数似然的值量化了改进。
translated by 谷歌翻译
深度学习中的最新工作重新想象了数据的表示形式,因为函数从坐标空间映射到基础连续信号。当神经网络近似此类功能时,这引入了更常见的多维阵列表示的引人注目的替代方案。关于这种隐式神经表示(INR)的最新工作表明,仔细体系结构搜索 - INR可以超越建立的压缩方法,例如JPEG(例如Dupont等,2021)。在本文中,我们提出了至关重要的步骤,以使这种想法可扩展:首先,我们采用最先进的网络稀疏技术来大大改善压缩。其次,引入第一种方法,允许在常用的元学习算法的内环中使用稀疏性,从而极大地改善了压缩和学习INR的计算成本。这种形式主义的普遍性使我们能够对各种数据模式提出结果,例如图像,歧管,签名距离功能,3D形状和场景,其中一些建立了新的最新结果。
translated by 谷歌翻译