预计机器学习算法的大多数实际问题都可以通过1)未知数据分配来解决这种情况; 2)小领域特定知识; 3)注释有限的数据集。我们通过使用潜在变量(NPC-LV)的压缩提出非参数学习,这是任何数据集的学习框架,这些数据集具有丰富的未标记数据,但很少有标签的数据。通过仅以无监督的方式训练生成模型,该框架利用数据分配来构建压缩机。使用源自Kolmogorov复杂性的基于压缩机的距离度量,加上很少的标记数据,NPC-LV无需进一步的训练而进行分类。我们表明,在低数据制度中,NPC-LV在图像分类的所有三个数据集上都优于监督方法,甚至超过了CIFAR-10上的半监督学习方法。我们证明了如何以及何时使用负面证据下降(Nelbo)作为分类的近似压缩长度。通过揭示压缩率和分类精度之间的相关性,我们说明在NPC-LV下,生成模型的改进可以增强下游分类精度。
translated by 谷歌翻译
Deep neural networks (DNNs) are often used for text classification tasks as they usually achieve high levels of accuracy. However, DNNs can be computationally intensive with billions of parameters and large amounts of labeled data, which can make them expensive to use, to optimize and to transfer to out-of-distribution (OOD) cases in practice. In this paper, we propose a non-parametric alternative to DNNs that's easy, light-weight and universal in text classification: a combination of a simple compressor like gzip with a $k$-nearest-neighbor classifier. Without any training, pre-training or fine-tuning, our method achieves results that are competitive with non-pretrained deep learning methods on six in-distributed datasets. It even outperforms BERT on all five OOD datasets, including four low-resource languages. Our method also performs particularly well in few-shot settings where labeled data are too scarce for DNNs to achieve a satisfying accuracy.
translated by 谷歌翻译
明确的深度生成模型(DGMS),例如VAES和归一化流量,已经显示出有效的数据建模替代因素,以获得无损压缩。然而,DGMS本身通常需要大的存储空间,从而污染通过精确的数据密度估计所带来的优点。为了消除对不同目标数据集的保存单独模型的要求,我们提出了一种从预磨削的深生成模型开始的新颖设置,并将数据批量压缩,同时使用动态系统仅为一个时代调整模型。我们将此设置形式形式为DGMS的单次在线适配(OSOA),无损压缩,并在此设置下提出香草算法。实验结果表明,Vanilla OsoA可以使用一个型号为所有目标节省大量时间与训练定制模型和空间与空间。具有相同的适应步骤数或适应时间,显示Vanilla OsoA可以表现出更好的空间效率,例如47美元的空间,而不是微调预先调整预制模型并保存微调模型。此外,我们展示了OSOA的潜力,并通过显示每个批次和早期停止的多个更新的进一步空间或时间效率来激励更复杂的OSOA算法。
translated by 谷歌翻译
We aim to bridge the gap between our common-sense few-sample human learning and large-data machine learning. We derive a theory of human-like few-shot learning from von-Neuman-Landauer's principle. modelling human learning is difficult as how people learn varies from one to another. Under commonly accepted definitions, we prove that all human or animal few-shot learning, and major models including Free Energy Principle and Bayesian Program Learning that model such learning, approximate our theory, under Church-Turing thesis. We find that deep generative model like variational autoencoder (VAE) can be used to approximate our theory and perform significantly better than baseline models including deep neural networks, for image recognition, low resource language processing, and character recognition.
translated by 谷歌翻译
最近的工作表明,变异自动编码器(VAE)与速率失真理论之间有着密切的理论联系。由此激发,我们从生成建模的角度考虑了有损图像压缩的问题。从最初是为数据(图像)分布建模设计的Resnet VAE开始,我们使用量化意识的后验和先验重新设计其潜在变量模型,从而实现易于量化和熵编码的图像压缩。除了改进的神经网络块外,我们还提出了一类强大而有效的有损图像编码器类别,超过了自然图像(有损)压缩的先前方法。我们的模型以粗略的方式压缩图像,并支持并行编码和解码,从而在GPU上快速执行。
translated by 谷歌翻译
基于生成模型的图像无损压缩算法在改善压缩比方面取得了巨大的成功。但是,即使使用最先进的AI加速芯片,它们中大多数的吞吐量也小于1 Mb/s,从而阻止了它们的大多数现实应用应用,通常需要100 MB/s。在本文中,我们提出了PILC,这是一种端到端图像无损压缩框架,使用单个NVIDIA TESLA V100 GPU实现200 Mb/s的压缩和减压,比以前最有效的速度快10倍。为了获得此结果,我们首先开发了一个AI编解码器,该AI编解码器结合了自动回归模型和VQ-VAE,在轻质设置中性能很好,然后我们设计了一个低复杂性熵编码器,可与我们的编解码器配合使用。实验表明,在多个数据集中,我们的框架压缩比PNG高30%。我们认为,这是将AI压缩推向商业用途的重要步骤。
translated by 谷歌翻译
熵编码是骨干数据压缩。新的机器学习基于的压缩方法通常使用名为非对称数字系统(ANS)的新的熵编码器[Duda等人,2015],它提供非常接近最佳比特率并简化[Townsend等,2019]高级压缩技术作为位编码。然而,在机器学习中的研究人员往往很难了解ANS的工作原理,这可以防止它们利用其完全多功能性。本文作为教育资源,通过从潜在变量模型和所谓的位诀窍的新视角呈现它,使其更加接近。我们将读者逐步引导到Python编程语言中的完整实现,然后我们将概括为更高级的用例。我们还展示并经验评估了为研究和生产而设计的各种熵编码器的开源库。相关教学视频和问题集可在线获取。
translated by 谷歌翻译
仅观察一组有限的示例,应该能够从新分布中生成数据。在几次学习中,该模型经过了来自分布的许多集合的数据培训,这些分布共享了一些基本属性,例如来自不同字母的字符集或来自不同类别的对象。我们将当前的潜在变量模型扩展到具有基于注意力级聚合的基于注意力的点的完全层次结构方法,并将我们的方法scha-vae称为set-context层次层次结构 - 构造变异自动编码器。我们探索基于似然的模型比较,迭代数据采样和无适应性分布概括。我们的结果表明,分层公式可以更好地捕获小型数据制度中集合中的内在变异性。这项工作将深层可变方法推广到几乎没有学习的方法,迈出了一步,朝着大规模的几杆生成迈出了一步。
translated by 谷歌翻译
现在,存储快速增长的大数据是不可取的,这需要高性能的无损压缩技术。基于可能性的生成模型在无损压缩中获得了成功,其中基于流基的模型在允许与映射映射进行精确的数据似然优化时是可取的。然而,常见的连续流是矛盾的,并且编码方案的离散性,这需要1)对流量模型的严格约束来降低性能或2)编码许多减少效率的诸多的映射误差。在本文中,我们调查了对无损压缩的音量保持流动,并显示了一个没有错误的自由度映射。我们提出了来自总体积保护流的数值可释放的流量(IVPF)。通过在流模型上引入新颖的计算算法,在没有任何数值误差的情况下实现精确的映射映射。我们还提出了一种基于IVPF的无损压缩算法。各种数据集的实验表明,基于IVPF的算法通过轻量级压缩算法实现了最先进的压缩比。
translated by 谷歌翻译
据估计,2020年世界生产了59美元(5.9美元×13} GB $),导致数据存储和传输的巨大成本。幸运的是,深度生成模型的最近进步已经刺激了一类新的所谓的“神经压缩”算法,这在压缩比方面显着优于传统的编解码器。不幸的是,由于其带宽有限,神经压缩加法器的应用很少的商业利益;因此,开发高效框架具有重要的重要性。在本文中,我们讨论了使用正常化流动的无损压缩,这已经表现出了实现高压缩比的很大容量。因此,我们介绍了iflow,一种实现有效的无损压缩的新方法。我们首先提出模块化尺度变换(MST)和基于MST的数值可逆的流动变换的新颖家族。然后我们介绍统一的基础转换系统(UBC),将快速均匀分布编解码器结合到IFLow中,从而实现有效的压缩。 IFLow实现最先进的压缩比率,比其他高性能方案更快5倍。此外,本文提出的技术可用于加速广泛的基于流的算法的编码时间。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
在连续时间域上表示为随机微分方程的基于扩散的方法最近已证明是一种非对抗性生成模型。培训此类模型依赖于denoising得分匹配,可以将其视为多尺度的Denoising自动编码器。在这里,我们扩大了Denoising分数匹配框架,以实现表示无监督信号的表示。 GAN和VAE通过将潜在代码直接转换为数据样本来学习表示形式。相比之下,引入的基于扩散的表示学习依赖于Denoisising分数匹配目标的新公式,因此编码了DeNoising所需的信息。我们说明了这种差异如何允许对表示中编码的细节级别进行手动控制。使用相同的方法,我们建议学习无限维度的潜在代码,该代码可在半监督图像分类中改善最先进的模型。我们还将扩散评分匹配的学术表示表示与自动编码器等其他方法的质量进行比较,并通过其在下游任务上的性能进行对比训练的系统。
translated by 谷歌翻译
本文提出了在适当的监督信息下进行分解的生成因果代表(亲爱的)学习方法。与实施潜在变量独立性的现有分解方法不同,我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明,即使在监督下,先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下,我们提出了一种称为DEAR的新的解开学习方法,该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型(SCM)作为双向生成模型的先验分布。然后,使用合适的GAN算法与发电机和编码器共同训练了先验,并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验,以证明DEAR在因果可控生成中的有效性,以及在样本效率和分布鲁棒性方面,学到的表示表示对下游任务的好处。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
Neural compression offers a domain-agnostic approach to creating codecs for lossy or lossless compression via deep generative models. For sequence compression, however, most deep sequence models have costs that scale with the sequence length rather than the sequence complexity. In this work, we instead treat data sequences as observations from an underlying continuous-time process and learn how to efficiently discretize while retaining information about the full sequence. As a consequence of decoupling sequential information from its temporal discretization, our approach allows for greater compression rates and smaller computational complexity. Moreover, the continuous-time approach naturally allows us to decode at different time intervals. We empirically verify our approach on multiple domains involving compression of video and motion capture sequences, showing that our approaches can automatically achieve reductions in bit rates by learning how to discretize.
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
我们研究了用于半监控学习(SSL)的无监督数据选择,其中可以提供大规模的未标记数据集,并且为标签采集预算小额数据子集。现有的SSL方法专注于学习一个有效地集成了来自给定小标记数据和大型未标记数据的信息的模型,而我们专注于选择正确的数据以用于SSL的注释,而无需任何标签或任务信息。直观地,要标记的实例应统称为下游任务的最大多样性和覆盖范围,并且单独具有用于SSL的最大信息传播实用程序。我们以三步数据为中心的SSL方法形式化这些概念,使稳定性和精度的纤维液改善8%的CiFar-10(标记为0.08%)和14%的Imagenet -1k(标记为0.2%)。它也是一种具有各种SSL方法的通用框架,提供一致的性能增益。我们的工作表明,在仔细选择注释数据上花费的小计算带来了大注释效率和模型性能增益,而无需改变学习管道。我们完全无监督的数据选择可以轻松扩展到其他弱监督的学习设置。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
Self-supervised learning is a popular and powerful method for utilizing large amounts of unlabeled data, for which a wide variety of training objectives have been proposed in the literature. In this study, we perform a Bayesian analysis of state-of-the-art self-supervised learning objectives and propose a unified formulation based on likelihood learning. Our analysis suggests a simple method for integrating self-supervised learning with generative models, allowing for the joint training of these two seemingly distinct approaches. We refer to this combined framework as GEDI, which stands for GEnerative and DIscriminative training. Additionally, we demonstrate an instantiation of the GEDI framework by integrating an energy-based model with a cluster-based self-supervised learning model. Through experiments on synthetic and real-world data, including SVHN, CIFAR10, and CIFAR100, we show that GEDI outperforms existing self-supervised learning strategies in terms of clustering performance by a wide margin. We also demonstrate that GEDI can be integrated into a neural-symbolic framework to address tasks in the small data regime, where it can use logical constraints to further improve clustering and classification performance.
translated by 谷歌翻译