变形AutoEncoder(VAE)是无监督学习的深度生成模型,允许将观察编码为有意义的潜在空间。当任务按顺序到达时,VAE易于灾难性忘记,并且只有当前的数据可用。我们解决了这个持续学习vaes的问题。众所周知,在非持续设置中,在潜空间上的先前分配的选择对于VAE至关重要。我们认为它也有助于避免灾难性的遗忘。我们将在每个任务之前学习聚合后部的近似值。该近似是参数化作为在可训练的伪输入中评估的编码器诱导的分布的添加剂混合物。我们使用贪婪的升压方法,并使用熵正则化来学习组件。此方法鼓励组件多样性,这是必不可少的,因为我们的目标是与最少的组件存储最少的组件。基于学习的先验,我们介绍了持续学习VAE的端到端方法,并为常用的基准(MNIST,时尚Mnist,Notmnist)和Celeba数据集提供实证研究。对于每个数据集,所提出的方法避免以全自动方式遗漏灾难性忘记。
translated by 谷歌翻译
最近的研究表明,先进的前锋在深度生成模型中发挥着重要作用。作为基于示例的基于示例的VAE的变体,示例性VAE已经实现了令人印象深刻的结果。然而,由于模型设计的性质,基于示例的模型通常需要大量的数据来参与训练,这导致巨大的计算复杂性。为了解决这个问题,我们提出了贝叶斯伪移动的样份vae(bype-vae),一种基于Bayesian伪动脉的先前vae的新变种。该提出的先后在小规模的伪电阻上而不是整个数据集进行调节,以降低计算成本并避免过度拟合。同时,在VAE训练期间,通过随机优化算法获得最佳伪验证,旨在最大限度地基于伪移动的基于伪组件的Kullback-Leibler发散,并且基于整个数据集。实验结果表明,Bype-VAE可以在密度估计,代表学习和生成数据增强的任务中实现最先进的VAES对最先进的VAES的竞争改进。特别是,在基本的VAE架构上,Bype-VAE比示例性VAE快3倍,同时几乎保持性能。代码可用于\ url {https:/github.com/aiqz/bype-vae}。
translated by 谷歌翻译
已知生物制剂在他们的生活过程中学习许多不同的任务,并且能够重新审视以前的任务和行为,而没有表现不损失。相比之下,人工代理容易出于“灾难性遗忘”,在以前任务上的性能随着所获取的新的任务而恶化。最近使用该方法通过鼓励参数保持接近以前任务的方法来解决此缺点。这可以通过(i)使用特定的参数正常数来完成,该参数正常数是在参数空间中映射合适的目的地,或(ii)通过将渐变投影到不会干扰先前任务的子空间来指导优化旅程。然而,这些方法通常在前馈和经常性神经网络中表现出子分子表现,并且经常性网络对支持生物持续学习的神经动力学研究感兴趣。在这项工作中,我们提出了自然的持续学习(NCL),一种统一重量正则化和预测梯度下降的新方法。 NCL使用贝叶斯重量正常化来鼓励在收敛的所有任务上进行良好的性能,并将其与梯度投影结合使用先前的精度,这可以防止在优化期间陷入灾难性遗忘。当应用于前馈和经常性网络中的连续学习问题时,我们的方法占据了标准重量正则化技术和投影的方法。最后,训练有素的网络演变了特定于任务特定的动态,这些动态被认为是学习的新任务,类似于生物电路中的实验结果。
translated by 谷歌翻译
由于推断,数据表示和重建属性,变异自动编码器(VAE)已成功地用于连续学习分类任务。但是,它们具有与持续学习过程中学到的类和数据库相对应的规格生成图像的能力(CL)尚不清楚,而灾难性遗忘仍然是一个重大挑战。在本文中,我们首先通过开发一个将CL作为动态最佳传输问题制定的新理论框架来分析VAE的遗忘行为。该框架证明了与数据可能性相似的范围,而无需任务信息,并解释了在培训过程中如何丢失先验知识。然后,我们提出了一种新颖的记忆缓冲方法,即在线合作记忆(OCM)框架,该框架由短期内存(STM)组成,该框架不断存储最近的样本以为模型提供未来的信息,以及长期记忆( LTM)旨在保留各种样本。拟议的OCM根据信息多样性选择标准将某些样本从STM转移到LTM,而无需任何监督信号。然后将OCM框架与动态VAE扩展混合网络结合使用,以进一步增强其性能。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
近年来,由于其对复杂分布进行建模的能力,深层生成模型引起了越来越多的兴趣。在这些模型中,变异自动编码器已被证明是计算有效的,并且在多个领域中产生了令人印象深刻的结果。在这一突破之后,为了改善原始出版物而进行了广泛的研究,从而导致各种不同的VAE模型响应不同的任务。在本文中,我们介绍了Pythae,这是一个多功能的开源Python库,既可以提供统一的实现和专用框架,允许直接,可重现且可靠地使用生成自动编码器模型。然后,我们建议使用此库来执行案例研究基准测试标准,在其中我们介绍并比较了19个生成自动编码器模型,代表了下游任务的一些主要改进,例如图像重建,生成,分类,聚类,聚类和插值。可以在https://github.com/clementchadebec/benchmark_vae上找到开源库。
translated by 谷歌翻译
深度神经网络拥有的一个重要股权是在以前看不见的数据上对分发检测(OOD)进行强大的能力。在为现实世界应用程序部署模型时,此属性对于安全目的至关重要。最近的研究表明,概率的生成模型可以在这项任务上表现不佳,这令他们寻求估计培训数据的可能性。为了减轻这个问题,我们提出了对变分性自动化器(VAE)的指数倾斜的高斯先前分配。通过此之前,我们能够使用VAE自然分配的负面日志可能性来实现最先进的结果,同时比某些竞争方法快的数量级。我们还表明,我们的模型生产高质量的图像样本,这些样本比标准高斯VAE更清晰。新的先前分配具有非常简单的实现,它使用kullback leibler发散,该kullback leibler发散,该横向leibler发散,该分解比较潜伏向量的长度与球体的半径之间的差异。
translated by 谷歌翻译
在这项工作中,我们为生成自动编码器的变异培训提供了确切的可能性替代方法。我们表明,可以使用可逆层来构建VAE风格的自动编码器,该层提供了可拖动的精确可能性,而无需任何正则化项。这是在选择编码器,解码器和先前体系结构的全部自由的同时实现的,这使我们的方法成为培训现有VAE和VAE风格模型的替换。我们将结果模型称为流中的自动编码器(AEF),因为编码器,解码器和先验被定义为整体可逆体系结构的单个层。我们表明,在对数可能,样本质量和降低性能的方面,该方法的性能比结构上等效的VAE高得多。从广义上讲,这项工作的主要野心是在共同的可逆性和确切的最大可能性的共同框架下缩小正常化流量和自动编码器文献之间的差距。
translated by 谷歌翻译
Generative models are becoming ever more powerful, being able to synthesize highly realistic images. We propose an algorithm for taming these models - changing the probability that the model will produce a specific image or image category. We consider generative models that are powered by normalizing flows, which allows us to reason about the exact generation probability likelihood for a given image. Our method is general purpose, and we exemplify it using models that generate human faces, a subdomain with many interesting privacy and bias considerations. Our method can be used in the context of privacy, e.g., removing a specific person from the output of a model, and also in the context of de-biasing by forcing a model to output specific image categories according to a given target distribution. Our method uses a fast fine-tuning process without retraining the model from scratch, achieving the goal in less than 1% of the time taken to initially train the generative model. We evaluate qualitatively and quantitatively, to examine the success of the taming process and output quality.
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
Catastrophic forgetting (CF) happens whenever a neural network overwrites past knowledge while being trained on new tasks. Common techniques to handle CF include regularization of the weights (using, e.g., their importance on past tasks), and rehearsal strategies, where the network is constantly re-trained on past data. Generative models have also been applied for the latter, in order to have endless sources of data. In this paper, we propose a novel method that combines the strengths of regularization and generative-based rehearsal approaches. Our generative model consists of a normalizing flow (NF), a probabilistic and invertible neural network, trained on the internal embeddings of the network. By keeping a single NF throughout the training process, we show that our memory overhead remains constant. In addition, exploiting the invertibility of the NF, we propose a simple approach to regularize the network's embeddings with respect to past tasks. We show that our method performs favorably with respect to state-of-the-art approaches in the literature, with bounded computational power and memory overheads.
translated by 谷歌翻译
在学习几个连续任务时,变形自身偏析器(VAES)遭受退化性能。这是由灾难性的遗忘引起的。为了解决知识损失,VAES正在使用生成重放(GR)机制或扩展网络架构(ENA)。在本文中,我们通过导出负面边际日志可能性的上限来研究VAE的遗忘行为。这个理论分析为VAE在终身学习期间忘记了先前学识渊博的知识提供了新的洞察。分析表示在ena框架下考虑模型混合物时实现的最佳性能,其中没有限制组件的数量。然而,基于ENA的方法可能需要过多的参数。这使我们提出了一种新颖的动态扩展图模型(DEGM)。根据与每个新数据库相关联的新颖性,DEGM扩展其架构,与从前任务中的网络已经学习的信息相比。 DEGM培训优化了知识结构,表征了与过去和最近学识的任务相对应的联合概率表现。我们展示DEGM保证了每个任务的最佳性能,同时还可以最小化所需的参数数量。补充材料(SM)和源代码在https://github.com/dtuzi123/expansion -graph-model中提供。
translated by 谷歌翻译
该报告解释,实施和扩展了“更紧密的变化界限不一定更好”所介绍的作品(T Rainforth等,2018)。我们提供了理论和经验证据,这些证据增加了重要性的重要性数量$ k $在重要性加权自动编码器(IWAE)中(Burda等,2016)降低了推理中梯度估计量的信噪比(SNR)网络,从而影响完整的学习过程。换句话说,即使增加$ k $减少了梯度的标准偏差,但它也会更快地降低真实梯度的幅度,从而增加梯度更新的相对差异。进行广泛的实验以了解$ k $的重要性。这些实验表明,更紧密的变化界限对生成网络有益,而宽松的边界对推理网络来说是可取的。通过这些见解,可以实施和研究三种方法:部分重要性加权自动编码器(PIWAE),倍增重要性加权自动编码器(MIWAE)和组合重要性加权自动编码器(CIWAE)。这三种方法中的每一种都需要IWAE作为一种特殊情况,但采用不同的重量权重,以确保较高的梯度估计器的SNR。在我们的研究和分析中,这些算法的疗效在多个数据集(如MNIST和Omniglot)上进行了测试。最后,我们证明了三种呈现的IWAE变化能够产生近似后验分布,这些分布与IWAE更接近真正的后验分布,同时匹配IWAE生成网络的性能,或者在PIWAE的情况下可能超过其表现。
translated by 谷歌翻译
由于其非参数化干扰和灾难性遗忘的非参数化能力,核心连续学习\ Cite {derakhshani2021kernel}最近被成为一个强大的持续学习者。不幸的是,它的成功是以牺牲一个明确的内存为代价来存储来自过去任务的样本,这妨碍了具有大量任务的连续学习设置的可扩展性。在本文中,我们介绍了生成的内核持续学习,探讨了生成模型与内核之间的协同作用以进行持续学习。生成模型能够生产用于内核学习的代表性样本,其消除了在内核持续学习中对内存的依赖性。此外,由于我们仅在生成模型上重播,我们避免了与在整个模型上需要重播的先前的方法相比,在计算上更有效的情况下避免任务干扰。我们进一步引入了监督的对比正规化,使我们的模型能够为更好的基于内核的分类性能产生更具辨别性样本。我们对三种广泛使用的连续学习基准进行了广泛的实验,展示了我们贡献的能力和益处。最值得注意的是,在具有挑战性的SplitCifar100基准测试中,只需一个简单的线性内核,我们获得了与内核连续学习的相同的准确性,对于内存的十分之一,或者对于相同的内存预算的10.1%的精度增益。
translated by 谷歌翻译
变形AutoEncoders(VAES)是具有许多域中应用的强大的基于似然的生成模型之一。然而,他们努力产生高质量的图像,尤其是当样品从之前没有任何回火时获得。 VAES生成质量的一个解释是先前孔问题:前提分配不能匹配近似后部的总体近似。由于这种不匹配,在不对应于任何编码图像的之前,存在具有高密度的潜在空间中的区域。来自这些区域的样本被解码为损坏的图像。为了解决这个问题,我们提出了基于能源的基础产品,由基础产品的乘积和重新免除因子,旨在使基座更接近骨料后部。我们通过噪声对比估计训练重重的因素,我们将其概括为具有许多潜在变量组的分层VAE。我们的实验证实,所提出的噪声对比前沿通过MNIST,CIFAR-10,CELEBA 64和Celeba HQ 256数据集的大边缘改善了最先进的VAE的生成性能。我们的方法很简单,可以应用于各种VAE,以提高其先前分配的表现。
translated by 谷歌翻译
基于能量的模型(EBMS)最近成功地代表了少量图像的复杂分布。然而,对它们的抽样需要昂贵的马尔可夫链蒙特卡罗(MCMC)迭代在高维像素空间中缓慢混合。与EBMS不同,变形AutoEncoders(VAES)快速生成样本,并配备潜在的空间,使得数据歧管的快速遍历。然而,VAE倾向于将高概率密度分配到实际数据分布之外的数据空间中的区域,并且经常在产生清晰图像时失败。在本文中,我们提出了VAE的一个共生组成和ebm的vaebm,提供了两个世界的eBM。 VAEBM使用最先进的VAE捕获数据分布的整体模式结构,它依赖于其EBM组件,以明确地从模型中排除非数据样区域并优化图像样本。此外,VAEBM中的VAE组件允许我们通过在VAE的潜空间中重新处理它们来加速MCMC更新。我们的实验结果表明,VAEBM在几个基准图像数据集上以大量边距开辟了最先进的VAES和EBMS。它可以产生高于256 $ \倍的高质量图像,使用短MCMC链。我们还证明了VAEBM提供了完整的模式覆盖范围,并在分配外检测中表现良好。源代码可在https://github.com/nvlabs/vaebm上获得
translated by 谷歌翻译
We define and address the problem of unsupervised learning of disentangled representations on data generated from independent factors of variation. We propose FactorVAE, a method that disentangles by encouraging the distribution of representations to be factorial and hence independent across the dimensions. We show that it improves upon β-VAE by providing a better trade-off between disentanglement and reconstruction quality. Moreover, we highlight the problems of a commonly used disentanglement metric and introduce a new metric that does not suffer from them.
translated by 谷歌翻译
变异自动编码器(VAE)经常遭受后塌陷,这是一种现象,其中学习过的潜在空间变得无知。这通常与类似于数据差异的高参数有关。此外,如果数据方差不均匀或条件性,则确定这种适当的选择将变得不可行。因此,我们提出了具有数据方差的广义参数化的VAE扩展,并将最大似然估计纳入目标函数中,以适应解码器平滑度。由提议的VAE扩展产生的图像显示,MNIST和Celeba数据集上的Fr \'Echet Inception距离(FID)得到了改善。
translated by 谷歌翻译
本文研究了在连续学习框架中使用分类网络的固定架构培训深度学习模型的优化算法的新设计。训练数据是非平稳的,非平稳性是由一系列不同的任务施加的。我们首先分析了一个仅在隔离的学习任务的深层模型,并在网络参数空间中识别一个区域,其中模型性能接近恢复的最佳。我们提供的经验证据表明该区域类似于沿收敛方向扩展的锥体。我们研究了融合后优化器轨迹的主要方向,并表明沿着一些顶级主要方向旅行可以迅速将参数带到锥体之外,但其余方向并非如此。我们认为,当参数被限制以保持在训练过程中迄今为止遇到的单个任务的相交中,可以缓解持续学习环境中的灾难性遗忘。基于此观察结果,我们介绍了我们的方向约束优化(DCO)方法,在每个任务中,我们引入一个线性自动编码器以近似其相应的顶部禁止主要方向。然后将它们以正规化术语的形式合并到损失函数中,以便在不忘记的情况下学习即将到来的任务。此外,为了随着任务数量的增加而控制内存的增长,我们提出了一种称为压缩DCO(DCO-comp)的算法的内存效率版本,该版本为存储所有自动编码器的固定大小分配了存储器。我们从经验上证明,与其他基于最新正规化的持续学习方法相比,我们的算法表现出色。
translated by 谷歌翻译
基于分数的生成模型(SGMS)最近在样品质量和分配覆盖范围内表现出令人印象深刻的结果。但是,它们通常直接应用于数据空间,并且通常需要数千个网络评估来采样。在这里,我们提出了基于潜在的分数的生成模型(LSGM),这是一种在潜在空间中培训SGM的新方法,依赖于变分性AutoEncoder框架。从数据移动到潜伏空间允许我们培训更具表现力的生成模型,将SGMS应用于非连续数据,并在较小的空间中学习更顺畅的SGM,导致更少的网络评估和更快的采样。要以可扩展且稳定的方式启用培训LSGMS端到端,我们(i)我们(i)引入了适合于LSGM设置的新分数匹配目标,(ii)提出了一个新颖的分数函数参数化,允许SGM专注于关于简单正常的目标分布的不匹配,(III)分析了多种技术,用于减少训练目标的方差。 LSGM在CIFAR-10上获得最先进的FID分数为2.10,优先表现出此数据集的所有现有生成结果。在Celeba-HQ-256上,LSGM在样品质量上与先前的SGMS相同,同时以两个数量级的采样时间表现出来。在模拟二进制图像中,LSGM在二值化omniglot数据集上实现了最先进的可能性。我们的项目页面和代码可以在https://nvlabs.github.io/lsgm找到。
translated by 谷歌翻译