在本文中,我们通过利用给定数据集中的规律性来有效地介绍了一种新颖的方法来系统地解决数据集凝结问题。我们没有直接在原始输入空间中凝结数据集,而是假设数据集的生成过程,其中一组可学习的代码在紧凑的潜在空间中定义,然后是一组微型解码器,它们将它们映射到原始输入空间。通过互换组合不同的代码和解码器,我们可以大大增加具有相同参数计数的合成示例的数量,因为潜在空间要较低,并且由于我们可以假设尽可能多的解码器来捕获数据集中表示的不同样式费用微不足道。这种知识分解允许以系统的方式有效地共享综合示例之间的信息,从而在压缩比和生成的示例的质量之间进行了更高的权衡。我们通过实验表明,我们的方法通过各种基准数据集(例如SVHN,CIFAR10,CIFAR100和Tinyimagenet)在各种基准数据集上实现了新的最新记录。
translated by 谷歌翻译
Computational cost of training state-of-the-art deep models in many learning problems is rapidly increasing due to more sophisticated models and larger datasets. A recent promising direction for reducing training cost is dataset condensation that aims to replace the original large training set with a significantly smaller learned synthetic set while preserving the original information. While training deep models on the small set of condensed images can be extremely fast, their synthesis remains computationally expensive due to the complex bi-level optimization and second-order derivative computation. In this work, we propose a simple yet effective method that synthesizes condensed images by matching feature distributions of the synthetic and original training images in many sampled embedding spaces. Our method significantly reduces the synthesis cost while achieving comparable or better performance. Thanks to its efficiency, we apply our method to more realistic and larger datasets with sophisticated neural architectures and obtain a significant performance boost. We also show promising practical benefits of our method in continual learning and neural architecture search.
translated by 谷歌翻译
共享初始化参数的元学习已显示在解决少量学习任务方面非常有效。然而,将框架扩展到许多射击场景,这可能进一步提高其实用性,这一切相对忽略了由于内梯度步长的长链中的元学习的技术困难。在本文中,我们首先表明允许元学习者采取更多的内梯度步骤更好地捕获异构和大规模任务分布的结构,从而导致获得更好的初始化点。此外,为了增加元更新的频率,即使是过度长的内部优化轨迹,我们建议估计关于初始化参数的改变的任务特定参数的所需移位。通过这样做,我们可以随意增加元更新的频率,从而大大提高了元级收敛以及学习初始化的质量。我们验证了我们在异构的大规模任务集中验证了方法,并表明该算法在泛型性能和收敛方面以及多任务学习和微调基线方面主要优于先前的一阶元学习方法。 。
translated by 谷歌翻译
Remarkable progress has been achieved in synthesizing photo-realistic images with generative adversarial networks (GANs). Recently, GANs are utilized as the training sample generator when obtaining or storing real training data is expensive even infeasible. However, traditional GANs generated images are not as informative as the real training samples when being used to train deep neural networks. In this paper, we propose a novel method to synthesize Informative Training samples with GAN (IT-GAN). Specifically, we freeze a pre-trained GAN model and learn the informative latent vectors that correspond to informative training samples. The synthesized images are required to preserve information for training deep neural networks rather than visual reality or fidelity. Experiments verify that the deep neural networks can learn faster and achieve better performance when being trained with our IT-GAN generated images. We also show that our method is a promising solution to dataset condensation problem.
translated by 谷歌翻译
Dataset Distillation (DD), a newly emerging field, aims at generating much smaller and high-quality synthetic datasets from large ones. Existing DD methods based on gradient matching achieve leading performance; however, they are extremely computationally intensive as they require continuously optimizing a dataset among thousands of randomly initialized models. In this paper, we assume that training the synthetic data with diverse models leads to better generalization performance. Thus we propose two \textbf{model augmentation} techniques, ~\ie using \textbf{early-stage models} and \textbf{weight perturbation} to learn an informative synthetic set with significantly reduced training cost. Extensive experiments demonstrate that our method achieves up to 20$\times$ speedup and comparable performance on par with state-of-the-art baseline methods.
translated by 谷歌翻译
提出了一种新的双峰生成模型,用于生成条件样品和关节样品,并采用学习简洁的瓶颈表示的训练方法。所提出的模型被称为变异Wyner模型,是基于网络信息理论中的两个经典问题(分布式仿真和信道综合)设计的,其中Wyner的共同信息是对公共表示简洁性的基本限制。该模型是通过最大程度地减少对称的kullback的训练 - 差异 - 变异分布和模型分布之间具有正则化项,用于常见信息,重建一致性和潜在空间匹配项,该术语是通过对逆密度比率估计技术进行的。通过与合成和现实世界数据集的联合和有条件生成的实验以及具有挑战性的零照片图像检索任务,证明了所提出的方法的实用性。
translated by 谷歌翻译
Catastrophic forgetting (CF) happens whenever a neural network overwrites past knowledge while being trained on new tasks. Common techniques to handle CF include regularization of the weights (using, e.g., their importance on past tasks), and rehearsal strategies, where the network is constantly re-trained on past data. Generative models have also been applied for the latter, in order to have endless sources of data. In this paper, we propose a novel method that combines the strengths of regularization and generative-based rehearsal approaches. Our generative model consists of a normalizing flow (NF), a probabilistic and invertible neural network, trained on the internal embeddings of the network. By keeping a single NF throughout the training process, we show that our memory overhead remains constant. In addition, exploiting the invertibility of the NF, we propose a simple approach to regularize the network's embeddings with respect to past tasks. We show that our method performs favorably with respect to state-of-the-art approaches in the literature, with bounded computational power and memory overheads.
translated by 谷歌翻译
正规化和转移学习是两种流行的技术,可以增强看不见数据的概念,这是机器学习的根本问题。正则化技术是多功能的,因为它们是任务和架构 - 不可知论,但它们不会利用大量数据。传输学习方法学会从一个域转移到另一个域的知识,但可能无法跨解任务和架构拓展,并且可能会引入适应目标任务的新培训成本。为了弥合两者之间的差距,我们提出了一种可转移的扰动,Metaperturb,这是荟萃学会,以提高看不见数据的泛化性能。 Metaperturb实现为基于集的轻量级网络,该网络是不可知的,其尺寸和输入的顺序,它们在整个层上共享。然后,我们提出了一个元学习框架,共同训练了与异构任务相同的扰动功能。正如Metaperturb在层次和任务的不同分布上训练的集合函数,它可以概括为异构任务和架构。通过将不同的神经架构应用于各种规范和微调,验证对特定源域和架构的Metaperturb培训的疗效和普遍性,验证了特定的源域和架构的疗效和普遍性。结果表明,Metaperturb培训的网络显着优于大多数任务和架构的基线,参数大小的忽略不计,并且没有封闭曲调。
translated by 谷歌翻译
神经压缩算法通常基于需要专门编码器和解码器体系结构的自动编码器,以实现不同的数据模式。在本文中,我们提出了Coin ++,这是一种神经压缩框架,无缝处理广泛的数据模式。我们的方法基于将数据转换为隐式神经表示,即映射坐标(例如像素位置)为特征(例如RGB值)的神经函数。然后,我们不用直接存储隐式神经表示的权重,而是存储应用于元学习的基础网络作为数据的压缩代码的调制。我们进一步量化和熵代码这些调制,从而导致大量压缩增益,同时与基线相比,将编码时间缩短了两个数量级。我们通过压缩从图像和音频到医学和气候数据的各种数据方式来证明我们方法的有效性。
translated by 谷歌翻译
从多模式数据学习是机器学习中的一个重要研究主题,这有可能获得更好的表示。在这项工作中,我们提出了一种基于生成对冲网络的多模式数据建模的新方法。为了学习相干的多模式生成模型,我们表明有必要同时将不同的编码器分布与联合解码器分布对齐。为此,我们构建一种特定形式的鉴别器,以使我们的模型能够有效地利用数据,这可以受到影响。通过利用对比学习通过分解鉴别者,我们培训我们的模型在单向数据上。我们对基准数据集进行了实验,其有希望的结果表明,我们提出的方法越优于各种指标的最先进的方法。源代码将公开可用。
translated by 谷歌翻译
我们研究了GaN调理问题,其目标是使用标记数据将普雷雷尼的无条件GaN转换为条件GaN。我们首先识别并分析这一问题的三种方法 - 从头开始​​,微调和输入重新编程的条件GaN培训。我们的分析表明,当标记数据的数量很小时,输入重新编程执行最佳。通过稀缺标记数据的现实世界情景,我们专注于输入重编程方法,并仔细分析现有算法。在识别出先前输入重新编程方法的一些关键问题之后,我们提出了一种名为INREP +的新算法。我们的算法INREP +解决了现有问题,具有可逆性神经网络的新颖用途和正面未标记(PU)学习。通过广泛的实验,我们表明Inrep +优于所有现有方法,特别是当标签信息稀缺,嘈杂和/或不平衡时。例如,对于用1%标记数据调节CiFar10 GaN的任务,Inrep +实现了82.13的平均峰值,而第二个最佳方法达到114.51。
translated by 谷歌翻译
这项工作提出了一种新的计算框架,用于学习用于真实数据集的明确生成模型。特别地,我们建议在包含多个独立的多维线性子空间组成的特征空间中的多类多维数据分发和{线性判别表示(LDR)}之间学习{\ EM闭环转录}。特别地,我们认为寻求的最佳编码和解码映射可以被配制为编码器和解码器之间的{\ em二手最小游戏的均衡点}。该游戏的自然实用功能是所谓的{\ em速率减少},这是一个简单的信息定理措施,用于特征空间中子空间类似的高斯的混合物之间的距离。我们的配方利用来自控制系统的闭环误差反馈的灵感,避免昂贵的评估和最小化数据空间或特征空间的任意分布之间的近似距离。在很大程度上,这种新的制定统一了自动编码和GaN的概念和益处,并自然将它们扩展到学习多级和多维实际数据的判别和生成}表示的设置。我们对许多基准图像数据集的广泛实验表明了这种新的闭环配方的巨大潜力:在公平的比较下,学习的解码器的视觉质量和编码器的分类性能是竞争力的,并且通常比基于GaN,VAE或基于GaN,VAE或基于GaN,VAE的方法更好的方法两者的组合。我们注意到所以,不同类别的特征在特征空间中明确地映射到大约{em独立的主管子空间};每个类中的不同视觉属性由每个子空间中的{\ em独立主体组件}建模。
translated by 谷歌翻译
神经场通过将坐标输入映射到采样值来模型信号。从视觉,图形到生物学和天文学的许多领域,它们正成为越来越重要的主链体系结构。在本文中,我们探讨了这些网络中常见的调理机制之间的差异,这是将神经场从信号的记忆转移到概括的基本要素,其中共同建模了位于歧管上的一组信号。特别是,我们对这些机制的缩放行为感兴趣,以对日益高维的调理变量感兴趣。正如我们在实验中显示的那样,高维条件是建模复杂数据分布的关键,因此,确定哪种体系结构在处理此类问题时最能实现哪种选择。为此,我们运行了使用串联,超网络和基于注意力的调理策略对2D,3D和4D信号进行建模的实验,这是文献中尚未进行的必要但费力的努力。我们发现,基于注意力的条件在各种环境中的其他方法都优于其他方法。
translated by 谷歌翻译
最近的研究表明,基于梯度匹配的数据集综合或数据集凝结(DC),当应用于数据有效的学习任务时,方法可以实现最先进的性能。但是,在这项研究中,我们证明,当任务 - 核定信息构成培训数据集的重要组成部分时,现有的DC方法比随机选择方法的性能更糟。我们将其归因于缺乏与课堂梯度匹配策略所产生的类对比信号的参与。为了解决此问题,我们通过修改损耗函数以使DC方法有效地捕获类之间的差异来提出与对比度信号(DCC)的数据集凝结。此外,我们通过跟踪内核速度来分析训练动力学的新损失函数。此外,我们引入了双层热身策略,以稳定优化。我们的实验结果表明,尽管现有方法对细粒度的图像分类任务无效,但所提出的方法可以成功地为相同任务生成信息合成数据集。此外,我们证明所提出的方法甚至在基准数据集(例如SVHN,CIFAR-10和CIFAR-100)上也优于基准。最后,我们通过将其应用于持续学习任务来证明该方法的高度适用性。
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
隐式神经表示是通过学习作为神经网络参数化的连续功能来代表一般信号的有前途的新大道,将信号的域映射到其Codomain;例如,从图像的空间坐标映射到其像素值。能够在高尺寸信号中传送细细节,其域,隐式神经表示确保了与传统离散表示的许多优点。然而,目前的方法难以为大量信号或数据集缩放,因为学习神经表示 - 这是自身沉重的参数 - 对于每个信号,每个信号都需要大量的存储器和计算。为了解决这个问题,我们建议在稀疏性约束下结合网络压缩来利用元学习方法,使得它呈现出良好的初始化稀疏参数化,以便在随后的训练中快速发展以表示一组未见信号。我们经验证明,Meta学习的稀疏神经表示比使用相同数量的优化步骤训练时,比较稀疏的稀疏神经表示比具有相同数量的参数的致密荟萃学习模型。
translated by 谷歌翻译
本文通过采取完全几何学的角度引入了对变异自动编码器框架的新解释。我们认为,香草vae自然而然地揭示了其潜在空间中的riemannian结构,并且考虑到这些几何方面可以导致更好的插值和改进的生成程序。这种新提出的采样方法包括从统一分布中的采样组成,该分布本质地从学到的利曼式潜在空间中得出,我们表明,使用此方案可以使香草VAE竞争性且比几个基准数据集中更先进的版本更好。由于已知生成模型对训练样品的数量很敏感,因此我们还强调了该方法在低数据状态下的鲁棒性。
translated by 谷歌翻译
It is common practice in deep learning to represent a measurement of the world on a discrete grid, e.g. a 2D grid of pixels. However, the underlying signal represented by these measurements is often continuous, e.g. the scene depicted in an image. A powerful continuous alternative is then to represent these measurements using an implicit neural representation, a neural function trained to output the appropriate measurement value for any input spatial location. In this paper, we take this idea to its next level: what would it take to perform deep learning on these functions instead, treating them as data? In this context we refer to the data as functa, and propose a framework for deep learning on functa. This view presents a number of challenges around efficient conversion from data to functa, compact representation of functa, and effectively solving downstream tasks on functa. We outline a recipe to overcome these challenges and apply it to a wide range of data modalities including images, 3D shapes, neural radiance fields (NeRF) and data on manifolds. We demonstrate that this approach has various compelling properties across data modalities, in particular on the canonical tasks of generative modeling, data imputation, novel view synthesis and classification. Code: https://github.com/deepmind/functa
translated by 谷歌翻译
最近出现了许多变异自动编码器(VAE),目的是建模多模式数据,例如,共同建模图像及其相应的标题。尽管如此,多模式的VAE倾向于仅通过在忽略标题的同时拟合图像来关注模式的子集。我们将此限制称为模态崩溃。在这项工作中,我们认为这种效果是多模式VAE训练中梯度冲突的结果。我们展示了如何检测梯度冲突(公正性块)的计算图中的子图形,以及如何利用从多任务学习到减轻模态崩溃的现有梯度冲突解决方案。也就是说,确保跨模式的公正优化。我们将培训框架应用于文献中的几种多模式VAE模型,损失和数据集,并从经验上表明,我们的框架显着改善了跨模态的潜在空间的重建性能,有条件的产生和连贯性。
translated by 谷歌翻译
由于大型数据集中的深度学习模型需要大量时间和资源,因此希望构建一个小型合成数据集,我们可以通过该数据集充分训练深度学习模型。最近有一些作品通过复杂的BI级优化探索了有关凝结图像数据集的解决方案。例如,数据集冷凝(DC)匹配网络梯度W.R.T.大型数据和小合成数据,在每个外迭代处,网络权重优化了多个步骤。但是,现有方法具有其固有的局限性:(1)它们不直接适用于数据离散的图表; (2)由于所涉及的嵌套优化,冷凝过程在计算上昂贵。为了弥合差距,我们研究了针对图形数据集量身定制的有效数据集冷凝,在该数据集中我们将离散图结构模拟为概率模型。我们进一步提出了一个单步梯度匹配方案,该方案仅执行一个步骤,而无需训练网络权重。我们的理论分析表明,该策略可以生成合成图,从而导致实际图上的分类损失降低。各种图数据集的广泛实验证明了该方法的有效性和效率。特别是,我们能够将数据集大小降低90%,同时大约98%的原始性能,并且我们的方法明显快于多步梯度匹配(例如,CIFAR10中的15倍用于合成500个图)。
translated by 谷歌翻译