Computational cost of training state-of-the-art deep models in many learning problems is rapidly increasing due to more sophisticated models and larger datasets. A recent promising direction for reducing training cost is dataset condensation that aims to replace the original large training set with a significantly smaller learned synthetic set while preserving the original information. While training deep models on the small set of condensed images can be extremely fast, their synthesis remains computationally expensive due to the complex bi-level optimization and second-order derivative computation. In this work, we propose a simple yet effective method that synthesizes condensed images by matching feature distributions of the synthetic and original training images in many sampled embedding spaces. Our method significantly reduces the synthesis cost while achieving comparable or better performance. Thanks to its efficiency, we apply our method to more realistic and larger datasets with sophisticated neural architectures and obtain a significant performance boost. We also show promising practical benefits of our method in continual learning and neural architecture search.
translated by 谷歌翻译
Remarkable progress has been achieved in synthesizing photo-realistic images with generative adversarial networks (GANs). Recently, GANs are utilized as the training sample generator when obtaining or storing real training data is expensive even infeasible. However, traditional GANs generated images are not as informative as the real training samples when being used to train deep neural networks. In this paper, we propose a novel method to synthesize Informative Training samples with GAN (IT-GAN). Specifically, we freeze a pre-trained GAN model and learn the informative latent vectors that correspond to informative training samples. The synthesized images are required to preserve information for training deep neural networks rather than visual reality or fidelity. Experiments verify that the deep neural networks can learn faster and achieve better performance when being trained with our IT-GAN generated images. We also show that our method is a promising solution to dataset condensation problem.
translated by 谷歌翻译
Dataset Distillation (DD), a newly emerging field, aims at generating much smaller and high-quality synthetic datasets from large ones. Existing DD methods based on gradient matching achieve leading performance; however, they are extremely computationally intensive as they require continuously optimizing a dataset among thousands of randomly initialized models. In this paper, we assume that training the synthetic data with diverse models leads to better generalization performance. Thus we propose two \textbf{model augmentation} techniques, ~\ie using \textbf{early-stage models} and \textbf{weight perturbation} to learn an informative synthetic set with significantly reduced training cost. Extensive experiments demonstrate that our method achieves up to 20$\times$ speedup and comparable performance on par with state-of-the-art baseline methods.
translated by 谷歌翻译
最近的研究表明,基于梯度匹配的数据集综合或数据集凝结(DC),当应用于数据有效的学习任务时,方法可以实现最先进的性能。但是,在这项研究中,我们证明,当任务 - 核定信息构成培训数据集的重要组成部分时,现有的DC方法比随机选择方法的性能更糟。我们将其归因于缺乏与课堂梯度匹配策略所产生的类对比信号的参与。为了解决此问题,我们通过修改损耗函数以使DC方法有效地捕获类之间的差异来提出与对比度信号(DCC)的数据集凝结。此外,我们通过跟踪内核速度来分析训练动力学的新损失函数。此外,我们引入了双层热身策略,以稳定优化。我们的实验结果表明,尽管现有方法对细粒度的图像分类任务无效,但所提出的方法可以成功地为相同任务生成信息合成数据集。此外,我们证明所提出的方法甚至在基准数据集(例如SVHN,CIFAR-10和CIFAR-100)上也优于基准。最后,我们通过将其应用于持续学习任务来证明该方法的高度适用性。
translated by 谷歌翻译
数据集凝结是一种新兴的技术,旨在学习一个微小的数据集,该数据集捕获原始数据集中编码的丰富信息。随着数据集的大小当代机器学习模型的依赖变得越来越大,凝结方法成为加速网络培训和减少数据存储的重要方向。尽管在这个快速增长的领域中提出了许多方法,但评估和比较不同的冷凝方法是非平凡的,仍然仍然是一个空旷的问题。凝结数据集的质量通常会受到许多关键的影响最终性能的关键因素,例如数据增强和模型架构。缺乏评估和比较冷凝方法的系统方法不仅阻碍了我们对现有技术的理解,而且还阻碍了合成数据集的实际用法。这项工作提供了数据集冷凝的第一个大规模标准化基准。它由一套评估组成,可以全面地通过其生成的数据集的镜头来全面反映冷凝方法的生成性和有效性。利用这一基准,我们对当前的冷凝方法进行了大规模研究,并报告了许多有见地的发现,为未来发展开辟了新的可能性。开源的基准库,包括评估人员,基线方法和生成的数据集,以促进未来的研究和应用。
translated by 谷歌翻译
由于大型数据集中的深度学习模型需要大量时间和资源,因此希望构建一个小型合成数据集,我们可以通过该数据集充分训练深度学习模型。最近有一些作品通过复杂的BI级优化探索了有关凝结图像数据集的解决方案。例如,数据集冷凝(DC)匹配网络梯度W.R.T.大型数据和小合成数据,在每个外迭代处,网络权重优化了多个步骤。但是,现有方法具有其固有的局限性:(1)它们不直接适用于数据离散的图表; (2)由于所涉及的嵌套优化,冷凝过程在计算上昂贵。为了弥合差距,我们研究了针对图形数据集量身定制的有效数据集冷凝,在该数据集中我们将离散图结构模拟为概率模型。我们进一步提出了一个单步梯度匹配方案,该方案仅执行一个步骤,而无需训练网络权重。我们的理论分析表明,该策略可以生成合成图,从而导致实际图上的分类损失降低。各种图数据集的广泛实验证明了该方法的有效性和效率。特别是,我们能够将数据集大小降低90%,同时大约98%的原始性能,并且我们的方法明显快于多步梯度匹配(例如,CIFAR10中的15倍用于合成500个图)。
translated by 谷歌翻译
旨在选择最有用的培训样本子集的CoreSet选择是一个长期存在的学习问题,可以使许多下游任务受益,例如数据效率学习,持续学习,神经体系结构搜索,主动学习等。但是,许多现有的核心选择方法不是为深度学习而设计的,这些方法可能具有很高的复杂性和不良的概括性能。此外,最近提出的方法在模型,数据集和不同复杂性的设置上进行评估。为了促进深度学习中核心选择的研究,我们贡献了一个全面的代码库,即深核,并就CIFAR10和Imagenet数据集的流行核心选择方法提供了经验研究。关于CIFAR10和Imagenet数据集的广泛实验验证,尽管在某些实验设置中具有优势,但随机选择仍然是一个强大的基线。
translated by 谷歌翻译
随着深度学习模型和数据集的迅速扩展,网络培训非常耗时和资源成本。使用小型合成数据集学习并没有在整个数据集中进行培训,而是一种有效的解决方案。广泛的研究已在数据集凝结的方向上进行了探索,其中梯度匹配可以达到最先进的性能。梯度匹配方法在原始和合成数据集上训练时通过匹配梯度直接靶向训练动力学。但是,对该方法的原理和有效性进行了有限的深入研究。在这项工作中,我们从全面的角度深入研究了梯度匹配方法,并回答了什么,如何和何处的关键问题。我们建议将多级梯度匹配,以涉及类内和类间梯度信息。我们证明,距离函数应集中在角度上,考虑到同时延迟过度拟合的幅度。还提出了一种过度拟合的自适应学习步骤策略,以修剪不必要的优化步骤,以提高算法效率。消融和比较实验表明,与先前的工作相比,我们提出的方法具有优越的准确性,效率和概括性。
translated by 谷歌翻译
Differentially private data generation techniques have become a promising solution to the data privacy challenge -- it enables sharing of data while complying with rigorous privacy guarantees, which is essential for scientific progress in sensitive domains. Unfortunately, restricted by the inherent complexity of modeling high-dimensional distributions, existing private generative models are struggling with the utility of synthetic samples. In contrast to existing works that aim at fitting the complete data distribution, we directly optimize for a small set of samples that are representative of the distribution under the supervision of discriminative information from downstream tasks, which is generally an easier task and more suitable for private training. Our work provides an alternative view for differentially private generation of high-dimensional data and introduces a simple yet effective method that greatly improves the sample utility of state-of-the-art approaches.
translated by 谷歌翻译
在本文中,我们通过利用给定数据集中的规律性来有效地介绍了一种新颖的方法来系统地解决数据集凝结问题。我们没有直接在原始输入空间中凝结数据集,而是假设数据集的生成过程,其中一组可学习的代码在紧凑的潜在空间中定义,然后是一组微型解码器,它们将它们映射到原始输入空间。通过互换组合不同的代码和解码器,我们可以大大增加具有相同参数计数的合成示例的数量,因为潜在空间要较低,并且由于我们可以假设尽可能多的解码器来捕获数据集中表示的不同样式费用微不足道。这种知识分解允许以系统的方式有效地共享综合示例之间的信息,从而在压缩比和生成的示例的质量之间进行了更高的权衡。我们通过实验表明,我们的方法通过各种基准数据集(例如SVHN,CIFAR10,CIFAR100和Tinyimagenet)在各种基准数据集上实现了新的最新记录。
translated by 谷歌翻译
本文旨在探讨神经架构搜索(NAS)的可行性仅在不使用任何原始训练数据的情况下给出预先训练的模型。这是实质保护,偏离避免等的重要情况。为实现这一目标,我们首先通过从预先训练的深神经网络中恢复知识来综合可用数据。然后我们使用合成数据及其预测的软标签来指导神经结构搜索。我们确定NAS任务需要具有足够的语义,多样性和来自自然图像的最小域间隙的合成数据(我们在此处瞄准)。对于语义,我们提出了递归标签校准,以产生更多的信息性输出。对于多样性,我们提出了一个区域更新策略,以产生更多样化和富集的合成数据。对于最小的域间隙,我们使用输入和特征级正则化来模拟潜在空间的原始数据分布。我们将我们提出的三个流行NAS算法实例化:飞镖,Proxylessnas和Spos。令人惊讶的是,我们的结果表明,通过搜索我们的合成数据来实现的架构,实现了与从原始的架构中搜索的架构相当的准确性,首次导出了NAS可以有效完成的结论如果合成方法设计良好,则无需访问原件或称为自然数据。我们的代码将公开提供。
translated by 谷歌翻译
无数据知识蒸馏(DFKD)最近引起了人们的关注,这要归功于其在不使用培训数据的情况下将知识从教师网络转移到学生网络的吸引力。主要思想是使用发电机合成数据以培训学生。随着发电机的更新,合成数据的分布将发生变化。如果发电机和学生接受对手的训练,使学生忘记了先前一步获得的知识,则这种分配转换可能会很大。为了减轻这个问题,我们提出了一种简单而有效的方法,称为动量对抗蒸馏(MAD),该方法维持了发电机的指数移动平均值(EMA)副本,并使用发电机和EMA生成器的合成样品来培训学生。由于EMA发电机可以被视为发电机旧版本的合奏,并且与发电机相比,更新的更改通常会发生较小的变化,因此对其合成样本进行培训可以帮助学生回顾过去的知识,并防止学生适应太快的速度发电机的新更新。我们在六个基准数据集上进行的实验,包括ImageNet和Place365,表明MAD的性能优于竞争方法来处理大型分配转移问题。我们的方法还与现有的DFKD方法相比,甚至在某些情况下达到了最新的方法。
translated by 谷歌翻译
图形神经网络(GNNS)可以使用深度学习对图进行分析,并在图中捕获结构化信息的结果有希望的结果。本文着重于创建一个小图来表示原始图,以便在尺寸降低的图上训练的GNN可以做出准确的预测。我们将原始图视为接收场的分布,并旨在合成一个小图,其接受场具有相似的分布。因此,我们通过接受场分布匹配(GCDM)提出了图形屈服,该图是通过使用最大平均差异(MMD)量化的分布匹配损耗来优化合成图来完成的。此外,我们证明了GCDM生成的合成图在评估阶段高度概括为各种模型,并且使用此框架可显着提高冷凝速度。
translated by 谷歌翻译
近年来,计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术,深层模型需要大量准确标记的培训数据,这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强(DA),可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同,因为不同的数据类型可能需要不同的增强以促进模型培训。但是,DA策略的设计主要由具有领域知识的人类专家决定,这被认为是高度主观和错误的。为了减轻此类问题,一个新颖的方向是使用自动数据增强(AUTODA)技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件:搜索空间,搜索算法和评估功能。根据他们的架构,我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品,讨论了他们的利弊,并提出了一些潜在的方向以进行未来的改进。
translated by 谷歌翻译
数据增强是一种提高深神经网络(DNN)的鲁棒性的简单而有效的方法。多样性和硬度是数据增强的两个互补维度,以实现稳健性。例如,Augmix探讨了各种增强套的随机组成,以增强更广泛的覆盖,而对抗性培训产生过态度硬质样品以发现弱点。通过此激励,我们提出了一个数据增强框架,被称为奥古曼克,统一多样性和硬度的两个方面。 Augmax首先将多个增强运算符进行随机样本,然后学习所选操作员的对抗性混合物。作为更强大的数据增强形式,奥格梅纳队导致了一个明显的增强输入分布,使模型培训更具挑战性。为了解决这个问题,我们进一步设计了一个解散的归一化模块,称为Dubin(双批次和实例规范化),其解除了奥古曼克斯出现的实例 - 明智的特征异质性。实验表明,Augmax-Dubin将显着改善分配的鲁棒性,优于现有技术,在CiFar10-C,CiFar100-C,微小Imagenet-C和Imagenet-C上以3.03%,3.49%,1.82%和0.71%。可提供代码和预磨料模型:https://github.com/vita-group/augmax。
translated by 谷歌翻译
鉴于在现实世界应用中大规模图的流行率,训练神经模型的存储和时间引起了人们的关注。为了减轻关注点,我们提出和研究图形神经网络(GNNS)的图形凝结问题。具体而言,我们旨在将大型原始图凝结成一个小的,合成的和高度信息的图,以便在小图和大图上训练的GNN具有可比性的性能。我们通过优化梯度匹配损失并设计一种凝结节点期货和结构信息的策略来模仿原始图上的GNN训练轨迹,以解决凝结问题。广泛的实验证明了所提出的框架在将不同的图形数据集凝结成信息较小的较小图中的有效性。特别是,我们能够在REDDIT上近似于95.3%的原始测试准确性,Flickr的99.8%和CiteSeer的99.0%,同时将其图形尺寸降低了99.9%以上,并且可以使用冷凝图来训练各种GNN架构Code在https://github.com/chandlerbang/gcond上发布。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
许多现有的神经结构搜索(NAS)解决方案依赖于架构评估的下游培训,这需要巨大的计算。考虑到这些计算带来了大量碳足迹,本文旨在探索绿色(即环保)NAS解决方案,可以在不培训的情况下评估架构。直观地,由架构本身引起的梯度,直接决定收敛和泛化结果。它激励我们提出梯度内核假设:梯度可以用作下游训练的粗粒粒度,以评估随机初始化网络。为了支持假设,我们进行理论分析,找到一个实用的梯度内核,与培训损失和验证性能有良好的相关性。根据这一假设,我们提出了一种新的基于内核的架构搜索方法knas。实验表明,KNA可实现比图像分类任务的“火车-TER-TEST”范式更快地实现竞争力。此外,极低的搜索成本使其具有广泛的应用。搜索网络还优于两个文本分类任务的强大基线Roberta-Light。代码可用于\ url {https://github.com/jingjing-nlp/knas}。
translated by 谷歌翻译
The success of state-of-the-art deep neural networks heavily relies on the presence of large-scale labelled datasets, which are extremely expensive and time-consuming to annotate. This paper focuses on tackling semi-supervised part segmentation tasks by generating high-quality images with a pre-trained GAN and labelling the generated images with an automatic annotator. In particular, we formulate the annotator learning as a learning-to-learn problem. Given a pre-trained GAN, the annotator learns to label object parts in a set of randomly generated images such that a part segmentation model trained on these synthetic images with their predicted labels obtains low segmentation error on a small validation set of manually labelled images. We further reduce this nested-loop optimization problem to a simple gradient matching problem and efficiently solve it with an iterative algorithm. We show that our method can learn annotators from a broad range of labelled images including real images, generated images, and even analytically rendered images. Our method is evaluated with semi-supervised part segmentation tasks and significantly outperforms other semi-supervised competitors when the amount of labelled examples is extremely limited.
translated by 谷歌翻译