无数据知识蒸馏(DFKD)最近一直吸引了研究社区的越来越关注,归因于其仅使用合成数据压缩模型的能力。尽管取得了令人鼓舞的成果,但最先进的DFKD方法仍然患有数据综合的低效率,使得无数据培训过程非常耗时,因此可以对大规模任务进行不适当的。在这项工作中,我们介绍了一个被称为FastDFKD的有效方案,使我们能够将DFKD加速到数量级。在我们的方法中,我们的方法是一种重用培训数据中共享共同功能的新策略,以便综合不同的数据实例。与先前的方法独立优化一组数据,我们建议学习一个Meta合成器,该综合仪寻求常见功能作为快速数据合成的初始化。因此,FastDFKD仅在几个步骤内实现数据综合,显着提高了无数据培训的效率。在CiFAR,NYUV2和Imagenet上的实验表明,所提出的FastDFKD实现了10美元\时代$甚至100美元\倍$加速,同时保持与现有技术的表现。
translated by 谷歌翻译
在过去的十年中,许多深入学习模型都受到了良好的培训,并在各种机器智能领域取得了巨大成功,特别是对于计算机视觉和自然语言处理。为了更好地利用这些训练有素的模型在域内或跨域转移学习情况下,提出了知识蒸馏(KD)和域适应(DA)并成为研究亮点。他们旨在通过原始培训数据从训练有素的模型转移有用的信息。但是,由于隐私,版权或机密性,原始数据并不总是可用的。最近,无数据知识转移范式吸引了吸引人的关注,因为它涉及从训练有素的模型中蒸馏宝贵的知识,而无需访问培训数据。特别是,它主要包括无数据知识蒸馏(DFKD)和源无数据域适应(SFDA)。一方面,DFKD旨在将域名域内知识从一个麻烦的教师网络转移到一个紧凑的学生网络,以进行模型压缩和有效推论。另一方面,SFDA的目标是重用存储在训练有素的源模型中的跨域知识并将其调整为目标域。在本文中,我们对知识蒸馏和无监督域适应的视角提供了全面的数据知识转移,以帮助读者更好地了解目前的研究状况和想法。分别简要审查了这两个领域的应用和挑战。此外,我们对未来研究的主题提供了一些见解。
translated by 谷歌翻译
知识蒸馏在模型压缩方面取得了显着的成就。但是,大多数现有方法需要原始的培训数据,而实践中的实际数据通常是不可用的,因为隐私,安全性和传输限制。为了解决这个问题,我们提出了一种有条件的生成数据无数据知识蒸馏(CGDD)框架,用于培训有效的便携式网络,而无需任何实际数据。在此框架中,除了使用教师模型中提取的知识外,我们将预设标签作为额外的辅助信息介绍以培训发电机。然后,训练有素的发生器可以根据需要产生指定类别的有意义的培训样本。为了促进蒸馏过程,除了使用常规蒸馏损失,我们将预设标签视为地面真理标签,以便学生网络直接由合成训练样本类别监督。此外,我们强制学生网络模仿教师模型的注意图,进一步提高了其性能。为了验证我们方法的优越性,我们设计一个新的评估度量称为相对准确性,可以直接比较不同蒸馏方法的有效性。培训的便携式网络通过提出的数据无数据蒸馏方法获得了99.63%,99.07%和99.84%的CIFAR10,CIFAR100和CALTECH101的相对准确性。实验结果表明了所提出的方法的优越性。
translated by 谷歌翻译
Dataset Distillation (DD), a newly emerging field, aims at generating much smaller and high-quality synthetic datasets from large ones. Existing DD methods based on gradient matching achieve leading performance; however, they are extremely computationally intensive as they require continuously optimizing a dataset among thousands of randomly initialized models. In this paper, we assume that training the synthetic data with diverse models leads to better generalization performance. Thus we propose two \textbf{model augmentation} techniques, ~\ie using \textbf{early-stage models} and \textbf{weight perturbation} to learn an informative synthetic set with significantly reduced training cost. Extensive experiments demonstrate that our method achieves up to 20$\times$ speedup and comparable performance on par with state-of-the-art baseline methods.
translated by 谷歌翻译
Most existing distillation methods ignore the flexible role of the temperature in the loss function and fix it as a hyper-parameter that can be decided by an inefficient grid search. In general, the temperature controls the discrepancy between two distributions and can faithfully determine the difficulty level of the distillation task. Keeping a constant temperature, i.e., a fixed level of task difficulty, is usually sub-optimal for a growing student during its progressive learning stages. In this paper, we propose a simple curriculum-based technique, termed Curriculum Temperature for Knowledge Distillation (CTKD), which controls the task difficulty level during the student's learning career through a dynamic and learnable temperature. Specifically, following an easy-to-hard curriculum, we gradually increase the distillation loss w.r.t. the temperature, leading to increased distillation difficulty in an adversarial manner. As an easy-to-use plug-in technique, CTKD can be seamlessly integrated into existing knowledge distillation frameworks and brings general improvements at a negligible additional computation cost. Extensive experiments on CIFAR-100, ImageNet-2012, and MS-COCO demonstrate the effectiveness of our method. Our code is available at https://github.com/zhengli97/CTKD.
translated by 谷歌翻译
除了使用硬标签的标准监督学习外,通常在许多监督学习设置中使用辅助损失来改善模型的概括。例如,知识蒸馏增加了第二个教师模仿模型训练的损失,在该培训中,教师可能是一个验证的模型,可以输出比标签更丰富的分布。同样,在标记数据有限的设置中,弱标记信息以标签函数的形式使用。此处引入辅助损失来对抗标签函数,这些功能可能是基于嘈杂的规则的真实标签近似值。我们解决了学习以原则性方式结合这些损失的问题。我们介绍AMAL,该AMAL使用元学习在验证度量上学习实例特定的权重,以实现损失的最佳混合。在许多知识蒸馏和规则降解域中进行的实验表明,Amal在这些领域中对竞争基准的增长可显着。我们通过经验分析我们的方法,并分享有关其提供性能提升的机制的见解。
translated by 谷歌翻译
Knowledge Distillation (KD) transfers the knowledge from a high-capacity teacher model to promote a smaller student model. Existing efforts guide the distillation by matching their prediction logits, feature embedding, etc., while leaving how to efficiently utilize them in junction less explored. In this paper, we propose Hint-dynamic Knowledge Distillation, dubbed HKD, which excavates the knowledge from the teacher' s hints in a dynamic scheme. The guidance effect from the knowledge hints usually varies in different instances and learning stages, which motivates us to customize a specific hint-learning manner for each instance adaptively. Specifically, a meta-weight network is introduced to generate the instance-wise weight coefficients about knowledge hints in the perception of the dynamical learning progress of the student model. We further present a weight ensembling strategy to eliminate the potential bias of coefficient estimation by exploiting the historical statics. Experiments on standard benchmarks of CIFAR-100 and Tiny-ImageNet manifest that the proposed HKD well boost the effect of knowledge distillation tasks.
translated by 谷歌翻译
The focus of recent meta-learning research has been on the development of learning algorithms that can quickly adapt to test time tasks with limited data and low computational cost. Few-shot learning is widely used as one of the standard benchmarks in meta-learning. In this work, we show that a simple baseline: learning a supervised or selfsupervised representation on the meta-training set, followed by training a linear classifier on top of this representation, outperforms state-of-the-art few-shot learning methods. An additional boost can be achieved through the use of selfdistillation. This demonstrates that using a good learned embedding model can be more effective than sophisticated meta-learning algorithms. We believe that our findings motivate a rethinking of few-shot image classification benchmarks and the associated role of meta-learning algorithms.
translated by 谷歌翻译
本文旨在探讨神经架构搜索(NAS)的可行性仅在不使用任何原始训练数据的情况下给出预先训练的模型。这是实质保护,偏离避免等的重要情况。为实现这一目标,我们首先通过从预先训练的深神经网络中恢复知识来综合可用数据。然后我们使用合成数据及其预测的软标签来指导神经结构搜索。我们确定NAS任务需要具有足够的语义,多样性和来自自然图像的最小域间隙的合成数据(我们在此处瞄准)。对于语义,我们提出了递归标签校准,以产生更多的信息性输出。对于多样性,我们提出了一个区域更新策略,以产生更多样化和富集的合成数据。对于最小的域间隙,我们使用输入和特征级正则化来模拟潜在空间的原始数据分布。我们将我们提出的三个流行NAS算法实例化:飞镖,Proxylessnas和Spos。令人惊讶的是,我们的结果表明,通过搜索我们的合成数据来实现的架构,实现了与从原始的架构中搜索的架构相当的准确性,首次导出了NAS可以有效完成的结论如果合成方法设计良好,则无需访问原件或称为自然数据。我们的代码将公开提供。
translated by 谷歌翻译
很少有射击学习(FSL)旨在使用有限标记的示例生成分类器。许多现有的作品采用了元学习方法,构建了一些可以从几个示例中学习以生成分类器的学习者。通常,几次学习者是通过依次对多个几次射击任务进行采样并优化几杆学习者在为这些任务生成分类器时的性能来构建或进行元训练的。性能是通过结果分类器对这些任务的测试(即查询)示例进行分类的程度来衡量的。在本文中,我们指出了这种方法的两个潜在弱点。首先,采样的查询示例可能无法提供足够的监督来进行元训练少数学习者。其次,元学习的有效性随着射击数量的增加而急剧下降。为了解决这些问题,我们为少数学习者提出了一个新颖的元训练目标,这是为了鼓励少数学习者生成像强大分类器一样执行的分类器。具体而言,我们将每个采样的几个弹药任务与强大的分类器相关联,该分类器接受了充分的标记示例。强大的分类器可以看作是目标分类器,我们希望在几乎没有示例的情况下生成的几个学习者,我们使用强大的分类器来监督少数射击学习者。我们提出了一种构建强分类器的有效方法,使我们提出的目标成为现有基于元学习的FSL方法的易于插入的术语。我们与许多代表性的元学习方法相结合验证了我们的方法,Lastshot。在几个基准数据集中,我们的方法可导致各种任务的显着改进。更重要的是,通过我们的方法,基于元学习的FSL方法可以在不同数量的镜头上胜过基于非Meta学习的方法。
translated by 谷歌翻译
图形神经网络(GNN)已被广泛用于建模图形结构化数据,这是由于其在广泛的实用应用中令人印象深刻的性能。最近,GNNS的知识蒸馏(KD)在图形模型压缩和知识转移方面取得了显着进步。但是,大多数现有的KD方法都需要大量的真实数据,这些数据在实践中不容易获得,并且可能排除其在教师模型对稀有或难以获取数据集培训的情况下的适用性。为了解决这个问题,我们提出了第一个用于图形结构化数据(DFAD-GNN)的无数据对抗知识蒸馏的端到端框架。具体而言,我们的DFAD-GNN采用生成性对抗网络,主要由三个组成部分组成:预先训练的教师模型和学生模型被视为两个歧视者,并利用生成器来衍生训练图来从教师模型进入学生模型。在各种基准模型和六个代表性数据集上进行的广泛实验表明,我们的DFAD-GNN在图形分类任务中显着超过了最新的无数据基线。
translated by 谷歌翻译
知识蒸馏已成为获得紧凑又有效模型的重要方法。为实现这一目标,培训小型学生模型以利用大型训练有素的教师模型的知识。然而,由于教师和学生之间的能力差距,学生的表现很难达到老师的水平。关于这个问题,现有方法建议通过代理方式减少教师知识的难度。我们认为这些基于代理的方法忽视了教师的知识损失,这可能导致学生遇到容量瓶颈。在本文中,我们从新的角度来缓解能力差距问题,以避免知识损失的目的。我们建议通过对抗性协作学习建立一个更有力的学生,而不是牺牲教师的知识。为此,我们进一步提出了一种逆势协作知识蒸馏(ACKD)方法,有效提高了知识蒸馏的性能。具体来说,我们用多个辅助学习者构建学生模型。同时,我们设计了对抗的对抗性协作模块(ACM),引入注意机制和对抗的学习,以提高学生的能力。四个分类任务的广泛实验显示了拟议的Ackd的优越性。
translated by 谷歌翻译
无数据知识蒸馏(KD)允许从训练有素的神经网络(教师)到更紧凑的一个(学生)的知识转移在没有原始训练数据。现有的作品使用验证集来监视学生通过实际数据的准确性,并在整个过程中报告最高性能。但是,验证数据可能无法在蒸馏时间可用,使得记录实现峰值精度的学生快照即可。因此,实际的无数据KD方法应该是坚固的,理想情况下,在蒸馏过程中理想地提供单调增加的学生准确性。这是具有挑战性的,因为学生因合成数据的分布转移而经历了知识劣化。克服这个问题的直接方法是定期存储和排练生成的样本,这增加了内存占据措施并创造了隐私问题。我们建议用生成网络模拟先前观察到的合成样品的分布。特别地,我们设计了具有训练目标的变形式自动化器(VAE),其定制以最佳地学习合成数据表示。学生被生成的伪重播技术排练,其中样品由VAE产生。因此,可以防止知识劣化而不存储任何样本。在图像分类基准测试中的实验表明,我们的方法优化了蒸馏模型精度的预期值,同时消除了采样存储方法产生的大型内存开销。
translated by 谷歌翻译
我们研究无数据知识蒸馏(KD)进行单眼深度估计(MDE),该网络通过在教师学生框架下从训练有素的专家模型中压缩,同时缺乏目标领域的培训数据,从而学习了一个轻巧的网络,以实现现实世界深度感知。 。由于密集回归和图像识别之间的本质差异,因此以前的无数据KD方法不适用于MDE。为了加强现实世界中的适用性,在本文中,我们试图使用分布式模拟图像应用KD。主要的挑战是i)缺乏有关原始培训数据的对象分布的先前信息; ii)领域在现实世界和模拟之间的转移。为了应对第一个难度,我们应用对象图像混合以生成新的训练样本,以最大程度地覆盖目标域中对象的分布模式。为了解决第二个困难,我们建议利用一个有效学习的转换网络,以将模拟数据拟合到教师模型的特征分布中。我们评估了各种深度估计模型和两个不同数据集的建议方法。结果,我们的方法优于基线KD的优势,甚至在$ 1/6 $的图像中获得的性能略高,表现出了明显的优势。
translated by 谷歌翻译
随着边缘设备深度学习的普及日益普及,压缩大型神经网络以满足资源受限设备的硬件要求成为了重要的研究方向。目前正在使用许多压缩方法来降低神经网络的存储器尺寸和能量消耗。知识蒸馏(KD)是通过使用数据样本来将通过大型模型(教师)捕获的知识转移到较小的数据样本(学生)的方法和IT功能。但是,由于各种原因,在压缩阶段可能无法访问原始训练数据。因此,无数据模型压缩是各种作品所解决的正在进行的研究问题。在本文中,我们指出灾难性的遗忘是在现有的无数据蒸馏方法中可能被观察到的问题。此外,其中一些方法中的样本生成策略可能导致合成和实际数据分布之间的不匹配。为了防止此类问题,我们提出了一种无数据的KD框架,它随着时间的推移维护生成的样本的动态集合。此外,我们添加了匹配目标生成策略中的实际数据分布的约束,该策略为目标最大信息增益。我们的实验表明,与SVHN,时尚MNIST和CIFAR100数据集上的最先进方法相比,我们可以提高通过KD获得的学生模型的准确性。
translated by 谷歌翻译
Current medical image synthetic augmentation techniques rely on intensive use of generative adversarial networks (GANs). However, the nature of GAN architecture leads to heavy computational resources to produce synthetic images and the augmentation process requires multiple stages to complete. To address these challenges, we introduce a novel generative meta curriculum learning method that trains the task-specific model (student) end-to-end with only one additional teacher model. The teacher learns to generate curriculum to feed into the student model for data augmentation and guides the student to improve performance in a meta-learning style. In contrast to the generator and discriminator in GAN, which compete with each other, the teacher and student collaborate to improve the student's performance on the target tasks. Extensive experiments on the histopathology datasets show that leveraging our framework results in significant and consistent improvements in classification performance.
translated by 谷歌翻译
知识蒸馏(KD)是一种有效的方法,可以将知识从大型“教师”网络转移到较小的“学生”网络。传统的KD方法需要大量标记的培训样本和白盒老师(可以访问参数)才能培训好学生。但是,这些资源并不总是在现实世界应用中获得。蒸馏过程通常发生在我们无法访问大量数据的外部政党方面,并且由于安全性和隐私问题,教师没有披露其参数。为了克服这些挑战,我们提出了一种黑盒子少的KD方法,以培训学生很少的未标记培训样本和一个黑盒老师。我们的主要思想是通过使用混合和有条件的变异自动编码器生成一组不同的分布合成图像来扩展训练集。这些合成图像及其从老师获得的标签用于培训学生。我们进行了广泛的实验,以表明我们的方法在图像分类任务上明显优于最近的SOTA/零射击KD方法。代码和型号可在以下网址找到:https://github.com/nphdang/fs-bbt
translated by 谷歌翻译
无数据知识蒸馏(DFKD)的目的是在没有培训数据的情况下培训从教师网络的轻量级学生网络。现有方法主要遵循生成信息样本的范式,并通过针对数据先验,边界样本或内存样本来逐步更新学生模型。但是,以前的DFKD方法很难在不同的训练阶段动态调整生成策略,这反过来又很难实现高效且稳定的训练。在本文中,我们探讨了如何从课程学习(CL)的角度来教学学生,并提出一种新方法,即“ CUDFKD”,即“使用课程的无数据知识蒸馏”。它逐渐从简单的样本到困难的样本学习,这类似于人类学习的方式。此外,我们还提供了对主要化最小化(MM)算法的理论分析,并解释了CUDFKD的收敛性。在基准数据集上进行的实验表明,使用简单的课程设计策略,CUDFKD可以在最先进的DFKD方法和不同的基准测试中实现最佳性能,例如CIFAR10上RESNET18模型的95.28 \%TOP1的精度,这是更好的而不是从头开始培训数据。训练很快,在30个时期内达到90 \%的最高精度,并且训练期间的差异稳定。同样在本文中,还分析和讨论了CUDFKD的适用性。
translated by 谷歌翻译
在本文中,我们探讨了一个新的知识障碍问题,称为联合选择性聚合(FEDSA)。 FEDSA的目的是在几位分散的教师的帮助下培训学生模型,以完成一项新任务,他们的预培训任务和数据是不同且不可知的。我们调查此类问题设置的动机源于最近的模型共享困境。许多研究人员或机构已经在培训大型且称职的网络上花费了巨大的资源。由于隐私,安全或知识产权问题,他们也无法分享自己的预培训模型,即使他们希望为社区做出贡献。拟议的FEDSA提供了解决这一困境的解决方案,并使其更进一步,因为学识渊博的学生可以专门从事与所有老师不同的新任务。为此,我们提出了一种处理FEDSA的专门战略。具体而言,我们的学生培训过程是由一种新型的基于显着性的方法驱动的,该方法可以适应教师作为参与者,并将其代表性能力融入到学生中。为了评估FEDSA的有效性,我们在单任务和多任务设置上进行实验。实验结果表明,FEDSA有效地将分散模型的知识融合在一起,并将竞争性能达到集中式基准。
translated by 谷歌翻译