使用适当的电感偏差,反事实生成网络(CGN)可以从形状,纹理和背景歧管的随机组合中生成新图像。这些图像可以用于训练不变的分类器,避免了深层体系结构学习虚假相关性而不是有意义的问题。结果,改善了室外鲁棒性。但是,CGN体系结构包括多个参数化网络,即BigGan和U2-NET。培训这些网络需要适当的背景知识和广泛的计算。由于一个人并不总是能够访问精确的培训细节,也不总是拥有反事实的必要知识,因此我们的工作解决了以下问题:我们可以使用预先训练的CGN中嵌入的知识来培训低容量的模型,假设对架构组件的黑框访问(即仅访问验证的CGN模型)?在这个方向上,我们提出了一项名为SKDCGN的新颖作品,该作品尝试使用知识蒸馏(KD)尝试知识转移。在我们提出的架构中,每个独立的机制(形状,纹理,背景)都由一个学生“ tinygan”代表,该学生从预验证的老师“ Biggan”中学习。我们通过使用KD和适当的损失函数来证明使用最先进的数据集(例如ImageNet)和MNIST的疗效。此外,作为另一项贡献,我们的论文对CGN的组成机制进行了详尽的研究,以更好地了解每种机制如何影响不变分类器的分类精度。代码可用:https://github.com/ambekarsameer96/skdcgn
translated by 谷歌翻译
知识蒸馏在模型压缩方面取得了显着的成就。但是,大多数现有方法需要原始的培训数据,而实践中的实际数据通常是不可用的,因为隐私,安全性和传输限制。为了解决这个问题,我们提出了一种有条件的生成数据无数据知识蒸馏(CGDD)框架,用于培训有效的便携式网络,而无需任何实际数据。在此框架中,除了使用教师模型中提取的知识外,我们将预设标签作为额外的辅助信息介绍以培训发电机。然后,训练有素的发生器可以根据需要产生指定类别的有意义的培训样本。为了促进蒸馏过程,除了使用常规蒸馏损失,我们将预设标签视为地面真理标签,以便学生网络直接由合成训练样本类别监督。此外,我们强制学生网络模仿教师模型的注意图,进一步提高了其性能。为了验证我们方法的优越性,我们设计一个新的评估度量称为相对准确性,可以直接比较不同蒸馏方法的有效性。培训的便携式网络通过提出的数据无数据蒸馏方法获得了99.63%,99.07%和99.84%的CIFAR10,CIFAR100和CALTECH101的相对准确性。实验结果表明了所提出的方法的优越性。
translated by 谷歌翻译
Despite excellent performance in image generation, Generative Adversarial Networks (GANs) are notorious for its requirements of enormous storage and intensive computation. As an awesome ''performance maker'', knowledge distillation is demonstrated to be particularly efficacious in exploring low-priced GANs. In this paper, we investigate the irreplaceability of teacher discriminator and present an inventive discriminator-cooperated distillation, abbreviated as DCD, towards refining better feature maps from the generator. In contrast to conventional pixel-to-pixel match methods in feature map distillation, our DCD utilizes teacher discriminator as a transformation to drive intermediate results of the student generator to be perceptually close to corresponding outputs of the teacher generator. Furthermore, in order to mitigate mode collapse in GAN compression, we construct a collaborative adversarial training paradigm where the teacher discriminator is from scratch established to co-train with student generator in company with our DCD. Our DCD shows superior results compared with existing GAN compression methods. For instance, after reducing over 40x MACs and 80x parameters of CycleGAN, we well decrease FID metric from 61.53 to 48.24 while the current SoTA method merely has 51.92. This work's source code has been made accessible at https://github.com/poopit/DCD-official.
translated by 谷歌翻译
知识蒸馏是一种培训小型学生网络的流行技术,以模仿更大的教师模型,例如网络的集合。我们表明,虽然知识蒸馏可以改善学生泛化,但它通常不得如此普遍地工作:虽然在教师和学生的预测分布之间,甚至在学生容量的情况下,通常仍然存在令人惊讶的差异完美地匹配老师。我们认为优化的困难是为什么学生无法与老师匹配的关键原因。我们还展示了用于蒸馏的数据集的细节如何在学生与老师匹配的紧密关系中发挥作用 - 以及教师矛盾的教师并不总是导致更好的学生泛化。
translated by 谷歌翻译
无数据知识蒸馏(KD)允许从训练有素的神经网络(教师)到更紧凑的一个(学生)的知识转移在没有原始训练数据。现有的作品使用验证集来监视学生通过实际数据的准确性,并在整个过程中报告最高性能。但是,验证数据可能无法在蒸馏时间可用,使得记录实现峰值精度的学生快照即可。因此,实际的无数据KD方法应该是坚固的,理想情况下,在蒸馏过程中理想地提供单调增加的学生准确性。这是具有挑战性的,因为学生因合成数据的分布转移而经历了知识劣化。克服这个问题的直接方法是定期存储和排练生成的样本,这增加了内存占据措施并创造了隐私问题。我们建议用生成网络模拟先前观察到的合成样品的分布。特别地,我们设计了具有训练目标的变形式自动化器(VAE),其定制以最佳地学习合成数据表示。学生被生成的伪重播技术排练,其中样品由VAE产生。因此,可以防止知识劣化而不存储任何样本。在图像分类基准测试中的实验表明,我们的方法优化了蒸馏模型精度的预期值,同时消除了采样存储方法产生的大型内存开销。
translated by 谷歌翻译
在过去的十年中,许多深入学习模型都受到了良好的培训,并在各种机器智能领域取得了巨大成功,特别是对于计算机视觉和自然语言处理。为了更好地利用这些训练有素的模型在域内或跨域转移学习情况下,提出了知识蒸馏(KD)和域适应(DA)并成为研究亮点。他们旨在通过原始培训数据从训练有素的模型转移有用的信息。但是,由于隐私,版权或机密性,原始数据并不总是可用的。最近,无数据知识转移范式吸引了吸引人的关注,因为它涉及从训练有素的模型中蒸馏宝贵的知识,而无需访问培训数据。特别是,它主要包括无数据知识蒸馏(DFKD)和源无数据域适应(SFDA)。一方面,DFKD旨在将域名域内知识从一个麻烦的教师网络转移到一个紧凑的学生网络,以进行模型压缩和有效推论。另一方面,SFDA的目标是重用存储在训练有素的源模型中的跨域知识并将其调整为目标域。在本文中,我们对知识蒸馏和无监督域适应的视角提供了全面的数据知识转移,以帮助读者更好地了解目前的研究状况和想法。分别简要审查了这两个领域的应用和挑战。此外,我们对未来研究的主题提供了一些见解。
translated by 谷歌翻译
随着边缘设备深度学习的普及日益普及,压缩大型神经网络以满足资源受限设备的硬件要求成为了重要的研究方向。目前正在使用许多压缩方法来降低神经网络的存储器尺寸和能量消耗。知识蒸馏(KD)是通过使用数据样本来将通过大型模型(教师)捕获的知识转移到较小的数据样本(学生)的方法和IT功能。但是,由于各种原因,在压缩阶段可能无法访问原始训练数据。因此,无数据模型压缩是各种作品所解决的正在进行的研究问题。在本文中,我们指出灾难性的遗忘是在现有的无数据蒸馏方法中可能被观察到的问题。此外,其中一些方法中的样本生成策略可能导致合成和实际数据分布之间的不匹配。为了防止此类问题,我们提出了一种无数据的KD框架,它随着时间的推移维护生成的样本的动态集合。此外,我们添加了匹配目标生成策略中的实际数据分布的约束,该策略为目标最大信息增益。我们的实验表明,与SVHN,时尚MNIST和CIFAR100数据集上的最先进方法相比,我们可以提高通过KD获得的学生模型的准确性。
translated by 谷歌翻译
在这项工作中,我们提出了相互信息最大化知识蒸馏(MIMKD)。我们的方法使用对比目标来同时估计,并最大化教师和学生网络之间的本地和全球特征表示的相互信息的下限。我们通过广泛的实验证明,这可以通过将知识从更加性能但计算昂贵的模型转移来改善低容量模型的性能。这可用于产生更好的模型,可以在具有低计算资源的设备上运行。我们的方法灵活,我们可以将具有任意网络架构的教师蒸馏到任意学生网络。我们的经验结果表明,MIMKD优于各种学生教师对的竞争方法,具有不同的架构,以及学生网络的容量极低。我们能够通过从Reset-50蒸馏出来的知识,从基线精度为Shufflenetv2获得74.55%的精度。在Imagenet上,我们使用Reset-34教师网络将Reset-18网络从68.88%提高到70.32%的准确度(1.44%+)。
translated by 谷歌翻译
神经网络可以从单个图像中了解视觉世界的内容是什么?虽然它显然不能包含存在的可能对象,场景和照明条件 - 在所有可能的256 ^(3x224x224)224尺寸的方形图像中,它仍然可以在自然图像之前提供强大的。为了分析这一假设,我们通过通过监控掠夺教师的知识蒸馏来制定一种训练神经网络的培训神经网络。有了这个,我们发现上述问题的答案是:“令人惊讶的是,很多”。在定量术语中,我们在CiFar-10/100上找到了94%/ 74%的前1个精度,在想象中,通过将这种方法扩展到音频,84%的语音组合。在广泛的分析中,我们解除了增强,源图像和网络架构的选择,以及在从未见过熊猫的网络中发现“熊猫神经元”。这项工作表明,一个图像可用于推断成千上万的对象类,并激励关于增强和图像的基本相互作用的更新的研究议程。
translated by 谷歌翻译
知识蒸馏最近成为一种流行的技术,以改善卷积神经网络的模型泛化能力。然而,它对图形神经网络的影响小于令人满意的,因为图形拓扑和节点属性可能以动态方式改变,并且在这种情况下,静态教师模型引导学生培训不足。在本文中,我们通过在在线蒸馏时期同时培训一组图形神经网络来解决这一挑战,其中组知识发挥作用作为动态虚拟教师,并且有效地捕获了图形神经网络的结构变化。为了提高蒸馏性能,在学生之间转移两种知识,以增强彼此:在图形拓扑和节点属性中反映信息的本地知识,以及反映课程预测的全局知识。随着香草知识蒸馏等,在利用有效的对抗性循环学习框架,将全球知识与KL分歧转移。广泛的实验验证了我们提出的在线对抗蒸馏方法的有效性。
translated by 谷歌翻译
具有高计算成本的生成对抗网络(GANS),例如Biggan和Stylegan2,实现了显着的结果,在随机噪声中合成高分辨率和多样化的图像。降低GAN的计算成本,同时保持发电照片逼真的图像是一种紧急和具有挑战性的领域,用于其在计算资源限制设备上的广泛应用。在这项工作中,我们提出了一种新颖又简单的{\ bf d} isCriminator {\ bf g} uided {\ bf l}用于压缩vanilla {\ bf gaN}的折射方法,称为{\ bf dgl-gan}。受到教师歧视者可能包含一些有意义信息的现象的动机,我们通过对抗函数从教师歧视者转移知识。我们展示DGL-GAN自体虚拟性有效,从教师歧视者学习可以促进学生会的表现,通过广泛的实验结果验证。此外,我们提出了一个两级培训DGL-GAN的培训策略,当我们申请DGL-GAN来压缩两种最具代表性大规模的Vanilla Gans时,可以大大稳定其培训过程并实现卓越的性能。 。实验表明,DGL-GAN实现了最先进的(SOTA)在STYLAG2(FFHQ上的FID 2.92上有近1/3 $参数的FFH3)和Biggan(93.29和FID 9.92,在想象中有近1美元/ Biggan的4 $参数)并优于几种现有的香草GAN压缩技术。此外,DGL-GAN也有效地提高了原始未压缩的GAN的性能,原始未压缩的风格2升高的DGL-GAN促进了FFHQ的FID 2.65,这实现了新的最先进的性能。代码和模型可用于\ url {https://github.com/yuesongtian/dgl-gan}。
translated by 谷歌翻译
A machine learning model, under the influence of observed or unobserved confounders in the training data, can learn spurious correlations and fail to generalize when deployed. For image classifiers, augmenting a training dataset using counterfactual examples has been empirically shown to break spurious correlations. However, the counterfactual generation task itself becomes more difficult as the level of confounding increases. Existing methods for counterfactual generation under confounding consider a fixed set of interventions (e.g., texture, rotation) and are not flexible enough to capture diverse data-generating processes. Given a causal generative process, we formally characterize the adverse effects of confounding on any downstream tasks and show that the correlation between generative factors (attributes) can be used to quantitatively measure confounding between generative factors. To minimize such correlation, we propose a counterfactual generation method that learns to modify the value of any attribute in an image and generate new images given a set of observed attributes, even when the dataset is highly confounded. These counterfactual images are then used to regularize the downstream classifier such that the learned representations are the same across various generative factors conditioned on the class label. Our method is computationally efficient, simple to implement, and works well for any number of generative factors and confounding variables. Our experimental results on both synthetic (MNIST variants) and real-world (CelebA) datasets show the usefulness of our approach.
translated by 谷歌翻译
知识蒸馏(KD)是一种有效的方法,可以将知识从大型“教师”网络转移到较小的“学生”网络。传统的KD方法需要大量标记的培训样本和白盒老师(可以访问参数)才能培训好学生。但是,这些资源并不总是在现实世界应用中获得。蒸馏过程通常发生在我们无法访问大量数据的外部政党方面,并且由于安全性和隐私问题,教师没有披露其参数。为了克服这些挑战,我们提出了一种黑盒子少的KD方法,以培训学生很少的未标记培训样本和一个黑盒老师。我们的主要思想是通过使用混合和有条件的变异自动编码器生成一组不同的分布合成图像来扩展训练集。这些合成图像及其从老师获得的标签用于培训学生。我们进行了广泛的实验,以表明我们的方法在图像分类任务上明显优于最近的SOTA/零射击KD方法。代码和型号可在以下网址找到:https://github.com/nphdang/fs-bbt
translated by 谷歌翻译
Figure 1. An illustration of standard knowledge distillation. Despite widespread use, an understanding of when the student can learn from the teacher is missing.
translated by 谷歌翻译
Stylegan家族是无条件产生的最受欢迎的生成对抗网络(GAN)之一。尽管其性能令人印象深刻,但其对存储和计算的需求很高,仍阻碍了他们在资源约束设备上的部署。本文提供了对流行风格的建筑的蒸馏的全面研究。我们的关键见解是,StyleGAN蒸馏的主要挑战在于输出差异问题,在该问题中,教师和学生模型在给定相同的输入潜在代码的情况下产生不同的输出。标准知识蒸馏损失通常在这种异质蒸馏场景下失败。我们对此差异问题的原因和影响进行彻底分析,并确定映射网络在确定生成图像的语义信息中起着至关重要的作用。基于这一发现,我们为学生模型提出了一种新颖的初始化策略,该策略可以确保最大程度的输出一致性。为了进一步增强教师和学生模型之间的语义一致性,我们提出了基于潜在的蒸馏损失,可保留潜在空间中的语义关系。广泛的实验证明了我们的方法在蒸馏式stylegan2和stylegan3中的有效性,超过了现有的gan蒸馏方法。
translated by 谷歌翻译
随着脑成像技术和机器学习工具的出现,很多努力都致力于构建计算模型来捕获人脑中的视觉信息的编码。最具挑战性的大脑解码任务之一是通过功能磁共振成像(FMRI)测量的脑活动的感知自然图像的精确重建。在这项工作中,我们调查了来自FMRI的自然图像重建的最新学习方法。我们在架构设计,基准数据集和评估指标方面检查这些方法,并在标准化评估指标上呈现公平的性能评估。最后,我们讨论了现有研究的优势和局限,并提出了潜在的未来方向。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
我们提出了一种具有多个鉴别器的生成的对抗性网络,其中每个鉴别者都专门用于区分真实数据集的子集。这种方法有助于学习与底层数据分布重合的发电机,从而减轻慢性模式崩溃问题。从多项选择学习的灵感来看,我们引导每个判别者在整个数据的子集中具有专业知识,并允许发电机在没有监督训练示例和鉴别者的数量的情况下自动找到潜伏和真实数据空间之间的合理对应关系。尽管使用多种鉴别器,但骨干网络在鉴别器中共享,并且培训成本的增加最小化。我们使用多个评估指标展示了我们算法在标准数据集中的有效性。
translated by 谷歌翻译
强大的模拟器高度降低了在培训和评估自动车辆时对真实测试的需求。数据驱动的模拟器蓬勃发展,最近有条件生成对冲网络(CGANS)的进步,提供高保真图像。主要挑战是在施加约束之后的同时合成光量造型图像。在这项工作中,我们建议通过重新思考鉴别者架构来提高所生成的图像的质量。重点是在给定对语义输入生成图像的问题类上,例如场景分段图或人体姿势。我们建立成功的CGAN模型,提出了一种新的语义感知鉴别器,更好地指导发电机。我们的目标是学习一个共享的潜在表示,编码足够的信息,共同进行语义分割,内容重建以及粗糙的粒度的对抗性推理。实现的改进是通用的,并且可以应用于任何条件图像合成的任何架构。我们展示了我们在场景,建筑和人类综合任务上的方法,跨越三个不同的数据集。代码可在https://github.com/vita-epfl/semdisc上获得。
translated by 谷歌翻译