在过去的十年中,需要执行复杂机器学习模型的计算资源的移动机器人数量一直在增加。通常,这些机器人依靠在无线通信上访问的边缘基础架构来执行重型计算复杂任务。但是,边缘可能会变得不可用,因此,迫使机器人执行任务。这项工作着重于通过减少预训练的计算机视觉模型的复杂性和参数总数来执行机器人上的任务。这是通过使用模型压缩技术(例如修剪和知识蒸馏)来实现的。这些压缩技术具有强大的理论和实用基础,但是在文献中并未广泛探索它们的合并用法。因此,这项工作尤其着重于研究结合这两种压缩技术的影响。这项工作的结果表明,可以删除计算机视觉模型参数总数的90%,而不会大幅度降低该模型的准确性。
translated by 谷歌翻译
诸如智能手机和自治车辆的移动设备越来越依赖深神经网络(DNN)来执行复杂的推理任务,例如图像分类和语音识别等。但是,在移动设备上连续执行整个DNN可以快速消耗其电池。虽然任务卸载到云/边缘服务器可能会降低移动设备的计算负担,但信道质量,网络和边缘服务器负载中的不稳定模式可能导致任务执行的显着延迟。最近,已经提出了基于分割计算(SC)的方法,其中DNN被分成在移动设备上和边缘服务器上执行的头部和尾模型。最终,这可能会降低带宽使用以及能量消耗。另一种叫做早期退出(EE)的方法,列车模型在架构中呈现多个“退出”,每个都提供越来越高的目标准确性。因此,可以根据当前条件或应用需求进行准确性和延迟之间的权衡。在本文中,我们通过呈现最相关方法的比较,对SC和EE策略进行全面的综合调查。我们通过提供一系列引人注目的研究挑战来结束论文。
translated by 谷歌翻译
One of the most efficient methods for model compression is hint distillation, where the student model is injected with information (hints) from several different layers of the teacher model. Although the selection of hint points can drastically alter the compression performance, conventional distillation approaches overlook this fact and use the same hint points as in the early studies. Therefore, we propose a clustering based hint selection methodology, where the layers of teacher model are clustered with respect to several metrics and the cluster centers are used as the hint points. Our method is applicable for any student network, once it is applied on a chosen teacher network. The proposed approach is validated in CIFAR-100 and ImageNet datasets, using various teacher-student pairs and numerous hint distillation methods. Our results show that hint points selected by our algorithm results in superior compression performance compared to state-of-the-art knowledge distillation algorithms on the same student models and datasets.
translated by 谷歌翻译
机器学习中的知识蒸馏是将知识从名为教师的大型模型转移到一个名为“学生”的较小模型的过程。知识蒸馏是将大型网络(教师)压缩到较小网络(学生)的技术之一,该网络可以部署在手机等小型设备中。当教师和学生之间的网络规模差距增加时,学生网络的表现就会下降。为了解决这个问题,在教师模型和名为助教模型的学生模型之间采用了中间模型,这反过来弥补了教师与学生之间的差距。在这项研究中,我们已经表明,使用多个助教模型,可以进一步改进学生模型(较小的模型)。我们使用加权集合学习将这些多个助教模型组合在一起,我们使用了差异评估优化算法来生成权重值。
translated by 谷歌翻译
Despite significant accuracy improvement in convolutional neural networks (CNN) based object detectors, they often require prohibitive runtimes to process an image for real-time applications. State-of-the-art models often use very deep networks with a large number of floating point operations. Efforts such as model compression learn compact models with fewer number of parameters, but with much reduced accuracy. In this work, we propose a new framework to learn compact and fast object detection networks with improved accuracy using knowledge distillation [20] and hint learning [34]. Although knowledge distillation has demonstrated excellent improvements for simpler classification setups, the complexity of detection poses new challenges in the form of regression, region proposals and less voluminous labels. We address this through several innovations such as a weighted cross-entropy loss to address class imbalance, a teacher bounded loss to handle the regression component and adaptation layers to better learn from intermediate teacher distributions. We conduct comprehensive empirical evaluation with different distillation configurations over multiple datasets including PASCAL, KITTI, ILSVRC and MS-COCO. Our results show consistent improvement in accuracy-speed trade-offs for modern multi-class detection models.
translated by 谷歌翻译
基于变压器的NLP模型是使用数亿甚至数十亿个参数训练的,从而限制了其在计算受限环境中的适用性。尽管参数的数量通常与性能相关,但尚不清楚下游任务是否需要整个网络。在最新的修剪和提炼预培训模型的工作中,我们探索了在预训练模型中放下层的策略,并观察修剪对下游胶水任务的影响。我们能够修剪Bert,Roberta和XLNet型号高达40%,同时保持其原始性能的98%。此外,我们证明,在大小和性能方面,您的修剪模型与使用知识蒸馏的型号相提并论。我们的实验产生有趣的观察结果,例如(i)下层对于维持下游任务性能最重要,(ii)某些任务(例如释义检测和句子相似性)对于降低层的降低和(iii)经过训练的模型更强大。使用不同的目标函数表现出不同的学习模式,并且层掉落。
translated by 谷歌翻译
作为模型压缩的一种有前途的方法,知识蒸馏通过从繁琐的知识转移知识来改善紧凑模型的性能。用于指导学生培训的知识很重要。语义分割中的先前蒸馏方法努力从这些特征中提取各种形式的知识,涉及依靠先前信息并具有有限的性能提高的精心手动设计。在本文中,我们提出了一种称为标准化功能蒸馏(NFD)的简单而有效的特征蒸馏方法,旨在实现原始功能的有效蒸馏,而无需手动设计新的知识形式。关键的想法是防止学生专注于模仿通过归一化的教师特征响应的幅度。我们的方法可获得有关CityScapes,VOC 2012和ADE20K数据集的语义细分的最新蒸馏结果。代码将可用。
translated by 谷歌翻译
深度神经网络(DNN)已成为移动和嵌入式系统中的普遍存在的技术,用于图像/对象识别和分类。执行多个DNN的趋势同时加剧了资源受限移动设备上满足严格延迟/准确性要求的现有限制。现有技术通过根据资源动态缩放模型大小来探索精度资源权衡的光。然而,这种模型缩放方法接近迫在眉睫的挑战:(i)模型尺寸的大空间探索,(ii)对不同模型组合的培训时间非常长。在本文中,我们介绍了Legodnn,一种用于在移动视觉系统中运行多DNN工作负载的轻质块粒度缩放解决方案。 Legodnn仅通过在DNN中提取和培训少数常见块(例如,在VGG和RENET中的VGG和8中的8中)来保证短模型培训时间。在运行时,Legodnn最佳地结合了这些块的后代模型,以最大限度地在特定资源和延迟约束下最大限度地提高精度,同时通过DNN的智能块级缩放来降低切换开销。我们在Tensorflow Lite中实现Legodnn,并通过一组普遍的DNN模型,广泛地评估了最先进的技术(浮标缩放,知识蒸馏和模型压缩)。评估结果表明,乐高达在模型尺寸下提供了1,296倍至279,936倍,而在不增加训练时间的情况下,推断准确性的提高高达31.74%,降低缩放能耗减少了71.07%。
translated by 谷歌翻译
While machine learning is traditionally a resource intensive task, embedded systems, autonomous navigation, and the vision of the Internet of Things fuel the interest in resource-efficient approaches. These approaches aim for a carefully chosen trade-off between performance and resource consumption in terms of computation and energy. The development of such approaches is among the major challenges in current machine learning research and key to ensure a smooth transition of machine learning technology from a scientific environment with virtually unlimited computing resources into everyday's applications. In this article, we provide an overview of the current state of the art of machine learning techniques facilitating these real-world requirements. In particular, we focus on deep neural networks (DNNs), the predominant machine learning models of the past decade. We give a comprehensive overview of the vast literature that can be mainly split into three non-mutually exclusive categories: (i) quantized neural networks, (ii) network pruning, and (iii) structural efficiency. These techniques can be applied during training or as post-processing, and they are widely used to reduce the computational demands in terms of memory footprint, inference speed, and energy efficiency. We also briefly discuss different concepts of embedded hardware for DNNs and their compatibility with machine learning techniques as well as potential for energy and latency reduction. We substantiate our discussion with experiments on well-known benchmark datasets using compression techniques (quantization, pruning) for a set of resource-constrained embedded systems, such as CPUs, GPUs and FPGAs. The obtained results highlight the difficulty of finding good trade-offs between resource efficiency and predictive performance.
translated by 谷歌翻译
由于其事件驱动的计算,尖峰神经网络(SNN)已成为常规人工神经网络(ANN)的节能替代方案。考虑到SNN模型的未来部署到限制神经形态设备上,许多研究应用了最初用于ANN模型压缩的技术,例如网络量化,修剪和知识蒸馏,用于SNN。其中,关于知识蒸馏的现有作品报告了学生SNN模型的准确性提高。但是,对能源效率的分析也是SNN的重要特征。在本文中,我们从准确性和能源效率方面彻底分析了蒸馏SNN模型的性能。在此过程中,我们观察到使用常规知识蒸馏方法时,尖峰数量大幅增加,导致能量效率低下。基于此分析,为了达到能源效率,我们提出了一种具有异质温度参数的新知识蒸馏方法。我们在两个不同的数据集上评估我们的方法,并表明由此产生的SNN学生满足了尖峰数量的准确性和减少。在MNIST数据集上,我们提议的学生SNN的精度高达0.09%,与接受常规知识蒸馏方法的学生SNN相比,SNN的峰值降低了65%。我们还将结果与其他SNN压缩技术和训练方法进行了比较。
translated by 谷歌翻译
深度神经网络近似高度复杂功能的能力是其成功的关键。但是,这种好处是以巨大的模型大小为代价的,这挑战了其在资源受限环境中的部署。修剪是一种用于限制此问题的有效技术,但通常以降低准确性和对抗性鲁棒性为代价。本文解决了这些缺点,并引入了Deadwooding,这是一种新型的全球修剪技术,它利用了Lagrangian双重方法来鼓励模型稀疏性,同时保持准确性并确保鲁棒性。所得模型显示出在鲁棒性和准确性度量方面的最先进研究大大优于最先进的模型。
translated by 谷歌翻译
在实现最先进的性能和在实际应用中负担得起的大型模型之间,计算机视觉的差异越来越大。在本文中,我们解决了这个问题,并显着弥合了这两种模型之间的差距。在我们的实证研究中,我们不一定要提出一种新方法,而是要努力确定一个可靠的有效食谱,以使最先进的大型模型在实践中负担得起。我们证明,当正确执行时,知识蒸馏可以成为减少大型尺寸而不损害其性能的强大工具。特别是,我们发现存在某些隐式设计选择,这可能会严重影响蒸馏的有效性。我们的关键贡献是对这些设计选择的明确识别,这些选择以前在文献中尚未阐明。我们通过一项全面的实证研究备份了我们的发现,在广泛的视觉数据集上展示了令人信服的结果,尤其是获得了最先进的Imagenet Resnet-50模型,该模型可实现82.8%的Top-1准确性。 。
translated by 谷歌翻译
深度学习技术在各种任务中都表现出了出色的有效性,并且深度学习具有推进多种应用程序(包括在边缘计算中)的潜力,其中将深层模型部署在边缘设备上,以实现即时的数据处理和响应。一个关键的挑战是,虽然深层模型的应用通常会产生大量的内存和计算成本,但Edge设备通常只提供非常有限的存储和计算功能,这些功能可能会在各个设备之间差异很大。这些特征使得难以构建深度学习解决方案,以释放边缘设备的潜力,同时遵守其约束。应对这一挑战的一种有希望的方法是自动化有效的深度学习模型的设计,这些模型轻巧,仅需少量存储,并且仅产生低计算开销。该调查提供了针对边缘计算的深度学习模型设计自动化技术的全面覆盖。它提供了关键指标的概述和比较,这些指标通常用于量化模型在有效性,轻度和计算成本方面的水平。然后,该调查涵盖了深层设计自动化技术的三类最新技术:自动化神经体系结构搜索,自动化模型压缩以及联合自动化设计和压缩。最后,调查涵盖了未来研究的开放问题和方向。
translated by 谷歌翻译
高性能深神经网络(DNN)的系统在边缘环境中的需求量很高。由于其较高的计算复杂性,在严格限制计算资源的边缘设备上部署DNN是一项挑战。在本文中,我们通过结合最近备份的参数还原技术来得出一个紧凑的DNN模型,称为DSODENET:神经ODE(普通微分方程)和DSC(可分开的卷积)。 Neural Ode利用了Resnet和Ode之间的相似性,并在多层之间共享重量参数的大部分,这大大降低了内存消耗。我们将dsodeNet应用于域适应性,作为与图像分类数据集的实际用例。我们还为dsodeNet提出了一种基于资源的FPGA设计,其中所有参数和特征地图除了预处理和后处理层外,都可以映射到芯片上的记忆中。它是在Xilinx ZCU104板上实施的,并根据域的适应精度,推理速度,FPGA资源利用率和与软件对应物相比进行了评估。结果表明,与我们的基线神经ODE实施相比,DSODENET获得了可比较或稍好的域适应精度,而没有预处理和后处理层的总参数大小降低了54.2%至79.8%。我们的FPGA实施将推理速度加速23.8倍。
translated by 谷歌翻译
Convolutional neural networks have been widely deployed in various application scenarios. In order to extend the applications' boundaries to some accuracy-crucial domains, researchers have been investigating approaches to boost accuracy through either deeper or wider network structures, which brings with them the exponential increment of the computational and storage cost, delaying the responding time.In this paper, we propose a general training framework named self distillation, which notably enhances the performance (accuracy) of convolutional neural networks through shrinking the size of the network rather than aggrandizing it. Different from traditional knowledge distillation -a knowledge transformation methodology among networks, which forces student neural networks to approximate the softmax layer outputs of pre-trained teacher neural networks, the proposed self distillation framework distills knowledge within network itself. The networks are firstly divided into several sections. Then the knowledge in the deeper portion of the networks is squeezed into the shallow ones. Experiments further prove the generalization of the proposed self distillation framework: enhancement of accuracy at average level is 2.65%, varying from 0.61% in ResNeXt as minimum to 4.07% in VGG19 as maximum. In addition, it can also provide flexibility of depth-wise scalable inference on resource-limited edge devices. Our codes will be released on github soon.
translated by 谷歌翻译
State-of-the-art performance for many emerging edge applications is achieved by deep neural networks (DNNs). Often, these DNNs are location and time sensitive, and the parameters of a specific DNN must be delivered from an edge server to the edge device rapidly and efficiently to carry out time-sensitive inference tasks. In this paper, we introduce AirNet, a novel training and transmission method that allows efficient wireless delivery of DNNs under stringent transmit power and latency constraints. We first train the DNN with noise injection to counter the wireless channel noise. Then we employ pruning to reduce the network size to the available channel bandwidth, and perform knowledge distillation from a larger model to achieve satisfactory performance, despite pruning. We show that AirNet achieves significantly higher test accuracy compared to digital alternatives under the same bandwidth and power constraints. The accuracy of the network at the receiver also exhibits graceful degradation with channel quality, which reduces the requirement for accurate channel estimation. We further improve the performance of AirNet by pruning the network below the available bandwidth, and using channel expansion to provide better robustness against channel noise. We also benefit from unequal error protection (UEP) by selectively expanding more important layers of the network. Finally, we develop an ensemble training approach, which trains a whole spectrum of DNNs, each of which can be used at different channel condition, resolving the impractical memory requirements.
translated by 谷歌翻译
尽管深层模型在医学图像分割中表现出了有希望的性能,但它们在很大程度上依赖大量宣布的数据,这很难访问,尤其是在临床实践中。另一方面,高准确的深层模型通常有大型模型尺寸,从而限制了它们在实际情况下的工作。在这项工作中,我们提出了一个新颖的不对称联合教师框架ACT-NET,以减轻半监督知识蒸馏的昂贵注释和计算成本的负担。我们通过共同教师网络推进教师学习的学习,以通过交替的学生和教师角色来促进从大型模型到小模型的不对称知识蒸馏,从而获得了临床就业的微小但准确的模型。为了验证我们的行动网络的有效性,我们在实验中采用了ACDC数据集进行心脏子结构分段。广泛的实验结果表明,ACT-NET的表现优于其他知识蒸馏方法,并实现无损分割性能,参数少250倍。
translated by 谷歌翻译
尽管自我监督的表示学习(SSL)受到社区的广泛关注,但最近的研究认为,当模型大小降低时,其性能将遭受悬崖的下降。当前的方法主要依赖于对比度学习来训练网络,在这项工作中,我们提出了一种简单而有效的蒸馏对比学习(Disco),以大幅度减轻问题。具体而言,我们发现主流SSL方法获得的最终嵌入包含最富有成果的信息,并建议提炼最终的嵌入,以最大程度地将教师的知识传播到轻量级模型中,通过约束学生的最后嵌入与学生的最后嵌入,以使其与该模型保持一致。老师。此外,在实验中,我们发现存在一种被称为蒸馏瓶颈的现象,并存在以扩大嵌入尺寸以减轻此问题。我们的方法在部署过程中不会向轻型模型引入任何额外的参数。实验结果表明,我们的方法在所有轻型模型上都达到了最先进的作用。特别是,当使用RESNET-101/RESNET-50用作教师教授有效网络-B0时,Imagenet上有效网络B0的线性结果非常接近Resnet-101/Resnet-50,但是有效网络B0的参数数量仅为9.4 \%/16.3 \%Resnet-101/resnet-50。代码可从https:// github获得。 com/yuting-gao/disco-pytorch。
translated by 谷歌翻译
深度学习的巨大成功主要是由于大规模的网络架构和高质量的培训数据。但是,在具有有限的内存和成像能力的便携式设备上部署最近的深层模型仍然挑战。一些现有的作品通过知识蒸馏进行了压缩模型。不幸的是,这些方法不能处理具有缩小图像质量的图像,例如低分辨率(LR)图像。为此,我们采取了开创性的努力,从高分辨率(HR)图像到达将处理LR图像的紧凑型网络模型中学习的繁重网络模型中蒸馏有用的知识,从而推动了新颖的像素蒸馏的当前知识蒸馏技术。为实现这一目标,我们提出了一名教师助理 - 学生(TAS)框架,将知识蒸馏分解为模型压缩阶段和高分辨率表示转移阶段。通过装备新颖的特点超分辨率(FSR)模块,我们的方法可以学习轻量级网络模型,可以实现与重型教师模型相似的准确性,但参数更少,推理速度和较低分辨率的输入。在三个广泛使用的基准,\即,幼崽200-2011,Pascal VOC 2007和ImageNetsub上的综合实验证明了我们方法的有效性。
translated by 谷歌翻译
在多种方式知识蒸馏研究的背景下,现有方法主要集中在唯一的学习教师最终产出问题。因此,教师网络与学生网络之间存在深处。有必要强制学生网络来学习教师网络的模态关系信息。为了有效利用从教师转移到学生的知识,采用了一种新的模型关系蒸馏范式,通过建模不同的模态之间的关系信息,即学习教师模级克矩阵。
translated by 谷歌翻译