深度神经网络已迅速成为人脸识别(FR)的主流方法。但是,这限制了这些模型的部署,该模型包含了嵌入式和低端设备的极大量参数。在这项工作中,我们展示了一个非常轻巧和准确的FR解决方案,即小组装。我们利用神经结构搜索开发一个新的轻量级脸部架构。我们还提出了一种基于知识蒸馏(KD)的新型培训范式,该培训范式是多步KD,其中知识从教师模型蒸馏到学生模型的培训成熟日的不同阶段。我们进行了详细的消融研究,证明了使用NAS为FR的特定任务而不是一般对象分类的理智,以及我们提出的多步KD的益处。我们对九种不同基准的最先进(SOTA)紧凑型FR模型提供了广泛的实验评估和比较,包括IJB-B,IJB-C和Megaface等大规模评估基准。在考虑相同水平的模型紧凑性时,Pocketnets在九个主流基准上始终如一地推进了SOTA FR性能。使用0.92M参数,我们最小的网络PocketNets-128对最近的SOTA压缩型号实现了非常竞争力的结果,该模型包含多达4M参数。
translated by 谷歌翻译
全球Covid-19大流行的出现会给生物识别技术带来新的挑战。不仅是非接触式生物识别选项变得更加重要,而且最近也遇到了频繁的面具的面对面识别。这些掩模会影响前面识别系统的性能,因为它们隐藏了重要的身份信息。在本文中,我们提出了一种掩模不变的面部识别解决方案(MaskInv),其利用训练范例内的模板级知识蒸馏,其旨在产生类似于相同身份的非掩盖面的掩模面的嵌入面。除了蒸馏知识外,学生网络还通过基于边缘的身份分类损失,弹性面,使用遮蔽和非蒙面面的额外指导。在两个真正蒙面面部数据库和具有合成面具的五个主流数据库的逐步消融研究中,我们证明了我们的maskinV方法的合理化。我们所提出的解决方案优于先前的最先进(SOTA)在最近的MFRC-21挑战中的学术解决方案,屏蔽和屏蔽VS非屏蔽,并且还优于MFR2数据集上的先前解决方案。此外,我们证明所提出的模型仍然可以在缺陷的面上表现良好,只有在验证性能下的少量损失。代码,培训的模型以及合成屏蔽数据的评估协议是公开的:https://github.com/fdbtrs/masked-face-recognition-kd。
translated by 谷歌翻译
深度学习的面部识别模型通过利用具有较高计算成本的完整精确浮点网络来遵循深神经网络的共同趋势。由于完整的模型所需的大量内存,将这些网络部署在受计算需求约束的用例中通常是不可行的。以前的紧凑型面部识别方法提议设计特殊的紧凑型建筑并使用真实的培训数据从头开始训练它们,由于隐私问题,在现实世界中可能无法使用。我们在这项工作中介绍了基于低位精度格式模型量化的定量解决方案。 Quantface降低了现有面部识别模型所需的计算成本,而无需设计特定的体系结构或访问真实的培训数据。 Quantface将隐私友好的合成面数据引入量化过程中,以减轻潜在的隐私问题和与真实培训数据有关的问题。通过对七个基准和四个网络体系结构进行的广泛评估实验,我们证明了Quantface可以成功地将模型大小降低到5倍,同时在很大程度上维护完整模型的验证性能而无需访问真实的培训数据集。
translated by 谷歌翻译
深度学习技术在各种任务中都表现出了出色的有效性,并且深度学习具有推进多种应用程序(包括在边缘计算中)的潜力,其中将深层模型部署在边缘设备上,以实现即时的数据处理和响应。一个关键的挑战是,虽然深层模型的应用通常会产生大量的内存和计算成本,但Edge设备通常只提供非常有限的存储和计算功能,这些功能可能会在各个设备之间差异很大。这些特征使得难以构建深度学习解决方案,以释放边缘设备的潜力,同时遵守其约束。应对这一挑战的一种有希望的方法是自动化有效的深度学习模型的设计,这些模型轻巧,仅需少量存储,并且仅产生低计算开销。该调查提供了针对边缘计算的深度学习模型设计自动化技术的全面覆盖。它提供了关键指标的概述和比较,这些指标通常用于量化模型在有效性,轻度和计算成本方面的水平。然后,该调查涵盖了深层设计自动化技术的三类最新技术:自动化神经体系结构搜索,自动化模型压缩以及联合自动化设计和压缩。最后,调查涵盖了未来研究的开放问题和方向。
translated by 谷歌翻译
面部图像的质量显着影响底层识别算法的性能。面部图像质量评估(FIQA)估计捕获的图像的效用在实现可靠和准确的识别性能方面。在这项工作中,我们提出了一种新的学习范式,可以在培训过程中学习内部网络观察。基于此,我们所提出的CR-FiQA使用该范例来通过预测其相对分类性来估计样品的面部图像质量。基于关于其类中心和最近的负类中心的角度空间中的训练样本特征表示来测量该分类性。我们通过实验说明了面部图像质量与样本相对分类性之间的相关性。由于此类属性仅为培训数据集可观察到,因此我们建议从培训数据集中学习此属性,并利用它来预测看不见样品的质量措施。该培训同时执行,同时通过用于面部识别模型训练的角度裕度罚款的软墨损失来优化类中心。通过对八个基准和四个面部识别模型的广泛评估实验,我们展示了我们提出的CR-FiQA在最先进(SOTA)FIQ算法上的优越性。
translated by 谷歌翻译
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.
translated by 谷歌翻译
在NAS领域中,可分构造的架构搜索是普遍存在的,因为它的简单性和效率,其中两个范例,多路径算法和单路径方法主导。多路径框架(例如,DARTS)是直观的,但遭受内存使用和培训崩溃。单路径方法(例如,e.g.gdas和proxylesnnas)减轻了内存问题并缩小了搜索和评估之间的差距,但牺牲了性能。在本文中,我们提出了一种概念上简单的且有效的方法来桥接这两个范式,称为相互意识的子图可差架构搜索(MSG-DAS)。我们框架的核心是一个可分辨动的Gumbel-Topk采样器,它产生多个互斥的单路径子图。为了缓解多个子图形设置所带来的Severer Skip-Connect问题,我们提出了一个Dropblock-Identity模块来稳定优化。为了充分利用可用的型号(超级网和子图),我们介绍了一种记忆高效的超净指导蒸馏,以改善培训。所提出的框架击中了灵活的内存使用和搜索质量之间的平衡。我们展示了我们在想象中和CIFAR10上的方法的有效性,其中搜索的模型显示了与最近的方法相当的性能。
translated by 谷歌翻译
由于使用较大的模型,最先进的深度学习导致深度学习一直在改善。然而,广泛的使用受到设备硬件限制的约束,导致最先进的模型与可以在小型设备上有效部署的模型之间的实质性差距。虽然知识蒸馏(KD)理论上使小型学生模型能够模拟更大的教师模型,在实践中选择良好的学生架构需要相当大的人类专业知识。神经结构搜索(NAS)出现在这个问题的自然解决方案中,但大多数方法可以效率低下,因为大多数计算都花费了比较了从相同分布采样的架构,性能差异可忽略不计。在本文中,我们建议寻找一系列学生架构,分享从给定老师擅长学习的财产。我们的方法Autokd由贝叶斯优化支持,探讨了一个灵活的基于图形的搜索空间,使我们能够自动学习最佳学生架构分布和KD参数,而与现有的最先进相比,效率更高。我们在3个数据集中评估我们的方法;在大型图像上专门地,我们在使用3倍的内存时达到教师性能和10倍的参数。最后,虽然Autokd使用传统的KD丢失,但它使用手工设计的学生更优先地表达更先进的KD变体。
translated by 谷歌翻译
Conventional neural architecture search (NAS) approaches are based on reinforcement learning or evolutionary strategy, which take more than 3000 GPU hours to find a good model on CIFAR-10. We propose an efficient NAS approach learning to search by gradient descent. Our approach represents the search space as a directed acyclic graph (DAG). This DAG contains billions of sub-graphs, each of which indicates a kind of neural architecture. To avoid traversing all the possibilities of the sub-graphs, we develop a differentiable sampler over the DAG. This sampler is learnable and optimized by the validation loss after training the sampled architecture. In this way, our approach can be trained in an end-to-end fashion by gradient descent, named Gradient-based search using Differentiable Architecture Sampler (GDAS). In experiments, we can finish one searching procedure in four GPU hours on CIFAR-10, and the discovered model obtains a test error of 2.82% with only 2.5M parameters, which is on par with the state-of-the-art. Code is publicly available on GitHub: https://github.com/D-X-Y/NAS-Projects.
translated by 谷歌翻译
学习歧视性面部特征在建立高性能面部识别模型方面发挥着重要作用。最近的最先进的面部识别解决方案,提出了一种在常用的分类损失函数,Softmax损失中纳入固定的惩罚率,通过最大限度地减少级别的变化来增加面部识别模型的辨别力并最大化级别的帧间变化。边缘惩罚Softmax损失,如arcFace和Cosface,假设可以使用固定的惩罚余量同样地学习不同身份之间的测地距。然而,这种学习目标对于具有不一致的间帧内变化的真实数据并不是现实的,这可能限制了面部识别模型的判别和概括性。在本文中,我们通过提出弹性罚款损失(弹性面)来放松固定的罚款边缘约束,这允许在推动阶级可分离性中灵活性。主要思想是利用从每个训练迭代中的正常分布中汲取的随机保证金值。这旨在提供决策边界机会,以提取和缩回,以允许灵活的类别可分离学习的空间。我们展示了在大量主流基准上使用相同的几何变换,展示了我们的弹性面损失和COSFace损失的优势。从更广泛的角度来看,我们的弹性面在九个主流基准中提出了最先进的面部识别性能。
translated by 谷歌翻译
One of the most efficient methods for model compression is hint distillation, where the student model is injected with information (hints) from several different layers of the teacher model. Although the selection of hint points can drastically alter the compression performance, conventional distillation approaches overlook this fact and use the same hint points as in the early studies. Therefore, we propose a clustering based hint selection methodology, where the layers of teacher model are clustered with respect to several metrics and the cluster centers are used as the hint points. Our method is applicable for any student network, once it is applied on a chosen teacher network. The proposed approach is validated in CIFAR-100 and ImageNet datasets, using various teacher-student pairs and numerous hint distillation methods. Our results show that hint points selected by our algorithm results in superior compression performance compared to state-of-the-art knowledge distillation algorithms on the same student models and datasets.
translated by 谷歌翻译
深度学习取得了面部识别基准的出色性能,但是对于低分辨率(LR)图像,性能大大降低了。我们提出了一种注意力相似性知识蒸馏方法,该方法将作为教师的高分辨率(HR)网络获得的注意图转移到LR网络中,以提高LR识别性能。受到人类能够基于从HR图像获得的先验知识近似物体区域的人类的启发,我们设计了使用余弦相似性的知识蒸馏损失,以使学生网络的注意力类似于教师网络的注意力。在各种LR面部相关的基准上进行的实验证实了所提出的方法通常改善了LR设置上的识别性能,通过简单地传输良好的注意力图来优于最先进的结果。 https://github.com/gist-ailab/teaching-where-where-to-look在https://github.com/github.com/github.com/phis-look中公开可用。
translated by 谷歌翻译
现有的光流估计器通常采用通常用于图像分类的网络体系结构作为提取人均功能的编码器。但是,由于任务之间的自然差异,用于图像分类的架构可能是最佳的流量估计。为了解决此问题,我们建议一种名为Falownas的神经体系结构搜索方法,以自动找到用于流估计任务的更好的编码器体系结构。我们首先设计一个合适的搜索空间,包括各种卷积运算符,并构建一个体重共享的超级网络,以有效评估候选体系结构。然后,为了更好地训练超级网络,我们提出了特征对齐蒸馏,该蒸馏利用训练有素的流量估计器来指导超级网络的训练。最后,利用资源约束的进化算法找到最佳体系结构(即子网络)。实验结果表明,从超级网络继承的权重的发现的结构达到了4.67 \%f1-able kitti上的误差,这是RAFT基线的8.4 \%降低,超过了先进的手工制作的型号GMA和AGFlow,同时降低模型的复杂性和延迟。源代码和训练有素的模型将在https://github.com/vdigpku/flownas中发布。
translated by 谷歌翻译
Although considerable progress has been obtained in neural network quantization for efficient inference, existing methods are not scalable to heterogeneous devices as one dedicated model needs to be trained, transmitted, and stored for one specific hardware setting, incurring considerable costs in model training and maintenance. In this paper, we study a new vertical-layered representation of neural network weights for encapsulating all quantized models into a single one. With this representation, we can theoretically achieve any precision network for on-demand service while only needing to train and maintain one model. To this end, we propose a simple once quantization-aware training (QAT) scheme for obtaining high-performance vertical-layered models. Our design incorporates a cascade downsampling mechanism which allows us to obtain multiple quantized networks from one full precision source model by progressively mapping the higher precision weights to their adjacent lower precision counterparts. Then, with networks of different bit-widths from one source model, multi-objective optimization is employed to train the shared source model weights such that they can be updated simultaneously, considering the performance of all networks. By doing this, the shared weights will be optimized to balance the performance of different quantized models, thus making the weights transferable among different bit widths. Experiments show that the proposed vertical-layered representation and developed once QAT scheme are effective in embodying multiple quantized networks into a single one and allow one-time training, and it delivers comparable performance as that of quantized models tailored to any specific bit-width. Code will be available.
translated by 谷歌翻译
深度学习的巨大成功主要是由于大规模的网络架构和高质量的培训数据。但是,在具有有限的内存和成像能力的便携式设备上部署最近的深层模型仍然挑战。一些现有的作品通过知识蒸馏进行了压缩模型。不幸的是,这些方法不能处理具有缩小图像质量的图像,例如低分辨率(LR)图像。为此,我们采取了开创性的努力,从高分辨率(HR)图像到达将处理LR图像的紧凑型网络模型中学习的繁重网络模型中蒸馏有用的知识,从而推动了新颖的像素蒸馏的当前知识蒸馏技术。为实现这一目标,我们提出了一名教师助理 - 学生(TAS)框架,将知识蒸馏分解为模型压缩阶段和高分辨率表示转移阶段。通过装备新颖的特点超分辨率(FSR)模块,我们的方法可以学习轻量级网络模型,可以实现与重型教师模型相似的准确性,但参数更少,推理速度和较低分辨率的输入。在三个广泛使用的基准,\即,幼崽200-2011,Pascal VOC 2007和ImageNetsub上的综合实验证明了我们方法的有效性。
translated by 谷歌翻译
与其他基于架构的NAS方法不同,广泛的神经结构搜索(BNA)提出了一个广泛的,它由卷积和增强块组成,被称为广泛的卷积神经网络(BCNN)作为搜索空间,以惊人的效率改进。 BCNN重用卷积块中的单元格的拓扑,使得BNA可以使用很少的小区以获得有效的搜索。此外,提出了多尺度特征融合和知识嵌入,以提高BCNN具有浅层拓扑的性能。然而,BNA遭受了一些缺点:1)特征融合和增强的代表性多样性不足,2)人类专家对知识嵌入设计的耗时。在本文中,我们提出了堆叠的BNA,其搜索空间是名为堆叠BCNN的开发的广泛可扩展架构,性能比BNA更好。一方面,堆叠的BCNN将Mini-BCNN视为保存综合表示的基本块,并提供强大的特征提取能力。另一方面,我们提出了知识嵌入搜索(KES)来学习适当的知识嵌入。实验结果表明,1)堆叠的BNA获得比BNA,2)KES有助于降低具有令人满意的性能的学习架构参数,3)堆叠BNA可提供0.02 GPU天的最新效率。
translated by 谷歌翻译
嵌入大而冗余的数据,例如图像或文本,在较低维空间的层次结构中是表示方法的关键特征之一,如今,这些特征是一旦相信困难或不可能的问题,这些方法就可以为问题提供最新的解决方案解决。在这项工作中,在具有强大元回味的情节扭转中,我们展示了受过训练的深层模型与它们优化的数据一样多余,因此如何使用深度学习模型来嵌入深度学习模型。特别是,我们表明可以使用表示形式学习来学习经过训练的深层模型的固定大小,低维的嵌入空间,并且可以通过插值或优化来探索此类空间,以实现现成的模型。我们发现,可以学习相同体系结构和多个体系结构的多个实例的嵌入空间。我们解决了信号的图像分类和神经表示,表明如何学习我们的嵌入空间,以分别捕获性能和3D形状的概念。在多架结构的环境中,我们还展示了仅在架构子集中训练的嵌入方式如何才能学会生成已经训练的架构实例,从未在培训时看到实例化。
translated by 谷歌翻译
可区分的架构搜索(飞镖)大大促进了NAS技术的发展,因为其搜索效率很高,但遭受了性能崩溃的影响。在本文中,我们努力从两个方面减轻飞镖的性能崩溃问题。首先,我们研究了飞镖中超级网的表达能力,然后仅使用训练batchnorm来得出新的飞镖范式设置。其次,从理论上讲,随机特征稀释了跳过连接在超网优化中的辅助连接作用,并使搜索算法专注于更公平的操作选择,从而解决了性能崩溃问题。我们具有随机功能的实例化飞镖和PC-Darts,分别为每个命名的RF-Darts和RF-PCDART构建一个改进的版本。实验结果表明,RF-darts在CIFAR-10上获得\ TextBf {94.36 \%}测试精度(这是NAS Bench-201的最接近最佳结果),并实现了最新的最新最先进的TOP-1从CIFAR-10传输时,ImageNet上\ TextBf {24.0 \%}的测试错误。此外,RF-DARTS在三个数据集(CIFAR-10,CIFAR-100和SVHN)和四个搜索空间(S1-S4)上进行稳健性能。此外,RF-PCDARTS在Imagenet上取得了更好的结果,即\ textbf {23.9 \%} top-1和\ textbf {7.1 \%} top-5 top-5测试错误,超越了代表性的方法,例如单路径,训练免费, ,直接在Imagenet上搜索部分通道范例。
translated by 谷歌翻译
分解表示形式通常被用于年龄不变的面部识别(AIFR)任务。但是,这些方法已经达到了一些局限性,(1)具有年龄标签的大规模面部识别(FR)培训数据的要求,这在实践中受到限制; (2)高性能的重型深网架构; (3)他们的评估通常是在与年龄相关的面部数据库上进行的,同时忽略了标准的大规模FR数据库以确保鲁棒性。这项工作提出了一种新颖的轻巧的角度蒸馏(LIAAD)方法,用于克服这些限制的大规模轻量级AIFR。鉴于两个具有不同专业知识的教师,LIAAD引入了学习范式,以有效地提炼老年人的专注和棱角分明的知识,从这些老师到轻量级的学生网络,使其更强大,以更高的fr准确性和稳健的年龄,从而有效地提炼了一个学习范式因素。因此,LIAAD方法能够采用带有和不具有年龄标签的两个FR数据集的优势来训练AIFR模型。除了先前的蒸馏方法主要关注封闭设置问题中的准确性和压缩比,我们的LIAAD旨在解决开放式问题,即大规模的面部识别。对LFW,IJB-B和IJB-C Janus,AgeDB和Megaface-Fgnet的评估证明了拟议方法在轻重量结构上的效率。这项工作还提出了一个新的纵向面部衰老(Logiface)数据库\ footNote {将提供该数据库},以进一步研究未来与年龄相关的面部问题。
translated by 谷歌翻译
在线知识蒸馏会在所有学生模型之间进行知识转移,以减轻对预培训模型的依赖。但是,现有的在线方法在很大程度上依赖于预测分布并忽略了代表性知识的进一步探索。在本文中,我们提出了一种用于在线知识蒸馏的新颖的多尺度功能提取和融合方法(MFEF),其中包括三个关键组成部分:多尺度功能提取,双重注意和功能融合,以生成更有信息的特征图,以用于蒸馏。提出了在通道维度中的多尺度提取利用分界线和catenate,以提高特征图的多尺度表示能力。为了获得更准确的信息,我们设计了双重注意,以适应重要的渠道和空间区域。此外,我们通过功能融合来汇总并融合了以前的处理功能地图,以帮助培训学生模型。关于CIF AR-10,CIF AR-100和Cinic-10的广泛实验表明,MFEF转移了更有益的代表性知识,以蒸馏和胜过各种网络体系结构之间的替代方法
translated by 谷歌翻译