智能论文笔记

HE-PEx: Efficient Machine Learning under Homomorphic Encryption using Pruning, Permutation and Expansion

Ehud Aharoni , Moran Baruch , Pradip Bose , Alper Buyuktosunoglu , Nir Drucker , Subhankar Pal , Tomer Pelleg , Kanthi Sarpatwar , Hayim Shaul , Omri Soceanu

分类：机器学习

2022-07-07

保存隐私的神经网络（NN）推理解决方案最近在几种提供不同的延迟带宽权衡的解决方案方面获得了重大吸引力。其中，许多人依靠同态加密（HE），这是一种对加密数据进行计算的方法。但是，与他们的明文对应物相比，他的操作即使是最先进的计划仍然很慢。修剪NN模型的参数是改善推理潜伏期的众所周知的方法。但是，在明文上下文中有用的修剪方法可能对HE案的改善几乎可以忽略不计，这在最近的工作中也证明了这一点。在这项工作中，我们提出了一套新颖的修剪方法，以减少潜伏期和记忆要求，从而将明文修剪方法的有效性带到HE中。至关重要的是，我们的建议采用两种关键技术，即。堆积模型权重的置换和扩展，使修剪能够明显更多的密封性下文并分别恢复大部分精度损失。我们证明了我们的方法在完全连接的层上的优势，其中使用最近提出的称为瓷砖张量的包装技术填充了权重，该技术允许在非相互作用模式下执行Deep NN推断。我们在各种自动编码器架构上评估了我们的方法，并证明，对于MNIST上的小均值重建损失为1.5*10^{ - 5}，我们将HE-SEAMABLE推断的内存要求和延迟减少了60％。

translated by 谷歌翻译

HeLayers: A Tile Tensors Framework for Large Neural Networks on Encrypted Data

Ehud Aharoni , Allon Adir , Moran Baruch , Nir Drucker , Gilad Ezov , Ariel Farkash , Lev Greenberg , Ramy Masalha , Guy Moshkowich , Dov Murik

分类：机器学习

2020-11-03

保留保护解决方案使公司能够在履行政府法规的同时将机密数据卸载到第三方服务。为了实现这一点，它们利用了各种密码技术，例如同性恋加密（HE），其允许对加密数据执行计算。大多数他计划以SIMD方式工作，数据包装方法可以显着影响运行时间和内存成本。找到导致最佳性能实现的包装方法是一个艰难的任务。我们提出了一种简单而直观的框架，摘要为用户提供包装决定。我们解释其底层数据结构和优化器，并提出了一种用于执行2D卷积操作的新算法。我们使用此框架来实现他友好的AlexNet版本，在三分钟内运行，比其他最先进的解决方案更快的数量级，只能使用他。

translated by 谷歌翻译

SoK: Privacy-preserving Deep Learning with Homomorphic Encryption

Robert Podschwadt , Daniel Takabi , Peizhao Hu

分类：机器学习

2021-12-23

神经网络的外包计算允许用户访问艺术模型的状态，而无需投资专门的硬件和专业知识。问题是用户对潜在的隐私敏感数据失去控制。通过同性恋加密（HE）可以在加密数据上执行计算，而不会显示其内容。在这种知识的系统化中，我们深入了解与隐私保留的神经网络相结合的方法。我们将更改分类为神经网络模型和架构，使其在他和这些变化的影响方面提供影响。我们发现众多挑战是基于隐私保留的深度学习，例如通过加密方案构成的计算开销，可用性和限制。

translated by 谷歌翻译

Secureml: A system for scalable privacy-preserving machine learning

分类：

Machine learning is widely used in practice to produce predictive models for applications such as image processing, speech and text recognition. These models are more accurate when trained on large amount of data collected from different sources. However, the massive data collection raises privacy concerns.In this paper, we present new and efficient protocols for privacy preserving machine learning for linear regression, logistic regression and neural network training using the stochastic gradient descent method. Our protocols fall in the two-server model where data owners distribute their private data among two non-colluding servers who train various models on the joint data using secure two-party computation (2PC). We develop new techniques to support secure arithmetic operations on shared decimal numbers, and propose MPC-friendly alternatives to non-linear functions such as sigmoid and softmax that are superior to prior work. We implement our system in C++. Our experiments validate that our protocols are several orders of magnitude faster than the state of the art implementations for privacy preserving linear and logistic regressions, and scale to millions of data samples with thousands of features. We also implement the first privacy preserving system for training neural networks.

translated by 谷歌翻译

FFConv: Fast Factorized Convolutional Neural Network Inference on Encrypted Data

Yuxiao Lu , Jie Lin , Chao Jin , Zhe Wang , Min Wu , Khin Mi Mi Aung , Xiaoli Li

分类：人工智能

2021-02-06

同态加密（HE），允许对加密数据（Ciphertext）进行计算，而无需首先解密，因此可以实现对云中隐私性的应用程序的安全性缓慢的卷积神经网络（CNN）推断。为了减少推理潜伏期，一种方法是将多个消息打包到单个密文中，以减少密文的数量并支持同型多态多重蓄能（HMA）操作的大量并行性。尽管HECNN的推断速度更快，但主流包装方案密集的包装（密度）和卷积包装（Convpack）仍将昂贵的旋转开销引入了昂贵的旋转开销，这延长了HECNN的推断潜伏期，以实现更深和更广泛的CNN体系结构。在本文中，我们提出了一种名为FFCONV的低级分解方法，该方法专门用于有效的密文填料，用于减少旋转台面和HMA操作。 FFCONV近似于低级分解卷积的A D X D卷积层，其中D X D低率卷积具有较少的通道，然后是1 x 1卷积以恢复通道。 D X D低级别卷积带有密度，导致旋转操作显着降低，而1 x 1卷积的旋转开销接近零。据我们所知，FFCONV是能够同时减少densepack和Convpack产生的旋转头顶的第一项工作，而无需将其他特殊块引入HECNN推理管道。与先前的Art Lola和Falcon相比，我们的方法分别将推理潜伏期降低了88％和21％，其精度在MNIST和CIFAR-10上具有可比的精度。

translated by 谷歌翻译

CryptoGCN: Fast and Scalable Homomorphically Encrypted Graph Convolutional Network Inference

Ran Ran , Nuo Xu , Wei Wang , Quan Gang , Jieming Yin , Wujie Wen

分类：人工智能 | 机器学习

2022-09-24

最近，基于云的图形卷积网络（GCN）在许多对隐私敏感的应用程序（例如个人医疗保健和金融系统）中表现出了巨大的成功和潜力。尽管在云上具有很高的推理准确性和性能，但在GCN推理中保持数据隐私，这对于这些实际应用至关重要，但仍未得到探索。在本文中，我们对此进行了初步尝试，并开发了$ \ textit {cryptogcn} $ - 基于GCN推理框架的同型加密（HE）。我们方法成功的关键是减少HE操作的巨大计算开销，这可能比明文空间中的同行高的数量级。为此，我们开发了一种方法，可以有效利用GCN推断中基质操作的稀疏性，从而大大减少计算开销。具体而言，我们提出了一种新型的AMA数据格式方法和相关的空间卷积方法，该方法可以利用复杂的图结构并在HE计算中执行有效的矩阵矩阵乘法，从而大大减少HE操作。我们还开发了一个合作式框架，该框架可以通过明智的修剪和GCN中激活模块的多项式近似来探索准确性，安全级别和计算开销之间的交易折扣。基于NTU-Xview骨架关节数据集，即，据我们所知，最大的数据集对同型的评估，我们的实验结果表明，$ \ textit {cryptogcn} $均优胜于最先进的解决方案。同构操作的延迟和数量，即在延迟上达到3.10 $ \ times $加速，并将总代态操作数量减少77.4 \％，而准确度的较小精度损失为1-1.5 $ \％$。

translated by 谷歌翻译

Resource-Efficient Neural Networks for Embedded Systems

Wolfgang Roth , Günther Schindler , Bernhard Klein , Robert Peharz , Sebastian Tschiatschek , Holger Fröning , Franz Pernkopf , Zoubin Ghahramani

分类： (统计)机器学习 | 机器学习

2020-01-07

While machine learning is traditionally a resource intensive task, embedded systems, autonomous navigation, and the vision of the Internet of Things fuel the interest in resource-efficient approaches. These approaches aim for a carefully chosen trade-off between performance and resource consumption in terms of computation and energy. The development of such approaches is among the major challenges in current machine learning research and key to ensure a smooth transition of machine learning technology from a scientific environment with virtually unlimited computing resources into everyday's applications. In this article, we provide an overview of the current state of the art of machine learning techniques facilitating these real-world requirements. In particular, we focus on deep neural networks (DNNs), the predominant machine learning models of the past decade. We give a comprehensive overview of the vast literature that can be mainly split into three non-mutually exclusive categories: (i) quantized neural networks, (ii) network pruning, and (iii) structural efficiency. These techniques can be applied during training or as post-processing, and they are widely used to reduce the computational demands in terms of memory footprint, inference speed, and energy efficiency. We also briefly discuss different concepts of embedded hardware for DNNs and their compatibility with machine learning techniques as well as potential for energy and latency reduction. We substantiate our discussion with experiments on well-known benchmark datasets using compression techniques (quantization, pruning) for a set of resource-constrained embedded systems, such as CPUs, GPUs and FPGAs. The obtained results highlight the difficulty of finding good trade-offs between resource efficiency and predictive performance.

translated by 谷歌翻译

Efficient Processing of Deep Neural Networks: A Tutorial and Survey

Vivienne Sze , Yu-Hsin Chen , Tien-Ju Yang , Joel Emer

分类：

2017-03-27

Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.

translated by 谷歌翻译

Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration

Yifan Gong , Geng Yuan , Zheng Zhan , Wei Niu , Zhengang Li , Pu Zhao , Yuxuan Cai , Sijia Liu , Bin Ren , Xue Lin

分类：机器学习 | 计算机视觉

2021-11-22

重量修剪是一种有效的模型压缩技术，可以解决在移动设备上实现实时深神经网络（DNN）推断的挑战。然而，由于精度劣化，难以利用硬件加速度，以及某些类型的DNN层的限制，难以降低的应用方案具有有限的应用方案。在本文中，我们提出了一般的细粒度的结构化修剪方案和相应的编译器优化，适用于任何类型的DNN层，同时实现高精度和硬件推理性能。随着使用我们的编译器优化所支持的不同层的灵活性，我们进一步探讨了确定最佳修剪方案的新问题，了解各种修剪方案的不同加速度和精度性能。两个修剪方案映射方法，一个是基于搜索，另一个是基于规则的，建议自动推导出任何给定DNN的每层的最佳修剪规则和块大小。实验结果表明，我们的修剪方案映射方法，以及一般细粒化结构修剪方案，优于最先进的DNN优化框架，最高可达2.48 $ \ times $和1.73 $ \ times $ DNN推理加速在CiFar-10和Imagenet DataSet上没有准确性损失。

translated by 谷歌翻译

CrypTen: Secure Multi-Party Computation Meets Machine Learning

Brian Knott , Shobha Venkataraman , Awni Hannun , Shubho Sengupta , Mark Ibrahim , Laurens van der Maaten

分类：机器学习

2021-09-02

安全的多方计算（MPC）允许当事方在数据私有的同时对数据进行计算。该功能具有机器学习应用程序的巨大潜力：它促进了对不同政党拥有的私人数据集的机器学习模型的培训，使用另一方的私人数据评估一方的私人模型等。尽管一系列研究实现了机器 - 通过安全MPC学习模型，此类实现尚未成为主流。没有灵活的软件框架“说话”机器学习研究人员和工程师的灵活软件框架的缺乏阻碍了安全MPC的采用。为了促进机器学习中安全MPC的采用，我们提出了Crypten：一个软件框架，该框架通过在现代机器学习框架中常见的抽象来揭示流行的安全MPC原语，例如张量计算，自动分化和模块化神经网络。本文描述了隐秘的设计，并在最新的文本分类，语音识别和图像分类的模型上衡量其性能。我们的基准表明，Crypten的GPU支持和（任意数量）各方之间的高性能通信使其能够在半honest威胁模型下对现代机器学习模型进行有效的私人评估。例如，使用密码的两方可以使用WAV2letter在语音记录中安全预测音素的速度比实时更快。我们希望Crypten能促使在机器学习社区中采用安全MPC。

translated by 谷歌翻译

DarKnight: An Accelerated Framework for Privacy and Integrity Preserving Deep Learning Using Trusted Hardware

Hanieh Hashemi , Yongqin Wang , Murali Annavaram

分类：机器学习

2022-06-30

随着机器学习到达不同的应用领域，与隐私和安全有关的问题正在越来越大。数据持有人希望在利用云中托管的加速器（例如GPU）的同时训练或推断私人数据。云系统容易受到损害数据隐私和计算完整性的攻击者的影响。应对这样的挑战需要将理论隐私算法统一使用硬件安全功能。本文介绍了Darknight，这是一个大型DNN培训的框架，同时保护输入隐私和计算完整性。 Darknight依赖于受信任的执行环境（TEE）和加速器之间的合作执行，其中TEE提供了隐私和完整性验证，而加速器则执行大部分线性代数计算以优化性能。特别是，Darknight使用基于矩阵掩码的自定义数据编码策略来在TEE中创建输入混淆。然后将混淆的数据卸载到GPU，以进行快速线性代数计算。 Darknight的数据混淆策略在云服务器中提供了可证明的数据隐私和计算完整性。虽然先前的作品应对推理隐私，并且不能用于培训，但Darknight的编码方案旨在支持培训和推理。

translated by 谷歌翻译

Efficient Differentially Private Secure Aggregation for Federated Learning via Hardness of Learning with Errors

Timothy Stevens , Christian Skalka , Christelle Vincent , John Ring , Samuel Clark , Joseph Near

分类：机器学习

2021-12-13

联邦机器学习利用边缘计算来开发网络用户数据的模型，但联合学习的隐私仍然是一个重大挑战。已经提出了使用差异隐私的技术来解决这一点，但是带来了自己的挑战 - 许多人需要一个值得信赖的第三方，或者增加了太多的噪音来生产有用的模型。使用多方计算的\ EMPH {SERVE聚合}的最新进步消除了对第三方的需求，但是在计算上尤其在规模上昂贵。我们提出了一种新的联合学习协议，利用了一种基于与错误学习的技术的新颖差异私有的恶意安全聚合协议。我们的协议优于当前最先进的技术，并且经验结果表明它缩放到大量方面，具有任何差别私有联合学习方案的最佳精度。

translated by 谷歌翻译

Reconciling Security and Communication Efficiency in Federated Learning

Karthik Prasad , Sayan Ghosh , Graham Cormode , Ilya Mironov , Ashkan Yousefpour , Pierre Stock

分类：机器学习 | 人工智能

2022-07-26

跨设备联合学习是一种越来越受欢迎的机器学习设置，可以通过利用大量具有高隐私和安全保证的客户设备来培训模型。但是，在将联合学习扩展到生产环境时，沟通效率仍然是一个主要的瓶颈，尤其是由于上行链路沟通过程中的带宽限制。在本文中，我们在安全的聚合原始词下正式化并解决了压缩客户对服务器模型更新的问题，这是联合学习管道的核心组成部分，该管道允许服务器汇总客户端更新而不单独访问它们。特别是，我们调整标准标量量化和修剪方法以确保聚合并提出安全索引，这是一个安全聚合的变体，支持量化以进行极端压缩。我们在安全联合学习设置中建立了最新的叶基准测试结果，与未压缩基线相比，在上行链路通信中最多40美元$ \ times $ compression，无意义的损失。

translated by 谷歌翻译

Eluding Secure Aggregation in Federated Learning via Model Inconsistency

Dario Pasquini , Danilo Francati , Giuseppe Ateniese

分类：机器学习

2021-11-14

联合学习允许一组用户在私人训练数据集中培训深度神经网络。在协议期间，数据集永远不会留下各个用户的设备。这是通过要求每个用户向中央服务器发送“仅”模型更新来实现，从而汇总它们以更新深神经网络的参数。然而，已经表明，每个模型更新都具有关于用户数据集的敏感信息（例如，梯度反转攻击）。联合学习的最先进的实现通过利用安全聚合来保护这些模型更新：安全监控协议，用于安全地计算用户的模型更新的聚合。安全聚合是关键，以保护用户的隐私，因为它会阻碍服务器学习用户提供的个人模型更新的源，防止推断和数据归因攻击。在这项工作中，我们表明恶意服务器可以轻松地阐明安全聚合，就像后者未到位一样。我们设计了两种不同的攻击，能够在参与安全聚合的用户数量上，独立于参与安全聚合的用户数。这使得它们在大规模现实世界联邦学习应用中的具体威胁。攻击是通用的，不瞄准任何特定的安全聚合协议。即使安全聚合协议被其理想功能替换为提供完美的安全性的理想功能，它们也同样有效。我们的工作表明，安全聚合与联合学习相结合，当前实施只提供了“虚假的安全感”。

translated by 谷歌翻译

Two Sparsities Are Better Than One: Unlocking the Performance Benefits of Sparse-Sparse Networks

Kevin Lee Hunter , Lawrence Spracklen , Subutai Ahmad

分类：机器学习 | 人工智能 | 神经与进化计算

2021-12-27

原则上，稀疏的神经网络应该比传统的密集网络更有效。大脑中的神经元表现出两种类型的稀疏性;它们稀疏地相互连接和稀疏活跃。当组合时，这两种类型的稀疏性，称为重量稀疏性和激活稀疏性，提出了通过两个数量级来降低神经网络的计算成本。尽管存在这种潜力，但今天的神经网络只使用重量稀疏提供适度的性能益处，因为传统的计算硬件无法有效地处理稀疏网络。在本文中，我们引入了互补稀疏性，这是一种显着提高现有硬件对双稀疏网络性能的新技术。我们证明我们可以实现高性能运行的重量稀疏网络，我们可以通过结合激活稀疏性来乘以这些加速。采用互补稀疏性，我们显示出对FPGA的推断的吞吐量和能效提高了100倍。我们分析了典型的商业卷积网络等各种内核的可扩展性和资源权衡，例如Resnet-50和MobileNetv2。我们的互补稀疏性的结果表明，重量加激活稀疏性可以是有效的缩放未来AI模型的有效组合。

translated by 谷歌翻译

When the Curious Abandon Honesty: Federated Learning Is Not Private

Franziska Boenisch , Adam Dziedzic , Roei Schuster , Ali Shahin Shamsabadi , Ilia Shumailov , Nicolas Papernot

分类：机器学习

2021-12-06

在联合学习（FL）中，数据不会在联合培训机器学习模型时留下个人设备。相反，这些设备与中央党（例如，公司）共享梯度。因为数据永远不会“离开”个人设备，因此FL作为隐私保留呈现。然而，最近显示这种保护是一个薄的外观，甚至是一种被动攻击者观察梯度可以重建各个用户的数据。在本文中，我们争辩说，事先工作仍然很大程度上低估了FL的脆弱性。这是因为事先努力专门考虑被动攻击者，这些攻击者是诚实但好奇的。相反，我们介绍了一个活跃和不诚实的攻击者，作为中央会，他们能够在用户计算模型渐变之前修改共享模型的权重。我们称之为修改的重量“陷阱重量”。我们的活跃攻击者能够完全恢复用户数据，并在接近零成本时：攻击不需要复杂的优化目标。相反，它利用了模型梯度的固有数据泄漏，并通过恶意改变共享模型的权重来放大这种效果。这些特异性使我们的攻击能够扩展到具有大型迷你批次数据的模型。如果来自现有工作的攻击者需要小时才能恢复单个数据点，我们的方法需要毫秒来捕获完全连接和卷积的深度神经网络的完整百分之批次数据。最后，我们考虑缓解。我们观察到，FL中的差异隐私（DP）的当前实现是有缺陷的，因为它们明确地信任中央会，并在增加DP噪音的关键任务，因此不提供对恶意中央党的保护。我们还考虑其他防御，并解释为什么它们类似地不足。它需要重新设计FL，为用户提供任何有意义的数据隐私。

translated by 谷歌翻译

A Survey of Near-Data Processing Architectures for Neural Networks

Mehdi Hassanpour , Marc Riera , Antonio González

分类：机器学习

2021-12-23

基于von-neumann架构的传统计算系统，数据密集型工作负载和应用程序（如机器学习）和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈，对近数据处理（NDP），机器学习和特别是神经网络（NN）的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术，这是有效地架构基于NN的基于NN的加速器，因为它们的工作能力是：高密度/低能量存储和近记忆计算/搜索引擎。在本文中，我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类，我们强调了它们的相似之处和差异。最后，我们讨论了需要探索的开放挑战和未来的观点，以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师，芯片设计师和研究人员来说是有价值的。

translated by 谷歌翻译

APNN-TC: Accelerating Arbitrary Precision Neural Networks on Ampere GPU Tensor Cores

Boyuan Feng , Yuke Wang , Tong Geng , Ang Li , Yufei Ding

分类：人工智能 | 计算机视觉

2021-06-23

多年来，通过广泛研究了与量化的神经网络。遗憾的是，在GPU上的有限精度支持（例如，INT1和INT4）上通常限制具有多样化的精度（例如，1位重量和2位激活）的事先努力。为了打破这种限制，我们介绍了第一个任意精密神经网络框架（APNN-TC），以充分利用对AMPERE GPU张量核心的量化优势。具体地，APNN-TC首先结合了一种新的仿真算法来支持与INT1计算基元和XOR /和BOOLEAN操作的任意短比特宽度计算。其次，APNN-TC集成了任意精密层设计，以有效地将仿真算法映射到带有新型批处理策略和专业内存组织的张量核心。第三，APNN-TC体现了一种新型任意精密NN设计，可最大限度地减少层次的内存访问，并进一步提高性能。广泛的评估表明，APNN-TC可以通过Cutlass内核和各种NN模型实现显着加速，例如Reset和VGG。

translated by 谷歌翻译

SoK: Privacy Preserving Machine Learning using Functional Encryption: Opportunities and Challenges

Prajwal Panzade , Daniel Takabi

分类：机器学习

2022-04-11

随着功能加密的出现，已经出现了加密数据计算的新可能性。功能加密使数据所有者能够授予第三方访问执行指定的计算，而无需透露其输入。与完全同态加密不同，它还提供了普通的计算结果。机器学习的普遍性导致在云计算环境中收集了大量私人数据。这引发了潜在的隐私问题，并需要更多私人和安全的计算解决方案。在保护隐私的机器学习（PPML）方面已做出了许多努力，以解决安全和隐私问题。有基于完全同态加密（FHE），安全多方计算（SMC）的方法，以及最近的功能加密（FE）。但是，与基于FHE的PPML方法相比，基于FE的PPML仍处于起步阶段，并且尚未受到很多关注。在本文中，我们基于FE总结文献中的最新作品提供了PPML作品的系统化。我们专注于PPML应用程序的内部产品FE和基于二次FE的机器学习模型。我们分析了可用的FE库的性能和可用性及其对PPML的应用。我们还讨论了基于FE的PPML方法的潜在方向。据我们所知，这是系统化基于FE的PPML方法的第一项工作。

translated by 谷歌翻译

Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning

Elias Frantar , Dan Alistarh

分类：机器学习

2022-08-24

我们考虑在具有挑战性的训练后环境中，深度神经网络（DNN）的模型压缩问题，在该设置中，我们将获得精确的训练模型，并且必须仅基于少量校准输入数据而无需任何重新培训即可压缩它。鉴于新兴软件和硬件支持通过加速修剪和/或量化压缩的模型，并且已经针对两种压缩方法独立提出了良好的表现解决方案，因此该问题已变得流行。在本文中，我们引入了一个新的压缩框架，该框架涵盖了统一环境中的重量修剪和量化，时间和空间效率高，并且在现有的后训练方法的实际性能上大大改善。在技术层面上，我们的方法基于[Lecun，Denker和Solla，1990年]在现代DNN的规模上的经典最佳脑外科医生（OBS）框架的第一个精确实现，我们进一步扩展到覆盖范围。重量量化。这是通过一系列可能具有独立利益的算法开发来实现的。从实际的角度来看，我们的实验结果表明，它可以在现有后训练方法的压缩 - 准确性权衡方面显着改善，并且甚至可以在训练后进行修剪和量化的准确共同应用。

translated by 谷歌翻译