智能论文笔记

Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA

Cecilia Latotzke , Tim Ciesielski , Tobias Gemmeke

分类：人工智能 | 机器学习

2022-08-09

卷积神经网络（CNN）在各种应用域中达到高精度，但需要大量的计算和产生昂贵的数据移动。在交易准确性时降低这些成本的一种方法是体重和/或激活单词长度的减少。因此，层的混合精液量化可以在充气设计空间时产生更有效的结果。在这项工作中，我们提出了一种深入的定量方法，以考虑给定FPGA的硬件资源有限的硬件资源，以有效地探索设计空间。我们的整体探索方法从架构到逻辑级别垂直穿越各种设计入门级别，并横向涵盖从处理元素到数据流的优化，以获得有效的混合过度CNN加速器。我们由此产生的硬件加速器实施了真正的混合精确操作，从而有效地执行了层和频道量化的CNN。映射进料和身份转换连接混合精液CNNS导致竞争精度 - 触及折衷方案：245帧/s，RESNET-18的最高率为87.48％，resNet-18的前5位准确性和92.9％的前5位准确性，1.13 TOPS/TOPS/TOPS/TOPS/TOPS/ S分别用于Resnet-152。因此，与各自的浮点基线相比，参数所需的内存足迹减少了4.9倍和9.4倍。

translated by 谷歌翻译

Going Further With Winograd Convolutions: Tap-Wise Quantization for Efficient Inference on 4x4 Tile

Renzo Andri , Beatrice Bussolino , Antonio Cipolletta , Lukas Cavigelli , Zhe Wang

分类：计算机视觉 | 机器学习

2022-09-26

当今的大多数计算机视觉管道都是围绕深神经网络构建的，卷积操作需要大部分一般的计算工作。与标准算法相比，Winograd卷积算法以更少的MAC计算卷积，当使用具有2x2尺寸瓷砖$ F_2 $的版本时，3x3卷积的操作计数为2.25倍。即使收益很大，Winograd算法具有较大的瓷砖尺寸，即$ f_4 $，在提高吞吐量和能源效率方面具有更大的潜力，因为它将所需的MAC降低了4倍。不幸的是，具有较大瓷砖尺寸的Winograd算法引入了数值问题，这些问题阻止了其在整数域特异性加速器上的使用和更高的计算开销，以在空间和Winograd域之间转换输入和输出数据。为了解锁Winograd $ F_4 $的全部潜力，我们提出了一种新颖的Tap-Wise量化方法，该方法克服了使用较大瓷砖的数值问题，从而实现了仅整数的推断。此外，我们介绍了以功率和区域效率的方式处理Winograd转换的自定义硬件单元，并展示了如何将此类自定义模块集成到工业级，可编程的DSA中。对大量最先进的计算机视觉基准进行了广泛的实验评估表明，Tap-Wise量化算法使量化的Winograd $ F_4 $网络几乎与FP32基线一样准确。 Winograd增强的DSA可实现高达1.85倍的能源效率，最高可用于最先进的细分和检测网络的端到端速度高达1.83倍。

translated by 谷歌翻译

Efficient Processing of Deep Neural Networks: A Tutorial and Survey

Vivienne Sze , Yu-Hsin Chen , Tien-Ju Yang , Joel Emer

分类：

2017-03-27

Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.

translated by 谷歌翻译

Optimization of FPGA-based CNN Accelerators Using Metaheuristics

Sadiq M. Sait , Aiman El-Maleh , Mohammad Altakrouri , Ahmad Shawahna

分类：神经与进化计算 | 计算机视觉

2022-09-22

近年来，卷积神经网络（CNN）证明了它们在许多领域解决问题的能力，并且以前无法进行准确性。但是，这带有广泛的计算要求，这使得普通CPU无法提供所需的实时性能。同时，FPGA对加速CNN推断的兴趣激增。这是由于他们有能力创建具有不同级别的并行性的自定义设计。此外，与GPU相比，FPGA提供每瓦的性能更好。基于FPGA的CNN加速器的当前趋势是实现多个卷积层处理器（CLP），每个处理器都针对一层层量身定制。但是，CNN体系结构的日益增长的复杂性使得优化目标FPGA设备上可用的资源，以使最佳性能更具挑战性。在本文中，我们提出了CNN加速器和随附的自动设计方法，该方法采用元启发式学来分区可用的FPGA资源来设计多CLP加速器。具体而言，提出的设计工具采用模拟退火（SA）和禁忌搜索（TS）算法来查找所需的CLP数量及其各自的配置，以在给定的目标FPGA设备上实现最佳性能。在这里，重点是关键规格和硬件资源，包括数字信号处理器，阻止RAM和芯片内存储器带宽。提出了使用四个众所周知的基准CNN的实验结果和比较，表明所提出的加速框架既令人鼓舞又有前途。基于SA-/TS的多CLP比在加速Alexnet，Squeezenet 1.1，VGGNET和Googlenet架构上的最新单个/多CLP方法高1.31x-2.37倍高2.37倍。和VC709 FPGA板。

translated by 谷歌翻译

A Survey of Near-Data Processing Architectures for Neural Networks

Mehdi Hassanpour , Marc Riera , Antonio González

分类：机器学习

2021-12-23

基于von-neumann架构的传统计算系统，数据密集型工作负载和应用程序（如机器学习）和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈，对近数据处理（NDP），机器学习和特别是神经网络（NN）的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术，这是有效地架构基于NN的基于NN的加速器，因为它们的工作能力是：高密度/低能量存储和近记忆计算/搜索引擎。在本文中，我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类，我们强调了它们的相似之处和差异。最后，我们讨论了需要探索的开放挑战和未来的观点，以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师，芯片设计师和研究人员来说是有价值的。

translated by 谷歌翻译

S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN Acceleration

Zhi-Gang Liu , Paul N. Whatmough , Yuhao Zhu , Matthew Mattina

分类：机器学习

2021-07-16

利用稀疏性是加速在移动设备上的量化卷积神经网络（CNN）推断的关键技术。现有稀疏的CNN加速器主要利用无结构性稀疏性并实现显着的加速。然而，由于无界，很大程度上不可预测的稀疏模式，利用非结构化稀疏性需要复杂的硬件设计，具有显着的能量和面积开销，这对能量和区域效率至关重要的移动/ IOT推理场景特别有害。我们建议利用结构化的稀疏性，更具体地，更密集地绑定块（DBB）稀疏性，用于重量和激活。 DBB块张于每个块的最大非零数。因此，DBB暴露静态可预测的稀疏模式，使瘦稀疏性利用硬件能够。我们提出了新的硬件基元，以分别为（静态）权重和（动态）激活的DBB稀疏性，具有非常低的开销。建立在基元的顶部，我们描述了一种基于收缩阵列的CNN加速器的S2TA，可利用联合重量和激活DBB稀疏性和传统的收缩系统阵列上不可用的数据重用的新维度。与具有零值时钟门控的完全阵列的强基线相比，16NM中的S2TA达到超过2倍的加速和能量减少，超过五个流行的CNN基准。与近期的非收缩稀疏加速器相比，Eyeriss V2（65nm）和Sparten（45nm），S2TA在65nm中使用约2.2倍和3.1倍的每次推断的能量较少。

translated by 谷歌翻译

ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization

Cong Guo , Chen Zhang , Jingwen Leng , Zihan Liu , Fan Yang , Yunxin Liu , Minyi Guo , Yuhao Zhu

分类：机器学习

2022-08-30

量化是一种降低DNN模型的计算和记忆成本的技术，DNN模型越来越大。现有的量化解决方案使用固定点整数或浮点类类型，这些量子的好处有限，因为两者都需要更多位以保持原始型号的准确性。另一方面，可变长度量化使用低位量化对正常值和高精度的分数对异常值的一部分。即使这项工作带来了算法的好处，但由于长度的编码和解码，它也引入了重要的硬件开销。在这项工作中，我们提出了一种称为ANT的固定长度自适应数值数据类型，以通过微小的硬件开销实现低位量化。我们的数据类型ANT利用了两项关键创新来利用DNN模型中的张贴内和调整的自适应机会。首先，我们提出了一种特定的数据类型Flint，该数据类型结合了Float和INT的优势，以适应张量中不同值的重要性。其次，我们提出了一个自适应框架，该框架根据其分布特性选择每个张量的最佳类型。我们为蚂蚁设计了统一的处理元件体系结构，并显示其与现有DNN加速器的易于集成。我们的设计导致2.8 $ \ times $速度和2.5 $ \ times $ $ $ $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $比最先进的量化加速器提高了能源效率。

translated by 谷歌翻译

QUIDAM: A Framework for Quantization-Aware DNN Accelerator and Model Co-Exploration

Ahmet Inci , Siri Garudanagiri Virupaksha , Aman Jain , Ting-Wu Chin , Venkata Vivek Thallam , Ruizhou Ding , Diana Marculescu

分类：机器学习

2022-06-30

随着机器学习和系统社区努力通过自定义深度神经网络（DNN）加速器，多样的精度或量化水平以及模型压缩技术来实现更高的能源效率，因此需要设计空间探索框架，以结合量化意识的处理。在具有准确和快速的功率，性能和区域模型的同时，进入加速器设计空间。在这项工作中，我们提出了Quidam，这是一种高度参数化的量化量化DNN加速器和模型共探索框架。我们的框架可以促进对DNN加速器设计空间探索的未来研究，以提供各种设计选择，例如位精度，处理元素类型，处理元素的刮擦大小，全局缓冲区大小，总处理元素的数量和DNN配置。我们的结果表明，不同的精确度和处理元素类型会导致每个区域和能量性能方面的显着差异。具体而言，我们的框架标识了广泛的设计点，其中每个面积和能量的性能分别差异超过5倍和35倍。通过拟议的框架，我们表明，与最佳基于INT16的实施相比，轻巧的处理元素可在准确性结果上实现，每个区域的性能和能源改善高达5.7倍。最后，由于预先特征的功率，性能和区域模型的效率，Quidam可以将设计勘探过程加快3-4个数量级，因为它消除了每种设计的昂贵合成和表征的需求。

translated by 谷歌翻译

A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End Inference of Real-World Deep Neural Networks

Angelo Garofalo , Gianmarco Ottavi , Francesco Conti , Geethan Karunaratne , Irem Boybat , Luca Benini , Davide Rossi

分类：机器学习 | 神经与进化计算

2022-01-04

在小型电池约束的物流设备上部署现代TinyML任务需要高计算能效。使用非易失性存储器（NVM）的模拟内存计算（IMC）承诺在深神经网络（DNN）推理中的主要效率提高，并用作DNN权重的片上存储器存储器。然而，在系统级别尚未完全理解IMC的功能灵活性限制及其对性能，能量和面积效率的影响。为了目标实际的端到端的IOT应用程序，IMC阵列必须括在异构可编程系统中，引入我们旨在解决这项工作的新系统级挑战。我们介绍了一个非均相紧密的聚类架构，整合了8个RISC-V核心，内存计算加速器（IMA）和数字加速器。我们在高度异构的工作负载上基准测试，例如来自MobileNetv2的瓶颈层，显示出11.5倍的性能和9.5倍的能效改进，而在核心上高度优化并行执行相比。此外，我们通过将我们的异构架构缩放到多阵列加速器，探讨了在IMC阵列资源方面对全移动级DNN（MobileNetv2）的端到端推断的要求。我们的结果表明，我们的解决方案在MobileNetv2的端到端推断上，在执行延迟方面比现有的可编程架构更好，比最先进的异构解决方案更好的数量级集成内存计算模拟核心。

translated by 谷歌翻译

HiKonv: High Throughput Quantized Convolution With Novel Bit-wise Management and Computation

Xinheng Liu , Yao Chen , Prakhar Ganesh , Junhao Pan , Jinjun Xiong , Deming Chen

分类：人工智能

2021-12-28

卷积神经网络（CNN）的量化表现出显着的进展，其意图通过低比特宽度数据输入降低计算和存储成本。然而，没有关于现有全比特宽处理单元（例如CPU和DSP）的系统研究，可以更好地利用各种量化位线下的卷积的显着更高的计算吞吐量。在这项研究中，我们提出了Hikonv，一个统一的解决方案，它通过新的比特和平的并行计算来最大化给定底层处理单元的计算吞吐量来处理低比特宽量化数据输入。我们使用全比特宽乘法器建立理论性能范围，以实现高度并行化的低位宽卷积，并展示在该关键域中的高性能计算的新突破。例如，单个32位处理单元可以在一个CPU指令下提供128个二值化卷积操作（乘法和添加），并且单个27X18 DSP核心可以在一个周期中提供具有4位输入的八个卷积操作。我们展示了Hikonv对卷积层或完整的DNN模型的CPU和FPGA的有效性。对于量化为4位的卷积层，Hikonv在CPU上使用C ++实现了基线实现的3.17x延迟改进。与FPGA的DAC-SDC 2020冠军模型相比，HIKONV分别实现了2.37倍的吞吐量提高和2.61倍的DSP效率改进。

translated by 谷歌翻译

Accelerating Neural Network Inference with Processing-in-DRAM: From the Edge to the Cloud

Geraldo F. Oliveira , Juan Gómez-Luna , Saugata Ghose , Amirali Boroumand , Onur Mutlu

分类：机器学习

2022-09-19

神经网络（NNS）的重要性和复杂性正在增长。神经网络的性能（和能源效率）可以通过计算或内存资源约束。在内存阵列附近或内部放置计算的内存处理（PIM）范式是加速内存绑定的NNS的可行解决方案。但是，PIM体系结构的形式各不相同，其中不同的PIM方法导致不同的权衡。我们的目标是分析基于NN的性能和能源效率的基于DRAM的PIM架构。为此，我们分析了三个最先进的PIM架构：（1）UPMEM，将处理器和DRAM阵列集成到一个2D芯片中；（2）Mensa，是针对边缘设备量身定制的基于3D堆栈的PIM架构；（3）Simdram，它使用DRAM的模拟原理来执行位序列操作。我们的分析表明，PIM极大地受益于内存的NNS：（1）UPMEM在GPU需要内存过度按要求的通用矩阵 - 矢量乘数内核时提供23x高端GPU的性能；（2）Mensa在Google Edge TPU上提高了3.0倍和3.1倍的能源效率和吞吐量，用于24个Google Edge NN型号；（3）SIMDRAM在三个二进制NNS中以16.7倍/1.4倍的速度优于CPU/GPU。我们得出的结论是，由于固有的建筑设计选择，NN模型的理想PIM体系结构取决于模型的独特属性。

translated by 谷歌翻译

SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training

Xiaohan Chen , Yang Zhao , Yue Wang , Pengfei Xu , Haoran You , Chaojian Li , Yonggan Fu , Yingyan Lin , Zhangyang Wang

分类：机器学习 | (统计)机器学习

2021-01-04

深度神经网络（DNN）的记录断裂性能具有沉重的参数化，导致外部动态随机存取存储器（DRAM）进行存储。 DRAM访问的禁用能量使得在资源受限的设备上部署DNN是不普遍的，呼叫最小化重量和数据移动以提高能量效率。我们呈现SmartDeal（SD），算法框架，以进行更高成本的存储器存储/访问的较低成本计算，以便在推理和培训中积极提高存储和能量效率。 SD的核心是一种具有结构约束的新型重量分解，精心制作以释放硬件效率潜力。具体地，我们将每个重量张量分解为小基矩阵的乘积以及大的结构稀疏系数矩阵，其非零被量化为-2的功率。由此产生的稀疏和量化的DNN致力于为数据移动和重量存储而大大降低的能量，因为由于稀疏的比特 - 操作和成本良好的计算，恢复原始权重的最小开销。除了推理之外，我们采取了另一次飞跃来拥抱节能培训，引入创新技术，以解决培训时出现的独特障碍，同时保留SD结构。我们还设计专用硬件加速器，充分利用SD结构来提高实际能源效率和延迟。我们在不同的设置中对多个任务，模型和数据集进行实验。结果表明：1）应用于推理，SD可实现高达2.44倍的能效，通过实际硬件实现评估; 2）应用于培训，储存能量降低10.56倍，减少了10.56倍和4.48倍，与最先进的训练基线相比，可忽略的准确性损失。我们的源代码在线提供。

translated by 谷歌翻译

Phantom: A High-Performance Computational Core for Sparse Convolutional Neural Networks

Mahmood Azhar Qureshi , Arslan Munir

分类：人工智能

2021-11-09

稀疏卷积神经网络（CNNS）在过去几年中获得了显着的牵引力，因为与其致密的对应物相比，稀疏的CNNS可以大大降低模型尺寸和计算。稀疏的CNN经常引入层形状和尺寸的变化，这可以防止密集的加速器在稀疏的CNN模型上执行良好。最近提出的稀疏加速器，如SCNN，Eyeriss V2和Sparten，积极利用双面或全稀稀物质，即重量和激活的稀疏性，用于性能收益。然而，这些加速器具有低效的微架构，其限制了它们的性能，而不对非单位步幅卷积和完全连接（Fc）层的支持，或者遭受系统负荷不平衡的大规模遭受。为了规避这些问题并支持稀疏和密集的模型，我们提出了幻影，多线程，动态和灵活的神经计算核心。 Phantom使用稀疏二进制掩码表示，以主动寻求稀疏计算，并动态调度其计算线程以最大化线程利用率和吞吐量。我们还生成了幻象神经计算核心的二维（2D）网格体系结构，我们将其称为Phantom-2D加速器，并提出了一种支持CNN的所有层的新型数据流，包括单位和非单位步幅卷积，和fc层。此外，Phantom-2D使用双级负载平衡策略来最小化计算空闲，从而进一步提高硬件利用率。为了向不同类型的图层显示支持，我们评估VGG16和MobileNet上的幻影架构的性能。我们的模拟表明，Phantom-2D加速器分别达到了12倍，4.1 X，1.98x和2.36倍，超密架构，SCNN，Sparten和Eyeriss V2的性能增益。

translated by 谷歌翻译

CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for Energy-Efficient Low-precision Deep Convolutional Neural Networks

Muhammad Abdullah Hanif , Giuseppe Maria Sarda , Alberto Marchisio , Guido Masera , Maurizio Martina , Muhammad Shafique

分类：机器学习

2022-07-31

在当今智能网络物理系统时代，由于它们在复杂的现实世界应用中的最新性能，深度神经网络（DNN）已无处不在。这些网络的高计算复杂性转化为增加的能源消耗，这是在资源受限系统中部署大型DNN的首要障碍。通过培训后量化实现的定点（FP）实现通常用于减少这些网络的能源消耗。但是，FP中的均匀量化间隔将数据结构的位宽度限制为大值，因为需要以足够的分辨率来表示大多数数字并避免较高的量化误差。在本文中，我们利用了关键见解，即（在大多数情况下）DNN的权重和激活主要集中在零接近零，只有少数几个具有较大的幅度。我们提出了Conlocnn，该框架是通过利用来实现节能低精度深度卷积神经网络推断的框架：（1）重量的不均匀量化，以简化复杂的乘法操作的简化；（2）激活值之间的相关性，可以在低成本的情况下以低成本进行部分补偿，而无需任何运行时开销。为了显着从不均匀的量化中受益，我们还提出了一种新颖的数据表示格式，编码低精度二进制签名数字，以压缩重量的位宽度，同时确保直接使用编码的权重来使用新颖的多重和处理 - 积累（MAC）单元设计。

translated by 谷歌翻译

Two Sparsities Are Better Than One: Unlocking the Performance Benefits of Sparse-Sparse Networks

Kevin Lee Hunter , Lawrence Spracklen , Subutai Ahmad

分类：机器学习 | 人工智能 | 神经与进化计算

2021-12-27

原则上，稀疏的神经网络应该比传统的密集网络更有效。大脑中的神经元表现出两种类型的稀疏性;它们稀疏地相互连接和稀疏活跃。当组合时，这两种类型的稀疏性，称为重量稀疏性和激活稀疏性，提出了通过两个数量级来降低神经网络的计算成本。尽管存在这种潜力，但今天的神经网络只使用重量稀疏提供适度的性能益处，因为传统的计算硬件无法有效地处理稀疏网络。在本文中，我们引入了互补稀疏性，这是一种显着提高现有硬件对双稀疏网络性能的新技术。我们证明我们可以实现高性能运行的重量稀疏网络，我们可以通过结合激活稀疏性来乘以这些加速。采用互补稀疏性，我们显示出对FPGA的推断的吞吐量和能效提高了100倍。我们分析了典型的商业卷积网络等各种内核的可扩展性和资源权衡，例如Resnet-50和MobileNetv2。我们的互补稀疏性的结果表明，重量加激活稀疏性可以是有效的缩放未来AI模型的有效组合。

translated by 谷歌翻译

Photonic Reconfigurable Accelerators for Efficient Inference of CNNs with Mixed-Sized Tensors

Sairam Sri Vatsavai , Ishan G Thakkar

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-12

已经证明，基于光子微孔谐振器（MRR）硬件加速器可为处理深卷积神经网络（CNN）提供破坏性的加速和能源效率的改进。但是，以前基于MRR的CNN加速器无法为具有混合张量的CNN提供有效的适应性。此类CNN的一个例子是可分离的CNN。在这种不灵活的加速器上对CNN进行CNN的推断通常会导致低硬件利用率，从而降低了加速器的可实现性能和能源效率。在本文中，我们提出了一种在基于MRR的CNN加速器中引入可重构性的新方法，以使加速器硬件组件和使用硬件组件处理的加速器硬件组件和CNN张量之间的尺寸兼容性进行动态最大化。我们根据加速器中使用的硬件组件的布局和相对位置将基于最新的MRR的CNN加速器分为两个类别。然后，我们使用我们的方法在这两个类别中引入加速器中的可重构性，从而改善其并行性，有效映射不同尺寸的张量，速度和整体能源效率的灵活性。我们根据面积比例的前景（所有加速器的相等硬件区域）对可重构加速器进行了可重构加速器的评估。我们对四个现代CNN的推断的评估表明，与来自MRR基于MRR的基于MRR的加速器相比，我们设计的可重新配置CNN加速器可改善高达1.8倍，而FPS/W高达1.5倍。先前的工作。

translated by 谷歌翻译

Resource-Efficient Deep Learning: A Survey on Model-, Arithmetic-, and Implementation-Level Techniques

JunKyu Lee , Lev Mukhanov , Amir Sabbagh Molahosseini , Umar Minhas , Yang Hua , Jesus Martinez del Rincon , Kiril Dichev , Cheol-Ho Hong , Hans Vandierendonck

分类：机器学习

2021-12-30

我们日常生活中的深度学习是普遍存在的，包括自驾车，虚拟助理，社交网络服务，医疗服务，面部识别等，但是深度神经网络在训练和推理期间需要大量计算资源。该机器学习界主要集中在模型级优化（如深度学习模型的架构压缩），而系统社区则专注于实施级别优化。在其间，在算术界中提出了各种算术级优化技术。本文在模型，算术和实施级技术方面提供了关于资源有效的深度学习技术的调查，并确定了三种不同级别技术的资源有效的深度学习技术的研究差距。我们的调查基于我们的资源效率度量定义，阐明了较低级别技术的影响，并探讨了资源有效的深度学习研究的未来趋势。

translated by 谷歌翻译

N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based Heterogeneous Computing Cores

Yu Gong , Zhihan Xu , Zhezhi He , Weifeng Zhang , Xiaobing Tu , Xiaoyao Liang , Li Jiang

分类：人工智能

2021-12-15

通过FPGA加速神经网络推断作为一种流行的选择，因为FPGA的重新配置性和高性能计算能力本质上满足了快速发展神经算法的计算需求。然而，FPGA（例如，Xilinx DPU）上的受欢迎的神经加速器主要利用DSP资源来构建其处理单元，而丰富的LUT资源没有充分利用。通过软件 - 硬件共同设计方法，在这项工作中，我们开发了一种基于FPGA的异构计算系统，用于神经网络加速度。从硬件角度来看，所提出的加速器由基于DSP和LUT的一般矩阵乘法（GEMM）计算核心组成，其以异质方式形成整个计算系统。基于DSP和LUT的GEMM核心计算为W.R.T统一指令集架构（ISA）和Unified Buffers。沿着神经网络推理路径的数据流，卷积/完全连接层的计算分为两部分，由基于DSP和LUT的GEMM核心异步处理。从软件的角度来看，我们在数学上和系统地模拟所提出的异构加速器的延迟和资源利用，关于不同的系统设计配置。通过利用加强学习技术，我们构建一个框架，实现目标异构加速器的设计规范的端到端选择和优化，包括工作量分裂策略，混合精度量化方案和DSP和LUT的资源分配 - 核。凭借提出的设计框架和异构计算系统，我们的设计优于最先进的混合和匹配设计，延迟减少了1.12-1.32倍，推理准确性更高。 N3H核心是开放的：https://github.com/elliothe/n3h_core。

translated by 谷歌翻译

Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-Temporal Sparsity

Chang Gao , Tobi Delbruck , Shih-Chii Liu

分类：人工智能 | 计算机视觉 | 机器学习

2021-08-04

长期记忆（LSTM）经常性网络经常用于涉及时间序列数据（例如语音识别）的任务。与以前的LSTM加速器相比，它可以利用空间重量稀疏性或时间激活稀疏性，本文提出了一种称为“ Spartus”的新加速器，该加速器可利用时空的稀疏性来实现超低潜伏期推断。空间稀疏性是使用新的圆柱平衡的靶向辍学（CBTD）结构化修剪法诱导的，从而生成平衡工作负载的结构化稀疏重量矩阵。在Spartus硬件上运行的修剪网络可实现高达96％和94％的重量稀疏度，而Timit和LibrisPeech数据集的准确性损失微不足道。为了在LSTM中诱导时间稀疏性，我们将先前的Deltagru方法扩展到Deltalstm方法。将时空的稀疏与CBTD和Deltalstm相结合，可以节省重量存储器访问和相关的算术操作。 Spartus体系结构是可扩展的，并且在大小FPGA上实现时支持实时在线语音识别。 1024个神经元的单个deltalstm层的Spartus每样本延迟平均1 US。使用TIMIT数据集利用我们的测试LSTM网络上的时空稀疏性导致Spartus在其理论硬件性能上达到46倍的加速，以实现9.4 TOP/S有效批次1吞吐量和1.1 TOP/S/W PARTIC效率。

translated by 谷歌翻译

EIE: Efficient Inference Engine on Compressed Deep Neural Network

Song Han , Xingyu Liu , Huizi Mao , Jing Pu , Ardavan Pedram , Mark A. Horowitz , William J. Dally

分类：

2016-02-04

State-of-the-art deep neural networks (DNNs) have hundreds of millions of connections and are both computationally and memory intensive, making them difficult to deploy on embedded systems with limited hardware resources and power budgets. While custom hardware helps the computation, fetching weights from DRAM is two orders of magnitude more expensive than ALU operations, and dominates the required power.Previously proposed 'Deep Compression' makes it possible to fit large DNNs (AlexNet and VGGNet) fully in on-chip SRAM. This compression is achieved by pruning the redundant connections and having multiple connections share the same weight. We propose an energy efficient inference engine (EIE) that performs inference on this compressed network model and accelerates the resulting sparse matrix-vector multiplication with weight sharing. Going from DRAM to SRAM gives EIE 120× energy saving; Exploiting sparsity saves 10×; Weight sharing gives 8×; Skipping zero activations from ReLU saves another 3×. Evaluated on nine DNN benchmarks, EIE is 189× and 13× faster when compared to CPU and GPU implementations of the same DNN without compression. EIE has a processing power of 102 GOPS/s working directly on a compressed network, corresponding to 3 TOPS/s on an uncompressed network, and processes FC layers of AlexNet at 1.88×10 4 frames/sec with a power dissipation of only 600mW. It is 24,000× and 3,400× more energy efficient than a CPU and GPU respectively. Compared with DaDianNao, EIE has 2.9×, 19× and 3× better throughput, energy efficiency and area efficiency.

translated by 谷歌翻译