智能论文笔记

Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design

Hongxiang Fan , Thomas Chau , Stylianos I. Venieris , Royson Lee , Alexandros Kouris , Wayne Luk , Nicholas D. Lane , Mohamed S. Abdelfattah

分类：机器学习

2022-09-20

基于注意力的神经网络在许多AI任务中都普遍存在。尽管其出色的算法性能，但注意力机制和前馈网络（FFN）的使用仍需要过多的计算和内存资源，这通常会损害其硬件性能。尽管已经引入了各种稀疏变体，但大多数方法仅着重于缓解算法级别上的二次注意力缩放，而无需明确考虑将其方法映射到真实硬件设计上的效率。此外，大多数努力仅专注于注意机制或FFN，但没有共同优化这两个部分，导致当前的大多数设计在处理不同的输入长度时缺乏可扩展性。本文从硬件角度系统地考虑了不同变体中的稀疏模式。在算法级别上，我们提出了Fabnet，这是一种适合硬件的变体，它采用统一的蝴蝶稀疏模式来近似关注机制和FFN。在硬件级别上，提出了一种新颖的适应性蝴蝶加速器，可以在运行时通过专用硬件控件配置，以使用单个统一的硬件引擎加速不同的蝴蝶层。在远程 - ARENA数据集上，FabNet达到了与香草变压器相同的精度，同时将计算量减少10到66次，参数数量为2至22次。通过共同优化算法和硬件，我们的基于FPGA的蝴蝶加速器在归一化到同一计算预算的最新加速器上达到了14.2至23.2倍的速度。与Raspberry Pi 4和Jetson Nano上优化的CPU和GPU设计相比，我们的系统在相同的功率预算下的最大273.8和15.1倍。

translated by 谷歌翻译

An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers

Chao Fang , Aojun Zhou , Zhongfeng Wang

分类：机器学习

2022-08-12

在深度学习中，变压器一直是必不可少的主食。但是，对于现实生活中的应用程序，由于模型的巨大参数和操作，部署有效的变压器非常具有挑战性。为了减轻这种负担，利用稀疏是加速变压器的有效方法。新出现的Ampere GPU利用2：4的稀疏模式来实现模型加速度，而在部署模型时，它几乎无法满足各种算法和硬件约束。相比之下，我们提出了一个算法 - 铁软件合作的框架，以灵活有效地加速变压器，通过使用一般的N：M稀疏模式。（1）从算法的角度来看，我们提出了一种稀疏性遗传机制以及一种遗传的动态修剪（IDP）方法，以迅速获得一系列N：M稀疏候选变压器。进一步提出了模型压缩方案，以显着减少部署的存储需求。（2）从硬件的角度来看，我们提出了一种灵活，有效的硬件体系结构，即STA，以在部署N：M稀疏变压器时达到显着加速。 STA不仅具有具有较高计算效率的稀疏密度和致密矩阵乘法的计算引擎，而且还具有可扩展的软模块，从而消除了中级外芯片外数据通信的延迟。实验结果表明，与其他使用IDP生成的其他方法相比，n：m稀疏变压器的准确性平均提高了6.7％。此外，与Intel I9-9900X和NVIDIA RTX 2080 TI相比，STA可以达到14.47倍和11.33倍的速度，并且比最先进的基于FPGA的加速器对变形金刚的最先进的推断速度可以快2.00-19.47倍。

translated by 谷歌翻译

DFX: A Low-latency Multi-FPGA Appliance for Accelerating Transformer-based Text Generation

Seongmin Hong , Seungjae Moon , Junsoo Kim , Sungjae Lee , Minsub Kim , Dongsoo Lee , Joo-Young Kim

分类：机器学习

2022-09-22

变形金刚是一种深入学习语言模型，用于数据中心中的自然语言处理（NLP）服务。在变压器模型中，生成的预训练的变压器（GPT）在文本生成或自然语言生成（NLG）中取得了显着的性能，它需要在摘要阶段处理大型输入上下文，然后是产生一个生成阶段的一次单词。常规平台（例如GPU）专门用于在摘要阶段平行处理大型输入，但是由于其顺序特征，它们的性能在生成阶段显着降低。因此，需要一个有效的硬件平台来解决由文本生成的顺序特征引起的高潜伏期。在本文中，我们提出了DFX，这是一种多FPGA加速器，该设备在摘要和发电阶段中执行GPT-2模型端到端，并具有低延迟和高吞吐量。 DFX使用模型并行性和优化的数据流，这是模型和硬件感知的设备之间快速同时执行执行。其计算核心根据自定义说明运行，并提供GPT-2操作端到端。我们在四个Xilinx Alveo U280 FPGAS上实现了建议的硬件体系结构，并利用了高带宽内存（HBM）的所有频道，以及用于高硬件效率的最大计算资源数量。 DFX在现代GPT-2模型上实现了四个NVIDIA V100 GPU的5.58倍加速度和3.99倍的能效。 DFX的成本效益比GPU设备更具成本效益，这表明它是云数据中心中文本生成工作负载的有前途解决方案。

translated by 谷歌翻译

Sparse Attention Acceleration with Synergistic In-Memory Pruning and On-Chip Recomputation

Amir Yazdanbakhsh , Ashkan Moradifirouzabadi , Zheng Li , Mingu Kang

分类：机器学习

2022-09-01

作为其核心计算，一种自我发挥的机制可以在整个输入序列上分配成对相关性。尽管表现良好，但计算成对相关性的成本高昂。尽管最近的工作表明了注意力分数低的元素的运行时间修剪的好处，但自我发挥机制的二次复杂性及其芯片内存能力的需求被忽略了。这项工作通过构建一个称为Sprint的加速器来解决这些约束，该加速器利用RERAM横杆阵列的固有并行性以近似方式计算注意力分数。我们的设计使用RERAM内的轻质模拟阈值电路来降低注意力评分，从而使Sprint只能获取一小部分相关数据到芯片内存。为了减轻模型准确性的潜在负面影响，Sprint重新计算数字中少数获取数据的注意力评分。相关注意分数的组合内修剪和片上重新计算可以将Sprint转化为仅线性的二次复杂性。此外，我们即使修剪后，我们也可以识别并利用相邻的注意操作之间的动态空间位置，从而消除了昂贵但冗余的数据获取。我们在各种最新的变压器模型上评估了我们提出的技术。平均而言，当使用总16KB芯片内存时，Sprint会产生7.5倍的速度和19.6倍的能量，而实际上与基线模型的等值级相当（平均为0.36％的降级）。

translated by 谷歌翻译

HTML版本

ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and Accelerator Co-Design

Haoran You , Zhanyi Sun , Huihong Shi , Zhongzhi Yu , Yang Zhao , Yongan Zhang , Chaojian Li , Baopu Li , Yingyan Lin

分类：机器学习 | 计算机视觉

2022-10-18

Vision Transformers (ViTs) have achieved state-of-the-art performance on various vision tasks. However, ViTs' self-attention module is still arguably a major bottleneck, limiting their achievable hardware efficiency. Meanwhile, existing accelerators dedicated to NLP Transformers are not optimal for ViTs. This is because there is a large difference between ViTs and NLP Transformers: ViTs have a relatively fixed number of input tokens, whose attention maps can be pruned by up to 90% even with fixed sparse patterns; while NLP Transformers need to handle input sequences of varying numbers of tokens and rely on on-the-fly predictions of dynamic sparse attention patterns for each input to achieve a decent sparsity (e.g., >=50%). To this end, we propose a dedicated algorithm and accelerator co-design framework dubbed ViTCoD for accelerating ViTs. Specifically, on the algorithm level, ViTCoD prunes and polarizes the attention maps to have either denser or sparser fixed patterns for regularizing two levels of workloads without hurting the accuracy, largely reducing the attention computations while leaving room for alleviating the remaining dominant data movements; on top of that, we further integrate a lightweight and learnable auto-encoder module to enable trading the dominant high-cost data movements for lower-cost computations. On the hardware level, we develop a dedicated accelerator to simultaneously coordinate the enforced denser/sparser workloads and encoder/decoder engines for boosted hardware utilization. Extensive experiments and ablation studies validate that ViTCoD largely reduces the dominant data movement costs, achieving speedups of up to 235.3x, 142.9x, 86.0x, 10.1x, and 6.8x over general computing platforms CPUs, EdgeGPUs, GPUs, and prior-art Transformer accelerators SpAtten and Sanger under an attention sparsity of 90%, respectively.

translated by 谷歌翻译

ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision Transformer Acceleration with a Linear Taylor Attention

Jyotikrishna Dass , Shang Wu , Huihong Shi , Chaojian Li , Zhifan Ye , Zhongfeng Wang , Yingyan Lin

分类：计算机视觉 | 机器学习

2022-11-09

Vision Transformer (ViT) has emerged as a competitive alternative to convolutional neural networks for various computer vision applications. Specifically, ViT multi-head attention layers make it possible to embed information globally across the overall image. Nevertheless, computing and storing such attention matrices incurs a quadratic cost dependency on the number of patches, limiting its achievable efficiency and scalability and prohibiting more extensive real-world ViT applications on resource-constrained devices. Sparse attention has been shown to be a promising direction for improving hardware acceleration efficiency for NLP models. However, a systematic counterpart approach is still missing for accelerating ViT models. To close the above gap, we propose a first-of-its-kind algorithm-hardware codesigned framework, dubbed ViTALiTy, for boosting the inference efficiency of ViTs. Unlike sparsity-based Transformer accelerators for NLP, ViTALiTy unifies both low-rank and sparse components of the attention in ViTs. At the algorithm level, we approximate the dot-product softmax operation via first-order Taylor attention with row-mean centering as the low-rank component to linearize the cost of attention blocks and further boost the accuracy by incorporating a sparsity-based regularization. At the hardware level, we develop a dedicated accelerator to better leverage the resulting workload and pipeline from ViTALiTy's linear Taylor attention which requires the execution of only the low-rank component, to further boost the hardware efficiency. Extensive experiments and ablation studies validate that ViTALiTy offers boosted end-to-end efficiency (e.g., $3\times$ faster and $3\times$ energy-efficient) under comparable accuracy, with respect to the state-of-the-art solution.

translated by 谷歌翻译

FLAT: An Optimized Dataflow for Mitigating Attention Performance Bottlenecks

Sheng-Chun Kao , Suvinay Subramanian , Gaurav Agrawal , Tushar Krishna

分类：机器学习

2021-07-13

注意机制为各种任务形成最先进的机器学习模型的骨干。然而，在深神经网络（DNN）加速器上部署它们，特别是在长序列下挑战，因为这项工作识别。这是由于展示层数的运营商，在记忆占地面积中表现出有限的再利用机会和二次生长，导致严重的记忆界限。为了解决这个问题，我们介绍了一个新的注意力定制数据流，被称为扁平，它识别注意层内的融合机会，并实现片上内存感知交错执行和平铺机制。通过有效利用高带宽，低容量的片上缓冲器，平坦增加了有效的内存带宽，从而实现了更好的运行时间和计算资源利用率。在我们的评估中，扁平达到1.94倍和1.76倍的加速度和49％和42％的能量减少与最先进的边缘和云加速器的基线执行相比。

translated by 谷歌翻译

A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining

Hongwu Peng , Shaoyi Huang , Shiyang Chen , Bingbing Li , Tong Geng , Ang Li , Weiwen Jiang , Wujie Wen , Jinbo Bi , Hang Liu

分类：机器学习

2022-08-07

变压器被认为是自2018年以来最重要的深度学习模型之一，部分原因是它建立了最先进的记录（SOTA）记录，并有可能取代现有的深神经网络（DNNS）。尽管取得了显着的胜利，但变压器模型的延长周转时间是公认的障碍。序列长度的多样性施加了其他计算开销，其中需要将输入零填充到批处理中的最大句子长度，以容纳并行计算平台。本文针对现场可编程的门阵列（FPGA），并提出了一个连贯的序列长度自适应算法 - 硬件与变压器加速度的共同设计。特别是，我们开发了一个适合硬件的稀疏注意操作员和长度意识的硬件资源调度算法。提出的稀疏注意操作员将基于注意力的模型的复杂性降低到线性复杂性，并减轻片外记忆流量。提出的长度感知资源硬件调度算法动态分配了硬件资源以填充管道插槽并消除了NLP任务的气泡。实验表明，与CPU和GPU实施相比，我们的设计准确度损失很小，并且具有80.2 $ \ times $和2.6 $ \ times $速度，并且比先进的GPU加速器高4 $ \ times $ $ $ \ times $通过Cublas Gemm优化。

translated by 谷歌翻译

SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention Mechanisms for Long Sequences

Guan Shen , Jieru Zhao , Quan Chen , Jingwen Leng , Chao Li , Minyi Guo

分类：人工智能 | 机器学习

2022-06-29

变压器的注意机制有效地从输入序列中提取相关信息。然而，自我注意力的二次复杂性W.R.T序列长度会产生沉重的计算和记忆负担，尤其是对于长序列的任务。现有的加速器在这些任务中面临性能退化。为此，我们建议Salo为长序列提供杂交稀疏注意机制。Salo包含一个数据调度程序，将混合稀疏注意模式映射到硬件和空间加速器上，以执行有效的注意力计算。我们表明，与GPU和CPU实施相比，Salo平均达到17.66 X和89.33倍的速度，即典型的工作负载，即Longformer和VIL。

translated by 谷歌翻译

EIE: Efficient Inference Engine on Compressed Deep Neural Network

Song Han , Xingyu Liu , Huizi Mao , Jing Pu , Ardavan Pedram , Mark A. Horowitz , William J. Dally

分类：

2016-02-04

State-of-the-art deep neural networks (DNNs) have hundreds of millions of connections and are both computationally and memory intensive, making them difficult to deploy on embedded systems with limited hardware resources and power budgets. While custom hardware helps the computation, fetching weights from DRAM is two orders of magnitude more expensive than ALU operations, and dominates the required power.Previously proposed 'Deep Compression' makes it possible to fit large DNNs (AlexNet and VGGNet) fully in on-chip SRAM. This compression is achieved by pruning the redundant connections and having multiple connections share the same weight. We propose an energy efficient inference engine (EIE) that performs inference on this compressed network model and accelerates the resulting sparse matrix-vector multiplication with weight sharing. Going from DRAM to SRAM gives EIE 120× energy saving; Exploiting sparsity saves 10×; Weight sharing gives 8×; Skipping zero activations from ReLU saves another 3×. Evaluated on nine DNN benchmarks, EIE is 189× and 13× faster when compared to CPU and GPU implementations of the same DNN without compression. EIE has a processing power of 102 GOPS/s working directly on a compressed network, corresponding to 3 TOPS/s on an uncompressed network, and processes FC layers of AlexNet at 1.88×10 4 frames/sec with a power dissipation of only 600mW. It is 24,000× and 3,400× more energy efficient than a CPU and GPU respectively. Compared with DaDianNao, EIE has 2.9×, 19× and 3× better throughput, energy efficiency and area efficiency.

translated by 谷歌翻译

DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale

Reza Yazdani Aminabadi , Samyam Rajbhandari , Minjia Zhang , Ammar Ahmad Awan , Cheng Li , Du Li , Elton Zheng , Jeff Rasley , Shaden Smith , Olatunji Ruwase

分类：机器学习

2022-06-30

过去的几年见证了基于变压器的模型的成功，其规模和应用方案继续积极发展。变压器模型的当前景观越来越多样化：该模型大小差异很大，最大的参数是最大的。模型特性由于特征的混合物所引入的稀疏性而有所不同。目标应用程序方案可以是关键延迟或面向吞吐量的情况；部署硬件可以是具有不同类型的内存和存储等单身或多GPU系统。随着多样性的增加和变压器模型的快速发展速度，设计高性能和高效的推理系统非常具有挑战性。在本文中，我们提出了DeepSpeed推断，这是用于解决上述挑战的变压器模型推理的全面系统解决方案。深速推理包括（1）一种多GPU推理解决方案，可最大程度地减少潜伏度，同时最大化密集和稀疏变压器模型的吞吐量，当它们适合聚集的GPU内存时，以及（2）一种异质推理解决方案，该解决方案利用CPU和NVME内存中的CPU和NVME内存。除了GPU内存和计算以使高推理吞吐量具有不适合聚集GPU内存的大型推理吞吐量。对于面向延迟的方案，深速推理可将延迟降低到最新的7倍，而对于面向吞吐量的方案，延迟的潜伏期将延迟减少到1.5倍以上。此外，它通过利用数百个GPU来实现实时延迟约束下的参数量表推断，这是一个前所未有的推理。它可以比仅使用GPU的解决方案更大的25倍模型，同时提供84个TFLOPS（超过50美元的A6000峰值）。

translated by 谷歌翻译

Going Further With Winograd Convolutions: Tap-Wise Quantization for Efficient Inference on 4x4 Tile

Renzo Andri , Beatrice Bussolino , Antonio Cipolletta , Lukas Cavigelli , Zhe Wang

分类：计算机视觉 | 机器学习

2022-09-26

当今的大多数计算机视觉管道都是围绕深神经网络构建的，卷积操作需要大部分一般的计算工作。与标准算法相比，Winograd卷积算法以更少的MAC计算卷积，当使用具有2x2尺寸瓷砖$ F_2 $的版本时，3x3卷积的操作计数为2.25倍。即使收益很大，Winograd算法具有较大的瓷砖尺寸，即$ f_4 $，在提高吞吐量和能源效率方面具有更大的潜力，因为它将所需的MAC降低了4倍。不幸的是，具有较大瓷砖尺寸的Winograd算法引入了数值问题，这些问题阻止了其在整数域特异性加速器上的使用和更高的计算开销，以在空间和Winograd域之间转换输入和输出数据。为了解锁Winograd $ F_4 $的全部潜力，我们提出了一种新颖的Tap-Wise量化方法，该方法克服了使用较大瓷砖的数值问题，从而实现了仅整数的推断。此外，我们介绍了以功率和区域效率的方式处理Winograd转换的自定义硬件单元，并展示了如何将此类自定义模块集成到工业级，可编程的DSA中。对大量最先进的计算机视觉基准进行了广泛的实验评估表明，Tap-Wise量化算法使量化的Winograd $ F_4 $网络几乎与FP32基线一样准确。 Winograd增强的DSA可实现高达1.85倍的能源效率，最高可用于最先进的细分和检测网络的端到端速度高达1.83倍。

translated by 谷歌翻译

LL-GNN: Low Latency Graph Neural Networks on FPGAs for Particle Detectors

Zhiqiang Que , Marcus Loo , Hongxiang Fan , Michaela Blott , Maurizio Pierini , Alexander D Tapper , Wayne Luk

分类：机器学习

2022-09-28

这项工作提出了专门针对粒子探测器的低潜伏期图神经网络（GNN）设计的新型可重构体系结构。加速粒子探测器的GNN是具有挑战性的，因为它需要次微秒延迟才能在CERN大型强子撞机实验的级别1触发器中部署网络以进行在线事件选择。本文提出了一种自定义代码转换，并在基于互动网络的GNN中使用完全连接的图表中的矩阵乘法操作降低了强度，从而避免了昂贵的乘法。它利用了稀疏模式以及二进制邻接矩阵，并避免了不规则的内存访问，从而降低了延迟和硬件效率的提高。此外，我们引入了一种基于外部产品的基质乘法方法，该方法通过降低潜伏期设计的强度降低来增强。此外，引入了融合步骤，以进一步降低设计延迟。此外，提出了GNN特异性算法 - 硬件共同设计方法，该方法不仅找到了具有更好延迟的设计，而且在给定的延迟约束下发现了高精度的设计。最后，已经设计和开源了此低延迟GNN硬件体系结构的可自定义模板，该模板可以使用高级合成工具来生成低延迟的FPGA设计，并有效地利用资源。评估结果表明，我们的FPGA实施速度高24倍，并且消耗的功率比GPU实施少45倍。与我们以前的FPGA实施相比，这项工作的延迟降低了6.51至16.7倍。此外，我们的FPGA设计的延迟足以使GNN在亚微秒，实时撞机触发器系统中部署，从而使其能够从提高的精度中受益。

translated by 谷歌翻译

Efficient Quantized Sparse Matrix Operations on Tensor Cores

Shigang Li , Kazuki Osawa , Torsten Hoefler

分类：机器学习

2022-09-14

成倍增长的模型大小驱动了深度学习的持续成功，但它带来了过度的计算和记忆成本。从算法的角度来看，已经研究了模型的稀疏和量化以减轻问题。从体系结构的角度来看，硬件供应商提供了张量核心以进行加速。但是，由于严格的数据布局要求以及缺乏有效操纵低精度整数的支持，因此从稀疏的低精度矩阵操作中获得实践加速非常具有挑战性。我们提出了Magicube，这是一个高性能的稀疏矩阵库，用于张量芯上的低精度整数。 Magicube支持SPMM和SDDMM，这是深度学习的两个主要稀疏操作。 NVIDIA A100 GPU的实验结果表明，Magicube平均在供应商优化的库中平均达到1.44倍（高达2.37倍）的速度，用于稀疏内核，而在最先进的艺术品上进行了1.43倍的速度，具有可比的准确性。端到端稀疏变压器推断。

translated by 谷歌翻译

SPA-GCN: Efficient and Flexible GCN Accelerator with an Application for Graph Similarity Computation

Atefeh Sohrabizadeh , Yuze Chi , Jason Cong

分类：机器学习

2021-11-10

虽然有很多关于图像深度学习的硬件加速研究，但在加速涉及图形的深度学习应用时，有一个相当有利的专注。图的独特特性，例如不规则的内存访问和动态并行性，当算法映射到CPU或GPU时，施加有几个挑战。为了在利用所有可用的稀疏性的同时解决这些挑战，我们提出了一种灵活的架构，称为SPA-GCN，用于加速图形卷积网络（GCN），在图中的深度学习算法中的核心计算单元。该架构专门用于处理许多小图形，因为图表尺寸对设计考虑产生了重大影响。在这种情况下，我们使用SIMGNN是一种基于神经网络的图形匹配算法，作为展示我们架构的有效性的案例研究。实验结果表明，与多核CPU实施和GPU实施相比，SPA-GCN可以提供高速度，显示设计效率。

translated by 谷歌翻译

Accelerating Neural Network Inference with Processing-in-DRAM: From the Edge to the Cloud

Geraldo F. Oliveira , Juan Gómez-Luna , Saugata Ghose , Amirali Boroumand , Onur Mutlu

分类：机器学习

2022-09-19

神经网络（NNS）的重要性和复杂性正在增长。神经网络的性能（和能源效率）可以通过计算或内存资源约束。在内存阵列附近或内部放置计算的内存处理（PIM）范式是加速内存绑定的NNS的可行解决方案。但是，PIM体系结构的形式各不相同，其中不同的PIM方法导致不同的权衡。我们的目标是分析基于NN的性能和能源效率的基于DRAM的PIM架构。为此，我们分析了三个最先进的PIM架构：（1）UPMEM，将处理器和DRAM阵列集成到一个2D芯片中；（2）Mensa，是针对边缘设备量身定制的基于3D堆栈的PIM架构；（3）Simdram，它使用DRAM的模拟原理来执行位序列操作。我们的分析表明，PIM极大地受益于内存的NNS：（1）UPMEM在GPU需要内存过度按要求的通用矩阵 - 矢量乘数内核时提供23x高端GPU的性能；（2）Mensa在Google Edge TPU上提高了3.0倍和3.1倍的能源效率和吞吐量，用于24个Google Edge NN型号；（3）SIMDRAM在三个二进制NNS中以16.7倍/1.4倍的速度优于CPU/GPU。我们得出的结论是，由于固有的建筑设计选择，NN模型的理想PIM体系结构取决于模型的独特属性。

translated by 谷歌翻译

Two Sparsities Are Better Than One: Unlocking the Performance Benefits of Sparse-Sparse Networks

Kevin Lee Hunter , Lawrence Spracklen , Subutai Ahmad

分类：机器学习 | 人工智能 | 神经与进化计算

2021-12-27

原则上，稀疏的神经网络应该比传统的密集网络更有效。大脑中的神经元表现出两种类型的稀疏性;它们稀疏地相互连接和稀疏活跃。当组合时，这两种类型的稀疏性，称为重量稀疏性和激活稀疏性，提出了通过两个数量级来降低神经网络的计算成本。尽管存在这种潜力，但今天的神经网络只使用重量稀疏提供适度的性能益处，因为传统的计算硬件无法有效地处理稀疏网络。在本文中，我们引入了互补稀疏性，这是一种显着提高现有硬件对双稀疏网络性能的新技术。我们证明我们可以实现高性能运行的重量稀疏网络，我们可以通过结合激活稀疏性来乘以这些加速。采用互补稀疏性，我们显示出对FPGA的推断的吞吐量和能效提高了100倍。我们分析了典型的商业卷积网络等各种内核的可扩展性和资源权衡，例如Resnet-50和MobileNetv2。我们的互补稀疏性的结果表明，重量加激活稀疏性可以是有效的缩放未来AI模型的有效组合。

translated by 谷歌翻译

Efficient Processing of Deep Neural Networks: A Tutorial and Survey

Vivienne Sze , Yu-Hsin Chen , Tien-Ju Yang , Joel Emer

分类：

2017-03-27

Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.

translated by 谷歌翻译

GCoD: Graph Convolutional Network Acceleration via Dedicated Algorithm and Accelerator Co-Design

Haoran You , Tong Geng , Yongan Zhang , Ang Li , Yingyan Lin

分类：机器学习

2021-12-22

图表卷积网络（GCNS）已成为最先进的图形学习模型。但是，它可以令人难以置于大图数据集的推断GCNS，这会将其应用于大型实际图表并阻碍更深层更复杂的GCN图形的探讨。这是因为真实世界图可能非常大而稀疏。此外，GCN的节点度倾向于遵循幂律分布，因此具有高度不规则的邻接矩阵，导致数据处理和移动中的禁止低效率，从而显着地限制了可实现的GCN加速效率。为此，本文提出了一种GCN算法和加速器协同设计框架被称为GCOD，其在很大程度上可以缓解上述GCN不规则性并提高GCNS推理效率。具体地，在算法级别上，GCOD集成了分割和征服GCN训练策略，该训练策略将图形偏离在本地邻域中的密集或稀疏，而不会影响模型精度，从而导致（主要）的图形邻接矩阵仅仅是两个级别的工作量并享受大部分增强的规律性，从而轻松加速。在硬件水平上，我们进一步开发了一个具有分离发动机的专用双子加速器，以处理每个上述密集和稀疏工作负载，进一步提高整体利用率和加速效率。广泛的实验和消融研究验证了我们的GCOD始终如一地减少了与CPU，GPU和现有技术GCN加速器相比的15286倍，294倍，7.8倍和2.5倍的加速，包括HYGCN和AWB -GCN分别在保持甚至提高任务准确性的同时。

translated by 谷歌翻译

SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training

Xiaohan Chen , Yang Zhao , Yue Wang , Pengfei Xu , Haoran You , Chaojian Li , Yonggan Fu , Yingyan Lin , Zhangyang Wang

分类：机器学习 | (统计)机器学习

2021-01-04

深度神经网络（DNN）的记录断裂性能具有沉重的参数化，导致外部动态随机存取存储器（DRAM）进行存储。 DRAM访问的禁用能量使得在资源受限的设备上部署DNN是不普遍的，呼叫最小化重量和数据移动以提高能量效率。我们呈现SmartDeal（SD），算法框架，以进行更高成本的存储器存储/访问的较低成本计算，以便在推理和培训中积极提高存储和能量效率。 SD的核心是一种具有结构约束的新型重量分解，精心制作以释放硬件效率潜力。具体地，我们将每个重量张量分解为小基矩阵的乘积以及大的结构稀疏系数矩阵，其非零被量化为-2的功率。由此产生的稀疏和量化的DNN致力于为数据移动和重量存储而大大降低的能量，因为由于稀疏的比特 - 操作和成本良好的计算，恢复原始权重的最小开销。除了推理之外，我们采取了另一次飞跃来拥抱节能培训，引入创新技术，以解决培训时出现的独特障碍，同时保留SD结构。我们还设计专用硬件加速器，充分利用SD结构来提高实际能源效率和延迟。我们在不同的设置中对多个任务，模型和数据集进行实验。结果表明：1）应用于推理，SD可实现高达2.44倍的能效，通过实际硬件实现评估; 2）应用于培训，储存能量降低10.56倍，减少了10.56倍和4.48倍，与最先进的训练基线相比，可忽略的准确性损失。我们的源代码在线提供。

translated by 谷歌翻译