智能论文笔记

FAT: An In-Memory Accelerator with Fast Addition for Ternary Weight Neural Networks

Shien Zhu , Luan H. K. Duong , Hui Chen , Di Liu , Weichen Liu

分类：人工智能

2022-01-19

卷积神经网络（CNN）在各种应用中表现出卓越的性能，但具有较高的计算复杂性。量化用于降低CNN的延迟和存储成本。在量化方法中，二进制重量网络（BWN和TWNS）在8位和4位量化方面具有独特的优势。他们用加法替代CNN中的乘法操作，这些操作在内存计数（IMC）设备上受到青睐。 BWNS的IMC加速度已被广泛研究。但是，尽管TWN的精度比BWN具有更高的准确性和更好的稀疏性，但IMC的加速度的研究有限。现有的IMC设备上的TWN效率低下，因为稀疏性无法很好地利用，并且加法操作效率不高。在本文中，我们建议FAT作为TWN的新型IMC加速器。首先，我们提出了一个稀疏的加法控制单元，该单元利用TWN的稀疏度跳过了零重量的无效操作。其次，我们提出了一个基于内存感知器的快速添加方案，以避免携带传播的时间开销并将其写回记忆单元。第三，我们进一步提出了一个组合的数据映射，以减少激活和权重的数据移动，并增加跨内存列的并行性。仿真结果表明，与最先进的IMC加速器Parapim相比，对于感官放大器水平上的加法操作，FAT达到2.00倍加速度，1.22倍功率效率和1.22倍面积效率。与帕拉皮姆（Parapim）相比，脂肪达到10.02倍的加速度和12.19倍的能量效率，而平均稀疏性为80％的网络。

translated by 谷歌翻译

A Survey of Near-Data Processing Architectures for Neural Networks

Mehdi Hassanpour , Marc Riera , Antonio González

分类：机器学习

2021-12-23

基于von-neumann架构的传统计算系统，数据密集型工作负载和应用程序（如机器学习）和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈，对近数据处理（NDP），机器学习和特别是神经网络（NN）的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术，这是有效地架构基于NN的基于NN的加速器，因为它们的工作能力是：高密度/低能量存储和近记忆计算/搜索引擎。在本文中，我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类，我们强调了它们的相似之处和差异。最后，我们讨论了需要探索的开放挑战和未来的观点，以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师，芯片设计师和研究人员来说是有价值的。

translated by 谷歌翻译

Efficient Processing of Deep Neural Networks: A Tutorial and Survey

Vivienne Sze , Yu-Hsin Chen , Tien-Ju Yang , Joel Emer

分类：

2017-03-27

Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.

translated by 谷歌翻译

MAC-DO: Charge Based Multi-Bit Analog In-Memory Accelerator Compatible with DRAM Using Output Stationary Mapping

Minki Jeong , Wanyeong Jung

分类：神经与进化计算

2022-07-16

深度神经网络（DNN）在各个领域的有效性（例如分类问题，图像处理，视频细分和语音识别）已被证明。加速器内存（AIM）架构是有效加速DNN的有前途解决方案，因为它们可以避免传统的von Neumann架构的内存瓶颈。由于主要内存通常在许多系统中是DRAM，因此在DRAM中高度平行的多重含用（MAC）阵列可以通过减少处理器和主内存之间的数据运动的距离和数量来最大化目标的好处。本文介绍了一个名为MAC-DO的基于模拟MAC阵列的AIM架构。与以前的IN-DRAM加速器相反，MAC-DO使整个DRAM阵列同时参与MAC计算，而无需闲置细胞，从而导致更高的吞吐量和能量效率。通过利用基于电荷转向的新的模拟计算方法来实现这种改进。此外，Mac-Do天生支持具有良好线性的多位Mac。 MAC-DO仍然与当前的1T1C DRAM技术兼容，而没有任何DRAM单元格和数组的修改。 MAC-DO数组可以基于输出固定映射加速矩阵乘法，因此支持DNN中执行的大多数计算。我们使用晶体管级仿真的评估表明，具有16 x 16 Mac-Do细胞的测试MAC-DO阵列可达到188.7 TOPS/W，并显示了MNIST数据集的97.07％TOP-1准确性，而无需重新培训。

translated by 谷歌翻译

Phantom: A High-Performance Computational Core for Sparse Convolutional Neural Networks

Mahmood Azhar Qureshi , Arslan Munir

分类：人工智能

2021-11-09

稀疏卷积神经网络（CNNS）在过去几年中获得了显着的牵引力，因为与其致密的对应物相比，稀疏的CNNS可以大大降低模型尺寸和计算。稀疏的CNN经常引入层形状和尺寸的变化，这可以防止密集的加速器在稀疏的CNN模型上执行良好。最近提出的稀疏加速器，如SCNN，Eyeriss V2和Sparten，积极利用双面或全稀稀物质，即重量和激活的稀疏性，用于性能收益。然而，这些加速器具有低效的微架构，其限制了它们的性能，而不对非单位步幅卷积和完全连接（Fc）层的支持，或者遭受系统负荷不平衡的大规模遭受。为了规避这些问题并支持稀疏和密集的模型，我们提出了幻影，多线程，动态和灵活的神经计算核心。 Phantom使用稀疏二进制掩码表示，以主动寻求稀疏计算，并动态调度其计算线程以最大化线程利用率和吞吐量。我们还生成了幻象神经计算核心的二维（2D）网格体系结构，我们将其称为Phantom-2D加速器，并提出了一种支持CNN的所有层的新型数据流，包括单位和非单位步幅卷积，和fc层。此外，Phantom-2D使用双级负载平衡策略来最小化计算空闲，从而进一步提高硬件利用率。为了向不同类型的图层显示支持，我们评估VGG16和MobileNet上的幻影架构的性能。我们的模拟表明，Phantom-2D加速器分别达到了12倍，4.1 X，1.98x和2.36倍，超密架构，SCNN，Sparten和Eyeriss V2的性能增益。

translated by 谷歌翻译

Going Further With Winograd Convolutions: Tap-Wise Quantization for Efficient Inference on 4x4 Tile

Renzo Andri , Beatrice Bussolino , Antonio Cipolletta , Lukas Cavigelli , Zhe Wang

分类：计算机视觉 | 机器学习

2022-09-26

当今的大多数计算机视觉管道都是围绕深神经网络构建的，卷积操作需要大部分一般的计算工作。与标准算法相比，Winograd卷积算法以更少的MAC计算卷积，当使用具有2x2尺寸瓷砖$ F_2 $的版本时，3x3卷积的操作计数为2.25倍。即使收益很大，Winograd算法具有较大的瓷砖尺寸，即$ f_4 $，在提高吞吐量和能源效率方面具有更大的潜力，因为它将所需的MAC降低了4倍。不幸的是，具有较大瓷砖尺寸的Winograd算法引入了数值问题，这些问题阻止了其在整数域特异性加速器上的使用和更高的计算开销，以在空间和Winograd域之间转换输入和输出数据。为了解锁Winograd $ F_4 $的全部潜力，我们提出了一种新颖的Tap-Wise量化方法，该方法克服了使用较大瓷砖的数值问题，从而实现了仅整数的推断。此外，我们介绍了以功率和区域效率的方式处理Winograd转换的自定义硬件单元，并展示了如何将此类自定义模块集成到工业级，可编程的DSA中。对大量最先进的计算机视觉基准进行了广泛的实验评估表明，Tap-Wise量化算法使量化的Winograd $ F_4 $网络几乎与FP32基线一样准确。 Winograd增强的DSA可实现高达1.85倍的能源效率，最高可用于最先进的细分和检测网络的端到端速度高达1.83倍。

translated by 谷歌翻译

Efficient Compilation and Mapping of Fixed Function Combinational Logic onto Digital Signal Processors Targeting Neural Network Inference and Utilizing High-level Synthesis

Soheil Nazar Shahsavani , Arash Fayyazi , Mahdi Nazemi , Massoud Pedram

分类：机器学习

2022-07-30

最新的努力改善了满足当今应用程序要求的神经网络（NN）加速器的性能，这引起了基于逻辑NN推理的新趋势，该趋势依赖于固定功能组合逻辑。将如此大的布尔函数与许多输入变量和产品项绘制到现场可编程门阵列（FPGA）上的数字信号处理器（DSP）需要一个新颖的框架，考虑到此过程中DSP块的结构和可重构性。本文中提出的方法将固定功能组合逻辑块映射到一组布尔功能，其中与每个功能相对应的布尔操作映射到DSP设备，而不是FPGA上的查找表（LUTS），以利用高性能，DSP块的低潜伏期和并行性。％本文还提出了一种用于NNS编译和映射的创新设计和优化方法，并利用固定功能组合逻辑与DSP进行了使用高级合成流的FPGA上的DSP。％我们在几个\ revone {DataSets}上进行的实验评估和选定的NNS与使用DSP的基于ART FPGA的NN加速器相比，根据推理潜伏期和输出准确性，证明了我们框架的可比性。

translated by 谷歌翻译

A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End Inference of Real-World Deep Neural Networks

Angelo Garofalo , Gianmarco Ottavi , Francesco Conti , Geethan Karunaratne , Irem Boybat , Luca Benini , Davide Rossi

分类：机器学习 | 神经与进化计算

2022-01-04

在小型电池约束的物流设备上部署现代TinyML任务需要高计算能效。使用非易失性存储器（NVM）的模拟内存计算（IMC）承诺在深神经网络（DNN）推理中的主要效率提高，并用作DNN权重的片上存储器存储器。然而，在系统级别尚未完全理解IMC的功能灵活性限制及其对性能，能量和面积效率的影响。为了目标实际的端到端的IOT应用程序，IMC阵列必须括在异构可编程系统中，引入我们旨在解决这项工作的新系统级挑战。我们介绍了一个非均相紧密的聚类架构，整合了8个RISC-V核心，内存计算加速器（IMA）和数字加速器。我们在高度异构的工作负载上基准测试，例如来自MobileNetv2的瓶颈层，显示出11.5倍的性能和9.5倍的能效改进，而在核心上高度优化并行执行相比。此外，我们通过将我们的异构架构缩放到多阵列加速器，探讨了在IMC阵列资源方面对全移动级DNN（MobileNetv2）的端到端推断的要求。我们的结果表明，我们的解决方案在MobileNetv2的端到端推断上，在执行延迟方面比现有的可编程架构更好，比最先进的异构解决方案更好的数量级集成内存计算模拟核心。

translated by 谷歌翻译

S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN Acceleration

Zhi-Gang Liu , Paul N. Whatmough , Yuhao Zhu , Matthew Mattina

分类：机器学习

2021-07-16

利用稀疏性是加速在移动设备上的量化卷积神经网络（CNN）推断的关键技术。现有稀疏的CNN加速器主要利用无结构性稀疏性并实现显着的加速。然而，由于无界，很大程度上不可预测的稀疏模式，利用非结构化稀疏性需要复杂的硬件设计，具有显着的能量和面积开销，这对能量和区域效率至关重要的移动/ IOT推理场景特别有害。我们建议利用结构化的稀疏性，更具体地，更密集地绑定块（DBB）稀疏性，用于重量和激活。 DBB块张于每个块的最大非零数。因此，DBB暴露静态可预测的稀疏模式，使瘦稀疏性利用硬件能够。我们提出了新的硬件基元，以分别为（静态）权重和（动态）激活的DBB稀疏性，具有非常低的开销。建立在基元的顶部，我们描述了一种基于收缩阵列的CNN加速器的S2TA，可利用联合重量和激活DBB稀疏性和传统的收缩系统阵列上不可用的数据重用的新维度。与具有零值时钟门控的完全阵列的强基线相比，16NM中的S2TA达到超过2倍的加速和能量减少，超过五个流行的CNN基准。与近期的非收缩稀疏加速器相比，Eyeriss V2（65nm）和Sparten（45nm），S2TA在65nm中使用约2.2倍和3.1倍的每次推断的能量较少。

translated by 谷歌翻译

Resource-Efficient Deep Learning: A Survey on Model-, Arithmetic-, and Implementation-Level Techniques

JunKyu Lee , Lev Mukhanov , Amir Sabbagh Molahosseini , Umar Minhas , Yang Hua , Jesus Martinez del Rincon , Kiril Dichev , Cheol-Ho Hong , Hans Vandierendonck

分类：机器学习

2021-12-30

我们日常生活中的深度学习是普遍存在的，包括自驾车，虚拟助理，社交网络服务，医疗服务，面部识别等，但是深度神经网络在训练和推理期间需要大量计算资源。该机器学习界主要集中在模型级优化（如深度学习模型的架构压缩），而系统社区则专注于实施级别优化。在其间，在算术界中提出了各种算术级优化技术。本文在模型，算术和实施级技术方面提供了关于资源有效的深度学习技术的调查，并确定了三种不同级别技术的资源有效的深度学习技术的研究差距。我们的调查基于我们的资源效率度量定义，阐明了较低级别技术的影响，并探讨了资源有效的深度学习研究的未来趋势。

translated by 谷歌翻译

PhotoFourier: A Photonic Joint Transform Correlator-Based Neural Network Accelerator

Shurui Li , Hangbo Yang , Chee Wei Wong , Volker J. Sorger , Puneet Gupta

分类：机器学习

2022-11-10

The last few years have seen a lot of work to address the challenge of low-latency and high-throughput convolutional neural network inference. Integrated photonics has the potential to dramatically accelerate neural networks because of its low-latency nature. Combined with the concept of Joint Transform Correlator (JTC), the computationally expensive convolution functions can be computed instantaneously (time of flight of light) with almost no cost. This 'free' convolution computation provides the theoretical basis of the proposed PhotoFourier JTC-based CNN accelerator. PhotoFourier addresses a myriad of challenges posed by on-chip photonic computing in the Fourier domain including 1D lenses and high-cost optoelectronic conversions. The proposed PhotoFourier accelerator achieves more than 28X better energy-delay product compared to state-of-art photonic neural network accelerators.

translated by 谷歌翻译

An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers

Chao Fang , Aojun Zhou , Zhongfeng Wang

分类：机器学习

2022-08-12

在深度学习中，变压器一直是必不可少的主食。但是，对于现实生活中的应用程序，由于模型的巨大参数和操作，部署有效的变压器非常具有挑战性。为了减轻这种负担，利用稀疏是加速变压器的有效方法。新出现的Ampere GPU利用2：4的稀疏模式来实现模型加速度，而在部署模型时，它几乎无法满足各种算法和硬件约束。相比之下，我们提出了一个算法 - 铁软件合作的框架，以灵活有效地加速变压器，通过使用一般的N：M稀疏模式。（1）从算法的角度来看，我们提出了一种稀疏性遗传机制以及一种遗传的动态修剪（IDP）方法，以迅速获得一系列N：M稀疏候选变压器。进一步提出了模型压缩方案，以显着减少部署的存储需求。（2）从硬件的角度来看，我们提出了一种灵活，有效的硬件体系结构，即STA，以在部署N：M稀疏变压器时达到显着加速。 STA不仅具有具有较高计算效率的稀疏密度和致密矩阵乘法的计算引擎，而且还具有可扩展的软模块，从而消除了中级外芯片外数据通信的延迟。实验结果表明，与其他使用IDP生成的其他方法相比，n：m稀疏变压器的准确性平均提高了6.7％。此外，与Intel I9-9900X和NVIDIA RTX 2080 TI相比，STA可以达到14.47倍和11.33倍的速度，并且比最先进的基于FPGA的加速器对变形金刚的最先进的推断速度可以快2.00-19.47倍。

translated by 谷歌翻译

APNN-TC: Accelerating Arbitrary Precision Neural Networks on Ampere GPU Tensor Cores

Boyuan Feng , Yuke Wang , Tong Geng , Ang Li , Yufei Ding

分类：人工智能 | 计算机视觉

2021-06-23

多年来，通过广泛研究了与量化的神经网络。遗憾的是，在GPU上的有限精度支持（例如，INT1和INT4）上通常限制具有多样化的精度（例如，1位重量和2位激活）的事先努力。为了打破这种限制，我们介绍了第一个任意精密神经网络框架（APNN-TC），以充分利用对AMPERE GPU张量核心的量化优势。具体地，APNN-TC首先结合了一种新的仿真算法来支持与INT1计算基元和XOR /和BOOLEAN操作的任意短比特宽度计算。其次，APNN-TC集成了任意精密层设计，以有效地将仿真算法映射到带有新型批处理策略和专业内存组织的张量核心。第三，APNN-TC体现了一种新型任意精密NN设计，可最大限度地减少层次的内存访问，并进一步提高性能。广泛的评估表明，APNN-TC可以通过Cutlass内核和各种NN模型实现显着加速，例如Reset和VGG。

translated by 谷歌翻译

EIE: Efficient Inference Engine on Compressed Deep Neural Network

Song Han , Xingyu Liu , Huizi Mao , Jing Pu , Ardavan Pedram , Mark A. Horowitz , William J. Dally

分类：

2016-02-04

State-of-the-art deep neural networks (DNNs) have hundreds of millions of connections and are both computationally and memory intensive, making them difficult to deploy on embedded systems with limited hardware resources and power budgets. While custom hardware helps the computation, fetching weights from DRAM is two orders of magnitude more expensive than ALU operations, and dominates the required power.Previously proposed 'Deep Compression' makes it possible to fit large DNNs (AlexNet and VGGNet) fully in on-chip SRAM. This compression is achieved by pruning the redundant connections and having multiple connections share the same weight. We propose an energy efficient inference engine (EIE) that performs inference on this compressed network model and accelerates the resulting sparse matrix-vector multiplication with weight sharing. Going from DRAM to SRAM gives EIE 120× energy saving; Exploiting sparsity saves 10×; Weight sharing gives 8×; Skipping zero activations from ReLU saves another 3×. Evaluated on nine DNN benchmarks, EIE is 189× and 13× faster when compared to CPU and GPU implementations of the same DNN without compression. EIE has a processing power of 102 GOPS/s working directly on a compressed network, corresponding to 3 TOPS/s on an uncompressed network, and processes FC layers of AlexNet at 1.88×10 4 frames/sec with a power dissipation of only 600mW. It is 24,000× and 3,400× more energy efficient than a CPU and GPU respectively. Compared with DaDianNao, EIE has 2.9×, 19× and 3× better throughput, energy efficiency and area efficiency.

translated by 谷歌翻译

N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based Heterogeneous Computing Cores

Yu Gong , Zhihan Xu , Zhezhi He , Weifeng Zhang , Xiaobing Tu , Xiaoyao Liang , Li Jiang

分类：人工智能

2021-12-15

通过FPGA加速神经网络推断作为一种流行的选择，因为FPGA的重新配置性和高性能计算能力本质上满足了快速发展神经算法的计算需求。然而，FPGA（例如，Xilinx DPU）上的受欢迎的神经加速器主要利用DSP资源来构建其处理单元，而丰富的LUT资源没有充分利用。通过软件 - 硬件共同设计方法，在这项工作中，我们开发了一种基于FPGA的异构计算系统，用于神经网络加速度。从硬件角度来看，所提出的加速器由基于DSP和LUT的一般矩阵乘法（GEMM）计算核心组成，其以异质方式形成整个计算系统。基于DSP和LUT的GEMM核心计算为W.R.T统一指令集架构（ISA）和Unified Buffers。沿着神经网络推理路径的数据流，卷积/完全连接层的计算分为两部分，由基于DSP和LUT的GEMM核心异步处理。从软件的角度来看，我们在数学上和系统地模拟所提出的异构加速器的延迟和资源利用，关于不同的系统设计配置。通过利用加强学习技术，我们构建一个框架，实现目标异构加速器的设计规范的端到端选择和优化，包括工作量分裂策略，混合精度量化方案和DSP和LUT的资源分配 - 核。凭借提出的设计框架和异构计算系统，我们的设计优于最先进的混合和匹配设计，延迟减少了1.12-1.32倍，推理准确性更高。 N3H核心是开放的：https://github.com/elliothe/n3h_core。

translated by 谷歌翻译

E3NE: An End-to-End Framework for Accelerating Spiking Neural Networks with Emerging Neural Encoding on FPGAs

Daniel Gerlinghoff , Zhehui Wang , Xiaozhe Gu , Rick Siow Mong Goh , Tao Luo

分类：神经与进化计算

2021-11-19

编译器框架对于广泛使用基于FPGA的深度学习加速器来说是至关重要的。它们允许研究人员和开发人员不熟悉硬件工程，以利用域特定逻辑所获得的性能。存在传统人工神经网络的各种框架。然而，没有多大的研究努力已经进入创建针对尖刺神经网络（SNNS）进行优化的框架。这种新一代的神经网络对于在边缘设备上部署AI的越来越有趣，其具有紧密的功率和资源约束。我们的端到端框架E3NE为FPGA自动生成高效的SNN推理逻辑。基于Pytorch模型和用户参数，它应用各种优化，并评估基于峰值的加速器固有的权衡。多个水平的并行性和新出现的神经编码方案的使用导致优于先前的SNN硬件实现的效率。对于类似的型号，E3NE使用的硬件资源的少于50％，功率较低20％，同时通过幅度降低延迟。此外，可扩展性和通用性允许部署大规模的SNN模型AlexNet和VGG。

translated by 谷歌翻译

Shifting Capsule Networks from the Cloud to the Deep Edge

Miguel Costa , Diogo Costa , Tiago Gomes , Sandro Pinto

分类：机器学习 | 计算机视觉

2021-10-06

胶囊网络（CAPSNET）是图像处理的新兴趋势。与卷积神经网络相反，CAPSNET不容易受到对象变形的影响，因为对象的相对空间信息在整个网络中保存。但是，它们的复杂性主要与胶囊结构和动态路由机制有关，这使得以其原始形式部署封闭式以由小型微控制器（MCU）供电的设备几乎是不合理的。在一个智力从云到边缘迅速转移的时代，这种高复杂性对在边缘的采用capsnets的采用构成了严重的挑战。为了解决此问题，我们提出了一个API，用于执行ARM Cortex-M和RISC-V MCUS中的量化capsnet。我们的软件内核扩展了ARM CMSIS-NN和RISC-V PULP-NN，以用8位整数作为操作数支持胶囊操作。随之而来的是，我们提出了一个框架，以执行CAPSNET的训练后量化。结果显示，记忆足迹的减少近75％，准确性损失范围从0.07％到0.18％。在吞吐量方面，我们的ARM Cortex-M API可以分别在仅119.94和90.60毫秒（MS）的中型胶囊和胶囊层执行（STM32H7555ZIT6U，Cortex-M7 @ 480 MHz）。对于GAP-8 SOC（RISC-V RV32IMCXPULP @ 170 MHz），延迟分别降至7.02和38.03 ms。

translated by 谷歌翻译

Sparse Attention Acceleration with Synergistic In-Memory Pruning and On-Chip Recomputation

Amir Yazdanbakhsh , Ashkan Moradifirouzabadi , Zheng Li , Mingu Kang

分类：机器学习

2022-09-01

作为其核心计算，一种自我发挥的机制可以在整个输入序列上分配成对相关性。尽管表现良好，但计算成对相关性的成本高昂。尽管最近的工作表明了注意力分数低的元素的运行时间修剪的好处，但自我发挥机制的二次复杂性及其芯片内存能力的需求被忽略了。这项工作通过构建一个称为Sprint的加速器来解决这些约束，该加速器利用RERAM横杆阵列的固有并行性以近似方式计算注意力分数。我们的设计使用RERAM内的轻质模拟阈值电路来降低注意力评分，从而使Sprint只能获取一小部分相关数据到芯片内存。为了减轻模型准确性的潜在负面影响，Sprint重新计算数字中少数获取数据的注意力评分。相关注意分数的组合内修剪和片上重新计算可以将Sprint转化为仅线性的二次复杂性。此外，我们即使修剪后，我们也可以识别并利用相邻的注意操作之间的动态空间位置，从而消除了昂贵但冗余的数据获取。我们在各种最新的变压器模型上评估了我们提出的技术。平均而言，当使用总16KB芯片内存时，Sprint会产生7.5倍的速度和19.6倍的能量，而实际上与基线模型的等值级相当（平均为0.36％的降级）。

translated by 谷歌翻译

HTML版本

Efficient Quantized Sparse Matrix Operations on Tensor Cores

Shigang Li , Kazuki Osawa , Torsten Hoefler

分类：机器学习

2022-09-14

成倍增长的模型大小驱动了深度学习的持续成功，但它带来了过度的计算和记忆成本。从算法的角度来看，已经研究了模型的稀疏和量化以减轻问题。从体系结构的角度来看，硬件供应商提供了张量核心以进行加速。但是，由于严格的数据布局要求以及缺乏有效操纵低精度整数的支持，因此从稀疏的低精度矩阵操作中获得实践加速非常具有挑战性。我们提出了Magicube，这是一个高性能的稀疏矩阵库，用于张量芯上的低精度整数。 Magicube支持SPMM和SDDMM，这是深度学习的两个主要稀疏操作。 NVIDIA A100 GPU的实验结果表明，Magicube平均在供应商优化的库中平均达到1.44倍（高达2.37倍）的速度，用于稀疏内核，而在最先进的艺术品上进行了1.43倍的速度，具有可比的准确性。端到端稀疏变压器推断。

translated by 谷歌翻译

SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training

Xiaohan Chen , Yang Zhao , Yue Wang , Pengfei Xu , Haoran You , Chaojian Li , Yonggan Fu , Yingyan Lin , Zhangyang Wang

分类：机器学习 | (统计)机器学习

2021-01-04

深度神经网络（DNN）的记录断裂性能具有沉重的参数化，导致外部动态随机存取存储器（DRAM）进行存储。 DRAM访问的禁用能量使得在资源受限的设备上部署DNN是不普遍的，呼叫最小化重量和数据移动以提高能量效率。我们呈现SmartDeal（SD），算法框架，以进行更高成本的存储器存储/访问的较低成本计算，以便在推理和培训中积极提高存储和能量效率。 SD的核心是一种具有结构约束的新型重量分解，精心制作以释放硬件效率潜力。具体地，我们将每个重量张量分解为小基矩阵的乘积以及大的结构稀疏系数矩阵，其非零被量化为-2的功率。由此产生的稀疏和量化的DNN致力于为数据移动和重量存储而大大降低的能量，因为由于稀疏的比特 - 操作和成本良好的计算，恢复原始权重的最小开销。除了推理之外，我们采取了另一次飞跃来拥抱节能培训，引入创新技术，以解决培训时出现的独特障碍，同时保留SD结构。我们还设计专用硬件加速器，充分利用SD结构来提高实际能源效率和延迟。我们在不同的设置中对多个任务，模型和数据集进行实验。结果表明：1）应用于推理，SD可实现高达2.44倍的能效，通过实际硬件实现评估; 2）应用于培训，储存能量降低10.56倍，减少了10.56倍和4.48倍，与最先进的训练基线相比，可忽略的准确性损失。我们的源代码在线提供。

translated by 谷歌翻译