智能论文笔记

Phantom: A High-Performance Computational Core for Sparse Convolutional Neural Networks

Mahmood Azhar Qureshi , Arslan Munir

分类：人工智能

2021-11-09

稀疏卷积神经网络（CNNS）在过去几年中获得了显着的牵引力，因为与其致密的对应物相比，稀疏的CNNS可以大大降低模型尺寸和计算。稀疏的CNN经常引入层形状和尺寸的变化，这可以防止密集的加速器在稀疏的CNN模型上执行良好。最近提出的稀疏加速器，如SCNN，Eyeriss V2和Sparten，积极利用双面或全稀稀物质，即重量和激活的稀疏性，用于性能收益。然而，这些加速器具有低效的微架构，其限制了它们的性能，而不对非单位步幅卷积和完全连接（Fc）层的支持，或者遭受系统负荷不平衡的大规模遭受。为了规避这些问题并支持稀疏和密集的模型，我们提出了幻影，多线程，动态和灵活的神经计算核心。 Phantom使用稀疏二进制掩码表示，以主动寻求稀疏计算，并动态调度其计算线程以最大化线程利用率和吞吐量。我们还生成了幻象神经计算核心的二维（2D）网格体系结构，我们将其称为Phantom-2D加速器，并提出了一种支持CNN的所有层的新型数据流，包括单位和非单位步幅卷积，和fc层。此外，Phantom-2D使用双级负载平衡策略来最小化计算空闲，从而进一步提高硬件利用率。为了向不同类型的图层显示支持，我们评估VGG16和MobileNet上的幻影架构的性能。我们的模拟表明，Phantom-2D加速器分别达到了12倍，4.1 X，1.98x和2.36倍，超密架构，SCNN，Sparten和Eyeriss V2的性能增益。

translated by 谷歌翻译

S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN Acceleration

Zhi-Gang Liu , Paul N. Whatmough , Yuhao Zhu , Matthew Mattina

分类：机器学习

2021-07-16

利用稀疏性是加速在移动设备上的量化卷积神经网络（CNN）推断的关键技术。现有稀疏的CNN加速器主要利用无结构性稀疏性并实现显着的加速。然而，由于无界，很大程度上不可预测的稀疏模式，利用非结构化稀疏性需要复杂的硬件设计，具有显着的能量和面积开销，这对能量和区域效率至关重要的移动/ IOT推理场景特别有害。我们建议利用结构化的稀疏性，更具体地，更密集地绑定块（DBB）稀疏性，用于重量和激活。 DBB块张于每个块的最大非零数。因此，DBB暴露静态可预测的稀疏模式，使瘦稀疏性利用硬件能够。我们提出了新的硬件基元，以分别为（静态）权重和（动态）激活的DBB稀疏性，具有非常低的开销。建立在基元的顶部，我们描述了一种基于收缩阵列的CNN加速器的S2TA，可利用联合重量和激活DBB稀疏性和传统的收缩系统阵列上不可用的数据重用的新维度。与具有零值时钟门控的完全阵列的强基线相比，16NM中的S2TA达到超过2倍的加速和能量减少，超过五个流行的CNN基准。与近期的非收缩稀疏加速器相比，Eyeriss V2（65nm）和Sparten（45nm），S2TA在65nm中使用约2.2倍和3.1倍的每次推断的能量较少。

translated by 谷歌翻译

Efficient Processing of Deep Neural Networks: A Tutorial and Survey

Vivienne Sze , Yu-Hsin Chen , Tien-Ju Yang , Joel Emer

分类：

2017-03-27

Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.

translated by 谷歌翻译

A Survey of Near-Data Processing Architectures for Neural Networks

Mehdi Hassanpour , Marc Riera , Antonio González

分类：机器学习

2021-12-23

基于von-neumann架构的传统计算系统，数据密集型工作负载和应用程序（如机器学习）和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈，对近数据处理（NDP），机器学习和特别是神经网络（NN）的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术，这是有效地架构基于NN的基于NN的加速器，因为它们的工作能力是：高密度/低能量存储和近记忆计算/搜索引擎。在本文中，我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类，我们强调了它们的相似之处和差异。最后，我们讨论了需要探索的开放挑战和未来的观点，以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师，芯片设计师和研究人员来说是有价值的。

translated by 谷歌翻译

EIE: Efficient Inference Engine on Compressed Deep Neural Network

Song Han , Xingyu Liu , Huizi Mao , Jing Pu , Ardavan Pedram , Mark A. Horowitz , William J. Dally

分类：

2016-02-04

State-of-the-art deep neural networks (DNNs) have hundreds of millions of connections and are both computationally and memory intensive, making them difficult to deploy on embedded systems with limited hardware resources and power budgets. While custom hardware helps the computation, fetching weights from DRAM is two orders of magnitude more expensive than ALU operations, and dominates the required power.Previously proposed 'Deep Compression' makes it possible to fit large DNNs (AlexNet and VGGNet) fully in on-chip SRAM. This compression is achieved by pruning the redundant connections and having multiple connections share the same weight. We propose an energy efficient inference engine (EIE) that performs inference on this compressed network model and accelerates the resulting sparse matrix-vector multiplication with weight sharing. Going from DRAM to SRAM gives EIE 120× energy saving; Exploiting sparsity saves 10×; Weight sharing gives 8×; Skipping zero activations from ReLU saves another 3×. Evaluated on nine DNN benchmarks, EIE is 189× and 13× faster when compared to CPU and GPU implementations of the same DNN without compression. EIE has a processing power of 102 GOPS/s working directly on a compressed network, corresponding to 3 TOPS/s on an uncompressed network, and processes FC layers of AlexNet at 1.88×10 4 frames/sec with a power dissipation of only 600mW. It is 24,000× and 3,400× more energy efficient than a CPU and GPU respectively. Compared with DaDianNao, EIE has 2.9×, 19× and 3× better throughput, energy efficiency and area efficiency.

translated by 谷歌翻译

Two Sparsities Are Better Than One: Unlocking the Performance Benefits of Sparse-Sparse Networks

Kevin Lee Hunter , Lawrence Spracklen , Subutai Ahmad

分类：机器学习 | 人工智能 | 神经与进化计算

2021-12-27

原则上，稀疏的神经网络应该比传统的密集网络更有效。大脑中的神经元表现出两种类型的稀疏性;它们稀疏地相互连接和稀疏活跃。当组合时，这两种类型的稀疏性，称为重量稀疏性和激活稀疏性，提出了通过两个数量级来降低神经网络的计算成本。尽管存在这种潜力，但今天的神经网络只使用重量稀疏提供适度的性能益处，因为传统的计算硬件无法有效地处理稀疏网络。在本文中，我们引入了互补稀疏性，这是一种显着提高现有硬件对双稀疏网络性能的新技术。我们证明我们可以实现高性能运行的重量稀疏网络，我们可以通过结合激活稀疏性来乘以这些加速。采用互补稀疏性，我们显示出对FPGA的推断的吞吐量和能效提高了100倍。我们分析了典型的商业卷积网络等各种内核的可扩展性和资源权衡，例如Resnet-50和MobileNetv2。我们的互补稀疏性的结果表明，重量加激活稀疏性可以是有效的缩放未来AI模型的有效组合。

translated by 谷歌翻译

Going Further With Winograd Convolutions: Tap-Wise Quantization for Efficient Inference on 4x4 Tile

Renzo Andri , Beatrice Bussolino , Antonio Cipolletta , Lukas Cavigelli , Zhe Wang

分类：计算机视觉 | 机器学习

2022-09-26

当今的大多数计算机视觉管道都是围绕深神经网络构建的，卷积操作需要大部分一般的计算工作。与标准算法相比，Winograd卷积算法以更少的MAC计算卷积，当使用具有2x2尺寸瓷砖$ F_2 $的版本时，3x3卷积的操作计数为2.25倍。即使收益很大，Winograd算法具有较大的瓷砖尺寸，即$ f_4 $，在提高吞吐量和能源效率方面具有更大的潜力，因为它将所需的MAC降低了4倍。不幸的是，具有较大瓷砖尺寸的Winograd算法引入了数值问题，这些问题阻止了其在整数域特异性加速器上的使用和更高的计算开销，以在空间和Winograd域之间转换输入和输出数据。为了解锁Winograd $ F_4 $的全部潜力，我们提出了一种新颖的Tap-Wise量化方法，该方法克服了使用较大瓷砖的数值问题，从而实现了仅整数的推断。此外，我们介绍了以功率和区域效率的方式处理Winograd转换的自定义硬件单元，并展示了如何将此类自定义模块集成到工业级，可编程的DSA中。对大量最先进的计算机视觉基准进行了广泛的实验评估表明，Tap-Wise量化算法使量化的Winograd $ F_4 $网络几乎与FP32基线一样准确。 Winograd增强的DSA可实现高达1.85倍的能源效率，最高可用于最先进的细分和检测网络的端到端速度高达1.83倍。

translated by 谷歌翻译

Resource-Efficient Deep Learning: A Survey on Model-, Arithmetic-, and Implementation-Level Techniques

JunKyu Lee , Lev Mukhanov , Amir Sabbagh Molahosseini , Umar Minhas , Yang Hua , Jesus Martinez del Rincon , Kiril Dichev , Cheol-Ho Hong , Hans Vandierendonck

分类：机器学习

2021-12-30

我们日常生活中的深度学习是普遍存在的，包括自驾车，虚拟助理，社交网络服务，医疗服务，面部识别等，但是深度神经网络在训练和推理期间需要大量计算资源。该机器学习界主要集中在模型级优化（如深度学习模型的架构压缩），而系统社区则专注于实施级别优化。在其间，在算术界中提出了各种算术级优化技术。本文在模型，算术和实施级技术方面提供了关于资源有效的深度学习技术的调查，并确定了三种不同级别技术的资源有效的深度学习技术的研究差距。我们的调查基于我们的资源效率度量定义，阐明了较低级别技术的影响，并探讨了资源有效的深度学习研究的未来趋势。

translated by 谷歌翻译

An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers

Chao Fang , Aojun Zhou , Zhongfeng Wang

分类：机器学习

2022-08-12

在深度学习中，变压器一直是必不可少的主食。但是，对于现实生活中的应用程序，由于模型的巨大参数和操作，部署有效的变压器非常具有挑战性。为了减轻这种负担，利用稀疏是加速变压器的有效方法。新出现的Ampere GPU利用2：4的稀疏模式来实现模型加速度，而在部署模型时，它几乎无法满足各种算法和硬件约束。相比之下，我们提出了一个算法 - 铁软件合作的框架，以灵活有效地加速变压器，通过使用一般的N：M稀疏模式。（1）从算法的角度来看，我们提出了一种稀疏性遗传机制以及一种遗传的动态修剪（IDP）方法，以迅速获得一系列N：M稀疏候选变压器。进一步提出了模型压缩方案，以显着减少部署的存储需求。（2）从硬件的角度来看，我们提出了一种灵活，有效的硬件体系结构，即STA，以在部署N：M稀疏变压器时达到显着加速。 STA不仅具有具有较高计算效率的稀疏密度和致密矩阵乘法的计算引擎，而且还具有可扩展的软模块，从而消除了中级外芯片外数据通信的延迟。实验结果表明，与其他使用IDP生成的其他方法相比，n：m稀疏变压器的准确性平均提高了6.7％。此外，与Intel I9-9900X和NVIDIA RTX 2080 TI相比，STA可以达到14.47倍和11.33倍的速度，并且比最先进的基于FPGA的加速器对变形金刚的最先进的推断速度可以快2.00-19.47倍。

translated by 谷歌翻译

Sparseloop: An Analytical Approach To Sparse Tensor Accelerator Modeling

Yannan Nellie Wu , Po-An Tsai , Angshuman Parashar , Vivienne Sze , Joel S. Emer

分类：计算机视觉

2022-05-12

近年来，已经提出了许多加速器来有效处理稀疏张量代数应用（例如稀疏的神经网络）。但是，这些建议是大而多样化的设计空间中的单个点。缺乏对这些稀疏张量加速器的系统描述和建模支持阻碍了硬件设计人员无法高效，有效的设计空间探索。本文首先提出了统一的分类法，以系统地描述各种稀疏张量加速器的设计空间。基于提议的分类法，它引入了Sparseloop，这是第一个快速，准确，灵活的分析建模框架，以实现稀疏张量加速器的早期评估和探索。 Sparseloop理解了一系列体系结构规格，包括各种数据流和稀疏加速功能（例如，消除基于零的计算）。使用这些规格，Sparseloop评估了设计的加工速度和能源效率，同时考虑了使用的数据流以及使用随机张量密度模型的稀疏加速度功能引入的数据移动和计算。在代表性的加速器和工作负载中，Sparseloop的建模速度比周期级模拟快2000倍，保持相对性能趋势，并达到0.1％至8％的平均误差。通过案例研究，我们证明了Sparseloop有助于揭示设计稀疏张量加速器的重要见解的能力（例如，共同设计正交设计方面很重要）。

translated by 谷歌翻译

SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training

Xiaohan Chen , Yang Zhao , Yue Wang , Pengfei Xu , Haoran You , Chaojian Li , Yonggan Fu , Yingyan Lin , Zhangyang Wang

分类：机器学习 | (统计)机器学习

2021-01-04

深度神经网络（DNN）的记录断裂性能具有沉重的参数化，导致外部动态随机存取存储器（DRAM）进行存储。 DRAM访问的禁用能量使得在资源受限的设备上部署DNN是不普遍的，呼叫最小化重量和数据移动以提高能量效率。我们呈现SmartDeal（SD），算法框架，以进行更高成本的存储器存储/访问的较低成本计算，以便在推理和培训中积极提高存储和能量效率。 SD的核心是一种具有结构约束的新型重量分解，精心制作以释放硬件效率潜力。具体地，我们将每个重量张量分解为小基矩阵的乘积以及大的结构稀疏系数矩阵，其非零被量化为-2的功率。由此产生的稀疏和量化的DNN致力于为数据移动和重量存储而大大降低的能量，因为由于稀疏的比特 - 操作和成本良好的计算，恢复原始权重的最小开销。除了推理之外，我们采取了另一次飞跃来拥抱节能培训，引入创新技术，以解决培训时出现的独特障碍，同时保留SD结构。我们还设计专用硬件加速器，充分利用SD结构来提高实际能源效率和延迟。我们在不同的设置中对多个任务，模型和数据集进行实验。结果表明：1）应用于推理，SD可实现高达2.44倍的能效，通过实际硬件实现评估; 2）应用于培训，储存能量降低10.56倍，减少了10.56倍和4.48倍，与最先进的训练基线相比，可忽略的准确性损失。我们的源代码在线提供。

translated by 谷歌翻译

LW-GCN: A Lightweight FPGA-based Graph Convolutional Network Accelerator

Zhuofu Tao , Chen Wu , Yuan Liang , Lei He

分类：机器学习

2021-11-04

图表卷积网络（GCNS）已经引入有效地处理非欧几里德图数据。但是，GCNS在计算和内存访问中产生了大量的不规则性，这可以防止有效地利用传统的神经网络加速器。此外，现有的专用GCN加速器需要高内存卷，并且难以实现到资源有限的边缘设备上。在这项工作中，我们提出了LW-GCN，一种基于轻量级的FPGA的加速器，具有软件 - 硬件共同设计的过程，可以在GCN推理中解决计算和存储器访问中的不规则性。 LW-GCN将主GCN操作分解为稀疏密集的矩阵乘法（SDMM）和致密矩阵乘法（DMM）。我们提出了一种新颖的压缩格式来平衡PE的工作量并防止数据危险。此外，我们应用数据量化和工作负载折叠，并将GCN推理的SDMM和DMM映射到资源有限硬件上的统一架构上。 GCN和Graphsage的评估在Xilinx Kintex-7 FPGA中进行了三个流行的数据集。与现有CPU，GPU和最先进的FPGA的加速器相比，LW-GCN可将延迟缩短高达60倍，12倍，1.7倍，并分别将功率效率提高至912倍。，511x和3.87倍。此外，与NVIDIA最新的GPU Jetson Xavier NX相比，LW-GCN分别实现了32倍和84倍的加速和节能。

translated by 谷歌翻译

FAT: An In-Memory Accelerator with Fast Addition for Ternary Weight Neural Networks

Shien Zhu , Luan H. K. Duong , Hui Chen , Di Liu , Weichen Liu

分类：人工智能

2022-01-19

卷积神经网络（CNN）在各种应用中表现出卓越的性能，但具有较高的计算复杂性。量化用于降低CNN的延迟和存储成本。在量化方法中，二进制重量网络（BWN和TWNS）在8位和4位量化方面具有独特的优势。他们用加法替代CNN中的乘法操作，这些操作在内存计数（IMC）设备上受到青睐。 BWNS的IMC加速度已被广泛研究。但是，尽管TWN的精度比BWN具有更高的准确性和更好的稀疏性，但IMC的加速度的研究有限。现有的IMC设备上的TWN效率低下，因为稀疏性无法很好地利用，并且加法操作效率不高。在本文中，我们建议FAT作为TWN的新型IMC加速器。首先，我们提出了一个稀疏的加法控制单元，该单元利用TWN的稀疏度跳过了零重量的无效操作。其次，我们提出了一个基于内存感知器的快速添加方案，以避免携带传播的时间开销并将其写回记忆单元。第三，我们进一步提出了一个组合的数据映射，以减少激活和权重的数据移动，并增加跨内存列的并行性。仿真结果表明，与最先进的IMC加速器Parapim相比，对于感官放大器水平上的加法操作，FAT达到2.00倍加速度，1.22倍功率效率和1.22倍面积效率。与帕拉皮姆（Parapim）相比，脂肪达到10.02倍的加速度和12.19倍的能量效率，而平均稀疏性为80％的网络。

translated by 谷歌翻译

Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks

Fei Sun , Minghai Qin , Tianyun Zhang , Xiaolong Ma , Haoran Li , Junwen Luo , Zihao Zhao , Yen-Kuang Chen , Yuan Xie

分类：机器学习 | 人工智能

2021-12-20

已经证明，深度神经网络（DNN）在解决许多现实问题方面是有效的，但其高计算成本禁止将这些模型部署到边缘设备。修剪，作为将零的方法引入模型重量的方法，已显示是在模型精度和计算效率之间提供良好权衡的有效方法，并且是一种生成压缩模型的广泛使用的方法。然而，修剪的粒度使得重要的权衡。在相同的稀疏性水平上，粗粒结构的稀疏图案在传统硬件上更有效，但导致更差的精度，而细粒度的非结构化稀疏模式可以实现更好的精度，但在现有硬件上效率低下。另一方面，一些现代处理器配备了快速的片上刻痕存储器和聚集/散射引擎，用于在这种存储器上执行间接负载和存储操作。在这项工作中，我们提出了一系列新颖的稀疏模式，命名为聚光散射（GS）模式，以利用Scratchpad存储器和收集/散射引擎来加速神经网络推论。相应地，我们呈现了一种紧凑的稀疏格式。提出的稀疏模式，以及一种新颖的修剪方法，解决了负载不平衡问题，并导致质量接近非结构化稀疏模型的型号，以及靠近结构化稀疏型号的计算效率。我们的实验表明，与传统结构稀疏模式相比，GS模式在精度和计算效率之间始终如一地进行折衷。 GS模式可以以相同的精度级别将DNN组件的运行时间减少两到三次。这是在三个不同的深度学习任务和流行模型中确认，即机器翻译的GNMT，用于图像识别的Reset50，以及用于声学语音识别的Japser。

translated by 谷歌翻译

CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for Energy-Efficient Low-precision Deep Convolutional Neural Networks

Muhammad Abdullah Hanif , Giuseppe Maria Sarda , Alberto Marchisio , Guido Masera , Maurizio Martina , Muhammad Shafique

分类：机器学习

2022-07-31

在当今智能网络物理系统时代，由于它们在复杂的现实世界应用中的最新性能，深度神经网络（DNN）已无处不在。这些网络的高计算复杂性转化为增加的能源消耗，这是在资源受限系统中部署大型DNN的首要障碍。通过培训后量化实现的定点（FP）实现通常用于减少这些网络的能源消耗。但是，FP中的均匀量化间隔将数据结构的位宽度限制为大值，因为需要以足够的分辨率来表示大多数数字并避免较高的量化误差。在本文中，我们利用了关键见解，即（在大多数情况下）DNN的权重和激活主要集中在零接近零，只有少数几个具有较大的幅度。我们提出了Conlocnn，该框架是通过利用来实现节能低精度深度卷积神经网络推断的框架：（1）重量的不均匀量化，以简化复杂的乘法操作的简化；（2）激活值之间的相关性，可以在低成本的情况下以低成本进行部分补偿，而无需任何运行时开销。为了显着从不均匀的量化中受益，我们还提出了一种新颖的数据表示格式，编码低精度二进制签名数字，以压缩重量的位宽度，同时确保直接使用编码的权重来使用新颖的多重和处理 - 积累（MAC）单元设计。

translated by 谷歌翻译

A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End Inference of Real-World Deep Neural Networks

Angelo Garofalo , Gianmarco Ottavi , Francesco Conti , Geethan Karunaratne , Irem Boybat , Luca Benini , Davide Rossi

分类：机器学习 | 神经与进化计算

2022-01-04

在小型电池约束的物流设备上部署现代TinyML任务需要高计算能效。使用非易失性存储器（NVM）的模拟内存计算（IMC）承诺在深神经网络（DNN）推理中的主要效率提高，并用作DNN权重的片上存储器存储器。然而，在系统级别尚未完全理解IMC的功能灵活性限制及其对性能，能量和面积效率的影响。为了目标实际的端到端的IOT应用程序，IMC阵列必须括在异构可编程系统中，引入我们旨在解决这项工作的新系统级挑战。我们介绍了一个非均相紧密的聚类架构，整合了8个RISC-V核心，内存计算加速器（IMA）和数字加速器。我们在高度异构的工作负载上基准测试，例如来自MobileNetv2的瓶颈层，显示出11.5倍的性能和9.5倍的能效改进，而在核心上高度优化并行执行相比。此外，我们通过将我们的异构架构缩放到多阵列加速器，探讨了在IMC阵列资源方面对全移动级DNN（MobileNetv2）的端到端推断的要求。我们的结果表明，我们的解决方案在MobileNetv2的端到端推断上，在执行延迟方面比现有的可编程架构更好，比最先进的异构解决方案更好的数量级集成内存计算模拟核心。

translated by 谷歌翻译

SPA-GCN: Efficient and Flexible GCN Accelerator with an Application for Graph Similarity Computation

Atefeh Sohrabizadeh , Yuze Chi , Jason Cong

分类：机器学习

2021-11-10

虽然有很多关于图像深度学习的硬件加速研究，但在加速涉及图形的深度学习应用时，有一个相当有利的专注。图的独特特性，例如不规则的内存访问和动态并行性，当算法映射到CPU或GPU时，施加有几个挑战。为了在利用所有可用的稀疏性的同时解决这些挑战，我们提出了一种灵活的架构，称为SPA-GCN，用于加速图形卷积网络（GCN），在图中的深度学习算法中的核心计算单元。该架构专门用于处理许多小图形，因为图表尺寸对设计考虑产生了重大影响。在这种情况下，我们使用SIMGNN是一种基于神经网络的图形匹配算法，作为展示我们架构的有效性的案例研究。实验结果表明，与多核CPU实施和GPU实施相比，SPA-GCN可以提供高速度，显示设计效率。

translated by 谷歌翻译

Optimization of FPGA-based CNN Accelerators Using Metaheuristics

Sadiq M. Sait , Aiman El-Maleh , Mohammad Altakrouri , Ahmad Shawahna

分类：神经与进化计算 | 计算机视觉

2022-09-22

近年来，卷积神经网络（CNN）证明了它们在许多领域解决问题的能力，并且以前无法进行准确性。但是，这带有广泛的计算要求，这使得普通CPU无法提供所需的实时性能。同时，FPGA对加速CNN推断的兴趣激增。这是由于他们有能力创建具有不同级别的并行性的自定义设计。此外，与GPU相比，FPGA提供每瓦的性能更好。基于FPGA的CNN加速器的当前趋势是实现多个卷积层处理器（CLP），每个处理器都针对一层层量身定制。但是，CNN体系结构的日益增长的复杂性使得优化目标FPGA设备上可用的资源，以使最佳性能更具挑战性。在本文中，我们提出了CNN加速器和随附的自动设计方法，该方法采用元启发式学来分区可用的FPGA资源来设计多CLP加速器。具体而言，提出的设计工具采用模拟退火（SA）和禁忌搜索（TS）算法来查找所需的CLP数量及其各自的配置，以在给定的目标FPGA设备上实现最佳性能。在这里，重点是关键规格和硬件资源，包括数字信号处理器，阻止RAM和芯片内存储器带宽。提出了使用四个众所周知的基准CNN的实验结果和比较，表明所提出的加速框架既令人鼓舞又有前途。基于SA-/TS的多CLP比在加速Alexnet，Squeezenet 1.1，VGGNET和Googlenet架构上的最新单个/多CLP方法高1.31x-2.37倍高2.37倍。和VC709 FPGA板。

translated by 谷歌翻译

Efficient Compilation and Mapping of Fixed Function Combinational Logic onto Digital Signal Processors Targeting Neural Network Inference and Utilizing High-level Synthesis

Soheil Nazar Shahsavani , Arash Fayyazi , Mahdi Nazemi , Massoud Pedram

分类：机器学习

2022-07-30

最新的努力改善了满足当今应用程序要求的神经网络（NN）加速器的性能，这引起了基于逻辑NN推理的新趋势，该趋势依赖于固定功能组合逻辑。将如此大的布尔函数与许多输入变量和产品项绘制到现场可编程门阵列（FPGA）上的数字信号处理器（DSP）需要一个新颖的框架，考虑到此过程中DSP块的结构和可重构性。本文中提出的方法将固定功能组合逻辑块映射到一组布尔功能，其中与每个功能相对应的布尔操作映射到DSP设备，而不是FPGA上的查找表（LUTS），以利用高性能，DSP块的低潜伏期和并行性。％本文还提出了一种用于NNS编译和映射的创新设计和优化方法，并利用固定功能组合逻辑与DSP进行了使用高级合成流的FPGA上的DSP。％我们在几个\ revone {DataSets}上进行的实验评估和选定的NNS与使用DSP的基于ART FPGA的NN加速器相比，根据推理潜伏期和输出准确性，证明了我们框架的可比性。

translated by 谷歌翻译

Resource-Efficient Neural Networks for Embedded Systems

Wolfgang Roth , Günther Schindler , Bernhard Klein , Robert Peharz , Sebastian Tschiatschek , Holger Fröning , Franz Pernkopf , Zoubin Ghahramani

分类： (统计)机器学习 | 机器学习

2020-01-07

While machine learning is traditionally a resource intensive task, embedded systems, autonomous navigation, and the vision of the Internet of Things fuel the interest in resource-efficient approaches. These approaches aim for a carefully chosen trade-off between performance and resource consumption in terms of computation and energy. The development of such approaches is among the major challenges in current machine learning research and key to ensure a smooth transition of machine learning technology from a scientific environment with virtually unlimited computing resources into everyday's applications. In this article, we provide an overview of the current state of the art of machine learning techniques facilitating these real-world requirements. In particular, we focus on deep neural networks (DNNs), the predominant machine learning models of the past decade. We give a comprehensive overview of the vast literature that can be mainly split into three non-mutually exclusive categories: (i) quantized neural networks, (ii) network pruning, and (iii) structural efficiency. These techniques can be applied during training or as post-processing, and they are widely used to reduce the computational demands in terms of memory footprint, inference speed, and energy efficiency. We also briefly discuss different concepts of embedded hardware for DNNs and their compatibility with machine learning techniques as well as potential for energy and latency reduction. We substantiate our discussion with experiments on well-known benchmark datasets using compression techniques (quantization, pruning) for a set of resource-constrained embedded systems, such as CPUs, GPUs and FPGAs. The obtained results highlight the difficulty of finding good trade-offs between resource efficiency and predictive performance.

translated by 谷歌翻译