Neuromorphic computing using biologically inspired Spiking Neural Networks (SNNs) is a promising solution to meet Energy-Throughput (ET) efficiency needed for edge computing devices. Neuromorphic hardware architectures that emulate SNNs in analog/mixed-signal domains have been proposed to achieve order-of-magnitude higher energy efficiency than all-digital architectures, however at the expense of limited scalability, susceptibility to noise, complex verification, and poor flexibility. On the other hand, state-of-the-art digital neuromorphic architectures focus either on achieving high energy efficiency (Joules/synaptic operation (SOP)) or throughput efficiency (SOPs/second/area), resulting in poor ET efficiency. In this work, we present THOR, an all-digital neuromorphic processor with a novel memory hierarchy and neuron update architecture that addresses both energy consumption and throughput bottlenecks. We implemented THOR in 28nm FDSOI CMOS technology and our post-layout results demonstrate an ET efficiency of 7.29G $\text{TSOP}^2/\text{mm}^2\text{Js}$ at 0.9V, 400 MHz, which represents a 3X improvement over state-of-the-art digital neuromorphic processors.
translated by 谷歌翻译
编译器框架对于广泛使用基于FPGA的深度学习加速器来说是至关重要的。它们允许研究人员和开发人员不熟悉硬件工程,以利用域特定逻辑所获得的性能。存在传统人工神经网络的各种框架。然而,没有多大的研究努力已经进入创建针对尖刺神经网络(SNNS)进行优化的框架。这种新一代的神经网络对于在边缘设备上部署AI的越来越有趣,其具有紧密的功率和资源约束。我们的端到端框架E3NE为FPGA自动生成高效的SNN推理逻辑。基于Pytorch模型和用户参数,它应用各种优化,并评估基于峰值的加速器固有的权衡。多个水平的并行性和新出现的神经编码方案的使用导致优于先前的SNN硬件实现的效率。对于类似的型号,E3NE使用的硬件资源的少于50%,功率较低20%,同时通过幅度降低延迟。此外,可扩展性和通用性允许部署大规模的SNN模型AlexNet和VGG。
translated by 谷歌翻译
基于von-neumann架构的传统计算系统,数据密集型工作负载和应用程序(如机器学习)和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈,对近数据处理(NDP),机器学习和特别是神经网络(NN)的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术,这是有效地架构基于NN的基于NN的加速器,因为它们的工作能力是:高密度/低能量存储和近记忆计算/搜索引擎。在本文中,我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类,我们强调了它们的相似之处和差异。最后,我们讨论了需要探索的开放挑战和未来的观点,以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师,芯片设计师和研究人员来说是有价值的。
translated by 谷歌翻译
Loihi is a 60-mm 2 chip fabricated in Intel's 14-nm process that advances the state-of-the-art modeling of spiking neural networks in silicon. It integrates a wide range of novel features for the field, such as hierarchical connectivity, dendritic compartments, synaptic delays, and, most importantly, programmable synaptic learning rules. Running a spiking convolutional form of the Locally Competitive Algorithm, Loihi can solve LASSO optimization problems with over three orders of magnitude superior energy-delay product compared to conventional solvers running on a CPU isoprocess/voltage/area. This provides an unambiguous example of spike-based computation, outperforming all known conventional solutions.Neuroscience offers a bountiful source of inspiration for novel hardware architectures and algorithms. Through their complex interactions at large scales, biological neurons exhibit an impressive range of behaviors and properties that we currently struggle to model with modern analytical tools, let alone replicate with our design and manufacturing technology. Some of the magic that we see in the brain undoubtedly stems from exotic device and material properties that will remain out of our fabs' reach for
translated by 谷歌翻译
在小型电池约束的物流设备上部署现代TinyML任务需要高计算能效。使用非易失性存储器(NVM)的模拟内存计算(IMC)承诺在深神经网络(DNN)推理中的主要效率提高,并用作DNN权重的片上存储器存储器。然而,在系统级别尚未完全理解IMC的功能灵活性限制及其对性能,能量和面积效率的影响。为了目标实际的端到端的IOT应用程序,IMC阵列必须括在异构可编程系统中,引入我们旨在解决这项工作的新系统级挑战。我们介绍了一个非均相紧密的聚类架构,整合了8个RISC-V核心,内存计算加速器(IMA)和数字加速器。我们在高度异构的工作负载上基准测试,例如来自MobileNetv2的瓶颈层,显示出11.5倍的性能和9.5倍的能效改进,而在核心上高度优化并行执行相比。此外,我们通过将我们的异构架构缩放到多阵列加速器,探讨了在IMC阵列资源方面对全移动级DNN(MobileNetv2)的端到端推断的要求。我们的结果表明,我们的解决方案在MobileNetv2的端到端推断上,在执行延迟方面比现有的可编程架构更好,比最先进的异构解决方案更好的数量级集成内存计算模拟核心。
translated by 谷歌翻译
传统的神经结构倾向于通过类似数量(例如电流或电压)进行通信,但是,随着CMOS设备收缩和供应电压降低,电压/电流域模拟电路的动态范围变得更窄,可用的边缘变小,噪声免疫力降低。不仅如此,在常规设计中使用操作放大器(运算放大器)和时钟或异步比较器会导致高能量消耗和大型芯片区域,这将不利于构建尖峰神经网络。鉴于此,我们提出了一种神经结构,用于生成和传输时间域信号,包括神经元模块,突触模块和两个重量模块。所提出的神经结构是由晶体管三极区域的泄漏电流驱动的,不使用操作放大器和比较器,因此与常规设计相比,能够提供更高的能量和面积效率。此外,由于内部通信通过时间域信号,该结构提供了更大的噪声免疫力,从而简化了模块之间的接线。提出的神经结构是使用TSMC 65 nm CMOS技术制造的。拟议的神经元和突触分别占据了127 UM2和231 UM2的面积,同时达到了毫秒的时间常数。实际芯片测量表明,所提出的结构成功地用毫秒的时间常数实现了时间信号通信函数,这是迈向人机交互的硬件储层计算的关键步骤。
translated by 谷歌翻译
The term ``neuromorphic'' refers to systems that are closely resembling the architecture and/or the dynamics of biological neural networks. Typical examples are novel computer chips designed to mimic the architecture of a biological brain, or sensors that get inspiration from, e.g., the visual or olfactory systems in insects and mammals to acquire information about the environment. This approach is not without ambition as it promises to enable engineered devices able to reproduce the level of performance observed in biological organisms -- the main immediate advantage being the efficient use of scarce resources, which translates into low power requirements. The emphasis on low power and energy efficiency of neuromorphic devices is a perfect match for space applications. Spacecraft -- especially miniaturized ones -- have strict energy constraints as they need to operate in an environment which is scarce with resources and extremely hostile. In this work we present an overview of early attempts made to study a neuromorphic approach in a space context at the European Space Agency's (ESA) Advanced Concepts Team (ACT).
translated by 谷歌翻译
神经形态工程由于其作为研究领域的巨大潜力而​​集中了大量研究人员的努力,以寻找对生物神经系统的优势的利用,而整个大脑的优势是设计更有效,更真实的 - 有能力的应用程序。为了开发尽可能接近生物学的应用,使用了尖峰神经网络(SNN),被认为是生物学上的,并构成了第三代人工神经网络(ANN)。由于某些基于SNN的应用程序可能需要存储数据才能以后使用,因此在数字电路中既存在,又以某种形式,在生物学中,需要尖峰内存。这项工作介绍了内存的尖峰实现,这是计算机架构中最重要的组件之一,在设计完全尖峰计算机时可能至关重要。在设计这种尖峰内存的过程中,还实施了不同的中间组件和测试。测试是在大三角帆神经形态平台上进行的,并允许验证用于构建所构图的方法。此外,这项工作深入研究了如何使用这种方法构建尖峰块,并包括IT和其他类似作品中使用的方法的比较,该作品着重于尖峰组件的设计,其中包括尖峰逻辑门和尖峰记忆。所有实施的块和开发的测试均可在公共存储库中提供。
translated by 谷歌翻译
当今的大多数计算机视觉管道都是围绕深神经网络构建的,卷积操作需要大部分一般的计算工作。与标准算法相比,Winograd卷积算法以更少的MAC计算卷积,当使用具有2x2尺寸瓷砖$ F_2 $的版本时,3x3卷积的操作计数为2.25倍。即使收益很大,Winograd算法具有较大的瓷砖尺寸,即$ f_4 $,在提高吞吐量和能源效率方面具有更大的潜力,因为它将所需的MAC降低了4倍。不幸的是,具有较大瓷砖尺寸的Winograd算法引入了数值问题,这些问题阻止了其在整数域特异性加速器上的使用和更高的计算开销,以在空间和Winograd域之间转换输入和输出数据。为了解锁Winograd $ F_4 $的全部潜力,我们提出了一种新颖的Tap-Wise量化方法,该方法克服了使用较大瓷砖的数值问题,从而实现了仅整数的推断。此外,我们介绍了以功率和区域效率的方式处理Winograd转换的自定义硬件单元,并展示了如何将此类自定义模块集成到工业级,可编程的DSA中。对大量最先进的计算机视觉基准进行了广泛的实验评估表明,Tap-Wise量化算法使量化的Winograd $ F_4 $网络几乎与FP32基线一样准确。 Winograd增强的DSA可实现高达1.85倍的能源效率,最高可用于最先进的细分和检测网络的端到端速度高达1.83倍。
translated by 谷歌翻译
尖峰神经网络(SNN)提供了一个新的计算范式,能够高度平行,实时处理。光子设备是设计与SNN计算范式相匹配的高带宽,平行体系结构的理想选择。 CMO和光子元件的协整允许将低损耗的光子设备与模拟电子设备结合使用,以更大的非线性计算元件的灵活性。因此,我们在整体硅光子学(SIPH)过程上设计和模拟了光电尖峰神经元电路,该过程复制了超出泄漏的集成和火(LIF)之外有用的尖峰行为。此外,我们探索了两种学习算法,具有使用Mach-Zehnder干涉法(MZI)网格作为突触互连的片上学习的潜力。实验证明了随机反向传播(RPB)的变体,并在简单分类任务上与标准线性回归的性能相匹配。同时,将对比性HEBBIAN学习(CHL)规则应用于由MZI网格组成的模拟神经网络,以进行随机输入输出映射任务。受CHL训练的MZI网络的性能比随机猜测更好,但不符合理想神经网络的性能(没有MZI网格施加的约束)。通过这些努力,我们证明了协调的CMO和SIPH技术非常适合可扩展的SNN计算体系结构的设计。
translated by 谷歌翻译
基于脑部的事件的神经形态处理系统已成为一种有前途的技术,尤其是生物医学电路和系统。但是,神经网络的神经形态和生物学实现都具有关键的能量和记忆约束。为了最大程度地减少在多核神经形态处理器中的内存资源的使用,我们提出了一种受生物神经网络启发的网络设计方法。我们使用这种方法来设计针对小世界网络优化的新路由方案,同时介绍了一种硬件感知的放置算法,该算法优化了针对小型世界网络模型的资源分配。我们使用规范的小世界网络验证算法,并为其他网络提供初步结果
translated by 谷歌翻译
人工智能革命(AI)提出了巨大的存储和数据处理要求。大量的功耗和硬件开销已成为构建下一代AI硬件的主要挑战。为了减轻这种情况,神经形态计算引起了极大的关注,因为它在功耗非常低的功能方面具有出色的数据处理能力。尽管无情的研究已经进行了多年,以最大程度地减少神经形态硬件的功耗,但我们离达到人脑的能源效率还有很长的路要走。此外,设计复杂性和过程变化阻碍了当前神经形态平台的大规模实现。最近,由于其出色的速度和功率指标,在低温温度中实施神经形态计算系统的概念引起了人们的兴趣。可以设计几种低温装置,可作为具有超低功率需求的神经形态原始设备。在这里,我们全面回顾了低温神经形态硬件。我们将现有的低温神经形态硬件分类为几个分层类别,并根据关键性能指标绘制比较分析。我们的分析简洁地描述了相关电路拓扑的操作,并概述了最先进的技术平台遇到的优势和挑战。最后,我们提供了见解,以规避这些挑战,以实现未来的研究发展。
translated by 谷歌翻译
深度神经网络(DNN)在各个领域的有效性(例如分类问题,图像处理,视频细分和语音识别)已被证明。加速器内存(AIM)架构是有效加速DNN的有前途解决方案,因为它们可以避免传统的von Neumann架构的内存瓶颈。由于主要内存通常在许多系统中是DRAM,因此在DRAM中高度平行的多重含用(MAC)阵列可以通过减少处理器和主内存之间的数据运动的距离和数量来最大化目标的好处。本文介绍了一个名为MAC-DO的基于模拟MAC阵列的AIM架构。与以前的IN-DRAM加速器相反,MAC-DO使整个DRAM阵列同时参与MAC计算,而无需闲置细胞,从而导致更高的吞吐量和能量效率。通过利用基于电荷转向的新的模拟计算方法来实现这种改进。此外,Mac-Do天生支持具有良好线性的多位Mac。 MAC-DO仍然与当前的1T1C DRAM技术兼容,而没有任何DRAM单元格和数组的修改。 MAC-DO数组可以基于输出固定映射加速矩阵乘法,因此支持DNN中执行的大多数计算。我们使用晶体管级仿真的评估表明,具有16 x 16 Mac-Do细胞的测试MAC-DO阵列可达到188.7 TOPS/W,并显示了MNIST数据集的97.07%TOP-1准确性,而无需重新培训。
translated by 谷歌翻译
Spiking Neural Networks (SNNs) have gained huge attention as a potential energy-efficient alternative to conventional Artificial Neural Networks (ANNs) due to their inherent high-sparsity activation. Recently, SNNs with backpropagation through time (BPTT) have achieved a higher accuracy result on image recognition tasks than other SNN training algorithms. Despite the success from the algorithm perspective, prior works neglect the evaluation of the hardware energy overheads of BPTT due to the lack of a hardware evaluation platform for this SNN training algorithm. Moreover, although SNNs have long been seen as an energy-efficient counterpart of ANNs, a quantitative comparison between the training cost of SNNs and ANNs is missing. To address the aforementioned issues, in this work, we introduce SATA (Sparsity-Aware Training Accelerator), a BPTT-based training accelerator for SNNs. The proposed SATA provides a simple and re-configurable systolic-based accelerator architecture, which makes it easy to analyze the training energy for BPTT-based SNN training algorithms. By utilizing the sparsity, SATA increases its computation energy efficiency by $5.58 \times$ compared to the one without using sparsity. Based on SATA, we show quantitative analyses of the energy efficiency of SNN training and compare the training cost of SNNs and ANNs. The results show that, on Eyeriss-like systolic-based architecture, SNNs consume $1.27\times$ more total energy with sparsities when compared to ANNs. We find that such high training energy cost is from time-repetitive convolution operations and data movements during backpropagation. Moreover, to propel the future SNN training algorithm design, we provide several observations on energy efficiency for different SNN-specific training parameters and propose an energy estimation framework for SNN training. Code for our framework is made publicly available.
translated by 谷歌翻译
穗状花序的神经形状硬件占据了深度神经网络(DNN)的更节能实现的承诺,而不是GPU的标准硬件。但这需要了解如何在基于事件的稀疏触发制度中仿真DNN,否则能量优势丢失。特别地,解决序列处理任务的DNN通常采用难以使用少量尖峰效仿的长短期存储器(LSTM)单元。我们展示了许多生物神经元的面部,在每个尖峰后缓慢的超积极性(AHP)电流,提供了有效的解决方案。 AHP电流可以轻松地在支持多舱神经元模型的神经形状硬件中实现,例如英特尔的Loihi芯片。滤波近似理论解释为什么AHP-Neurons可以模拟LSTM单元的功能。这产生了高度节能的时间序列分类方法。此外,它为实现了非常稀疏的大量大型DNN来实现基础,这些大型DNN在文本中提取单词和句子之间的关系,以便回答有关文本的问题。
translated by 谷歌翻译
由于基于尖峰的深度学习推断应用在嵌入式系统中增加,这些系统倾向于整合神经形态促进剂,例如$ \ mu $大脑以提高能源效率。我们提出了一个$ \ mu $脑的可扩展的多核神经形状硬件设计,以加速尖端卷积神经网络(SDCNNS)的计算。为了提高能量效率,核心设计成在其神经元和突触容量方面是异构的(大核心的容量高于小核心),它们使用并行分段总线互连互连,这导致降低延迟和能量到传统的基于网状网上的片上(NOC)。我们提出一个名为Sentryos的系统软件框架,将SDCNN推理应用映射到所提出的设计。 sentryos由编译器和运行时管理器组成。编译器通过利用大小$ \ mu $脑核心的内部架构将SDCNN应用程序编译为子网。运行时管理器将这些子网调度到核心和管道上的执行以提高吞吐量。我们评估了具有五种常用的SDCNN推理应用的提出的大小核心神经形态设计和系统软件框架,并表明所提出的解决方案可降低能量(37%至98%),降低延迟(9%和25%),并提高申请产量(20%至36%之间)。我们还表明,对于其他尖峰神经形态加速器,可以轻松扩展桑德里。
translated by 谷歌翻译
神经形态计算机通过模拟人脑进行计算,并使用极低的功率。预计将来对于节能计算是必不可少的。尽管它们主要用于尖峰基于神经网络的机器学习应用程序,但已知神经形态计算机是Turing-Complete,因此能够进行通用计算。但是,为了充分意识到它们的通用,节能计算的潜力,重要的是要设计有效的编码数字机制。当前的编码方法的适用性有限,可能不适合通用计算。在本文中,我们将虚拟神经元视为整数和理性数字的编码机制。我们评估虚拟神经元在物理和模拟神经形态硬件上的性能,并表明它可以使用基于混合信号的Memristor神经形态处理器平均使用23 nj的能量执行加法操作。我们还通过在某些MU回复功能中使用它来证明其实用性,这些功能是通用计算的构建块。
translated by 谷歌翻译
尖峰神经网络(SNN)为时间信号处理提供了有效的计算机制,尤其是与低功率SNN推理相结合时。历史上很难配置SNN,缺乏为任意任务寻找解决方案的一般方法。近年来,逐渐发芽的优化方法已应用于SNN,并且越来越轻松。因此,SNN和SNN推理处理器为在没有云依赖性的能源约束环境中为商业低功率信号处理提供了一个良好的平台。但是,迄今为止,行业中的ML工程师无法访问这些方法,需要研究生级培训才能成功配置单个SNN应用程序。在这里,我们演示了一条方便的高级管道,用于设计,训练和部署任意的时间信号处理应用程序,向子-MW SNN推理硬件。我们使用用于时间信号处理的新型直接SNN体系结构,使用突触时间常数的金字塔在一系列时间尺度上提取信号特征。我们在环境音频分类任务上演示了这种体系结构,该任务部署在流式传输模式下的Xylo SNN推理处理器上。我们的应用以低功率(<4MUW推理功率)达到了高准确性(98%)和低潜伏期(100ms)。我们的方法使培训和部署SNN应用程序可用于具有通用NN背景的ML工程师,而无需先前的Spiking NNS经验。我们打算将神经形态硬件和SNN成为商业低功率和边缘信号处理应用程序的吸引人选择。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
在本文中,我们提出了一种节能的SNN体系结构,该体系结构可以通过提高的精度无缝地运行深度尖峰神经网络(SNN)。首先,我们提出了一个转换意识培训(CAT),以减少无硬件实施开销而无需安排SNN转换损失。在拟议的CAT中,可以有效利用用于在ANN训练过程中模拟SNN的激活函数,以减少转换后的数据表示误差。基于CAT技术,我们还提出了一项首要尖峰编码,该编码可以通过使用SPIKE时间信息来轻巧计算。支持提出技术的SNN处理器设计已使用28nm CMOS流程实施。该处理器的推理能量分别为486.7UJ,503.6UJ和1426UJ的最高1级准确性,分别为91.7%,67.9%和57.4%,分别为CIFAR-10,CIFAR-100和TININE-IMIMAGENET处理。16具有5位对数权重。
translated by 谷歌翻译