在本文中,我们为两个静态的美国手语(ASL)手势分类任务(即ASL字母和ASL数字)开发了四个尖峰神经网络(SNN)模型。SNN模型部署在英特尔的神经形态平台上,然后与部署在边缘计算设备(Intel神经计算棒2(NCS2))上的等效深神经网络(DNN)模型进行了比较。在准确性,延迟,功耗和能源方面,我们进行了两种系统之间的全面比较。最佳DNN模型在ASL字母数据集上的精度为99.6%,而最佳性能SNN模型的精度为99.44%。对于ASL数字数据集,最好的SNN模型以99.52%的精度优于其所有DNN对应物。此外,我们获得的实验结果表明,与NCS2相比,Loihi神经形态硬件的实现分别可降低14.67倍和4.09倍。
translated by 谷歌翻译
编译器框架对于广泛使用基于FPGA的深度学习加速器来说是至关重要的。它们允许研究人员和开发人员不熟悉硬件工程,以利用域特定逻辑所获得的性能。存在传统人工神经网络的各种框架。然而,没有多大的研究努力已经进入创建针对尖刺神经网络(SNNS)进行优化的框架。这种新一代的神经网络对于在边缘设备上部署AI的越来越有趣,其具有紧密的功率和资源约束。我们的端到端框架E3NE为FPGA自动生成高效的SNN推理逻辑。基于Pytorch模型和用户参数,它应用各种优化,并评估基于峰值的加速器固有的权衡。多个水平的并行性和新出现的神经编码方案的使用导致优于先前的SNN硬件实现的效率。对于类似的型号,E3NE使用的硬件资源的少于50%,功率较低20%,同时通过幅度降低延迟。此外,可扩展性和通用性允许部署大规模的SNN模型AlexNet和VGG。
translated by 谷歌翻译
The term ``neuromorphic'' refers to systems that are closely resembling the architecture and/or the dynamics of biological neural networks. Typical examples are novel computer chips designed to mimic the architecture of a biological brain, or sensors that get inspiration from, e.g., the visual or olfactory systems in insects and mammals to acquire information about the environment. This approach is not without ambition as it promises to enable engineered devices able to reproduce the level of performance observed in biological organisms -- the main immediate advantage being the efficient use of scarce resources, which translates into low power requirements. The emphasis on low power and energy efficiency of neuromorphic devices is a perfect match for space applications. Spacecraft -- especially miniaturized ones -- have strict energy constraints as they need to operate in an environment which is scarce with resources and extremely hostile. In this work we present an overview of early attempts made to study a neuromorphic approach in a space context at the European Space Agency's (ESA) Advanced Concepts Team (ACT).
translated by 谷歌翻译
在本文中,我们提出了一种节能的SNN体系结构,该体系结构可以通过提高的精度无缝地运行深度尖峰神经网络(SNN)。首先,我们提出了一个转换意识培训(CAT),以减少无硬件实施开销而无需安排SNN转换损失。在拟议的CAT中,可以有效利用用于在ANN训练过程中模拟SNN的激活函数,以减少转换后的数据表示误差。基于CAT技术,我们还提出了一项首要尖峰编码,该编码可以通过使用SPIKE时间信息来轻巧计算。支持提出技术的SNN处理器设计已使用28nm CMOS流程实施。该处理器的推理能量分别为486.7UJ,503.6UJ和1426UJ的最高1级准确性,分别为91.7%,67.9%和57.4%,分别为CIFAR-10,CIFAR-100和TININE-IMIMAGENET处理。16具有5位对数权重。
translated by 谷歌翻译
穗状花序的神经形状硬件占据了深度神经网络(DNN)的更节能实现的承诺,而不是GPU的标准硬件。但这需要了解如何在基于事件的稀疏触发制度中仿真DNN,否则能量优势丢失。特别地,解决序列处理任务的DNN通常采用难以使用少量尖峰效仿的长短期存储器(LSTM)单元。我们展示了许多生物神经元的面部,在每个尖峰后缓慢的超积极性(AHP)电流,提供了有效的解决方案。 AHP电流可以轻松地在支持多舱神经元模型的神经形状硬件中实现,例如英特尔的Loihi芯片。滤波近似理论解释为什么AHP-Neurons可以模拟LSTM单元的功能。这产生了高度节能的时间序列分类方法。此外,它为实现了非常稀疏的大量大型DNN来实现基础,这些大型DNN在文本中提取单词和句子之间的关系,以便回答有关文本的问题。
translated by 谷歌翻译
Spiking Neural Networks (SNNs) are bio-plausible models that hold great potential for realizing energy-efficient implementations of sequential tasks on resource-constrained edge devices. However, commercial edge platforms based on standard GPUs are not optimized to deploy SNNs, resulting in high energy and latency. While analog In-Memory Computing (IMC) platforms can serve as energy-efficient inference engines, they are accursed by the immense energy, latency, and area requirements of high-precision ADCs (HP-ADC), overshadowing the benefits of in-memory computations. We propose a hardware/software co-design methodology to deploy SNNs into an ADC-Less IMC architecture using sense-amplifiers as 1-bit ADCs replacing conventional HP-ADCs and alleviating the above issues. Our proposed framework incurs minimal accuracy degradation by performing hardware-aware training and is able to scale beyond simple image classification tasks to more complex sequential regression tasks. Experiments on complex tasks of optical flow estimation and gesture recognition show that progressively increasing the hardware awareness during SNN training allows the model to adapt and learn the errors due to the non-idealities associated with ADC-Less IMC. Also, the proposed ADC-Less IMC offers significant energy and latency improvements, $2-7\times$ and $8.9-24.6\times$, respectively, depending on the SNN model and the workload, compared to HP-ADC IMC.
translated by 谷歌翻译
基于事件的视觉传感器在事件流中编码本地像素方面的亮度变化,而不是图像帧,并且除了低延迟,高动态范围和缺乏运动模糊之外,还产生稀疏,节能编码。基于事件的传感器的对象识别的最新进展来自深度神经网络的转换,培训背部经历。但是,使用这些事件流的方法需要转换到同步范式,这不仅失去了计算效率,而且还会错过提取时空特征的机会。在本文中,我们提出了一种用于基于事件的模式识别和对象检测的深度神经网络的端到端培训的混合架构,将尖刺神经网络(SNN)骨干组合用于高效的基于事件的特征提取,以及随后的模拟神经网络(ANN)头解决同步分类和检测任务。这是通过将标准的梯度训练与替代梯度训练相结合来实现这一点来实现,以通过SNN传播梯度。可以在不转换的情况下培训混合SNN-ANN,并且导致高度准确的网络,这些网络比其ANN对应物大得多。我们演示了基于事件的分类和对象检测数据集的结果,其中只需要将ANN头的体系结构适应任务,并且不需要基于事件的输入的转换。由于ANNS和SNNS需要不同的硬件范式来最大限度地提高其效率,因此设想SNN骨干网和ANN头可以在不同的处理单元上执行,从而分析在两部分之间进行通信的必要带宽。混合网络是有前途的架构,以进一步推进基于事件的愿景的机器学习方法,而不必妥协效率。
translated by 谷歌翻译
我们提出了一种新的学习算法,使用传统的人工神经网络(ANN)作为代理训练尖刺神经网络(SNN)。我们分别与具有相同网络架构和共享突触权重的集成和火(IF)和Relu神经元进行两次SNN和ANN网络。两个网络的前进通过完全独立。通过假设具有速率编码的神经元作为Relu的近似值,我们将SNN中的SNN的误差进行了回复,以更新共享权重,只需用SNN的ANN最终输出替换ANN最终输出。我们将建议的代理学习应用于深度卷积的SNNS,并在Fahion-Mnist和CiFar10的两个基准数据集上进行评估,分别为94.56%和93.11%的分类准确性。所提出的网络可以优于培训的其他深鼻涕,训练,替代学习,代理梯度学习,或从深处转换。转换的SNNS需要长时间的仿真时间来达到合理的准确性,而我们的代理学习导致高效的SNN,模拟时间较短。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
由于它们的时间加工能力及其低交换(尺寸,重量和功率)以及神经形态硬件中的节能实现,尖峰神经网络(SNNS)已成为传统人工神经网络(ANN)的有趣替代方案。然而,培训SNNS所涉及的挑战在准确性方面有限制了它们的表现,从而限制了他们的应用。因此,改善更准确的特征提取的学习算法和神经架构是SNN研究中的当前优先级之一。在本文中,我们展示了现代尖峰架构的关键组成部分的研究。我们在从最佳执行网络中凭经验比较了图像分类数据集中的不同技术。我们设计了成功的残余网络(Reset)架构的尖峰版本,并测试了不同的组件和培训策略。我们的结果提供了SNN设计的最新版本,它允许在尝试构建最佳视觉特征提取器时进行明智的选择。最后,我们的网络优于CIFAR-10(94.1%)和CIFAR-100(74.5%)数据集的先前SNN架构,并将现有技术与DVS-CIFAR10(71.3%)相匹配,参数较少而不是先前的状态艺术,无需安静转换。代码在https://github.com/vicenteax/spiking_resnet上获得。
translated by 谷歌翻译
Spiking Neural networks (SNN) have emerged as an attractive spatio-temporal computing paradigm for a wide range of low-power vision tasks. However, state-of-the-art (SOTA) SNN models either incur multiple time steps which hinder their deployment in real-time use cases or increase the training complexity significantly. To mitigate this concern, we present a training framework (from scratch) for one-time-step SNNs that uses a novel variant of the recently proposed Hoyer regularizer. We estimate the threshold of each SNN layer as the Hoyer extremum of a clipped version of its activation map, where the clipping threshold is trained using gradient descent with our Hoyer regularizer. This approach not only downscales the value of the trainable threshold, thereby emitting a large number of spikes for weight update with a limited number of iterations (due to only one time step) but also shifts the membrane potential values away from the threshold, thereby mitigating the effect of noise that can degrade the SNN accuracy. Our approach outperforms existing spiking, binary, and adder neural networks in terms of the accuracy-FLOPs trade-off for complex image recognition tasks. Downstream experiments on object detection also demonstrate the efficacy of our approach.
translated by 谷歌翻译
Deep spiking neural networks (SNNs) offer the promise of low-power artificial intelligence. However, training deep SNNs from scratch or converting deep artificial neural networks to SNNs without loss of performance has been a challenge. Here we propose an exact mapping from a network with Rectified Linear Units (ReLUs) to an SNN that fires exactly one spike per neuron. For our constructive proof, we assume that an arbitrary multi-layer ReLU network with or without convolutional layers, batch normalization and max pooling layers was trained to high performance on some training set. Furthermore, we assume that we have access to a representative example of input data used during training and to the exact parameters (weights and biases) of the trained ReLU network. The mapping from deep ReLU networks to SNNs causes zero percent drop in accuracy on CIFAR10, CIFAR100 and the ImageNet-like data sets Places365 and PASS. More generally our work shows that an arbitrary deep ReLU network can be replaced by an energy-efficient single-spike neural network without any loss of performance.
translated by 谷歌翻译
由于其异步,稀疏和二进制信息处理,尖峰神经网络(SNN)最近成为人工神经网络(ANN)的低功耗替代品。为了提高能源效率和吞吐量,可以在使用新兴的非挥发性(NVM)设备在模拟域中实现多重和蓄积(MAC)操作的回忆横梁上实现SNN。尽管SNN与回忆性横梁具有兼容性,但很少关注固有的横杆非理想性和随机性对SNN的性能的影响。在本文中,我们对SNN在非理想横杆上的鲁棒性进行了全面分析。我们检查通过学习算法训练的SNN,例如,替代梯度和ANN-SNN转换。我们的结果表明,跨多个时间阶段的重复横梁计算会导致错误积累,从而导致SNN推断期间的性能下降。我们进一步表明,经过较少时间步长培训的SNN在部署在磁带横梁上时可以更好地准确。
translated by 谷歌翻译
我们提出了Memprop,即采用基于梯度的学习来培训完全的申请尖峰神经网络(MSNNS)。我们的方法利用固有的设备动力学来触发自然产生的电压尖峰。这些由回忆动力学发出的尖峰本质上是类似物,因此完全可区分,这消除了尖峰神经网络(SNN)文献中普遍存在的替代梯度方法的需求。回忆性神经网络通常将备忘录集成为映射离线培训网络的突触,或者以其他方式依靠关联学习机制来训练候选神经元的网络。相反,我们直接在循环神经元和突触的模拟香料模型上应用了通过时间(BPTT)训练算法的反向传播。我们的实现是完全的综合性,因为突触重量和尖峰神经元都集成在电阻RAM(RRAM)阵列上,而无需其他电路来实现尖峰动态,例如模数转换器(ADCS)或阈值比较器。结果,高阶电物理效应被充分利用,以在运行时使用磁性神经元的状态驱动动力学。通过朝着非同一梯度的学习迈进,我们在以前报道的几个基准上的轻巧密集的完全MSNN中获得了高度竞争的准确性。
translated by 谷歌翻译
尖峰神经网络是低功率环境的有效计算模型。基于SPIKE的BP算法和ANN-TO-SNN(ANN2SNN)转换是SNN培训的成功技术。然而,尖峰碱BP训练速度很慢,需要大量的记忆成本。尽管Ann2NN提供了一种培训SNN的低成本方式,但它需要许多推理步骤才能模仿训练有素的ANN以表现良好。在本文中,我们提出了一个snn-to-ang(SNN2ANN)框架,以快速和记忆的方式训练SNN。 SNN2ANN由2个组成部分组成:a)ANN和SNN和B)尖峰映射单元之间的重量共享体系结构。首先,该体系结构在ANN分支上训练重量共享参数,从而快速训练和SNN的记忆成本较低。其次,尖峰映射单元确保ANN的激活值是尖峰特征。结果,可以通过训练ANN分支来优化SNN的分类误差。此外,我们设计了一种自适应阈值调整(ATA)算法来解决嘈杂的尖峰问题。实验结果表明,我们的基于SNN2ANN的模型在基准数据集(CIFAR10,CIFAR100和TININE-IMAGENET)上表现良好。此外,SNN2ANN可以在0.625倍的时间步长,0.377倍训练时间,0.27倍GPU内存成本以及基于SPIKE的BP模型的0.33倍尖峰活动下实现可比精度。
translated by 谷歌翻译
Spiking neural networks (SNN) are a viable alternative to conventional artificial neural networks when energy efficiency and computational complexity are of importance. A major advantage of SNNs is their binary information transfer through spike trains. The training of SNN has, however, been a challenge, since neuron models are non-differentiable and traditional gradient-based backpropagation algorithms cannot be applied directly. Furthermore, spike-timing-dependent plasticity (STDP), albeit being a spike-based learning rule, updates weights locally and does not optimize for the output error of the network. We present desire backpropagation, a method to derive the desired spike activity of neurons from the output error. The loss function can then be evaluated locally for every neuron. Incorporating the desire values into the STDP weight update leads to global error minimization and increasing classification accuracy. At the same time, the neuron dynamics and computational efficiency of STDP are maintained, making it a spike-based supervised learning rule. We trained three-layer networks to classify MNIST and Fashion-MNIST images and reached an accuracy of 98.41% and 87.56%, respectively. Furthermore, we show that desire backpropagation is computationally less complex than backpropagation in traditional neural networks.
translated by 谷歌翻译
尖峰神经网络(SNN)为时间信号处理提供了有效的计算机制,尤其是与低功率SNN推理相结合时。历史上很难配置SNN,缺乏为任意任务寻找解决方案的一般方法。近年来,逐渐发芽的优化方法已应用于SNN,并且越来越轻松。因此,SNN和SNN推理处理器为在没有云依赖性的能源约束环境中为商业低功率信号处理提供了一个良好的平台。但是,迄今为止,行业中的ML工程师无法访问这些方法,需要研究生级培训才能成功配置单个SNN应用程序。在这里,我们演示了一条方便的高级管道,用于设计,训练和部署任意的时间信号处理应用程序,向子-MW SNN推理硬件。我们使用用于时间信号处理的新型直接SNN体系结构,使用突触时间常数的金字塔在一系列时间尺度上提取信号特征。我们在环境音频分类任务上演示了这种体系结构,该任务部署在流式传输模式下的Xylo SNN推理处理器上。我们的应用以低功率(<4MUW推理功率)达到了高准确性(98%)和低潜伏期(100ms)。我们的方法使培训和部署SNN应用程序可用于具有通用NN背景的ML工程师,而无需先前的Spiking NNS经验。我们打算将神经形态硬件和SNN成为商业低功率和边缘信号处理应用程序的吸引人选择。
translated by 谷歌翻译
自动驾驶(AD)相关功能代表了下一代移动机器人和专注于越来越智能,自主和互连系统的自动驾驶汽车的重要元素。根据定义,必须提供涉及使用这些功能的应用程序,并且此属性是避免灾难性事故的关键。此外,所有决策过程都必须需要低功耗,以增加电池驱动系统的寿命和自主权。这些挑战可以通过有效实施神经形态芯片上的尖峰神经网络(SNN)以及使用基于事件的摄像机而不是传统基于框架的摄像机来解决这些挑战。在本文中,我们提出了一种新的基于SNN的方法,称为Lanesnn,用于使用基于事件的相机输入来检测街道上标记的车道。我们开发了四种以低复杂性和快速响应为特征的小说SNN模型,并使用离线监督的学习规则训练它们。之后,我们将学习的SNNS模型实施并映射到Intel Loihi神经形态研究芯片上。对于损耗函数,我们基于加权二进制交叉熵(WCE)和均方误差(MSE)度量的线性组成而开发了一种新颖的方法。我们的实验结果表明,与联合(IOU)度量的最大交叉点约为0.62,功耗非常低约1W。最好的IOU是通过SNN实现实现的,该实现仅占据Loihi处理器上的36个神经可孔,同时提供低潜伏期少于8 ms识别图像,从而实现实时性能。我们网络提供的IOU措施与最先进的措施相当,但功率消耗为1W。
translated by 谷歌翻译
尖峰 - 神经网络(SNNS)在边缘设备处具有前景,因为与模拟 - 神经网络(ANN)相比,SNN的事件驱动操作提供了显着较低的功率。虽然很难有效地训练SNN,但是已经开发了许多将培训的ANN转换为SNNS的技术。但是,在转换之后,SNN中的准确性和延迟之间存在权衡关系,在大尺寸数据集中导致诸如想象成的大尺寸数据集之间的相当大。我们提出了一种名为TCL的技术,以缓解权衡问题,使得73.87%(VGG-16)和70.37%(Reset-34)的准确性,在SNNS中的250个周期的中等潜伏期。
translated by 谷歌翻译
由于其事件驱动的计算,尖峰神经网络(SNN)已成为常规人工神经网络(ANN)的节能替代方案。考虑到SNN模型的未来部署到限制神经形态设备上,许多研究应用了最初用于ANN模型压缩的技术,例如网络量化,修剪和知识蒸馏,用于SNN。其中,关于知识蒸馏的现有作品报告了学生SNN模型的准确性提高。但是,对能源效率的分析也是SNN的重要特征。在本文中,我们从准确性和能源效率方面彻底分析了蒸馏SNN模型的性能。在此过程中,我们观察到使用常规知识蒸馏方法时,尖峰数量大幅增加,导致能量效率低下。基于此分析,为了达到能源效率,我们提出了一种具有异质温度参数的新知识蒸馏方法。我们在两个不同的数据集上评估我们的方法,并表明由此产生的SNN学生满足了尖峰数量的准确性和减少。在MNIST数据集上,我们提议的学生SNN的精度高达0.09%,与接受常规知识蒸馏方法的学生SNN相比,SNN的峰值降低了65%。我们还将结果与其他SNN压缩技术和训练方法进行了比较。
translated by 谷歌翻译