与数字计算相比,模拟计算具有吸引力,因为它可以达到更高的计算密度和更高的能源效率。但是,与数字电路不同,由于晶体管偏置偏差,温度变化和有限的动态范围的差异,传统的模拟计算电路不能轻易地在不同的过程节点上映射。在这项工作中,我们概括了先前报道的基于边缘传播的模拟计算框架,用于设计新颖的\ textit {基于形状的模拟计算}(S-AC)电路,这些电路可以轻松地在不同的过程节点上交叉映射。与数字设计类似的S-AC设计也可以缩放以获得精确,速度和功率。作为概念验证,我们展示了实现机器学习(ML)体系结构中通常使用的数学功能的S-AC电路的几个示例。使用电路模拟,我们证明了电路输入/输出特性从平面CMOS 180NM工艺映射到FinFET 7NM工艺时保持健壮。同样,使用基准数据集,我们证明了基于S-AC的神经网络的分类精度在两个过程中映射到温度变化时仍然坚固。
translated by 谷歌翻译
偏差可估算的模拟计算对于实施机器学习(ML)处理器具有不同的功能性能规格具有吸引力。例如,用于服务器工作负载的ML实现专注于计算吞吐量和更快的训练,而Edge设备的ML实现则集中在节能推理上。在本文中,我们证明了使用边缘传播(MP)原理的概括(MP)原理称为基于形状的模拟计算(S-AC)的偏置模拟计算电路的实现。所得的S-AC核心集成了几个接近内存的计算元素,其中包括:(a)非线性激活函数; (b)内部产品计算电路; (c)混合信号压缩内存。使用在180nm CMOS工艺中制造的原型的测量结果,我们证明了计算模块的性能仍然可与晶体管偏置和温度变化保持稳健。在本文中,我们还证明了简单的ML回归任务的偏差量表性。
translated by 谷歌翻译
我们提出了一个新颖的框架,用于设计无乘数内核机器,该机器可以在智能边缘设备等资源约束平台上使用。该框架使用基于边缘传播(MP)技术的分段线性(PWL)近似值,仅使用加法/减法,移位,比较和寄存器底流/溢出操作。我们建议使用针对现场可编程门阵列(FPGA)平台进行优化的基于硬件的MP推理和在线培训算法。我们的FPGA实施消除了对DSP单元的需求,并减少了LUT的数量。通过重复使用相同的硬件进行推理和培训,我们表明该平台可以克服由MP近似产生的分类错误和本地最小值。该提议的无乘数MP-Kernel机器在FPGA上的实施导致估计的能源消耗为13.4 PJ,功率消耗为107 MW,每台均具有〜9K LUTS和FFS,每张均具有256 x 32个大小的核与其他可比实现相比,区域和区域。
translated by 谷歌翻译
为了寻求低功率,以生物启发的计算均基于回忆性和基于成年的人工神经网络(ANN)一直是对硬件实施神经形态计算的焦点的主题。进一步的一步,要求使用绝热计算的再生电容性神经网络,为降低能源消耗提供了诱人的途径,尤其是与“ Memimpedace”元素结合使用时。在这里,我们提出了一种人工神经元,具有绝热的突触电容器,以产生神经元的膜电位。后者通过动态闩锁比较器实现,并使用电阻随机访问存储器(RRAM)设备增强。我们最初的4位绝热电容性神经元概念验证示例显示了90%的突触能量节省。在4个突触/SOMA时,我们已经看到总体减少35%的能量。此外,工艺和温度对4位绝热突触的影响显示,在整个角落100度摄氏时,最大能量变化为30%,而没有任何功能损失。最后,我们对ANN的绝热方法的功效进行了512和1024突触/神经元的测试,最差和最佳的情况突触载荷条件以及可变的均衡电容的可变量化均等能力量化了均衡电容和最佳功率 - 电信频率范围之间的预期权衡。加载(即活动突触的百分比)。
translated by 谷歌翻译
突触记忆巩固已被认为是支持神经形态人工智能(AI)系统中持续学习的关键机制之一。在这里,我们报告说,Fowler-Nordheim(FN)量子隧道设备可以实现突触存储器巩固,类似于通过算法合并模型(例如级联和弹性重量合并(EWC)模型)所能实现的。拟议的FN-Synapse不仅存储突触重量,而且还存储了Synapse在设备本身上的历史用法统计量。我们还表明,就突触寿命而言,FN合并的操作几乎是最佳的,并且我们证明了一个包含FN合成的网络在一个小基准测试持续学习任务上超过了可比的EWC网络。通过每次突触更新的Femtojoules的能量足迹,我们相信所提出的FN-Synapse为实施突触记忆巩固和持续学习提供了一种超能效率的方法。
translated by 谷歌翻译
基于旋转扭矩振荡器的复合值Hopfield网络模拟可以恢复相位编码的图像。存储器增强逆变器的序列提供可调谐延迟元件,通过相位转换振荡器的振荡输出来实现复合权重的可调延迟元件。伪逆培训足以存储在一组192个振荡器中,至少代表16 $ \倍数为12个像素图像。恢复图像所需的能量取决于所需的错误级别。对于这里考虑的振荡器和电路,来自理想图像的5%均方方偏差需要大约5 00美元$ S并消耗大约130 NJ。模拟显示,当振荡器的谐振频率可以调整为具有小于10 ^ {-3} $的分数扩展时,网络功能良好,具体取决于反馈的强度。
translated by 谷歌翻译
深度神经网络(DNN)在各个领域的有效性(例如分类问题,图像处理,视频细分和语音识别)已被证明。加速器内存(AIM)架构是有效加速DNN的有前途解决方案,因为它们可以避免传统的von Neumann架构的内存瓶颈。由于主要内存通常在许多系统中是DRAM,因此在DRAM中高度平行的多重含用(MAC)阵列可以通过减少处理器和主内存之间的数据运动的距离和数量来最大化目标的好处。本文介绍了一个名为MAC-DO的基于模拟MAC阵列的AIM架构。与以前的IN-DRAM加速器相反,MAC-DO使整个DRAM阵列同时参与MAC计算,而无需闲置细胞,从而导致更高的吞吐量和能量效率。通过利用基于电荷转向的新的模拟计算方法来实现这种改进。此外,Mac-Do天生支持具有良好线性的多位Mac。 MAC-DO仍然与当前的1T1C DRAM技术兼容,而没有任何DRAM单元格和数组的修改。 MAC-DO数组可以基于输出固定映射加速矩阵乘法,因此支持DNN中执行的大多数计算。我们使用晶体管级仿真的评估表明,具有16 x 16 Mac-Do细胞的测试MAC-DO阵列可达到188.7 TOPS/W,并显示了MNIST数据集的97.07%TOP-1准确性,而无需重新培训。
translated by 谷歌翻译
基于von-neumann架构的传统计算系统,数据密集型工作负载和应用程序(如机器学习)和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈,对近数据处理(NDP),机器学习和特别是神经网络(NN)的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术,这是有效地架构基于NN的基于NN的加速器,因为它们的工作能力是:高密度/低能量存储和近记忆计算/搜索引擎。在本文中,我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类,我们强调了它们的相似之处和差异。最后,我们讨论了需要探索的开放挑战和未来的观点,以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师,芯片设计师和研究人员来说是有价值的。
translated by 谷歌翻译
在这项工作中,我们介绍了一种光电尖峰,能够以超速率($ \ \左右100磅/光学尖峰)和低能耗($ <$ PJ /秒码)运行。所提出的系统结合了具有负差分电导的可激发谐振隧道二极管(RTD)元件,耦合到纳米级光源(形成主节点)或光电探测器(形成接收器节点)。我们在数值上学习互连的主接收器RTD节点系统的尖峰动态响应和信息传播功能。使用脉冲阈值和集成的关键功能,我们利用单个节点来对顺序脉冲模式进行分类,并对图像特征(边缘)识别执行卷积功能。我们还展示了光学互连的尖峰神经网络模型,用于处理超过10 Gbps的时空数据,具有高推理精度。最后,我们展示了利用峰值定时依赖性可塑性的片外监督的学习方法,使能RTD的光子尖峰神经网络。这些结果证明了RTD尖峰节点用于低占地面积,低能量,高速光电实现神经形态硬件的潜在和可行性。
translated by 谷歌翻译
In this work, we demonstrate the offline FPGA realization of both recurrent and feedforward neural network (NN)-based equalizers for nonlinearity compensation in coherent optical transmission systems. First, we present a realization pipeline showing the conversion of the models from Python libraries to the FPGA chip synthesis and implementation. Then, we review the main alternatives for the hardware implementation of nonlinear activation functions. The main results are divided into three parts: a performance comparison, an analysis of how activation functions are implemented, and a report on the complexity of the hardware. The performance in Q-factor is presented for the cases of bidirectional long-short-term memory coupled with convolutional NN (biLSTM + CNN) equalizer, CNN equalizer, and standard 1-StpS digital back-propagation (DBP) for the simulation and experiment propagation of a single channel dual-polarization (SC-DP) 16QAM at 34 GBd along 17x70km of LEAF. The biLSTM+CNN equalizer provides a similar result to DBP and a 1.7 dB Q-factor gain compared with the chromatic dispersion compensation baseline in the experimental dataset. After that, we assess the Q-factor and the impact of hardware utilization when approximating the activation functions of NN using Taylor series, piecewise linear, and look-up table (LUT) approximations. We also show how to mitigate the approximation errors with extra training and provide some insights into possible gradient problems in the LUT approximation. Finally, to evaluate the complexity of hardware implementation to achieve 400G throughput, fixed-point NN-based equalizers with approximated activation functions are developed and implemented in an FPGA.
translated by 谷歌翻译
尖峰神经网络(SNN)提供了一个新的计算范式,能够高度平行,实时处理。光子设备是设计与SNN计算范式相匹配的高带宽,平行体系结构的理想选择。 CMO和光子元件的协整允许将低损耗的光子设备与模拟电子设备结合使用,以更大的非线性计算元件的灵活性。因此,我们在整体硅光子学(SIPH)过程上设计和模拟了光电尖峰神经元电路,该过程复制了超出泄漏的集成和火(LIF)之外有用的尖峰行为。此外,我们探索了两种学习算法,具有使用Mach-Zehnder干涉法(MZI)网格作为突触互连的片上学习的潜力。实验证明了随机反向传播(RPB)的变体,并在简单分类任务上与标准线性回归的性能相匹配。同时,将对比性HEBBIAN学习(CHL)规则应用于由MZI网格组成的模拟神经网络,以进行随机输入输出映射任务。受CHL训练的MZI网络的性能比随机猜测更好,但不符合理想神经网络的性能(没有MZI网格施加的约束)。通过这些努力,我们证明了协调的CMO和SIPH技术非常适合可扩展的SNN计算体系结构的设计。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
触觉感测的第一阶段是使用触觉传感器的数据采集,并且感测数据被传送到用于神经形态计算的中央单元。忆曲线被提出用作神经形态计算中的突触,但在文献中没有研究传感器水平的装置智能。我们通过将传感器包括在神经网络架构的输入层中的传感器到Memristor CrossBar阵列配置,提出晶体管忆阻座传感器(TMS) - 译本的概念。 2提供了TMS横杆阵列的可能电池配置:呈现1个晶体管1忆晶体1传感器(1T1M1S)和2个晶体管1忆晶件1传感器(2T1M1S)。我们在基于模拟神经网络的盲文字符识别系统的实际设计中验证了所提出的TMS-CrossBar。使用FLX-A501力传感器的电路相当于FLX-A501力传感器,TiO $ _2 $ Memristors和低功耗22nm高k CMOS晶体管,通过Spice模拟验证了所提出的设计。所提出的模拟神经形态计算系统具有可扩展的解决方案,并且可以与文献中的其他盲文字符识别系统相比,以良好的精度编码125个符号。与二进制对应物相比,通过精度,面积和功率要求的结果来证实了TMS交叉阵列的模拟实现的好处。
translated by 谷歌翻译
Resistive Random-Access Memory (RRAM) is well-suited to accelerate neural network (NN) workloads as RRAM-based Processing-in-Memory (PIM) architectures natively support highly-parallel multiply-accumulate (MAC) operations that form the backbone of most NN workloads. Unfortunately, NN workloads such as transformers require support for non-MAC operations (e.g., softmax) that RRAM cannot provide natively. Consequently, state-of-the-art works either integrate additional digital logic circuits to support the non-MAC operations or offload the non-MAC operations to CPU/GPU, resulting in significant performance and energy efficiency overheads due to data movement. In this work, we propose NEON, a novel compiler optimization to enable the end-to-end execution of the NN workload in RRAM. The key idea of NEON is to transform each non-MAC operation into a lightweight yet highly-accurate neural network. Utilizing neural networks to approximate the non-MAC operations provides two advantages: 1) We can exploit the key strength of RRAM, i.e., highly-parallel MAC operation, to flexibly and efficiently execute non-MAC operations in memory. 2) We can simplify RRAM's microarchitecture by eliminating the additional digital logic circuits while reducing the data movement overheads. Acceleration of the non-MAC operations in memory enables NEON to achieve a 2.28x speedup compared to an idealized digital logic-based RRAM. We analyze the trade-offs associated with the transformation and demonstrate feasible use cases for NEON across different substrates.
translated by 谷歌翻译
近年来,人工智能(AI)的领域已经见证了巨大的增长,然而,持续发展的一些最紧迫的挑战是电子计算机架构所面临的基本带宽,能效和速度限制。利用用于执行神经网络推理操作的光子处理器越来越感兴趣,但是这些网络目前使用标准数字电子培训。这里,我们提出了由CMOS兼容的硅光子架构实现的神经网络的片上训练,以利用大规模平行,高效和快速数据操作的电位。我们的方案采用直接反馈对准训练算法,它使用错误反馈而不是错误反向化而培训神经网络,并且可以在每秒乘以数万亿乘以量的速度运行,同时每次MAC操作消耗小于一个微微约会。光子架构利用并行化矩阵 - 向量乘法利用微址谐振器阵列,用于沿着单个波导总线处理多通道模拟信号,以便原位计算每个神经网络层的梯度向量,这是在后向通过期间执行的最昂贵的操作。 。我们还通过片上MAC操作结果实验地示意使用MNIST数据集进行培训深度神经网络。我们的高效,超快速神经网络训练的新方法展示了光子学作为执行AI应用的有希望的平台。
translated by 谷歌翻译
过程变化和设备老化对电路设计师构成了深刻的挑战。如果不对变化对电路路径的延迟的影响进行精确理解,无法正确估计避免定时违规行为的后卫带。对于先进的技术节点,此问题加剧了,其中晶体管尺寸达到原子水平,并且已建立的边缘受到严格限制。因此,传统的最坏情况分析变得不切实际,导致无法忍受的性能开销。相反,过程变化/衰老感知的静态时序分析(STA)为设计师提供了准确的统计延迟分布。然后可以有效地估计小但足够的时正时标志。但是,这样的分析是昂贵的,因为它需要密集的蒙特卡洛模拟。此外,它需要访问基于机密的物理老化模型来生成STA所需的标准细胞库。在这项工作中,我们采用图形神经网络(GNN)来准确估计过程变化和设备衰老对电路中任何路径延迟的影响。我们提出的GNN4REL框架使设计师能够执行快速准确的可靠性估计,而无需访问晶体管模型,标准细胞库甚至STA;这些组件均通过铸造厂的训练纳入GNN模型中。具体而言,对GNN4REL进行了针对工业14NM测量数据进行校准的FinFET技术模型的培训。通过我们对EPFL和ITC-99基准以及RISC-V处理器进行的广泛实验,我们成功估计了所有路径的延迟降级(尤其是在几秒钟内),平均绝对误差降至0.01个百分点。
translated by 谷歌翻译
Guillain-Barre综合征是一种罕见的神经系统疾病,其中人免疫系统攻击周围神经系统。周围神经系统似乎是神经元模型的数学模型的扩散连接系统,并且该系统的周期比每个神经回路的周期都短。传导路径中的刺激将被轴突接收到失去其功能的髓鞘鞘,并在外部传递到靶器官,旨在解决降低神经传导的问题。在神经元模拟环境中,可以创建神经元模型并定义系统内发生的生物物理事件。在这种环境中,细胞和树突之间的信号传递是图形的。模拟的钾和钠电导是充分复制的,电子动作电位与实验测量的电位相当。在这项工作中,我们提出了一个模拟和数字耦合的神经元模型,该模型包括个人兴奋性和抑制性神经回路块,用于低成本和节能系统。与数字设计相比,我们的模拟设计的性能较低,但能源效率降低了32.3 \%。因此,所得的耦合模拟硬件神经元模型可以是模拟神经传导减少的模型。结果,模拟耦合的神经元(即使具有更大的设计复杂性)为未来开发的可穿戴传感器设备的竞争者,该设备可能有助于治疗吉兰 - 巴雷综合症和其他神经系统疾病。
translated by 谷歌翻译
由于深度学习在许多人工智能应用中显示了革命性的性能,其升级的计算需求需要用于巨大并行性的硬件加速器和改进的吞吐量。光学神经网络(ONN)是下一代神经关键组成的有希望的候选者,由于其高并行,低延迟和低能量消耗。在这里,我们设计了一个硬件高效的光子子空间神经网络(PSNN)架构,其针对具有比具有可比任务性能的前一个ONN架构的光学元件使用,区域成本和能量消耗。此外,提供了一种硬件感知培训框架,以最小化所需的设备编程精度,减少芯片区域,并提高噪声鲁棒性。我们在实验上展示了我们的PSNN在蝴蝶式可编程硅光子集成电路上,并在实用的图像识别任务中显示其实用性。
translated by 谷歌翻译
我们提出了一个新颖的封闭式复发性神经网络,以检测一个人何时咀嚼食物。我们在0.18 UM CMOS技术中将神经网络作为自定义模拟集成电路实现。对神经网络进行了6.4小时的数据,该数据是从安装在志愿者的乳突骨上的接触麦克风中收集的。当对1.6个小时的以前未见数据进行测试时,神经网络以24秒的分辨率确定了咀嚼事件。它的召回率为91%,F1得分为94%,同时消耗了1.1 UW的功率。一种用于检测整个饮食发作的系统 - 例如餐和小吃 - 基于新颖的模拟神经网络,估计有18.8UW的力量。
translated by 谷歌翻译
在当今智能网络物理系统时代,由于它们在复杂的现实世界应用中的最新性能,深度神经网络(DNN)已无处不在。这些网络的高计算复杂性转化为增加的能源消耗,这是在资源受限系统中部署大型DNN的首要障碍。通过培训后量化实现的定点(FP)实现通常用于减少这些网络的能源消耗。但是,FP中的均匀量化间隔将数据结构的位宽度限制为大值,因为需要以足够的分辨率来表示大多数数字并避免较高的量化误差。在本文中,我们利用了关键见解,即(在大多数情况下)DNN的权重和激活主要集中在零接近零,只有少数几个具有较大的幅度。我们提出了Conlocnn,该框架是通过利用来实现节能低精度深度卷积神经网络推断的框架:(1)重量的不均匀量化,以简化复杂的乘法操作的简化; (2)激活值之间的相关性,可以在低成本的情况下以低成本进行部分补偿,而无需任何运行时开销。为了显着从不均匀的量化中受益,我们还提出了一种新颖的数据表示格式,编码低精度二进制签名数字,以压缩重量的位宽度,同时确保直接使用编码的权重来使用新颖的多重和处理 - 积累(MAC)单元设计。
translated by 谷歌翻译