我们介绍了具有磁隧道结(MTJ)突触的神经形态网络的第一个实验证明,其通过矢量矩阵乘法进行图像识别。我们还模拟了执行Mnist手写数字识别的大型MTJ网络,展示MTJ交叉栏可以匹配映射器精度,同时提供更高的精度,稳定性和耐久性。
translated by 谷歌翻译
通过制造不精确和装置随机性来阻碍用于储存神经晶体系统中重量的模拟抗性状态,限制突触重量的精度。通过使用自旋转移扭矩磁阻随机接入存储器(STT-MRAM)的二进制状态的随机切换来模拟模拟行为来解决该挑战。然而,基于STT-MRAM的先前方法以异步方式操作,这难以通过实验实施。本文提出了一种具有时钟电路的同步尖峰神经网络系统,其执行无监督的学习利用STT-MRAM的随机切换。所提出的系统使单层网络能够在MNIST数据集上实现90%的推理准确性。
translated by 谷歌翻译
神经网络的越来越大的规模及其越来越多的应用空间对更高的能量和记忆有效的人工智能特定硬件产生了需求。 venues为了缓解主要问题,von neumann瓶颈,包括内存和近记忆架构,以及算法方法。在这里,我们利用磁隧道结(MTJ)的低功耗和固有的二进制操作来展示基于MTJ的无源阵列的神经网络硬件推断。通常,由于设备到装置的变化,写入误差,寄生电阻和非前沿,在性能下将训练的网络模型转移到推动的硬件。为了量化这些硬件现实的效果,我们将300个唯一重量矩阵解决方案的23个唯一的重量矩阵解决方案进行分类,以分类葡萄酒数据集,用于分类准确性和写真保真度。尽管设备不完美,我们可以实现高达95.3%的软件等效精度,并在15 x 15 MTJ阵列中正确调整具有一系列设备尺寸的阵列。此调谐过程的成功表明,需要新的指标来表征混合信号硬件中再现的网络的性能和质量。
translated by 谷歌翻译
储层计算(RC)已经获得了最近的兴趣,因为无需培训储层权重,从而实现了极低的资源消费实施,这可能会对边缘计算和现场学习的影响有严格的限制。理想情况下,天然硬件储层应被动,最小,表现力和可行性。迄今为止,拟议的硬件水库很难满足所有这些标准。因此,我们建议通过利用偶极耦合,沮丧的纳米磁体的被动相互作用来符合所有这些标准的水库。挫败感大大增加了稳定的储层国家的数量,丰富了储层动力学,因此这些沮丧的纳米磁体满足了天然硬件储层的所有标准。同样,我们提出了具有低功率互补金属氧化物半导体(CMOS)电路的完全沮丧的纳米磁管储层计算(NMRC)系统与储层接口,并且初始实验结果证明了储层的可行性。在三个单独的任务上,通过微磁模拟对储层进行了验证。将所提出的系统与CMOS Echo-State网络(ESN)进行了比较,表明总体资源减少了10,000,000多倍,这表明,由于NMRC自然是被动的,而且最小的可能是具有极高资源效率的潜力。
translated by 谷歌翻译
基于旋转扭矩振荡器的复合值Hopfield网络模拟可以恢复相位编码的图像。存储器增强逆变器的序列提供可调谐延迟元件,通过相位转换振荡器的振荡输出来实现复合权重的可调延迟元件。伪逆培训足以存储在一组192个振荡器中,至少代表16 $ \倍数为12个像素图像。恢复图像所需的能量取决于所需的错误级别。对于这里考虑的振荡器和电路,来自理想图像的5%均方方偏差需要大约5 00美元$ S并消耗大约130 NJ。模拟显示,当振荡器的谐振频率可以调整为具有小于10 ^ {-3} $的分数扩展时,网络功能良好,具体取决于反馈的强度。
translated by 谷歌翻译
近年来,人工智能(AI)的领域已经见证了巨大的增长,然而,持续发展的一些最紧迫的挑战是电子计算机架构所面临的基本带宽,能效和速度限制。利用用于执行神经网络推理操作的光子处理器越来越感兴趣,但是这些网络目前使用标准数字电子培训。这里,我们提出了由CMOS兼容的硅光子架构实现的神经网络的片上训练,以利用大规模平行,高效和快速数据操作的电位。我们的方案采用直接反馈对准训练算法,它使用错误反馈而不是错误反向化而培训神经网络,并且可以在每秒乘以数万亿乘以量的速度运行,同时每次MAC操作消耗小于一个微微约会。光子架构利用并行化矩阵 - 向量乘法利用微址谐振器阵列,用于沿着单个波导总线处理多通道模拟信号,以便原位计算每个神经网络层的梯度向量,这是在后向通过期间执行的最昂贵的操作。 。我们还通过片上MAC操作结果实验地示意使用MNIST数据集进行培训深度神经网络。我们的高效,超快速神经网络训练的新方法展示了光子学作为执行AI应用的有希望的平台。
translated by 谷歌翻译
在神经形态计算中,人工突触提供了一种基于来自神经元的输入来设置的多重导电状态,类似于大脑。可能需要超出多重权重的突触的附加属性,并且可以取决于应用程序,需要需要从相同材料生成不同的突触行为。这里,我们基于使用磁隧道结和磁畴壁的磁性材料测量人造突触。通过在单个磁隧道结下面的畴壁轨道中制造光刻槽口,我们实现了4-5个稳定的电阻状态,可以使用自旋轨道扭矩电气可重复控制。我们分析几何形状对突触行为的影响,表明梯形装置具有高可控性的不对称性重量,而直线装置具有较高的随机性,但具有稳定的电阻水平。设备数据被输入到神经形态计算模拟器中以显示特定于应用程序突触函数的有用性。实施应用于流式的时尚 - MNIST数据的人工神经网络,我们表明梯形磁突出可以用作高效在线学习的元塑功能。为CiFar-100图像识别实施卷积神经网络,我们表明直流突触由于其电阻水平的稳定性而达到近乎理想的推理精度。这项工作显示多重磁突触是神经形态计算的可行技术,并为新兴人工突触技术提供设计指南。
translated by 谷歌翻译
由于深度学习在许多人工智能应用中显示了革命性的性能,其升级的计算需求需要用于巨大并行性的硬件加速器和改进的吞吐量。光学神经网络(ONN)是下一代神经关键组成的有希望的候选者,由于其高并行,低延迟和低能量消耗。在这里,我们设计了一个硬件高效的光子子空间神经网络(PSNN)架构,其针对具有比具有可比任务性能的前一个ONN架构的光学元件使用,区域成本和能量消耗。此外,提供了一种硬件感知培训框架,以最小化所需的设备编程精度,减少芯片区域,并提高噪声鲁棒性。我们在实验上展示了我们的PSNN在蝴蝶式可编程硅光子集成电路上,并在实用的图像识别任务中显示其实用性。
translated by 谷歌翻译
我们提出了Memprop,即采用基于梯度的学习来培训完全的申请尖峰神经网络(MSNNS)。我们的方法利用固有的设备动力学来触发自然产生的电压尖峰。这些由回忆动力学发出的尖峰本质上是类似物,因此完全可区分,这消除了尖峰神经网络(SNN)文献中普遍存在的替代梯度方法的需求。回忆性神经网络通常将备忘录集成为映射离线培训网络的突触,或者以其他方式依靠关联学习机制来训练候选神经元的网络。相反,我们直接在循环神经元和突触的模拟香料模型上应用了通过时间(BPTT)训练算法的反向传播。我们的实现是完全的综合性,因为突触重量和尖峰神经元都集成在电阻RAM(RRAM)阵列上,而无需其他电路来实现尖峰动态,例如模数转换器(ADCS)或阈值比较器。结果,高阶电物理效应被充分利用,以在运行时使用磁性神经元的状态驱动动力学。通过朝着非同一梯度的学习迈进,我们在以前报道的几个基准上的轻巧密集的完全MSNN中获得了高度竞争的准确性。
translated by 谷歌翻译
独立组件分析是一种无监督的学习方法,用于从多元信号或数据矩阵计算独立组件(IC)。基于权重矩阵与多元数据矩阵的乘法进行评估。这项研究提出了一个新型的Memristor横杆阵列,用于实施ACY ICA和快速ICA,以用于盲源分离。数据输入以脉冲宽度调制电压的形式应用于横梁阵列,并且已实现的神经网络的重量存储在Memristor中。来自Memristor列的输出电荷用于计算重量更新,该重量更新是通过电压高于Memristor SET/RESET电压执行的。为了证明其潜在应用,采用了基于ICA架构的基于ICA架构的拟议的Memristor横杆阵列用于图像源分离问题。实验结果表明,所提出的方法非常有效地分离图像源,并且与常规ACY的基于软件的ACY实施相比,与结构相似性的百分比相比,结构相似性的百分比为67.27%,图像的对比度得到了改进。 ICA和快速ICA算法。
translated by 谷歌翻译
我们证明,与畴壁(DW)位置的大量随机变化的量化量(名义上是5态)突触的极低分辨率可以是节能的,并且与使用浮动精度相比,与类似尺寸的深度神经网络(DNN)相比具有相当高的测试精度。突触权重。具体地,电压控制的DW器件展示随机性的随机行为,与微磁性模拟严格,并且只能编码有限状态;但是,它们在训练和推论中都可以非常节能。我们表明,通过对学习算法实施合适的修改,我们可以解决随机行为以及减轻其低分辨率的影响,以实现高测试精度。在这项研究中,我们提出了原位和前地训练算法,基于Hubara等人提出的算法的修改。 [1]适用于突触权重的量化。我们使用2个,3和5状态DW设备作为Synapse培训Mnist DataSet上的几个5层DNN。对于原位训练,采用单独的高精度存储器单元来保护和累积重量梯度,然后被量化以编程低精密DW设备。此外,在训练期间使用尺寸的噪声公差余量来解决内部编程噪声。对于前训训练,首先基于所表征的DW设备模型和噪声公差余量进行前体DNN,其类似于原位培训。值得注意的是,对于原位推断,对设备的能量耗散装置仅是每次推断仅13页,因为在整个MNIST数据集上进行10个时期进行训练。
translated by 谷歌翻译
Organic neuromorphic device networks can accelerate neural network algorithms and directly integrate with microfluidic systems or living tissues. Proposed devices based on the bio-compatible conductive polymer PEDOT:PSS have shown high switching speeds and low energy demand. However, as electrochemical systems, they are prone to self-discharge through parasitic electrochemical reactions. Therefore, the network's synapses forget their trained conductance states over time. This work integrates single-device high-resolution charge transport models to simulate neuromorphic device networks and analyze the impact of self-discharge on network performance. Simulation of a single-layer nine-pixel image classification network reveals no significant impact of self-discharge on training efficiency. And, even though the network's weights drift significantly during self-discharge, its predictions remain 100\% accurate for over ten hours. On the other hand, a multi-layer network for the approximation of the circle function is shown to degrade significantly over twenty minutes with a final mean-squared-error loss of 0.4. We propose to counter the effect by periodically reminding the network based on a map between a synapse's current state, the time since the last reminder, and the weight drift. We show that this method with a map obtained through validated simulations can reduce the effective loss to below 0.1 even with worst-case assumptions. Finally, while the training of this network is affected by self-discharge, a good classification is still obtained. Electrochemical organic neuromorphic devices have not been integrated into larger device networks. This work predicts their behavior under nonideal conditions, mitigates the worst-case effects of parasitic self-discharge, and opens the path toward implementing fast and efficient neural networks on organic neuromorphic hardware.
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
Data-driven modeling approaches such as jump tables are promising techniques to model populations of resistive random-access memory (ReRAM) or other emerging memory devices for hardware neural network simulations. As these tables rely on data interpolation, this work explores the open questions about their fidelity in relation to the stochastic device behavior they model. We study how various jump table device models impact the attained network performance estimates, a concept we define as modeling bias. Two methods of jump table device modeling, binning and Optuna-optimized binning, are explored using synthetic data with known distributions for benchmarking purposes, as well as experimental data obtained from TiOx ReRAM devices. Results on a multi-layer perceptron trained on MNIST show that device models based on binning can behave unpredictably particularly at low number of points in the device dataset, sometimes over-promising, sometimes under-promising target network accuracy. This paper also proposes device level metrics that indicate similar trends with the modeling bias metric at the network level. The proposed approach opens the possibility for future investigations into statistical device models with better performance, as well as experimentally verified modeling bias in different in-memory computing and neural network architectures.
translated by 谷歌翻译
备忘录显示了增强神经形态计算概念和AI硬件加速器的有希望的功能。在本文中,我们提出了一个用户友好的软件基础架构,该基础架构允许使用Memristor模型模拟各种神经形态架构。该工具赋予了将备忘录用于在线学习和在线分类任务的研究,从而预测了培训过程中的备忘录抵抗状态的变化。该工具的多功能性是通过功能来展示的,以供用户自定义所使用的Memristor和Neuronal模型中的参数以及所采用的学习规则。这进一步允许用户在广泛的参数中验证概念及其灵敏度。我们通过MNIST分类任务演示了该工具的使用。最后,我们展示了如何使用该工具通过与市售的特征工具进行适当的接口来模拟与实用的回忆设备中研究的概念。
translated by 谷歌翻译
人工智能革命(AI)提出了巨大的存储和数据处理要求。大量的功耗和硬件开销已成为构建下一代AI硬件的主要挑战。为了减轻这种情况,神经形态计算引起了极大的关注,因为它在功耗非常低的功能方面具有出色的数据处理能力。尽管无情的研究已经进行了多年,以最大程度地减少神经形态硬件的功耗,但我们离达到人脑的能源效率还有很长的路要走。此外,设计复杂性和过程变化阻碍了当前神经形态平台的大规模实现。最近,由于其出色的速度和功率指标,在低温温度中实施神经形态计算系统的概念引起了人们的兴趣。可以设计几种低温装置,可作为具有超低功率需求的神经形态原始设备。在这里,我们全面回顾了低温神经形态硬件。我们将现有的低温神经形态硬件分类为几个分层类别,并根据关键性能指标绘制比较分析。我们的分析简洁地描述了相关电路拓扑的操作,并概述了最先进的技术平台遇到的优势和挑战。最后,我们提供了见解,以规避这些挑战,以实现未来的研究发展。
translated by 谷歌翻译
随着深度神经网络(DNN)的发展以解决日益复杂的问题,它们正受到现有数字处理器的延迟和功耗的限制。为了提高速度和能源效率,已经提出了专门的模拟光学和电子硬件,但是可扩展性有限(输入矢量长度$ k $的数百个元素)。在这里,我们提出了一个可扩展的,单层模拟光学处理器,该光学处理器使用自由空间光学器件可重新配置输入向量和集成的光电,用于静态,可更新的加权和非线性 - 具有$ k \ \ 1,000 $和大约1,000美元和超过。我们通过实验测试MNIST手写数字数据集的分类精度,在没有数据预处理或在硬件上进行数据重新处理的情况下达到94.7%(地面真相96.3%)。我们还确定吞吐量($ \ sim $ 0.9 examac/s)的基本上限,由最大光带宽设置,然后大大增加误差。我们在兼容CMOS兼容系统中宽光谱和空间带宽的组合可以实现下一代DNN的高效计算。
translated by 谷歌翻译
在这项工作中,我们介绍了一种光电尖峰,能够以超速率($ \ \左右100磅/光学尖峰)和低能耗($ <$ PJ /秒码)运行。所提出的系统结合了具有负差分电导的可激发谐振隧道二极管(RTD)元件,耦合到纳米级光源(形成主节点)或光电探测器(形成接收器节点)。我们在数值上学习互连的主接收器RTD节点系统的尖峰动态响应和信息传播功能。使用脉冲阈值和集成的关键功能,我们利用单个节点来对顺序脉冲模式进行分类,并对图像特征(边缘)识别执行卷积功能。我们还展示了光学互连的尖峰神经网络模型,用于处理超过10 Gbps的时空数据,具有高推理精度。最后,我们展示了利用峰值定时依赖性可塑性的片外监督的学习方法,使能RTD的光子尖峰神经网络。这些结果证明了RTD尖峰节点用于低占地面积,低能量,高速光电实现神经形态硬件的潜在和可行性。
translated by 谷歌翻译
超比计算(HDC)是由大脑启发的新出现的计算框架,其在数千个尺寸上运行以模拟认知的载体。与运行数量的传统计算框架不同,HDC,如大脑,使用高维随机向量并能够一次学习。 HDC基于明确定义的算术运算集,并且是高度误差的。 HDC的核心运营操纵高清vectors以散装比特方式,提供许多机会利用并行性。遗憾的是,在传统的von-neuman架构上,处理器中的高清矢量的连续运动可以使认知任务过度缓慢和能量密集。硬件加速器只会略微改进相关的指标。相反,只有使用新兴铭文设备内存的HDC框架的部分实施,已报告了相当大的性能/能源收益。本文介绍了一种基于赛道内存(RTM)的架构,以便在内存中进行和加速整个HDC框架。所提出的解决方案需要最小的附加CMOS电路,并在称为横向读取(TR)的RTM中跨多个域的读取操作,以实现排他性或(XOR)和添加操作。为了最小化CMOS电路的开销,我们提出了一种基于RTM纳米线的计数机制,其利用TR操作和标准RTM操作。使用语言识别作为用例,分别与FPGA设计相比,整体运行时和能耗降低了7.8倍和5.3倍。与最先进的内存实现相比,所提出的HDC系统将能耗降低8.6倍。
translated by 谷歌翻译
Neural networks have revolutionized the area of artificial intelligence and introduced transformative applications to almost every scientific field and industry. However, this success comes at a great price; the energy requirements for training advanced models are unsustainable. One promising way to address this pressing issue is by developing low-energy neuromorphic hardware that directly supports the algorithm's requirements. The intrinsic non-volatility, non-linearity, and memory of spintronic devices make them appealing candidates for neuromorphic devices. Here we focus on the reservoir computing paradigm, a recurrent network with a simple training algorithm suitable for computation with spintronic devices since they can provide the properties of non-linearity and memory. We review technologies and methods for developing neuromorphic spintronic devices and conclude with critical open issues to address before such devices become widely used.
translated by 谷歌翻译