神经网络的越来越大的规模及其越来越多的应用空间对更高的能量和记忆有效的人工智能特定硬件产生了需求。 venues为了缓解主要问题,von neumann瓶颈,包括内存和近记忆架构,以及算法方法。在这里,我们利用磁隧道结(MTJ)的低功耗和固有的二进制操作来展示基于MTJ的无源阵列的神经网络硬件推断。通常,由于设备到装置的变化,写入误差,寄生电阻和非前沿,在性能下将训练的网络模型转移到推动的硬件。为了量化这些硬件现实的效果,我们将300个唯一重量矩阵解决方案的23个唯一的重量矩阵解决方案进行分类,以分类葡萄酒数据集,用于分类准确性和写真保真度。尽管设备不完美,我们可以实现高达95.3%的软件等效精度,并在15 x 15 MTJ阵列中正确调整具有一系列设备尺寸的阵列。此调谐过程的成功表明,需要新的指标来表征混合信号硬件中再现的网络的性能和质量。
translated by 谷歌翻译
我们证明,与畴壁(DW)位置的大量随机变化的量化量(名义上是5态)突触的极低分辨率可以是节能的,并且与使用浮动精度相比,与类似尺寸的深度神经网络(DNN)相比具有相当高的测试精度。突触权重。具体地,电压控制的DW器件展示随机性的随机行为,与微磁性模拟严格,并且只能编码有限状态;但是,它们在训练和推论中都可以非常节能。我们表明,通过对学习算法实施合适的修改,我们可以解决随机行为以及减轻其低分辨率的影响,以实现高测试精度。在这项研究中,我们提出了原位和前地训练算法,基于Hubara等人提出的算法的修改。 [1]适用于突触权重的量化。我们使用2个,3和5状态DW设备作为Synapse培训Mnist DataSet上的几个5层DNN。对于原位训练,采用单独的高精度存储器单元来保护和累积重量梯度,然后被量化以编程低精密DW设备。此外,在训练期间使用尺寸的噪声公差余量来解决内部编程噪声。对于前训训练,首先基于所表征的DW设备模型和噪声公差余量进行前体DNN,其类似于原位培训。值得注意的是,对于原位推断,对设备的能量耗散装置仅是每次推断仅13页,因为在整个MNIST数据集上进行10个时期进行训练。
translated by 谷歌翻译
基于旋转扭矩振荡器的复合值Hopfield网络模拟可以恢复相位编码的图像。存储器增强逆变器的序列提供可调谐延迟元件,通过相位转换振荡器的振荡输出来实现复合权重的可调延迟元件。伪逆培训足以存储在一组192个振荡器中,至少代表16 $ \倍数为12个像素图像。恢复图像所需的能量取决于所需的错误级别。对于这里考虑的振荡器和电路,来自理想图像的5%均方方偏差需要大约5 00美元$ S并消耗大约130 NJ。模拟显示,当振荡器的谐振频率可以调整为具有小于10 ^ {-3} $的分数扩展时,网络功能良好,具体取决于反馈的强度。
translated by 谷歌翻译
在神经形态计算中,人工突触提供了一种基于来自神经元的输入来设置的多重导电状态,类似于大脑。可能需要超出多重权重的突触的附加属性,并且可以取决于应用程序,需要需要从相同材料生成不同的突触行为。这里,我们基于使用磁隧道结和磁畴壁的磁性材料测量人造突触。通过在单个磁隧道结下面的畴壁轨道中制造光刻槽口,我们实现了4-5个稳定的电阻状态,可以使用自旋轨道扭矩电气可重复控制。我们分析几何形状对突触行为的影响,表明梯形装置具有高可控性的不对称性重量,而直线装置具有较高的随机性,但具有稳定的电阻水平。设备数据被输入到神经形态计算模拟器中以显示特定于应用程序突触函数的有用性。实施应用于流式的时尚 - MNIST数据的人工神经网络,我们表明梯形磁突出可以用作高效在线学习的元塑功能。为CiFar-100图像识别实施卷积神经网络,我们表明直流突触由于其电阻水平的稳定性而达到近乎理想的推理精度。这项工作显示多重磁突触是神经形态计算的可行技术,并为新兴人工突触技术提供设计指南。
translated by 谷歌翻译
基于von-neumann架构的传统计算系统,数据密集型工作负载和应用程序(如机器学习)和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈,对近数据处理(NDP),机器学习和特别是神经网络(NN)的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术,这是有效地架构基于NN的基于NN的加速器,因为它们的工作能力是:高密度/低能量存储和近记忆计算/搜索引擎。在本文中,我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类,我们强调了它们的相似之处和差异。最后,我们讨论了需要探索的开放挑战和未来的观点,以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师,芯片设计师和研究人员来说是有价值的。
translated by 谷歌翻译
近年来,人工智能(AI)的领域已经见证了巨大的增长,然而,持续发展的一些最紧迫的挑战是电子计算机架构所面临的基本带宽,能效和速度限制。利用用于执行神经网络推理操作的光子处理器越来越感兴趣,但是这些网络目前使用标准数字电子培训。这里,我们提出了由CMOS兼容的硅光子架构实现的神经网络的片上训练,以利用大规模平行,高效和快速数据操作的电位。我们的方案采用直接反馈对准训练算法,它使用错误反馈而不是错误反向化而培训神经网络,并且可以在每秒乘以数万亿乘以量的速度运行,同时每次MAC操作消耗小于一个微微约会。光子架构利用并行化矩阵 - 向量乘法利用微址谐振器阵列,用于沿着单个波导总线处理多通道模拟信号,以便原位计算每个神经网络层的梯度向量,这是在后向通过期间执行的最昂贵的操作。 。我们还通过片上MAC操作结果实验地示意使用MNIST数据集进行培训深度神经网络。我们的高效,超快速神经网络训练的新方法展示了光子学作为执行AI应用的有希望的平台。
translated by 谷歌翻译
Data-driven modeling approaches such as jump tables are promising techniques to model populations of resistive random-access memory (ReRAM) or other emerging memory devices for hardware neural network simulations. As these tables rely on data interpolation, this work explores the open questions about their fidelity in relation to the stochastic device behavior they model. We study how various jump table device models impact the attained network performance estimates, a concept we define as modeling bias. Two methods of jump table device modeling, binning and Optuna-optimized binning, are explored using synthetic data with known distributions for benchmarking purposes, as well as experimental data obtained from TiOx ReRAM devices. Results on a multi-layer perceptron trained on MNIST show that device models based on binning can behave unpredictably particularly at low number of points in the device dataset, sometimes over-promising, sometimes under-promising target network accuracy. This paper also proposes device level metrics that indicate similar trends with the modeling bias metric at the network level. The proposed approach opens the possibility for future investigations into statistical device models with better performance, as well as experimentally verified modeling bias in different in-memory computing and neural network architectures.
translated by 谷歌翻译
我们介绍了具有磁隧道结(MTJ)突触的神经形态网络的第一个实验证明,其通过矢量矩阵乘法进行图像识别。我们还模拟了执行Mnist手写数字识别的大型MTJ网络,展示MTJ交叉栏可以匹配映射器精度,同时提供更高的精度,稳定性和耐久性。
translated by 谷歌翻译
储层计算(RC)已经获得了最近的兴趣,因为无需培训储层权重,从而实现了极低的资源消费实施,这可能会对边缘计算和现场学习的影响有严格的限制。理想情况下,天然硬件储层应被动,最小,表现力和可行性。迄今为止,拟议的硬件水库很难满足所有这些标准。因此,我们建议通过利用偶极耦合,沮丧的纳米磁体的被动相互作用来符合所有这些标准的水库。挫败感大大增加了稳定的储层国家的数量,丰富了储层动力学,因此这些沮丧的纳米磁体满足了天然硬件储层的所有标准。同样,我们提出了具有低功率互补金属氧化物半导体(CMOS)电路的完全沮丧的纳米磁管储层计算(NMRC)系统与储层接口,并且初始实验结果证明了储层的可行性。在三个单独的任务上,通过微磁模拟对储层进行了验证。将所提出的系统与CMOS Echo-State网络(ESN)进行了比较,表明总体资源减少了10,000,000多倍,这表明,由于NMRC自然是被动的,而且最小的可能是具有极高资源效率的潜力。
translated by 谷歌翻译
Increasing popularity of deep-learning-powered applications raises the issue of vulnerability of neural networks to adversarial attacks. In other words, hardly perceptible changes in input data lead to the output error in neural network hindering their utilization in applications that involve decisions with security risks. A number of previous works have already thoroughly evaluated the most commonly used configuration - Convolutional Neural Networks (CNNs) against different types of adversarial attacks. Moreover, recent works demonstrated transferability of the some adversarial examples across different neural network models. This paper studied robustness of the new emerging models such as SpinalNet-based neural networks and Compact Convolutional Transformers (CCT) on image classification problem of CIFAR-10 dataset. Each architecture was tested against four White-box attacks and three Black-box attacks. Unlike VGG and SpinalNet models, attention-based CCT configuration demonstrated large span between strong robustness and vulnerability to adversarial examples. Eventually, the study of transferability between VGG, VGG-inspired SpinalNet and pretrained CCT 7/3x1 models was conducted. It was shown that despite high effectiveness of the attack on the certain individual model, this does not guarantee the transferability to other models.
translated by 谷歌翻译
综合光子神经网络(IPNN)成为常规电子AI加速器的有前途的后继者,因为它们在计算速度和能源效率方面提供了实质性的提高。特别是,相干IPNN使用Mach-Zehnder干涉仪(MZIS)的阵列进行单位转换来执行节能矩阵矢量乘法。然而,IPNN中的基本MZI设备易受光刻变化和热串扰引起的不确定性,并且由于不均匀的MZI插入损失和量化错误而导致不确定的不确定性,这是由于调谐相角的编码较低而导致的。在本文中,我们首次使用自下而上的方法系统地表征了IPNN中这种不确定性和不确定性(共同称为缺陷)的影响。我们表明,它们对IPNN准确性的影响可能会根据受影响组件的调谐参数(例如相角),其物理位置以及缺陷的性质和分布而差异很大。为了提高可靠性措施,我们确定了关键的IPNN构件,在不完美之下,这些基础可能导致分类准确性的灾难性降解。我们表明,在多个同时缺陷下,即使不完美参数限制在较小的范围内,IPNN推断精度也可能会降低46%。我们的结果还表明,推论精度对影响IPNN输入层旁边的线性层中MZI的缺陷敏感。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
Organic neuromorphic device networks can accelerate neural network algorithms and directly integrate with microfluidic systems or living tissues. Proposed devices based on the bio-compatible conductive polymer PEDOT:PSS have shown high switching speeds and low energy demand. However, as electrochemical systems, they are prone to self-discharge through parasitic electrochemical reactions. Therefore, the network's synapses forget their trained conductance states over time. This work integrates single-device high-resolution charge transport models to simulate neuromorphic device networks and analyze the impact of self-discharge on network performance. Simulation of a single-layer nine-pixel image classification network reveals no significant impact of self-discharge on training efficiency. And, even though the network's weights drift significantly during self-discharge, its predictions remain 100\% accurate for over ten hours. On the other hand, a multi-layer network for the approximation of the circle function is shown to degrade significantly over twenty minutes with a final mean-squared-error loss of 0.4. We propose to counter the effect by periodically reminding the network based on a map between a synapse's current state, the time since the last reminder, and the weight drift. We show that this method with a map obtained through validated simulations can reduce the effective loss to below 0.1 even with worst-case assumptions. Finally, while the training of this network is affected by self-discharge, a good classification is still obtained. Electrochemical organic neuromorphic devices have not been integrated into larger device networks. This work predicts their behavior under nonideal conditions, mitigates the worst-case effects of parasitic self-discharge, and opens the path toward implementing fast and efficient neural networks on organic neuromorphic hardware.
translated by 谷歌翻译
在过去的二十年中,癫痫发作检测和预测算法迅速发展。然而,尽管性能得到了重大改进,但它们使用常规技术(例如互补的金属氧化物 - 轴导剂(CMO))进行的硬件实施,在权力和面积受限的设置中仍然是一项艰巨的任务;特别是当使用许多录音频道时。在本文中,我们提出了一种新型的低延迟平行卷积神经网络(CNN)体系结构,与SOTA CNN体系结构相比,网络参数少2-2,800倍,并且达到5倍的交叉验证精度为99.84%,用于癫痫发作检测,检测到99.84%。癫痫发作预测的99.01%和97.54%分别使用波恩大学脑电图(EEG),CHB-MIT和SWEC-ETHZ癫痫发作数据集进行评估。随后,我们将网络实施到包含电阻随机存储器(RRAM)设备的模拟横梁阵列上,并通过模拟,布置和确定系统中CNN组件的硬件要求来提供全面的基准。据我们所知,我们是第一个平行于在单独的模拟横杆上执行卷积层内核的人,与SOTA混合Memristive-CMOS DL加速器相比,潜伏期降低了2个数量级。此外,我们研究了非理想性对系统的影响,并研究了量化意识培训(QAT),以减轻由于ADC/DAC分辨率较低而导致的性能降解。最后,我们提出了一种卡住的重量抵消方法,以减轻因卡住的Ron/Roff Memristor重量而导致的性能降解,而无需再进行重新培训而恢复了高达32%的精度。我们平台的CNN组件估计在22nm FDSOI CMOS流程中占据31.255mm $^2 $的面积约为2.791W。
translated by 谷歌翻译
Machine learning methods have revolutionized the discovery process of new molecules and materials. However, the intensive training process of neural networks for molecules with ever-increasing complexity has resulted in exponential growth in computation cost, leading to long simulation time and high energy consumption. Photonic chip technology offers an alternative platform for implementing neural networks with faster data processing and lower energy usage compared to digital computers. Photonics technology is naturally capable of implementing complex-valued neural networks at no additional hardware cost. Here, we demonstrate the capability of photonic neural networks for predicting the quantum mechanical properties of molecules. To the best of our knowledge, this work is the first to harness photonic technology for machine learning applications in computational chemistry and molecular sciences, such as drug discovery and materials design. We further show that multiple properties can be learned simultaneously in a photonic chip via a multi-task regression learning algorithm, which is also the first of its kind as well, as most previous works focus on implementing a network in the classification task.
translated by 谷歌翻译
随着深度神经网络(DNN)的发展以解决日益复杂的问题,它们正受到现有数字处理器的延迟和功耗的限制。为了提高速度和能源效率,已经提出了专门的模拟光学和电子硬件,但是可扩展性有限(输入矢量长度$ k $的数百个元素)。在这里,我们提出了一个可扩展的,单层模拟光学处理器,该光学处理器使用自由空间光学器件可重新配置输入向量和集成的光电,用于静态,可更新的加权和非线性 - 具有$ k \ \ 1,000 $和大约1,000美元和超过。我们通过实验测试MNIST手写数字数据集的分类精度,在没有数据预处理或在硬件上进行数据重新处理的情况下达到94.7%(地面真相96.3%)。我们还确定吞吐量($ \ sim $ 0.9 examac/s)的基本上限,由最大光带宽设置,然后大大增加误差。我们在兼容CMOS兼容系统中宽光谱和空间带宽的组合可以实现下一代DNN的高效计算。
translated by 谷歌翻译
表面代码误差校正提供了高度有希望的途径,以实现可扩展的容错量计算。当操作作为稳定器代码时,表面代码计算包括综太解码步骤,其中测量的稳定器运营商用于确定物理QUBITS中错误的适当校正。解码算法经历了大量发展,最近的工作包括机器学习(ML)技术。尽管初始结果具有很有希望的初始结果,但基于ML的综合征解码器仍然限于具有低延迟的小规模示范,并且无法处理具有边界条件的表面代码和格子手术和编织所需的各种形状。在这里,我们报告了一种基于人工神经网络(ANN)的可伸缩和快速综合征解码器的开发,其能够用患有各种噪声模型的数据Qubits解码任意形状和大小的表面代码,包括多大噪声模型,偏振噪声和空间不均匀噪音。基于严格的5000万次随机量子误差实例,我们的ANN解码器显示用于超过1000(超过400万物理QUBITS)的代码距离,这是迄今为止最大的基于ML的解码器演示。已建立的ANN解码器原则上展示了独立于代码距离的执行时间,这意味着它在专用硬件上的实现可能会提供O($ \ mu $ sec)的表面代码解码时间,与实验可实现的Qubit相干时间相称。随着在未来十年内的量子处理器的预期扩展,他们的增强与我们在我们的工作中开发的快速和可扩展的综合征解码器,预计将对实验性宽容量子信息处理的实验实施起决定性的作用。
translated by 谷歌翻译
由于深度学习在许多人工智能应用中显示了革命性的性能,其升级的计算需求需要用于巨大并行性的硬件加速器和改进的吞吐量。光学神经网络(ONN)是下一代神经关键组成的有希望的候选者,由于其高并行,低延迟和低能量消耗。在这里,我们设计了一个硬件高效的光子子空间神经网络(PSNN)架构,其针对具有比具有可比任务性能的前一个ONN架构的光学元件使用,区域成本和能量消耗。此外,提供了一种硬件感知培训框架,以最小化所需的设备编程精度,减少芯片区域,并提高噪声鲁棒性。我们在实验上展示了我们的PSNN在蝴蝶式可编程硅光子集成电路上,并在实用的图像识别任务中显示其实用性。
translated by 谷歌翻译
作为其核心计算,一种自我发挥的机制可以在整个输入序列上分配成对相关性。尽管表现良好,但计算成对相关性的成本高昂。尽管最近的工作表明了注意力分数低的元素的运行时间修剪的好处,但自我发挥机制的二次复杂性及其芯片内存能力的需求被忽略了。这项工作通过构建一个称为Sprint的加速器来解决这些约束,该加速器利用RERAM横杆阵列的固有并行性以近似方式计算注意力分数。我们的设计使用RERAM内的轻质模拟阈值电路来降低注意力评分,从而使Sprint只能获取一小部分相关数据到芯片内存。为了减轻模型准确性的潜在负面影响,Sprint重新计算数字中少数获取数据的注意力评分。相关注意分数的组合内修剪和片上重新计算可以将Sprint转化为仅线性的二次复杂性。此外,我们即使修剪后,我们也可以识别并利用相邻的注意操作之间的动态空间位置,从而消除了昂贵但冗余的数据获取。我们在各种最新的变压器模型上评估了我们提出的技术。平均而言,当使用总16KB芯片内存时,Sprint会产生7.5倍的速度和19.6倍的能量,而实际上与基线模型的等值级相当(平均为0.36%的降级)。
translated by 谷歌翻译
量子点(QDS)阵列是一个有前途的候选系统,实现可扩展的耦合码头系统,并用作量子计算机的基本构建块。在这种半导体量子系统中,设备现在具有数十个,必须仔细地将系统仔细设置为单电子制度并实现良好的Qubit操作性能。必要点位置的映射和栅极电压的电荷提出了一个具有挑战性的经典控制问题。随着QD Qubits越来越多的QD Qubits,相关参数空间的增加充分以使启发式控制不可行。近年来,有一个相当大的努力自动化与机器学习(ML)技术相结合的基于脚本的算法。在这一讨论中,我们概述了QD器件控制自动化进展的全面概述,特别强调了在二维电子气体中形成的基于硅和GaAs的QD。将基于物理的型号与现代数值优化和ML相结合,证明在屈服高效,可扩展的控制方面已经证明非常有效。通过计算机科学和ML的理论,计算和实验努力的进一步整合,在推进半导体和量子计算平台方面具有巨大的潜力。
translated by 谷歌翻译