储层计算是一种模拟生物启发的计算模型,用于有效处理时间相关的信号,其光子实现有望结合大规模并行信息处理,低功耗和高速操作。但是,大多数实现,尤其是对于时间延迟储层计算(TDRC)的情况,需要在储层中的信号衰减来实现特定任务的所需系统动力学,通常会导致大量功率在系统之外耦合。我们提出了一种基于集成在谐振腔中的不对称的Mach-Zehnder干涉仪(MZI)的新型TDRC架构,该干涉仪(MZI)允许对系统的存储能力进行调整,而无需光学衰减器块。此外,可以利用这是为了找到总内存能力度量的特定组件的最佳值。我们在时间上的XOR任务上证明了这种方法,并得出结论,这种内存能力重新配置的方式可以实现特定于内存的任务的最佳性能。
translated by 谷歌翻译
在这项工作中,我们介绍了一种光电尖峰,能够以超速率($ \ \左右100磅/光学尖峰)和低能耗($ <$ PJ /秒码)运行。所提出的系统结合了具有负差分电导的可激发谐振隧道二极管(RTD)元件,耦合到纳米级光源(形成主节点)或光电探测器(形成接收器节点)。我们在数值上学习互连的主接收器RTD节点系统的尖峰动态响应和信息传播功能。使用脉冲阈值和集成的关键功能,我们利用单个节点来对顺序脉冲模式进行分类,并对图像特征(边缘)识别执行卷积功能。我们还展示了光学互连的尖峰神经网络模型,用于处理超过10 Gbps的时空数据,具有高推理精度。最后,我们展示了利用峰值定时依赖性可塑性的片外监督的学习方法,使能RTD的光子尖峰神经网络。这些结果证明了RTD尖峰节点用于低占地面积,低能量,高速光电实现神经形态硬件的潜在和可行性。
translated by 谷歌翻译
Reservoir computing is a recurrent neural network paradigm in which only the output layer is trained. Recently, it was demonstrated that adding time-shifts to the signals generated by a reservoir can provide large improvements in performance accuracy. In this work, we present a technique to choose the optimal time shifts. Our technique maximizes the rank of the reservoir matrix using a rank-revealing QR algorithm and is not task dependent. Further, our technique does not require a model of the system, and therefore is directly applicable to analog hardware reservoir computers. We demonstrate our time-shift optimization technique on two types of reservoir computer: one based on an opto-electronic oscillator and the traditional recurrent network with a $tanh$ activation function. We find that our technique provides improved accuracy over random time-shift selection in essentially all cases.
translated by 谷歌翻译
基于量子的通信中的当前技术将量子数据的新集成与经典数据进行混合处理。但是,这些技术的框架仅限于单个经典或量子任务,这限制了它们在近期应用中的灵活性。我们建议在需要经典和量子输入的计算任务中利用量子储存器处理器来利用量子动力学。该模拟处理器包括一个量子点网络,其中量子数据被入射到网络中,并且经典数据通过一个连贯的字段刺激了网络进行编码。我们执行量子断层扫描和经典通道非线性均衡的多任务应用。有趣的是,可以通过对经典数据的反馈控制以闭环方式进行断层扫描。因此,如果经典输入来自动力学系统,则将该系统嵌入封闭环中,即使访问对外部经典输入的访问被中断也可以处理混合处理。最后,我们证明准备量子去极化通道是一种用于量子数据处理的新型量子机学习技术。
translated by 谷歌翻译
近年来,人工智能(AI)的领域已经见证了巨大的增长,然而,持续发展的一些最紧迫的挑战是电子计算机架构所面临的基本带宽,能效和速度限制。利用用于执行神经网络推理操作的光子处理器越来越感兴趣,但是这些网络目前使用标准数字电子培训。这里,我们提出了由CMOS兼容的硅光子架构实现的神经网络的片上训练,以利用大规模平行,高效和快速数据操作的电位。我们的方案采用直接反馈对准训练算法,它使用错误反馈而不是错误反向化而培训神经网络,并且可以在每秒乘以数万亿乘以量的速度运行,同时每次MAC操作消耗小于一个微微约会。光子架构利用并行化矩阵 - 向量乘法利用微址谐振器阵列,用于沿着单个波导总线处理多通道模拟信号,以便原位计算每个神经网络层的梯度向量,这是在后向通过期间执行的最昂贵的操作。 。我们还通过片上MAC操作结果实验地示意使用MNIST数据集进行培训深度神经网络。我们的高效,超快速神经网络训练的新方法展示了光子学作为执行AI应用的有希望的平台。
translated by 谷歌翻译
储层计算(RC)已经获得了最近的兴趣,因为无需培训储层权重,从而实现了极低的资源消费实施,这可能会对边缘计算和现场学习的影响有严格的限制。理想情况下,天然硬件储层应被动,最小,表现力和可行性。迄今为止,拟议的硬件水库很难满足所有这些标准。因此,我们建议通过利用偶极耦合,沮丧的纳米磁体的被动相互作用来符合所有这些标准的水库。挫败感大大增加了稳定的储层国家的数量,丰富了储层动力学,因此这些沮丧的纳米磁体满足了天然硬件储层的所有标准。同样,我们提出了具有低功率互补金属氧化物半导体(CMOS)电路的完全沮丧的纳米磁管储层计算(NMRC)系统与储层接口,并且初始实验结果证明了储层的可行性。在三个单独的任务上,通过微磁模拟对储层进行了验证。将所提出的系统与CMOS Echo-State网络(ESN)进行了比较,表明总体资源减少了10,000,000多倍,这表明,由于NMRC自然是被动的,而且最小的可能是具有极高资源效率的潜力。
translated by 谷歌翻译
综合光子神经网络(IPNN)成为常规电子AI加速器的有前途的后继者,因为它们在计算速度和能源效率方面提供了实质性的提高。特别是,相干IPNN使用Mach-Zehnder干涉仪(MZIS)的阵列进行单位转换来执行节能矩阵矢量乘法。然而,IPNN中的基本MZI设备易受光刻变化和热串扰引起的不确定性,并且由于不均匀的MZI插入损失和量化错误而导致不确定的不确定性,这是由于调谐相角的编码较低而导致的。在本文中,我们首次使用自下而上的方法系统地表征了IPNN中这种不确定性和不确定性(共同称为缺陷)的影响。我们表明,它们对IPNN准确性的影响可能会根据受影响组件的调谐参数(例如相角),其物理位置以及缺陷的性质和分布而差异很大。为了提高可靠性措施,我们确定了关键的IPNN构件,在不完美之下,这些基础可能导致分类准确性的灾难性降解。我们表明,在多个同时缺陷下,即使不完美参数限制在较小的范围内,IPNN推断精度也可能会降低46%。我们的结果还表明,推论精度对影响IPNN输入层旁边的线性层中MZI的缺陷敏感。
translated by 谷歌翻译
储层计算是一种使用高维动力系统或\ emph {Reservoir}的机器学习范式,以近似和预测时间序列数据。可以通过从电子电路中构造储层来增强储层计算机的规模,速度和功率使用,并且一些实验研究证明了这一方向的希望。但是,设计质量储层需要精确理解此类电路如何处理和存储信息。我们分析了包括线性元件(电阻器,电感器和电容器)和称为MEMRISTOR的非线性记忆元件的电子储层的可行性和最佳设计。我们提供了有关这些储层的可行性的分析结果,并通过检查它们可以近似的输入输出关系的类型来对其计算属性进行系统的表征。这使我们能够设计具有最佳属性的储层。通过引入储层的总线性和非线性计算能力的衡量标准,我们能够设计其总计算能力随系统尺寸广泛规模的电子电路。我们的电子储层可以以可能直接在硬件中实现的形式匹配或超过常规“ Echo State Network”储层的性能。
translated by 谷歌翻译
突触记忆巩固已被认为是支持神经形态人工智能(AI)系统中持续学习的关键机制之一。在这里,我们报告说,Fowler-Nordheim(FN)量子隧道设备可以实现突触存储器巩固,类似于通过算法合并模型(例如级联和弹性重量合并(EWC)模型)所能实现的。拟议的FN-Synapse不仅存储突触重量,而且还存储了Synapse在设备本身上的历史用法统计量。我们还表明,就突触寿命而言,FN合并的操作几乎是最佳的,并且我们证明了一个包含FN合成的网络在一个小基准测试持续学习任务上超过了可比的EWC网络。通过每次突触更新的Femtojoules的能量足迹,我们相信所提出的FN-Synapse为实施突触记忆巩固和持续学习提供了一种超能效率的方法。
translated by 谷歌翻译
在本文中,提出了一种新的方法,该方法允许基于神经网络(NN)均衡器的低复杂性发展,以缓解高速相干光学传输系统中的损伤。在这项工作中,我们提供了已应用于馈电和经常性NN设计的各种深层模型压缩方法的全面描述和比较。此外,我们评估了这些策略对每个NN均衡器的性能的影响。考虑量化,重量聚类,修剪和其他用于模型压缩的尖端策略。在这项工作中,我们提出并评估贝叶斯优化辅助压缩,其中选择了压缩的超参数以同时降低复杂性并提高性能。总之,通过使用模拟和实验数据来评估每种压缩方法的复杂性及其性能之间的权衡,以完成分析。通过利用最佳压缩方法,我们表明可以设计基于NN的均衡器,该均衡器比传统的数字背部传播(DBP)均衡器具有更好的性能,并且只有一个步骤。这是通过减少使用加权聚类和修剪算法后在NN均衡器中使用的乘数数量来完成的。此外,我们证明了基于NN的均衡器也可以实现卓越的性能,同时仍然保持与完整的电子色色散补偿块相同的复杂性。我们通过强调开放问题和现有挑战以及未来的研究方向来结束分析。
translated by 谷歌翻译
为了寻求低功率,以生物启发的计算均基于回忆性和基于成年的人工神经网络(ANN)一直是对硬件实施神经形态计算的焦点的主题。进一步的一步,要求使用绝热计算的再生电容性神经网络,为降低能源消耗提供了诱人的途径,尤其是与“ Memimpedace”元素结合使用时。在这里,我们提出了一种人工神经元,具有绝热的突触电容器,以产生神经元的膜电位。后者通过动态闩锁比较器实现,并使用电阻随机访问存储器(RRAM)设备增强。我们最初的4位绝热电容性神经元概念验证示例显示了90%的突触能量节省。在4个突触/SOMA时,我们已经看到总体减少35%的能量。此外,工艺和温度对4位绝热突触的影响显示,在整个角落100度摄氏时,最大能量变化为30%,而没有任何功能损失。最后,我们对ANN的绝热方法的功效进行了512和1024突触/神经元的测试,最差和最佳的情况突触载荷条件以及可变的均衡电容的可变量化均等能力量化了均衡电容和最佳功率 - 电信频率范围之间的预期权衡。加载(即活动突触的百分比)。
translated by 谷歌翻译
一个多世纪以前,伊万·P·帕夫洛夫(Ivan P. Pavlov)在经典实验中展示了狗如何学会将铃铛与食物联系起来,从而导致戒指导致唾液。如今,很少发现使用Pavlovian类型的关联学习用于人工智能(AI)应用程序,即使其他学习概念,尤其是对人工神经网络(ANN)的反向传播也蓬勃发展。但是,使用反向传播方法的训练在“常规” ANN上,尤其是现代深神经网络(DNNS)的形式,是计算和能量密集型的。在这里,我们在实验上展示了使用单个(或单一)关联硬件元素的无反向传播学习形式。我们使用相位变换材料与芯片级联方向耦合器相结合的集成光子平台上意识到这一点。然后,我们使用我们的Monadic Pavlovian光子硬件开发扩展的电路网络,该硬件可以基于单元素关联提供独特的机器学习框架,并且重要的是,重要的是,使用无反向传播的架构来解决一般学习任务。我们的方法通过在传统的神经网络方法中学习来减轻施加的计算负担,从而提高了速度,同时还提供了我们光子实现固有的更高带宽。
translated by 谷歌翻译
基于旋转扭矩振荡器的复合值Hopfield网络模拟可以恢复相位编码的图像。存储器增强逆变器的序列提供可调谐延迟元件,通过相位转换振荡器的振荡输出来实现复合权重的可调延迟元件。伪逆培训足以存储在一组192个振荡器中,至少代表16 $ \倍数为12个像素图像。恢复图像所需的能量取决于所需的错误级别。对于这里考虑的振荡器和电路,来自理想图像的5%均方方偏差需要大约5 00美元$ S并消耗大约130 NJ。模拟显示,当振荡器的谐振频率可以调整为具有小于10 ^ {-3} $的分数扩展时,网络功能良好,具体取决于反馈的强度。
translated by 谷歌翻译
In this work, we demonstrate the offline FPGA realization of both recurrent and feedforward neural network (NN)-based equalizers for nonlinearity compensation in coherent optical transmission systems. First, we present a realization pipeline showing the conversion of the models from Python libraries to the FPGA chip synthesis and implementation. Then, we review the main alternatives for the hardware implementation of nonlinear activation functions. The main results are divided into three parts: a performance comparison, an analysis of how activation functions are implemented, and a report on the complexity of the hardware. The performance in Q-factor is presented for the cases of bidirectional long-short-term memory coupled with convolutional NN (biLSTM + CNN) equalizer, CNN equalizer, and standard 1-StpS digital back-propagation (DBP) for the simulation and experiment propagation of a single channel dual-polarization (SC-DP) 16QAM at 34 GBd along 17x70km of LEAF. The biLSTM+CNN equalizer provides a similar result to DBP and a 1.7 dB Q-factor gain compared with the chromatic dispersion compensation baseline in the experimental dataset. After that, we assess the Q-factor and the impact of hardware utilization when approximating the activation functions of NN using Taylor series, piecewise linear, and look-up table (LUT) approximations. We also show how to mitigate the approximation errors with extra training and provide some insights into possible gradient problems in the LUT approximation. Finally, to evaluate the complexity of hardware implementation to achieve 400G throughput, fixed-point NN-based equalizers with approximated activation functions are developed and implemented in an FPGA.
translated by 谷歌翻译
Ultra-reliable short-packet communication is a major challenge in future wireless networks with critical applications. To achieve ultra-reliable communications beyond 99.999%, this paper envisions a new interaction-based communication paradigm that exploits feedback from the receiver. We present AttentionCode, a new class of feedback codes leveraging deep learning (DL) technologies. The underpinnings of AttentionCode are three architectural innovations: AttentionNet, input restructuring, and adaptation to fading channels, accompanied by several training methods, including large-batch training, distributed learning, look-ahead optimizer, training-test signal-to-noise ratio (SNR) mismatch, and curriculum learning. The training methods can potentially be generalized to other wireless communication applications with machine learning. Numerical experiments verify that AttentionCode establishes a new state of the art among all DL-based feedback codes in both additive white Gaussian noise (AWGN) channels and fading channels. In AWGN channels with noiseless feedback, for example, AttentionCode achieves a block error rate (BLER) of $10^{-7}$ when the forward channel SNR is 0 dB for a block size of 50 bits, demonstrating the potential of AttentionCode to provide ultra-reliable short-packet communications.
translated by 谷歌翻译
由于深度学习在许多人工智能应用中显示了革命性的性能,其升级的计算需求需要用于巨大并行性的硬件加速器和改进的吞吐量。光学神经网络(ONN)是下一代神经关键组成的有希望的候选者,由于其高并行,低延迟和低能量消耗。在这里,我们设计了一个硬件高效的光子子空间神经网络(PSNN)架构,其针对具有比具有可比任务性能的前一个ONN架构的光学元件使用,区域成本和能量消耗。此外,提供了一种硬件感知培训框架,以最小化所需的设备编程精度,减少芯片区域,并提高噪声鲁棒性。我们在实验上展示了我们的PSNN在蝴蝶式可编程硅光子集成电路上,并在实用的图像识别任务中显示其实用性。
translated by 谷歌翻译
量化和验证准备量子状态的控制水平是构建量子器件中的中心挑战。量子状态的特点是实验测量,使用称为断层扫描的程序,这需要大量资源。此外,尚未制定与颞下处理的量子装置的断层扫描,其尚未制定与标准断层扫描的逐时处理。我们使用经常性机器学习框架开发了一种实用和近似的断层扫描方法,用于这种有趣情况。该方法基于具有量子态流称为量子储存器的系统之间的重复量子相互作用。来自储存器的测量数据连接到线性读数,以训练施加到输入流的量子通道之间的反复关系。我们展示了Quantum学习任务的算法,然后是Quantum短期内存容量的提议,以评估近术语量子器件的时间处理能力。
translated by 谷歌翻译
存储器系统和设备可能用于实现应用于模式识别的储层计算(RC)系统。然而,Memristive RC系统的计算能力取决于交错的因素,例如存储器元素的系统架构和物理属性,其复杂化了系统性能的关键因素。在这里,我们为RC的仿真平台开发了Memristor设备网络的仿真平台,这使得能够测试不同的系统设计以进行性能改进。数值模拟表明,基于Memristor-Network的RC系统可以在三个时间级分类任务中产生与最先进的方法相当的高计算性能。我们证明,通过适当地设置忆阻器的网络结构,非线性和预/后处理可以实现设备到设备可变性的优异和鲁棒计算,这增加了利用不可靠的分量设备的可靠计算的可能性。我们的成果有助于建立椎间盘储层设计指南,以实现节能机械学习硬件。
translated by 谷歌翻译
Echo State Networks (ESN) are a type of Recurrent Neural Networks that yields promising results in representing time series and nonlinear dynamic systems. Although they are equipped with a very efficient training procedure, Reservoir Computing strategies, such as the ESN, require the use of high order networks, i.e. large number of layers, resulting in number of states that is magnitudes higher than the number of model inputs and outputs. This not only makes the computation of a time step more costly, but also may pose robustness issues when applying ESNs to problems such as Model Predictive Control (MPC) and other optimal control problems. One such way to circumvent this is through Model Order Reduction strategies such as the Proper Orthogonal Decomposition (POD) and its variants (POD-DEIM), whereby we find an equivalent lower order representation to an already trained high dimension ESN. The objective of this work is to investigate and analyze the performance of POD methods in Echo State Networks, evaluating their effectiveness. To this end, we evaluate the Memory Capacity (MC) of the POD-reduced network in comparison to the original (full order) ENS. We also perform experiments on two different numerical case studies: a NARMA10 difference equation and an oil platform containing two wells and one riser. The results show that there is little loss of performance comparing the original ESN to a POD-reduced counterpart, and also that the performance of a POD-reduced ESN tend to be superior to a normal ESN of the same size. Also we attain speedups of around $80\%$ in comparison to the original ESN.
translated by 谷歌翻译
Distributed deep learning (DDL) systems strongly depend on network performance. Current electronic packet switched (EPS) network architectures and technologies suffer from variable diameter topologies, low-bisection bandwidth and over-subscription affecting completion time of communication and collective operations. We introduce a near-exascale, full-bisection bandwidth, all-to-all, single-hop, all-optical network architecture with nanosecond reconfiguration called RAMP, which supports large-scale distributed and parallel computing systems (12.8~Tbps per node for up to 65,536 nodes). For the first time, a custom RAMP-x MPI strategy and a network transcoder is proposed to run MPI collective operations across the optical circuit switched (OCS) network in a schedule-less and contention-less manner. RAMP achieves 7.6-171$\times$ speed-up in completion time across all MPI operations compared to realistic EPS and OCS counterparts. It can also deliver a 1.3-16$\times$ and 7.8-58$\times$ reduction in Megatron and DLRM training time respectively} while offering 42-53$\times$ and 3.3-12.4$\times$ improvement in energy consumption and cost respectively.
translated by 谷歌翻译