随机梯度下降(SGD)是深度学习技术的工作主控算法。在训练阶段的每个步骤中,从训练数据集中抽取迷你样本,并且根据该特定示例子集的性能调整神经网络的权重。迷你批量采样过程将随机性动力学引入梯度下降,具有非琐碎的状态依赖性噪声。我们在原型神经网络模型中表征了SGD的随机和最近引入的变体持久性SGD。在占地面定的制度中,在最终训练误差是阳性的情况下,SGD动力学达到静止状态,我们从波动耗散定理定义了从动态平均场理论计算的波动定理的有效温度。我们使用有效温度来量化SGD噪声的幅度作为问题参数的函数。在过度参数化的制度中,在训练错误消失的情况下,我们通过计算系统的两个副本之间的平均距离来测量SGD的噪声幅度,并具有相同的初始化和两个不同的SGD噪声的实现。我们发现这两个噪声测量与问题参数的函数类似。此外,我们观察到嘈杂的算法导致相应的约束满足问题的更广泛的决策边界。
translated by 谷歌翻译
深度学习在广泛的AI应用方面取得了有希望的结果。较大的数据集和模型一致地产生更好的性能。但是,我们一般花费更长的培训时间,以更多的计算和沟通。在本调查中,我们的目标是在模型精度和模型效率方面提供关于大规模深度学习优化的清晰草图。我们调查最常用于优化的算法,详细阐述了大批量培训中出现的泛化差距的可辩论主题,并审查了解决通信开销并减少内存足迹的SOTA策略。
translated by 谷歌翻译
我们训练神经形态硬件芯片以通过变分能最小化近似Quantum旋转模型的地面状态。与使用马尔可夫链蒙特卡罗进行样品生成的变分人工神经网络相比,这种方法具有优点:神经形态器件以快速和固有的并行方式产生样品。我们开发培训算法,并将其应用于横向场介绍模型,在中等系统尺寸下显示出良好的性能($ n \ LEQ 10 $)。系统的普遍开心研究表明,较大系统尺寸的可扩展性主要取决于样品质量,该样品质量受到模拟神经芯片上的参数漂移的限制。学习性能显示阈值行为作为ansatz的变分参数的数量的函数,大约为50美元的隐藏神经元,足以表示关键地位,最高$ n = 10 $。网络参数的6 + 1位分辨率不会限制当前设置中的可达近似质量。我们的工作为利用神经形态硬件的能力提供了一种重要的一步,以解决量子数量问题中的维数诅咒。
translated by 谷歌翻译
我们以封闭的形式分析了随机梯度下降(SGD)的学习动态,用于分类每个群集的高位高斯混合的单层神经网络,其中每个群集分配两个标签中的一个。该问题提供了具有内插制度的非凸损景观的原型和大的概括间隙。我们定义了一个特定的随机过程,其中SGD可以扩展到我们称呼随机梯度流的连续时间限制。在全批处理中,我们恢复标准梯度流。我们将动态平均场理论从统计物理应用于通过自成的随机过程跟踪高维极限中算法的动态。我们探讨了算法的性能,作为控制参数脱落灯的函数,它如何导航损耗横向。
translated by 谷歌翻译
在神经形态计算中,人工突触提供了一种基于来自神经元的输入来设置的多重导电状态,类似于大脑。可能需要超出多重权重的突触的附加属性,并且可以取决于应用程序,需要需要从相同材料生成不同的突触行为。这里,我们基于使用磁隧道结和磁畴壁的磁性材料测量人造突触。通过在单个磁隧道结下面的畴壁轨道中制造光刻槽口,我们实现了4-5个稳定的电阻状态,可以使用自旋轨道扭矩电气可重复控制。我们分析几何形状对突触行为的影响,表明梯形装置具有高可控性的不对称性重量,而直线装置具有较高的随机性,但具有稳定的电阻水平。设备数据被输入到神经形态计算模拟器中以显示特定于应用程序突触函数的有用性。实施应用于流式的时尚 - MNIST数据的人工神经网络,我们表明梯形磁突出可以用作高效在线学习的元塑功能。为CiFar-100图像识别实施卷积神经网络,我们表明直流突触由于其电阻水平的稳定性而达到近乎理想的推理精度。这项工作显示多重磁突触是神经形态计算的可行技术,并为新兴人工突触技术提供设计指南。
translated by 谷歌翻译
在神经网络的经验风险景观中扁平最小值的性质已经讨论了一段时间。越来越多的证据表明他们对尖锐物质具有更好的泛化能力。首先,我们讨论高斯混合分类模型,并分析显示存在贝叶斯最佳点估算器,其对应于属于宽平区域的最小值。可以通过直接在分类器(通常是独立的)或学习中使用的可分解损耗函数上应用最大平坦度算法来找到这些估计器。接下来,我们通过广泛的数值验证将分析扩展到深度学习场景。使用两种算法,熵-SGD和复制-SGD,明确地包括在优化目标中,所谓的非局部平整度措施称为本地熵,我们一直提高常见架构的泛化误差(例如Resnet,CeffectnNet)。易于计算的平坦度测量显示与测试精度明确的相关性。
translated by 谷歌翻译
基于旋转扭矩振荡器的复合值Hopfield网络模拟可以恢复相位编码的图像。存储器增强逆变器的序列提供可调谐延迟元件,通过相位转换振荡器的振荡输出来实现复合权重的可调延迟元件。伪逆培训足以存储在一组192个振荡器中,至少代表16 $ \倍数为12个像素图像。恢复图像所需的能量取决于所需的错误级别。对于这里考虑的振荡器和电路,来自理想图像的5%均方方偏差需要大约5 00美元$ S并消耗大约130 NJ。模拟显示,当振荡器的谐振频率可以调整为具有小于10 ^ {-3} $的分数扩展时,网络功能良好,具体取决于反馈的强度。
translated by 谷歌翻译
物理引导的神经网络(PGNNS)代表了使用物理引导(PG)丢失功能(捕获具有已知物理学中的网络输出中的违规)培训的新出现类的神经网络,以及数据中包含的监督。 PGNN中的现有工作表明,使用恒定的折衷参数,在神经网络目标中添加单个PG损耗功能的功效,以确保更好的普遍性。然而,在具有竞争梯度方向的多个PG函数的存在中,需要自适应地调谐在训练过程中不同的PG损耗功能的贡献,以获得更广泛的解决方案。我们展示了在求解基于物理学的特征值方程的最低(或最高)特征向量的通用神经网络问题中竞争PG损失的存在,这在许多科学问题中通常遇到。我们提出了一种新的方法来处理竞争PG损失,并在量子力学和电磁繁殖中的两个激励应用中展示其在学习普遍解决方案中的功效。这项工作中使用的所有代码和数据都可以在https://github.com/jayroxis/cophy-pgnn获得。
translated by 谷歌翻译
深度学习使用由其重量进行参数化的神经网络。通常通过调谐重量来直接最小化给定损耗功能来训练神经网络。在本文中,我们建议将权重重新参数转化为网络中各个节点的触发强度的目标。给定一组目标,可以计算使得发射强度最佳地满足这些目标的权重。有人认为,通过我们称之为级联解压缩的过程,使用培训的目标解决爆炸梯度的问题,并使损失功能表面更加光滑,因此导致更容易,培训更快,以及潜在的概括,神经网络。它还允许更容易地学习更深层次和经常性的网络结构。目标对重量的必要转换有额外的计算费用,这是在许多情况下可管理的。在目标空间中学习可以与现有的神经网络优化器相结合,以额外收益。实验结果表明了使用目标空间的速度,以及改进的泛化的示例,用于全连接的网络和卷积网络,以及调用和处理长时间序列的能力,并使用经常性网络进行自然语言处理。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
在这项工作中,我们介绍了一种光电尖峰,能够以超速率($ \ \左右100磅/光学尖峰)和低能耗($ <$ PJ /秒码)运行。所提出的系统结合了具有负差分电导的可激发谐振隧道二极管(RTD)元件,耦合到纳米级光源(形成主节点)或光电探测器(形成接收器节点)。我们在数值上学习互连的主接收器RTD节点系统的尖峰动态响应和信息传播功能。使用脉冲阈值和集成的关键功能,我们利用单个节点来对顺序脉冲模式进行分类,并对图像特征(边缘)识别执行卷积功能。我们还展示了光学互连的尖峰神经网络模型,用于处理超过10 Gbps的时空数据,具有高推理精度。最后,我们展示了利用峰值定时依赖性可塑性的片外监督的学习方法,使能RTD的光子尖峰神经网络。这些结果证明了RTD尖峰节点用于低占地面积,低能量,高速光电实现神经形态硬件的潜在和可行性。
translated by 谷歌翻译
开发神经网络电位(NNPS)的一个隐藏但重要的问题是培训算法的选择。在这里,我们使用Photl-Parrinello神经网络(BPNN)和两个可公开可访问的液体数据集进行比较两个流行训练算法,自适应力矩估计算法(ADAM)和扩展卡尔曼滤波算法(EKF)的性能。natl。阿卡。SCI。U.S.A. 2016,113,8368-8373和Proc。natl。阿卡。SCI。U.S.A. 2019,116,1110-1115]。这是通过在Tensorflow中实施EKF来实现的。结果发现,与ADAM相比,用EKF培训的NNP对学习率的价值更为可转让和更敏感。在这两种情况下,验证集的错误指标并不总是作为NNP的实际性能的良好指标。相反,我们表明它们的性能很好地与基于Fisher信息的相似度措施相互作用。
translated by 谷歌翻译
优化在离散变量上的高度复杂的成本/能源功能是不同科学学科和行业的许多公开问题的核心。一个主要障碍是在硬实例中的某些变量子集之间的出现,导致临界减慢或集体冻结了已知的随机本地搜索策略。通常需要指数计算工作来解冻这种变量,并探索配置空间的其他看不见的区域。在这里,我们通过开发自适应梯度的策略来介绍一个量子启发的非本球非识别蒙特卡罗(NMC)算法,可以有效地学习成本函数的关键实例的几何特征。该信息随行使用,以构造空间不均匀的热波动,用于以各种长度尺度集体未填充变量,规避昂贵的勘探与开发权衡。我们将算法应用于两个最具挑战性的组合优化问题:随机k可满足(K-SAT)附近计算阶段转换和二次分配问题(QAP)。我们在专业的确定性求解器和通用随机求解器上观察到显着的加速和鲁棒性。特别是,对于90%的随机4-SAT实例,我们发现了最佳专用确定性算法无法访问的解决方案,该算法(SP)具有最强的10%实例的解决方案质量的大小提高。我们还通过最先进的通用随机求解器(APT)显示出在最先进的通用随机求解器(APT)上的时间到溶液的两个数量级改善。
translated by 谷歌翻译
我们证明,与畴壁(DW)位置的大量随机变化的量化量(名义上是5态)突触的极低分辨率可以是节能的,并且与使用浮动精度相比,与类似尺寸的深度神经网络(DNN)相比具有相当高的测试精度。突触权重。具体地,电压控制的DW器件展示随机性的随机行为,与微磁性模拟严格,并且只能编码有限状态;但是,它们在训练和推论中都可以非常节能。我们表明,通过对学习算法实施合适的修改,我们可以解决随机行为以及减轻其低分辨率的影响,以实现高测试精度。在这项研究中,我们提出了原位和前地训练算法,基于Hubara等人提出的算法的修改。 [1]适用于突触权重的量化。我们使用2个,3和5状态DW设备作为Synapse培训Mnist DataSet上的几个5层DNN。对于原位训练,采用单独的高精度存储器单元来保护和累积重量梯度,然后被量化以编程低精密DW设备。此外,在训练期间使用尺寸的噪声公差余量来解决内部编程噪声。对于前训训练,首先基于所表征的DW设备模型和噪声公差余量进行前体DNN,其类似于原位培训。值得注意的是,对于原位推断,对设备的能量耗散装置仅是每次推断仅13页,因为在整个MNIST数据集上进行10个时期进行训练。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
我们考虑随着延迟梯度的随机优化,在每次步骤$ $,该算法使用步骤$ t-d_t $的陈旧随机梯度进行更新,从而为某些任意延迟$ d_t $。此设置摘要异步分布式优化,其中中央服务器接收由工作人员计算的渐变更新。这些机器可以体验可能随时间变化而变化的计算和通信负载。在一般的非凸平滑优化设置中,我们提供了一种简单且高效的算法,需要$ o(\ sigma ^ 2 / \ epsilon ^ 4 + \ tau / epsilon ^ 2)$步骤查找$ \ epsilon $ - 静止点$ x $,其中$ \ tau $是\ emph {平均}延迟$ \ smash {\ frac {1} {t} \ sum_ {t = 1} ^ t d_t} $和$ \ sigma ^ 2 $是随机梯度的方差。这改善了以前的工作,这表明随机梯度体面可以实现相同的速率,而是相对于\ emph {maximal}延迟$ \ max_ {t} d_t $,这可以显着大于平均延迟,特别是在异构分布式系统中。我们的实验证明了我们算法在延迟分布歪斜或重尾的情况下的效力和稳健性。
translated by 谷歌翻译
贝叶斯脑假设假设大脑根据贝叶斯定理进行准确地运行统计分布。突触前囊泡释放神经递质的随机性失效可以让大脑从网络参数的后部分布中样本,被解释为认知不确定性。尚未显示出先前随机故障可能允许网络从观察到的分布中采样,也称为炼肠或残留不确定性。两个分布的采样使概率推断,高效搜索和创造性或生成问题解决。我们证明,在基于人口码的神经活动的解释下,可以用单独的突触衰竭来表示和对两种类型的分布进行分布。我们首先通过突触故障和横向抑制来定义生物学限制的神经网络和采样方案。在该框架内,我们派生基于辍学的认知不确定性,然后从突触功效证明了允许网络从任意,由接收层表示的分布来释放概率的分析映射。其次,我们的结果导致了本地学习规则,突触将适应其发布概率。我们的结果表明,在生物学限制的网络中,仅使用本地学习的突触失败率,与变分的贝叶斯推断相关的完整贝叶斯推断。
translated by 谷歌翻译
Modern mobile devices have access to a wealth of data suitable for learning models, which in turn can greatly improve the user experience on the device. For example, language models can improve speech recognition and text entry, and image models can automatically select good photos. However, this rich data is often privacy sensitive, large in quantity, or both, which may preclude logging to the data center and training there using conventional approaches. We advocate an alternative that leaves the training data distributed on the mobile devices, and learns a shared model by aggregating locally-computed updates. We term this decentralized approach Federated Learning.We present a practical method for the federated learning of deep networks based on iterative model averaging, and conduct an extensive empirical evaluation, considering five different model architectures and four datasets. These experiments demonstrate the approach is robust to the unbalanced and non-IID data distributions that are a defining characteristic of this setting. Communication costs are the principal constraint, and we show a reduction in required communication rounds by 10-100× as compared to synchronized stochastic gradient descent.
translated by 谷歌翻译
从非正规化概率分布的抽样是机器学习中的基本问题,包括贝叶斯建模,潜在因子推断和基于能源的模型训练。在几十年的研究之后,尽管收敛缓慢,但MCMC的变化仍然是抽样的默认方法。辅助神经模型可以学习加速MCMC,但训练额外模型的开销可能是禁止的。我们通过具有非牛顿势头的新的汉密尔顿动态提出了对这个问题的根本不同的方法。与MCMC蒙特卡洛等MCMC接近相比,不需要随机步骤。相反,在扩展状态空间中提出的确定性动态精确地对能量函数指定的目标分布,在ergodicity的假设下。或者,可以将动态解释为在没有训练的情况下对指定的能量模型进行采样的标准化流程。所提出的能量采样哈密尔顿(ESH)动态有一个简单的形式,可以用现有的颂歌解决,但我们推出了一个专业的求解器,它表现出更好的性能。 ESH Dynamics会收敛于其MCMC竞争对手的速度更快,更稳定地培训神经网络能量模型。
translated by 谷歌翻译