智能论文笔记

Largest Eigenvalues of the Conjugate Kernel of Single-Layered Neural Networks

Lucas Benigni , Sandrine Péché

分类：机器学习

2022-01-13

本文涉及来自神经网络研究的一些非线性随机矩阵集合的最大特征值的渐近分布。更确切地说，我们考虑$ m = \ frac {1} {m} yy ^ \ top $ w $ y = f（wx）$ worth w $和$ x $ with w $和$ x $是随机矩形矩阵。以中心的条目。这模拟了单层随机馈通神经网络的数据协方差矩阵或共轭内核。函数$ F $应用于entryWish，可以被视为神经网络的激活功能。我们表明，最大的特征值具有与某种众所周知的线性随机矩阵集合相同的极限（概率）。特别是，我们将非线性模型的最大特征值的渐近极限与信息 - 正噪声随机矩阵的渐近极限相关联，根据函数$ f $和$ w $和$ x的分发建立可能的阶段转换$。对于机器学习来说，这可能是有意义的。

translated by 谷歌翻译

Analysis of One-Hidden-Layer Neural Networks via the Resolvent Method

Vanessa Piccolo , Dominik Schröder

分类： (统计)机器学习 | 机器学习

2021-05-11

在这项工作中，我们研究了随机特征矩阵$ m = yy ^ \ ast $的渐近光谱密度用一个单独的层神经网络生成的$ y = f（wx）$，其中$ w $和$ x $是带有IID的随机矩形矩阵中心条目和$ F $是一种非线性光滑功能，其应用进入明智。我们证明了限制光谱分布的Stieltjes转换大致满足四个自我一致的等式，这正是通过[Pennityton，Worah]和[Benigni，P \'E]获得的等式。我们将以前的结果扩展到附加偏见$ Y = F（WX + B）$的情况下，以$ B $为一个独立的秩 - 一个高斯随机矩阵，更接近实践中遇到的神经网络基础架构。我们的主要发现是，在添加剂偏差的情况下，不可能选择保持层到层奇异值分布的激活函数，与无偏置的情况鲜明对比，其中简单的积分约束足以实现非偏光曲线。为了获得经验谱密度的渐近学，我们通过累积扩展来遵循从随机矩阵理论的解析方法。我们发现这种方法比瞬间方法更强大，而且组合较少，并期望它也适用于前者的组合物变得棘手的模型。已经广泛采用了解析方法，但与以前的作品相比，这里应用于非线性随机矩阵。

translated by 谷歌翻译

Sparse random hypergraphs: Non-backtracking spectra and community detection

Ludovic Stephan , Yizhe Zhu

分类： (统计)机器学习

2022-03-14

假设$ g $是根据所谓的HyperGraph随机块模型（HSBM）产生的，我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明，基于非折线操作员的光谱方法具有很高的概率，可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱，并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果，可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题，该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知，这是第一种可证明，有效的光谱算法，它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。

translated by 谷歌翻译

Robust recovery for stochastic block models

Jingqiu Ding , Tommaso d'Orsi , Rajai Nasser , David Steurer

分类：机器学习 | (统计)机器学习

2021-11-16

我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲，我们的结果表明，随机块模型没有稳健性。我们的工作受到最近的银行，Mohanty和Raghavendra（SODA 2021）的工作，为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观：种植的分区可能远非最佳意义，即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知，我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化（与平方和不同的不同），这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术，其提高了任意强大的弱恢复算法的成功（输入的随机性）从恒定（或缓慢消失）概率以指数高概率。

translated by 谷歌翻译

Community Detection and Stochastic Block Models

Emmanuel Abbe

分类： (统计)机器学习

2017-03-29

随机块模型（SBM）是一个随机图模型，其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型，并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展，无论是在信息理论和计算方案方面，以及各种恢复要求，例如精确，部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换，Kesten-Stigum阈值弱恢复的相变，最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导，特别是通过绘制绘制，半定义编程，（线性化）信念传播，经典/非背带频谱和图形供电。还讨论了其他块模型的扩展，例如几何模型和一些开放问题。

translated by 谷歌翻译

Correlation detection in trees for planted graph alignment

Luca Ganassali , Laurent Massoulié , Marc Lelarge

分类：机器学习 | (统计)机器学习

2021-07-15

Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.

translated by 谷歌翻译

Community detection using low-dimensional network embedding algorithms

Aman Barot , Shankar Bhamidi , Souvik Dhara

分类：机器学习 | (统计)机器学习

2021-11-04

随着大型网络在重要领域的相关领域的相关性，例如对疾病传播的联系网络的研究，或社交网络对地缘政治的影响，已经有必要研究可扩展到非常大的网络的机器学习工具，通常包含数百万节点。一种主要类别可扩展算法称为网络表示学习或网络嵌入。这些算法尝试通过首次运行多个随机散步，然后使用观察到的随机步行段中的每对节点的共同数量来学习网络功能（例如〜节点）的表示，以获得一些节点的低维表示欧几里德空间。本文的目的是严格地了解两个主要算法，深途化和Node2VEC的性能，以恢复与地面真理社区的规范网络模型的社区。根据图的稀疏性，我们发现所需的随机步道段的长度，使得相应的观察到的共生窗口能够对底层社区分配的几乎精确恢复。我们证明，考虑到一些固定的共同发生窗口，使用随机散步的Node2Vec与低横向概率的随机散步可以相比，与使用简单随机散步的深度扫视相比，稀疏网络可以成功。此外，如果稀疏参数低，我们提供了证据表明这些算法几乎完全恢复可能不会成功。该分析需要开发用于对具有底层低级结构的随机网络计数的通用工具，这与独立兴趣。

translated by 谷歌翻译

Community detection and stochastic block models: recent developments

分类：

The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.

translated by 谷歌翻译

Random graph matching at Otter's threshold via counting chandeliers

Cheng Mao , Yihong Wu , Jiaming Xu , Sophie H. Yu

分类： (统计)机器学习

2022-09-25

我们根据计算一个扎根于每个顶点的某个加权树的家族而构成的相似性得分提出了一种有效的图形匹配算法。对于两个erd \ h {o} s-r \'enyi图$ \ mathcal {g}（n，q）$，其边缘通过潜在顶点通信相关联，我们表明该算法正确地匹配了所有范围的范围，除了所有的vertices分数外，有了很高的概率，前提是$ nq \ to \ infty $，而边缘相关系数$ \ rho $满足$ \ rho^2> \ alpha \ ailpha \大约0.338 $，其中$ \ alpha $是Otter的树木计数常数。此外，在理论上是必需的额外条件下，可以精确地匹配。这是第一个以显式常数相关性成功的多项式图匹配算法，并适用于稀疏和密集图。相比之下，以前的方法要么需要$ \ rho = 1-o（1）$，要么仅限于稀疏图。该算法的症结是一个经过精心策划的植根树的家族，称为吊灯，它可以有效地从同一树的计数中提取图形相关性，同时抑制不同树木之间的不良相关性。

translated by 谷歌翻译

Asymptotic Normality of Log Likelihood Ratio and Fundamental Limit of the Weak Detection for Spiked Wigner Matrices

Hye Won Chung , Jiho Lee , Ji Oon Lee

分类： (统计)机器学习

2022-03-02

我们考虑在排名一的尖刺模型中检测信号的存在的问题。对于一般的非高斯噪声，假设信号是从rademacher先验中汲取的，我们证明，当信号噪声比率低于信号噪声时，尖峰模型的对数可能性比（LR）收敛到高斯一定的阈值。阈值是最佳的，因为在其上方，可以通过转换的主组件分析（PCA）进行可靠的检测。从对数LR的限制高斯的平均值和方差，我们计算了I型误差之和的限制以及似然比测试的类型II误差。对于噪声不对称，但信号是对称的，我们还证明了一个排名一的尖峰IID模型的结果相似。

translated by 谷歌翻译

Concentration of polynomial random matrices via Efron-Stein inequalities

Goutham Rajendran , Madhur Tulsiani

分类：机器学习

2022-09-06

分析大型随机矩阵的浓度是多种领域的常见任务。给定独立的随机变量，许多工具可用于分析随机矩阵，其条目在变量中是线性的，例如基质 - 伯恩斯坦不平等。但是，在许多应用中，我们需要分析其条目是变量中多项式的随机矩阵。这些自然出现在光谱算法的分析中，例如霍普金斯等人。 [Stoc 2016]，Moitra-Wein [Stoc 2019]；并根据正方形层次结构的总和（例如Barak等。 [FOCS 2016]，Jones等。 [焦点2021]。在这项工作中，我们基于Paulin-Mackey-Tropp（概率Annals of Poylibity of Poyliby of 2016]，我们提出了一个通用框架来获得此类界限。 Efron-Stein不等式通过另一个简单（但仍然是随机）矩阵的范围来界定随机矩阵的规范，我们将其视为通过“区分”起始矩阵而引起的。通过递归区分，我们的框架减少了分析更简单的矩阵的主要任务。对于Rademacher变量，这些简单的矩阵实际上是确定性的，因此，分析它们要容易得多。对于一般的非拉多巴纳变量，任务减少到标量浓度，这要容易得多。此外，在多项式矩阵的设置中，我们的结果推广了Paulin-Mackey-Tropp的工作。使用我们的基本框架，我们在文献中恢复了简单的“张量网络”和“密集图矩阵”的已知界限。使用我们的一般框架，我们得出了“稀疏图矩阵”的边界，琼斯等人最近才获得。 [焦点2021]使用痕量功率方法的非平地应用，并且是其工作中的核心组成部分。我们希望我们的框架对涉及非线性随机矩阵浓度现象的其他应用有帮助。

translated by 谷歌翻译

Proof of the Contiguity Conjecture and Lognormal Limit for the Symmetric Perceptron

Emmanuel Abbe , Shuangping Li , Allan Sly

分类： (统计)机器学习

2021-02-25

我们考虑对称二进制Perceptron模型，这是一个简单的神经网络模型，在统计物理学，信息理论和概率理论社区中具有重大关注，最近的连接对Baldassi等人的学习算法进行了性能。 '15。我们确定该模型的分区功能，由其预期值归一化，会聚到Lognormal分布。因此，这允许我们为此模型建立几个猜想：（i）证明Aubin等人的默默是普及猜想。 '19在满足政权中的种植和漂白模型之间; （ii）它建立了尖锐的阈值猜想; （iii）证明了对称案例中的冷冻1-RSB猜想，首先在非对称情况下首先召集了Krauth-M \'Ezard'89。在最近的Perkins-XU '21的工作中，还通过证明分区功能集中在实际值函数上的分析假设下，还建立了最后两个猜想。左侧打开默认的猜想和逻辑正常限制表征，这些表征在此无条件地建立，具有验证的分析假设。特别是，我们的证明技术依赖于小型曲调调节方法的密集对抗部分，该方法是为罗宾逊和Wormald庆典工作中的稀疏模型而开发的。

translated by 谷歌翻译

Sparsification of the regularized magnetic Laplacian with multi-type spanning forests

Michaël Fanuel , Rémi Bardenet

分类：机器学习 | (统计)机器学习

2022-08-31

在本文中，我们考虑了一个$ {\ rm u}（1）$ - 连接图，也就是说，每个方向的边缘都赋予了一个单位模量复杂的数字，该数字在方向翻转下简单地结合了。当时，组合laplacian的自然替代品是所谓的磁性拉普拉斯（Hermitian Matrix），其中包括有关图形连接的信息。连接图和磁性拉普拉斯人出现，例如在角度同步问题中。在较大且密集的图的背景下，我们在这里研究了磁性拉普拉斯的稀疏器，即基于边缘很少的子图的光谱近似值。我们的方法依赖于使用自定义的确定点过程对跨越森林（MTSF）进行取样，这是一种比偏爱多样性的边缘的分布。总而言之，MTSF是一个跨越子图，其连接的组件是树或周期根的树。后者部分捕获了连接图的角不一致，因此提供了一种压缩连接中包含的信息的方法。有趣的是，当此连接图具有弱不一致的周期时，可以通过使用循环弹出的随机行走来获得此分布的样本。我们为选择Laplacian的自然估计量提供了统计保证，并调查了我们的Sparsifier在两个应用中的实际应用。

translated by 谷歌翻译

HTML版本

Exact Matching of Random Graphs with Constant Correlation

Cheng Mao , Mark Rudelson , Konstantin Tikhomirov

分类： (统计)机器学习

2021-10-11

本文讨论了ERD \ H {O} S-R \'enyi图的图形匹配或网络对齐问题，可以将其视为图同构问题的嘈杂平均案例版本。令$ g $和$ g'$ be $ g（n，p）$ erd \ h {o} s--r \'enyi略微图形，并用其邻接矩阵识别。假设$ g $和$ g'$是相关的，因此$ \ mathbb {e} [g_ {ij} g'_ {ij}] = p（1- \ alpha）$。对于置换$ \ pi $，代表$ g $和$ g'$之间的潜在匹配，用$ g^\ pi $表示从$ \ pi $的$ g $的顶点获得的图表。观察$ g^\ pi $和$ g'$，我们的目标是恢复匹配的$ \ pi $。在这项工作中，我们证明，在（0,1] $中，每$ \ varepsilon \ in（0,1] $，都有$ n_0> 0 $，具体取决于$ \ varepsilon $和绝对常数$ \ alpha_0，r> 0 $，带有以下属性。令$ n \ ge n_0 $，$（1+ \ varepsilon）\ log n \ le np \ le n^{\ frac {1} {r \ log \ log \ log n}} $ （\ alpha_0，\ varepsilon/4）$。有一个多项式时算法$ f $，因此$ \ m athbb {p} \ {f（g^\ pi，g'）= \ pi \} = 1-o （1）$。这是第一种多项式时算法，它恢复了相关的ERD \ H {O} S-r \'enyi图与具有恒定相关性的相关性图与高概率相关性的确切匹配。该算法是基于比较的比较与图形顶点关联的分区树。

translated by 谷歌翻译

The Interpolation Phase Transition in Neural Networks: Memorization and Generalization under Lazy Training

Andrea Montanari , Yiqiao Zhong

分类： (统计)机器学习 | 机器学习

2020-07-25

现代神经网络通常以强烈的过度构造状态运行：它们包含许多参数，即使实际标签被纯粹随机的标签代替，它们也可以插入训练集。尽管如此，他们在看不见的数据上达到了良好的预测错误：插值训练集并不会导致巨大的概括错误。此外，过度散色化似乎是有益的，因为它简化了优化景观。在这里，我们在神经切线（NT）制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型，以及各向同性协变量的矢量，$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大，并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明，经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限，因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征，包括特殊情况，最小值-ULL_2 $ NORD插值。我们证明，一旦$ nd \ gg n $，测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者，从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸（尤其是$ \ log n/\ log d $）。

translated by 谷歌翻译

A Random Matrix Perspective on Random Tensors

José Henrique de Morais Goulart , Romain Couillet , Pierre Comon

分类： (统计)机器学习 | 机器学习

2021-08-02

张量模型在许多领域中起着越来越重要的作用，特别是在机器学习中。在几种应用中，例如社区检测，主题建模和高斯混合物学习，必须估算噪声张量的低级别信号。因此，了解该信号的估计器的基本限制不可避免地要求研究随机张量。最近，在大维限制中，该主题取得了实质性进展。然而，其中一些最重要的结果（尤其是对突然的相变（相对于信噪比）的精确表征），该表现控制着对称等级的最大可能性（ML）估计器的性能 - 具有高斯噪声的模型 - 基于平均场自旋玻璃理论得出，非专家不容易访问。在这项工作中，我们依靠标准但强大的工具开发出一种截然不同，更基本的方法，这是由随机矩阵理论的多年进步带来的。关键思想是研究由给定随机张量的收缩引起的随机矩阵的光谱。我们展示了如何访问随机张量本身的光谱属性。对于上述排名衡量模型，我们的技术产生了迄今未知的固定点方程，其解决方案与第三阶情况下的相变阈值高于相变阈值的ML估计器的渐近性能。数值验证提供了证据，表明订单4和5相同，导致我们猜想，对于任何顺序，我们的定点方程等于已知的ML估计性能的表征，这些表现通过依靠旋转玻璃而获得。此外，我们的方法阐明了ML问题景观的某些特性，可以扩展到其他模型，例如不对称和非高斯。

translated by 谷歌翻译

Infinite-width limit of deep linear neural networks

Lénaïc Chizat , Maria Colombo , Xavier Fernández-Real , Alessio Figalli

分类：机器学习 | (统计)机器学习

2022-11-29

This paper studies the infinite-width limit of deep linear neural networks initialized with random parameters. We obtain that, when the number of neurons diverges, the training dynamics converge (in a precise sense) to the dynamics obtained from a gradient descent on an infinitely wide deterministic linear neural network. Moreover, even if the weights remain random, we get their precise law along the training dynamics, and prove a quantitative convergence result of the linear predictor in terms of the number of neurons. We finally study the continuous-time limit obtained for infinitely wide linear neural networks and show that the linear predictors of the neural network converge at an exponential rate to the minimal $\ell_2$-norm minimizer of the risk.

translated by 谷歌翻译

Perturbation Analysis of Randomized SVD and its Applications to High-dimensional Statistics

Yichi Zhang , Minh Tang

分类： (统计)机器学习

2022-03-19

随机奇异值分解（RSVD）是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $，原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数，$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中，我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性，即，观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $（频谱规范）和$ \ ell_ {2 \ to \ infty} $（最大行行列$ \ ell_2 $ norm）$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比（SNR）和功率迭代$ g $的数量。观察到一个相变现象，其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明，每当噪声矩阵满足一定的痕量生长条件时，这些相变发生的$ g $的阈值都会很清晰。最后，我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下，即社区检测，矩阵完成和主要的组件分析，并使用缺失的数据来说明我们的理论结果。

translated by 谷歌翻译

Multiple Descent in the Multiple Random Feature Model

Xuran Meng , Jianfeng Yao , Yuan Cao

分类：机器学习 | (统计)机器学习

2022-08-21

最近的作品证明了过度参数化学习中的双重下降现象：随着模型参数的数量的增加，多余的风险具有$ \ mathsf {u} $ - 在开始时形状，然后在模型高度过度参数化时再次减少。尽管最近在不同的环境（例如线性模型，随机特征模型和内核方法）下进行了研究，但在理论上尚未完全理解这种现象。在本文中，我们考虑了由两种随机特征组成的双随机特征模型（DRFM），并研究DRFM在脊回归中实现的多余风险。我们计算高维框架下的多余风险的确切限制，在这种框架上，训练样本量，数据尺寸和随机特征的维度往往会成比例地无限。根据计算，我们证明DRFM的风险曲线可以表现出三重下降。然后，我们提供三重下降现象的解释，并讨论随机特征维度，正则化参数和信噪比比率如何控制DRFMS风险曲线的形状。最后，我们将研究扩展到多个随机功能模型（MRFM），并表明具有$ K $类型的随机功能的MRFM可能会显示出$（K+1）$ - 折叠。我们的分析指出，具有特定数量下降的风险曲线通常在基于特征的回归中存在。另一个有趣的发现是，当学习神经网络在“神经切线内核”制度中时，我们的结果可以恢复文献中报告的风险峰值位置。

translated by 谷歌翻译

Universal characteristics of deep neural network loss surfaces from random matrix theory

Nicholas P Baskerville , Jonathan P Keating , Francesco Mezzadri , Joseph Najnudel , Diego Granziol

分类：机器学习

2022-05-17

本文考虑了深神经网络中随机矩阵普遍性的几个方面。在最近的实验工作中，我们使用与局部统计相关的随机矩阵的普遍特性，以基于其Hessians的现实模型来获得对深神经网络的实际含义。特别是，我们得出了深度神经网络光谱中异常值的普遍方面，并证明了随机矩阵局部定律在流行的预处理梯度下降算法中的重要作用。我们还通过基于统计物理学和随机矩阵理论的工具的一般参数，对深度神经网络损失表面的见解。

translated by 谷歌翻译