我们研究深度学习在张量分解中的隐式正则作用。虽然通过线性和某些类型的非线性神经网络中的深矩阵和“浅”张量分解中的隐式正则化促进了低级溶液,但我们表明,其在深张量因子中的作用随着深张量因子的影响,随着深度张因子的影响,随着多种形式的增长,随着其深度的增长而增长。网络。这为观察到的实验行为提供了非常忠实的描述。使用数值实验,我们证明了这种隐式正则化在得出更准确估计和更好收敛属性方面的好处。
translated by 谷歌翻译
Efforts to understand the generalization mystery in deep learning have led to the belief that gradient-based optimization induces a form of implicit regularization, a bias towards models of low "complexity." We study the implicit regularization of gradient descent over deep linear neural networks for matrix completion and sensing, a model referred to as deep matrix factorization. Our first finding, supported by theory and experiments, is that adding depth to a matrix factorization enhances an implicit tendency towards low-rank solutions, oftentimes leading to more accurate recovery. Secondly, we present theoretical and empirical arguments questioning a nascent view by which implicit regularization in matrix factorization can be captured using simple mathematical norms. Our results point to the possibility that the language of standard regularizers may not be rich enough to fully encompass the implicit regularization brought forth by gradient-based optimization.
translated by 谷歌翻译
为了在深度学习中解释隐性正则化时,给予了矩阵和张量因子化的突出重点,这与简化的神经网络相对应。结果表明,这些模型分别表现出对低基质和张量排名的隐式趋势。当前的论文理论上绘制了更接近实际的深度学习,从理论上分析了分层张分解中的隐式正则化,该模型等同于某些深卷积神经网络。通过动态系统镜头,我们克服了与层次结构相关的挑战,并建立了对低层次张量级别的隐性正则化。这转化为相关卷积网络对区域的隐性正则化。受我们的理论的启发,我们设计了明确的正则化,阻碍了区域性,并证明了其在需要建筑变化的传统智慧的情况下,可以改善现代卷积网络在非本地任务上的性能。我们的工作突出了通过对其隐式正则化的理论分析来增强神经网络的潜力。
translated by 谷歌翻译
在梯度下降中,改变我们参数化的方式如何导致巨大的优化轨迹,从而引起令人惊讶的有意义的感应偏差:识别稀疏分类器或重建低级矩阵而无明确正规化。这种隐式正规化已经假设是深入学习良好概括的贡献因素。然而,自然梯度下降近似不变于Reparameterization,它始终遵循相同的轨迹并找到相同的最佳值。自然出现的问题:如果我们消除了参数化的角色,会发生什么,将找到哪个解决方案,发生了哪些新的属性?我们在逻辑损失和深层矩阵分解下,对深层线性网络进行自然梯度流动的行为。我们的一些发现扩展到非线性神经网络,具有足够但有限的参数化。我们证明存在学习问题,其中自然梯度下降失败概括,而具有正确架构的梯度下降则表现良好。
translated by 谷歌翻译
核标准和沙滕 - $ p $ quasi-Norm是低级矩阵恢复中受欢迎的排名代理。不幸的是,计算张量的核标准或schatten-$ p $ quasi-Norm是NP-HARD,这是对低级数张量完成(LRTC)(LRTC)和张量稳定性主组件分析(TRPCA)的怜悯。在本文中,我们根据张量的CP组件向量的欧几里得规范提出了一类新的张量级正规化器,并表明这些正则化是张量schatten-$ p $ quasi-norm的单调转换。该连接使我们能够将LRTC和TRPCA中的Schatten-$ p $ quasi-norm降至最低。这些方法不使用奇异的值分解,因此可以对大张量进行比例。此外,这些方法对初始等级的选择不敏感,并且与核定标准相比,该方法为低量张量回收率提供了任意尖锐的等级代理。另一方面,我们使用Schatten-$ $ p $ quasi-norm正规化和LRTC研究了LRTC的概括能力。该定理表明,相对更清晰的正规化程序会导致更严格的误差绑定,这与我们的数值结果一致。合成数据和实际数据的数值结果证明了与基线方法相比,我们方法的有效性和优势。
translated by 谷歌翻译
我们使用张量奇异值分解(T-SVD)代数框架提出了一种新的快速流算法,用于抵抗缺失的低管级张量的缺失条目。我们展示T-SVD是三阶张量的研究型块术语分解的专业化,我们在该模型下呈现了一种算法,可以跟踪从不完全流2-D数据的可自由子模块。所提出的算法使用来自子空间的基层歧管的增量梯度下降的原理,以解决线性复杂度和时间样本的恒定存储器的张量完成问题。我们为我们的算法提供了局部预期的线性收敛结果。我们的经验结果在精确态度上具有竞争力,但在计算时间内比实际应用上的最先进的张量完成算法更快,以在有限的采样下恢复时间化疗和MRI数据。
translated by 谷歌翻译
Implicit regularization is an important way to interpret neural networks. Recent theory starts to explain implicit regularization with the model of deep matrix factorization (DMF) and analyze the trajectory of discrete gradient dynamics in the optimization process. These discrete gradient dynamics are relatively small but not infinitesimal, thus fitting well with the practical implementation of neural networks. Currently, discrete gradient dynamics analysis has been successfully applied to shallow networks but encounters the difficulty of complex computation for deep networks. In this work, we introduce another discrete gradient dynamics approach to explain implicit regularization, i.e. landscape analysis. It mainly focuses on gradient regions, such as saddle points and local minima. We theoretically establish the connection between saddle point escaping (SPE) stages and the matrix rank in DMF. We prove that, for a rank-R matrix reconstruction, DMF will converge to a second-order critical point after R stages of SPE. This conclusion is further experimentally verified on a low-rank matrix reconstruction problem. This work provides a new theory to analyze implicit regularization in deep learning.
translated by 谷歌翻译
在本文中,我们在不同研究领域使用的三种模型之间存在联系:来自正式语言和语言学的加权有限自动机〜(WFA),机器学习中使用的经常性神经网络,以及张量网络,包括一组高处的优化技术量子物理学和数值分析中使用的顺序张量。我们首先介绍WFA与张力列车分解,特定形式的张量网络之间的内在关系。该关系允许我们展示由WFA计算的函数的Hankel矩阵的新型低级结构,并设计利用这种结构的有效光谱学习算法来扩展到非常大的Hankel矩阵。我们将解开基本连接在WFA和第二阶逆转神经网络之间〜(2-RNN):在离散符号的序列的情况下,具有线性激活功能的WFA和2-RNN是表现性的。利用该等效结果与加权自动机的经典频谱学习算法相结合,我们介绍了在连续输入向量序列上定义的线性2-RNN的第一可提供学习算法。本算法依赖于Hankel Tensor的低等级子块,可以从中可以从中恢复线性2-RNN的参数。在综合性和现实世界数据的仿真研究中评估了所提出的学习算法的性能。
translated by 谷歌翻译
A recent line of work studies overparametrized neural networks in the "kernel regime," i.e. when the network behaves during training as a kernelized linear predictor, and thus training with gradient descent has the effect of finding the minimum RKHS norm solution. This stands in contrast to other studies which demonstrate how gradient descent on overparametrized multilayer networks can induce rich implicit biases that are not RKHS norms. Building on an observation by Chizat and Bach [2018], we show how the scale of the initialization controls the transition between the "kernel" (aka lazy) and "rich" (aka active) regimes and affects generalization properties in multilayer homogeneous models. We provide a complete and detailed analysis for a simple two-layer model that already exhibits an interesting and meaningful transition between the kernel and rich regimes, and we demonstrate the transition for more complex matrix factorization models and multilayer non-linear networks.
translated by 谷歌翻译
小组卷积神经网络(G-CNN)是卷积神经网络(CNN)的概括,通过在其体系结构中明确编码旋转和排列,在广泛的技术应用中脱颖而出。尽管G-CNN的成功是由它们的\ emph {emplapicit}对称偏见驱动的,但最近的一项工作表明,\ emph {隐式}对特定体系结构的偏差是理解过度参数化神经网的概​​括的关键。在这种情况下,我们表明,通过梯度下降训练了二进制分类的$ L $ layer全宽线性G-CNN,将二进制分类收敛到具有低级别傅立叶矩阵系数的解决方案,并由$ 2/l $ -schatten矩阵规范正规化。我们的工作严格概括了先前对线性CNN的隐性偏差对线性G-CNN的隐性分析,包括所有有限组,包括非交换组的挑战性设置(例如排列),以及无限组的频段限制G-CNN 。我们通过在各个组上实验验证定理,并在经验上探索更现实的非线性网络,该网络在局部捕获了相似的正则化模式。最后,我们通过不确定性原理提供了对傅立叶空间隐式正则化的直观解释。
translated by 谷歌翻译
在深度学习中,常见的是神经网络,即使用比训练样本更多的参数。非常令人惊讶地训练神经网络(随机)梯度下降导致概括得很好的模型,而古典统计会提出过度装备。为了了解这种隐含偏差现象,我们研究了自己感兴趣的稀疏恢复(压缩感测)的特殊情况。更确切地说,为了重建来自未确定的线性测量的矢量,我们引入了相应的过正常的方形损耗功能,其中要重建的载体深深地分解成几个载体。我们表明,在测量矩阵上的一个非常温和的假设下,用于过次分辨率的损耗功能的香草梯度流量会聚到最小$ \ ell_1 $ -norm的解决方案。后者众所周知,可以促进稀疏解决方案。作为副产品,我们的结果显着提高了先前作品中压缩感应的样本复杂性。该理论准确地预测数值实验中的回收率。对于证明,我们介绍了{\ texit {solution entopy}}的概念,它绕过了非凸起引起的障碍,并且应该是独立的兴趣。
translated by 谷歌翻译
张量分解是从多维非负数据中提取物理有意义的潜在因素的强大工具,并且对诸如图像处理,机器学习和计算机视觉等各个领域的兴趣越来越多。在本文中,我们提出了一种稀疏的非负塔克分解和完成方法,用于在嘈杂的观察结果下恢复潜在的非负数据。在这里,基本的非负数据张量分解为核心张量,几个因子矩阵,所有条目均为无负,并且因子矩阵稀疏。损失函数是由嘈杂观测值的最大似然估计得出的,并且使用$ \ ell_0 $ norm来增强因子矩阵的稀疏性。我们在通用噪声场景下建立了拟议模型的估计器的误差结合,然后将其指定为具有加性高斯噪声,加法拉普拉斯噪声和泊松观测的观测值。我们的理论结果比现有基于张量或基于矩阵的方法更好。此外,最小值的下限显示与对数因子的衍生上限相匹配。合成数据集和现实世界数据集的数值示例证明了提出的非负张量数据完成方法的优越性。
translated by 谷歌翻译
张量火车的分解因其高维张量的简洁表示,因此在机器学习和量子物理学中广泛使用,克服了维度的诅咒。交叉近似 - 从近似形式开发用于从一组选定的行和列中表示矩阵,这是一种有效的方法,用于构建来自其少数条目的张量的张量列器分解。虽然张量列车交叉近似在实际应用中取得了显着的性能,但迄今为止缺乏其理论分析,尤其是在近似误差方面的理论分析。据我们所知,现有结果仅提供元素近似精度的保证,这会导致扩展到整个张量时的束缚非常松。在本文中,我们通过提供精确测量和嘈杂测量的整个张量来保证准确性来弥合这一差距。我们的结果说明了选定子观察器的选择如何影响交叉近似的质量,并且模型误差和/或测量误差引起的近似误差可能不会随着张量的顺序而指数增长。这些结果通过数值实验来验证,并且可能对高阶张量的交叉近似值(例如在量子多体状态的描述中遇到的)具有重要意义。
translated by 谷歌翻译
kronecker回归是一个高度结构的最小二乘问题$ \ min _ {\ mathbf {x}}} \ lvert \ mathbf {k} \ mathbf {x} - \ mathbf {b} \ rvert_ \ rvert_ {2}^2 $矩阵$ \ mathbf {k} = \ mathbf {a}^{(1)} \ otimes \ cdots \ cdots \ otimes \ mathbf {a}^{(n)} $是因子矩阵的Kronecker产品。这种回归问题是在广泛使用的最小二乘(ALS)算法的每个步骤中都出现的,用于计算张量的塔克分解。我们介绍了第一个用于求解Kronecker回归的子次数算法,以避免在运行时间中避免指数项$ o(\ varepsilon^{ - n})$的$(1+ \ varepsilon)$。我们的技术结合了利用分数抽样和迭代方法。通过扩展我们对一个块是Kronecker产品的块设计矩阵的方法,我们还实现了(1)Kronecker Ridge回归的亚次级时间算法,并且(2)更新ALS中Tucker分解的因子矩阵,这不是一个不是一个纯Kronecker回归问题,从而改善了Tucker ALS的所有步骤的运行时间。我们证明了该Kronecker回归算法在合成数据和现实世界图像张量上的速度和准确性。
translated by 谷歌翻译
在深度学习中的优化分析是连续的,专注于(变体)梯度流动,或离散,直接处理(变体)梯度下降。梯度流程可符合理论分析,但是风格化并忽略计算效率。它代表梯度下降的程度是深度学习理论的一个开放问题。目前的论文研究了这个问题。将梯度下降视为梯度流量初始值问题的近似数值问题,发现近似程度取决于梯度流动轨迹周围的曲率。然后,我们表明,在具有均匀激活的深度神经网络中,梯度流动轨迹享有有利的曲率,表明它们通过梯度下降近似地近似。该发现允许我们将深度线性神经网络的梯度流分析转换为保证梯度下降,其几乎肯定会在随机初始化下有效地收敛到全局最小值。实验表明,在简单的深度神经网络中,具有传统步长的梯度下降确实接近梯度流。我们假设梯度流动理论将解开深入学习背后的奥秘。
translated by 谷歌翻译
Tensor完成是矩阵完成的自然高阶泛化,其中目标是从其条目的稀疏观察中恢复低级张量。现有算法在没有可证明的担保的情况下是启发式,基于解决运行不切实际的大型半纤维程序,或者需要强大的假设,例如需要因素几乎正交。在本文中,我们介绍了交替最小化的新变型,其又通过了解如何对矩阵设置中的交替最小化的收敛性的进展措施来调整到张量设置的启发。我们展示了强大的可证明的保证,包括表明我们的算法即使当因素高度相关时,我们的算法也会在真正的张量线上会聚,并且可以在几乎线性的时间内实现。此外,我们的算法也非常实用,我们表明我们可以完成具有千维尺寸的三阶张量,从观察其条目的微小一部分。相比之下,有些令人惊讶的是,我们表明,如果没有我们的新扭曲,则表明交替最小化的标准版本可以在实践中以急剧速度收敛。
translated by 谷歌翻译
我们的目标是在沿着张量模式的协变量信息存在中可获得稀疏和高度缺失的张量。我们的动机来自在线广告,在各种设备上的广告上的用户点击率(CTR)形成了大约96%缺失条目的CTR张量,并且在非缺失条目上有许多零,这使得独立的张量完井方法不满意。除了CTR张量旁边,额外的广告功能或用户特性通常可用。在本文中,我们提出了协助协助的稀疏张力完成(Costco),以合并复苏恢复稀疏张量的协变量信息。关键思想是共同提取来自张量和协变矩阵的潜伏组分以学习合成表示。从理论上讲,我们导出了恢复的张量组件的错误绑定,并明确地量化了由于协变量引起的显露概率条件和张量恢复精度的改进。最后,我们将Costco应用于由CTR张量和广告协变矩阵组成的广告数据集,从而通过基线的23%的准确性改进。重要的副产品是来自Costco的广告潜在组件显示有趣的广告集群,这对于更好的广告目标是有用的。
translated by 谷歌翻译
深度神经网络通常以随机重量初始化,并具有足够选择的初始方差,以确保训练期间稳定的信号传播。但是,选择适当的方差变得具有挑战性,尤其是随着层数的增长。在这项工作中,我们用完全确定性的初始化方案(即零)代替随机权重初始化,该方案基于身份和Hadamard变换来初始用零和一个(最高范围化因子)开始网络的权重。通过理论和实证研究,我们证明了零能够训练网络而不会损害其表现力。在Resnet上应用零在包括Imagenet在内的各种数据集上实现最先进的性能,这表明随机权重可能不需要网络初始化。此外,零具有许多好处,例如训练超深网络(没有批处理规范化),表现出低级别的学习轨迹,从而导致低级和稀疏的解决方案,并提高培训可重复性。
translated by 谷歌翻译
变形AutoEncoders(VAES)是最常用的生成模型之一,特别是对于图像数据。训练VAE中的突出困难是在低维歧管上支持的数据。戴伊和WIPF(2019年)的最新工作表明,在低维数据上,发电机将收敛到具有0方差的解决方案,该方案被正确地支持地面真相歧管。在本文中,通过组合理论和经验结果,我们表明故事更加微妙。正是,我们表明,对于线性编码器/解码器,故事大多是真实的,VAE训练确实恢复了一个等于地面真理歧管的支撑的发电机,但这是由于梯度下降的隐含偏差而不是仅仅是vae损失本身。在非线性案例中,我们表明VAE训练经常学习更高度的歧管,这是地面真相歧管的超集。
translated by 谷歌翻译
We consider the nonlinear inverse problem of learning a transition operator $\mathbf{A}$ from partial observations at different times, in particular from sparse observations of entries of its powers $\mathbf{A},\mathbf{A}^2,\cdots,\mathbf{A}^{T}$. This Spatio-Temporal Transition Operator Recovery problem is motivated by the recent interest in learning time-varying graph signals that are driven by graph operators depending on the underlying graph topology. We address the nonlinearity of the problem by embedding it into a higher-dimensional space of suitable block-Hankel matrices, where it becomes a low-rank matrix completion problem, even if $\mathbf{A}$ is of full rank. For both a uniform and an adaptive random space-time sampling model, we quantify the recoverability of the transition operator via suitable measures of incoherence of these block-Hankel embedding matrices. For graph transition operators these measures of incoherence depend on the interplay between the dynamics and the graph topology. We develop a suitable non-convex iterative reweighted least squares (IRLS) algorithm, establish its quadratic local convergence, and show that, in optimal scenarios, no more than $\mathcal{O}(rn \log(nT))$ space-time samples are sufficient to ensure accurate recovery of a rank-$r$ operator $\mathbf{A}$ of size $n \times n$. This establishes that spatial samples can be substituted by a comparable number of space-time samples. We provide an efficient implementation of the proposed IRLS algorithm with space complexity of order $O(r n T)$ and per-iteration time complexity linear in $n$. Numerical experiments for transition operators based on several graph models confirm that the theoretical findings accurately track empirical phase transitions, and illustrate the applicability and scalability of the proposed algorithm.
translated by 谷歌翻译