We propose the framework of dual convexified convolutional neural networks (DCCNNs). In this framework, we first introduce a primal learning problem motivated by convexified convolutional neural networks (CCNNs), and then construct the dual convex training program through careful analysis of the Karush-Kuhn-Tucker (KKT) conditions and Fenchel conjugates. Our approach reduces the computational overhead of constructing a large kernel matrix and more importantly, eliminates the ambiguity of factorizing the matrix. Due to the low-rank structure in CCNNs and the related subdifferential of nuclear norms, there is no closed-form expression to recover the primal solution from the dual solution. To overcome this, we propose a highly novel weight recovery algorithm, which takes the dual solution and the kernel information as the input, and recovers the linear weight and the output of convolutional layer, instead of weight parameter. Furthermore, our recovery algorithm exploits the low-rank structure and imposes a small number of filters indirectly, which reduces the parameter size. As a result, DCCNNs inherit all the statistical benefits of CCNNs, while enjoying a more formal and efficient workflow.
translated by 谷歌翻译
我们描述了两层向量输出relu神经网络训练问题的凸半无限频体。该半无限的双重承认有限尺寸表示,但其支持在难以表征的凸起集中。特别是,我们证明非凸神经网络训练问题相当于有限维凸形成形程序。我们的工作是第一个确定全球神经网络的全球最佳与连阳性方案之间的强大联系。因此,我们展示了神经网络如何通过半非环境矩阵分解来隐化地揭示求解连接成型程序,并从该配方中汲取关键见解。我们描述了第一算法,用于可证明导航的全局最小值的导航神经网络训练问题,这些算法是固定数据等级的样本数量的多项式,但维度指数是指数。然而,在卷积架构的情况下,计算复杂性在所有其他参数中仅在滤波器大小和多项式中是指数的。我们描述了我们能够完全找到这种神经网络训练问题的全球最佳的环境,并提供了软阈值的SVD,并提供了一种成交量松弛,保证确切地用于某些问题,并与随机的解决方案相对应实践中的梯度下降。
translated by 谷歌翻译
训练深神网络是一个众所周知的高度非凸问题。在最近的作品中,显示出具有RELU激活的正则化两层神经网络没有二元性差距,这可以通过凸面程序进行全局优化。对于具有向量输出的多层线性网络,我们提出了凸双问题,并证明对偶性差距对于深度三和更深的网络而言并非零。但是,通过将深层网络修改为更强大的并行体系结构,我们表明二元性差距完全为零。因此,强大的凸面双重性具有,因此存在等效的凸面程序,使培训深层网络达到全球最优性。我们还证明,参数中的重量衰减正则化明确地通过封闭形式表达式鼓励低级溶液。对于三层非平行relu网络,我们表明对级别1数据矩阵的强双重性具有强度,但是,对白色数据矩阵的二元性差距不是零。同样,通过将神经网络体系结构转换为相应的并行版本,二元性差距消失了。
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
人工神经网络(ANN)训练景观的非凸起带来了固有的优化困难。虽然传统的背传播随机梯度下降(SGD)算法及其变体在某些情况下是有效的,但它们可以陷入杂散的局部最小值,并且对初始化和普通公共表敏感。最近的工作表明,随着Relu激活的ANN的培训可以重新重整为凸面计划,使希望能够全局优化可解释的ANN。然而,天真地解决凸训练制剂具有指数复杂性,甚至近似启发式需要立方时间。在这项工作中,我们描述了这种近似的质量,并开发了两个有效的算法,这些算法通过全球收敛保证培训。第一算法基于乘法器(ADMM)的交替方向方法。它解决了精确的凸形配方和近似对应物。实现线性全局收敛,并且初始几次迭代通常会产生具有高预测精度的解决方案。求解近似配方时,每次迭代时间复杂度是二次的。基于“采样凸面”理论的第二种算法更简单地实现。它解决了不受约束的凸形制剂,并收敛到大约全球最佳的分类器。当考虑对抗性培训时,ANN训练景观的非凸起加剧了。我们将稳健的凸优化理论应用于凸训练,开发凸起的凸起制剂,培训Anns对抗对抗投入。我们的分析明确地关注一个隐藏层完全连接的ANN,但可以扩展到更复杂的体系结构。
translated by 谷歌翻译
了解深度神经网络成功背后的基本机制是现代机器学习文学中的关键挑战之一。尽管尝试了很多,但尚未开发扎实的理论分析。在本文中,我们开发了一种新颖的统一框架,以通过凸优化镜头揭示隐藏的正则化机制。首先表明,具有重量衰减正则化的多个三层relu子网的训练可以等同地作为较高尺寸空间中的凸优化问题来等效地投射,其中稀疏通过组$ \ ell_1 $ -norm正常化强制实施。因此,Relu网络可以被解释为高维特征选择方法。更重要的是,我们证明,当网络宽度固定时,可以通过标准凸优化求解器全局优化等同的凸起问题通过具有多项式复杂度的标准凸优化求解器。最后,我们通过涉及合成和真实数据集的实验来数值验证我们的理论结果。
translated by 谷歌翻译
小组卷积神经网络(G-CNN)是卷积神经网络(CNN)的概括,通过在其体系结构中明确编码旋转和排列,在广泛的技术应用中脱颖而出。尽管G-CNN的成功是由它们的\ emph {emplapicit}对称偏见驱动的,但最近的一项工作表明,\ emph {隐式}对特定体系结构的偏差是理解过度参数化神经网的概​​括的关键。在这种情况下,我们表明,通过梯度下降训练了二进制分类的$ L $ layer全宽线性G-CNN,将二进制分类收敛到具有低级别傅立叶矩阵系数的解决方案,并由$ 2/l $ -schatten矩阵规范正规化。我们的工作严格概括了先前对线性CNN的隐性偏差对线性G-CNN的隐性分析,包括所有有限组,包括非交换组的挑战性设置(例如排列),以及无限组的频段限制G-CNN 。我们通过在各个组上实验验证定理,并在经验上探索更现实的非线性网络,该网络在局部捕获了相似的正则化模式。最后,我们通过不确定性原理提供了对傅立叶空间隐式正则化的直观解释。
translated by 谷歌翻译
本文提出了弗兰克 - 沃尔夫(FW)的新变种​​,称为$ k $ fw。标准FW遭受缓慢的收敛性:迭代通常是Zig-zag作为更新方向振荡约束集的极端点。新变种,$ k $ fw,通过在每次迭代中使用两个更强的子问题oracelles克服了这个问题。第一个是$ k $线性优化Oracle($ k $ loo),计算$ k $最新的更新方向(而不是一个)。第二个是$ k $方向搜索($ k $ ds),最大限度地减少由$ k $最新更新方向和之前迭代表示的约束组的目标。当问题解决方案承认稀疏表示时,奥克斯都易于计算,而且$ k $ FW会迅速收敛,以便平滑凸起目标和几个有趣的约束集:$ k $ fw实现有限$ \ frac {4l_f ^ 3d ^} { \ Gamma \ Delta ^ 2} $融合在多台和集团规范球上,以及光谱和核规范球上的线性收敛。数值实验验证了$ k $ fw的有效性,并展示了现有方法的数量级加速。
translated by 谷歌翻译
在机器学习或统计中,通常希望减少高维空间$ \ mathbb {r} ^ d $的数据点样本的维度。本文介绍了一种维度还原方法,其中嵌入坐标是作为半定程序无限尺寸模拟的溶液获得的正半定核的特征向量。这种嵌入是自适应和非线性的。我们对学习内核的弱者和强烈的平滑假设讨论了这个问题。我们的方法的主要特点是在两种情况下存在嵌入坐标的样本延伸公式。该外推公式产生内核矩阵的延伸到数据相关的Mercer内核功能。我们的经验结果表明,与光谱嵌入方法相比,该嵌入方法对异常值的影响更加稳健。
translated by 谷歌翻译
最近的实证工作表明,由卷积神经网络(CNNS)启发的分层卷积核(CNNS)显着提高了内核方法​​在图像分类任务中的性能。对这些架构成功的广泛解释是它们编码适合自然图像的假设类。然而,了解卷积架构中近似和泛化之间的精确相互作用仍然是一个挑战。在本文中,我们考虑均匀分布在超立方体上的协变量(图像像素)的程式化设置,并完全表征由单层卷积,汇集和下采样操作组成的内核的RKH。然后,我们使用这些内核通过标准内部产品内核来研究内核方法的样本效率的增益。特别是,我们展示了1)卷积层通过将RKHS限制为“本地”功能来打破维度的诅咒; 2)局部汇集偏置朝向低频功能,这是较小的翻译稳定; 3)下采样可以修改高频成粒空间,但留下了大致不变的低频部分。值得注意的是,我们的结果量化了选择适应目标函数的架构如何导致样本复杂性的大量改善。
translated by 谷歌翻译
我们提供了通过线性激活的多渠道卷积神经网络中的$ \ ell_2 $标准来最大程度地减少$ \ ell_2 $标准而产生的功能空间表征,并经验测试了我们对使用梯度下降训练的Relu网络的假设。我们将功能空间中的诱导正规化程序定义为实现函数所需的网络权重规范的最小$ \ ell_2 $。对于具有$ C $输出频道和内核尺寸$ K $的两个层线性卷积网络,我们显示以下内容:(a)如果网络的输入是单个渠道,则任何$ k $的诱导正规器都与数字无关输出频道$ c $。此外,我们得出正常化程序是由半决赛程序(SDP)给出的规范。 (b)相比之下,对于多通道输入,仅实现所有矩阵值值线性函数而需要多个输出通道,因此归纳偏置确实取决于$ c $。但是,对于足够大的$ c $,诱导的正规化程序再次由独立于$ c $的SDP给出。特别是,$ k = 1 $和$ k = d $(输入维度)的诱导正规器以封闭形式作为核标准和$ \ ell_ {2,1} $ group-sparse Norm,线性预测指标的傅立叶系数。我们通过对MNIST和CIFAR-10数据集的实验来研究理论结果对从线性和RELU网络上梯度下降的隐式正则化的更广泛的适用性。
translated by 谷歌翻译
我们考虑培训多层过参数化神经网络的问题,以最大限度地减少损失函数引起的经验风险。在过度参数化的典型设置中,网络宽度$ M $远大于数据维度$ D $和培训数量$ N $($ m = \ mathrm {poly}(n,d)$),其中诱导禁止的大量矩阵$ w \ in \ mathbb {r} ^ {m \ times m} $每层。天真地,一个人必须支付$ O(m ^ 2)$时间读取权重矩阵并评估前向和后向计算中的神经网络功能。在这项工作中,我们展示了如何降低每个迭代的培训成本,具体而言,我们提出了一个仅在初始化阶段使用M ^ 2美元的框架,并且在$ M $的情况下实现了每次迭代的真正子种化成本。 ,$ m ^ {2- \ oomga(1)} $次迭代。为了获得此结果,我们利用各种技术,包括偏移的基于Relu的稀释器,懒惰的低级维护数据结构,快速矩阵矩阵乘法,张量的草图技术和预处理。
translated by 谷歌翻译
How well does a classic deep net architecture like AlexNet or VGG19 classify on a standard dataset such as CIFAR-10 when its "width"-namely, number of channels in convolutional layers, and number of nodes in fully-connected internal layers -is allowed to increase to infinity? Such questions have come to the forefront in the quest to theoretically understand deep learning and its mysteries about optimization and generalization. They also connect deep learning to notions such as Gaussian processes and kernels. A recent paper [Jacot et al., 2018] introduced the Neural Tangent Kernel (NTK) which captures the behavior of fully-connected deep nets in the infinite width limit trained by gradient descent; this object was implicit in some other recent papers. An attraction of such ideas is that a pure kernel-based method is used to capture the power of a fully-trained deep net of infinite width. The current paper gives the first efficient exact algorithm for computing the extension of NTK to convolutional neural nets, which we call Convolutional NTK (CNTK), as well as an efficient GPU implementation of this algorithm. This results in a significant new benchmark for performance of a pure kernel-based method on CIFAR-10, being 10% higher than the methods reported in [Novak et al., 2019], and only 6% lower than the performance of the corresponding finite deep net architecture (once batch normalization etc. are turned off). Theoretically, we also give the first non-asymptotic proof showing that a fully-trained sufficiently wide net is indeed equivalent to the kernel regression predictor using NTK.
translated by 谷歌翻译
对于函数的矩阵或凸起的正半明确度(PSD)的形状约束在机器学习和科学的许多应用中起着核心作用,包括公制学习,最佳运输和经济学。然而,存在很少的功能模型,以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中,我们介绍了用于在PSD锥中的值的函数的内核平方模型,其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理,表明它构成了PSD函数的普遍近似器,并在限定的平等约束的情况下导出特征值界限。然后,我们将结果应用于建模凸起函数,通过执行其Hessian的核心量子表示,并表明可以因此表示任何平滑且强凸的功能。最后,我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。
translated by 谷歌翻译
确定点过程(DPP)是排斥点模式的统计模型。取样和推理都是DPPS的易用,这是具有负依赖性的模型中的罕见特征,解释了他们在机器学习和空间统计中的普及。已经在有限情况下提出了参数和非参数推断方法,即当点模式生活在有限的地面集中时。在连续的情况下,只有研究参数方法,而DPPS的非参数最大可能性 - 追踪课程运算符的优化问题 - 仍然是一个打开的问题。在本文中,我们表明,这种最大可能性(MLE)问题的受限制版本落入了RKHS中的非负面函数的最新代表定理的范围内。这导致有限的尺寸问题,具有强大的统计关系到原始MLE。此外,我们提出,分析,并展示了解决这个有限尺寸问题的定点算法。最后,我们还提供了对DPP的相关核的受控估计,从而提供更多的解释性。
translated by 谷歌翻译
监督字典学习(SDL)是一种经典的机器学习方法,同时寻求特征提取和分类任务,不一定是先验的目标。 SDL的目的是学习类歧视性词典,这是一组潜在特征向量,可以很好地解释特征以及观察到的数据的标签。在本文中,我们提供了SDL的系统研究,包括SDL的理论,算法和应用。首先,我们提供了一个新颖的框架,该框架将“提升” SDL作为组合因子空间中的凸问题,并提出了一种低级别的投影梯度下降算法,该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型,并根据高参数制度提供真实参数的全局估计保证。其次,我们被视为一个非convex约束优化问题,我们为SDL提供了有效的块坐标下降算法,该算法可以保证在$ O(\ varepsilon^{ - 1}(\ log)中找到$ \ varepsilon $ - 定位点(\ varepsilon \ varepsilon^{ - 1})^{2})$ iterations。对于相应的生成模型,我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果,这可能是独立的。第三,我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中,以进行不平衡的文档分类。我们还提供了模拟研究,以证明当最佳的重建性和最佳判别词典之间存在差异时,SDL变得更加有效。
translated by 谷歌翻译
我们提出了一个算法框架,用于近距离矩阵上的量子启发的经典算法,概括了Tang的突破性量子启发算法开始的一系列结果,用于推荐系统[STOC'19]。由量子线性代数算法和gily \'en,su,low和wiebe [stoc'19]的量子奇异值转换(SVT)框架[SVT)的动机[STOC'19],我们开发了SVT的经典算法合适的量子启发的采样假设。我们的结果提供了令人信服的证据,表明在相应的QRAM数据结构输入模型中,量子SVT不会产生指数量子加速。由于量子SVT框架基本上概括了量子线性代数的所有已知技术,因此我们的结果与先前工作的采样引理相结合,足以概括所有有关取消量子机器学习算法的最新结果。特别是,我们的经典SVT框架恢复并经常改善推荐系统,主成分分析,监督聚类,支持向量机器,低秩回归和半决赛程序解决方案的取消结果。我们还为汉密尔顿低级模拟和判别分析提供了其他取消化结果。我们的改进来自识别量子启发的输入模型的关键功能,该模型是所有先前量子启发的结果的核心:$ \ ell^2 $ -Norm采样可以及时近似于其尺寸近似矩阵产品。我们将所有主要结果减少到这一事实,使我们的简洁,独立和直观。
translated by 谷歌翻译
我们考虑最大程度地减少两次不同的可差异,$ l $ -smooth和$ \ mu $ -stronglongly凸面目标$ \ phi $ phi $ a $ n \ times n $ n $阳性阳性半finite $ m \ succeq0 $,在假设是最小化的假设$ m^{\ star} $具有低等级$ r^{\ star} \ ll n $。遵循burer- monteiro方法,我们相反,在因子矩阵$ x $ size $ n \ times r $的因素矩阵$ x $上最小化nonconvex objection $ f(x)= \ phi(xx^{t})$。这实际上将变量的数量从$ o(n^{2})$减少到$ O(n)$的少量,并且免费实施正面的半弱点,但要付出原始问题的均匀性。在本文中,我们证明,如果搜索等级$ r \ ge r^{\ star} $被相对于真等级$ r^{\ star} $的常数因子过度参数化,则如$ r> \ in frac {1} {4}(l/\ mu-1)^{2} r^{\ star} $,尽管非概念性,但保证本地优化可以从任何初始点转换为全局最佳。这显着改善了先前的$ r \ ge n $的过度参数化阈值,如果允许$ \ phi $是非平滑和/或非额外凸的,众所周知,这将是尖锐的,但会增加变量的数量到$ o(n^{2})$。相反,没有排名过度参数化,我们证明只有$ \ phi $几乎完美地条件,并且条件数量为$ l/\ mu <3 $,我们才能证明这种全局保证是可能的。因此,我们得出的结论是,少量的过度参数化可能会导致非凸室的理论保证得到很大的改善 - 蒙蒂罗分解。
translated by 谷歌翻译
We present a new family of subgradient methods that dynamically incorporate knowledge of the geometry of the data observed in earlier iterations to perform more informative gradient-based learning. Metaphorically, the adaptation allows us to find needles in haystacks in the form of very predictive but rarely seen features. Our paradigm stems from recent advances in stochastic optimization and online learning which employ proximal functions to control the gradient steps of the algorithm. We describe and analyze an apparatus for adaptively modifying the proximal function, which significantly simplifies setting a learning rate and results in regret guarantees that are provably as good as the best proximal function that can be chosen in hindsight. We give several efficient algorithms for empirical risk minimization problems with common and important regularization functions and domain constraints. We experimentally study our theoretical analysis and show that adaptive subgradient methods outperform state-of-the-art, yet non-adaptive, subgradient algorithms.
translated by 谷歌翻译
低级和非平滑矩阵优化问题捕获了统计和机器学习中的许多基本任务。尽管近年来在开发\ textIt {平滑}低级优化问题的有效方法方面取得了重大进展,这些问题避免了保持高级矩阵和计算昂贵的高级SVD,但不平滑问题的进步的步伐缓慢。在本文中,我们考虑了针对此类问题的标准凸放松。主要是,我们证明,在\ textit {严格的互补性}条件下,在相对温和的假设下,非平滑目标可以写成最大的光滑功能,近似于两个流行的\ textit {mirriry-prox}方法的变体: \ textIt {外部方法}和带有\ textIt {矩阵启用梯度更新}的镜像 - prox,当用“温暖启动”初始化时,将速率$ o(1/t)$的最佳解决方案收集到最佳解决方案,同时仅需要两个\ textIt {low-rank} svds每迭代。此外,对于外部方法,我们还考虑了严格互补性的放松版本,该版本在所需的SVD等级与我们需要初始化该方法的球的半径之间取决于权衡。我们通过几个非平滑级矩阵恢复任务的经验实验来支持我们的理论结果,这既证明了严格的互补性假设的合理性,又证明了我们所提出的低级镜像 - 镜像变体的有效收敛。
translated by 谷歌翻译