作为众所周知的优化框架,乘法器(ADMM)的交替方向方法在许多分类和回归应用中取得了巨大的成功。最近,它引起了深度学习研究人员的注意,被认为是梯度下降(GD)的潜在替代品。然而,作为新兴领域,一些挑战仍未解决,包括1)缺乏全球收敛保证,2)对解决方案的收敛缓慢,以及3)立方时间复杂于特征尺寸。在本文中,我们提出了一种新颖的优化框架,以通过ADMM(DLADMM)解决一般神经网络训练问题,同时解决这些挑战。具体地,每层中的参数被向后更新,然后向前移动,以便有效地交换每层中的参数信息。当DLADMM应用于特定架构时,通过使用二次近似和回溯技术,通过专用算法设计从立方到二次数据的时间复杂度。最后但并非最不重要的是,我们在温和条件下向第一个趋同的趋同点提供延长的临界点(DLADMM)。七个基准数据集的实验证明了我们提出的DLADMM算法的收敛性,效率和有效性。
translated by 谷歌翻译
图表卷积网络(GCN)已成功应用于许多基于图形的应用程序。然而,培训大规模的GCN模型仍然具有挑战性:由于GCN架构的节点依赖性和层依赖性,培训过程中需要大量的计算时间和内存。在本文中,我们提出了一种基于乘法器(ADMM)的交替方向方法的平行和分布式GCN训练算法,同时解决两个挑战。我们首先将GCN层分成独立块以实现层并行性。此外,通过将图形划分为几个密集的社区来降低节点依赖性,使得它们中的每一个可以并行地用代理训练。最后,我们为基于社区的ADMM算法中的所有子问题提供了解决方案。初步结果表明,我们所提出的基于社区的ADMM培训算法可能导致三倍超速,同时与最先进的方法相比,实现了最佳性能。
translated by 谷歌翻译
我们引入了一种新型的数学公式,用于训练以(可能非平滑)近端图作为激活函数的馈送前向神经网络的培训。该公式基于布雷格曼的距离,关键优势是其相对于网络参数的部分导数不需要计算网络激活函数的导数。我们没有使用一阶优化方法和后传播的组合估算参数(如最先进的),而是建议使用非平滑一阶优化方法来利用特定结构新颖的表述。我们提出了几个数值结果,这些结果表明,与更常规的培训框架相比,这些训练方法可以很好地很好地适合于培训基于神经网络的分类器和具有稀疏编码的(DeNoising)自动编码器。
translated by 谷歌翻译
人工神经网络(ANN)训练景观的非凸起带来了固有的优化困难。虽然传统的背传播随机梯度下降(SGD)算法及其变体在某些情况下是有效的,但它们可以陷入杂散的局部最小值,并且对初始化和普通公共表敏感。最近的工作表明,随着Relu激活的ANN的培训可以重新重整为凸面计划,使希望能够全局优化可解释的ANN。然而,天真地解决凸训练制剂具有指数复杂性,甚至近似启发式需要立方时间。在这项工作中,我们描述了这种近似的质量,并开发了两个有效的算法,这些算法通过全球收敛保证培训。第一算法基于乘法器(ADMM)的交替方向方法。它解决了精确的凸形配方和近似对应物。实现线性全局收敛,并且初始几次迭代通常会产生具有高预测精度的解决方案。求解近似配方时,每次迭代时间复杂度是二次的。基于“采样凸面”理论的第二种算法更简单地实现。它解决了不受约束的凸形制剂,并收敛到大约全球最佳的分类器。当考虑对抗性培训时,ANN训练景观的非凸起加剧了。我们将稳健的凸优化理论应用于凸训练,开发凸起的凸起制剂,培训Anns对抗对抗投入。我们的分析明确地关注一个隐藏层完全连接的ANN,但可以扩展到更复杂的体系结构。
translated by 谷歌翻译
将图形扩散现象的来源定位,例如错误信息传播,是一项重要但极具挑战性的任务。现有的源本地化模型通常在很大程度上取决于手工制作的规则。不幸的是,许多应用程序的图扩散过程的很大一部分仍然是人类未知的,因此拥有自动学习此类基础规则的表达模型很重要。本文旨在建立一个可逆图扩散模型的通用框架,用于在图上源定位,即可逆有效性感知图扩散(IVGD),以应对主要挑战,包括1)难以利用图形扩散模型中的知识来建模其反相反过程以端到端的方式,2)难以确保推断来源的有效性,3)源推理的效率和可扩展性。具体而言,首先,为了反向推断图形扩散源,我们提出了图形残差方案,以使现有的图形扩散模型具有理论保证。其次,我们开发了一种新颖的错误补偿机制,该机制学会抵消推断来源的错误。最后,为了确保推断资源的有效性,通过灵活地通过使用展开的优化技术来灵活地编码约束来,已经设计了一组新的有效性层层将推断为可行区域的源。提出了一种线性化技术来增强我们提出的层的效率。理论上证明了所提出的IVGD的收敛性。对九个现实世界数据集进行的广泛实验表明,我们提出的IVGD的表现明显优于最先进的比较方法。我们已经在https://github.com/xianggebenben/ivgd上发布了代码。
translated by 谷歌翻译
我们引入了一种降低尺寸的二阶方法(DRSOM),用于凸和非凸的不受约束优化。在类似信任区域的框架下,我们的方法保留了二阶方法的收敛性,同时仅在两个方向上使用Hessian-Vector产品。此外,计算开销仍然与一阶相当,例如梯度下降方法。我们证明该方法的复杂性为$ O(\ epsilon^{ - 3/2})$,以满足子空间中的一阶和二阶条件。DRSOM的适用性和性能通过逻辑回归,$ L_2-L_P $最小化,传感器网络定位和神经网络培训的各种计算实验展示。对于神经网络,我们的初步实施似乎在训练准确性和迭代复杂性方面与包括SGD和ADAM在内的最先进的一阶方法获得了计算优势。
translated by 谷歌翻译
我们提出了一个基于一般学习的框架,用于解决非平滑和非凸图像重建问题。我们将正则函数建模为$ l_ {2,1} $ norm的组成,并将平滑但非convex功能映射参数化为深卷积神经网络。我们通过利用Nesterov的平滑技术和残留学习的概念来开发一种可证明的趋同的下降型算法来解决非平滑非概念最小化问题,并学习网络参数,以使算法的输出与培训数据中的参考匹配。我们的方法用途广泛,因为人们可以将各种现代网络结构用于正规化,而所得网络继承了算法的保证收敛性。我们还表明,所提出的网络是参数有效的,其性能与实践中各种图像重建问题中的最新方法相比有利。
translated by 谷歌翻译
二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译
在许多机器学习应用程序中出现了非convex-concave min-max问题,包括最大程度地减少一组非凸函数的最大程度,并对神经网络的强大对抗训练。解决此问题的一种流行方法是梯度下降(GDA)算法,不幸的是,在非凸性的情况下可以表现出振荡。在本文中,我们引入了一种“平滑”方案,该方案可以与GDA结合以稳定振荡并确保收敛到固定溶液。我们证明,稳定的GDA算法可以实现$ O(1/\ epsilon^2)$迭代复杂性,以最大程度地减少有限的非convex函数收集的最大值。此外,平滑的GDA算法达到了$ O(1/\ epsilon^4)$ toseration复杂性,用于一般的nonconvex-concave问题。提出了这种稳定的GDA算法的扩展到多块情况。据我们所知,这是第一个实现$ o(1/\ epsilon^2)$的算法,用于一类NonConvex-Concave问题。我们说明了稳定的GDA算法在健壮训练中的实际效率。
translated by 谷歌翻译
神经网络在许多领域取得了巨大的经验成功。已经观察到,通过一阶方法训练的随机初始化的神经网络能够实现接近零的训练损失,尽管其损失景观是非凸的并且不平滑的。这种现象很少有理论解释。最近,通过分析过参数化制度中的梯度下降〜(GD)和重球方法〜(HB)的梯度来弥合实践和理论之间的这种差距。在这项工作中,通过考虑Nesterov的加速梯度方法〜(nag),我们通过恒定的动量参数进行进一步进展。我们通过Relu激活分析其用于过度参数化的双层完全连接神经网络的收敛性。具体而言,我们证明了NAG的训练误差以非渐近线性收敛率$(1- \θ(1 / \ sqrt {\ kappa}))收敛到零(1 / \ sqrt {\ kappa})^ t $ the $ t $迭代,其中$ \ Kappa> 1 $由神经网络的初始化和架构决定。此外,我们在NAG和GD和HB的现有收敛结果之间提供了比较。我们的理论结果表明,NAG实现了GD的加速度,其会聚率与HB相当。此外,数值实验验证了我们理论分析的正确性。
translated by 谷歌翻译
近年来,已经开发出各种基于梯度的方法来解决机器学习和计算机视觉地区的双层优化(BLO)问题。然而,这些现有方法的理论正确性和实际有效性总是依赖于某些限制性条件(例如,下层单身,LLS),这在现实世界中可能很难满足。此外,以前的文献仅证明了基于其特定的迭代策略的理论结果,因此缺乏一般的配方,以统一分析不同梯度的BLO的收敛行为。在这项工作中,我们从乐观的双级视点制定BLOS,并建立一个名为Bi-Level血液血统聚合(BDA)的新梯度的算法框架,以部分地解决上述问题。具体而言,BDA提供模块化结构,以分级地聚合上层和下层子问题以生成我们的双级迭代动态。从理论上讲,我们建立了一般会聚分析模板,并导出了一种新的证据方法,以研究基于梯度的BLO方法的基本理论特性。此外,这项工作系统地探讨了BDA在不同优化场景中的收敛行为,即,考虑从解决近似子问题返回的各种解决方案质量(即,全局/本地/静止解决方案)。广泛的实验证明了我们的理论结果,并展示了所提出的超参数优化和元学习任务算法的优越性。源代码可在https://github.com/vis-opt-group/bda中获得。
translated by 谷歌翻译
This study investigates clustered federated learning (FL), one of the formulations of FL with non-i.i.d. data, where the devices are partitioned into clusters and each cluster optimally fits its data with a localized model. We propose a novel clustered FL framework, which applies a nonconvex penalty to pairwise differences of parameters. This framework can automatically identify clusters without a priori knowledge of the number of clusters and the set of devices in each cluster. To implement the proposed framework, we develop a novel clustered FL method called FPFC. Advancing from the standard ADMM, our method is implemented in parallel, updates only a subset of devices at each communication round, and allows each participating device to perform a variable amount of work. This greatly reduces the communication cost while simultaneously preserving privacy, making it practical for FL. We also propose a new warmup strategy for hyperparameter tuning under FL settings and consider the asynchronous variant of FPFC (asyncFPFC). Theoretically, we provide convergence guarantees of FPFC for general nonconvex losses and establish the statistical convergence rate under a linear model with squared loss. Our extensive experiments demonstrate the advantages of FPFC over existing methods.
translated by 谷歌翻译
步骤函数是深神经网络(DNN)最简单,最自然的激活函数之一。由于它计算为1的正变量,而对于其他变量为0,因此其内在特征(例如不连续性,没有可行的亚级别信息)阻碍了其几十年的发展。即使在设计具有连续激活功能的DNN方面有令人印象深刻的工作,可以被视为步骤功能的替代物,它仍然具有某些优势属性,例如对异常值的完全稳健性并能够达到能力预测准确性的最佳学习理论保证。因此,在本文中,我们的目标是用用作激活函数的步骤函数训练DNN(称为0/1 DNNS)。我们首先将0/1 dnns重新加密为不受约束的优化问题,然后通过块坐标下降(BCD)方法解决它。此外,我们为BCD的子问题及其收敛性获得了封闭式解决方案。此外,我们还将$ \ ell_ {2,0} $ - 正则化整合到0/1 DNN中,以加速培训过程并压缩网络量表。结果,所提出的算法在分类MNIST和时尚数据集方面具有高性能。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
二重优化(BO)可用于解决各种重要的机器学习问题,包括但不限于超参数优化,元学习,持续学习和增强学习。常规的BO方法需要通过与隐式分化的低级优化过程进行区分,这需要与Hessian矩阵相关的昂贵计算。最近,人们一直在寻求BO的一阶方法,但是迄今为止提出的方法对于大规模的深度学习应用程序往往是复杂且不切实际的。在这项工作中,我们提出了一种简单的一阶BO算法,仅取决于一阶梯度信息,不需要隐含的区别,并且对于大规模的非凸函数而言是实用和有效的。我们为提出的方法提供了非注重方法分析非凸目标的固定点,并提出了表明其出色实践绩效的经验结果。
translated by 谷歌翻译
非convex受限的优化问题可用于模拟许多机器学习问题,例如多级Neyman-Pearson分类和受限的Markov决策过程。但是,由于目标和约束可能是非概念,因此这些问题都是具有挑战性的,因此很难平衡减少损失价值和减少约束违规行为的平衡。尽管有几种方法可以解决此类问题,但它们都是双环或三环算法,它们需要Oracles来解决某些子问题,通过在每次迭代中调整多个超级参数,以达到某些准确性。在本文中,我们提出了一种新型的梯度下降和扰动的上升(GDPA)算法,以解决一类平滑的非概念不平等的限制问题。 GDPA是一种原始的偶算法,仅利用目标和约束函数的一阶信息,以交替的方式更新原始变量和双重变量。该算法的关键特征是它是一种单循环算法,其中只需要调整两个步骤尺寸。我们表明,在轻度的规律性条件下,GDPA能够找到非convex功能约束问题的Karush-Kuhn-Tucker(KKT)点,并保证了收敛率。据我们所知,这是第一个可以通过非convex不等式约束来解决一般非凸的平滑问题的单循环算法。与最著名的算法相比,数值结果还显示了GDPA的优越性(就平稳性测量和获得的溶液的可行性而言)。
translated by 谷歌翻译
已经观察到图形神经网络(GNN)有时难以在跨节点上建模的长距离依赖性之间保持健康的平衡,同时避免了诸如过天平的节点表示的非线性后果。为了解决这个问题(以及其他事情),最近提出了两个单独的策略,即隐含和展开的GNN。前者将节点表示作为深度平衡模型的固定点,其可以有效地促进横跨图形的任意隐式传播,具有固定的存储器占用。相反,后者涉及将图形传播作为应用于某些图形正则化能功能的展开渐变迭代处理。在这种情况下激励,在本文中,我们仔细阐明了这些方法的相似性和差异,量化了他们所产生的解决方案的明确情况实际上是等同的,而行为发散的其他方法。这包括分析会聚,代表能力和解释性。我们还提供各种综合和公共现实世界基准的经验性头脑比较。
translated by 谷歌翻译
分析深神经网络对输入扰动的最坏情况的性能等于解决一个大规模的非凸优化问题,过去的几项工作提出了凸出的放松作为有希望的替代方案。但是,即使对于合理的神经网络,这些放松也无法处理,因此必须在实践中被较弱的放松所取代。在这项工作中,我们提出了一种新型的操作员分裂方法,该方法可以将问题直接解决至高精度的凸松弛,从而将其拆分为经常具有分析溶液的较小的子问题。该方法是模块化的,范围为非常大的问题实例,并损害了与GPU加速的快速并行化的操作。我们展示了我们在图像分类和强化学习设置以及神经网络动力学系统的可及性分析中界定大型卷积网络最差的方法的方法。
translated by 谷歌翻译
尽管神经网络取得了巨大的经验成功,但对培训程序的理论理解仍然有限,尤其是在为优化问题的非凸性性质而提供测试性能的性能保证时。当前的论文通过简化了凸结构的另一个问题来研究神经网络培训的另一种方法 - 解决单调变异不平等(MVI) - 灵感来自最近的工作(Juditsky&Nemirovsky,2019年)。可以通过计算有效的过程找到对MVI的解决方案,重要的是,这会导致$ \ ell_2 $和$ \ ell _ {\ elfty} $在模型恢复和预测准确性下的性能保证层线性神经网络。此外,我们研究了MVI在训练多层神经网络中的使用,并提出了一种称为\ textit {随机变异不平等}(SVI)的实用算法,并证明了其在训练完全连接的神经网络和图形神经网络(GNN)中的适用性(GNN )(SVI是完全一般的,可用于训练其他类型的神经网络)。与广泛使用的随机梯度下降方法相比,我们证明了SVI的竞争性或更好的性能,涉及各种性能指标的合成和真实网络数据预测任务,尤其是在培训早期阶段提高效率方面。
translated by 谷歌翻译
图神经网络(GNN)已证明其在各种应用中的表现出色。然而,其背后的工作机制仍然神秘。 GNN模型旨在学习图形结构数据的有效表示,该数据本质上与图形信号denoising(GSD)的原理相吻合。算法展开是一种“学习优化”技术的算法,由于其在构建高效和可解释的神经网络体系结构方面的前景,人们引起了人们的关注。在本文中,我们引入了基于GSD问题的截断优化算法(例如梯度下降和近端梯度下降)构建的一类展开网络。它们被证明与许多流行的GNN模型紧密相连,因为这些GNN中的正向传播实际上是为特定GSD提供服务的展开网络。此外,可以将GNN模型的训练过程视为解决了较低级别的GSD问题的双重优化问题。这种连接带来了GNN的新景,因为我们可以尝试从GSD对应物中理解它们的实际功能,并且还可以激励设计新的GNN模型。基于算法展开的观点,一种名为UGDGNN的表达模型,即展开的梯度下降GNN,进一步提出了继承具有吸引力的理论属性的。七个基准数据集上的大量数值模拟表明,UGDGNN可以比最新模型实现卓越或竞争性的性能。
translated by 谷歌翻译