Recent work has shown local convergence of GAN training for absolutely continuous data and generator distributions. In this paper, we show that the requirement of absolute continuity is necessary: we describe a simple yet prototypical counterexample showing that in the more realistic case of distributions that are not absolutely continuous, unregularized GAN training is not always convergent. Furthermore, we discuss regularization strategies that were recently proposed to stabilize GAN training. Our analysis shows that GAN training with instance noise or zerocentered gradient penalties converges. On the other hand, we show that Wasserstein-GANs and WGAN-GP with a finite number of discriminator updates per generator update do not always converge to the equilibrium point. We discuss these results, leading us to a new explanation for the stability problems of GAN training. Based on our analysis, we extend our convergence results to more general GANs and prove local convergence for simplified gradient penalties even if the generator and data distributions lie on lower dimensional manifolds. We find these penalties to work well in practice and use them to learn highresolution generative image models for a variety of datasets with little hyperparameter tuning.
translated by 谷歌翻译
生成对抗网络(GAN)是用于复杂数据生成建模的广泛使用的工具。尽管取得了经验成功,但由于发电机和鉴别器的最低最大优化,对GAN的训练尚未完全理解。本文分析了这些关节动力学时,当真实样品以及生成的样品是离散的,有限的集合,并且鉴别器基于内核。引入了一个简单而表达的框架,用于分析培训,称为$ \ textit {隔离点模型} $。在提出的模型中,真实样品之间的距离大大超过了内核宽度,因此每个生成的点都受到最多一个真实点的影响。我们的模型可以精确地表征好和不良最小值的收敛条件。特别是,分析解释了两种常见的故障模式:(i)近似模式崩溃和(ii)差异。提供了可预测复制这些行为的数值模拟。
translated by 谷歌翻译
我们为生成对抗网络(GAN)提出了一个新颖的理论框架。我们揭示了先前分析的基本缺陷,通过错误地对GANS的训练计划进行了错误的建模,该缺陷受到定义不定的鉴别梯度的约束。我们克服了这个问题,该问题阻碍了对GAN培训的原则研究,并考虑了歧视者的体系结构在我们的框架内解决它。为此,我们通过其神经切线核为歧视者提供了无限宽度神经网络的理论。我们表征了训练有素的判别器,以实现广泛的损失,并建立网络的一般可怜性属性。由此,我们获得了有关生成分布的融合的新见解,从而促进了我们对GANS训练动态的理解。我们通过基于我们的框架的分析工具包来证实这些结果,并揭示了与GAN实践一致的直觉。
translated by 谷歌翻译
许多现代机器学习算法,例如生成的对抗网络(GANS)和对抗性培训可以制定为最低限度优化。梯度下降上升(GDA)是由于其简单性导致的最常用的算法。但是,GDA可以收敛到非最佳Minimax点。我们提出了一个新的最低限度优化框架GDA-AM,将GDadynamics视为固定点迭代,并使用Anderson混合来解决局部imemax。它解决了同时GDA的发散问题加速了交替GDA的收敛性。我们从理论上显示了该算法可以在温和条件下实现Bilinear问题的全局收敛性。我们还经验证明GDA-AMSOLVES各种极少问题,并改善了几个数据集的GaN训练
translated by 谷歌翻译
梯度下降(GDA)方法是生成对抗网络(GAN)中最小值优化的主流算法。 GDA的收敛特性引起了最近文献的重大兴趣。具体而言,对于$ \ min _ {\ mathbf {x}} \ max _ {\ mathbf {y}} f(\ mathbf {x}; \ m m缩y} $以及$ \ mathbf {x} $,(lin等,2020)中的nonConvex证明了GDA的收敛性,带有sptepize的比率$ \ eta _ {\ mathbf {y}}}}/\ eta _ { }} = \ theta(\ kappa^2)$ with $ \ eta _ {\ mathbf {x}} $和$ \ eta _ {\ eta _ {\ mathbf {y}} $是$ \ mathbf {x}} $和$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ Mathbf {y} $和$ \ kappa $是$ \ mathbf {y} $的条件号。尽管该步骤大比表明对最小玩家进行缓慢的训练,但实用的GAN算法通常对两个变量采用类似的步骤,表明理论和经验结果之间存在较大差距。在本文中,我们的目标是通过分析常规\ emph {nonconvex-nonconcave} minimax问题的\ emph {local contergence}来弥合这一差距。我们证明,$ \ theta(\ kappa)$的得分比是必要且足够的,足以使GDA局部收敛到Stackelberg equilibrium,其中$ \ kappa $是$ \ mathbf {y} $的本地条件号。我们证明了与匹配的下限几乎紧密的收敛速率。我们进一步将收敛保证扩展到随机GDA和额外梯度方法(例如)。最后,我们进行了几项数值实验来支持我们的理论发现。
translated by 谷歌翻译
Generative Adversarial Networks (GANs) excel at creating realistic images with complex models for which maximum likelihood is infeasible. However, the convergence of GAN training has still not been proved. We propose a two time-scale update rule (TTUR) for training GANs with stochastic gradient descent on arbitrary GAN loss functions. TTUR has an individual learning rate for both the discriminator and the generator. Using the theory of stochastic approximation, we prove that the TTUR converges under mild assumptions to a stationary local Nash equilibrium. The convergence carries over to the popular Adam optimization, for which we prove that it follows the dynamics of a heavy ball with friction and thus prefers flat minima in the objective landscape. For the evaluation of the performance of GANs at image generation, we introduce the 'Fréchet Inception Distance" (FID) which captures the similarity of generated images to real ones better than the Inception Score. In experiments, TTUR improves learning for DCGANs and Improved Wasserstein GANs (WGAN-GP) outperforming conventional GAN training on CelebA, CIFAR-10, SVHN, LSUN Bedrooms, and the One Billion Word Benchmark.
translated by 谷歌翻译
生成对抗网络(GAN)通过两人游戏从数据样本中学习隐含的生成模型。在本文中,我们研究了游戏的NASH平衡存在,随着数据样本的数量增长到无穷大。在一个可实现的环境中,目标是估计固定高斯过程的基本真相发生器,我们表明,始终如一的nash平衡的存在至关重要取决于歧视家族的选择。根据二阶统计力矩定义的歧视器可能导致NASH平衡不存在,存在一致的非NASH平衡,或者是始终如一的NASH平衡的存在和唯一性,具体取决于发电机家族的对称特性是否受到尊重。我们进一步研究了梯度下降方法对一致平衡的局部稳定性和全球收敛。
translated by 谷歌翻译
我们介绍了用于生成建模的广义能量模型(GEBM)。这些模型组合了两个训练有素的组件:基本分布(通常是隐式模型),可以在高维空间中学习具有低固有尺寸的数据的支持;和能量功能,优化学习支持的概率质量。能量函数和基座都共同构成了最终模型,与GANS不同,它仅保留基本分布(“发电机”)。通过在学习能量和基础之间交替进行培训GEBMS。我们表明,两种培训阶段都明确定义:通过最大化广义可能性来学习能量,并且由此产生的能源的损失提供了学习基础的信息梯度。可以通过MCMC获得来自训练模型的潜在空间的后部的样品,从而在该空间中找到产生更好的质量样本的区域。经验上,图像生成任务上的GEBM样本比来自学习发电机的图像更好,表明所有其他相同,GEBM将优于同样复杂性的GAN。当使用归一化流作为基础测量时,GEBMS成功地启动密度建模任务,返回相当的性能以直接相同网络的最大可能性。
translated by 谷歌翻译
最近的多人游戏的理论和应用方面的最新进步,从电子运动到多种子体生成的对抗网络,我们专注于团队零和游戏中的最大优化。在这类游戏中,玩家分为两支队伍,在同一支队内等等,对手团队的相反标志。与TextBook二手零和游戏不同,在我们的类中找到纳什均衡可以被证明是CLS-Hard,即,它不太可能具有用于计算NASH均衡的多项式时间算法。此外,在该广义框架中,使用梯度下降上升(GDA),其乐观变体和额外梯度,我们建立了即使是渐近的最后一次迭代或时间平均收敛到纳什均衡。具体来说,我们展示了一个诱导效用是\ emph {non}的团队游戏系列\ \ emph {non}有吸引力的\ {per-se}混合的纳什均衡,作为底层优化景观的严格鞍点。利用控制理论的技术,我们通过设计局部收敛的修改GDA来补充这些负面结果,以纳入均衡。最后,我们讨论了我们的框架与AI架构的联系,其中与多助理生成对冲网络这样的团队竞争结构。
translated by 谷歌翻译
一类非平滑实践优化问题可以写成,以最大程度地减少平滑且部分平滑的功能。我们考虑了这种结构化问题,这些问题也取决于参数矢量,并研究了将其解决方案映射相对于参数的问题,该参数在灵敏度分析和参数学习选择材料问题中具有很大的应用。我们表明,在部分平滑度和其他温和假设下,近端分裂算法产生的序列的自动分化(AD)会收敛于溶液映射的衍生物。对于一种自动分化的变体,我们称定点自动分化(FPAD),我们纠正了反向模式AD的内存开销问题,此外,理论上提供了更快的收敛。我们从数值上说明了套索和组套索问题的AD和FPAD的收敛性和收敛速率,并通过学习正则化项来证明FPAD在原型实用图像deoise问题上的工作。
translated by 谷歌翻译
生成对抗网络(GAN)是强大的机器学习模型,能够生成具有高分辨率的所需现象的完全合成样本。尽管他们成功了,但GAN的训练过程非常不稳定,通常有必要对网络实施几种附属启发式方法,以达到模型的可接受收敛。在本文中,我们介绍了一种新颖的方法来分析生成对抗网络培训的收敛性和稳定性。为此,我们建议分解对手Min-Max游戏的目标功能,将定期gan定义为傅立叶系列。通过研究连续交替梯度下降算法的截短傅里叶序列的动力学,我们能够近似实际流量并确定GAN收敛的主要特征。通过研究$ 2 $ - 参数gan的旨在产生未知指数分布的训练流,从经验上证实了这种方法。作为副产品,我们表明gan中的融合轨道是周期性轨道的小扰动,因此纳什均值是螺旋吸引子。从理论上讲,这证明了在甘斯中观察到的缓慢和不稳定的训练。
translated by 谷歌翻译
本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的,我们专注于适合高维优化的方法。我们在二次模型上构建直觉,以确定哪种方法适用于非凸优化,并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础,我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外,最后一章还提供了对更多理论方法的广泛审查,这在实践中并不像惯例。所以在某些情况下,这项工作试图回答这个问题:为什么默认值中包含的默认TensorFlow优化器?
translated by 谷歌翻译
生成的对策网络是一种流行的方法,用于通过根据已知分发的函数来建立目标分布来从数据学习分布的流行方法。经常被称为发电机的功能优化,以最小化所生成和目标分布之间的所选距离测量。这种目的的一个常用措施是Wassersein距离。然而,Wassersein距离难以计算和优化,并且在实践中,使用熵正则化技术来改善数值趋同。然而,正规化对学到的解决方案的影响仍未得到很好的理解。在本文中,我们研究了Wassersein距离的几个流行的熵正规提出如何在一个简单的基准设置中冲击解决方案,其中发电机是线性的,目标分布是高维高斯的。我们表明,熵正则化促进了解决方案稀疏化,同时更换了与秸秆角偏差的Wasserstein距离恢复了不断的解决方案。两种正则化技术都消除了Wasserstein距离所遭受的维度的诅咒。我们表明,可以从目标分布中学习最佳发电机,以$ O(1 / \ epsilon ^ 2)$ samples从目标分布中学习。因此,我们得出结论,这些正则化技术可以提高来自大量分布的经验数据的发电机的质量。
translated by 谷歌翻译
这是关于生成对抗性网络(GaN),对抗性自身额外的教程和调查纸张及其变体。我们开始解释对抗性学习和香草甘。然后,我们解释了条件GaN和DCGAN。介绍了模式崩溃问题,介绍了各种方法,包括小纤维GaN,展开GaN,Bourgan,混合GaN,D2Gan和Wasserstein GaN,用于解决这个问题。然后,GaN中的最大似然估计与F-GaN,对抗性变分贝叶斯和贝叶斯甘甘相同。然后,我们涵盖了GaN,Infogan,Gran,Lsgan,Enfogan,Gran,Lsgan,Catgan,MMD Gan,Lapgan,Progressive Gan,Triple Gan,Lag,Gman,Adagan,Cogan,逆甘,Bigan,Ali,Sagan,Sagan,Sagan,Sagan,甘肃,甘肃,甘河的插值和评估。然后,我们介绍了GaN的一些应用,例如图像到图像转换(包括Pacchgan,Cyclegan,Deepfacedrawing,模拟GaN,Interactive GaN),文本到图像转换(包括Stackgan)和混合图像特征(包括罚球和mixnmatch)。最后,我们解释了基于对冲学习的AutoEncoders,包括对手AutoEncoder,Pixelgan和隐式AutoEncoder。
translated by 谷歌翻译
低维歧管假设认为,在许多应用中发现的数据,例如涉及自然图像的数据(大约)位于嵌入高维欧几里得空间中的低维歧管上。在这种情况下,典型的神经网络定义了一个函数,该函数在嵌入空间中以有限数量的向量作为输入。但是,通常需要考虑在训练分布以外的点上评估优化网络。本文考虑了培训数据以$ \ mathbb r^d $的线性子空间分配的情况。我们得出对由神经网络定义的学习函数变化的估计值,沿横向子空间的方向。我们研究了数据歧管的编纂中与网络的深度和噪声相关的潜在正则化效应。由于存在噪声,我们还提出了训练中的其他副作用。
translated by 谷歌翻译
引入了归一化层(例如,批处理归一化,层归一化),以帮助在非常深的网中获得优化困难,但它们显然也有助于概括,即使在不太深入的网中也是如此。由于长期以来的信念,即最小的最小值导致更好的概括,本文提供了数学分析和支持实验,这表明归一化(与伴随的重量赛一起)鼓励GD降低损失表面的清晰度。鉴于损失是标准不变的,这是标准化的已知结果,因此仔细地定义了“清晰度”。具体而言,对于具有归一化的相当广泛的神经网类,我们的理论解释了有限学习率的GD如何进入所谓的稳定边缘(EOS)制度,并通过连续的清晰度来表征GD的轨迹 - 还原流。
translated by 谷歌翻译
Gradient-based first-order convex optimization algorithms find widespread applicability in a variety of domains, including machine learning tasks. Motivated by the recent advances in fixed-time stability theory of continuous-time dynamical systems, we introduce a generalized framework for designing accelerated optimization algorithms with strongest convergence guarantees that further extend to a subclass of non-convex functions. In particular, we introduce the \emph{GenFlow} algorithm and its momentum variant that provably converge to the optimal solution of objective functions satisfying the Polyak-{\L}ojasiewicz (PL) inequality, in a fixed-time. Moreover for functions that admit non-degenerate saddle-points, we show that for the proposed GenFlow algorithm, the time required to evade these saddle-points is bounded uniformly for all initial conditions. Finally, for strongly convex-strongly concave minimax problems whose optimal solution is a saddle point, a similar scheme is shown to arrive at the optimal solution again in a fixed-time. The superior convergence properties of our algorithm are validated experimentally on a variety of benchmark datasets.
translated by 谷歌翻译
We investigate the training and performance of generative adversarial networks using the Maximum Mean Discrepancy (MMD) as critic, termed MMD GANs. As our main theoretical contribution, we clarify the situation with bias in GAN loss functions raised by recent work: we show that gradient estimators used in the optimization process for both MMD GANs and Wasserstein GANs are unbiased, but learning a discriminator based on samples leads to biased gradients for the generator parameters. We also discuss the issue of kernel choice for the MMD critic, and characterize the kernel corresponding to the energy distance used for the Cramér GAN critic. Being an integral probability metric, the MMD benefits from training strategies recently developed for Wasserstein GANs. In experiments, the MMD GAN is able to employ a smaller critic network than the Wasserstein GAN, resulting in a simpler and faster-training algorithm with matching performance. We also propose an improved measure of GAN convergence, the Kernel Inception Distance, and show how to use it to dynamically adapt learning rates during GAN training.
translated by 谷歌翻译
我们研究了最近引入的最低最大优化框架的一种变体,其中最大玩具被限制以贪婪的方式更新其参数,直到达到一阶固定点为止。我们对此框架的平衡定义取决于最小玩家使用该方向来更新其参数的方向的提案分布。我们表明,鉴于一个平稳且有界的非Convex-Nonconcave目标函数,访问Min-player的更新的任何提案分布以及最大播放器的随机梯度甲骨文,我们的算法收敛于上述近似近似近似局部平衡,以众多的局部平衡。不取决于维度的迭代。我们的算法发现的平衡点取决于提议分布,在应用我们的算法来训练gans时,我们选择提案分布作为随机梯度的分布。我们从经验上评估了我们的算法,以挑战非凸孔测试功能和GAN培训中引起的损失功能。我们的算法在这些测试功能上收敛,并在用于训练gans时会在合成和现实世界中稳定训练,并避免模式崩溃
translated by 谷歌翻译
我们的工作侧重于额外的渐变学习算法,用于在双线性零和游戏中查找纳什均衡。该方法可以正式被认为是乐观镜下降\ Cite {DBLP:Cenf / ICLR / Mertikopouloslz19}的典型方法,用于中间梯度步骤,基本上导致计算(近似)最佳反应策略先前迭代的轮廓。虽然乍一看,由于不合理的大,但是对于迭代算法,中间学习步骤,我们证明该方法保证了持续收敛到均衡。特别是,我们表明该算法首先达到$ \ eta ^ {1 / rho} $ - 近似纳什均衡,以$ \ rho> 1 $,通过减少每次迭代的kullback-leibler分歧至少$ \ omega (\ eta ^ {1+ \ frac {1} {\ rho})$,因为足够小的学习率,$ \ eta $直到该方法成为承包地图,并收敛到确切的均衡。此外,我们对乘法权重更新方法的乐观变体进行实验比较,\ Cite {Daskalakis2019LastITERATECZ}并显示我们的算法具有显着的实际潜力,因为它在加速收敛方面提供了大量的收益。
translated by 谷歌翻译