In this paper, we study the almost sure boundedness and the convergence of the stochastic approximation (SA) algorithm. At present, most available convergence proofs are based on the ODE method, and the almost sure boundedness of the iterations is an assumption and not a conclusion. In Borkar-Meyn (2000), it is shown that if the ODE has only one globally attractive equilibrium, then under additional assumptions, the iterations are bounded almost surely, and the SA algorithm converges to the desired solution. Our objective in the present paper is to provide an alternate proof of the above, based on martingale methods, which are simpler and less technical than those based on the ODE method. As a prelude, we prove a new sufficient condition for the global asymptotic stability of an ODE. Next we prove a ``converse'' Lyapunov theorem on the existence of a suitable Lyapunov function with a globally bounded Hessian, for a globally exponentially stable system. Both theorems are of independent interest to researchers in stability theory. Then, using these results, we provide sufficient conditions for the almost sure boundedness and the convergence of the SA algorithm. We show through examples that our theory covers some situations that are not covered by currently known results, specifically Borkar-Meyn (2000).
translated by 谷歌翻译
本文涉及由马尔可夫噪声驱动的随机近似的收敛和渐近统计:$$ \ theta_ {n + 1} = \ theta_n + \ alpha_ {n + 1} f(\ theta_n,\ phi_ {n + 1})\, ,\ quad n \ ge 0,$$,其中每个$ \ theta_n \ in \ re ^ d $,$ \ {\ phi_n \} $是一般状态空间x上的马尔可夫链,静止分配$ \ pi $和$ f:\ re ^ d \ times \ text {x} \ to \ re ^ d $。除了在$ f $的标准lipschitz边界,以及消失的步骤大小序列$ \ {\ alpha_n \ \} $的条件外,假设相关ode是全局渐近稳定的静止点表示$ \ theta ^ * $ ,其中$ \ bar f(\ theta)= e [f(\ theta,\ phi)] $ with $ \ phi \ sim \ pi $。而且,ode @ $ \ infty $ virect with advoore字段,$$ \ bar f_ \ idty(\ theta):= \ lim_ {r \ to \ infty} r ^ { - 1} \ bar f(r \ theta)\ ,, \ qquad \ theta \ in \ re ^ d,$$是渐近稳定的。主要贡献总结如下:(i)如果$ \ phi $是几何ergodic,则序列$ \ theta $是融合的,并且在$ f $兼容兼容的界限。剩余的结果是在马尔可夫链的更强大假设下建立:Donsker-varadhan Lyapunov漂移条件的稍微弱版本(DV3)。 (ii)为联合过程$ \ {\ theta_n,\ phi_n \} $构建Lyapunov函数,这意味着$ \ {\ theta_n \} $ in $ l_4 $的融合。 (iii)建立了功能性CLT,以及归一化误差$ z_n:=(\ theta_n- \ theta ^ *)/ \ sqrt {\ alpha_n} $的常规一维CLT。时刻界限结合了CLT暗示了归一化协方差的收敛,$$ \ lim_ {n \ to \ infty} e [z_n z_n ^ t] = \ sigma_ \ theta,$$在$ \ sigma_ \ theta $ where asbptotic协方差出现在CLT中。 (iv)提供了一个例子,其中马尔可夫链$ \ phi $是几何ergodic,但它不满足(dv3)。虽然算法收敛,但第二个时刻是无限的。
translated by 谷歌翻译
随机近似算法是一种广泛使用的概率方法,用于查找矢量值构造的零,仅当函数的嘈杂测量值可用时。在迄今为止的文献中,可以区分“同步”更新,从而每次更新当前猜测的每个组件,以及'“同步”更新,从而更新一个组件。原则上,也可以在每次瞬间更新一些但不是全部的$ \ theta_t $的组件,这些组件可能被称为“批处理异步随机近似”(BASA)。另外,还可以在使用“本地”时钟与“全局”时钟之间有所区别。在本文中,我们提出了一种统一的配方异步随机近似(BASA)算法,并开发了一种通用方法,以证明这种算法会融合,而与使用是否使用了全球或本地时钟。这些融合证明利用了比现有结果较弱的假设。例如:当使用本地时钟时,现有的收敛证明要求测量噪声是I.I.D序列。在这里,假定测量误差形成了martingale差异序列。同样,迄今为止的所有结果都假设随机步骤大小满足了罗宾斯 - 单月条件的概率类似物。我们通过基础马尔可夫流程的不可约性的纯粹确定性条件代替了这一点。作为加固学习的特定应用,我们介绍了时间差算法$ td(0)$的``批次''版本,以进行价值迭代,以及$ q $ - 学习算法,以查找最佳操作值函数,还允许使用本地时钟而不是全局时钟。在所有情况下,我们在温和的条件下都比现有文献建立了这些算法的融合。
translated by 谷歌翻译
在这项工作中,我们提供了一种基本的统一收敛定理,用于得出一系列随机优化方法的预期和几乎确定的收敛结果。我们的统一定理仅需要验证几种代表性条件,并且不适合任何特定算法。作为直接应用,我们在更一般的设置下恢复了随机梯度方法(SGD)和随机改组(RR)的预期收敛结果。此外,我们为非滑动非convex优化问题的随机近端梯度方法(Prox-SGD)和基于随机模型的方法(SMM)建立了新的预期和几乎确定的收敛结果。这些应用程序表明,我们的统一定理为广泛的随机优化方法提供了插件类型的收敛分析和强大的收敛保证。
translated by 谷歌翻译
梯度时间差(梯度TD)算法是用于钢筋学习中的政策评估的流行随机近似(SA)算法。在这里,我们考虑具有额外的重球动量项的梯度TD算法,并提供阶梯尺寸和动量参数的选择,确保这些算法的几乎肯定偶然的趋势。在这样做时,我们将沉重的球梯度TD分解为三个单独的迭代,具有不同的步骤尺寸。我们首先使用当前文献的结果进行一次时间尺度SA设置分析这些迭代。但是,一时间时间形案例是限制性的,并且可以通过查看迭代的三次时间尺度分解来提供更一般的分析。在此过程中,我们提供了一般三次Timescale SA的稳定性和融合的第一个条件。然后,我们证明了沉重的球梯度TD算法使用我们的三个时间尺度SA分析来收敛。最后,我们在标准RL问题上评估了这些算法,并报告了Vanilla算法的性能提高。
translated by 谷歌翻译
许多重要的学习算法,例如随机梯度方法,通常被部署以解决Riemannian歧管上的非线性问题。在这些应用中,我们提出了一个概括和扩展Robbins和Monro的精确随机近似框架的Riemannian算法家族。与他们的欧几里得对应物相比,由于歧管上缺乏全局线性结构,Riemannian迭代算法的理解要少得多。我们通过引入扩展的费米坐标框架来克服这一困难,该框架使我们能够绘制拟议的Riemannian Robbins-Monro(RRM)算法类别的渐近行为,以在基础歧管上非常轻微的假设下,在相关的确定性动力学系统下的算法。这样一来,我们提供了一个几乎肯定的收敛结果的一般模板,该模板镜像并扩展了欧几里得robbins-Monro方案的现有理论,尽管其分析要大得多,需要大量的新几何成分。我们通过使用该框架来建立基于回缩的类似物的融合来展示提出的RRM框架的灵活性,以解决最小化问题和游戏的流行乐观 /额外梯度方法,并且我们为其收敛提供了统一的处理。
translated by 谷歌翻译
本文考虑由马尔可夫噪声和一般共识型交互驱动的新型多代理线性随机近似算法,其中每个代理根据其本地随机近似过程演变,这取决于其邻居的信息。代理中的互连结构由时变的指向图描述。虽然已经研究了代理中的互连(至少在期望)中描述了基于协商的随机近似算法的收敛性,但是当互连矩阵简单地是随机时的情况,较少是已知的。对于任何相关的相互作用矩阵是随机的均匀强连接的图形序列,纸张导出平均误差上的有限时间界限,定义为算法从相关常微分方程的独特平衡点偏差。对于互连矩阵是随机的互连矩阵的情况,平衡点可以是在没有通信的情况下所有代理的局部均衡的任何未指明的凸起组合。考虑具有恒定和时差阶梯尺寸的情况。在需要凸起组合的情况下,任何对相邻代理之间的直平均值和相互作用可以是单向的,因此纸张不能以分布式方式实现双随机矩阵,提出了一种推挽和型分布式随机近似算法,通过利用随机矩阵的共识型算法利用分析和发展推送算法的新颖性,为时变梯度尺寸案例提供了其有限时间绑定。
translated by 谷歌翻译
我们为研究通过将噪声注入隐藏状态而训练的经常性神经网络(RNN)提供了一般框架。具体地,我们考虑RNN,其可以被视为由输入数据驱动的随机微分方程的离散化。该框架允许我们通过在小噪声制度中导出近似显式规范器来研究一般噪声注入方案的隐式正则化效果。我们发现,在合理的假设下,这种隐含的正规化促进了更平坦的最小值;它偏向具有更稳定动态的模型;并且,在分类任务中,它有利于具有较大分类余量的模型。获得了全局稳定性的充分条件,突出了随机稳定的现象,其中噪音注入可以在训练期间提高稳定性。我们的理论得到了经验结果支持,证明RNN对各种输入扰动具有改善的鲁棒性。
translated by 谷歌翻译
我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱(RR)方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用,但其会聚行为仅在几个有限的环境中被理解。在本文中,在众所周知的Kurdyka-LojasiewiCz(KL)不等式下,我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果,即,RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0,\ FRAC12] $以$ [0,\ FRAC12] $时,收敛率以$ \ mathcal {o}(t ^ { - 1})$的速率计算,以$ t $ counting迭代号。当KL指数属于$(\ FRAC12,1)$时,我们的派生收敛速率是FORM $ \ MATHCAL {O}(T ^ { - Q})$,$ Q \ IN(0,1)$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析,这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想,这些框架是独立的兴趣。作为本框架的直接应用,我们还建立了类似的强极限点收敛结果,为重组的近端点法。
translated by 谷歌翻译
我们开发了一个统一的随机近似框架,用于分析游戏中多学院在线学习的长期行为。我们的框架基于“原始偶尔”,镜像的Robbins-Monro(MRM)模板,该模板涵盖了各种各样的流行游戏理论学习算法(梯度方法,乐观的变体,Exp3算法,用于基于付费的反馈,在有限游戏等中)。除了提供这些算法的综合视图外,提出的MRM蓝图还使我们能够在连续和有限的游戏中获得渐近和有限时间的广泛新收敛结果。
translated by 谷歌翻译
随机近似(SA)和随机梯度下降(SGD)算法是现代机器学习算法的工作马。由于快速收敛行为,它们在实践中优选它们的持续步骤变体。然而,恒定的步骤随机迭代算法不与最佳解决方案渐近地收敛,而是具有静止分布,这通常不能被分析表征。在这项工作中,我们研究了适当缩放的静止分布的渐近行为,在恒定步骤零的限制中。具体而言,我们考虑以下三种设置:(1)SGD算法,具有平滑且强的凸面物镜,(2)涉及Hurwitz矩阵的线性SA算法,和(3)涉及收缩算子的非线性SA算法。当迭代以$ 1 / \ sqrt {\ alpha} $缩放时,其中$ \ alpha $是常量的步骤,我们表明限制缩放静止分布是整体方程的解决方案。在该等式上的唯一性假设(可以在某些设置中除去),我们进一步表征了作为高斯分布的限制分布,其协方差矩阵是合适的Lyapunov方程的独特解决方案。对于超出这些情况的SA算法,我们的数值实验表明,与中央极限定理类型结果不同:(1)缩放因子不需要为$ 1 / \ sqrt {\ alpha} $,并且(2)限制分布不需要高斯。基于数值研究,我们提出了一种确定右缩放因子的公式,并与近似随机微分方程的欧拉 - 玛赖山离散化方案进行富有洞察力的连接。
translated by 谷歌翻译
在本文中,我们提出了一种随机梯度算法,用于最大程度地减少对嘈杂成本样本的期望,而对于任何给定参数,则只观察到后者。我们的算法采用带有随机扰动的梯度估计方案,该方案是使用单位球体截断的cauchy分布形成的。我们分析了提出的梯度估计量的偏差和方差。发现我们的算法在目标函数是非凸且参数维度较高的情况下特别有用。从渐近收敛分析中,我们确定我们的算法几乎可以肯定地收敛到目标函数的固定点并获得渐近收敛速率。我们还表明,我们的算法避免了不稳定的平衡,这意味着与局部最小值的融合。此外,我们对我们的算法进行非反应收敛分析。特别是,我们在这里建立了一个非质子绑定,用于寻找非convex目标函数的$ \ epsilon $ stationary点。最后,我们通过模拟以数字方式证明我们的算法的性能在一些非凸面设置上优于GSF,SPSA和RDSA,并进一步验证其在凸(NOISY)目标上的性能。
translated by 谷歌翻译
我们分析了一个随机近似算法的决策依赖性问题,其中算法沿迭代序列演变的数据分布。此类问题的主要示例出现在表演预测及其多人游戏扩展中。我们表明,在温和的假设下,算法的平均迭代和溶液之间的偏差在渐近正常上,协方差很好地解除了梯度噪声和分布移位的影响。此外,在H \'Ajek和Le Cam的工作中,我们表明该算法的渐近性能是本地最小的最佳选择。
translated by 谷歌翻译
The implicit stochastic gradient descent (ISGD), a proximal version of SGD, is gaining interest in the literature due to its stability over (explicit) SGD. In this paper, we conduct an in-depth analysis of the two modes of ISGD for smooth convex functions, namely proximal Robbins-Monro (proxRM) and proximal Poylak-Ruppert (proxPR) procedures, for their use in statistical inference on model parameters. Specifically, we derive nonasymptotic point estimation error bounds of both proxRM and proxPR iterates and their limiting distributions, and propose on-line estimators of their asymptotic covariance matrices that require only a single run of ISGD. The latter estimators are used to construct valid confidence intervals for the model parameters. Our analysis is free of the generalized linear model assumption that has limited the preceding analyses, and employs feasible procedures. Our on-line covariance matrix estimators appear to be the first of this kind in the ISGD literature.* Equal contribution 1 Kakao Entertainment Corp.
translated by 谷歌翻译
学习来自数据样本的给定策略的价值函数是强化学习中的重要问题。TD($ \ lambda $)是一个流行的算法,可以解决这个问题。但是,分配给不同$ n $ -step的权重在参数$ \ lambda $控制的TD($ \ lambda $)中返回,随着$ n $的增加,呈指数级增长。在本文中,我们展示了一个$ \ lambda $ -schedule程序,将TD($ \ lambda $)算法概括为参数$ \ lambda $的情况随时间步骤而异。这允许通过选择序列$ \ {\ lambda_t \} $ \ {t \ geq 1} $来指定重量分配中的灵活性,即,用户可以指定分配给不同$ n $ -step返回的权重。基于此过程,我们提出了一个on-police算法 - TD($ \ lambda $) - 计划和两个offoly almorithms - gtd($ \ lambda $) - 计划和tdc($ \ lambda $) - 计划,分别。我们提供了一般马尔可夫噪声框架下所有三种算法的几乎肯定融合的证据。
translated by 谷歌翻译
在机器学习中,随机梯度下降(SGD)被广泛部署到使用具有同样复杂噪声模型的高度非凸目标的训练模型。不幸的是,SGD理论通常会做出限制性的假设,这些假设无法捕获实际问题的非跨性别,并且几乎完全忽略了实践中存在的复杂噪声模型。在这项工作中,我们在这一缺点上取得了长足的进步。首先,我们确定SGD的迭代将在几乎任意的非概念和噪声模型下全球收敛到固定点或分歧。在对文献中当前假设的非跨性别和噪声模型的共同行为的限制性稍微限制性的假设下,我们表明,即使迭代分歧,目标函数也无法分歧。由于我们的结果,可以将SGD应用于更大范围的随机优化问题,并在其全球收敛行为和稳定性上充满信心。
translated by 谷歌翻译
找到Reset中的参数的最佳配置是一个非凸显最小化问题,但一阶方法尽管如此,找到了过度分辨率制度的全局最优。通过将Reset的训练过程转化为梯度流部分微分方程(PDE)和检查该限制过程的收敛性能,我们研究了这种现象。假设激活函数为2美元 - 最佳或部分$ 1 $-homerence;正则Relu满足后一种条件。我们表明,如果Reset足够大,则深度和宽度根据代数上的准确性和置信水平,一阶优化方法可以找到适合培训数据的全局最小化器。
translated by 谷歌翻译
几种广泛使用的一阶马鞍点优化方法将衍生天然衍生时的梯度下降成本(GDA)方法的相同连续时间常分等式(ODE)。然而,即使在简单的双线性游戏上,它们的收敛性也很差异。我们使用一种来自流体动力学的技术,称为高分辨率微分方程(HRDE)来设计几个骑马点优化方法的杂散。在双线性游戏中,派生HRDE的收敛性属性对应于起始离散方法的收敛性。使用这些技术,我们表明乐观梯度下降的HRDE具有最后迭代单调变分不等式的迭代收敛。据我们所知,这是第一个连续时间动态,用于收敛此类常规设置。此外,我们提供了ogda方法的最佳迭代收敛的速率,仅依靠单调运营商的一阶平滑度。
translated by 谷歌翻译
在一个拟合训练数据的深度神经网络(NN)中找到参数是一个非渗透优化问题,但基本的一阶优化方法(梯度下降)在许多实际情况下,具有完美拟合(零损失)的全局优化器。我们在限制性制度中检查残留神经网络(Reset)的剩余神经网络(Reset)的情况的这种现象,其中每个层(宽度)的层数(深度)和权重的数量均转到无穷大。首先,我们使用平均场限制参数来证明参数训练的梯度下降成为概率分布的梯度流,其特征在于大NN限制中的部分微分方程(PDE)。接下来,我们表明,在某些假设下,PDE的解决方案在训练时间内收敛到零损失解决方案。这些结果表明,如果Reset足够大,则reset的培训给出了近零损失。我们给出了减少给定阈值以下低于给定阈值的损失所需的深度和宽度的估计值。
translated by 谷歌翻译
We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.
translated by 谷歌翻译