We present in this paper a family of generalized simultaneous perturbation stochastic approximation (G-SPSA) estimators that estimate the gradient of the objective using noisy function measurements, but where the number of function measurements and the form of the gradient estimator is guided by the desired estimator bias. In particular, estimators with more function measurements are seen to result in lower bias. We provide an analysis of convergence of the generalized SPSA algorithm, and point to possible future directions.
translated by 谷歌翻译
在本文中,我们提出了一种随机梯度算法,用于最大程度地减少对嘈杂成本样本的期望,而对于任何给定参数,则只观察到后者。我们的算法采用带有随机扰动的梯度估计方案,该方案是使用单位球体截断的cauchy分布形成的。我们分析了提出的梯度估计量的偏差和方差。发现我们的算法在目标函数是非凸且参数维度较高的情况下特别有用。从渐近收敛分析中,我们确定我们的算法几乎可以肯定地收敛到目标函数的固定点并获得渐近收敛速率。我们还表明,我们的算法避免了不稳定的平衡,这意味着与局部最小值的融合。此外,我们对我们的算法进行非反应收敛分析。特别是,我们在这里建立了一个非质子绑定,用于寻找非convex目标函数的$ \ epsilon $ stationary点。最后,我们通过模拟以数字方式证明我们的算法的性能在一些非凸面设置上优于GSF,SPSA和RDSA,并进一步验证其在凸(NOISY)目标上的性能。
translated by 谷歌翻译
基于实用的缺点风险(UBSR)是一种风险指标,越来越受到金融应用中的流行,由于它享有的某些理想的属性。我们考虑在递归设置中估算UBSR的问题,其中来自潜在损耗分布的样本是一次性的。我们将UBSR估计问题作为根发现问题,并提出了基于随机近似的估计方案。我们在样本数量的估计误差中获得了非渐近界。我们还考虑在随机变量的参数化类中的UBSR优化问题。我们提出了一种用于UBSR优化的随机梯度下降算法,并导出其收敛性的非渐近界。
translated by 谷歌翻译
在关键的科学应用中,随着随机梯度算法培训的统计机器学习模型越来越多地部署。然而,在若干这样的应用中计算随机梯度是高度昂贵的甚至不可能。在这种情况下,使用衍生物或零顺序算法。迄今为止在统计机器学习文献中没有充分解决的一个重要问题是用实用又严谨的推理能力装备随机零顺序算法,以便我们不仅具有点估计或预测,而且还通过信心量化相关的不确定性间隔或集合。在这方面,在这项工作中,我们首先建立一个用于Polyak-ruppert平均随机零级梯度算法的中央极限定理。然后,我们提供出现在中央极限定理中的渐变协方差矩阵的在线估算,从而提供用于在零顺序设置中为参数估计(或预测)构建渐近有效的置信度(或间隔)的实际过程。
translated by 谷歌翻译
在本文中,我们通过随机搜索方向的Kiefer-Wolfowitz算法调查了随机优化问题模型参数的统计参数问题。我们首先介绍了Polyak-ruppert-veriving型Kiefer-Wolfowitz(AKW)估计器的渐近分布,其渐近协方差矩阵取决于函数查询复杂性和搜索方向的分布。分布结果反映了统计效率与函数查询复杂性之间的权衡。我们进一步分析了随机搜索方向的选择来最小化渐变协方差矩阵,并得出结论,最佳搜索方向取决于相对于Fisher信息矩阵的不同摘要统计的最优标准。根据渐近分布结果,我们通过提供两个有效置信区间的结构进行一次通过统计推理。我们提供了验证我们的理论结果的数值实验,并通过程序的实际效果。
translated by 谷歌翻译
我们考虑在估计涉及依赖参数的高维滋扰的估计方程中估计一个低维参数。一个中心示例是因果推理中(局部)分位数处理效应((L)QTE)的有效估计方程,涉及在分位数以估计的分位数评估的协方差累积分布函数。借记机学习(DML)是一种使用灵活的机器学习方法估算高维滋扰的数据分解方法,但是将其应用于参数依赖性滋扰的问题是不切实际的。对于(L)QTE,DML要求我们学习整个协变量累积分布函数。相反,我们提出了局部偏见的机器学习(LDML),该学习避免了这一繁重的步骤,并且只需要对参数进行一次初始粗糙猜测而估算烦恼。对于(L)QTE,LDML仅涉及学习两个回归功能,这是机器学习方法的标准任务。我们证明,在松弛速率条件下,我们的估计量与使用未知的真实滋扰的不可行的估计器具有相同的有利渐近行为。因此,LDML值得注意的是,当我们必须控制许多协变量和/或灵活的关系时,如(l)QTES在((l)QTES)中,实际上可以有效地估算重要数量,例如(l)QTES。
translated by 谷歌翻译
加权最近的邻居(WNN)估计量通常用作平均回归估计的灵活且易于实现的非参数工具。袋装技术是一种优雅的方式,可以自动生成最近邻居的重量的WNN估计器;我们将最终的估计量命名为分布最近的邻居(DNN),以便于参考。然而,这种估计器缺乏分布结果,从而将其应用于统计推断。此外,当平均回归函数具有高阶平滑度时,DNN无法达到最佳的非参数收敛率,这主要是由于偏差问题。在这项工作中,我们对DNN提供了深入的技术分析,我们建议通过线性将两个DNN估计量与不同的子采样量表进行线性相结合,从而提出了DNN估计量的偏差方法,从而导致新型的两尺度DNN(TDNN(TDNN) )估计器。两尺度的DNN估计量具有等效的WNN表示,重量承认明确形式,有些则是负面的。我们证明,由于使用负权重,两尺度DNN估计器在四阶平滑度条件下估算回归函数时享有最佳的非参数收敛速率。我们进一步超出了估计,并确定DNN和两个规模的DNN均无渐进地正常,因为亚次采样量表和样本量差异到无穷大。对于实际实施,我们还使用二尺度DNN的Jacknife和Bootstrap技术提供方差估计器和分配估计器。可以利用这些估计器来构建有效的置信区间,以用于回归函数的非参数推断。建议的两尺度DNN方法的理论结果和吸引人的有限样本性能用几个数值示例说明了。
translated by 谷歌翻译
我们通过失真风险度量(DRM)解决了风险敏感的增强学习(RL)环境中控制问题的问题。我们提出了策略梯度算法,该算法最大程度地提高了累积奖励的DRM,以在政策和损失的RL设置中进行情节的马尔可夫决策过程。我们采用两种不同的方法来设计政策梯度算法。在第一种方法中,我们得出了构成DRM目标的策略梯度定理的变体,并与基于可能的梯度估计方案结合使用该定理。在第二种方法中,我们从累积奖励的经验分布中估算了DRM,并使用此估计方案以及基于功能的平滑梯度估计方案。对于使用这两种方法的策略梯度算法,我们得出了非反应界限,这些界限将收敛建立到DRM目标的近似固定点。
translated by 谷歌翻译
The implicit stochastic gradient descent (ISGD), a proximal version of SGD, is gaining interest in the literature due to its stability over (explicit) SGD. In this paper, we conduct an in-depth analysis of the two modes of ISGD for smooth convex functions, namely proximal Robbins-Monro (proxRM) and proximal Poylak-Ruppert (proxPR) procedures, for their use in statistical inference on model parameters. Specifically, we derive nonasymptotic point estimation error bounds of both proxRM and proxPR iterates and their limiting distributions, and propose on-line estimators of their asymptotic covariance matrices that require only a single run of ISGD. The latter estimators are used to construct valid confidence intervals for the model parameters. Our analysis is free of the generalized linear model assumption that has limited the preceding analyses, and employs feasible procedures. Our on-line covariance matrix estimators appear to be the first of this kind in the ISGD literature.* Equal contribution 1 Kakao Entertainment Corp.
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.
translated by 谷歌翻译
本文涉及由马尔可夫噪声驱动的随机近似的收敛和渐近统计:$$ \ theta_ {n + 1} = \ theta_n + \ alpha_ {n + 1} f(\ theta_n,\ phi_ {n + 1})\, ,\ quad n \ ge 0,$$,其中每个$ \ theta_n \ in \ re ^ d $,$ \ {\ phi_n \} $是一般状态空间x上的马尔可夫链,静止分配$ \ pi $和$ f:\ re ^ d \ times \ text {x} \ to \ re ^ d $。除了在$ f $的标准lipschitz边界,以及消失的步骤大小序列$ \ {\ alpha_n \ \} $的条件外,假设相关ode是全局渐近稳定的静止点表示$ \ theta ^ * $ ,其中$ \ bar f(\ theta)= e [f(\ theta,\ phi)] $ with $ \ phi \ sim \ pi $。而且,ode @ $ \ infty $ virect with advoore字段,$$ \ bar f_ \ idty(\ theta):= \ lim_ {r \ to \ infty} r ^ { - 1} \ bar f(r \ theta)\ ,, \ qquad \ theta \ in \ re ^ d,$$是渐近稳定的。主要贡献总结如下:(i)如果$ \ phi $是几何ergodic,则序列$ \ theta $是融合的,并且在$ f $兼容兼容的界限。剩余的结果是在马尔可夫链的更强大假设下建立:Donsker-varadhan Lyapunov漂移条件的稍微弱版本(DV3)。 (ii)为联合过程$ \ {\ theta_n,\ phi_n \} $构建Lyapunov函数,这意味着$ \ {\ theta_n \} $ in $ l_4 $的融合。 (iii)建立了功能性CLT,以及归一化误差$ z_n:=(\ theta_n- \ theta ^ *)/ \ sqrt {\ alpha_n} $的常规一维CLT。时刻界限结合了CLT暗示了归一化协方差的收敛,$$ \ lim_ {n \ to \ infty} e [z_n z_n ^ t] = \ sigma_ \ theta,$$在$ \ sigma_ \ theta $ where asbptotic协方差出现在CLT中。 (iv)提供了一个例子,其中马尔可夫链$ \ phi $是几何ergodic,但它不满足(dv3)。虽然算法收敛,但第二个时刻是无限的。
translated by 谷歌翻译
在非参数回归设置中,我们构建了一个估计器,该估计器是一个连续的函数,以高概率插值数据点,同时在H \ h \'较大级别的平均平方风险下达到最小的最佳速率,以适应未知的平滑度。
translated by 谷歌翻译
我们开发了对对抗估计量(“ A-估计器”)的渐近理论。它们将最大样品型估计量(“ M-估计器”)推广为平均目标,以通过某些参数最大化,而其他参数则最小化。该课程涵盖了瞬间的瞬间通用方法,生成的对抗网络以及机器学习和计量经济学方面的最新建议。在这些示例中,研究人员指出,原则上可以使用哪些方面进行估计,并且对手学习如何最佳地强调它们。我们在重点和部分识别下得出A估计剂的收敛速率,以及其参数功能的正态性。未知功能可以通过筛子(例如深神经网络)近似,我们为此提供简化的低级条件。作为推论,我们获得了神经网络估计剂的正态性,克服了文献先前确定的技术问题。我们的理论产生了有关各种A估计器的新成果,为它们在最近的应用中的成功提供了直觉和正式的理由。
translated by 谷歌翻译
在分布式学习中,中央服务器根据持有本地数据样本的节点提供的更新来训练模型。在一个或多个发送不正确信息(拜占庭对手)的恶意服务器的情况下,用于模型训练的标准算法(例如随机梯度下降(SGD))无法收敛。在本文中,我们提出了Blanchard等人最初提出的通用拜占庭弹性SGD方法的简化收敛理论。[Neurips 2017]。与现有分析相比,我们在(可能是非convex)目标函数(可能是非凸)的标准假设和随机梯度上的灵活假设上表明了收敛到固定点的固定点。
translated by 谷歌翻译
我们解决了如何在没有严格缩放条件的情况下实现分布式分数回归中最佳推断的问题。由于分位数回归(QR)损失函数的非平滑性质,这是具有挑战性的,这使现有方法的使用无效。难度通过应用于本地(每个数据源)和全局目标函数的双光滑方法解决。尽管依赖局部和全球平滑参数的精致组合,但分位数回归模型是完全参数的,从而促进了解释。在低维度中,我们为顺序定义的分布式QR估计器建立了有限样本的理论框架。这揭示了通信成本和统计错误之间的权衡。我们进一步讨论并比较了基于WALD和得分型测试和重采样技术的反转的几种替代置信集结构,并详细介绍了对更极端分数系数有效的改进。在高维度中,采用了一个稀疏的框架,其中提出的双滑目标功能与$ \ ell_1 $ -penalty相辅相成。我们表明,相应的分布式QR估计器在近乎恒定的通信回合之后达到了全球收敛率。一项彻底的模拟研究进一步阐明了我们的发现。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
随机多变最小化 - 最小化(SMM)是大多数变化最小化的经典原则的在线延伸,这包括采样I.I.D。来自固定数据分布的数据点,并最小化递归定义的主函数的主要替代。在本文中,我们引入了随机块大大化 - 最小化,其中替代品现在只能块多凸,在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求,我们的框架在内提供了更广泛的适用性,包括在线CANDECOMP / PARAFAC(CP)字典学习,并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析,我们在可能的数据流下派生,放松标准i.i.d。对数据样本的假设。我们表明,所提出的算法几乎肯定会收敛于速率$ O((\ log n)^ {1+ \ eps} / n ^ {1/2})$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O((\ log n)^ {1+ \ eps} / n ^ {1/4})$的预期丢失函数,其中$ n $表示处理的数据样本数。在一些额外的假设下,后一趋同率可以提高到$ o((\ log n)^ {1+ \ eps} / n ^ {1/2})$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。
translated by 谷歌翻译
我们提出了一种基于优化的基于优化的框架,用于计算差异私有M估算器以及构建差分私立置信区的新方法。首先,我们表明稳健的统计数据可以与嘈杂的梯度下降或嘈杂的牛顿方法结合使用,以便分别获得具有全局线性或二次收敛的最佳私人估算。我们在局部强大的凸起和自我协调下建立当地和全球融合保障,表明我们的私人估算变为对非私人M估计的几乎最佳附近的高概率。其次,我们通过构建我们私有M估计的渐近方差的差异私有估算来解决参数化推断的问题。这自然导致近​​似枢轴统计,用于构建置信区并进行假设检测。我们展示了偏置校正的有效性,以提高模拟中的小样本实证性能。我们说明了我们在若干数值例子中的方法的好处。
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译