在多代理加固学习(MARL)中,多个代理商与普通环境相互作用,也与彼此相互作用,以解决连续决策中的共同问题。它在博彩,机器人,金融等中具有广泛的应用。在这项工作中,我们推导了一种在Marl中有用的分布式非线性随机近似方案的迭代对数的新规定。特别是,我们的结果描述了几乎每个样本路径上的收敛速度,其中算法会聚。这一结果是其分布式设置中的第一类,并提供比现有的更深层次的见解,它只讨论预期的收敛率或CLT感觉。重要的是,我们的结果在显着较弱的假设下保持:八卦矩阵都不需要是双随机的,也不是Spandsize Scalual。作为一个应用程序,我们表明,对于使用$ \ gamma \ In(0,1)中的步骤中的Spectize $ n ^ { - \ gamma} $,其中具有线性函数近似的分布式Td(0)算法具有$的收敛速度o(\ sqrt {n ^ { - \ gamma} \ ln n})$ as;对于$ 1 / n $类型的步骤,同样是$ o(\ sqrt {n ^ { - 1} \ ln \ ln n})$ a ..这些衰减率不依赖于描绘不同剂中相互作用的图表。
translated by 谷歌翻译
本文考虑由马尔可夫噪声和一般共识型交互驱动的新型多代理线性随机近似算法,其中每个代理根据其本地随机近似过程演变,这取决于其邻居的信息。代理中的互连结构由时变的指向图描述。虽然已经研究了代理中的互连(至少在期望)中描述了基于协商的随机近似算法的收敛性,但是当互连矩阵简单地是随机时的情况,较少是已知的。对于任何相关的相互作用矩阵是随机的均匀强连接的图形序列,纸张导出平均误差上的有限时间界限,定义为算法从相关常微分方程的独特平衡点偏差。对于互连矩阵是随机的互连矩阵的情况,平衡点可以是在没有通信的情况下所有代理的局部均衡的任何未指明的凸起组合。考虑具有恒定和时差阶梯尺寸的情况。在需要凸起组合的情况下,任何对相邻代理之间的直平均值和相互作用可以是单向的,因此纸张不能以分布式方式实现双随机矩阵,提出了一种推挽和型分布式随机近似算法,通过利用随机矩阵的共识型算法利用分析和发展推送算法的新颖性,为时变梯度尺寸案例提供了其有限时间绑定。
translated by 谷歌翻译
我们研究了在随机代理网络中的多功能加固学习(MARL)。目标是找到最大化(折扣)全球奖励的本地化政策。通常,可扩展性在此设置中是一个挑战,因为全局状态/动作空间的大小可以是代理的数量的指数。在依赖性是静态,固定和局部,例如,在固定的,时不变的底层图形的邻居之间,才知道可扩展算法。在这项工作中,我们提出了一个可扩展的演员评论家框架,适用于依赖关系可以是非本地和随机的设置,并提供有限误差绑定,显示了收敛速度如何取决于网络中的信息速度。另外,作为我们分析的副产物,我们获得了一般随机近似方案的新型有限时间收敛结果,以及具有状态聚合的时间差异学习,其超出了网络系统中的Marl的设置。
translated by 谷歌翻译
In large-scale machine learning, recent works have studied the effects of compressing gradients in stochastic optimization in order to alleviate the communication bottleneck. These works have collectively revealed that stochastic gradient descent (SGD) is robust to structured perturbations such as quantization, sparsification, and delays. Perhaps surprisingly, despite the surge of interest in large-scale, multi-agent reinforcement learning, almost nothing is known about the analogous question: Are common reinforcement learning (RL) algorithms also robust to similar perturbations? In this paper, we investigate this question by studying a variant of the classical temporal difference (TD) learning algorithm with a perturbed update direction, where a general compression operator is used to model the perturbation. Our main technical contribution is to show that compressed TD algorithms, coupled with an error-feedback mechanism used widely in optimization, exhibit the same non-asymptotic theoretical guarantees as their SGD counterparts. We then extend our results significantly to nonlinear stochastic approximation algorithms and multi-agent settings. In particular, we prove that for multi-agent TD learning, one can achieve linear convergence speedups in the number of agents while communicating just $\tilde{O}(1)$ bits per agent at each time step. Our work is the first to provide finite-time results in RL that account for general compression operators and error-feedback in tandem with linear function approximation and Markovian sampling. Our analysis hinges on studying the drift of a novel Lyapunov function that captures the dynamics of a memory variable introduced by error feedback.
translated by 谷歌翻译
我们在$ \ Gamma $ -diScounted MDP中使用Polyak-Ruppert平均(A.K.A.,平均Q-Leaning)进行同步Q学习。我们为平均迭代$ \ bar {\ boldsymbol {q}}建立渐近常态。此外,我们展示$ \ bar {\ boldsymbol {q}} _ t $实际上是一个常规的渐近线性(RAL)估计值,用于最佳q-value函数$ \ boldsymbol {q} ^ * $与最有效的影响功能。它意味着平均Q学习迭代在所有RAL估算器之间具有最小的渐近方差。此外,我们为$ \ ell _ {\ infty} $错误$ \ mathbb {e} \ | \ | \ bar {\ boldsymbol {q}} _ t- \ boldsymbol {q} ^ *} ^ *} _ {\ idty} $,显示它与实例相关的下限以及最佳最低限度复杂性下限。作为一个副产品,我们发现Bellman噪音具有var-gaussian坐标,具有方差$ \ mathcal {o}((1- \ gamma)^ {-1})$而不是现行$ \ mathcal {o}((1- \ Gamma)^ { - 2})$根据标准界限奖励假设。子高斯结果有可能提高许多R1算法的样本复杂性。简而言之,我们的理论分析显示平均Q倾斜在统计上有效。
translated by 谷歌翻译
We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.
translated by 谷歌翻译
我们在具有代理网络的环境中研究强化学习(RL),其状态和行动以当地的方式交互,其中目标是找到本地化策略,以便最大化(折扣)全局奖励。此设置中的一个根本挑战是状态 - 行动空间大小在代理的数量中呈指数级级别,呈现大网络难以解决的问题。在本文中,我们提出了一个可扩展的演员评论家(SAC)框架,用于利用网络结构并找到一个$ O(\ Rho ^ {\ Kappa})$ - 近似于某些目标的静止点的近似$ \ rho \ in(0,1)$,复杂性,与网络最大的$ \ kappa $-hop邻居的本地状态动作空间大小缩放。我们使用无线通信,流行和流量的示例说明了我们的模型和方法。
translated by 谷歌翻译
在标准数据分析框架中,首先收集数据(全部一次),然后进行数据分析。此外,通常认为数据生成过程是外源性的。当数据分析师对数据的生成方式没有影响时,这种方法是自然的。但是,数字技术的进步使公司促进了从数据中学习并同时做出决策。随着这些决定生成新数据,数据分析师(业务经理或算法)也成为数据生成器。这种相互作用会产生一种新型的偏见 - 增强偏见 - 加剧了静态数据分析中的内生性问题。因果推理技术应该被纳入加强学习中以解决此类问题。
translated by 谷歌翻译
使用Martingale浓度不平等,浓度界限为“从时间到$ n_0 $ on”是针对带有承包图的随机近似算法以及Martingale差异和Markov噪声的。这些应用于增强学习算法,尤其是异步Q学习和TD(0)。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
在本文中,我们在表格设置中建立了违法演员批评算法的全球最优性和收敛速度,而不使用密度比来校正行为政策的状态分布与目标政策之间的差异。我们的工作超出了现有的工作原理,最佳的策略梯度方法中的现有工作中使用确切的策略渐变来更新策略参数时,我们使用近似和随机更新步骤。我们的更新步骤不是渐变更新,因为我们不使用密度比以纠正状态分布,这与从业者做得好。我们的更新是近似的,因为我们使用学习的评论家而不是真正的价值函数。我们的更新是随机的,因为在每个步骤中,更新仅为当前状态操作对完成。此外,我们在分析中删除了现有作品的几个限制性假设。我们的工作中的核心是基于其均匀收缩性能的时源性Markov链中的通用随机近似算法的有限样本分析。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
我们应用随机顺序二次编程(STOSQP)算法来求解受约束的非线性优化问题,在该问题是随机的,并且约束是确定性的。我们研究了一个完全随机的设置,其中每次迭代中只有一个样本可用于估计物镜的梯度和黑森州。我们允许stosqp选择一个随机架子$ \ bar {\ alpha} _t $适应性,使得$ \ beta_t \ leq \ leq \ bar {\ alpha} _t \ leq \ leq \ beta_t+beta_t+\ chi_t+\ chi_t $,wither = o(\ beta_t)$是预定的确定性序列。我们还允许STOSQP通过随机迭代求解器(例如,使用草图和项目方法)求解牛顿系统。而且我们不需要不精确的牛顿方向的近似误差即可消失。对于这个一般的STOSQP框架,我们建立了其最后一次迭代的渐近收敛速率,最差的案例迭代复杂性是副产品。我们执行统计推断。特别是,有了适当的衰减$ \ beta_t,\ chi_t $,我们表明:(i)STOSQP方案最多可以采用$ o(1/\ epsilon^4)$ iterations $ iterations $ iTerations以实现$ \ epsilon $ -Stationarity; (ii)几乎毫无疑问,$ \ |(x_t -x^\ star,\ lambda_t- \ lambda^\ star)\ | | = o(\ sqrt {\ beta_t \ log(1/\ beta_t)})+o(\ chi_t/\ beta_t)$,其中$(x_t,\ lambda_t)$是primal-dimal-dimal-dialal-dialal-dialal-dual stosqp itselmate; (iii)序列$ 1/\ sqrt {\ beta_t} \ cdot(x_t -x^\ star,\ lambda_t- \ lambda_t- \ lambda^\ star)$收敛到平均零高斯分布,具有非琐事的共价矩阵。此外,我们建立了$(x_t,\ lambda_t)$的Berry-Esseen,以定量地测量其分布功能的收敛性。我们还为协方差矩阵提供了实用的估计器,可以使用iTerates $ \ {(x_t,\ lambda_t)\} _ t $构建$(x^\ star,\ lambda^\ star)$的置信区间(x^\ star,\ lambda^\ star)$。我们的定理使用最可爱的测试集中的非线性问题验证。
translated by 谷歌翻译
我们考虑使用时间差异学习算法进行连续时间过程的政策评估问题。更确切地说,从随机微分方程的时间离散化,我们打算使用TD(0)学习连续的值函数。首先,我们证明标准TD(0)算法注定要失败,因为动力学的随机部分由于时间步骤趋于零。然后,我们提出对时间差的添加零均值校正,使其相对于消失的时间步骤进行稳健。我们提出了两种算法:第一种算法是基于模型的,因为它需要了解动力学的漂移函数。第二个是无模型的。我们证明了基于模型的算法在两个不同的方案中的线性参数化假设下与连续时间解的收敛性:一个具有问题的凸正则化;第二次使用具有恒定步长且无正则化的Polyak-juditsy平均方法。在后一种方案中获得的收敛速率与最简单的使用随机梯度下降方法的线性回归问题相媲美。从完全不同的角度来看,我们的方法可以应用于使用机器学习以非发散形式求解二阶椭圆方程。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
本文涉及由马尔可夫噪声驱动的随机近似的收敛和渐近统计:$$ \ theta_ {n + 1} = \ theta_n + \ alpha_ {n + 1} f(\ theta_n,\ phi_ {n + 1})\, ,\ quad n \ ge 0,$$,其中每个$ \ theta_n \ in \ re ^ d $,$ \ {\ phi_n \} $是一般状态空间x上的马尔可夫链,静止分配$ \ pi $和$ f:\ re ^ d \ times \ text {x} \ to \ re ^ d $。除了在$ f $的标准lipschitz边界,以及消失的步骤大小序列$ \ {\ alpha_n \ \} $的条件外,假设相关ode是全局渐近稳定的静止点表示$ \ theta ^ * $ ,其中$ \ bar f(\ theta)= e [f(\ theta,\ phi)] $ with $ \ phi \ sim \ pi $。而且,ode @ $ \ infty $ virect with advoore字段,$$ \ bar f_ \ idty(\ theta):= \ lim_ {r \ to \ infty} r ^ { - 1} \ bar f(r \ theta)\ ,, \ qquad \ theta \ in \ re ^ d,$$是渐近稳定的。主要贡献总结如下:(i)如果$ \ phi $是几何ergodic,则序列$ \ theta $是融合的,并且在$ f $兼容兼容的界限。剩余的结果是在马尔可夫链的更强大假设下建立:Donsker-varadhan Lyapunov漂移条件的稍微弱版本(DV3)。 (ii)为联合过程$ \ {\ theta_n,\ phi_n \} $构建Lyapunov函数,这意味着$ \ {\ theta_n \} $ in $ l_4 $的融合。 (iii)建立了功能性CLT,以及归一化误差$ z_n:=(\ theta_n- \ theta ^ *)/ \ sqrt {\ alpha_n} $的常规一维CLT。时刻界限结合了CLT暗示了归一化协方差的收敛,$$ \ lim_ {n \ to \ infty} e [z_n z_n ^ t] = \ sigma_ \ theta,$$在$ \ sigma_ \ theta $ where asbptotic协方差出现在CLT中。 (iv)提供了一个例子,其中马尔可夫链$ \ phi $是几何ergodic,但它不满足(dv3)。虽然算法收敛,但第二个时刻是无限的。
translated by 谷歌翻译
我们研究了线性函数近似的政策评估问题,并且目前具有强烈的最优性保证的高效实用算法。我们首先通过证明在这个问题中建立基线的下限来建立基线和随机错误。特别是,我们在与转换内核的静止分布相关联的实例相关规范中证明了Oracle复杂性下限,并使用本地渐近最低限度机械在随机误差中证明依赖于随机误差的实例相关的下限IID观察模型。现有算法未能匹配这些下限中的至少一个:为了说明,我们分析了时间差异学习的方差减少变体,特别是它未能实现Oracle复杂性下限。为了解决这个问题,我们开发了加速,方差减少的快速时间差算法(VRFTD),其同时匹配两个下限,并达到实例 - 最优性的强烈概念。最后,我们将VRFTD算法扩展到Markovian观察的设置,并提供与I.I.D中的实例相关的收敛结果。设置到与链条的混合时间成比例的乘法因子。我们的理论保证最佳的最佳保证是通过数值实验证实的。
translated by 谷歌翻译
培训期间的对抗性攻击能够强烈影响多功能增强学习算法的性能。因此,非常希望增加现有算法,使得消除对抗对协作网络的对抗性攻击的影响,或者至少有界限。在这项工作中,我们考虑一个完全分散的网络,每个代理商收到本地奖励并观察全球州和行动。我们提出了一种基于弹性共识的演员 - 批评算法,其中每个代理估计了团队平均奖励和价值函数,并将关联的参数向量传送到其立即邻居。我们表明,在拜占庭代理人的存在下,其估算和通信策略是完全任意的,合作社的估计值会融合到有概率一体的有界共识值,条件是在附近的最多有$ H $拜占庭代理商每个合作社和网络都是$(2h + 1)$ - 强大。此外,我们证明,合作社的政策在其团队平均目标函数的局部最大化器周围汇聚在其团队平均目标函数的概率上,这是对渐关节转移变得稳定的普发因子的政策。
translated by 谷歌翻译
梯度时间差(梯度TD)算法是用于钢筋学习中的政策评估的流行随机近似(SA)算法。在这里,我们考虑具有额外的重球动量项的梯度TD算法,并提供阶梯尺寸和动量参数的选择,确保这些算法的几乎肯定偶然的趋势。在这样做时,我们将沉重的球梯度TD分解为三个单独的迭代,具有不同的步骤尺寸。我们首先使用当前文献的结果进行一次时间尺度SA设置分析这些迭代。但是,一时间时间形案例是限制性的,并且可以通过查看迭代的三次时间尺度分解来提供更一般的分析。在此过程中,我们提供了一般三次Timescale SA的稳定性和融合的第一个条件。然后,我们证明了沉重的球梯度TD算法使用我们的三个时间尺度SA分析来收敛。最后,我们在标准RL问题上评估了这些算法,并报告了Vanilla算法的性能提高。
translated by 谷歌翻译
在本文中,我们提出了一种随机梯度算法,用于最大程度地减少对嘈杂成本样本的期望,而对于任何给定参数,则只观察到后者。我们的算法采用带有随机扰动的梯度估计方案,该方案是使用单位球体截断的cauchy分布形成的。我们分析了提出的梯度估计量的偏差和方差。发现我们的算法在目标函数是非凸且参数维度较高的情况下特别有用。从渐近收敛分析中,我们确定我们的算法几乎可以肯定地收敛到目标函数的固定点并获得渐近收敛速率。我们还表明,我们的算法避免了不稳定的平衡,这意味着与局部最小值的融合。此外,我们对我们的算法进行非反应收敛分析。特别是,我们在这里建立了一个非质子绑定,用于寻找非convex目标函数的$ \ epsilon $ stationary点。最后,我们通过模拟以数字方式证明我们的算法的性能在一些非凸面设置上优于GSF,SPSA和RDSA,并进一步验证其在凸(NOISY)目标上的性能。
translated by 谷歌翻译