我们考虑用于加强学习(RL)问题的模型 - 不可知的元学习(MAML)方法,其中目标是找到使用来自Markov决策过程(MDP)表示的多个任务的策略,该方法可以由随机的一步更新实现MDP的政策梯度。特别地,在MAML更新步骤中使用随机梯度对于RL问题至关重要,因为精确梯度的计算需要访问大量可能的轨迹。对于这种制剂,我们提出了一种名为随机梯度元增强学习(SG-MRL)的MAML方法的变型,并研究其收敛性。我们派生了SG-MRL的迭代和样本复杂性,以查找$ \ epsilon $ - 据我们所知,这为模型不可知的元增强学习算法提供了第一个收敛保证。我们进一步展示了我们的结果延伸到在测试时间使用多于一个随机政策梯度方法的情况的情况。最后,我们在几个深入的RL环境中凭证比较SG-MRL和MAML。
translated by 谷歌翻译
在本文中,我们研究了模型 - 不可知的元学习(MAML)算法的泛化特性,用于监督学习问题。我们专注于我们培训MAML模型超过$ M $任务的设置,每个都有$ n $数据点,并从两个视角表征其泛化错误:首先,我们假设测试时间的新任务是其中之一培训任务,我们表明,对于强烈凸的客观函数,预期的多余人口损失是由$ {\ mathcal {o}}(1 / mn)$的界限。其次,我们考虑MAML算法的概念任务的泛化,并表明产生的泛化误差取决于新任务的底层分布与培训过程中观察到的任务之间的总变化距离。我们的校对技术依赖于算法稳定性与算法的泛化界之间的连接。特别是,我们为元学习算法提出了一种新的稳定性定义,这使我们能够捕获每项任务的任务数量的任务数量的角色$ N $对MAML的泛化误差。
translated by 谷歌翻译
元加强学习(Meta RL)作为元学习思想和强化学习(RL)的组合,使代理商能够使用一些样本适应不同的任务。但是,这种基于抽样的适应也使元rl容易受到对抗攻击的影响。通过操纵Meta RL中抽样过程的奖励反馈,攻击者可以误导代理商从培训经验中建立错误的知识,从而在适应后处理不同的任务时会恶化代理商的绩效。本文为理解这种类型的安全风险提供了游戏理论的基础。特别是,我们正式将采样攻击模型定义为攻击者和代理之间的stackelberg游戏,该游戏产生了最小值公式。它导致了两种在线攻击方案:间歇性攻击和持续攻击,这使攻击者能够学习最佳采样攻击,这是由$ \ epsilon $ -fir-first-first-fort stastary Point定义的,在$ \ MATHCAL {O}内(\ Epsilon^ {-2})$迭代。这些攻击方案自由地学习了学习的进度,而没有与环境进行额外互动的情况。通过通过数值实验来证实收敛结果,我们观察到攻击者的较小努力可以显着恶化学习绩效,而Minimax方法也可以帮助鲁棒化元素RL算法。
translated by 谷歌翻译
政策梯度(PG)算法是备受期待的强化学习对现实世界控制任务(例如机器人技术)的最佳候选人之一。但是,每当必须在物理系统上执行学习过程本身或涉及任何形式的人类计算机相互作用时,这些方法的反复试验性质就会提出安全问题。在本文中,我们解决了一种特定的安全公式,其中目标和危险都以标量奖励信号进行编码,并且学习代理被限制为从不恶化其性能,以衡量为预期的奖励总和。通过从随机优化的角度研究仅行为者的政策梯度,我们为广泛的参数政策建立了改进保证,从而将现有结果推广到高斯政策上。这与策略梯度估计器的差异的新型上限一起,使我们能够识别出具有很高概率的单调改进的元参数计划。两个关键的元参数是参数更新的步长和梯度估计的批处理大小。通过对这些元参数的联合自适应选择,我们获得了具有单调改进保证的政策梯度算法。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
模型 - 不可知的元增强学习需要估算价值函数的黑森斯矩阵。这是从实施角度挑战,反复区分政策梯度估计可能导致偏见的Hessian估计。在这项工作中,我们提供了一个统一的框架,用于估算价值函数的高阶导数,基于禁止策略评估。我们的框架将许多现有方法解释为特殊情况,并阐明了Hessian估计的偏差和方差权衡。该框架还打开了一个新的估计系列的大门,这可以通过自动差异化库轻松实现,并在实践中导致性能提升。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
尽管META强化学习的经验成功(META-RL),但理论和实践之间仍有一个不太理解的差异。批判性地,偏置梯度估计几乎始终在实践中实现,而在Meta-RL上的先前理论仅在非偏见的梯度估计下建立会聚。在这项工作中,我们调查这种差异。特别地,(1)我们表明,无偏渐变的渐变估计具有方差$ \ theta(n)$,其线性取决于内循环更新的示例大小$ n $; (2)我们提出了线性化得分函数(LSF)渐变估计,其具有偏见$ \ Mathcal {O}(1 / \ SQRT {n})$和方差$ \ mathcal {o}(1 / n)$; (3)我们表明,实际上实际上有效地实现了LSF梯度估计的变体。这意味着实用的算法“意外地”引入偏差以实现更好的性能; (4)我们建立了对静止点的收敛性的LSF梯度估计的理论担保,显示比现有工作的更好依赖性,当$ N $很大时。
translated by 谷歌翻译
具有多个耦合序列的随机近似(SA)在机器学习中发现了广泛的应用,例如双光线学习和增强学习(RL)。在本文中,我们研究了具有多个耦合序列的非线性SA的有限时间收敛。与现有的多时间分析不同,我们寻求方案,在这些方案中,细粒度分析可以为多序列单次尺度SA(STSA)提供严格的性能保证。我们分析的核心是在许多应用中具有多序列SA中固定点的平滑度。当所有序列都具有强烈的单调增量时,我们就建立了$ \ Mathcal {o}(\ epsilon^{ - 1})$的迭代复杂性,以实现$ \ epsilon $ -Accuracy,从而改善了现有的$ \ Mathcal {O} {O}(O}(O})(O}(O}(O})) \ epsilon^{ - 1.5})$对于两个耦合序列的复杂性。当除了主序列外具有强烈单调增量时,我们建立了$ \ Mathcal {o}(\ epsilon^{ - 2})$的迭代复杂性。我们的结果的优点在于,将它们应用于随机的二聚体和组成优化问题,以及RL问题会导致对其现有性能保证的放松假设或改进。
translated by 谷歌翻译
近年来,基于梯度的Meta-RL(GMRL)方法在发现一个单一任务的有效在线超参数中取得了显着的成功(XU等,2018)或学习多任务转移学习的良好初始化(Finn等人。 ,2017)。尽管有经验的成功,但经常被忽视,通过香草背交计算元梯度是不明定义的。在本文中,我们认为许多现有的MGRL方法采用的随机元梯度估计实际上是偏见的;偏差来自两个来源:1)在组成优化问题的结构中自然的成分偏差和2)由直接自动分化引起的多步粗糙估计的偏差。为了更好地了解元梯度偏差,我们首先执行其研究,以量化每个研究。我们首先为现有的GMRL算法提供统一的推导,然后理论上分析偏差和现有梯度估计方法的方差。了解偏见的基本原则,我们提出了两种缓解解决方案,基于脱离政策校正和多步理估计技术。已经进行了综合烧蚀研究,结果显示:(1)当与不同估计器/示例大小/步骤和学习率相结合时,它们的存在以及它们如何影响元梯度估计。 (2)这些缓解方法对Meta梯度估计的有效性,从而最终回报率两种实用的Meta-RL算法:Lola-Dice和Meta-梯度加固学习。
translated by 谷歌翻译
现代的元强化学习(META-RL)方法主要基于模型 - 不合时宜的元学习开发,该方法在跨任务中执行策略梯度步骤以最大程度地提高策略绩效。但是,在元RL中,梯度冲突问题仍然很少了解,这可能导致遇到不同任务时的性能退化。为了应对这一挑战,本文提出了一种新颖的个性化元素RL(PMETA-RL)算法,该算法汇总了特定任务的个性化政策,以更新用于所有任务的元政策,同时保持个性化的政策,以最大程度地提高每个任务的平均回报在元政策的约束下任务。我们还提供了表格设置下的理论分析,该分析证明了我们的PMETA-RL算法的收敛性。此外,我们将所提出的PMETA-RL算法扩展到基于软参与者批评的深网络版本,使其适合连续控制任务。实验结果表明,所提出的算法在健身房和Mujoco套件上的其他以前的元rl算法都优于其他以前的元素算法。
translated by 谷歌翻译
我们提出了一种新的多功能增强学习的新型政策梯度方法,其利用了两个不同的差异减少技术,并且不需要在迭代上进行大量批次。具体而言,我们提出了一种基于势头的分散策略梯度跟踪(MDPGT),其中使用新的基于动量的方差减少技术来接近具有重要性采样的本地策略梯度代理,并采用中间参数来跟踪两个连续的策略梯度代理。此外,MDPGT可证明$ \ mathcal {o}的最佳可用样本复杂性(n ^ { - 1} \ epsilon ^ {-3})$,用于汇聚到全球平均值的$ \ epsilon $ -stationary点n $本地性能函数(可能是非旋转)。这优于在分散的无模型增强学习中的最先进的样本复杂性,并且当用单个轨迹初始化时,采样复杂性与现有的分散的政策梯度方法获得的样本复杂性匹配。我们进一步验证了高斯策略函数的理论索赔。当所需的误差容忍$ \ epsilon $足够小时,MDPGT导致线性加速,以前已经在分散的随机优化中建立,但不是为了加强学习。最后,我们在多智能体增强学习基准环境下提供了实证结果,以支持我们的理论发现。
translated by 谷歌翻译
降低策略梯度方法方差的梯度估计器已成为近年来增强学习研究的主要重点之一,因为它们允许加速估算过程。我们提出了一种称为Sharp的方差降低的策略梯度方法,该方法将二阶信息纳入随机梯度下降(SGD)中,并使用动量和时间变化的学习率。 Sharp Algorithm无参数,实现$ \ Epsilon $ - Appro-Appro-Approximate固定点,带有$ O(\ Epsilon^{ - 3})$的轨迹数,同时使用批量的大小为$ O(1)$迭代。与以前的大多数工作不同,我们提出的算法不需要重要的抽样,这可能会损害降低方差的优势。此外,估计错误的差异会以$ o(1/t^{2/3})$的快速速率衰减,其中$ t $是迭代的数量。我们广泛的实验评估表明,拟议算法对各种控制任务的有效性及其对实践中最新状态的优势。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
本文研究了协同多智能体增强学习(MARL)的分布式政策梯度,在通信网络上的代理人旨在找到最佳政策,以最大限度地提高所有代理人的当地返回的平均值。由于政策梯度的非凹形性能函数,用于凸面问题的现有分布式随机优化方法不能直接用于Marl中的政策梯度。本文提出了一种具有方差减少和渐变跟踪的分布式策略梯度,以解决政策梯度的高差,并利用重要的重量来解决采样过程中的非静止问题。然后,我们在平均平均固定间隙上提供一个上限,这取决于迭代的数量,迷你批量大小,秒钟大小,问题参数和网络拓扑。我们进一步建立了样本和通信复杂性,以获得$ \ epsilon $-upprymate静止点。对MARL控制问题的数值实验进行了验证了所提出算法的有效性。
translated by 谷歌翻译
我们改进了用于分析非凸优化随机梯度下降(SGD)的最新工具,以获得香草政策梯度(PG) - 加强和GPOMDP的收敛保证和样本复杂性。我们唯一的假设是预期回报是平滑的w.r.t.策略参数以及其渐变的第二个时刻满足某种\ EMPH {ABC假设}。 ABC的假设允许梯度的第二时刻绑定为\ geq 0 $次的子项优差距,$ b \ geq 0 $乘以完整批量梯度的标准和添加剂常数$ c \ geq 0 $或上述任何组合。我们表明ABC的假设比策略空间上的常用假设更为一般,以证明收敛到静止点。我们在ABC的假设下提供单个融合定理,并表明,尽管ABC假设的一般性,我们恢复了$ \ widetilde {\ mathcal {o}}(\ epsilon ^ {-4})$样本复杂性pg 。我们的融合定理还可在选择超参数等方面提供更大的灵活性,例如步长和批量尺寸的限制$ M $。即使是单个轨迹案例(即,$ M = 1 $)适合我们的分析。我们认为,ABC假设的一般性可以为PG提供理论担保,以至于以前未考虑的更广泛的问题。
translated by 谷歌翻译
我们研究了用线性函数近似的加固学习中的违规评估(OPE)问题,旨在根据行为策略收集的脱机数据来估计目标策略的价值函数。我们建议纳入价值函数的方差信息以提高ope的样本效率。更具体地说,对于时间不均匀的epiSodic线性马尔可夫决策过程(MDP),我们提出了一种算法VA-OPE,它使用价值函数的估计方差重新重量拟合Q迭代中的Bellman残差。我们表明我们的算法达到了比最着名的结果绑定的更紧密的误差。我们还提供了行为政策与目标政策之间的分布转移的细粒度。广泛的数值实验证实了我们的理论。
translated by 谷歌翻译