鉴于它在提取功能表示方面的力量,对比性的自我监督学习已成功整合到(深)强化学习(RL)的实践中,从而在各种应用程序中提供了有效的政策学习。尽管取得了巨大的经验成功,但对RL的对比学习的理解仍然难以捉摸。为了缩小这样的差距,我们研究了Markov决策过程(MDP)和Markov Games(MGS)的对比度学习如何赋予RL的能力。对于这两种模型,我们建议通过最大程度地减少对比度损失来提取低级别模型的正确特征表示。此外,在在线环境下,我们提出了新颖的上限置信界(UCB)型算法,该算法将这种对比度损失与MDP或MGS的在线RL算法结合在一起。从理论上讲,我们进一步证明了我们的算法恢复了真实表示形式,并同时在学习MDP和MGS中学习最佳策略和NASH平衡方面同时实现了样本效率。我们还提供实证研究,以证明基于UCB的RL的对比度学习方法的功效。据我们所知,我们提供了第一种可证明有效的在线RL算法,该算法结合了代表学习的对比学习。我们的代码可从https://github.com/baichenjia/contrastive-ucb获得。
translated by 谷歌翻译
近年来,动态机制设计引起了计算机科学家和经济学家的极大关注。通过允许代理商在多个回合中与卖方互动,在这种情况下,代理商的奖励功能可能会随着时间而变化并且与国家有关,该框架能够建模丰富的现实世界问题。在这些作品中,通常认为代理商和卖方之间的相互作用遵循马尔可夫决策过程(MDP)。我们专注于此类MDP的奖励和过渡函数的设置,而不是先验地知道,我们正在尝试使用先验收集的数据集恢复最佳机制。在使用函数近似来处理大型状态空间的情况下,只有对功能类表达式的轻度假设,我们能够使用离线增强学习算法设计动态机制。此外,学到的机制大约具有三个关键的逃避:效率,个人理性和真实性。我们的算法基于悲观原则,仅需要对离线数据集的覆盖率进行温和的假设。据我们所知,我们的工作为动态机制设计提供了第一个离线RL算法,而无需假设覆盖范围。
translated by 谷歌翻译
我们研究了具有无限观察和状态空间的部分观察到的马尔可夫决策过程(POMDP)的强化学习,理论上仍然不太研究。为此,我们首次尝试弥合具有线性结构的一类POMDP的部分可观察性和功能近似。详细说明,我们建议在$ O(1/\ Epsilon^2)$情节中获得$ \ epsilon $ - 最佳策略的增强学习算法(通过对抗积分方程或操作装置的乐观探索)。特别是,样品复杂性在线性结构的固有维度上缩放,并且独立于观测和状态空间的大小。 Op-Tenet的样品效率由一系列成分启用:(i)具有有限内存的钟形操作员,该操作员以递归方式表示值函数,(ii)通过对抗性积分对此类操作员的识别和估计方程式具有针对线性结构量身定制的平滑歧视器,以及(iii)通过乐观探索观察和状态空间,该探索基于量化对抗性积分方程的不确定性。
translated by 谷歌翻译
我们提出了一种乐观的基于模型的算法,Dubbed SMRL,用于通过指数族分布指定的转换模型,以D $参数指定,奖励是有界和已知的。SMRL使用得分匹配,一种无通量的密度估计技术,可以通过RIDGE回归有效地估计模型参数。在标准规律性假设下,SMRL实现$ \ tilde o(d \ sqrt {h ^ 3t})$在线遗憾,其中$ h $是每一集的长度,$ t $是互动的总数(忽略多项式依赖结构尺度参数)。
translated by 谷歌翻译
近年来,神经网络授权的演员 - 评论家(AC)算法具有重大的经验成功。然而,AC算法的大多数现有的理论支持集中于线性函数近似或线性化神经网络的情况,其中特征表示在整个训练中都是固定的。这种限制未能捕获神经AC中的表示学习的关键方面,这在实际问题中是关键的。在这项工作中,我们采取了一种含义的基于特征神经交流的演变和融合的视角。具体而言,我们考虑一个AC的版本,其中Actor和批评者由过度分辨率的双层神经网络表示,并以两时间测定的学习速率更新。批评评论批评者通过时间差异(TD)学习使用较大的步骤,而演员通过近端策略优化(PPO)更新,具有较小的步骤。在连续时间和无限宽度限制性方案中,当时间尺度适当分开时,我们证明了神经通讯以Sublinear率找到全球最佳政策。此外,我们证明了批评网络引起的特征表示允许在初始概念的邻域内发展。
translated by 谷歌翻译
我们与指定为领导者的球员之一和其他球员读为追随者的球员学习多人一般汇总马尔可夫游戏。特别是,我们专注于追随者是近视的游戏,即,他们的目标是最大限度地提高他们的瞬间奖励。对于这样的游戏,我们的目标是找到一个Stackelberg-Nash均衡(SNE),这是一个策略对$(\ pi ^ *,\ nu ^ *)$,这样(i)$ \ pi ^ * $是追随者始终发挥最佳回应的领导者的最佳政策,(ii)$ \ nu ^ * $是追随者的最佳反应政策,这是由$ \ pi ^ *引起的追随者游戏的纳什均衡$。我们开发了用于在线和离线设置中的SNE解决SNE的采样高效的强化学习(RL)算法。我们的算法是最小二乘值迭代的乐观和悲观的变体,并且它们很容易能够在大状态空间的设置中结合函数近似工具。此外,对于线性函数近似的情况,我们证明我们的算法分别在线和离线设置下实现了Sublinear遗憾和次优。据我们所知,我们建立了第一种可用于解决近代Markov游戏的SNES的第一款可透明的RL算法。
translated by 谷歌翻译
深度加强学习(DRL)在游戏和机器人控制等应用中彻底改变了学习和致动。数据收集的成本,即从代理环境互动产生转变,仍然是在复杂的现实问题中更广泛的DRL采用的重大挑战。在GPU云平台上培训DRL代理的云原生范例是一个有前途的解决方案。在本文中,我们为云天然深层加固学习提供了一种可扩展和弹性图书馆优雅的钢茶,其有效地支持数百万GPU核心,以便在多个层面进行大规模平行的训练。在一个高级别的优雅普罗拉科尔使用基于锦标赛的集合计划,以协调数百个甚至数千个GPU的培训过程,安排排行榜与培训池与数百个豆荚之间的相互作用。在低级,每个POD通过在单个GPU中充分利用近7,000个GPU CUDA核心,模拟了代理环境的交互。我们的优雅RL-Podracer Library通过遵循集装箱,微服务和MLOPS的开发原则,具有高可扩展性,弹性和可访问性。使用NVIDIA DGX SuperPod Cloud,我们对机器人和股票交易中的各种任务进行了广泛的实验,并表明Elegitrl-Podracer大大优于Rllib。我们的代码可在GitHub上获得。
translated by 谷歌翻译
我们根据熵风险措施研究风险敏感的强化学习(RL)。虽然现有的作品已经建立了这个问题的非渐近遗憾担保,但它们会在上限和下限之间开放指数差距。我们确定现有算法中的缺陷及其分析,从而导致如此差距。为了解决这些缺陷,我们调查了风险敏感的Bellman方程的简单转变,我们称之为指数钟声方程。指数贝尔曼方程激励我们在风险敏感RL算法中开发对Bellman备份程序的新型分析,并进一步激励了一种新颖勘探机制的设计。我们表明,这些分析和算法创新共同导致现有的遗憾的上限。
translated by 谷歌翻译
强化学习的最新出现为使用这些算法计算的参数估计值创造了强大的统计推断方法的需求。现有的在线学习中统计推断的方法仅限于涉及独立采样观察的设置,而现有的强化学习中统计推断方法(RL)仅限于批处理设置。在线引导程序是一种灵活,有效的方法,用于线性随机近似算法中的统计推断,但在涉及Markov噪声(例如RL)的设置中,其功效尚未探索。在本文中,我们研究了在线引导方法在RL中的统计推断的使用。特别是,我们专注于时间差异(TD)学习和梯度TD(GTD)学习算法,它们本身就是马尔可夫噪声下线性随机近似的特殊实例。该方法在策略评估中的统计推断上表明该方法在分布上是一致的,并且包括数值实验,以证明该算法在跨一系列实际RL环境中在统计推断任务上的有效性。
translated by 谷歌翻译
在本文中,我们利用过度参数化来设计高维单索索引模型的无规矩算法,并为诱导的隐式正则化现象提供理论保证。具体而言,我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型,信号参数是稀疏向量或低秩对称矩阵,并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性,我们假设协变量的分布是先验的。对于载体和矩阵设置,我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时,我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外,我们的实验结果支持我们的理论调查结果,并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。
translated by 谷歌翻译