任何强化学习系统都必须能够确定过去的事件导致观察到的结果,这是一个称为信用分配的问题。解决此问题的一个常见解决方案是使用资格跟踪将信贷分配给一组经验丰富的事件集。但是,在许多现实的任务中,最近经验丰富的事件集只是可能先于当前结果之前的许多可能的动作事件之一。这表明,通过允许信贷分配到任何可行的前面状态,而不仅仅是最近经历的国家,可以提高强化学习的效率。因此,我们研究了``前身功能'',这是van Hasselt的“预期跟踪”的完全引导版本,这是一种实现这种更丰富形式的信贷分配的算法。通过保持近似于过去占领的预期总和的表示形式,该算法可以将时间差异(TD)错误准确地传播到比常规方法的大量前一个状态,从而极大地提高了学习速度。该算法也可以自然地从表格状态表示形式延伸到特征表示,从而可以在各种环境中提高性能。我们演示了几种用例,用于前身功能,并将其性能与其他方法进行比较。
translated by 谷歌翻译
估计值函数是增强学习算法的核心组件。时间差异(TD)学习算法使用自引导,即,它们在随后的时间步骤中使用值估计更新朝向学习目标的值函数。或者,可以朝着通过单独预测继承人特征(SF)构成的学习目标来更新值函数 - 依赖于策略的模型 - 并将它们与瞬时奖励相结合。我们专注于在估计值函数时使用的自举目标,并提出新的备份目标,它是\ eta $ -return混合的混合,它隐含地结合了价值预测知识(由TD方法使用)与(继承人)特征预测知识 - 使用参数$ \ eta $捕获每个依赖的多少。我们说明通过$ \ eta \ gamma $ -dicounted sf模型结合了预测知识使得更有效地利用采样体验,而不是完全在价值函数估计上,或者在单独估计的继承功能的乘积上启动。和瞬时奖励模型。我们经验显示这种方法导致更快的政策评估和更好的控制性能,用于表格和非线性函数近似,指示可扩展性和一般性。
translated by 谷歌翻译
优先考虑体验重放是一种强化学习技术,可以通过允许代理商更频繁地重播过去的经验来加速学习。这种有用性被量化为从重播经验的预期增益,并且通常近似为在相应的经验期间观察到的预测误差(TD误差)。但是,预测误差只是一个可能的优先级度量。神经科学的最新作品表明,在生物生物中,通过增益和需求优先考虑重播。需要期限衡量每种经验对目前情况的预期相关性,更重要的是,该术语目前尚未考虑在Q-Network(DQN)等算法中考虑。因此,在本文中,我们提出了一种新方法,以确定重播经验的优先考虑增益和需求。我们通过考虑所需术语,量词,作为继承人表示,进入不同强化学习算法的采样过程来测试我们的方法。我们所提出的算法表现出基准中的性能显着增加,包括Dyna-Q迷宫和一系列Atari Games。
translated by 谷歌翻译
分布式多智能经纪增强学习(Marl)算法最近引起了兴趣激增,主要是由于深神经网络(DNN)的最新进步。由于利用固定奖励模型来学习基础值函数,传统的基于模型(MB)或无模型(MF)RL算法不可直接适用于MARL问题。虽然涉及单一代理时,基于DNN的解决方案完全良好地表现出,但是这种方法无法完全推广到MARL问题的复杂性。换句话说,尽管最近的基于DNN的DNN用于多种子体环境的方法取得了卓越的性能,但它们仍然容易出现过度,对参数选择的高敏感性,以及样本低效率。本文提出了多代理自适应Kalman时间差(MAK-TD)框架及其继任者表示的基于代表的变体,称为MAK-SR。直观地说,主要目标是利用卡尔曼滤波(KF)的独特特征,如不确定性建模和在线二阶学习。提议的MAK-TD / SR框架考虑了与高维多算法环境相关联的动作空间的连续性,并利用卡尔曼时间差(KTD)来解决参数不确定性。通过利用KTD框架,SR学习过程被建模到过滤问题,其中径向基函数(RBF)估计器用于将连续空间编码为特征向量。另一方面,对于学习本地化奖励功能,我们求助于多种模型自适应估计(MMAE),处理缺乏关于观察噪声协方差和观察映射功能的先前知识。拟议的MAK-TD / SR框架通过多个实验进行评估,该实验通过Openai Gym Marl基准实施。
translated by 谷歌翻译
在发现PLACE单元格之后,HPCAPPAL(HPC)函数的想法已经扩展到预测,想象力和概念认知地图。最近的研究争论HPC代表预测地图;并且已经表明,HPC预测对特定位置的访问。这种预测地图理论基于加强学习的继承代表(SR)。基于特征的SR(SF),它使用神经网络作为学习SR的函数近似,似乎更合理的神经生物学模型。然而,尚不众知的重量(W)初始化如何影响SF学习。在本研究中,SF学习者接触到简单的迷宫环境,以分析SF学习效率,并且W模式模式变化。使用了三种W初始化模式:标识矩阵,零矩阵和小随机矩阵。使用随机重量矩阵启动的SF学习者显示出比其他三个RL代理更好的性能。我们将讨论SF重量矩阵的神经生物学含义。通过这种方法,本文试图增加我们对神经科学和人工智能视角的智力的理解。
translated by 谷歌翻译
学习来自数据样本的给定策略的价值函数是强化学习中的重要问题。TD($ \ lambda $)是一个流行的算法,可以解决这个问题。但是,分配给不同$ n $ -step的权重在参数$ \ lambda $控制的TD($ \ lambda $)中返回,随着$ n $的增加,呈指数级增长。在本文中,我们展示了一个$ \ lambda $ -schedule程序,将TD($ \ lambda $)算法概括为参数$ \ lambda $的情况随时间步骤而异。这允许通过选择序列$ \ {\ lambda_t \} $ \ {t \ geq 1} $来指定重量分配中的灵活性,即,用户可以指定分配给不同$ n $ -step返回的权重。基于此过程,我们提出了一个on-police算法 - TD($ \ lambda $) - 计划和两个offoly almorithms - gtd($ \ lambda $) - 计划和tdc($ \ lambda $) - 计划,分别。我们提供了一般马尔可夫噪声框架下所有三种算法的几乎肯定融合的证据。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
我们提出了连续表示的时间扩展变化,我们称其为t-SR。 T-SR通过在原始动作重复序列上构造后继表示,捕获了时间扩展动作的预期状态过渡动力学。这种时间抽象的这种形式不能学习相关任务结构的自上而下的层次结构,而是对耦合动作和动作重复的自下而上的组成。这减少了在没有学习层次政策的情况下控制中所需的决策数量。因此,T-SR直接考虑了时间扩展的动作序列的时间范围,而无需预定义或域特异性选项。我们表明,在具有动态奖励结构的环境中,T-SR能够利用后继表示的灵活性和时间扩展的动作提供的抽象。因此,在一系列稀疏的网格世界环境中,T-SR最佳地适应策略远比基于可比的无模型的强化学习方法快得多。我们还表明,T-SR学到的解决这些任务的方式要求学习的策略的始终如一的频率比非临时扩展的策略少。
translated by 谷歌翻译
强化学习的主要方法是根据预期的回报将信贷分配给行动。但是,我们表明回报可能取决于政策,这可能会导致价值估计的过度差异和减慢学习的速度。取而代之的是,我们证明了优势函数可以解释为因果效应,并与因果关系共享相似的属性。基于此洞察力,我们提出了直接优势估计(DAE),这是一种可以对优势函数进行建模并直接从政策数据进行估算的新方法,同时同时最大程度地减少了返回的方差而无需(操作 - )值函数。我们还通过显示如何无缝整合到DAE中来将我们的方法与时间差异方法联系起来。所提出的方法易于实施,并且可以通过现代参与者批评的方法很容易适应。我们对三个离散控制域进行经验评估DAE,并表明它可以超过广义优势估计(GAE),这是优势估计的强大基线,当将大多数环境应用于策略优化时。
translated by 谷歌翻译
由于策略梯度定理导致的策略设置存在各种理论上 - 声音策略梯度算法,其为梯度提供了简化的形式。然而,由于存在多重目标和缺乏明确的脱助政策政策梯度定理,截止策略设置不太明确。在这项工作中,我们将这些目标统一到一个违规目标,并为此统一目标提供了政策梯度定理。推导涉及强调的权重和利息职能。我们显示多种策略来近似梯度,以识别权重(ACE)称为Actor评论家的算法。我们证明了以前(半梯度)脱离政策演员 - 评论家 - 特别是offpac和DPG - 收敛到错误的解决方案,而Ace找到最佳解决方案。我们还强调为什么这些半梯度方法仍然可以在实践中表现良好,表明ace中的方差策略。我们经验研究了两个经典控制环境的若干ACE变体和基于图像的环境,旨在说明每个梯度近似的权衡。我们发现,通过直接逼近强调权重,ACE在所有测试的所有设置中执行或优于offpac。
translated by 谷歌翻译
Policy gradient methods are an appealing approach in reinforcement learning because they directly optimize the cumulative reward and can straightforwardly be used with nonlinear function approximators such as neural networks. The two main challenges are the large number of samples typically required, and the difficulty of obtaining stable and steady improvement despite the nonstationarity of the incoming data. We address the first challenge by using value functions to substantially reduce the variance of policy gradient estimates at the cost of some bias, with an exponentially-weighted estimator of the advantage function that is analogous to TD(λ). We address the second challenge by using trust region optimization procedure for both the policy and the value function, which are represented by neural networks. Our approach yields strong empirical results on highly challenging 3D locomotion tasks, learning running gaits for bipedal and quadrupedal simulated robots, and learning a policy for getting the biped to stand up from starting out lying on the ground. In contrast to a body of prior work that uses hand-crafted policy representations, our neural network policies map directly from raw kinematics to joint torques. Our algorithm is fully model-free, and the amount of simulated experience required for the learning tasks on 3D bipeds corresponds to 1-2 weeks of real time.
translated by 谷歌翻译
一种简单自然的增强学习算法(RL)是蒙特卡洛探索开始(MCES),通过平均蒙特卡洛回报来估算Q功能,并通过选择最大化Q当前估计的行动来改进策略。 -功能。探索是通过“探索开始”来执行的,即每个情节以随机选择的状态和动作开始,然后遵循当前的策略到终端状态。在Sutton&Barto(2018)的RL经典书中,据说建立MCES算法的收敛是RL中最重要的剩余理论问题之一。但是,MCE的收敛问题证明是非常细微的。 Bertsekas&Tsitsiklis(1996)提供了一个反例,表明MCES算法不一定会收敛。 TSITSIKLIS(2002)进一步表明,如果修改了原始MCES算法,以使Q-功能估计值以所有状态行动对以相同的速率更新,并且折现因子严格少于一个,则MCES算法收敛。在本文中,我们通过Sutton&Barto(1998)中给出的原始,更有效的MCES算法取得进展政策。这样的MDP包括大量的环境,例如所有确定性环境和所有具有时间步长的情节环境或作为状态的任何单调变化的值。与以前使用随机近似的证据不同,我们引入了一种新型的感应方法,该方法非常简单,仅利用大量的强规律。
translated by 谷歌翻译
In recent years, Monte Carlo tree search (MCTS) has achieved widespread adoption within the game community. Its use in conjunction with deep reinforcement learning has produced success stories in many applications. While these approaches have been implemented in various games, from simple board games to more complicated video games such as StarCraft, the use of deep neural networks requires a substantial training period. In this work, we explore on-line adaptivity in MCTS without requiring pre-training. We present MCTS-TD, an adaptive MCTS algorithm improved with temporal difference learning. We demonstrate our new approach on the game miniXCOM, a simplified version of XCOM, a popular commercial franchise consisting of several turn-based tactical games, and show how adaptivity in MCTS-TD allows for improved performances against opponents.
translated by 谷歌翻译
Linear temporal logic (LTL) is a widely-used task specification language which has a compositional grammar that naturally induces temporally extended behaviours across tasks, including conditionals and alternative realizations. An important problem i RL with LTL tasks is to learn task-conditioned policies which can zero-shot generalize to new LTL instructions not observed in the training. However, because symbolic observation is often lossy and LTL tasks can have long time horizon, previous works can suffer from issues such as training sampling inefficiency and infeasibility or sub-optimality of the found solutions. In order to tackle these issues, this paper proposes a novel multi-task RL algorithm with improved learning efficiency and optimality. To achieve the global optimality of task completion, we propose to learn options dependent on the future subgoals via a novel off-policy approach. In order to propagate the rewards of satisfying future subgoals back more efficiently, we propose to train a multi-step value function conditioned on the subgoal sequence which is updated with Monte Carlo estimates of multi-step discounted returns. In experiments on three different domains, we evaluate the LTL generalization capability of the agent trained by the proposed method, showing its advantage over previous representative methods.
translated by 谷歌翻译
强化学习最近已成为解决棋盘游戏领域中复杂问题的非常强大的工具,其中通常需要代理来根据其自身的经验和收到的奖励来学习复杂的策略和移动。尽管RL胜过用于玩简单视频游戏和受欢迎的棋盘游戏的现有最新方法,但它尚未证明其在古代游戏中的能力。在这里,我们解决了一个这样的问题,在该问题中,我们使用不同的方法来训练代理商,即蒙特卡洛,Qlearning和Hir Hir Hight Sarsa能够学习最佳政策来发挥战略性的UR皇家游戏。我们游戏的状态空间很复杂,但是我们的代理商在玩游戏和学习重要的战略动作方面表现出令人鼓舞的结果。尽管很难得出结论,当接受有限的资源培训时,算法总体上的表现更好,但预计SARSA在学习最快的学习方面表现出了令人鼓舞的结果。
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
在加强学习的背景下,我们介绍了一个国家的关键性的概念,这表明在该特定状态下采取行动的选择程度影响预期的回报。也就是说,采取行动的选择更容易影响最终结果的状态被认为比它不太可能影响最终结果的国家更为重要。我们制定了基于临界的不同步骤编号算法(CVS) - 一种灵活的步骤编号算法,其利用人类提供的临界功能,或直接从环境中学到。我们在包括Atari Pong环境,道路树环境和射击环境的三个不同领域中测试它。我们展示了CVS能够优于流行的学习算法,如深Q-Learning和Monte Carlo。
translated by 谷歌翻译
在这项工作中,我们提出并评估了一种新的增强学习方法,紧凑体验重放(编者),它使用基于相似转换集的复发的预测目标值的时间差异学习,以及基于两个转换的经验重放的新方法记忆。我们的目标是减少在长期累计累计奖励的经纪人培训所需的经验。它与强化学习的相关性与少量观察结果有关,即它需要实现类似于文献中的相关方法获得的结果,这通常需要数百万视频框架来培训ATARI 2600游戏。我们举报了在八个挑战街机学习环境(ALE)挑战游戏中,为仅10万帧的培训试验和大约25,000次迭代的培训试验中报告了培训试验。我们还在与基线的同一游戏中具有相同的实验协议的DQN代理呈现结果。为了验证从较少数量的观察结果近似于良好的政策,我们还将其结果与从啤酒的基准上呈现的数百万帧中获得的结果进行比较。
translated by 谷歌翻译
准确的价值估计对于禁止禁止增强学习是重要的。基于时间差学学习的算法通常容易容易出现过度或低估的偏差。在本文中,我们提出了一种称为自适应校准批评者(ACC)的一般方法,该方法使用最近的高方差,但不偏见的on-Police Rollouts来缓解低方差时间差目标的偏差。我们将ACC应用于截断的分位数批评,这是一种连续控制的算法,允许使用每个环境调谐的超参数调节偏差。生成的算法在训练渲染渲染超参数期间自适应调整参数不必要,并在Openai健身房连续控制基准测试中设置一个新的算法中,这些算法在所有环境中没有调整HyperParameters的所有算法中。此外,我们证明ACC通过进一步将其进一步应用于TD3并在此设置中显示出改进的性能而相当一般。
translated by 谷歌翻译
政策梯度定理(Sutton等,2000)规定了目标政策下的累积折扣国家分配以近似梯度。实际上,基于该定理的大多数算法都打破了这一假设,引入了分布转移,该分配转移可能导致逆转溶液的收敛性。在本文中,我们提出了一种新的方法,可以从开始状态重建政策梯度,而无需采取特定的采样策略。可以根据梯度评论家来简化此形式的策略梯度计算,由于梯度的新钟声方程式,可以递归估算。通过使用来自差异数据流的梯度评论家的时间差异更新,我们开发了第一个以无模型方式避开分布变化问题的估计器。我们证明,在某些可实现的条件下,无论采样策略如何,我们的估计器都是公正的。我们从经验上表明,我们的技术在存在非政策样品的情况下实现了卓越的偏见变化权衡和性能。
translated by 谷歌翻译