生成流动网络(GFLOWNETS)是一种算法家族,用于训练在非均衡目标密度下离散对象的顺序采样器,并已成功用于各种概率建模任务。现有的Gflownets培训目标是国家本地的,或者是过渡的本地,或者在整个采样轨迹上传播奖励信号。我们认为,这些替代方案代表了梯度偏见变化权衡的相反目的,并提出了一种利用这种权衡以减轻其有害影响的方法。受到强化学习的TD($ \ lambda $)算法的启发,我们介绍了一个subtrajectory Balance或subtb($ \ lambda $),这是一个GFLOWNET培训目标,可以从不同长度的部分动作子序列中学习。我们表明,SubTB($ \ lambda $)会在先前研究和新环境中加速采样器的收敛,并在具有更长的动作序列和比以前的可能性更长的环境中培训Gflownets。我们还对随机梯度动力学进行了比较分析,阐明了GFLOWNET训练中的偏差变化权衡以及亚条件平衡的优势。
translated by 谷歌翻译
本文是关于从一系列动作中学习用于生成对象(如分子图)的随机策略的问题,使得生成对象的概率与该对象的给定的正奖励成比例。虽然标准返回最大化往往会收敛到单个返回最大化序列,但是有些情况我们希望在其中进行不同的高回报解决方案。例如,在可能的情况下,在黑盒功能优化中出现,每次都有很大的批次查询,其中批次应该多样化,例如,在新分子的设计中。人们还可以将其视为大致将能量函数转换为生成分布的问题。虽然MCMC方法可以实现这一点,但它们很昂贵,通常只执行本地探索。相反,培训生成政策在培训期间摊销搜索成本,并产生快速生成。使用时间差异学习的见解,基于生成过程作为流量网络的视图,提出Gflownet,使得可以处理不同轨迹可以产生相同的最终状态的棘手的情况,例如,有许多方法是顺序添加原子以产生一些分子图。我们将一组轨迹作为流程铸造并将流动一致性方程转换为学习目标,类似于钟人方程的铸造成时间差异方法。我们证明,拟议目标的任何全球最低限度都会产生一种从所需分布中采样的策略,并展示了Gflownet在一个简单的领域的提高性能和多样性,其中有许多模式到奖励功能以及分子合成任务。
translated by 谷歌翻译
我们提出了基于能量的生成流网络(EB-GFN),这是一种用于高维离散数据的新型概率建模算法。基于生成流网络(GFLOWNETS)的理论,我们通过随机数据构建政策对生成过程进行建模,从而将昂贵的MCMC探索摊销为从Gflownet采样的固定动作中。我们展示了Gflownets如何在模式之间进行大致进行大型Gibbs采样以混合。我们提出了一个框架,以共同训练具有能量功能的Gflownet,以便Gflownet学会从能量分布中进行采样,而能量则以近似MLE目标学习,并从GFLOWNET中使用负样本。我们证明了EB-GFN对各种概率建模任务的有效性。代码可在https://github.com/zdhnarsil/eb_gfn上公开获取。
translated by 谷歌翻译
已经引入了生成流量网络(GFlowNETS)作为在主动学习背景下采样多样化候选的方法,具有培训目标,其使它们与给定奖励功能成比例地进行比例。在本文中,我们显示了许多额外的GFLOWN的理论特性。它们可用于估计联合概率分布和一些变量未指定的相应边际分布,并且特别感兴趣地,可以代表像集合和图形的复合对象的分布。 Gflownets摊销了通常通过计算昂贵的MCMC方法在单个但训练有素的生成通行证中进行的工作。它们还可用于估计分区功能和自由能量,给定子集(子图)的超标(超图)的条件概率,以及给定集合(图)的所有超标仪(超图)的边际分布。我们引入了熵和相互信息估计的变体,从帕累托前沿采样,与奖励最大化策略的连接,以及随机环境的扩展,连续动作和模块化能量功能。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
尽管在许多具有挑战性的问题中取得了成功,但增强学习(RL)仍然面临样本效率低下,可以通过将先验知识引入代理人来缓解。但是,在加强学习方面的许多转移技术使教师是专家的局限性假设。在本文中,我们将增强学习中的行动作为推理框架 - 即,在每个状态下的行动分布,类似于教师政策,而不是贝叶斯的先验 - 恢复最先进的策略蒸馏技术。然后,我们提出了一类自适应方法,这些方法可以通过结合奖励成型和辅助正则化损失来鲁sumply动作先验。与先前的工作相反,我们开发了利用次优的动作先验的算法,这些算法可能仍然传授有价值的知识 - 我们称之为软动作先验。拟议的算法通过根据教师在每个州的有用性的估计来调整教师反馈的强度来适应。我们执行表格实验,这表明所提出的方法达到了最先进的性能,在从次优先的先验中学习时超过了它。最后,我们证明了自适应算法在连续动作中的鲁棒性深度RL问题,与现有的策略蒸馏方法相比,自适应算法显着提高了稳定性。
translated by 谷歌翻译
强化学习的主要方法是根据预期的回报将信贷分配给行动。但是,我们表明回报可能取决于政策,这可能会导致价值估计的过度差异和减慢学习的速度。取而代之的是,我们证明了优势函数可以解释为因果效应,并与因果关系共享相似的属性。基于此洞察力,我们提出了直接优势估计(DAE),这是一种可以对优势函数进行建模并直接从政策数据进行估算的新方法,同时同时最大程度地减少了返回的方差而无需(操作 - )值函数。我们还通过显示如何无缝整合到DAE中来将我们的方法与时间差异方法联系起来。所提出的方法易于实施,并且可以通过现代参与者批评的方法很容易适应。我们对三个离散控制域进行经验评估DAE,并表明它可以超过广义优势估计(GAE),这是优势估计的强大基线,当将大多数环境应用于策略优化时。
translated by 谷歌翻译
在贝叶斯结构学习中,我们有兴趣从数据中推断出贝叶斯网络的定向无环图(DAG)结构。由于组合较大的样本空间,定义这种分布非常具有挑战性,并且通常需要基于MCMC的近似值。最近,已引入了一种新型的概率模型,称为生成流网络(GFLOWNETS),作为离散和复合对象(例如图形)生成建模的一般框架。在这项工作中,我们建议使用GFLOWNET作为MCMC的替代方案,以近似贝叶斯网络结构的后验分布,给定观测数据集。从该近似分布中生成样本DAG被视为一个顺序决策问题,在该问题中,该图是根据学习的过渡概率一次构造一个边缘的。通过对模拟和真实数据的评估,我们表明我们的方法称为dag-gflownet,可以准确地近似DAG,并且它可以与基于MCMC或变异推断的其他方法进行比较。
translated by 谷歌翻译
有效的探索是深度强化学习的关键挑战。几种方法,例如行为先验,能够利用离线数据,以便在复杂任务上有效加速加强学习。但是,如果手动的任务与所证明的任务过度偏离,则此类方法的有效性是有限的。在我们的工作中,我们建议从离线数据中学习功能,这些功能由更加多样化的任务共享,例如动作与定向之间的相关性。因此,我们介绍了无国有先验,该先验直接在显示的轨迹中直接建模时间一致性,并且即使在对简单任务收集的数据进行培训时,也能够在复杂的任务中推动探索。此外,我们通过从政策和行动之前的概率混合物中动态采样动作,引入了一种新颖的集成方案,用于非政策强化学习中的动作研究。我们将我们的方法与强大的基线相提并论,并提供了经验证据,表明它可以在稀疏奖励环境下的长途持续控制任务中加速加强学习。
translated by 谷歌翻译
由于策略梯度定理导致的策略设置存在各种理论上 - 声音策略梯度算法,其为梯度提供了简化的形式。然而,由于存在多重目标和缺乏明确的脱助政策政策梯度定理,截止策略设置不太明确。在这项工作中,我们将这些目标统一到一个违规目标,并为此统一目标提供了政策梯度定理。推导涉及强调的权重和利息职能。我们显示多种策略来近似梯度,以识别权重(ACE)称为Actor评论家的算法。我们证明了以前(半梯度)脱离政策演员 - 评论家 - 特别是offpac和DPG - 收敛到错误的解决方案,而Ace找到最佳解决方案。我们还强调为什么这些半梯度方法仍然可以在实践中表现良好,表明ace中的方差策略。我们经验研究了两个经典控制环境的若干ACE变体和基于图像的环境,旨在说明每个梯度近似的权衡。我们发现,通过直接逼近强调权重,ACE在所有测试的所有设置中执行或优于offpac。
translated by 谷歌翻译
政策梯度定理(Sutton等,2000)规定了目标政策下的累积折扣国家分配以近似梯度。实际上,基于该定理的大多数算法都打破了这一假设,引入了分布转移,该分配转移可能导致逆转溶液的收敛性。在本文中,我们提出了一种新的方法,可以从开始状态重建政策梯度,而无需采取特定的采样策略。可以根据梯度评论家来简化此形式的策略梯度计算,由于梯度的新钟声方程式,可以递归估算。通过使用来自差异数据流的梯度评论家的时间差异更新,我们开发了第一个以无模型方式避开分布变化问题的估计器。我们证明,在某些可实现的条件下,无论采样策略如何,我们的估计器都是公正的。我们从经验上表明,我们的技术在存在非政策样品的情况下实现了卓越的偏见变化权衡和性能。
translated by 谷歌翻译
最近的工作表明,离线增强学习(RL)可以作为序列建模问题(Chen等,2021; Janner等,2021)配制,并通过类似于大规模语言建模的方法解决。但是,RL的任何实际实例化也涉及一个在线组件,在线组件中,通过与环境的任务规定相互作用对被动离线数据集进行了预测的策略。我们建议在线决策变压器(ODT),这是一种基于序列建模的RL算法,该算法将离线预处理与统一框架中的在线填充融为一体。我们的框架将序列级熵正规仪与自回归建模目标结合使用,用于样品效率探索和填充。从经验上讲,我们表明ODT在D4RL基准上的绝对性能中与最先进的表现具有竞争力,但在填充过程中显示出更大的收益。
translated by 谷歌翻译
System identification, also known as learning forward models, transfer functions, system dynamics, etc., has a long tradition both in science and engineering in different fields. Particularly, it is a recurring theme in Reinforcement Learning research, where forward models approximate the state transition function of a Markov Decision Process by learning a mapping function from current state and action to the next state. This problem is commonly defined as a Supervised Learning problem in a direct way. This common approach faces several difficulties due to the inherent complexities of the dynamics to learn, for example, delayed effects, high non-linearity, non-stationarity, partial observability and, more important, error accumulation when using bootstrapped predictions (predictions based on past predictions), over large time horizons. Here we explore the use of Reinforcement Learning in this problem. We elaborate on why and how this problem fits naturally and sound as a Reinforcement Learning problem, and present some experimental results that demonstrate RL is a promising technique to solve these kind of problems.
translated by 谷歌翻译
强化学习的许多应用都可以正式化为目标条件的环境,在每个情节中,都有一个“目标”会影响该情节中获得的奖励,但不会影响动态。已经提出了各种技术来提高目标条件环境的性能,例如自动课程生成和目标重新标记。在这项工作中,我们探讨了在目标条件设置中的损失钢筋学习与知识蒸馏之间的联系。特别是:当前的Q值函数和目标Q值估计是该目标的函数,我们想训练Q值函数以匹配其所有目标的目标。因此,我们将基于梯度的注意转移(Zagoruyko和Komodakis 2017)(一种知识蒸馏技术)应用于Q功能更新。我们从经验上表明,当目标空间高维时,这可以提高目标条件的非政策强化学习的性能。我们还表明,在多个同时稀疏目标的情况下,可以对该技术进行调整,以允许有效学习,在这种情况下,代理可以通过在测试时间指定的所有大型目标来实现奖励。最后,为了提供理论支持,我们给出了环境类别的示例,在某些假设下(在某些假设)中,标准的非政策算法至少需要O(d^2)观察到的过渡以学习最佳策略,而我们的建议技术仅需O( d)过渡,其中d是目标和状态空间的维度。
translated by 谷歌翻译
准确的价值估计对于禁止禁止增强学习是重要的。基于时间差学学习的算法通常容易容易出现过度或低估的偏差。在本文中,我们提出了一种称为自适应校准批评者(ACC)的一般方法,该方法使用最近的高方差,但不偏见的on-Police Rollouts来缓解低方差时间差目标的偏差。我们将ACC应用于截断的分位数批评,这是一种连续控制的算法,允许使用每个环境调谐的超参数调节偏差。生成的算法在训练渲染渲染超参数期间自适应调整参数不必要,并在Openai健身房连续控制基准测试中设置一个新的算法中,这些算法在所有环境中没有调整HyperParameters的所有算法中。此外,我们证明ACC通过进一步将其进一步应用于TD3并在此设置中显示出改进的性能而相当一般。
translated by 谷歌翻译
尽管学习环境内部模型的强化学习(RL)方法具有比没有模型的对应物更有效的样本效率,但学会从高维传感器中建模原始观察结果可能具有挑战性。先前的工作通过通过辅助目标(例如重建或价值预测)学习观察值的低维表示来解决这一挑战。但是,这些辅助目标与RL目标之间的一致性通常不清楚。在这项工作中,我们提出了一个单一的目标,该目标共同优化了潜在空间模型和政策,以实现高回报,同时保持自洽。这个目标是预期收益的下限。与基于模型的RL在策略探索或模型保证方面的先前范围不同,我们的界限直接依靠整体RL目标。我们证明,所得算法匹配或改善了最佳基于模型和无模型的RL方法的样品效率。尽管这种有效的样品方法通常在计算上是要求的,但我们的方法在较小的壁式锁定时间降低了50 \%。
translated by 谷歌翻译
强化学习中的信用作业是衡量行动对未来奖励的影响的问题。特别是,这需要从运气中分离技能,即解除外部因素和随后的行动对奖励行动的影响。为实现这一目标,我们将来自因果关系的反事件的概念调整为无模型RL设置。关键思想是通过学习从轨迹中提取相关信息来应对未来事件的价值函数。我们制定了一系列政策梯度算法,这些算法使用这些未来条件的价值函数作为基准或批评,并表明它们是可怕的差异。为避免对未来信息的调理潜在偏见,我们将后视信息限制为不包含有关代理程序行为的信息。我们展示了我们对许多说明性和具有挑战性问题的算法的功效和有效性。
translated by 谷歌翻译
许多增强学习(RL)环境包括独立实体,这些实体稀疏地互动。在这种环境中,RL代理商在任何特定情况下对其他实体的影响仅受限。我们在这项工作中的想法是,通过了解代理人可以通过其行动的何时以及何时何地效力,可以有效地指导。为实现这一目标,我们根据条件互信息介绍\ emph {情况依赖性因果影响},并表明它可以可靠地检测影响的态度。然后,我们提出了几种方法将这种措施集成到RL算法中,以改善探索和禁止政策学习。所有修改的算法都显示出机器人操纵任务的数据效率强劲增加。
translated by 谷歌翻译