跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
我们解决了优化布朗运动的问题。我们考虑一个(随机)实现$ W $的布朗运动,输入空间在$ [0,1] $。给定$ W $,我们的目标是使用尽可能小的数量返回其最大值的$ \ epsilon $ -approximation函数评估,算法的样本复杂度。我们提供了一个算法,其样本复杂度为$ $ log ^ 2(1 / \ epsilon)$。这比Al-Mharmahand Calvin(1996)和Calvin等人的先前结果有所改善。 (2017)仅提供多项式。我们的算法是自适应的 - 每个查询都依赖于先前的值 - 并且是面对不确定性原则的一个实例。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
无监督的表示学习在多种应用中取得了优异的成果。它是一种特别强大的工具,可以通过部分或嘈杂的观察来学习环境的良好表现。在部分可观察的域中,表示编码信念状态是很重要的,这是迄今为止所观察到的观察的充分统计量。在本文中,我们研究是否有可能使用现代神经结构来学习这种信念表示。具体而言,我们关注一步帧预测和对比预测编码(CPC)的两种变体作为学习表示的目标函数。为了评估这些学习的代表性,我们测试他们如何能够预测关于环境潜在状态的各种信息,例如,代理在3D迷宫中的位置。我们表明,这三种方法都能够学习环境的信念表示,它们不仅编码国家信息,还编码其不确定性,这是信仰状态的一个重要方面。我们还发现,对于CPC多步骤预测和行动调节是视觉复杂环境中的关键功能信念表示。神经表征捕获信念信息的能力有可能刺激部分可观察领域的学习和规划的新进展,其中利用不确定性对于最优决策制定至关重要。
translated by 谷歌翻译
我们介绍了自回归隐式分位数网络(AIQN),这是一种与普遍使用的生成不同的生成建模方法,它们使用分位数回归隐式捕获分布。 AIQN能够实现卓越的感知质量和评估度量的改进,而不会导致样本多样性的损失。该方法可以应用于许多现有模型和体系结构。在这项工作中,我们使用AIQN扩展了PixelCNN模型,并使用感知分数,FID,非樱桃采样样本和修复结果展示了CIFAR-10和ImageNet上的结果。我们一致地观察到AIQN产生了一种高度稳定的算法,可以提高感知质量,同时保持高度多样化的分布。
translated by 谷歌翻译
在这项工作中,我们建立在分布式强化学习的最新进展基础上,以提供一种普遍适用的,灵活的,最先进的DQN分布式变体。我们通过使用分位数回归来逼近状态 - 动作回归分配的完全分位数函数来实现这一点。通过重新参数化样本空间上的分布,这会产生一个隐式定义的回报分布,并产生一大类风险敏感策略。我们展示了ALE中57Atari 2600游戏的改进性能,并使用我们的算法隐式定义的分布来研究风险敏感策略在Atari游戏中的影响。
translated by 谷歌翻译
规划问题是人工智能中最重要和最充分研究的问题之一。它们通常通过树搜索算法来解决,这些算法可以模拟未来的状态,评估未来的状态,并将这些评估备份到搜索树的根。在这些算法中,蒙特卡罗树搜索(MCTS)是最通用,最强大且最广泛使用的算法之一。 MCTS的典型实现使用巧妙设计的规则,针对域的特定特征进行了优化。这些规则控制模拟遍历的位置,在达到的状态中评估的内容以及如何备份这些评估。在本文中,我们将学习搜索的位置,内容和方式。我们的架构,我们称之为MCTSnet,通过扩展,评估和备份矢量嵌入,将基于仿真的搜索结合到神经网络中。使用基于梯度的优化,网络的参数是trainedend-end。当应用于众所周知的规划问题Sokoban中的小搜索时,学习的搜索算法显着优于MCTS基线。
translated by 谷歌翻译
在本文中,我们论证了重要分配的根本重要性:增强学习代理收到的随机回报的分布。这与加强学习的常见方法形成对比,后者模拟了这种回报或价值的期望。虽然有一套研究价值分布的文献,但是它一直被用于特定目的,例如实施风险意识行为。我们从政策评估和控制设置的理论结果开始,揭示了这一分析的不稳定性。然后,我们使用分布视角来设计一种新的算法,该算法将Bellman方程应用于近似有价值分布的学习。我们使用来自Arcade Learning Environment的游戏套件来评估我们的算法。我们获得了最先进的结果和轶事证据,证明了价值分布在近似强化学习中的重要性。最后,我们结合理论和经验证据来突出价值分布在近似环境中影响学习的方式。
translated by 谷歌翻译
强化学习中的转移是指概念不仅应发生在任务中,还应发生在任务之间。我们提出了转移框架,用于奖励函数改变的场景,但环境的动态保持不变。我们的方法依赖于两个关键思想:“后继特征”,一种将环境动态与奖励分离的价值函数表示,以及“广义政策改进”,即动态规划的政策改进操作的概括,它考虑一组政策而不是单一政策。 。总而言之,这两个想法导致了一种方法,可以与强化学习框架无缝集成,并允许跨任务自由交换信息。即使在任何学习过程之前,所提出的方法也为转移的政策提供了保证。我们推导出两个定理,将我们的方法设置在坚实的理论基础和现有的实验中,表明它成功地促进了实践中的转移,在一系列导航任务中明显优于替代方法。并控制模拟机器人手臂。
translated by 谷歌翻译
This paper introduces new optimality-preserving operators on Q-functions. Wefirst describe an operator for tabular representations, the consistent Bellmanoperator, which incorporates a notion of local policy consistency. We show thatthis local consistency leads to an increase in the action gap at each state;increasing this gap, we argue, mitigates the undesirable effects ofapproximation and estimation errors on the induced greedy policies. Thisoperator can also be applied to discretized continuous space and time problems,and we provide empirical results evidencing superior performance in thiscontext. Extending the idea of a locally consistent operator, we then derivesufficient conditions for an operator to preserve optimality, leading to afamily of operators which includes our consistent Bellman operator. Ascorollaries we provide a proof of optimality for Baird's advantage learningalgorithm and derive other gap-increasing operators with interestingproperties. We conclude with an empirical study on 60 Atari 2600 gamesillustrating the strong potential of these new operators.
translated by 谷歌翻译