智能论文笔记

Towards Plug'n Play Task-Level Autonomy for Robotics Using POMDPs and Generative Models

Or Wertheim , Dan R. Suissa , Ronen I. Brafman

分类：机器人 | 人工智能

2022-07-20

为了使机器人能够实现高级目标，工程师通常会编写应用现有专业技能的脚本，例如导航，对象检测和操纵以实现这些目标。编写好的脚本是具有挑战性的，因为它们必须智能平衡物理机器人的动作和传感器的固有随机性以及它拥有的有限信息。原则上，AI计划可用于应对这一挑战并自动生成良好的行为策略。但这需要通过三个障碍。首先，AI必须了解每个技能对世界的影响。其次，我们必须弥合了解技能的作用和其代码中使用的低级状态变量之间更抽象的级别之间的差距。第三，将所有组件绑在一起需要大量的集成工作。我们描述了一种将机器人技能集成到工作的自主机器人控制器中的方法，该机器人的机器人控制器计划其技能以完成指定任务并具有四个关键优势。 1）使用概率编程语言中的想法，我们的生成技能文档语言（GSDL）使代码文档更简单，紧凑，更具表现力。 2）表达抽象映射（AM）桥接了低级机器人代码和抽象AI计划模型之间的差距。 3）控制器可以使用任何正确记录的技能，而无需任何额外的编程工作，提供插头的经验。 4）POMDP求解器计划执行技能，同时适当地平衡了部分可观察性，随机行为和嘈杂的传感。

translated by 谷歌翻译

Behavior Trees and State Machines in Robotics Applications

Razan Ghzouli , Swaib Dragule , Thorsten Berger , Einar Broch Johnsen , Andrzej Wasowski

分类：机器人

2022-08-08

自主机器人结合了各种技能，形成越来越复杂的行为，称为任务。尽管这些技能通常以相对较低的抽象级别进行编程，但它们的协调是建筑分离的，并且经常以高级语言或框架表达。几十年来，州机器一直是首选的语言，但是最近，行为树的语言在机器人主义者中引起了人们的关注。行为树最初是为计算机游戏设计的，用于建模自主参与者，提供了基于树木的可扩展的使命表示，并受到支持支持模块化设计和代码的重复使用。但是，尽管使用了该语言的几种实现，但对现实世界中的用法和范围知之甚少。行为树提供的概念与传统语言（例如州机器）有何关系？应用程序中如何使用行为树和状态机概念？我们介绍了对行为树中关键语言概念的研究及其在现实世界机器人应用中的使用。我们识别行为树语言，并将其语义与机器人技术中最著名的行为建模语言进行比较。我们为使用这些语言的机器人应用程序挖掘开源存储库并分析此用法。我们发现两种行为建模语言在语言设计及其在开源项目中的用法之间的相似性方面，以满足机器人域的需求。我们为现实世界行为模型的数据集提供了贡献，希望激发社区使用和进一步开发这种语言，相关的工具和分析技术。

translated by 谷歌翻译

Deliberative Acting, Online Planning and Learning with Hierarchical Operational Models

Sunandita Patra , James Mason , Malik Ghallab , Dana Nau , Paolo Traverso

分类：人工智能

2020-10-02

在AI研究中，合成动作计划通常使用了抽象地指定由于动作而导致的动作的描述性模型，并针对有效计算状态转换来定制。然而，执行计划的动作已经需要运行模型，其中使用丰富的计算控制结构和闭环在线决策来指定如何在非预定的执行上下文中执行动作，对事件作出反应并适应展开情况。整合行动和规划的审议演员通常需要将这两种模型一起使用 - 在尝试开发不同的型号时会导致问题，验证它们的一致性，并顺利交错和规划。作为替代方案，我们定义和实施综合作用和规划系统，其中规划和行为使用相同的操作模型。这些依赖于提供丰富的控制结构的分层任务导向的细化方法。称为反应作用发动机（RAE）的作用组件由众所周知的PRS系统启发。在每个决定步骤中，RAE可以从计划者获取建议，以获得关于效用功能的近乎最佳选择。随时计划使用像UPOM的UCT类似的蒙特卡罗树搜索程序，其推出是演员操作模型的模拟。我们还提供与RAE和UPOM一起使用的学习策略，从在线代理体验和/或模拟计划结果，从决策背景下映射到方法实例以及引导UPOM的启发式函数。我们展示了富豪朝向静态域的最佳方法的渐近融合，并在实验上展示了UPOM和学习策略显着提高了作用效率和鲁棒性。

translated by 谷歌翻译

Habitat 2.0: Training Home Assistants to Rearrange their Habitat

Andrew Szot , Alex Clegg , Eric Undersander , Erik Wijmans , Yili Zhao , John Turner , Noah Maestre , Mustafa Mukadam , Devendra Chaplot , Oleksandr Maksymets

分类：机器学习 | 机器人

2021-06-28

我们介绍了栖息地2.0（H2.0），这是一个模拟平台，用于培训交互式3D环境和复杂物理的场景中的虚拟机器人。我们为体现的AI堆栈 - 数据，仿真和基准任务做出了全面的贡献。具体来说，我们提出：（i）复制：一个由艺术家的，带注释的，可重新配置的3D公寓（匹配真实空间）与铰接对象（例如可以打开/关闭的橱柜和抽屉）；（ii）H2.0：一个高性能物理学的3D模拟器，其速度超过8-GPU节点上的每秒25,000个模拟步骤（实时850x实时），代表先前工作的100倍加速；和（iii）家庭助理基准（HAB）：一套辅助机器人（整理房屋，准备杂货，设置餐桌）的一套常见任务，以测试一系列移动操作功能。这些大规模的工程贡献使我们能够系统地比较长期结构化任务中的大规模加固学习（RL）和经典的感官平面操作（SPA）管道，并重点是对新对象，容器和布局的概括。。我们发现（1）与层次结构相比，（1）平面RL政策在HAB上挣扎；（2）具有独立技能的层次结构遭受“交接问题”的困扰，（3）水疗管道比RL政策更脆。

translated by 谷歌翻译

iRoPro: An interactive Robot Programming Framework

Ying Siu Liang , Damien Pellier , Humbert Fiorino , Sylvie Pesty

分类：机器人 | 人工智能

2021-12-08

从制造环境到个人房屋的最终用户任务的巨大多样性使得预编程机器人非常具有挑战性。事实上，教学机器人从划痕的新行动可以重复使用以前看不见的任务仍然是一个艰难的挑战，一般都留给了机器人专家。在这项工作中，我们展示了Iropro，这是一个交互式机器人编程框架，允许最终用户没有技术背景，以教授机器人新的可重用行动。我们通过演示和自动规划技术将编程结合起来，以允许用户通过通过动力学示范教授新的行动来构建机器人的知识库。这些行动是概括的，并重用任务计划程序来解决用户定义的先前未经调查的问题。我们将iropro作为Baxter研究机器人的端到端系统实施，同时通过演示通过示范来教授低级和高级操作，以便用户可以通过图形用户界面自定义以适应其特定用例。为了评估我们的方法的可行性，我们首先进行了预设计实验，以更好地了解用户采用所涉及的概念和所提出的机器人编程过程。我们将结果与设计后实验进行比较，在那里我们进行了用户学习，以验证我们对真实最终用户的方法的可用性。总体而言，我们展示了具有不同编程水平和教育背景的用户可以轻松学习和使用Iropro及其机器人编程过程。

translated by 谷歌翻译

Behavior Trees in Robotics and AI: An Introduction

Michele Colledanchise , Petter Ögren

分类：机器人 | 人工智能

2017-08-31

行为树（BT）是一种在自主代理中（例如机器人或计算机游戏中的虚拟实体）之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要，这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中，我们将首先对BTS进行介绍，然后我们描述BTS与早期切换结构的关系，并且在许多情况下如何概括。然后，这些想法被用作一套高效且易于使用的设计原理的基础。安全性，鲁棒性和效率等属性对于自主系统很重要，我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具，我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后，我们描述了一组扩展的工具，以捕获随机BT的行为，其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。

translated by 谷歌翻译

Partially Observable Markov Decision Processes in Robotics: A Survey

Mikko Lauri , David Hsu , Joni Pajarinen

分类：机器人 | 人工智能

2022-09-21

嘈杂的传感，不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程（POMDP）提供了一个原则上的数学框架，用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中，它看到了许多成功的应用程序，涵盖了本地化和导航，搜索和跟踪，自动驾驶，多机器人系统，操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距，以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征，并将它们与POMDP框架的数学和算法属性联系起来，以进行有效的建模和解决方案。对于从业者来说，调查提供了一些关键任务特征，以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师，该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解，并指出了有希望的新方向进行进一步研究。

translated by 谷歌翻译

The Need for a Meta-Architecture for Robot Autonomy

Stalin Muñoz Gutiérrez , Gerald Steinbauer-Wagner

分类：机器人 | 人工智能

2022-07-20

机器人系统的长期自主权隐含地需要可靠的平台，这些平台能够自然处理硬件和软件故障，行为问题或缺乏知识。基于模型的可靠平台还需要在系统开发过程中应用严格的方法，包括使用正确的构造技术来实现机器人行为。随着机器人的自治水平的提高，提供系统可靠性的提供成本也会增加。我们认为，自主机器人的可靠性可靠性可以从几种认知功能，知识处理，推理和元评估的正式模型中受益。在这里，我们为自动机器人代理的认知体系结构的生成模型提出了案例，该模型订阅了基于模型的工程和可靠性，自主计算和知识支持机器人技术的原则。

translated by 谷歌翻译

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

Michael Ahn , Anthony Brohan , Noah Brown , Yevgen Chebotar , Omar Cortes , Byron David , Chelsea Finn , Chuyuan Fu , Keerthana Gopalakrishnan , Karol Hausman

分类：机器人 | 自然语言处理 | 机器学习

2022-04-04

大型语言模型可以编码有关世界的大量语义知识。这种知识对于旨在采取自然语言表达的高级，时间扩展的指示的机器人可能非常有用。但是，语言模型的一个重大弱点是，它们缺乏现实世界的经验，这使得很难利用它们在给定的体现中进行决策。例如，要求语言模型描述如何清洁溢出物可能会导致合理的叙述，但是它可能不适用于需要在特定环境中执行此任务的特定代理商（例如机器人）。我们建议通过预处理的技能来提供现实世界的基础，这些技能用于限制模型以提出可行且在上下文上适当的自然语言动作。机器人可以充当语言模型的“手和眼睛”，而语言模型可以提供有关任务的高级语义知识。我们展示了如何将低级技能与大语言模型结合在一起，以便语言模型提供有关执行复杂和时间扩展说明的过程的高级知识，而与这些技能相关的价值功能则提供了连接必要的基础了解特定的物理环境。我们在许多现实世界的机器人任务上评估了我们的方法，我们表明了对现实世界接地的需求，并且这种方法能够在移动操纵器上完成长远，抽象的自然语言指令。该项目的网站和视频可以在https://say-can.github.io/上找到。

translated by 谷歌翻译

A Survey of Knowledge-based Sequential Decision Making under Uncertainty

Shiqi Zhang , Mohan Sridharan

分类：人工智能

2020-08-19

用声明知识（RDK）和顺序决策（SDM）推理是人工智能的两个关键研究领域。RDK方法的原因是具有声明领域知识，包括常识性知识，它是先验或随着时间的收购，而SDM方法（概率计划和强化学习）试图计算行动政策，以最大程度地提高时间范围内预期的累积效用；两类方法的原因是存在不确定性。尽管这两个领域拥有丰富的文献，但研究人员尚未完全探索他们的互补优势。在本文中，我们调查了利用RDK方法的算法，同时在不确定性下做出顺序决策。我们讨论重大发展，开放问题和未来工作的方向。

translated by 谷歌翻译

MROS: Runtime Adaptation For Robot Control Architectures

Darko Bozhinoski , Carlos Hernandez Corbato , Mario Garzon Oviedo , Gijs van der Hoorn , Nadia Hammoudeh Garcia , Harshavardhan Deshpande , Jon Tjerngren , Andrzej Wasowski

分类：机器人

2020-10-19

已知尝试构建自主机器人依赖复杂的控制架构，通常使用机器人操作系统平台（ROS）实现。在这些系统中需要运行时适应，以应对组件故障，并使用动态环境引起的突发事件 - 否则，这些系统会影响任务执行的可靠性和质量。关于如何在机器人中构建自适应系统的现有提案通常需要重大重新设计控制架构，并依赖于对机器人社区不熟悉的复杂工具。此外，它们很难重复使用应用程序。本文介绍了MRO：基于ROS的机器人控制架构的运行时调整的基于模型的框架。 MRO使用域特定语言的组合来模拟架构变体，并捕获任务质量问题，以及基于本体的Mape-K和Meta-Contoil Visions的运行时适应的愿望。在两个现实ROS的机器人示范器中施加MRO的实验结果在特派团执行的质量方面，展示了我们的方法的好处，以及机器人应用程序的MROS的可扩展性和可重复性。

translated by 谷歌翻译

Explainable Goal-Driven Agents and Robots -- A Comprehensive Review

Fatai Sado , Chu Kiong Loo , Wei Shiung Liew , Matthias Kerzel , Stefan Wermter

分类：机器人 | 人工智能

2020-04-21

最近的自主代理和机器人的应用，如自动驾驶汽车，情景的培训师，勘探机器人和服务机器人带来了关注与当前生成人工智能（AI）系统相关的至关重要的信任相关挑战。尽管取得了巨大的成功，基于连接主义深度学习神经网络方法的神经网络方法缺乏解释他们对他人的决策和行动的能力。没有符号解释能力，它们是黑色盒子，这使得他们的决定或行动不透明，这使得难以信任它们在安全关键的应用中。最近对AI系统解释性的立场目睹了可解释的人工智能（XAI）的几种方法;然而，大多数研究都专注于应用于计算科学中的数据驱动的XAI系统。解决越来越普遍的目标驱动器和机器人的研究仍然缺失。本文评论了可解释的目标驱动智能代理和机器人的方法，重点是解释和沟通代理人感知功能的技术（示例，感官和愿景）和认知推理（例如，信仰，欲望，意图，计划和目标）循环中的人类。审查强调了强调透明度，可辨与和持续学习以获得解释性的关键策略。最后，本文提出了解释性的要求，并提出了用于实现有效目标驱动可解释的代理和机器人的路线图。

translated by 谷歌翻译

Inner Monologue: Embodied Reasoning through Planning with Language Models

Wenlong Huang , Fei Xia , Ted Xiao , Harris Chan , Jacky Liang , Pete Florence , Andy Zeng , Jonathan Tompson , Igor Mordatch , Yevgen Chebotar

分类：机器人 | 人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-07-12

最近的作品表明，如何将大语言模型（LLM）的推理能力应用于自然语言处理以外的领域，例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面：可用技能的曲目，这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能，还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化，以响应代理商自己的选择。在这项工作中，我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源，而无需任何其他培训。我们建议，通过利用环境反馈，LLM能够形成内部独白，使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源，例如成功检测，场景描述和人类互动。我们发现，闭环语言反馈显着改善了三个领域的高级指导完成，包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。

translated by 谷歌翻译

Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under Partial Observability

Yuchen Xiao

分类：人工智能 | 机器人

2022-09-20

最先进的多机构增强学习（MARL）方法为各种复杂问题提供了有希望的解决方案。然而，这些方法都假定代理执行同步的原始操作执行，因此它们不能真正可扩展到长期胜利的真实世界多代理/机器人任务，这些任务固有地要求代理/机器人以异步的理由，涉及有关高级动作选择的理由。不同的时间。宏观行动分散的部分可观察到的马尔可夫决策过程（MACDEC-POMDP）是在完全合作的多代理任务中不确定的异步决策的一般形式化。在本论文中，我们首先提出了MacDec-Pomdps的一组基于价值的RL方法，其中允许代理在三个范式中使用宏观成果功能执行异步学习和决策：分散学习和控制，集中学习，集中学习和控制，以及分散执行的集中培训（CTDE）。在上述工作的基础上，我们在三个训练范式下制定了一组基于宏观行动的策略梯度算法，在该训练范式下，允许代理以异步方式直接优化其参数化策略。我们在模拟和真实的机器人中评估了我们的方法。经验结果证明了我们在大型多代理问题中的方法的优势，并验证了我们算法在学习具有宏观actions的高质量和异步溶液方面的有效性。

translated by 谷歌翻译

Leveraging Approximate Symbolic Models for Reinforcement Learning via Skill Diversity

Lin Guan , Sarath Sreedharan , Subbarao Kambhampati

分类：人工智能

2022-02-06

长期以来，能够接受和利用特定于人类的任务知识的增强学习（RL）代理人被认为是开发可扩展方法来解决长途问题的可能策略。尽管以前的作品已经研究了使用符号模型以及RL方法的可能性，但他们倾向于假设高级动作模型在低级别上是可执行的，并且流利者可以专门表征所有理想的MDP状态。但是，现实世界任务的符号模型通常是不完整的。为此，我们介绍了近似符号模型引导的增强学习，其中我们将正式化符号模型与基础MDP之间的关系，这将使我们能够表征符号模型的不完整性。我们将使用这些模型来提取将用于分解任务的高级地标。在低水平上，我们为地标确定的每个可能的任务次目标学习了一组不同的政策，然后将其缝合在一起。我们通过在三个不同的基准域进行测试来评估我们的系统，并显示即使是不完整的符号模型信息，我们的方法也能够发现任务结构并有效地指导RL代理到达目标。

translated by 谷歌翻译

On some Foundational Aspects of Human-Centered Artificial Intelligence

Luciano Serafini , Raul Barbosa , Jasmin Grosinger , Luca Iocchi , Christian Napoli , Salvatore Rinzivillo , Jacques Robin , Alessandro Saffiotti , Teresa Scantamburlo , Peter Schueller

分类：人工智能

2021-12-29

AI的蓬勃发展提示建议，AI技术应该是“以人为本”。然而，没有明确的定义，对人工人工智能或短，HCAI的含义。本文旨在通过解决HCAI的一些基础方面来改善这种情况。为此，我们介绍了术语HCAI代理商，以指配备有AI组件的任何物理或软件计算代理，并与人类交互和/或协作。本文识别参与HCAI代理的五个主要概念组件：观察，要求，行动，解释和模型。我们看到HCAI代理的概念，以及其组件和功能，作为弥合人以人为本的AI技术和非技术讨论的一种方式。在本文中，我们专注于采用在人类存在的动态环境中运行的单一代理的情况分析。

translated by 谷歌翻译

MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning Research

Mikayel Samvelyan , Robert Kirk , Vitaly Kurin , Jack Parker-Holder , Minqi Jiang , Eric Hambro , Fabio Petroni , Heinrich Küttler , Edward Grefenstette , Tim Rocktäschel

分类：机器学习 | (统计)机器学习

2021-09-27

深度强化学习（RL）的进展是通过用于培训代理商的具有挑战性的基准的可用性来驱动。但是，社区广泛采用的基准未明确设计用于评估RL方法的特定功能。虽然存在用于评估RL的特定打开问题的环境（例如探索，转移学习，无监督环境设计，甚至语言辅助RL），但一旦研究超出证明，通常难以将这些更富有，更复杂的环境 - 概念结果。我们展示了一个强大的沙箱框架，用于易于设计新颖的RL环境。 Minihack是一个停止商店，用于RL实验，环境包括从小房间到复杂的，程序生成的世界。通过利用来自Nethack的全套实体和环境动态，MiniHack是最富有的基网上的视频游戏之一，允许设计快速方便的定制RL测试台。使用这种沙箱框架，可以轻松设计新颖的环境，可以使用人类可读的描述语言或简单的Python接口来设计。除了各种RL任务和基线外，Minihack还可以包装现有的RL基准，并提供无缝添加额外复杂性的方法。

translated by 谷歌翻译

Task-Directed Exploration in Continuous POMDPs for Robotic Manipulation of Articulated Objects

Aidan Curtis , Leslie Kaelbling , Siddarth Jain

分类：机器人

2022-12-08

Representing and reasoning about uncertainty is crucial for autonomous agents acting in partially observable environments with noisy sensors. Partially observable Markov decision processes (POMDPs) serve as a general framework for representing problems in which uncertainty is an important factor. Online sample-based POMDP methods have emerged as efficient approaches to solving large POMDPs and have been shown to extend to continuous domains. However, these solutions struggle to find long-horizon plans in problems with significant uncertainty. Exploration heuristics can help guide planning, but many real-world settings contain significant task-irrelevant uncertainty that might distract from the task objective. In this paper, we propose STRUG, an online POMDP solver capable of handling domains that require long-horizon planning with significant task-relevant and task-irrelevant uncertainty. We demonstrate our solution on several temporally extended versions of toy POMDP problems as well as robotic manipulation of articulated objects using a neural perception frontend to construct a distribution of possible models. Our results show that STRUG outperforms the current sample-based online POMDP solvers on several tasks.

translated by 谷歌翻译

Intention-Aware Navigation in Crowds with Extended-Space POMDP Planning

Himanshu Gupta , Bradley Hayes , Zachary Sunberg

分类：机器人 | 人工智能

2022-06-20

本文介绍了一个混合在线的部分可观察到的马尔可夫决策过程（POMDP）计划系统，该系统在存在环境中其他代理商引入的多模式不确定性的情况下解决了自主导航的问题。作为一个特别的例子，我们考虑了密集的行人和障碍物中的自主航行问题。该问题的流行方法首先使用完整的计划者（例如，混合A*）生成一条路径，具有对不确定性的临时假设，然后使用基于在线树的POMDP求解器来解决问题的不确定性，并控制问题的有限方面（即沿着路径的速度）。我们提出了一种更有能力和响应的实时方法，使POMDP规划师能够控制更多的自由度（例如，速度和标题），以实现更灵活，更有效的解决方案。这种修改大大扩展了POMDP规划师必须推荐的国家空间区域，从而大大提高了在实时控制提供的有限计算预算中找到有效的推出政策的重要性。我们的关键见解是使用多Query运动计划技术（例如，概率路线图或快速行进方法）作为先验，以快速生成在有限的地平线搜索中POMDP规划树可能达到的每个状态的高效推出政策。我们提出的方法产生的轨迹比以前的方法更安全，更有效，即使在较长的计划范围内密集拥挤的动态环境中。

translated by 谷歌翻译

RLang: A Declarative Language for Expression Prior Knowledge for Reinforcement Learning

Rafael Rodriguez-Sanchez , Benjamin Spiegel , Jennifer Wang , Roma Patel , Stefanie Tellex , George Konidaris

分类：人工智能 | 机器学习

2022-08-12

将有用的背景知识传达给加强学习（RL）代理是加速学习的重要方法。我们介绍了Rlang，这是一种特定领域的语言（DSL），用于将域知识传达给RL代理。与RL社区提出的其他现有DSL不同，该基础是决策形式主义的单个要素（例如，奖励功能或政策功能），RLANG可以指定有关马尔可夫决策过程中每个元素的信息。我们为rlang定义了精确的语法和基础语义，并提供了解析器实施，将rlang程序基于算法 - 敏捷的部分世界模型和政策，可以由RL代理利用。我们提供一系列示例RLANG程序，并演示不同的RL方法如何利用所得的知识，包括无模型和基于模型的表格算法，分层方法和深度RL算法（包括策略梯度和基于价值的方法）。

translated by 谷歌翻译