我们研究逆增强学习(IRL)和模仿学习(IM),这是从专家所证明的轨迹中恢复奖励或政策功能的问题。我们提出了一种新的方法来通过在最大的熵框架中添加权重功能来改善学习过程,并具有学习和恢复专家政策的随机性(或有限理性)的动机。我们的框架和算法允许学习奖励(或政策)功能以及添加到马尔可夫决策过程中的熵条款的结构,从而增强了学习过程。我们使用人类和模拟演示以及通过离散和连续的IRL/IM任务进行的数值实验表明,我们的方法表现优于先前的算法。
translated by 谷歌翻译
由熵正常化的马尔可夫决策过程(ER-MDP)产生的随机和软最佳政策是可取的探索和仿制学习应用程序的可取性。这种策略对国家过渡概率敏感的事实,并且这些概率的估计可能不准确,我们研究了ER-MDP模型的强大版本,其中随机最佳策略需要坚固尊重潜在的过渡概率中的歧义。我们的工作是加固学习(RL)的两个重要计划的十字路口,即强大的MDP和熵正则化MDP。我们表明,持有非强大的ER-MDP和强大的未反复化MDP型号的基本属性也在我们的设置中保持,使得强大的ER-MDP问题是易旧的。我们展示了我们的框架和结果如何集成到包括值或(修改)策略迭代的不同算法方案中,这将导致新的鲁棒RL和逆RL算法来处理不确定性。还提供了在传统的不确定性设置下计算复杂性和误差传播的分析。
translated by 谷歌翻译
平均野外游戏(MFGS)提供了一个可在数学上拖动的框架,用于通过利用平均场理论来简化代理之间的相互作用来建模大规模多代理系统。它使应用逆增强学习(IRL)能够通过从展示的行为中恢复奖励信号来预测大人群的行为。但是,现有的MFG的IRL方法无能为力,无法确定各个代理的行为中的不确定性。本文提出了一个新颖的框架,平均场对抗IRL(MF-AIRL),该框架能够解决示范中的不确定性。我们在最大熵IRL和新的平衡概念上建立MF-AIRL。我们通过不完美的演示评估了对模拟任务的方法。实验结果证明了MF-AIRL比奖励恢复中现有方法的优越性。
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译
基于生成的对抗网络用于模仿学习的方法是有希望的,因为它们在专家演示方面是有效的样本。但是,培训生成器需要与实际环境进行许多交互,因为采用了无模型的强化学习来更新策略。为了使用基于模型的增强学习提高样品效率,我们在熵调控的马尔可夫决策过程中提出了基于模型的熵调查模仿学习(MB-eril),以减少与实际环境的相互作用数量。 MB-eril使用两个歧视因子。策略歧视者将机器人与专家的动作区分开来,模型歧视者区分了由模型产生的反事实状态转变与实际模型的转变。我们得出结构化的歧视者,以便学习政策和模型是有效的。计算机模拟和实际机器人实验表明,与基线方法相比,MB-eril实现了竞争性能,并显着提高了样品效率。
translated by 谷歌翻译
Inferring reward functions from human behavior is at the center of value alignment - aligning AI objectives with what we, humans, actually want. But doing so relies on models of how humans behave given their objectives. After decades of research in cognitive science, neuroscience, and behavioral economics, obtaining accurate human models remains an open research topic. This begs the question: how accurate do these models need to be in order for the reward inference to be accurate? On the one hand, if small errors in the model can lead to catastrophic error in inference, the entire framework of reward learning seems ill-fated, as we will never have perfect models of human behavior. On the other hand, if as our models improve, we can have a guarantee that reward accuracy also improves, this would show the benefit of more work on the modeling side. We study this question both theoretically and empirically. We do show that it is unfortunately possible to construct small adversarial biases in behavior that lead to arbitrarily large errors in the inferred reward. However, and arguably more importantly, we are also able to identify reasonable assumptions under which the reward inference error can be bounded linearly in the error in the human model. Finally, we verify our theoretical insights in discrete and continuous control tasks with simulated and human data.
translated by 谷歌翻译
仅国家模仿学习的最新进展将模仿学习的适用性扩展到现实世界中的范围,从而减轻了观察专家行动的需求。但是,现有的解决方案只学会从数据中提取州对行动映射策略,而无需考虑专家如何计划到目标。这阻碍了利用示威游行并限制政策的灵活性的能力。在本文中,我们介绍了解耦政策优化(DEPO),该策略优化(DEPO)明确将策略脱离为高级状态计划者和逆动力学模型。借助嵌入式的脱钩策略梯度和生成对抗训练,DEPO可以将知识转移到不同的动作空间或状态过渡动态,并可以将规划师推广到无示威的状态区域。我们的深入实验分析表明,DEPO在学习最佳模仿性能的同时学习通用目标状态计划者的有效性。我们证明了DEPO通过预训练跨任务转移的吸引力,以及与各种技能共同培训的潜力。
translated by 谷歌翻译
强化学习(RL)旨在在给定环境中从奖励功能中训练代理商,但逆增强学习(IRL)试图从观察专家的行为中恢复奖励功能。众所周知,总的来说,各种奖励功能会导致相同的最佳政策,因此,IRL定义不明。但是,(Cao等,2021)表明,如果我们观察到两个或多个具有不同折现因子或在不同环境中起作用的专家,则可以在某些条件下确定奖励功能,直至常数。这项工作首先根据等级条件显示了表格MDP的多位专家的等效可识别性声明,该声明易于验证,也被证明是必要的。然后,我们将结果扩展到各种不同的方案,即,在奖励函数可以表示为给定特征的线性组合,使其更容易解释,或者当我们可以访问近似过渡矩阵时,我们会表征奖励可识别性。即使奖励无法识别,我们也提供了特征的条件,当给定环境中的多个专家的数据允许在新环境中概括和训练最佳代理。在各种数值实验中,我们对奖励可识别性和概括性的理论结果得到了验证。
translated by 谷歌翻译
从演示中学习的方法(LFD)通过模仿用户表现出在获取行为策略方面的成功。但是,即使对于一项任务,LFD也可能需要大量的演示。对于必须通过演示学习许多任务的多功能代理,如果孤立地学习每个任务,此过程将大大负担用户的负担。为了应对这一挑战,我们介绍了从演示中学习的新颖问题,该问题使代理商能够不断地基于从先前演示的任务中学到的知识,以加速学习新任务,从而减少所需的示范量。作为解决这个问题的一种解决方案,我们提出了第一种终身学习方法来进行逆强化学习,该方法通过演示学习连续的任务,不断地在任务之间转移知识以提高绩效。
translated by 谷歌翻译
对于许多强化学习(RL)应用程序,指定奖励是困难的。本文考虑了一个RL设置,其中代理仅通过查询可以询问可以的专家来获取有关奖励的信息,例如,评估单个状态或通过轨迹提供二进制偏好。从如此昂贵的反馈中,我们的目标是学习奖励的模型,允许标准RL算法实现高预期的回报,尽可能少的专家查询。为此,我们提出了信息定向奖励学习(IDRL),它使用奖励的贝叶斯模型,然后选择要最大化信息增益的查询,这些查询是有关合理的最佳策略之间的返回差异的差异。与针对特定类型查询设计的先前主动奖励学习方法相比,IDRL自然地适应不同的查询类型。此外,它通过将焦点转移降低奖励近似误差来实现类似或更好的性能,从而降低奖励近似误差,以改善奖励模型引起的策略。我们支持我们的调查结果,在多个环境中进行广泛的评估,并具有不同的查询类型。
translated by 谷歌翻译
在过去的几年中,逆增强学习(\ textit {irl})问题已经迅速发展,在机器人技术,认知和健康等领域中具有重要的应用。在这项工作中,我们探讨了当前IRL方法从描述长马,复杂的顺序任务的专家轨迹中学习代理奖励函数的效率低下。我们假设,将IRL模型带入捕获基本任务的结构图案可以实现和提高其性能。随后,我们提出了一种新颖的IRL方法Smirl,该方法首先学习任务的(近似)结构为有限状态-Satate-automaton(FSA),然后使用结构基序来解决IRL问题。我们在离散网格世界和高维连续域环境上测试我们的模型。我们从经验上表明,我们提出的方法成功地学习了所有四个复杂的任务,其中两个基础IRL基准失败了。我们的模型还优于简单的玩具任务中样本效率的基准。我们进一步在具有组成奖励函数的任务上的经过修改的连续域中显示了有希望的测试结果。
translated by 谷歌翻译
机器人的共同适应一直是一项长期的研究努力,其目的是将系统的身体和行为适应给定的任务,灵感来自动物的自然演变。共同适应有可能消除昂贵的手动硬件工程,并提高系统性能。共同适应的标准方法是使用奖励功能来优化行为和形态。但是,众所周知,定义和构建这种奖励功能是困难的,并且通常是一项重大的工程工作。本文介绍了关于共同适应问题的新观点,我们称之为共同构图:寻找形态和政策,使模仿者可以紧密匹配演示者的行为。为此,我们提出了一种通过匹配示威者的状态分布来适应行为和形态的共同模拟方法。具体而言,我们专注于两种代理之间的状态和动作空间不匹配的挑战性情况。我们发现,共同映射会增加各种任务和设置的行为相似性,并通过将人的步行,慢跑和踢到模拟的人形生物转移来证明共同映射。
translated by 谷歌翻译
我们提出了状态匹配的离线分布校正估计(SMODICE),这是一种新颖且基于多功能回归的离线模仿学习(IL)算法,该算法是通过状态占用匹配得出的。我们表明,SMODICE目标通过在表格MDP中的Fenchel二元性和一个分析解决方案的应用来接受一个简单的优化过程。不需要访问专家的行动,可以将Smodice有效地应用于三个离线IL设置:(i)模仿观察值(IFO),(ii)IFO具有动态或形态上不匹配的专家,以及(iii)基于示例的加固学习,这些学习我们表明可以将其公式为州占领的匹配问题。我们在GridWorld环境以及高维离线基准上广泛评估了Smodice。我们的结果表明,Smodice对于所有三个问题设置都有效,并且在前最新情况下均明显胜过。
translated by 谷歌翻译
当将强化学习(RL)代理部署到物理系统中时,我们必须确保这些代理非常了解基本的约束。但是,在许多现实世界中,遵循的限制因素(例如,人类)通常很难在数学上和RL代理商上指定。为了解决这些问题,约束逆强化学习(CIRL)考虑了约束马尔可夫决策过程(CMDP)的形式主义,并通过学习约束功能来估算专家示范中的约束。作为一个新兴的研究主题,Cirl没有共同的基准测试,以前的作品通过手工制作的环境(例如,网格世界)测试了其算法。在本文中,我们在两个主要的应用域:机器人控制和自动驾驶的背景下构建了CIRL基准。我们为每个环境设计相关的约束,并经验研究不同算法基于尊重这些约束的专家轨迹恢复这些约束的能力。为了处理随机动力学,我们提出了一种差异方法,以扩展约束分布,并通过将其与基准上的其他cirl基线进行比较来证明其性能。基准,包括复制CIRL算法性能的信息,可在https://github.com/guiliang/guiliang/cirl-benchmarks-public上公开获得
translated by 谷歌翻译
While reinforcement learning algorithms provide automated acquisition of optimal policies, practical application of such methods requires a number of design decisions, such as manually designing reward functions that not only define the task, but also provide sufficient shaping to accomplish it. In this paper, we view reinforcement learning as inferring policies that achieve desired outcomes, rather than as a problem of maximizing rewards. To solve this inference problem, we establish a novel variational inference formulation that allows us to derive a well-shaped reward function which can be learned directly from environment interactions. From the corresponding variational objective, we also derive a new probabilistic Bellman backup operator and use it to develop an off-policy algorithm to solve goal-directed tasks. We empirically demonstrate that this method eliminates the need to hand-craft reward functions for a suite of diverse manipulation and locomotion tasks and leads to effective goal-directed behaviors.
translated by 谷歌翻译
强化学习(RL)通过与环境相互作用的试验过程解决顺序决策问题。尽管RL在玩复杂的视频游戏方面取得了巨大的成功,但在现实世界中,犯错误总是不希望的。为了提高样本效率并从而降低错误,据信基于模型的增强学习(MBRL)是一个有前途的方向,它建立了环境模型,在该模型中可以进行反复试验,而无需实际成本。在这项调查中,我们对MBRL进行了审查,重点是Deep RL的最新进展。对于非壮观环境,学到的环境模型与真实环境之间始终存在概括性错误。因此,非常重要的是分析环境模型中的政策培训与实际环境中的差异,这反过来又指导了更好的模型学习,模型使用和政策培训的算法设计。此外,我们还讨论了其他形式的RL,包括离线RL,目标条件RL,多代理RL和Meta-RL的最新进展。此外,我们讨论了MBRL在现实世界任务中的适用性和优势。最后,我们通过讨论MBRL未来发展的前景来结束这项调查。我们认为,MBRL在被忽略的现实应用程序中具有巨大的潜力和优势,我们希望这项调查能够吸引更多关于MBRL的研究。
translated by 谷歌翻译
逆强化学习(IRL)试图推断出一种成本函数,以解释专家演示的基本目标和偏好。本文介绍了向后的地平线逆增强学习(RHIRL),这是一种新的IRL算法,用于具有黑盒动态模型的高维,嘈杂,连续的系统。 Rhirl解决了IRL的两个主要挑战:可伸缩性和鲁棒性。为了处理高维的连续系统,Rhirl以退缩的地平线方式与当地的专家演示相匹配,并将其“针迹”一起“缝制”本地解决方案以学习成本;因此,它避免了“维度的诅咒”。这与早期的算法形成鲜明对比,这些算法与在整个高维状态空间中与全球范围内的专家示威相匹配。为了与不完美的专家示范和系统控制噪声保持强大的态度,Rhirl在轻度条件下学习了与系统动力学的状态依赖性成本函数。基准任务的实验表明,在大多数情况下,Rhirl的表现都优于几种领先的IRL算法。我们还证明,Rhirl的累积误差随任务持续时间线性增长。
translated by 谷歌翻译
Behavioural cloning (BC) is a commonly used imitation learning method to infer a sequential decision-making policy from expert demonstrations. However, when the quality of the data is not optimal, the resulting behavioural policy also performs sub-optimally once deployed. Recently, there has been a surge in offline reinforcement learning methods that hold the promise to extract high-quality policies from sub-optimal historical data. A common approach is to perform regularisation during training, encouraging updates during policy evaluation and/or policy improvement to stay close to the underlying data. In this work, we investigate whether an offline approach to improving the quality of the existing data can lead to improved behavioural policies without any changes in the BC algorithm. The proposed data improvement approach - Trajectory Stitching (TS) - generates new trajectories (sequences of states and actions) by `stitching' pairs of states that were disconnected in the original data and generating their connecting new action. By construction, these new transitions are guaranteed to be highly plausible according to probabilistic models of the environment, and to improve a state-value function. We demonstrate that the iterative process of replacing old trajectories with new ones incrementally improves the underlying behavioural policy. Extensive experimental results show that significant performance gains can be achieved using TS over BC policies extracted from the original data. Furthermore, using the D4RL benchmarking suite, we demonstrate that state-of-the-art results are obtained by combining TS with two existing offline learning methodologies reliant on BC, model-based offline planning (MBOP) and policy constraint (TD3+BC).
translated by 谷歌翻译
In inverse reinforcement learning (IRL), a learning agent infers a reward function encoding the underlying task using demonstrations from experts. However, many existing IRL techniques make the often unrealistic assumption that the agent has access to full information about the environment. We remove this assumption by developing an algorithm for IRL in partially observable Markov decision processes (POMDPs). We address two limitations of existing IRL techniques. First, they require an excessive amount of data due to the information asymmetry between the expert and the learner. Second, most of these IRL techniques require solving the computationally intractable forward problem -- computing an optimal policy given a reward function -- in POMDPs. The developed algorithm reduces the information asymmetry while increasing the data efficiency by incorporating task specifications expressed in temporal logic into IRL. Such specifications may be interpreted as side information available to the learner a priori in addition to the demonstrations. Further, the algorithm avoids a common source of algorithmic complexity by building on causal entropy as the measure of the likelihood of the demonstrations as opposed to entropy. Nevertheless, the resulting problem is nonconvex due to the so-called forward problem. We solve the intrinsic nonconvexity of the forward problem in a scalable manner through a sequential linear programming scheme that guarantees to converge to a locally optimal policy. In a series of examples, including experiments in a high-fidelity Unity simulator, we demonstrate that even with a limited amount of data and POMDPs with tens of thousands of states, our algorithm learns reward functions and policies that satisfy the task while inducing similar behavior to the expert by leveraging the provided side information.
translated by 谷歌翻译
我们在专家和学习者之间的过渡动力学下研究了逆钢筋学习(IRL)问题。具体而言,我们考虑最大因果熵(MCE)IRL学习者模型,并根据专家和学习者的转换动态之间的$ \ ell_1 $ -disce提供学习者的性能下降的紧密上限。利用强大的RL文献的洞察力,我们提出了一种强大的MCE IRL算法,这是一种有效的方法来帮助这种不匹配。最后,我们经验展示了我们算法的稳定性能,而在有限和连续的MDP问题中的转换动态不匹配下的标准MCE IRL算法相比。
translated by 谷歌翻译