通过连续行动解决部分可观察到的马尔可夫决策过程(POMDP)是具有挑战性的,尤其是对于高维操作空间。为了减轻这一困难,我们提出了一种新的基于采样的在线POMDP求解器,称为使用Voronoi Trees(Advt)的自适应离散化。它结合使用蒙特卡洛树搜索与动作空间的自适应离散化以及乐观的优化,以有效地采样高维连续的动作空间并计算最佳动作。具体而言,我们使用称为Voronoi树的分层分区来适应每个采样信念的动作空间。 Voronoi树是一种二进制空间分区(BSP),它隐式地将单元格的分区保留为从单元中采样的两个点的伏诺图图。这种分区策略可以保持分区和估计每个细胞的大小的成本,即使在高维空间中,需要许多采样点才能覆盖空间。 Advt使用单元格的估计尺寸形成单元的动作值的上限结合,进而使用上等信心来指导蒙特卡洛树搜索扩展并进一步离散动作空间。该策略使Advt能够更好地利用动作空间中的本地信息,从而导致动作空间离散化更具适应性,因此与现有求解器相比,计算良好的POMDP解决方案的效率更高。对四种基准问题的模拟实验表明,与最新的连续作用POMDP求解器相比,ADVT优于高维连续作用空间的表现要好于高维连续的动作空间。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
Partially observable Markov decision processes (POMDPs) provide a flexible representation for real-world decision and control problems. However, POMDPs are notoriously difficult to solve, especially when the state and observation spaces are continuous or hybrid, which is often the case for physical systems. While recent online sampling-based POMDP algorithms that plan with observation likelihood weighting have shown practical effectiveness, a general theory characterizing the approximation error of the particle filtering techniques that these algorithms use has not previously been proposed. Our main contribution is bounding the error between any POMDP and its corresponding finite sample particle belief MDP (PB-MDP) approximation. This fundamental bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm to a POMDP by solving the corresponding particle belief MDP, thereby extending the convergence guarantees of the MDP algorithm to the POMDP. Practically, this is implemented by using the particle filter belief transition model as the generative model for the MDP solver. While this requires access to the observation density model from the POMDP, it only increases the transition sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where $C$ is the number of particles. Thus, when combined with sparse sampling MDP algorithms, this approach can yield algorithms for POMDPs that have no direct theoretical dependence on the size of the state and observation spaces. In addition to our theoretical contribution, we perform five numerical experiments on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves performance competitive with other leading continuous observation POMDP solvers.
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
路径计划是设计机器人行为的关键算法方法。基于抽样的方法,例如快速探索随机树(RRT)或概率路线图,是针对路径计划问题的突出算法解决方案。尽管其指数收敛速率,RRT只能找到次优路径。另一方面,$ \ textrm {rrt}^*$是RRT广泛​​使用的扩展名,保证了寻找最佳路径的概率完整性,但在复杂环境中缓慢收敛而在实践中遭受痛苦。此外,现实世界中的机器人环境通常是可观察到的,或者描述的动力学不好,施放了$ \ textrm {rrt}^*$在复杂任务中的应用。本文研究了用于机器人路径计划的流行蒙特卡洛树搜索(MCTS)算法的新型算法公式。值得注意的是,我们通过分析和证明其指数的收敛速率(MCPP)在完全可观察到的马尔可夫决策过程(MDP)的一部分中,并证明其指数收敛速率,而另一部分则是其概率的完整性假设有限的距离可观察性(证明草图),在部分可观察的MDP(POMDP)中找到可行的路径。我们的算法贡献使我们能够采用最近提出的MCT的变体,并具有不同的勘探策略来进行机器人路径计划。我们在模拟的2D和3D环境中进行了7度自由度(DOF)操纵器以及现实世界机器人路径计划任务中的实验评估,证明了MCPP在POMDP任务中的优势。
translated by 谷歌翻译
本文介绍了一个混合在线的部分可观察到的马尔可夫决策过程(POMDP)计划系统,该系统在存在环境中其他代理商引入的多模式不确定性的情况下解决了自主导航的问题。作为一个特别的例子,我们考虑了密集的行人和障碍物中的自主航行问题。该问题的流行方法首先使用完整的计划者(例如,混合A*)生成一条路径,具有对不确定性的临时假设,然后使用基于在线树的POMDP求解器来解决问题的不确定性,并控制问题的有限方面(即沿着路径的速度)。我们提出了一种更有能力和响应的实时方法,使POMDP规划师能够控制更多的自由度(例如,速度和标题),以实现更灵活,更有效的解决方案。这种修改大大扩展了POMDP规划师必须推荐的国家空间区域,从而大大提高了在实时控制提供的有限计算预算中找到有效的推出政策的重要性。我们的关键见解是使用多Query运动计划技术(例如,概率路线图或快速行进方法)作为先验,以快速生成在有限的地平线搜索中POMDP规划树可能达到的每个状态的高效推出政策。我们提出的方法产生的轨迹比以前的方法更安全,更有效,即使在较长的计划范围内密集拥挤的动态环境中。
translated by 谷歌翻译
Representing and reasoning about uncertainty is crucial for autonomous agents acting in partially observable environments with noisy sensors. Partially observable Markov decision processes (POMDPs) serve as a general framework for representing problems in which uncertainty is an important factor. Online sample-based POMDP methods have emerged as efficient approaches to solving large POMDPs and have been shown to extend to continuous domains. However, these solutions struggle to find long-horizon plans in problems with significant uncertainty. Exploration heuristics can help guide planning, but many real-world settings contain significant task-irrelevant uncertainty that might distract from the task objective. In this paper, we propose STRUG, an online POMDP solver capable of handling domains that require long-horizon planning with significant task-relevant and task-irrelevant uncertainty. We demonstrate our solution on several temporally extended versions of toy POMDP problems as well as robotic manipulation of articulated objects using a neural perception frontend to construct a distribution of possible models. Our results show that STRUG outperforms the current sample-based online POMDP solvers on several tasks.
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
在本文中,我们专注于在线学习主动视觉在未知室内环境中的对象的搜索(AVS)的最优策略问题。我们建议POMP++,规划战略,介绍了经典的部分可观察蒙特卡洛规划(POMCP)框架之上的新制剂,允许免费培训,在线政策在未知的环境中学习。我们提出了一个新的信仰振兴战略,允许使用POMCP与动态扩展状态空间来解决在线生成平面地图的。我们评估我们在两个公共标准数据集的方法,AVD由是从真正的3D场景渲染扫描真正的机器人平台和人居ObjectNav收购,用>10%,比国家的the-改善达到最佳的成功率技术方法。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
Rather than augmenting rewards with penalties for undesired behavior, Constrained Partially Observable Markov Decision Processes (CPOMDPs) plan safely by imposing inviolable hard constraint value budgets. Previous work performing online planning for CPOMDPs has only been applied to discrete action and observation spaces. In this work, we propose algorithms for online CPOMDP planning for continuous state, action, and observation spaces by combining dual ascent with progressive widening. We empirically compare the effectiveness of our proposed algorithms on continuous CPOMDPs that model both toy and real-world safety-critical problems. Additionally, we compare against the use of online solvers for continuous unconstrained POMDPs that scalarize cost constraints into rewards, and investigate the effect of optimistic cost propagation.
translated by 谷歌翻译
跨越多个领域的系统的自主权水平正在提高,但是这些系统仍然经历故障。减轻失败风险的一种方法是整合人类对自治系统的监督,并依靠人类在自治失败时控制人类。在这项工作中,我们通过行动建议制定了一种协作决策的方法,该建议在不控制系统的情况下改善行动选择。我们的方法通过通过建议合并共享的隐式信息来修改代理商的信念,并以比遵循建议的行动遵循更少的建议,以更少的建议来利用每个建议。我们假设协作代理人共享相同的目标,并通过有效的行动进行交流。通过假设建议的行动仅取决于国家,我们可以将建议的行动纳入对环境的独立观察。协作环境的假设使我们能够利用代理商的政策来估计行动建议的分布。我们提出了两种使用建议动作的方法,并通过模拟实验证明了该方法。提出的方法可以提高性能,同时对次优的建议也有鲁棒性。
translated by 谷歌翻译
In many real-world problems, the learning agent needs to learn a problem's abstractions and solution simultaneously. However, most such abstractions need to be designed and refined by hand for different problems and domains of application. This paper presents a novel top-down approach for constructing state abstractions while carrying out reinforcement learning. Starting with state variables and a simulator, it presents a novel domain-independent approach for dynamically computing an abstraction based on the dispersion of Q-values in abstract states as the agent continues acting and learning. Extensive empirical evaluation on multiple domains and problems shows that this approach automatically learns abstractions that are finely-tuned to the problem, yield powerful sample efficiency, and result in the RL agent significantly outperforming existing approaches.
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
具有多模式传感(AIPPMS)的自适应信息路径计划(AIPPMS)考虑了配备多个传感器的代理商的问题,每个传感器具有不同的感应精度和能量成本。代理商的目标是探索环境并在未知的,部分可观察到的环境中受到其资源约束的信息。先前的工作集中在不太一般的适应性信息路径计划(AIPP)问题上,该问题仅考虑了代理人运动对收到的观察结果的影响。 AIPPMS问题通过要求代理的原因共同出现感应和移动的影响,同时平衡资源约束与信息目标,从而增加了额外的复杂性。我们将AIPPMS问题作为一种信念马尔可夫决策过程,并具有高斯流程信念,并使用在线计划中使用顺序的贝叶斯优化方法来解决它。我们的方法始终优于以前的AIPPMS解决方案,这几乎将几乎每个实验中获得的平均奖励增加了一倍,同时还将根平方的错误在环境信念中减少了50%。我们完全开放我们的实施方式,以帮助进一步开发和比较。
translated by 谷歌翻译
不确定性下的实时计划对于在复杂的动态环境中运行的机器人至关重要。例如,考虑一下,汽车,摩托车,公共汽车等不受监管的城市交通不受监管的自动机器人车辆驾驶。机器人车辆必须在短期和长时间内计划,以便与许多具有不确定意图和不确定意图的交通参与者互动有效驾驶。然而,在很长一段时间内明确规划会产生过度的计算成本,并且在实时限制下是不切实际的。为了实现大规模计划的实时性能,这项工作从树木搜索驾驶(Lets-Drive)中引入了一种新的算法学习,该算法将计划和学习集成到封闭的循环中,并将其应用于拥挤的城市交通中的自动驾驶在模拟中。具体而言,让我们驱动器从在线规划者提供的数据中学习策略及其价值函数,该数据搜索了稀疏采样的信念树;在线规划师依次使用学习的策略和价值功能作为启发式方法来扩展其运行时性能,以实现实时机器人控制。重复这两个步骤以形成一个封闭的循环,以便计划者和学习者相互通知并同步改进。该算法以自我监督的方式自行学习,而无需人工努力明确的数据标记。实验结果表明,让驱动器的表现优于计划或学习,以及计划和学习的开环集成。
translated by 谷歌翻译
机器人对未知环境的探索从根本上是一个不确定性下决策的问题,在这种情况下,机器人必须考虑传感器测量,本地化,动作执行以及许多其他因素的不确定性。对于大规模勘探应用,自治系统必须克服依次确定哪些环境区域的挑战,可以探索哪些区域,同时安全地评估与障碍和危险地形相关的风险。在这项工作中,我们提出了一个风险意识的元级决策框架,以平衡与本地和全球勘探相关的权衡。元级决策是基于经典的等级覆盖计划者,通过在本地和全球政策之间进行切换,其总体目标是选择最有可能在随机环境中最大化奖励的政策。我们使用有关环境历史,穿术风险和动力学约束的信息,以推理成功执行本地和全球政策之间的策略执行的可能性。我们已经在模拟和各种大规模现实世界硬件测试中验证了解决方案。我们的结果表明,通过平衡本地和全球探索,我们可以更有效地显着探索大规模的环境。
translated by 谷歌翻译
Building an AI agent that can design on its own has been a goal since the 1980s. Recently, deep learning has shown the ability to learn from large-scale data, enabling significant advances in data-driven design. However, learning over prior data limits us only to solve problems that have been solved before and biases data-driven learning towards existing solutions. The ultimate goal for a design agent is the ability to learn generalizable design behavior in a problem space without having seen it before. We introduce a self-learning agent framework in this work that achieves this goal. This framework integrates a deep policy network with a novel tree search algorithm, where the tree search explores the problem space, and the deep policy network leverages self-generated experience to guide the search further. This framework first demonstrates an ability to discover high-performing generative strategies without any prior data, and second, it illustrates a zero-shot generalization of generative strategies across various unseen boundary conditions. This work evaluates the effectiveness and versatility of the framework by solving multiple versions of two engineering design problems without retraining. Overall, this paper presents a methodology to self-learn high-performing and generalizable problem-solving behavior in an arbitrary problem space, circumventing the needs for expert data, existing solutions, and problem-specific learning.
translated by 谷歌翻译
机器人通常需要解决路径规划问题,而环境的基本和离散方面则可以观察到。这引入了多模式,机器人必须能够观察并推断其环境状态。为了解决这个问题,我们介绍了计划在信仰空间中的路径树的路径优化(PTO)算法。路径树是一种类似树状的运动,具有分支点,机器人会收到可导致信仰状态更新的观察结果。机器人取决于收到的观察结果。该算法有三个主要步骤。首先,在状态空间上生长了快速探索的随机图(RRG)。其次,通过查询观察模型,将RRG扩展到信仰空间图。在第三步中,在信仰空间图上执行动态编程以提取路径树。最终的路径树结合了探索与剥削,即它平衡了获得有关环境的知识的需求,并需要达到目标。我们在导航和移动操作任务上演示了算法功能,并在最佳和运行时使用任务和运动计划方法(TAMP)表现出比基线的优势。
translated by 谷歌翻译