完全可观察到的非确定性(FONT)计划通过具有非确定性效果的行动模型不确定性。现有的FONS计划算法是有效的,并采用了广泛的技术。但是,大多数现有算法对于处理非确定性和任务规模并不强大。在本文中,我们开发了一种新颖的迭代深度优先搜索算法,该算法解决了精心的计划任务并产生了强大的循环策略。我们的算法是针对精心计划的明确设计的,更直接地解决了Fond Planning的非确定性方面,并且还利用了启发式功能的好处,以使算法在迭代搜索过程中更有效。我们将提出的算法与著名的Food Planners进行了比较,并表明它在考虑不同的指标的几种不同类型的FOND领域中具有良好的性能。
translated by 谷歌翻译
顺序决策的一种流行方法是,以机器学习(ML)方法(如策略学习)进行基于模拟器的搜索。另一方面,如果有完整的声明模型,模型放松启发式方法可以有效地指导搜索。在这项工作中,我们考虑了从业人员如何在无法使用完整符号模型的设置上改善基于ML的黑盒计划。我们表明,指定一个不完整的条带模型,该模型仅描述了问题的一部分,才能使用放松启发式方法。我们对几个计划域的发现表明,这是改善基于ML的黑盒计划的有效方法,而不是收集更多数据或调整ML架构。
translated by 谷歌翻译
我们介绍了一种新的算法,基于回归的监督学习(RSL),用于每个实例神经网络(NN)为经典计划问题定义的启发式功能。RSL使用回归来选择与目标不同距离的相关状态集。然后,RSL制定了一个监督的学习问题,以获取定义NN启发式的参数,并使用标记为目标状态的精确或估计距离的选定状态。我们的实验研究表明,RSL在覆盖范围内优于先前的经典计划NN启发式功能,同时需要减少两个数量级的训练时间。
translated by 谷歌翻译
有关行动成本的信息对于现实世界中的AI规划应用程序至关重要。最近的方法不仅依靠声明性的行动模型,还使用了在计划阶段应用的黑框外部动作成本估算器,通常是从数据中学到的。但是,这些可能在计算上很昂贵,并产生不确定的值。在本文中,我们建议对确定性计划的概括,并允许在多个估计器之间选择动作成本,以平衡计算时间与有限估计不确定性。这使问题表示能力更丰富,并且相应地更现实。重要的是,它允许计划者限制计划的准确性,从而提高可靠性,同时减少不必要的计算负担,这对于扩展到大问题至关重要。我们介绍了一种搜索算法,概括了$ a^*$,该算法解决了此类计划问题和其他算法扩展。除了理论保证外,与替代方案相比,广泛的实验还显示出大量的运行时节省节省。
translated by 谷歌翻译
基于宽度的搜索方法在广泛的测试平台中显示了最先进的性能,从经典计划问题到基于图像的模拟器,例如Atari游戏。这些方法刻度独立于状态空间的大小,但在问题宽度中指数呈指数。在实践中,运行宽度大于1的算法是计算难以解决的,禁止IW解决更高的宽度问题。在本文中,我们介绍了一个分层算法,该算法在两个抽象级别中计划。高级计划者使用从低级修剪决策中逐步发现的抽象功能。我们在经典规划PDDL域中以及基于像素的模拟器域中说明了该算法。在古典规划中,我们展示了IW(1)在两个级别的抽象中如何解决宽度2的问题。对于基于像素的域,我们展示了如何结合学习的策略和学习价值函数,所提出的分层IW可以胜过目前具有稀疏奖励的Atari游戏的扁平IW策划者。
translated by 谷歌翻译
分层任务网络(HTN)形式主义用于将任务分解为staks表示各种计划问题。已经提出了许多技术来解决此类等级计划问题。一种特定的技术是将层次计划问题编码为经典条款规划问题。该技术的一个优点是直接受益于Strips Planners的不断改进。但是,仍然几乎没有有效和表现力的编码。在本文中,我们提出了一个新的HTN,以编码带有并发计划的编码。我们通过实验表明,这对层次IPC基准测试的编码优于先前的方法。
translated by 谷歌翻译
In cooperative Multi-Agent Planning (MAP), a set of goals has to be achieved by a set of agents. Independently of whether they perform a pre-assignment of goals to agents or they directly search for a solution without any goal assignment, most previous works did not focus on a fair distribution/achievement of goals by agents. This paper adapts well-known fairness schemes to MAP, and introduces two novel approaches to generate cost-aware fair plans. The first one solves an optimization problem to pre-assign goals to agents, and then solves a centralized MAP task using that assignment. The second one consists of a planning-based compilation that allows solving the joint problem of goal assignment and planning while taking into account the given fairness scheme. Empirical results in several standard MAP benchmarks show that these approaches outperform different baselines. They also show that there is no need to sacrifice much plan cost to generate fair plans.
translated by 谷歌翻译
在现实世界应用中,推理不完整的知识,传感,时间概念和数字约束的能力至关重要。尽管几个AI计划者能够处理其中一些要求,但它们主要限于特定类型的约束问题。本文提出了一种新的计划方法,该方法将临时计划构建结合在时间计划框架中,提供考虑数字约束和不完整知识的解决方案。我们建议对计划域定义语言(PDDL)进行较小的扩展,以模型(i)不完整,(ii)通过未知命题进行操作的知识传感动作,以及(iii)非确定性感应效应的可能结果。我们还引入了一组新的计划域来评估我们的求解器,该求解器在各种问题上表现出良好的性能。
translated by 谷歌翻译
本文收集了提交给核心挑战2022的求解器和ISR实例的所有描述。
translated by 谷歌翻译
This paper presents a new approach for analyzing and identifying potentially useful generalized plans. It presents a new conceptual framework along with an algorithmic process for assessing termination and reachability related properties of generalized plans. The presented framework builds upon classic results on the analysis of graphs to decompose generalized plans into smaller components in a novel algorithm for conducting a hierarchical analysis for termination of arbitrary generalized plans. Theoretical analysis of the new framework establishes soundness of the presented algorithms and shows how it goes beyond existing approaches; empirical analysis illustrates the scope of this approach. Our analysis shows that this new approach can effectively identify termination for a significantly larger class of generalized plans than was possible using existing methods.
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
已经开发了概率模型检查,用于验证具有随机和非季度行为的验证系统。鉴于概率系统,概率模型检查器占用属性并检查该系统中的属性是否保持。因此,概率模型检查提供严谨的保证。然而,到目前为止,概率模型检查专注于所谓的模型,其中一个状态由符号表示。另一方面,通常需要在规划和强化学习中进行关系抽象。各种框架处理关系域,例如条带规划和关系马尔可夫决策过程。使用命题模型检查关系设置需要一个地接地模型,这导致了众所周知的状态爆炸问题和难以承承性。我们提出了PCTL-Rebel,一种用于验证关系MDP的PCTL属性的提升模型检查方法。它延长了基于关系模型的强化学习技术的反叛者,朝着关系PCTL模型检查。 PCTL-REBEL被提升,这意味着而不是接地,模型利用对称在关系层面上整体的一组对象。从理论上讲,我们表明PCTL模型检查对于具有可能无限域的关系MDP可判定,条件是该状态具有有界大小。实际上,我们提供算法和提升关系模型检查的实现,并且我们表明提升方法提高了模型检查方法的可扩展性。
translated by 谷歌翻译
通过深度神经网络实现的A*算法的启发式函数的优化通常是通过最大程度地减少正方形根损失的目标成本估计值来完成的。本文认为,这不一定会导致对A*算法的更快搜索,因为其执行依赖于相对值而不是绝对值。作为缓解措施,我们提出了L*损失,该损失是A*搜索中过度扩展状态的数量上限。当用于优化最先进的深度神经网络的L*损失,用于在索科班等迷宫领域的自动化计划和带有传送的迷宫,可显着改善解决问题的比例,基础计划的质量,并降低扩大状态的数量达到约50%
translated by 谷歌翻译
分层任务网络(HTN)计划者使用具有额外域知识的分解过程生成计划,以指导搜索计划任务。尽管域专家会开发HTN描述,但他们可能会反复描述相同的先决条件或很少使用或可能被分解的方法。通过利用三阶段的编译器设计,我们可以轻松地支持更多的语言描述和预处理优化,这些优化可以极大地提高此类域中的运行时效率。在本文中,我们使用HTN IPC 2020中使用的高血压HTN计划者评估了这种优化。
translated by 谷歌翻译
最佳路径规划是在优化目标的起始和目标之间找到有效状态的问题。知情路径规划算法顺序他们的搜索与特定于问题的知识表达为启发式,并且可以比未表现算法更有效的数量级。启发式最有效的是,当他们准确且计算地廉价才能评估,但这些通常是矛盾的特征。这使得适当的启发式难以满足许多问题。本文提出了两个几乎肯定的渐近最优采样的路径规划算法,以解决这一挑战,自适应地通知的树木(AIT *)和精力知的树木(EIT *)。这些算法使用非对称双向搜索,其中两个搜索彼此连续通知。这允许AIT *和EIT *通过同时计算和利用越来越准确,特定于问题的启发式来改善规划性能。 AIT *和EIT *相对于其他基于样品的算法的好处是在优化路径长度和障碍物间隙的十二个问题上进行了十二个问题。实验表明,AIT *和EIT *优于优化障碍物清除的问题的其他算法,其中先验成本启发式往往是无效的,并且仍然对最小化路径长度的问题表现良好,这种启发式通常是有效的。
translated by 谷歌翻译
3D场景图(3DSG)是新兴的描述;统一符号,拓扑和度量场景表示。但是,典型的3DSG即使在小环境中包含数百个对象和符号。完整图上的任务计划是不切实际的。我们构建任务法,这是第一个大规模的机器人任务计划基准3DSGS。尽管大多数基准在该领域的基准努力都集中在基于愿景的计划上,但我们系统地研究了符号计划,以使计划绩效与视觉表示学习相结合。我们观察到,在现有方法中,基于经典和学习的计划者都不能在完整的3DSG上实时计划。实现实时计划需要(a)稀疏3DSG进行可拖动计划的进展,以及(b)设计更好利用3DSG层次结构的计划者。针对前一个目标,我们提出了磨砂膏,这是一种由任务条件的3DSG稀疏方法。使经典计划者能够匹配,在某些情况下可以超过最新的学习计划者。我们提出寻求后一个目标,这是一种使学习计划者能够利用3DSG结构的程序,从而减少了当前最佳方法所需的重型查询数量的数量级。我们将开放所有代码和基线,以刺激机器人任务计划,学习和3DSGS的交叉点进行进一步的研究。
translated by 谷歌翻译
复杂的推理问题包含确定良好行动计划所需的计算成本各不相同的状态。利用此属性,我们提出了自适应亚go搜索(ADASUBS),这是一种适应性地调整计划范围的搜索方法。为此,ADASUBS在不同距离上产生了不同的子目标。采用验证机制来迅速滤除无法到达的子目标,从而使人专注于可行的进一步子目标。通过这种方式,ADASUBS受益于计划的效率更长的子目标,以及对较短的计划的良好控制。我们表明,ADASUB在三个复杂的推理任务上大大超过了层次规划算法:Sokoban,The Rubik的Cube和不平等现象证明了基准INT,为INT设定了新的最先进。
translated by 谷歌翻译
在AI研究中,合成动作计划通常使用了抽象地指定由于动作而导致的动作的描述性模型,并针对有效计算状态转换来定制。然而,执行计划的动作已经需要运行模型,其中使用丰富的计算控制结构和闭环在线决策来指定如何在非预定的执行上下文中执行动作,对事件作出反应并适应展开情况。整合行动和规划的审议演员通常需要将这两种模型一起使用 - 在尝试开发不同的型号时会导致问题,验证它们的一致性,并顺利交错和规划。作为替代方案,我们定义和实施综合作用和规划系统,其中规划和行为使用相同的操作模型。这些依赖于提供丰富的控制结构的分层任务导向的细化方法。称为反应作用发动机(RAE)的作用组件由众所周知的PRS系统启发。在每个决定步骤中,RAE可以从计划者获取建议,以获得关于效用功能的近乎最佳选择。随时计划使用像UPOM的UCT类似的蒙特卡罗树搜索程序,其推出是演员操作模型的模拟。我们还提供与RAE和UPOM一起使用的学习策略,从在线代理体验和/或模拟计划结果,从决策背景下映射到方法实例以及引导UPOM的启发式函数。我们展示了富豪朝向静态域的最佳方法的渐近融合,并在实验上展示了UPOM和学习策略显着提高了作用效率和鲁棒性。
translated by 谷歌翻译
大多数古典规划者使用接地作为预处理步骤,基本上减少了命题逻辑的规划。然而,接地涉及使用具体对象组合实例化所有动作规则,并导致基于SAT / QBF的规划仪的大编码。当动作有许多参数时,这种严重成本成为主要的瓶颈,例如IPC 2018竞争中的有机合成问题。我们提供了一个紧凑的QBF编码,它是对数的对数,并通过使用对象组合的通用量化完全避免接地。我们表明我们可以解决一些有机综合问题,该问题不能通过任何SAT / QBF基于基于统一策略者处理的有机合成问题。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译