有关行动成本的信息对于现实世界中的AI规划应用程序至关重要。最近的方法不仅依靠声明性的行动模型,还使用了在计划阶段应用的黑框外部动作成本估算器,通常是从数据中学到的。但是,这些可能在计算上很昂贵,并产生不确定的值。在本文中,我们建议对确定性计划的概括,并允许在多个估计器之间选择动作成本,以平衡计算时间与有限估计不确定性。这使问题表示能力更丰富,并且相应地更现实。重要的是,它允许计划者限制计划的准确性,从而提高可靠性,同时减少不必要的计算负担,这对于扩展到大问题至关重要。我们介绍了一种搜索算法,概括了$ a^*$,该算法解决了此类计划问题和其他算法扩展。除了理论保证外,与替代方案相比,广泛的实验还显示出大量的运行时节省节省。
translated by 谷歌翻译
计划问题的定义和表示是AI计划研究的核心。关键部分是动作模型的表示。数十年的进步改善声明性行动模型表示,导致了许多理论进步,并且有能力,有效的,独立于领域的计划者。但是,尽管该领域成熟,但AI规划技术仍然很少在研究界之外使用,这表明当前的表示未能捕获现实世界中的要求,例如利用复杂的数学功能和从数据中汲取的模型。我们认为这是因为假定建模过程已在计划过程之前进行并完成,即离线计划的离线建模。这种方法固有的挑战包括:声明性建模语言的表现力有限;早期致力于建模选择和计算,这是使用每个动作模型的最合适分辨率的排除 - 只有在计划期间才知道;并且难以可靠地使用非决定性,学识渊博的模型。因此,我们建议更改AI规划过程,以便在离线计划中进行在线建模,即使用访问计划过程的一部分计算甚至生成的动作模型。这概括了现有方法(离线建模)。拟议的定义承认了新的计划过程,我们建议一种具体的实施,以证明这种方法。我们勾勒出作为第一次尝试通过使用行动成本估算器进行计划的初步尝试获得的初始结果。我们通过讨论公开挑战来结束。
translated by 谷歌翻译
图中最短的路径问题是理论和应用的基石。现有的工作是边缘重量访问时间,但通常会忽略边缘重量计算时间。在本文中,我们提出了一个加权有向图的广义框架,其中每个边缘的成本可以通过多个估计器动态估计,该估计器提供不同的成本范围和运行时间。这引发了几个通用的最短路径问题,可以优化路径成本的不同方面,同时需要保证成本不确定性,从而为建模现实问题提供了更好的基础。我们提供完整的,任何时间来解决这些问题,并提供解决方案质量的保证。
translated by 谷歌翻译
\ textit {约束路径发现}的经典问题是一个经过充分研究但充满挑战的主题,在各个领域,例如沟通和运输等各个领域的应用。权重限制了最短路径问题(WCSPP),作为仅具有一个侧面约束的约束路径查找的基本形式,旨在计划成本最佳路径,其权重/资源使用受到限制。鉴于问题的双标准性质(即处理路径的成本和权重),解决WCSPP的方法具有一些带有双目标搜索的共同属性。本文在约束路径查找和双目标搜索中利用了最新的基于A*的最新技术,并为WCSPP提供了两种精确的解决方案方法,两者都可以在非常大的图表上解决硬性问题实例。我们从经验上评估了算法在新的大型和现实的问题实例上的性能,并在时空指标中显示出它们比最新算法的优势。本文还调查了优先级队列在被a*的约束搜索中的重要性。我们通过对逼真的和随机图进行了广泛的实验来展示,基于桶的队列没有打破打盘的方式可以有效地改善详尽的双标准搜索的算法性能。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
通过深度神经网络实现的A*算法的启发式函数的优化通常是通过最大程度地减少正方形根损失的目标成本估计值来完成的。本文认为,这不一定会导致对A*算法的更快搜索,因为其执行依赖于相对值而不是绝对值。作为缓解措施,我们提出了L*损失,该损失是A*搜索中过度扩展状态的数量上限。当用于优化最先进的深度神经网络的L*损失,用于在索科班等迷宫领域的自动化计划和带有传送的迷宫,可显着改善解决问题的比例,基础计划的质量,并降低扩大状态的数量达到约50%
translated by 谷歌翻译
Partially observable Markov decision processes (POMDPs) provide a flexible representation for real-world decision and control problems. However, POMDPs are notoriously difficult to solve, especially when the state and observation spaces are continuous or hybrid, which is often the case for physical systems. While recent online sampling-based POMDP algorithms that plan with observation likelihood weighting have shown practical effectiveness, a general theory characterizing the approximation error of the particle filtering techniques that these algorithms use has not previously been proposed. Our main contribution is bounding the error between any POMDP and its corresponding finite sample particle belief MDP (PB-MDP) approximation. This fundamental bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm to a POMDP by solving the corresponding particle belief MDP, thereby extending the convergence guarantees of the MDP algorithm to the POMDP. Practically, this is implemented by using the particle filter belief transition model as the generative model for the MDP solver. While this requires access to the observation density model from the POMDP, it only increases the transition sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where $C$ is the number of particles. Thus, when combined with sparse sampling MDP algorithms, this approach can yield algorithms for POMDPs that have no direct theoretical dependence on the size of the state and observation spaces. In addition to our theoretical contribution, we perform five numerical experiments on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves performance competitive with other leading continuous observation POMDP solvers.
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
在以并发方式解决团队范围的任务时,多机构系统可能非常有效。但是,如果没有正确的同步,则很难保证合并行为的正确性,例如遵循子任务的特定顺序或同时进行协作。这项工作解决了在复杂的全球任务下,将最低时间的任务计划问题称为线性时间逻辑(LTL)公式。这些任务包括独立本地动作和直接子团队合作的时间和空间要求。提出的解决方案是一种随时随地的算法,结合了对任务分解的基础任务自动机的部分顺序分析,以及用于任务分配的分支和绑定(BNB)搜索方法。提供最小的完成时间的合理性,完整性和最佳性分析。还表明,在搜索范围内持续在时间预算之内,可以迅速达成可行且近乎最佳的解决方案。此外,为了处理在线执行期间任务持续时间和代理失败的波动,提出了适应算法来同步执行状态并动态地重新分配未完成的子任务以保持正确性和最佳性。两种算法通过数值模拟和硬件实验在大规模系统上进行了严格的验证,该算法对几个强基地进行了验证。
translated by 谷歌翻译
在这项工作中,我们向不确定性的决策问题介绍了一种新的有效的解决方案方法,可以在一个可能的高维状态空间中作为信仰空间中的决策制定。通常,为了解决决策问题,根据一些目标,应该识别来自一组候选者的最佳行动。我们声称人们通常可以生成并解决类似的尚未简化的决策问题,这可以更有效地解决。明智的简化方法可以导致相同的动作选择,或者可以保证最佳状态最大损耗的方法。此外,这种简化与状态推断分离,并且不会损害其精度,因为所选动作最终应用于原始状态。首先,我们介绍了一般决策问题的概念,并为这一方法的连贯制定提供了理论框架。然后,我们几乎将这些想法应用于信仰空间中的决策问题,这可以通过考虑初始信仰的稀疏近似来简化。我们提供的可扩展信念稀疏算法能够产生保证与原始问题一致的解决方案。我们展示了方法在解决现实主动场所问题的解决方案中的好处,并设法显着降低计算时间,在解决方案的质量上没有损失。这项工作既有基础实用,又拥有众多可能的扩展。
translated by 谷歌翻译
双向运动规划与其单向对应物相比,平均地减少计划时间。在单次查询可行的运动规划中,使用双向搜索来查找连续运动计划需要前向和反向搜索树之间的边缘连接。这样的树木连接需要解决两点边值问题问题(BVP)。然而,两点BVP解决方案可能是困难的或不可能计算许多系统。我们提出了一种新的双向搜索策略,不需要解决两点BVP。反向树的成本信息而不是直接连接前向和反向树木,而是用作前向搜索的指导启发式。这使得前向搜索能够快速收敛到可行的解决方案而不解决两点BVP。我们提出了两个新的算法(GBRRT和GABRRT),使用此策略并使用多种动态系统和现实世界硬件实验运行多个软件模拟,以表明我们的算法表现出对现有最先进的方法进行的或更好在快速找到初始可行的解决方案时。
translated by 谷歌翻译
完全可观察到的非确定性(FONT)计划通过具有非确定性效果的行动模型不确定性。现有的FONS计划算法是有效的,并采用了广泛的技术。但是,大多数现有算法对于处理非确定性和任务规模并不强大。在本文中,我们开发了一种新颖的迭代深度优先搜索算法,该算法解决了精心的计划任务并产生了强大的循环策略。我们的算法是针对精心计划的明确设计的,更直接地解决了Fond Planning的非确定性方面,并且还利用了启发式功能的好处,以使算法在迭代搜索过程中更有效。我们将提出的算法与著名的Food Planners进行了比较,并表明它在考虑不同的指标的几种不同类型的FOND领域中具有良好的性能。
translated by 谷歌翻译
本文介绍了经典懒惰的概率路线图算法(Lazy PRM)的修订,该算法是由配对PRM和一种新颖的分支和切割(BC)算法产生的。切割是动态生成的约束,这些约束在PRM选择的几何图上施加的最低成本路径。削减消除无法映射到满足适当定义运动学约束的平滑计划中的路径。我们通过在最低成本路径中将花键拟合到顶点来生成候选平滑计划。使用最近提出的算法对计划进行了验证,该算法将它们映射到有限的痕迹中,而无需选择固定的离散步骤。痕量元素准确地描述了计划交叉约束边界何时模拟算术精度。我们使用我们最近提出的谷仓基准的方法评估了几个计划者,我们报告了方法可扩展性的证据。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
This paper presents a new approach for analyzing and identifying potentially useful generalized plans. It presents a new conceptual framework along with an algorithmic process for assessing termination and reachability related properties of generalized plans. The presented framework builds upon classic results on the analysis of graphs to decompose generalized plans into smaller components in a novel algorithm for conducting a hierarchical analysis for termination of arbitrary generalized plans. Theoretical analysis of the new framework establishes soundness of the presented algorithms and shows how it goes beyond existing approaches; empirical analysis illustrates the scope of this approach. Our analysis shows that this new approach can effectively identify termination for a significantly larger class of generalized plans than was possible using existing methods.
translated by 谷歌翻译
在AI研究中,合成动作计划通常使用了抽象地指定由于动作而导致的动作的描述性模型,并针对有效计算状态转换来定制。然而,执行计划的动作已经需要运行模型,其中使用丰富的计算控制结构和闭环在线决策来指定如何在非预定的执行上下文中执行动作,对事件作出反应并适应展开情况。整合行动和规划的审议演员通常需要将这两种模型一起使用 - 在尝试开发不同的型号时会导致问题,验证它们的一致性,并顺利交错和规划。作为替代方案,我们定义和实施综合作用和规划系统,其中规划和行为使用相同的操作模型。这些依赖于提供丰富的控制结构的分层任务导向的细化方法。称为反应作用发动机(RAE)的作用组件由众所周知的PRS系统启发。在每个决定步骤中,RAE可以从计划者获取建议,以获得关于效用功能的近乎最佳选择。随时计划使用像UPOM的UCT类似的蒙特卡罗树搜索程序,其推出是演员操作模型的模拟。我们还提供与RAE和UPOM一起使用的学习策略,从在线代理体验和/或模拟计划结果,从决策背景下映射到方法实例以及引导UPOM的启发式函数。我们展示了富豪朝向静态域的最佳方法的渐近融合,并在实验上展示了UPOM和学习策略显着提高了作用效率和鲁棒性。
translated by 谷歌翻译
在多代理路径查找(MAPF)问题中,一组在图表上移动的代理必须达到其自身各自的目的地,而无需间间冲突。在实用的MAPF应用中,如自动仓库导航,偶尔有数百个或更多代理商,MAPF必须在终身基础上迭代地解决。这种情景排除了离线计算密集型最佳方法的简单调整;因此,可扩展的子最优算法用于此类设置。理想的可扩展算法适用于可预测计算时间的迭代方案和输出合理的解决方案。对于上述目的,在本研究中,提出了一种具有回溯(PIBT)的优先级继承的新型算法以迭代地解决MAPF。 PIBT依赖于适应性优先级方案,专注于多个代理的相邻运动;因此它可以应用于若干域。我们证明,无论其数量如何,当环境是图形时,所有代理都保证在有限的时间内达到目的地,使得所有相邻节点属于一个简单的周期(例如,双绞线)。实验结果涵盖了各种场景,包括真正的机器人演示,揭示了所提出的方法的好处。即使用数百种代理商,PIBT也会立即产生可接受的解决方案,可以解决其他事实上MAPF方法的大型情况。此外,PIBT在运行时和解决方案质量的自动化仓库中的传送包中的迭代方案上占据了现有方法。
translated by 谷歌翻译
当机器人计划时,不同的型号可以提供不同水平的忠诚度。分析模型通常很快进行评估,但仅在有限的条件范围内起作用。同时,物理模拟器可以有效地建模对象之间的复杂相互作用,但通常在计算上更昂贵。学习何时在各种模型之间切换可以大大提高计划速度和任务成功的可靠性。在这项工作中,我们学习模型偏差估计器(MDE),以预测现实世界状态与通过过渡模型输出的状态之间的误差。 MDE可用于定义一个模型前提,该模型先决条件描述了哪些过渡是准确建模的。然后,我们提出了一个使用学到的模型先决条件在各种模型之间切换的计划者,以便在准确的条件下使用模型,并在可能的情况下更快地对模型进行优先级排序。我们在两个现实世界任务上评估我们的方法:将杆放入盒子中,将杆放入封闭的抽屉中。
translated by 谷歌翻译
顺序决策的一种流行方法是,以机器学习(ML)方法(如策略学习)进行基于模拟器的搜索。另一方面,如果有完整的声明模型,模型放松启发式方法可以有效地指导搜索。在这项工作中,我们考虑了从业人员如何在无法使用完整符号模型的设置上改善基于ML的黑盒计划。我们表明,指定一个不完整的条带模型,该模型仅描述了问题的一部分,才能使用放松启发式方法。我们对几个计划域的发现表明,这是改善基于ML的黑盒计划的有效方法,而不是收集更多数据或调整ML架构。
translated by 谷歌翻译
本文提出了一个基于抽样的运动计划者,该计划将RRT*(迅速探索随机树星)集成到预计运动原始图的数据库中,以减轻其计算负载,并允许在动态或部分已知的环境中进行运动计划。该数据库是通过在某些网格空间中考虑一组初始状态和最终状态对来构建的,并确定每个对与系统动力学和约束兼容的最佳轨迹,同时最小化成本。通过在网格状态空间中提取样品并在数据库中选择将其连接到现有节点的数据库中的最佳无障碍运动原始性,将节点逐渐添加到RRT*算法中可行轨迹树中的节点。如果可以通过无障碍的运动原始的原始较低的成本从新的采样状态达到一些节点,则树将重新接线。因此,运动计划的计算更密集的部分被移至数据库构建的初步离线阶段(以网格造成的某些性能退化为代价。可以对网格分辨率进行调整,以便在数据库的最优性和大小之间妥协。由于网格分辨率为零,并且采样状态的数量增长到无穷大,因此规划器被证明是渐近的最佳选择。
translated by 谷歌翻译