本文介绍了在公开不确定域中描述和解释机器人目标的问题的集成解决方案。鉴于所需情况的正式规范,其中仅通过其性质描述了对象,通用规划和推理工具用于导出机器人的适当行动。这些目标是通过在线组合的分层规划,状态估计和执行,其在具有实质上闭塞和传感误差的真实机器人域中运行的鲁棒性。
translated by 谷歌翻译
感知,规划,估算和控制的当代方法允许机器人在不确定,非结构化环境中的远程代理中稳健运行。此进度现在创造了机器人不仅在隔离,而且在我们的复杂环境中运行的机器人。意识到这个机会需要一种高效且灵活的媒介,人类可以与协作机器人沟通。自然语言提供了一种这样的媒体,通过对自然语言理解的统计方法的重大进展,现在能够解释各种自由形式命令。然而,大多数当代方法需要机器人环境的详细,现有的空间语义地图,这些环境模拟了话语可能引用的可能引用的空间。因此,当机器人部署在新的,先前未知或部分观察到的环境中时,这些方法发生故障,特别是当环境的心理模型在人类运营商和机器人之间不同时。本文提供了一种新的学习框架的全面描述,允许现场和服务机器人解释并正确执行先验未知,非结构化环境中的自然语言指令。对于我们的方法而不是我们的语言作为“传感器” - 在话语中隐含的“传感器” - 推断的空间,拓扑和语义信息,然后利用这些信息来学习在潜在环境模型上的分布。我们将此分布纳入概率,语言接地模型中,并在机器人的动作空间的象征性表示中推断出分布。我们使用模仿学习来确定对环境和行为分布的原因的信仰空间政策。我们通过各种导航和移动操纵实验评估我们的框架。
translated by 谷歌翻译
多步兵的操纵任务(例如打开推动的儿童瓶)需要机器人来做出各种计划选择,这些选择受到在任务期间施加力量的要求所影响的各种计划。机器人必须推荐与动作顺序相关的离散和连续选择,例如是否拾取对象以及每个动作的参数,例如如何掌握对象。为了实现计划和执行有力的操纵,我们通过限制了扭矩和摩擦限制,通过拟议的有力的运动链约束来增强现有的任务和运动计划者。在三个领域,打开一个防儿童瓶,扭动螺母并切割蔬菜,我们演示了系统如何从组合组合组合中进行选择。我们还展示了如何使用成本敏感的计划来查找强大的策略和参数物理参数的不确定性。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
用声明知识(RDK)和顺序决策(SDM)推理是人工智能的两个关键研究领域。RDK方法的原因是具有声明领域知识,包括常识性知识,它是先验或随着时间的收购,而SDM方法(概率计划和强化学习)试图计算行动政策,以最大程度地提高时间范围内预期的累积效用;两类方法的原因是存在不确定性。尽管这两个领域拥有丰富的文献,但研究人员尚未完全探索他们的互补优势。在本文中,我们调查了利用RDK方法的算法,同时在不确定性下做出顺序决策。我们讨论重大发展,开放问题和未来工作的方向。
translated by 谷歌翻译
最近的作品表明,如何将大语言模型(LLM)的推理能力应用于自然语言处理以外的领域,例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面:可用技能的曲目,这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能,还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化,以响应代理商自己的选择。在这项工作中,我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源,而无需任何其他培训。我们建议,通过利用环境反馈,LLM能够形成内部独白,使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源,例如成功检测,场景描述和人类互动。我们发现,闭环语言反馈显着改善了三个领域的高级指导完成,包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
机器人对未知环境的探索从根本上是一个不确定性下决策的问题,在这种情况下,机器人必须考虑传感器测量,本地化,动作执行以及许多其他因素的不确定性。对于大规模勘探应用,自治系统必须克服依次确定哪些环境区域的挑战,可以探索哪些区域,同时安全地评估与障碍和危险地形相关的风险。在这项工作中,我们提出了一个风险意识的元级决策框架,以平衡与本地和全球勘探相关的权衡。元级决策是基于经典的等级覆盖计划者,通过在本地和全球政策之间进行切换,其总体目标是选择最有可能在随机环境中最大化奖励的政策。我们使用有关环境历史,穿术风险和动力学约束的信息,以推理成功执行本地和全球政策之间的策略执行的可能性。我们已经在模拟和各种大规模现实世界硬件测试中验证了解决方案。我们的结果表明,通过平衡本地和全球探索,我们可以更有效地显着探索大规模的环境。
translated by 谷歌翻译
最近的自主代理和机器人的应用,如自动驾驶汽车,情景的培训师,勘探机器人和服务机器人带来了关注与当前生成人工智能(AI)系统相关的至关重要的信任相关挑战。尽管取得了巨大的成功,基于连接主义深度学习神经网络方法的神经网络方法缺乏解释他们对他人的决策和行动的能力。没有符号解释能力,它们是黑色盒子,这使得他们的决定或行动不透明,这使得难以信任它们在安全关键的应用中。最近对AI系统解释性的立场目睹了可解释的人工智能(XAI)的几种方法;然而,大多数研究都专注于应用于计算科学中的数据驱动的XAI系统。解决越来越普遍的目标驱动器和机器人的研究仍然缺失。本文评论了可解释的目标驱动智能代理和机器人的方法,重点是解释和沟通代理人感知功能的技术(示例,感官和愿景)和认知推理(例如,信仰,欲望,意图,计划和目标)循环中的人类。审查强调了强调透明度,可辨与和持续学习以获得解释性的关键策略。最后,本文提出了解释性的要求,并提出了用于实现有效目标驱动可解释的代理和机器人的路线图。
translated by 谷歌翻译
我们提出了一种新颖的通用方法,该方法可以找到动作的,离散的对象和效果类别,并为非平凡的行动计划建立概率规则。我们的机器人使用原始操作曲目与对象进行交互,该曲目被认为是早先获取的,并观察到它在环境中可以产生的效果。为了形成动作界面的对象,效果和关系类别,我们在预测性的,深的编码器折线网络中采用二进制瓶颈层,该网络以场景的形象和应用为输入应用的动作,并在场景中生成结果效果在像素坐标中。学习后,二进制潜在向量根据机器人的相互作用体验代表动作驱动的对象类别。为了将神经网络代表的知识提炼成对符号推理有用的规则,对决策树进行了训练以复制其解码器功能。概率规则是从树的决策路径中提取的,并在概率计划域定义语言(PPDDL)中表示,允许现成的计划者根据机器人的感觉运动体验所提取的知识进行操作。模拟机器人操纵器的建议方法的部署使发现对象属性的离散表示,例如``滚动''和``插入''。反过来,将这些表示形式用作符号可以生成有效的计划来实现目标,例如建造所需高度的塔楼,证明了多步物体操纵方法的有效性。最后,我们证明了系统不仅通过评估其对MNIST 8个式式域的适用性来限于机器人域域,在该域​​中,学习的符号允许生成将空图块移至任何给定位置的计划。
translated by 谷歌翻译
为了使机器人能够实现高级目标,工程师通常会编写应用现有专业技能的脚本,例如导航,对象检测和操纵以实现这些目标。编写好的脚本是具有挑战性的,因为它们必须智能平衡物理机器人的动作和传感器的固有随机性以及它拥有的有限信息。原则上,AI计划可用于应对这一挑战并自动生成良好的行为策略。但这需要通过三个障碍。首先,AI必须了解每个技能对世界的影响。其次,我们必须弥合了解技能的作用和其代码中使用的低级状态变量之间更抽象的级别之间的差距。第三,将所有组件绑在一起需要大量的集成工作。我们描述了一种将机器人技能集成到工作的自主机器人控制器中的方法,该机器人的机器人控制器计划其技能以完成指定任务并具有四个关键优势。 1)使用概率编程语言中的想法,我们的生成技能文档语言(GSDL)使代码文档更简单,紧凑,更具表现力。 2)表达抽象映射(AM)桥接了低级机器人代码和抽象AI计划模型之间的差距。 3)控制器可以使用任何正确记录的技能,而无需任何额外的编程工作,提供插头的经验。 4)POMDP求解器计划执行技能,同时适当地平衡了部分可观察性,随机行为和嘈杂的传感。
translated by 谷歌翻译
在现实世界应用中,推理不完整的知识,传感,时间概念和数字约束的能力至关重要。尽管几个AI计划者能够处理其中一些要求,但它们主要限于特定类型的约束问题。本文提出了一种新的计划方法,该方法将临时计划构建结合在时间计划框架中,提供考虑数字约束和不完整知识的解决方案。我们建议对计划域定义语言(PDDL)进行较小的扩展,以模型(i)不完整,(ii)通过未知命题进行操作的知识传感动作,以及(iii)非确定性感应效应的可能结果。我们还引入了一组新的计划域来评估我们的求解器,该求解器在各种问题上表现出良好的性能。
translated by 谷歌翻译
在复杂的协作任务上共同努力需要代理商协调他们的行为。在实际交互之前明确或完全执行此操作并不总是可能也不充分。代理人还需要不断了解他人的当前行动,并迅速适应自己的行为。在这里,我们调查我们称之为信仰共鸣的精神状态(意图,目标)的效率,自动协调过程如何导致协作的解决问题。我们为协作剂(HAICA)提出了分层有源推断的模型。它将高效的贝叶斯理论与基于预测处理和主动推断的感知动作系统相结合。通过让一个药物的推断精神状态影响另一个代理人的预测信念来实现信仰共振,从而实现了他自己的目标和意图。这样,推断的精神状态影响了代理人自己的任务行为,没有明确的协作推理。我们在超核域中实施和评估此模型,其中两个代理具有不同程度的信仰共振组合,以满足膳食订单。我们的结果表明,基于HAICA的代理商实现了与最近现有技术方法相当的团队表现,同时产生了更低的计算成本。我们还表明,信仰共振在环境中特别有益,代理商是对环境的不对称知识。结果表明,信仰共振和有效推断允许快速高效的代理协调,因此可以用作合作认知剂的结构块。
translated by 谷歌翻译
在对关节对象表示表示的工作之后,引入了面向对象的网络(FOON)作为机器人的知识图表示。以双方图的形式,Foon包含符号(高级)概念,可用于机器人对任务及其对象级别计划的环境的理解及其环境。在本文之前,几乎没有做任何事情来证明如何通过任务树检索从FOON获取的任务计划如何由机器人执行,因为Foon中的概念太抽象了,无法立即执行。我们提出了一种分层任务计划方法,该方法将FOON图转换为基于PDDL的域知识表示操作计划的表示。由于这个过程,可以获取一个任务计划,即机器人可以从头到尾执行,以利用动态运动原始功能(DMP)的形式使用动作上下文和技能。我们演示了从计划到使用Coppeliasim执行的整个管道,并展示如何将学习的动作上下文扩展到从未见过的场景。
translated by 谷歌翻译
行为树(BT)是一种在自主代理中(例如机器人或计算机游戏中的虚拟实体)之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要,这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中,我们将首先对BTS进行介绍,然后我们描述BTS与早期切换结构的关系,并且在许多情况下如何概括。然后,这些想法被用作一套高效且易于使用的设计原理的基础。安全性,鲁棒性和效率等属性对于自主系统很重要,我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具,我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后,我们描述了一组扩展的工具,以捕获随机BT的行为,其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。
translated by 谷歌翻译
在执行视觉伺服或对象跟踪任务时,有效的传感器规划对于保持目标的目标是必不可少的,或者在缺失时重新定位它们。特别是,当处理从传感器的视野中缺少的已知目标时,我们建议使用与上下文信息相关的先验知识来估计其可能的位置。为此,本研究提出了一种动态贝叶斯网络,它使用上下文信息来有效地搜索目标。 Monte Carlo颗粒滤波器用于近似目标状态的后验概率,从中定义不确定性。我们通过信息理论形式主义定义机器人的实用程序函数,因为寻求最佳动作减少了任务的不确定性,提示机器人代理商调查最可能存在的目标的位置。使用上下文状态模型,我们使用部分可观察的Markov决策过程设计代理的高级决策框架。根据通过顺序观察的基础上下文的估计信仰状态,决定了机器人的导航行动进行探索性和检测任务。通过使用这种多模态上下文模型,我们的代理可以有效处理基本动态事件,例如妨碍目标或从视野中的缺失。我们实时实施并展示移动机器人的这些功能。
translated by 谷歌翻译
The concept of intelligent system has emerged in information technology as a type of system derived from successful applications of artificial intelligence. The goal of this paper is to give a general description of an intelligent system, which integrates previous approaches and takes into account recent advances in artificial intelligence. The paper describes an intelligent system in a generic way, identifying its main properties and functional components. The presented description follows a pragmatic approach to be used in an engineering context as a general framework to analyze and build intelligent systems. Its generality and its use is illustrated with real-world system examples and related with artificial intelligence methods.
translated by 谷歌翻译
Representing and reasoning about uncertainty is crucial for autonomous agents acting in partially observable environments with noisy sensors. Partially observable Markov decision processes (POMDPs) serve as a general framework for representing problems in which uncertainty is an important factor. Online sample-based POMDP methods have emerged as efficient approaches to solving large POMDPs and have been shown to extend to continuous domains. However, these solutions struggle to find long-horizon plans in problems with significant uncertainty. Exploration heuristics can help guide planning, but many real-world settings contain significant task-irrelevant uncertainty that might distract from the task objective. In this paper, we propose STRUG, an online POMDP solver capable of handling domains that require long-horizon planning with significant task-relevant and task-irrelevant uncertainty. We demonstrate our solution on several temporally extended versions of toy POMDP problems as well as robotic manipulation of articulated objects using a neural perception frontend to construct a distribution of possible models. Our results show that STRUG outperforms the current sample-based online POMDP solvers on several tasks.
translated by 谷歌翻译
本文展示了单个机制如何通过直接从代理的原始传感器流流层构建层。这种机制,一般值函数(GVF)或“预测”,捕获高级,抽象知识,作为一组关于现有特征和知识的一组预测,其专门基于代理的低级感官和动作。因此,预测提供了将原始传感器数据组织成有用的抽象的表示 - 通过无限数量的层 - AI和认知科学的长寻求目标。本文的核心是一个详细的思想实验,提供了一个具体,逐步的正式说明,逐步的人工代理商如何从其原始的传感器体验中构建真实,有用的抽象知识。知识表示为关于代理人的观察到其行为后果的一组分层预测(预测)。该图示出了十二个独立的图层:最低的原始像素,触摸和力传感器以及少量动作;较高层次增加抽象,最终导致了对代理商世界的丰富知识,对应于门口,墙壁,房间和平面图。然后,我认为这种一般机制可以允许表示广泛的日常人类知识。
translated by 谷歌翻译
在AI研究中,合成动作计划通常使用了抽象地指定由于动作而导致的动作的描述性模型,并针对有效计算状态转换来定制。然而,执行计划的动作已经需要运行模型,其中使用丰富的计算控制结构和闭环在线决策来指定如何在非预定的执行上下文中执行动作,对事件作出反应并适应展开情况。整合行动和规划的审议演员通常需要将这两种模型一起使用 - 在尝试开发不同的型号时会导致问题,验证它们的一致性,并顺利交错和规划。作为替代方案,我们定义和实施综合作用和规划系统,其中规划和行为使用相同的操作模型。这些依赖于提供丰富的控制结构的分层任务导向的细化方法。称为反应作用发动机(RAE)的作用组件由众所周知的PRS系统启发。在每个决定步骤中,RAE可以从计划者获取建议,以获得关于效用功能的近乎最佳选择。随时计划使用像UPOM的UCT类似的蒙特卡罗树搜索程序,其推出是演员操作模型的模拟。我们还提供与RAE和UPOM一起使用的学习策略,从在线代理体验和/或模拟计划结果,从决策背景下映射到方法实例以及引导UPOM的启发式函数。我们展示了富豪朝向静态域的最佳方法的渐近融合,并在实验上展示了UPOM和学习策略显着提高了作用效率和鲁棒性。
translated by 谷歌翻译