意图识别是促进多种代理系统中协作的重要步骤。现有工作主要侧重于单个代理设置中的意图识别,并使用描述模型,例如,使用描述性模型。贝叶斯网络,在识别过程中。在本文中,我们采用了一种规范的方法来模拟代理人的行为,其中他们的意图隐藏在实施计划。我们将地标引入行为模型,因此增强了识别多个代理的公共意图的信息特征。我们通过仅关注其计划中的动作序列来进一步改进模型,并提供用于识别和比较其意图的光模型。新模型在代理人互动中观察到的部分计划后,为分组代理商的共同意图提供了简单的方法。我们提供实验结果支持。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
在复杂的协作任务上共同努力需要代理商协调他们的行为。在实际交互之前明确或完全执行此操作并不总是可能也不充分。代理人还需要不断了解他人的当前行动,并迅速适应自己的行为。在这里,我们调查我们称之为信仰共鸣的精神状态(意图,目标)的效率,自动协调过程如何导致协作的解决问题。我们为协作剂(HAICA)提出了分层有源推断的模型。它将高效的贝叶斯理论与基于预测处理和主动推断的感知动作系统相结合。通过让一个药物的推断精神状态影响另一个代理人的预测信念来实现信仰共振,从而实现了他自己的目标和意图。这样,推断的精神状态影响了代理人自己的任务行为,没有明确的协作推理。我们在超核域中实施和评估此模型,其中两个代理具有不同程度的信仰共振组合,以满足膳食订单。我们的结果表明,基于HAICA的代理商实现了与最近现有技术方法相当的团队表现,同时产生了更低的计算成本。我们还表明,信仰共振在环境中特别有益,代理商是对环境的不对称知识。结果表明,信仰共振和有效推断允许快速高效的代理协调,因此可以用作合作认知剂的结构块。
translated by 谷歌翻译
本文介绍了多代理系统中混合代理的开发的尴尬架构。尴尬的代理商可以实时重新配置他们的计划,以便在不断变化的环境和社会环境下与社会角色要求保持一致。拟议的混合体系结构利用面向行为的设计(BOD)来开发具有反应性计划和完善的歌剧框架的代理,以提供组织,社交和互动定义,以验证和调整代理的行为。 Opera和Bod可以共同实现代理计划的实时调整,以实现不断发展的社会角色,同时为促进各个代理商的行为变化的互动提供了透明度的额外好处。我们介绍了这种体系结构,以激发传统的符号和基于行为的AI社区之间的桥接,在该社区中,这种合并的解决方案可以帮助MAS研究人员追求建立更强大,更强大的智能代理团队。我们使用DOTA2,这是一种成功取决于社交互动的游戏,作为证明我们提出的混合体系结构的示例实现的媒介。
translated by 谷歌翻译
在上一篇论文中,我们提出了一组概念,即公理架构和算法,这些算法可以被代理商用于学习描述其行为,目标,能力和环境。当前的论文提出了一组新的概念,即公理架构和算法,使代理商可以学习对观察到的行为(例如,困惑行为),其参与者(例如,不受欢迎的命题或动作)及其环境的新描述(例如,不兼容的命题)。每个学习的描述(例如,某个动作都可以防止将来执行另一个动作)由实体之间的关系(命题或动作)之间的关系表示,并且由代理人,仅通过观察,使用独立于域的公理模式来学习或学习算法。代理人用来表示他们学到的描述的关系受到了修辞学理论(RST)的启发。该论文的主要贡献是关系家族,尽管受到首次关系特许权的启发。家庭关系的准确定义虽然涉及一组悬浮概念,它们的定义和相应的算法被提出。尽管家庭的关系一旦从代理商的观察中提取出来,就会对观察到的行为感到惊讶,并在某些情况下为此提供了理由。本文使用实施的软件在演示方案中显示了提出的提案的结果。
translated by 谷歌翻译
AI的蓬勃发展提示建议,AI技术应该是“以人为本”。然而,没有明确的定义,对人工人工智能或短,HCAI的含义。本文旨在通过解决HCAI的一些基础方面来改善这种情况。为此,我们介绍了术语HCAI代理商,以指配备有AI组件的任何物理或软件计算代理,并与人类交互和/或协作。本文识别参与HCAI代理的五个主要概念组件:观察,要求,行动,解释和模型。我们看到HCAI代理的概念,以及其组件和功能,作为弥合人以人为本的AI技术和非技术讨论的一种方式。在本文中,我们专注于采用在人类存在的动态环境中运行的单一代理的情况分析。
translated by 谷歌翻译
移动机器人的推理和计划是一个具有挑战性的问题,随着世界的发展,机器人的目标可能会改变。解决这个问题的一种技术是目标推理,代理人不仅原因是其行动的原因,而且还要实现哪些目标。尽管已经对单个代理的目标推理进行了广泛的研究,但分布式,多代理目标推理带来了其他挑战,尤其是在分布式环境中。在这种情况下,必须进行某种形式的协调以实现合作行为。先前的目标推理方法与其他代理商共享代理商的世界模型,这已经实现了基本的合作。但是,代理商的目标及其意图通常没有共享。在本文中,我们提出了一种解决此限制的方法。扩展了现有的目标推理框架,我们建议通过承诺在多个代理之间实现合作行为,在这种情况下,代理商可能会保证某些事实在将来的某个时候将是正确的。分享这些诺言使其他代理人不仅可以考虑世界的当前状态,而且还可以在决定下一步追求哪个目标时其他代理商的意图。我们描述了如何将承诺纳入目标生命周期,这是一种常用的目标改进机制。然后,我们通过将PDDL计划的定时初始文字(TIL)连接到计划特定目标时如何使用承诺。最后,我们在简化的物流方案中评估了我们的原型实现。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
我们的世界越来越被具有不同自治程度的智能机器人所笼罩。为了将自己无缝整合到我们的社会中,即使在没有人类的直接投入的情况下,这些机器也应具有导航日常工作复杂性的能力。换句话说,我们希望这些机器人了解其合作伙伴的意图,以预测帮助他们的最佳方法。在本文中,我们介绍了Casper(社会感知和在机器人中参与的认知体系结构):一种象征性认知体系结构,使用定性的空间推理来预测另一个代理的追求目标并计算最佳的协作行为。这是通过平行过程的集合来执行的,该过程对低级动作识别和高级目标理解进行建模,这两者都经过正式验证。我们已经在模拟的厨房环境中测试了这种体系结构,我们收集的结果表明,机器人能够认识到一个持续的目标并适当合作实现其成就。这证明了对定性空间关系的新使用,该空间关系应用于人类机器人相互作用领域的意图阅读问题。
translated by 谷歌翻译
在空间显式的基于个别模型中捕获和模拟智能自适应行为仍然是研究人员持续的挑战。虽然收集了不断增长的现实行为数据,但存在很少的方法,可以量化和正式化关键的个人行为以及它们如何改变空间和时间。因此,通常使用的常用代理决策框架(例如事件条件 - 行动规则)通常只需要仅关注狭窄的行为范围。我们认为,这些行为框架通常不会反映现实世界的情景,并且未能捕捉如何以响应刺激而发展行为。对机器学习方法的兴趣增加了近年来模拟智能自适应行为的兴趣。在该区域中开始获得牵引的一种方法是增强学习(RL)。本文探讨了如何使用基于简单的捕食者 - 猎物代理的模型(ABM)来应用RL创建紧急代理行为。运行一系列模拟,我们证明了使用新型近端政策优化(PPO)算法培训的代理以展示现实世界智能自适应行为的性质,例如隐藏,逃避和觅食。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
最近的自主代理和机器人的应用,如自动驾驶汽车,情景的培训师,勘探机器人和服务机器人带来了关注与当前生成人工智能(AI)系统相关的至关重要的信任相关挑战。尽管取得了巨大的成功,基于连接主义深度学习神经网络方法的神经网络方法缺乏解释他们对他人的决策和行动的能力。没有符号解释能力,它们是黑色盒子,这使得他们的决定或行动不透明,这使得难以信任它们在安全关键的应用中。最近对AI系统解释性的立场目睹了可解释的人工智能(XAI)的几种方法;然而,大多数研究都专注于应用于计算科学中的数据驱动的XAI系统。解决越来越普遍的目标驱动器和机器人的研究仍然缺失。本文评论了可解释的目标驱动智能代理和机器人的方法,重点是解释和沟通代理人感知功能的技术(示例,感官和愿景)和认知推理(例如,信仰,欲望,意图,计划和目标)循环中的人类。审查强调了强调透明度,可辨与和持续学习以获得解释性的关键策略。最后,本文提出了解释性的要求,并提出了用于实现有效目标驱动可解释的代理和机器人的路线图。
translated by 谷歌翻译
在本文中,我们研究了不确定性下的顺序决策任务中可读性的概念。以前的作品将易读性扩展到了机器人运动以外的方案,要么集中在确定性设置上,要么在计算上太昂贵。我们提出的称为POL-MDP的方法能够处理不确定性,同时保持计算障碍。在几种不同复杂性的模拟场景中,我们建立了反对最新方法的方法的优势。我们还展示了将我们的清晰政策用作反向加强学习代理的示范,并根据最佳政策建立了他们的优越性。最后,我们通过用户研究评估计算政策的可读性,在该研究中,要求人们通过观察其行动来推断移动机器人的目标。
translated by 谷歌翻译
当代机器人主义者的主要目标之一是使智能移动机器人能够在共享的人类机器人环境中平稳运行。为此目标服务的最基本必要的功能之一是在这种“社会”背景下有效的导航。结果,最近的一般社会导航的研究激增,尤其是如何处理社会导航代理之间的冲突。这些贡献介绍了各种模型,算法和评估指标,但是由于该研究领域本质上是跨学科的,因此许多相关论文是不可比较的,并且没有共同的标准词汇。这项调查的主要目标是通过引入这种通用语言,使用它来调查现有工作并突出开放问题来弥合这一差距。它首先定义社会导航的冲突,并提供其组成部分的详细分类学。然后,这项调查将现有工作映射到了本分类法中,同时使用其框架讨论论文。最后,本文提出了一些未来的研究方向和开放问题,这些方向目前正在社会导航的边界,以帮助集中于正在进行的和未来的研究。
translated by 谷歌翻译
临时团队合作是设计可以与新队友合作而无需事先协调的研究问题的研究问题。这项调查做出了两个贡献:首先,它提供了对临时团队工作问题不同方面的结构化描述。其次,它讨论了迄今为止该领域取得的进展,并确定了临时团队工作中需要解决的直接和长期开放问题。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
我们介绍了一个临时团队的体系结构,该体系结构指的是在没有事先协调的一组代理团队中的合作。此问题的最新方法通常包括一个数据驱动的组件,该组件使用先前观察的悠久历史来对其他代理(或代理类型)的行为进行建模并确定临时代理的行为。在许多实际领域中,找到大型培训数据集是一项挑战,并且要了解和逐步扩展现有模型以说明团队组成或域属性的变化所必需的。我们的架构结合了基于知识和数据驱动的推理和学习原理。具体而言,我们使一个临时代理能够通过先前的常识域知识和其他代理行为的简单预测模型执行非单调逻辑推理。我们使用基准模拟的多种协作域Fort Attack来证明我们的体系结构支持适应不可预见的变化,增量学习和修订其他代理人行为的模型,从有限的样本中,临时代理商的决策中的透明度,并且比相比,比较更好的绩效数据驱动基线。
translated by 谷歌翻译
长期以来,能够接受和利用特定于人类的任务知识的增强学习(RL)代理人被认为是开发可扩展方法来解决长途问题的可能策略。尽管以前的作品已经研究了使用符号模型以及RL方法的可能性,但他们倾向于假设高级动作模型在低级别上是可执行的,并且流利者可以专门表征所有理想的MDP状态。但是,现实世界任务的符号模型通常是不完整的。为此,我们介绍了近似符号模型引导的增强学习,其中我们将正式化符号模型与基础MDP之间的关系,这将使我们能够表征符号模型的不完整性。我们将使用这些模型来提取将用于分解任务的高级地标。在低水平上,我们为地标确定的每个可能的任务次目标学习了一组不同的政策,然后将其缝合在一起。我们通过在三个不同的基准域进行测试来评估我们的系统,并显示即使是不完整的符号模型信息,我们的方法也能够发现任务结构并有效地指导RL代理到达目标。
translated by 谷歌翻译
We advance a novel computational model of multi-agent, cooperative joint actions that is grounded in the cognitive framework of active inference. The model assumes that to solve a joint task, such as pressing together a red or blue button, two (or more) agents engage in a process of interactive inference. Each agent maintains probabilistic beliefs about the goal of the joint task (e.g., should we press the red or blue button?) and updates them by observing the other agent's movements, while in turn selecting movements that make his own intentions legible and easy to infer by the other agent (i.e., sensorimotor communication). Over time, the interactive inference aligns both the beliefs and the behavioral strategies of the agents, hence ensuring the success of the joint action. We exemplify the functioning of the model in two simulations. The first simulation illustrates a ''leaderless'' joint action. It shows that when two agents lack a strong preference about their joint task goal, they jointly infer it by observing each other's movements. In turn, this helps the interactive alignment of their beliefs and behavioral strategies. The second simulation illustrates a "leader-follower" joint action. It shows that when one agent ("leader") knows the true joint goal, it uses sensorimotor communication to help the other agent ("follower") infer it, even if doing this requires selecting a more costly individual plan. These simulations illustrate that interactive inference supports successful multi-agent joint actions and reproduces key cognitive and behavioral dynamics of "leaderless" and "leader-follower" joint actions observed in human-human experiments. In sum, interactive inference provides a cognitively inspired, formal framework to realize cooperative joint actions and consensus in multi-agent systems.
translated by 谷歌翻译
人类代理团队,这是一个问题,其中人类和自治机构合作实现一项任务,是人类AI协作的典型。为有效的合作,人类希望有一个有效的计划,而是在现实的情况下,他们可能难以计算由于认知限制的最佳计划。在这种情况下,具有许多计算资源的代理的指导可能是有用的。但是,如果代理人明确指导人类行为,人类可能会觉得他们已经失去了自主,并由代理商控制。因此,我们调查了通过代理人行为提供的隐性指导。通过这种指导,代理商以一种方式使人类能够易于找到合作任务的有效计划,然后可以改善计划。由于人类自愿改善了他们的计划,他或她保持自治。我们通过将贝叶斯思想理论集成到现有的协作规划算法中并通过行为实验进行了模拟了一个具有隐含指导,并通过隐性指导的行为实验证明了使人们能够在改善计划和保留自治之间保持平衡。
translated by 谷歌翻译