感知,规划,估算和控制的当代方法允许机器人在不确定,非结构化环境中的远程代理中稳健运行。此进度现在创造了机器人不仅在隔离,而且在我们的复杂环境中运行的机器人。意识到这个机会需要一种高效且灵活的媒介,人类可以与协作机器人沟通。自然语言提供了一种这样的媒体,通过对自然语言理解的统计方法的重大进展,现在能够解释各种自由形式命令。然而,大多数当代方法需要机器人环境的详细,现有的空间语义地图,这些环境模拟了话语可能引用的可能引用的空间。因此,当机器人部署在新的,先前未知或部分观察到的环境中时,这些方法发生故障,特别是当环境的心理模型在人类运营商和机器人之间不同时。本文提供了一种新的学习框架的全面描述,允许现场和服务机器人解释并正确执行先验未知,非结构化环境中的自然语言指令。对于我们的方法而不是我们的语言作为“传感器” - 在话语中隐含的“传感器” - 推断的空间,拓扑和语义信息,然后利用这些信息来学习在潜在环境模型上的分布。我们将此分布纳入概率,语言接地模型中,并在机器人的动作空间的象征性表示中推断出分布。我们使用模仿学习来确定对环境和行为分布的原因的信仰空间政策。我们通过各种导航和移动操纵实验评估我们的框架。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
在协作人类机器人语义传感问题中,例如为了进行科学探索,机器人可能会通过人类伴侣提供过度质疑的信息,从而导致次优的状态估计和团队绩效差。当人类不能被视为牙齿时,机器人需要更新状态信念,以正确解释人类语义观察与导致这些观察的现实世界状态之间可能存在的差异。这项工作为在一般环境中针对语义可能性的概率语义数据关联(PSDA)概率进行了严格的在线计算制定了策略,这与以前的工作不同,这些工作开发了针对特定设置的天真或启发式近似。新的PSDA方法纳入了混合贝叶斯数据融合方案中,该方案将高斯混合先验用于对象状态和SoftMax函数用于语义人类传感器观察可能性,并在Monte Carlo模拟中证明了合作的多对象搜索任务的范围人类感测特征(例如错误的检测率)。结果表明,每当语义人类传感器数据包含重要的目标参考歧义性,用于自主对象搜索和本地化时,PSDA会导致在广泛条件下对观察关联概率的强大估计。
translated by 谷歌翻译
自然语言提供可访问和富有富有态度的界面,以指定机器人代理的长期任务。但是,非专家可能会使用高级指令指定此类任务,其中通过多个抽象层摘要通过特定的机器人操作。我们建议将语言和机器人行动之间的这种差距延长长的执行视野是持久的表示。我们提出了一种持久的空间语义表示方法,并展示它是如何构建执行分层推理的代理,以有效执行长期任务。尽管完全避免了常用的逐步说明,我们评估了我们对阿尔弗雷德基准的方法并实现了最先进的结果。
translated by 谷歌翻译
机器人导航的目标条件政策可以在大型未注释的数据集上进行培训,从而为现实世界中的设置提供了良好的概括。但是,尤其是在指定目标需要图像的基于视觉的设置中,这是一个不自然的界面。语言为与机器人的通信提供了一种更方便的方式,但是现代方法通常需要以语言描述注释的轨迹的形式进行昂贵的监督。我们提出了一个用于机器人导航的系统,该系统享受着未注释的大型轨迹数据集培训的好处,同时仍为用户提供高级接口。我们没有在数据集之后使用标记的指令,而是表明可以完全从预先训练的导航模型(VING),图像语言关联(剪辑)和语言建模(GPT-3)中构建这样的系统,而无需任何微调或语言宣布的机器人数据。我们将LM-NAV实例化在现实世界中的移动机器人上,并通过自然语言指令通过复杂的室外环境演示长途导航。有关我们的实验的视频,代码发布和在浏览器中运行的交互式COLAB笔记本,请查看我们的项目页面https://sites.google.com/view/lmnav
translated by 谷歌翻译
The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.
translated by 谷歌翻译
最近的作品表明,如何将大语言模型(LLM)的推理能力应用于自然语言处理以外的领域,例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面:可用技能的曲目,这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能,还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化,以响应代理商自己的选择。在这项工作中,我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源,而无需任何其他培训。我们建议,通过利用环境反馈,LLM能够形成内部独白,使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源,例如成功检测,场景描述和人类互动。我们发现,闭环语言反馈显着改善了三个领域的高级指导完成,包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。
translated by 谷歌翻译
在执行视觉伺服或对象跟踪任务时,有效的传感器规划对于保持目标的目标是必不可少的,或者在缺失时重新定位它们。特别是,当处理从传感器的视野中缺少的已知目标时,我们建议使用与上下文信息相关的先验知识来估计其可能的位置。为此,本研究提出了一种动态贝叶斯网络,它使用上下文信息来有效地搜索目标。 Monte Carlo颗粒滤波器用于近似目标状态的后验概率,从中定义不确定性。我们通过信息理论形式主义定义机器人的实用程序函数,因为寻求最佳动作减少了任务的不确定性,提示机器人代理商调查最可能存在的目标的位置。使用上下文状态模型,我们使用部分可观察的Markov决策过程设计代理的高级决策框架。根据通过顺序观察的基础上下文的估计信仰状态,决定了机器人的导航行动进行探索性和检测任务。通过使用这种多模态上下文模型,我们的代理可以有效处理基本动态事件,例如妨碍目标或从视野中的缺失。我们实时实施并展示移动机器人的这些功能。
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
在本报告中,我们提出了在哥斯达黎加太平洋架子和圣托里尼 - Kolumbo Caldera Complex中,在寻找寿命中的寻找寿命任务中的自主海洋机器人技术协调,操作策略和结果。它作为可能存在于海洋超越地球的环境中的类似物。本报告侧重于ROV操纵器操作的自动化,用于从海底获取有针对性的生物样品收集和返回的。在未来的外星勘查任务到海洋世界的背景下,ROV是一个模拟的行星着陆器,必须能够有能力的高水平自主权。我们的田间试验涉及两个水下车辆,冰(Nui)杂交ROV的两个水下车辆(即,龙眼或自主)任务,都配备了7-DOF液压机械手。我们描述了一种适应性,硬件无关的计算机视觉架构,可实现高级自动化操作。 Vision系统提供了对工作空间的3D理解,以便在复杂的非结构化环境中通知操纵器运动计划。我们展示了视觉系统和控制框架通过越来越具有挑战性的环境中的现场试验的有效性,包括来自活性Undersea火山,Kolumbo内的自动收集和生物样品的回报。根据我们在该领域的经验,我们讨论了我们的系统的表现,并确定了未来研究的有希望的指示。
translated by 谷歌翻译
学习涉及时变和不断发展的系统动态的控制政策通常对主流强化学习算法构成了巨大的挑战。在大多数标准方法中,通常认为动作是一组刚性的,固定的选择,这些选择以预定义的方式顺序应用于状态空间。因此,在不诉诸于重大学习过程的情况下,学识渊博的政策缺乏适应动作集和动作的“行为”结果的能力。此外,标准行动表示和动作引起的状态过渡机制固有地限制了如何将强化学习应用于复杂的现实世界应用中,这主要是由于所得大的状态空间的棘手性以及缺乏概括的学术知识对国家空间未知部分的政策。本文提出了一个贝叶斯味的广义增强学习框架,首先建立参数动作模型的概念,以更好地应对不确定性和流体动作行为,然后将增强领域的概念作为物理启发的结构引入通过“极化体验颗粒颗粒建立) “维持在学习代理的工作记忆中。这些粒子有效地编码了以自组织方式随时间演变的动态学习体验。在强化领域之上,我们将进一步概括策略学习过程,以通过将过去的记忆视为具有隐式图结构来结合高级决策概念,在该结构中,过去的内存实例(或粒子)与决策之间的相似性相互联系。定义,因此,可以应用“关联记忆”原则来增强学习代理的世界模型。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
在本文中,我们专注于在线学习主动视觉在未知室内环境中的对象的搜索(AVS)的最优策略问题。我们建议POMP++,规划战略,介绍了经典的部分可观察蒙特卡洛规划(POMCP)框架之上的新制剂,允许免费培训,在线政策在未知的环境中学习。我们提出了一个新的信仰振兴战略,允许使用POMCP与动态扩展状态空间来解决在线生成平面地图的。我们评估我们在两个公共标准数据集的方法,AVD由是从真正的3D场景渲染扫描真正的机器人平台和人居ObjectNav收购,用>10%,比国家的the-改善达到最佳的成功率技术方法。
translated by 谷歌翻译
最近的自主代理和机器人的应用,如自动驾驶汽车,情景的培训师,勘探机器人和服务机器人带来了关注与当前生成人工智能(AI)系统相关的至关重要的信任相关挑战。尽管取得了巨大的成功,基于连接主义深度学习神经网络方法的神经网络方法缺乏解释他们对他人的决策和行动的能力。没有符号解释能力,它们是黑色盒子,这使得他们的决定或行动不透明,这使得难以信任它们在安全关键的应用中。最近对AI系统解释性的立场目睹了可解释的人工智能(XAI)的几种方法;然而,大多数研究都专注于应用于计算科学中的数据驱动的XAI系统。解决越来越普遍的目标驱动器和机器人的研究仍然缺失。本文评论了可解释的目标驱动智能代理和机器人的方法,重点是解释和沟通代理人感知功能的技术(示例,感官和愿景)和认知推理(例如,信仰,欲望,意图,计划和目标)循环中的人类。审查强调了强调透明度,可辨与和持续学习以获得解释性的关键策略。最后,本文提出了解释性的要求,并提出了用于实现有效目标驱动可解释的代理和机器人的路线图。
translated by 谷歌翻译
同时本地化和映射(SLAM)是自动移动机器人中的基本问题之一,在该机器人需要重建以前看不见的环境的同时,同时在地图上进行了本身。特别是,Visual-Slam使用移动机器人中的各种传感器来收集和感测地图的表示。传统上,基于几何模型的技术被用来解决大满贯问题,在充满挑战的环境下,该问题往往容易出错。诸如深度学习技术之类的计算机视觉方面的最新进展提供了一种数据驱动的方法来解决视觉范围问题。这篇综述总结了使用各种基于学习的方法的视觉 - 峰领域的最新进展。我们首先提供了基于几何模型的方法的简洁概述,然后进行有关SLAM当前范式的技术评论。然后,我们介绍了从移动机器人那里收集感官输入并执行场景理解的各种基于学习的方法。讨论并将基于深度学习的语义理解中的当前范式讨论并置于视觉峰的背景下。最后,我们讨论了在视觉 - 峰中基于学习的方法方向上的挑战和进一步的机会。
translated by 谷歌翻译
本文介绍了在公开不确定域中描述和解释机器人目标的问题的集成解决方案。鉴于所需情况的正式规范,其中仅通过其性质描述了对象,通用规划和推理工具用于导出机器人的适当行动。这些目标是通过在线组合的分层规划,状态估计和执行,其在具有实质上闭塞和传感误差的真实机器人域中运行的鲁棒性。
translated by 谷歌翻译