语言指导的体现了AI基准,要求代理导航环境并操纵对象通常允许单向通信:人类用户向代理提供了自然语言命令,而代理只能被动地遵循命令。我们介绍了基于Alfred基准测试的基准测试后的拨号式拨号。Dialfred允许代理商积极向人类用户提出问题;代理使用用户响应中的其他信息来更好地完成其任务。我们发布了一个具有53K任务的问题和答案的人类注销数据集,以及一个可以回答问题的甲骨文。为了解决Dialfred,我们提出了一个提问者绩效框架,其中发问者通过人类通知的数据进行了预训练,并通过增强学习进行了微调。我们将拨号拨入公开,并鼓励研究人员提出和评估他们的解决方案,以构建支持对话的体现代理。
translated by 谷歌翻译
We present ALFRED (Action Learning From Realistic Environments and Directives), a benchmark for learning a mapping from natural language instructions and egocentric vision to sequences of actions for household tasks. ALFRED includes long, compositional tasks with nonreversible state changes to shrink the gap between research benchmarks and real-world applications. ALFRED consists of expert demonstrations in interactive visual environments for 25k natural language directives. These directives contain both high-level goals like "Rinse off a mug and place it in the coffee maker." and low-level language instructions like "Walk to the coffee maker on the right." ALFRED tasks are more complex in terms of sequence length, action space, and language than existing visionand-language task datasets. We show that a baseline model based on recent embodied vision-and-language tasks performs poorly on ALFRED, suggesting that there is significant room for developing innovative grounded visual language understanding models with this benchmark.
translated by 谷歌翻译
在人类空间中运营的机器人必须能够与人的自然语言互动,既有理解和执行指示,也可以使用对话来解决歧义并从错误中恢复。为此,我们介绍了教学,一个超过3,000人的互动对话的数据集,以完成模拟中的家庭任务。一个有关任务的Oracle信息的指挥官以自然语言与追随者通信。追随者通过环境导航并与环境进行互动,以完成从“咖啡”到“准备早餐”的复杂性不同的任务,提出问题并从指挥官获取其他信息。我们提出三个基准使用教学研究体现了智能挑战,我们评估了对话理解,语言接地和任务执行中的初始模型的能力。
translated by 谷歌翻译
We present a new AI task -Embodied Question Answering (EmbodiedQA) -where an agent is spawned at a random location in a 3D environment and asked a question ('What color is the car?'). In order to answer, the agent must first intelligently navigate to explore the environment, gather information through first-person (egocentric) vision, and then answer the question ('orange'). This challenging task requires a range of AI skills -active perception, language understanding, goal-driven navigation, commonsense reasoning, and grounding of language into actions. In this work, we develop the environments, end-to-end-trained reinforcement learning agents, and evaluation protocols for EmbodiedQA.
translated by 谷歌翻译
众所周知,在漫长的地平线和稀疏的奖励任务中,加强学习(RL)是困难的,需要大量的培训步骤。加快该过程的标准解决方案是利用额外的奖励信号,将其塑造以更好地指导学习过程。在语言条件的RL的背景下,语言输入的抽象和概括属性为更有效地塑造奖励的方式提供了机会。在本文中,我们利用这一想法并提出了一种自动奖励塑形方法,代理商从一般语言目标中提取辅助目标。这些辅助目标使用问题生成(QG)和问题答案(QA)系统:它们包括导致代理商尝试使用其自己的轨迹重建有关全球目标的部分信息的问题。当它成功时,它会获得与对答案的信心成正比的内在奖励。这激励代理生成轨迹,这些轨迹明确解释了一般语言目标的各个方面。我们的实验研究表明,这种方法不需要工程师干预来设计辅助目标,可以通过有效指导探索来提高样品效率。
translated by 谷歌翻译
我们研究了开发自主代理的问题,这些自主代理可以遵循人类的指示来推断和执行一系列行动以完成基础任务。近年来取得了重大进展,尤其是对于短范围的任务。但是,当涉及具有扩展动作序列的长匹马任务时,代理可以轻松忽略某些指令或陷入长长指令中间,并最终使任务失败。为了应对这一挑战,我们提出了一个基于模型的里程碑的任务跟踪器(M-Track),以指导代理商并监视其进度。具体而言,我们提出了一个里程碑构建器,该建筑商通过导航和交互里程碑标记指令,代理商需要逐步完成,以及一个系统地检查代理商当前里程碑的进度并确定何时继续进行下一个的里程碑检查器。在具有挑战性的Alfred数据集上,我们的M轨道在两个竞争基本模型中,未见成功率的相对成功率显着提高了33%和52%。
translated by 谷歌翻译
建立一个对话体现的代理执行现实生活任务一直是一个长期而又具有挑战性的研究目标,因为它需要有效的人类代理沟通,多模式理解,远程顺序决策等。传统的符号方法具有扩展和概括问题,而端到端的深度学习模型则遭受数据稀缺和高任务复杂性的影响,并且通常很难解释。为了从两全其美的世界中受益,我们提出了一个神经符号常识性推理(JARVIS)框架,用于模块化,可推广和可解释的对话体现的药物。首先,它通过提示大型语言模型(LLM)来获得符号表示,以了解语言理解和次目标计划,并通过从视觉观察中构建语义图。然后,基于任务和动作级别的常识,次目标计划和行动生成的符号模块。在Teach数据集上进行的大量实验验证了我们的JARVIS框架的功效和效率,该框架在所有三个基于对话框的具体任务上实现了最新的(SOTA)结果,包括对话记录(EDH)的执行,对话框的轨迹, (TFD)和两个代理任务完成(TATC)(例如,我们的方法将EDH看不见的成功率从6.1 \%\%提高到15.8 \%)。此外,我们系统地分析了影响任务绩效的基本因素,并在几个射击设置中证明了我们方法的优越性。我们的Jarvis模型在Alexa奖Simbot公共基准挑战赛中排名第一。
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
视觉语言导航(VLN)在其视觉环境中遵循语言指令,在该前提是输入命令在环境中完全可行的前提下进行了研究。然而,实际上,由于语言歧义或环境的变化,可能无法提出要求。为了使用未知命令可行性研究VLN,我们引入了一个新的数据集移动应用程序任务,并使用迭代反馈(Motif),目标是在移动应用程序中完成自然语言命令。移动应用程序提供了一个可扩展的域来研究VLN方法的下游用途。此外,移动应用命令为交互式导航提供了指令,因为它们通过单击,键入或刷新而导致状态更改的动作序列。主题是第一个包含可行性注释的主题,其中包含二进制可行性标签和细粒度标签,原因是为什么任务不满意。我们进一步收集了模棱两可的查询的后续问题,以使解决任务不确定性解决。配备了我们的数据集,我们提出了可行性预测的新问题,其中使用自然语言指令和多模式应用程序环境来预测命令的可行性。主题提供了一个更现实的应用数据集,因为它包含许多不同的环境,高级目标和更长的动作序列。我们使用主题评估交互式VLN方法,量化当前方法对新应用环境的概括能力,并衡量任务可行性对导航性能的影响。
translated by 谷歌翻译
我们研究了从机器人交互的大型离线数据集学习一系列基于视觉的操纵任务的问题。为了实现这一目标,人类需要简单有效地将任务指定给机器人。目标图像是一种流行的任务规范形式,因为它们已经在机器人的观察空间接地。然而,目标图像也有许多缺点:它们对人类提供的不方便,它们可以通过提供导致稀疏奖励信号的所需行为,或者在非目标达到任务的情况下指定任务信息。自然语言为任务规范提供了一种方便而灵活的替代方案,而是随着机器人观察空间的接地语言挑战。为了可扩展地学习此基础,我们建议利用具有人群源语言标签的离线机器人数据集(包括高度最佳,自主收集的数据)。使用此数据,我们学习一个简单的分类器,该分类器预测状态的更改是否完成了语言指令。这提供了一种语言调节奖励函数,然后可以用于离线多任务RL。在我们的实验中,我们发现,在语言条件的操作任务中,我们的方法优于目标 - 图像规格和语言条件仿制技术超过25%,并且能够从自然语言中执行Visuomotor任务,例如“打开右抽屉“和”移动订书机“,在弗兰卡·埃米卡熊猫机器人上。
translated by 谷歌翻译
在交互式环境中,现有的基础语言基准要么缺乏现实世界的语言元素,要么由于人类参与数据收集或反馈信号而难以扩展。为了弥合这一差距,我们开发了网络商店 - 一个模拟的电子商务网站环境,拥有11.18亿美元的现实世界中的产品和12,087美元的人群文本说明。给定指定产品需求的文本指令,代理需要导航多种类型的网页并发布各种操作以查找,自定义和购买项目。 WebShop为语言基础提供了一些挑战,包括了解构图说明,查询(重新)表述,理解和对网页中的嘈杂文本进行操作以及执行战略探索。我们为这项任务收集了超过1,600美元的人类示范,并使用强化学习,模仿学习以及预训练的图像和语言模型来训练和评估各种代理商。我们的最佳模型达到了任务成功率$ 29 \%$,它优于基于规则的启发式方法($ 9.6 \%$),但远低于人类专家绩效($ 59 \%$)。我们还分析了代理和人类轨迹,并消融各种模型组件,以提供有关具有更强语言理解和决策能力的未来代理人的见解。最后,我们表明,在Amazon.com上进行评估时,在网络商店进行培训的代理商展示了非平凡的SIM转移转移,这表明网络商店在开发可以在野外运行的实用基于网络的代理商中的潜在价值。
translated by 谷歌翻译
解决时间扩展的任务是大多数增强学习(RL)算法的挑战[ARXIV:1906.07343]。我们研究了RL代理商学会提出自然语言问题的能力,以了解其环境并在新颖,时间扩展的环境中实现更大的概括性能。我们通过赋予该代理商的能力向全知的甲骨文提出“是,不”问题来做到这一点。这使代理商可以获得有关手头任务的指导,同时限制了对新信息的访问。为了在时间扩展的任务的背景下研究这种自然语言问题的出现,我们首先在迷你网格环境中训练代理商。然后,我们将受过训练的代理转移到另一个更艰难的环境中。与无法提出问题的基线代理相比,我们观察到概括性能的显着提高。通过将其对自然语言在其环境中的理解,代理可以推理其环境的动态,以至于在新型环境中部署时可以提出新的,相关的问题。
translated by 谷歌翻译
A robot that can carry out a natural-language instruction has been a dream since before the Jetsons cartoon series imagined a life of leisure mediated by a fleet of attentive robot helpers. It is a dream that remains stubbornly distant. However, recent advances in vision and language methods have made incredible progress in closely related areas. This is significant because a robot interpreting a naturallanguage navigation instruction on the basis of what it sees is carrying out a vision and language process that is similar to Visual Question Answering. Both tasks can be interpreted as visually grounded sequence-to-sequence translation problems, and many of the same methods are applicable. To enable and encourage the application of vision and language methods to the problem of interpreting visuallygrounded navigation instructions, we present the Matter-port3D Simulator -a large-scale reinforcement learning environment based on real imagery [11]. Using this simulator, which can in future support a range of embodied vision and language tasks, we provide the first benchmark dataset for visually-grounded natural language navigation in real buildings -the Room-to-Room (R2R) dataset 1 .1 https://bringmeaspoon.org Instruction: Head upstairs and walk past the piano through an archway directly in front. Turn right when the hallway ends at pictures and table. Wait by the moose antlers hanging on the wall.
translated by 谷歌翻译
体现的代理需要能够在自然语言中互动理解任务描述,并提出适当的后续问题以获取必要的信息,以有效地成功完成各种用户的任务。在这项工作中,我们提出了一组对话框,用于建模此类对话框,并注释教学数据集,其中包括3,000多个位置,以任务为导向的对话(总计包含39.5k个话语),并具有对话框ACT。 Teach-da是对Dialog ACT的第一个大型数据集注释,用于具体任务完成。此外,我们在培训模型中证明了该注释的数据集在标记给定话语的对话框行为中的使用,预测给定对话框历史记录的下一个响应的对话框行为,并使用对话框行为指导代理商的非第二语言行为。特别是,我们对对话记录任务的教学执行执行的实验,该模型预测在体现任务完成环境中要执行的低级操作的顺序,证明对话框行为可以将最终任务成功提高2分,以提高最终任务成功率到没有对话行为的系统。
translated by 谷歌翻译
自然语言提供可访问和富有富有态度的界面,以指定机器人代理的长期任务。但是,非专家可能会使用高级指令指定此类任务,其中通过多个抽象层摘要通过特定的机器人操作。我们建议将语言和机器人行动之间的这种差距延长长的执行视野是持久的表示。我们提出了一种持久的空间语义表示方法,并展示它是如何构建执行分层推理的代理,以有效执行长期任务。尽管完全避免了常用的逐步说明,我们评估了我们对阿尔弗雷德基准的方法并实现了最先进的结果。
translated by 谷歌翻译
最近的作品表明,如何将大语言模型(LLM)的推理能力应用于自然语言处理以外的领域,例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面:可用技能的曲目,这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能,还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化,以响应代理商自己的选择。在这项工作中,我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源,而无需任何其他培训。我们建议,通过利用环境反馈,LLM能够形成内部独白,使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源,例如成功检测,场景描述和人类互动。我们发现,闭环语言反馈显着改善了三个领域的高级指导完成,包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。
translated by 谷歌翻译
视觉和语言导航(VLN)是一种任务,即遵循语言指令以导航到目标位置的语言指令,这依赖于在移动期间与环境的持续交互。最近的基于变压器的VLN方法取得了很大的进步,从视觉观测和语言指令之间的直接连接通过多模式跨关注机制。然而,这些方法通常代表通过使用LSTM解码器或使用手动设计隐藏状态来构建反复变压器的时间上下文作为固定长度矢量。考虑到单个固定长度向量通常不足以捕获长期时间上下文,在本文中,我们通过显式建模时间上下文来引入具有可变长度存储器(MTVM)的多模式变压器,通过模拟时间上下文。具体地,MTVM使代理能够通过直接存储在存储体中的先前激活来跟踪导航轨迹。为了进一步提高性能,我们提出了内存感知的一致性损失,以帮助学习随机屏蔽指令的时间上下文的更好关节表示。我们在流行的R2R和CVDN数据集上评估MTVM,我们的模型在R2R看不见的验证和测试中提高了2%的成功率,并在CVDN测试集上减少了1.6米的目标进程。
translated by 谷歌翻译
大型语言模型可以编码有关世界的大量语义知识。这种知识对于旨在采取自然语言表达的高级,时间扩展的指示的机器人可能非常有用。但是,语言模型的一个重大弱点是,它们缺乏现实世界的经验,这使得很难利用它们在给定的体现中进行决策。例如,要求语言模型描述如何清洁溢出物可能会导致合理的叙述,但是它可能不适用于需要在特定环境中执行此任务的特定代理商(例如机器人)。我们建议通过预处理的技能来提供现实世界的基础,这些技能用于限制模型以提出可行且在上下文上适当的自然语言动作。机器人可以充当语​​言模型的“手和眼睛”,而语言模型可以提供有关任务的高级语义知识。我们展示了如何将低级技能与大语言模型结合在一起,以便语言模型提供有关执行复杂和时间扩展说明的过程的高级知识,而与这些技能相关的价值功能则提供了连接必要的基础了解特定的物理环境。我们在许多现实世界的机器人任务上评估了我们的方法,我们表明了对现实世界接地的需求,并且这种方法能够在移动操纵器上完成长远,抽象的自然语言指令。该项目的网站和视频可以在https://say-can.github.io/上找到。
translated by 谷歌翻译
表演家庭和办公室任务的语言引导机器人必须导航和与世界互动。接地语言指示视觉观察和携带环境的行动是一个开放的挑战。我们呈现体现伯尔特(Embert),一种基于变压器的模型,可以参加跨长时间视野的高维,多模态输入进行语言条件任务完成。此外,我们通过引入Embert培训的对象导航目标来介绍用于非交互式代理的成功对象的导航模型和用于非交互式代理和语言引导的视觉任务完成基准。我们在Alfred基准测试中实现了竞争性能,eMbert标志着一个基于一个基于变压器的模型,以成功处理Alfred的长地平线,密集,多模态历史,以及使用以对象为中心的导航目标的第一个Alfred模型。
translated by 谷歌翻译
为了解决艰巨的任务,人类提出问题以从外部来源获取知识。相反,经典的加强学习者缺乏这种能力,并且常常诉诸探索性行为。这会加剧,因为很少的当今环境支持查询知识。为了研究如何通过语言教授代理来查询外部知识,我们首先介绍了两个新环境:基于网格世界的Q-babyai和基于文本的Q-Textworld。除了物理互动外,代理还可以查询专门针对这些环境的外部知识源来收集信息。其次,我们提出了“寻求知识”(AFK)代理,该代理学会生成语言命令以查询有助于解决任务的有意义的知识。 AFK利用非参数记忆,指针机制和情节探索奖金来解决(1)无关的信息,(2)一个较大的查询语言空间,(3)延迟奖励有意义的查询。广泛的实验表明,AFK代理在具有挑战性的Q-Babyai和Q-Textworld环境方面优于最近的基线。
translated by 谷歌翻译