We introduce OPEND, a benchmark for learning how to use a hand to open cabinet doors or drawers in a photo-realistic and physics-reliable simulation environment driven by language instruction. To solve the task, we propose a multi-step planner composed of a deep neural network and rule-base controllers. The network is utilized to capture spatial relationships from images and understand semantic meaning from language instructions. Controllers efficiently execute the plan based on the spatial and semantic understanding. We evaluate our system by measuring its zero-shot performance in test data set. Experimental results demonstrate the effectiveness of decision planning by our multi-step planner for different hands, while suggesting that there is significant room for developing better models to address the challenge brought by language understanding, spatial reasoning, and long-term manipulation. We will release OPEND and host challenges to promote future research in this area.
translated by 谷歌翻译
Household environments are visually diverse. Embodied agents performing Vision-and-Language Navigation (VLN) in the wild must be able to handle this diversity, while also following arbitrary language instructions. Recently, Vision-Language models like CLIP have shown great performance on the task of zero-shot object recognition. In this work, we ask if these models are also capable of zero-shot language grounding. In particular, we utilize CLIP to tackle the novel problem of zero-shot VLN using natural language referring expressions that describe target objects, in contrast to past work that used simple language templates describing object classes. We examine CLIP's capability in making sequential navigational decisions without any dataset-specific finetuning, and study how it influences the path that an agent takes. Our results on the coarse-grained instruction following task of REVERIE demonstrate the navigational capability of CLIP, surpassing the supervised baseline in terms of both success rate (SR) and success weighted by path length (SPL). More importantly, we quantitatively show that our CLIP-based zero-shot approach generalizes better to show consistent performance across environments when compared to SOTA, fully supervised learning approaches when evaluated via Relative Change in Success (RCS).
translated by 谷歌翻译
我们为合作和异构多机构学习提供了多模式(视觉和语言)基准。我们介绍了一个基准的多模式数据集,其任务涉及在丰富的多房间环境中多个模拟异质机器人之间的协作。我们提供了一个集成的学习框架,最先进的多机构增强学习技术的多模式实现以及一致的评估协议。我们的实验研究了不同方式对多代理学习绩效的影响。我们还引入了代理之间的简单消息传递方法。结果表明,多模式为合作多学院学习带来了独特的挑战,并且在此类环境中推进多机构增强学习方法还有很大的空间。
translated by 谷歌翻译
我们考虑一个设置机器人团队的任务是跟踪以下属性的多个目标:接近目标可以实现更准确的目标位置估计,同时也增加了传感器故障的风险。因此,要解决跟踪质量最大化和风险最小化之间的权衡至关重要。在我们以前的工作中,开发了一个集中式控制器来规划所有机器人的动作 - 但是,这不是可扩展的方法。在这里,我们提出了一个分散且具有风险的多目标跟踪框架,在该框架中,每个机器人都计划其运动交易的跟踪准确性最大化和厌恶风险,同时仅依靠其与邻居交流的信息和信息。我们使用控制屏障函数来保证整个跟踪过程中的网络连接。广泛的数值实验表明,我们的系统可以达到与集中式同行相似的跟踪准确性和风险意识。
translated by 谷歌翻译
我们提出了一种从演示方法(LFD)方法的新颖学习,即示范(DMFD)的可变形操作,以使用状态或图像作为输入(给定的专家演示)来求解可变形的操纵任务。我们的方法以三种不同的方式使用演示,并平衡在线探索环境和使用专家的指导之间进行权衡的权衡,以有效地探索高维空间。我们在一组一维绳索的一组代表性操纵任务上测试DMFD,并从软件套件中的一套二维布和2维布进行测试,每个任务都带有状态和图像观测。对于基于状态的任务,我们的方法超过基线性能高达12.9%,在基于图像的任务上最多超过33.44%,具有可比或更好的随机性。此外,我们创建了两个具有挑战性的环境,用于使用基于图像的观测值折叠2D布,并为其设定性能基准。与仿真相比,我们在现实世界执行过程中归一化性能损失最小的真实机器人(约为6%),我们将DMFD部署为最小。源代码在github.com/uscresl/dmfd上
translated by 谷歌翻译
物理重新安排的物体是体现剂的重要功能。视觉室的重新安排评估了代理在房间中重新安排对象的能力,仅基于视觉输入而获得所需的目标。我们为此问题提出了一种简单而有效的方法:(1)搜索并映射需要重新排列哪些对象,以及(2)重新排列每个对象,直到任务完成为止。我们的方法包括一个现成的语义分割模型,基于体素的语义图和语义搜索策略,以有效地找到需要重新排列的对象。在AI2 - 重新排列的挑战中,我们的方法改进了当前最新的端到端增强学习方法,这些方法从0.53%的正确重排达到16.56%,学习视觉重排政策,仅使用2.7%,仅使用2.7%来自环境的样本。
translated by 谷歌翻译
多机器人大满贯系统在受GPS污染的环境中需要循环封闭以维护无漂移的集中式地图。随着越来越多的机器人和环境大小,检查和计算所有循环闭合候选者的转换变得不可行。在这项工作中,我们描述了一个循环闭合模块,该模块能够优先考虑哪个循环闭合以根据基础姿势图,与已知信标的接近性以及点云的特性进行计算。我们在DARPA地下挑战和许多具有挑战性的地下数据集中验证该系统,并证明该系统能够生成和保持低误差的地图。我们发现,我们提出的技术能够选择有效的循环封闭,与探空量解决方案相比,与没有优先级排序的基线版本相比,中位误差的平均值减少了51%,中位误差的平均误差和平均值减少了75%。我们还发现,与处理四个半小时内每个可能的循环封闭的系统相比,我们提出的系统能够在一小时的任务时间内找到较低的错误。可以找到此工作的代码和数据集https://github.com/nebula-autonomy/lamp
translated by 谷歌翻译
能够重现从光相互作用到接触力学的物理现象,模拟器在越来越多的应用程序域变得越来越有用,而现实世界中的相互作用或标记数据很难获得。尽管最近取得了进展,但仍需要大量的人为努力来配置模拟器以准确地再现现实世界的行为。我们介绍了一条管道,将反向渲染与可区分的模拟相结合,从而从深度或RGB视频中创建数字双铰接式机制。我们的方法自动发现关节类型并估算其运动学参数,而整体机制的动态特性则调整为实现物理准确的模拟。正如我们在模拟系统上所证明的那样,在我们的派生模拟传输中优化的控制策略成功地回到了原始系统。此外,我们的方法准确地重建了由机器人操纵的铰接机制的运动学树,以及现实世界中耦合的摆机制的高度非线性动力学。网站:https://Eric-heiden.github.io/video2sim
translated by 谷歌翻译
语言指导的体现了AI基准,要求代理导航环境并操纵对象通常允许单向通信:人类用户向代理提供了自然语言命令,而代理只能被动地遵循命令。我们介绍了基于Alfred基准测试的基准测试后的拨号式拨号。Dialfred允许代理商积极向人类用户提出问题;代理使用用户响应中的其他信息来更好地完成其任务。我们发布了一个具有53K任务的问题和答案的人类注销数据集,以及一个可以回答问题的甲骨文。为了解决Dialfred,我们提出了一个提问者绩效框架,其中发问者通过人类通知的数据进行了预训练,并通过增强学习进行了微调。我们将拨号拨入公开,并鼓励研究人员提出和评估他们的解决方案,以构建支持对话的体现代理。
translated by 谷歌翻译
由于在存在障碍物和高维视觉观测的情况下,由于在存在障碍和高维视觉观测的情况下,学习复杂的操纵任务是一个具有挑战性的问题。事先工作通过整合运动规划和强化学习来解决勘探问题。但是,运动计划程序增强策略需要访问状态信息,该信息通常在现实世界中不可用。为此,我们建议通过(1)视觉行为克隆以通过(1)视觉行为克隆来将基于国家的运动计划者增强策略,以删除运动计划员依赖以及其抖动运动,以及(2)基于视觉的增强学习来自行为克隆代理的平滑轨迹的指导。我们在阻塞环境中的三个操作任务中评估我们的方法,并将其与各种加固学习和模仿学习基线进行比较。结果表明,我们的框架是高度采样的和优于最先进的算法。此外,与域随机化相结合,我们的政策能够用零击转移到未经分散的人的未经环境环境。 https://clvrai.com/mopa-pd提供的代码和视频
translated by 谷歌翻译