对象目标导航(ObjectNAV)任务是在没有预先构建的地图的情况下将代理导航到看不见的环境中的对象类别。在本文中,我们通过使用语义相关对象作为线索来预测目标的距离来解决此任务。根据与目标对象的估计距离,我们的方法直接选择最佳的中期目标,这些目标更可能具有较短的目标途径。具体而言,基于学习的知识,我们的模型将鸟眼视图语义图作为输入,并估算从边界图单元到目标对象的路径长度。借助估计的距离图,代理可以同时探索环境并基于简单的人类设计策略导航到目标对象。在视觉上逼真的模拟环境中,经验结果表明,该提出的方法的表现优于成功率和效率的广泛基准。 Realobot实验还表明,我们的方法很好地推广到了现实世界。视频https://www.youtube.com/watch?v=r79pwvgfks4
translated by 谷歌翻译
Efficient ObjectGoal navigation (ObjectNav) in novel environments requires an understanding of the spatial and semantic regularities in environment layouts. In this work, we present a straightforward method for learning these regularities by predicting the locations of unobserved objects from incomplete semantic maps. Our method differs from previous prediction-based navigation methods, such as frontier potential prediction or egocentric map completion, by directly predicting unseen targets while leveraging the global context from all previously explored areas. Our prediction model is lightweight and can be trained in a supervised manner using a relatively small amount of passively collected data. Once trained, the model can be incorporated into a modular pipeline for ObjectNav without the need for any reinforcement learning. We validate the effectiveness of our method on the HM3D and MP3D ObjectNav datasets. We find that it achieves the state-of-the-art on both datasets, despite not using any additional data for training.
translated by 谷歌翻译
这项工作研究了图像目标导航问题,需要通过真正拥挤的环境引导具有嘈杂传感器和控制的机器人。最近的富有成效的方法依赖于深度加强学习,并学习模拟环境中的导航政策,这些环境比真实环境更简单。直接将这些训练有素的策略转移到真正的环境可能非常具有挑战性甚至危险。我们用由四个解耦模块组成的分层导航方法来解决这个问题。第一模块在机器人导航期间维护障碍物映射。第二个将定期预测实时地图上的长期目标。第三个计划碰撞命令集以导航到长期目标,而最终模块将机器人正确靠近目标图像。四个模块是单独开发的,以适应真实拥挤的情景中的图像目标导航。此外,分层分解对导航目标规划,碰撞避免和导航结束预测的学习进行了解耦,这在导航训练期间减少了搜索空间,并有助于改善以前看不见的真实场景的概括。我们通过移动机器人评估模拟器和现实世界中的方法。结果表明,我们的方法优于多种导航基线,可以在这些方案中成功实现导航任务。
translated by 谷歌翻译
对象目标导航的最新方法依赖于增强学习,通常需要大量的计算资源和学习时间。我们提出了使用无互动学习(PONI)的对象导航的潜在功能,这是一种模块化方法,可以散布“在哪里看?”的技能?对于对象和“如何导航到(x,y)?”。我们的主要见解是“在哪里看?”可以纯粹将其视为感知问题,而没有环境相互作用就可以学习。为了解决这个问题,我们提出了一个网络,该网络可以预测两个在语义图上的互补电位功能,并使用它们来决定在哪里寻找看不见的对象。我们使用在自上而下的语义图的被动数据集上使用受监督的学习来训练潜在的功能网络,并将其集成到模块化框架中以执行对象目标导航。 Gibson和MatterPort3D的实验表明,我们的方法可实现对象目标导航的最新方法,同时减少培训计算成本高达1,600倍。可以使用代码和预训练的模型:https://vision.cs.utexas.edu/projects/poni/
translated by 谷歌翻译
在本文中,我们专注于在线学习主动视觉在未知室内环境中的对象的搜索(AVS)的最优策略问题。我们建议POMP++,规划战略,介绍了经典的部分可观察蒙特卡洛规划(POMCP)框架之上的新制剂,允许免费培训,在线政策在未知的环境中学习。我们提出了一个新的信仰振兴战略,允许使用POMCP与动态扩展状态空间来解决在线生成平面地图的。我们评估我们在两个公共标准数据集的方法,AVD由是从真正的3D场景渲染扫描真正的机器人平台和人居ObjectNav收购,用>10%,比国家的the-改善达到最佳的成功率技术方法。
translated by 谷歌翻译
Semantic navigation is necessary to deploy mobile robots in uncontrolled environments like our homes, schools, and hospitals. Many learning-based approaches have been proposed in response to the lack of semantic understanding of the classical pipeline for spatial navigation, which builds a geometric map using depth sensors and plans to reach point goals. Broadly, end-to-end learning approaches reactively map sensor inputs to actions with deep neural networks, while modular learning approaches enrich the classical pipeline with learning-based semantic sensing and exploration. But learned visual navigation policies have predominantly been evaluated in simulation. How well do different classes of methods work on a robot? We present a large-scale empirical study of semantic visual navigation methods comparing representative methods from classical, modular, and end-to-end learning approaches across six homes with no prior experience, maps, or instrumentation. We find that modular learning works well in the real world, attaining a 90% success rate. In contrast, end-to-end learning does not, dropping from 77% simulation to 23% real-world success rate due to a large image domain gap between simulation and reality. For practitioners, we show that modular learning is a reliable approach to navigate to objects: modularity and abstraction in policy design enable Sim-to-Real transfer. For researchers, we identify two key issues that prevent today's simulators from being reliable evaluation benchmarks - (A) a large Sim-to-Real gap in images and (B) a disconnect between simulation and real-world error modes - and propose concrete steps forward.
translated by 谷歌翻译
Object goal navigation (ObjectNav) in unseen environments is a fundamental task for Embodied AI. Agents in existing works learn ObjectNav policies based on 2D maps, scene graphs, or image sequences. Considering this task happens in 3D space, a 3D-aware agent can advance its ObjectNav capability via learning from fine-grained spatial information. However, leveraging 3D scene representation can be prohibitively unpractical for policy learning in this floor-level task, due to low sample efficiency and expensive computational cost. In this work, we propose a framework for the challenging 3D-aware ObjectNav based on two straightforward sub-policies. The two sub-polices, namely corner-guided exploration policy and category-aware identification policy, simultaneously perform by utilizing online fused 3D points as observation. Through extensive experiments, we show that this framework can dramatically improve the performance in ObjectNav through learning from 3D scene representation. Our framework achieves the best performance among all modular-based methods on the Matterport3D and Gibson datasets, while requiring (up to 30x) less computational cost for training.
translated by 谷歌翻译
In recent years several learning approaches to point goal navigation in previously unseen environments have been proposed. They vary in the representations of the environments, problem decomposition, and experimental evaluation. In this work, we compare the state-of-the-art Deep Reinforcement Learning based approaches with Partially Observable Markov Decision Process (POMDP) formulation of the point goal navigation problem. We adapt the (POMDP) sub-goal framework proposed by [1] and modify the component that estimates frontier properties by using partial semantic maps of indoor scenes built from images' semantic segmentation. In addition to the well-known completeness of the model-based approach, we demonstrate that it is robust and efficient in that it leverages informative, learned properties of the frontiers compared to an optimistic frontier-based planner. We also demonstrate its data efficiency compared to the end-to-end deep reinforcement learning approaches. We compare our results against an optimistic planner, ANS and DD-PPO on Matterport3D dataset using the Habitat Simulator. We show comparable, though slightly worse performance than the SOTA DD-PPO approach, yet with far fewer data.
translated by 谷歌翻译
为了基于深度加强学习(RL)来增强目标驱动的视觉导航的交叉目标和跨场景,我们将信息理论正则化术语引入RL目标。正则化最大化导航动作与代理的视觉观察变换之间的互信息,从而促进更明智的导航决策。这样,代理通过学习变分生成模型来模拟动作观察动态。基于该模型,代理生成(想象)从其当前观察和导航目标的下一次观察。这样,代理学会了解导航操作与其观察变化之间的因果关系,这允许代理通过比较当前和想象的下一个观察来预测导航的下一个动作。 AI2-Thor框架上的交叉目标和跨场景评估表明,我们的方法在某些最先进的模型上获得了平均成功率的10美元。我们进一步评估了我们的模型在两个现实世界中:来自离散的活动视觉数据集(AVD)和带有TurtleBot的连续现实世界环境中的看不见的室内场景导航。我们证明我们的导航模型能够成功实现导航任务这些情景。视频和型号可以在补充材料中找到。
translated by 谷歌翻译
我们介绍了一个目标驱动的导航系统,以改善室内场景中的Fapless视觉导航。我们的方法在每次步骤中都将机器人和目标的多视图观察为输入,以提供将机器人移动到目标的一系列动作,而不依赖于运行时在运行时。通过优化包含三个关键设计的组合目标来了解该系统。首先,我们建议代理人在做出行动决定之前构建下一次观察。这是通过从专家演示中学习变分生成模块来实现的。然后,我们提出预测预先预测静态碰撞,作为辅助任务,以改善导航期间的安全性。此外,为了减轻终止动作预测的训练数据不平衡问题,我们还介绍了一个目标检查模块来区分与终止动作的增强导航策略。这三种建议的设计都有助于提高培训数据效率,静态冲突避免和导航泛化性能,从而产生了一种新颖的目标驱动的FLASES导航系统。通过对Turtlebot的实验,我们提供了证据表明我们的模型可以集成到机器人系统中并在现实世界中导航。视频和型号可以在补充材料中找到。
translated by 谷歌翻译
从“Internet AI”的时代到“体现AI”的时代,AI算法和代理商出现了一个新兴范式转变,其中不再从主要来自Internet策划的图像,视频或文本的数据集。相反,他们通过与与人类类似的Enocentric感知来通过与其环境的互动学习。因此,对体现AI模拟器的需求存在大幅增长,以支持各种体现的AI研究任务。这种越来越多的体现AI兴趣是有利于对人工综合情报(AGI)的更大追求,但对这一领域并无一直存在当代和全面的调查。本文旨在向体现AI领域提供百科全书的调查,从其模拟器到其研究。通过使用我们提出的七种功能评估九个当前体现的AI模拟器,旨在了解模拟器,以其在体现AI研究和其局限性中使用。最后,本文调查了体现AI - 视觉探索,视觉导航和体现问题的三个主要研究任务(QA),涵盖了最先进的方法,评估指标和数据集。最后,随着通过测量该领域的新见解,本文将为仿真器 - 任务选择和建议提供关于该领域的未来方向的建议。
translated by 谷歌翻译
对象视觉导航旨在基于代理的视觉观察来转向目标对象。非常希望合理地感知环境并准确控制代理。在导航任务中,我们引入了一个以代理为中心的关系图(ACRG),用于基于环境中的关系学习视觉表示。 ACRG是一种高效且合理的结构,包括两个关系,即物体之间的关系以及代理与目标之间的关系。一方面,我们设计了存储物体之间的相对水平位置的对象水平关系图(OHRG)。请注意,垂直关系不涉及OHRG,我们认为OHRG适合控制策略。另一方面,我们提出了代理 - 目标深度关系图(ATDRG),使代理能够将距离视为目标的距离。为了实现ATDRG,我们利用图像深度来表示距离。鉴于上述关系,代理可以察觉到环境和输出导航操作。鉴于ACRG和位置编码的全局功能构造的可视表示,代理可以捕获目标位置以执行导航操作。人工环境中的实验结果AI2-Thor表明ACRG显着优于看不见的检测环境中的其他最先进的方法。
translated by 谷歌翻译
对象目标导航要求机器人在以前看不见的环境中找到并导航到目标对象类的实例。我们的框架会随着时间的推移逐步构建环境的语义图,然后根据语义映射重复选择一个长期目标(“ where to Go”)以找到目标对象实例。长期目标选择被称为基于视觉的深度强化学习问题。具体而言,对编码器网络进行了训练,可以从语义图中提取高级功能并选择长期目标。此外,我们还将数据增强和Q功能正则化合并,以使长期目标选择更有效。我们在AI栖息地3D模拟环境中使用照片现实的Gibson基准数据集进行了实验结果,以证明与最先进的数据驱动基线相比,标准措施的性能改善。
translated by 谷歌翻译
我们提出了一种新颖的场景表示,其编码达到距离 - 沿着可行轨迹的场景中的任何位置之间的距离。我们证明,该环境现场表示可以直接指导2D迷宫或3D室内场景中代理的动态行为。我们的环境领域是一种连续表示,通过使用离散采样的培训数据通过神经隐式功能学习。我们展示其在2D迷宫中的代理导航应用,3D室内环境中的人为轨迹预测。为了为人类生产物理似品和自然的轨迹,我们还学习了一种生成模型,该模型预测了人类通常出现的区域,并强制执行要在这些区域内定义的环境场。广泛的实验表明,所提出的方法可以有效准确地产生可行和合理的轨迹。
translated by 谷歌翻译
提出了一个新颖的框架,以逐步收集基于标志的图形存储器,并使用收集的内存进行图像目标导航。给定目标图像搜索,具体的机器人利用语义内存在未知环境中找到目标。 %从RGB-D摄像机的全景观察中收集语义图存储器,而无需知道机器人的姿势。在本文中,我们提出了一个拓扑语义图存储(TSGM),该记忆由(1)一个图形构建器组成,该图将观察到的RGB-D图像构造拓扑语义图,(2)横图搅拌器模块,该模块采用该模块收集的节点以获取上下文信息,以及(3)将上下文内存作为输入的内存解码器,以找到对目标的操作。在图像目标导航的任务上,TSGM明显优于成功率的竞争基线,而SPL上的竞争性基线的表现为 +5.0-9.0%,这意味着TSGM可以找到有效的路径。此外,我们在现实世界图像目标方案中在移动机器人上演示了我们的方法。
translated by 谷歌翻译
对象看起来和声音的方式提供了对其物理特性的互补反射。在许多设置中,视觉和试听的线索都异步到达,但必须集成,就像我们听到一个物体掉落在地板上,然后必须找到它时。在本文中,我们介绍了一个设置,用于研究3D虚拟环境中的多模式对象定位。一个物体在房间的某个地方掉落。配备了摄像头和麦克风的具体机器人剂必须通过将音频和视觉信号与知识的基础物理学结合来确定已删除的对象以及位置。为了研究此问题,我们生成了一个大规模数据集 - 倒下的对象数据集 - 其中包括64个房间中30个物理对象类别的8000个实例。该数据集使用Threedworld平台,该平台可以模拟基于物理的影响声音和在影片设置中对象之间的复杂物理交互。作为解决这一挑战的第一步,我们基于模仿学习,强化学习和模块化计划,开发了一组具体的代理基线,并对这项新任务的挑战进行了深入的分析。
translated by 谷歌翻译
我们建议通过学习通过构思它预期看到的下一个观察来引导的代理来改善视觉导航的跨目标和跨场景概括。这是通过学习变分贝叶斯模型来实现的,称为Neonav,该模型产生了在试剂和目标视图的当前观察中的下一个预期观察(Neo)。我们的生成模式是通过优化包含两个关键设计的变分目标来了解。首先,潜在分布在当前观察和目标视图上进行调节,导致基于模型的目标驱动导航。其次,潜伏的空间用在当前观察和下一个最佳动作上的高斯的混合物建模。我们使用后医混合物的用途能够有效地减轻过正规化的潜在空间的问题,从而大大提高了新目标和新场景的模型概括。此外,Neo Generation模型代理环境交互的前向动态,从而提高了近似推断的质量,因此提高了数据效率。我们对现实世界和合成基准进行了广泛的评估,并表明我们的模型在成功率,数据效率和泛化方面始终如一地优于最先进的模型。
translated by 谷歌翻译
在这项工作中,我们提出了一种用于图像目标导航的内存调格方法。早期的尝试,包括基于RL的基于RL的方法和基于SLAM的方法的概括性能差,或者在姿势/深度传感器上稳定稳定。我们的方法基于一个基于注意力的端到端模型,该模型利用情节记忆来学习导航。首先,我们以自我监督的方式训练一个国家安置的网络,然后将其嵌入以前访问的状态中的代理商的记忆中。我们的导航政策通过注意机制利用了此信息。我们通过广泛的评估来验证我们的方法,并表明我们的模型在具有挑战性的吉布森数据集上建立了新的最新技术。此外,与相关工作形成鲜明对比的是,我们仅凭RGB输入就实现了这种令人印象深刻的性能,而无需访问其他信息,例如位置或深度。
translated by 谷歌翻译
Efficient use of the space in an elevator is very necessary for a service robot, due to the need for reducing the amount of time caused by waiting for the next elevator. To provide a solution for this, we propose a hybrid approach that combines reinforcement learning (RL) with voice interaction for robot navigation in the scene of entering the elevator. RL provides robots with a high exploration ability to find a new clear path to enter the elevator compared to traditional navigation methods such as Optimal Reciprocal Collision Avoidance (ORCA). The proposed method allows the robot to take an active clear path action towards the elevator whilst a crowd of people stands at the entrance of the elevator wherein there are still lots of space. This is done by embedding a clear path action (voice prompt) into the RL framework, and the proposed navigation policy helps the robot to finish tasks efficiently and safely. Our model approach provides a great improvement in the success rate and reward of entering the elevator compared to state-of-the-art navigation policies without active clear path operation.
translated by 谷歌翻译
自主场景的曝光和探索,尤其是在本地化或沟通有限的区域,对于在未知场景中寻找目标有用,仍然是计算机导航中的一个具有挑战性的问题。在这项工作中,我们提出了一种用于实时环境探索的新方法,其唯一的要求是一个视觉上相似的数据集,用于预训练,场景中足够的照明以及用于环境感应的机上前瞻性RGB摄像机。与现有方法相反,我们的方法只需要一个外观(图像)才能做出一个良好的战术决定,因此在非成长,恒定的时间内起作用。两个方向的预测以像素为特征,称为goto和lookat像素,包括我们方法的核心。这些像素通过以下方式编码建议的飞行指令:goto像素定义了代理应以一个距离单位移动的方向,而Lookat像素定义了相机应在下一步中指向的方向。这些飞行的指导像素经过优化,以揭示当前未开发的区域的最多数量。我们的方法提出了一种新型的基于深度学习的导航方法,能够解决此问题并在更复杂的设置中证明其能力,即计算能力有限。此外,我们提出了一种生成面向导航数据集的方法,从而可以使用RGB和深度图像对我们的方法有效培训。在模拟器中进行的测试,评估了稀疏像素的推断过程的协调,以及旨在揭示区域并降低目标距离的2D和3D测试飞行取得了令人鼓舞的结果。与最先进的算法的比较表明,我们的方法能够表现出色,在测量每个相机姿势的新体素,最小距离目标距离,所见表面素的百分比和计算时间指标。
translated by 谷歌翻译