我们的目标是国内机器人进行长期室内服务。在日常人类活动引起的对象级场景的动态下,机器人需要在场景不确定性的情况下稳健地将自己定位于环境中。以前的工作已经解决了基于视觉的本地化在静态环境中的本地化,但是对象级场景动态挑战了机器人长期部署的现有方法。本文提出了一个语义理解网络(Seannet)体系结构,该体系结构可以通过耦合的视觉和语义输入来实现有效的学习过程。借助包含对象动态的数据集,我们提出了一个级联的对比度学习方案,以训练Seannet学习矢量场景嵌入。随后,我们可以测量当前观察到的场景和目标场景之间的相似性,从而在对象级动力学下实现强大的本地化。在我们的实验中,我们在场景相似性测量方面对抗最先进的图像编码网络(基线)进行基准测试。带有建议的训练方法的Seannet架构可以达到85.02 \%的准确性,该准确性高于基准。我们将Seannet和其他网络作为本地化进一步集成到Visual Navigation应用程序中。我们证明,与基准相比,Seannet取得了更高的成功率。
translated by 谷歌翻译
本文描述了对象目标导航任务的框架,该任务要求机器人从随机的启动位置查找并移至目标对象类的最接近实例。该框架使用机器人轨迹的历史记录来学习空间关系图(SRG)和图形卷积网络(GCN)基于基于不同语义标记区域的可能性以及这些区域不同对象类别的发生的可能性。为了在评估过程中定位目标对象实例,机器人使用贝叶斯推理和SRG估计可见区域,并使用学习的GCN嵌入来对可见区域进行排名,并选择接下来的区域。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
当前的全球本地化描述符通常在巨大的观点或外观变化下挣扎。一种可能的改进是添加有关语义对象的拓扑信息。然而,手工制作的拓扑描述符很难调节,并且对环境噪音,剧烈的透视变化,对象阻塞或错误进行错误而不强大。为了解决这个问题,我们通过将语义有意义的对象星座建模为图形,并使用深图卷积网络将星座映射到描述符来制定基于学习的方法。我们证明了我们深知的星座描述符(描述)在两个现实世界数据集上的有效性。尽管对随机生成的仿真数据集进行了描述培训,但它在现实世界数据集上显示出良好的概括能力。描述还优于最先进的和手工制作的星座描述符在全球本地化上,并且对不同类型的噪声非常有力。该代码可在https://github.com/ethz-asl/descriptellation上公开获得。
translated by 谷歌翻译
对象导航任务要求代理根据视觉信息在未知环境中找到特定对象。以前,图形卷积被用于隐式探索对象之间的关系。但是,由于对象之间可见性的差异,很容易在对象注意中产生偏见。因此,在本文中,我们提出了一个定向的对象注意(DOA)图,以指导代理显式地学习对象之间的注意力关系,从而减少对象的注意偏置。特别是,我们使用DOA图在原始图像上分别对对象特征和无偏的自适应图像注意(UAIA)进行无偏的自适应对象注意(UAOA)。为了区分不同分支的特征,提出了一种简洁的自适应分支分布(ABED)方法。我们在AI2-数据集上评估我们的方法。与最先进的方法(SOTA)方法相比,我们的方法报告了7.4%,8.1%和17.6%的成功率(SR),成功按路径长度(SPL)加权(SPL)并通过动作效率加权成功(SAE) ), 分别。
translated by 谷歌翻译
许多应用程序要求机器人在与人类或其他机器人等其他代理商共享的环境中运行。但是,这种共享场景通常会受到不同种类的长期语义场景的变化。因此,建模和预测这种变化的能力对于机器人自主权至关重要。在这项工作中,我们将语义场景变异性估计的任务形式化,并确定语义场景的三个主要品种变化:对象的位置,其语义状态或整个场景的组成。为了表示这种可变性,我们提出了可变场景图(VSG),该图表图具有可变性属性的现有3D场景图(SG)表示,代表离散长期变更事件的可能性。我们提出了一种新颖的方法Deltavsg,以估计以监督方式估计VSG的可变性。我们在3RSCAN长期数据集上评估了我们的方法,显示了这项新型任务对现有方法的显着改进。我们的方法Deltavsg的精度为72.2%,召回66.8%,通常模仿人类关于室内场景如何随着时间变化的直觉。我们进一步显示了VSG预测在主动机器人变更检测任务中的实用性,与场景变化 - 诺瓦尔计划者相比,任务完成加快了62.4%。我们将代码作为开源。
translated by 谷歌翻译
We propose a novel scene graph generation model called Graph R-CNN, that is both effective and efficient at detecting objects and their relations in images. Our model contains a Relation Proposal Network (RePN) that efficiently deals with the quadratic number of potential relations between objects in an image. We also propose an attentional Graph Convolutional Network (aGCN) that effectively captures contextual information between objects and relations. Finally, we introduce a new evaluation metric that is more holistic and realistic than existing metrics. We report state-of-the-art performance on scene graph generation as evaluated using both existing and our proposed metrics.
translated by 谷歌翻译
对象视觉导航旨在基于代理的视觉观察来转向目标对象。非常希望合理地感知环境并准确控制代理。在导航任务中,我们引入了一个以代理为中心的关系图(ACRG),用于基于环境中的关系学习视觉表示。 ACRG是一种高效且合理的结构,包括两个关系,即物体之间的关系以及代理与目标之间的关系。一方面,我们设计了存储物体之间的相对水平位置的对象水平关系图(OHRG)。请注意,垂直关系不涉及OHRG,我们认为OHRG适合控制策略。另一方面,我们提出了代理 - 目标深度关系图(ATDRG),使代理能够将距离视为目标的距离。为了实现ATDRG,我们利用图像深度来表示距离。鉴于上述关系,代理可以察觉到环境和输出导航操作。鉴于ACRG和位置编码的全局功能构造的可视表示,代理可以捕获目标位置以执行导航操作。人工环境中的实验结果AI2-Thor表明ACRG显着优于看不见的检测环境中的其他最先进的方法。
translated by 谷歌翻译
提出了一个新颖的框架,以逐步收集基于标志的图形存储器,并使用收集的内存进行图像目标导航。给定目标图像搜索,具体的机器人利用语义内存在未知环境中找到目标。 %从RGB-D摄像机的全景观察中收集语义图存储器,而无需知道机器人的姿势。在本文中,我们提出了一个拓扑语义图存储(TSGM),该记忆由(1)一个图形构建器组成,该图将观察到的RGB-D图像构造拓扑语义图,(2)横图搅拌器模块,该模块采用该模块收集的节点以获取上下文信息,以及(3)将上下文内存作为输入的内存解码器,以找到对目标的操作。在图像目标导航的任务上,TSGM明显优于成功率的竞争基线,而SPL上的竞争性基线的表现为 +5.0-9.0%,这意味着TSGM可以找到有效的路径。此外,我们在现实世界图像目标方案中在移动机器人上演示了我们的方法。
translated by 谷歌翻译
在本文中,我们提出了操纵关系图(MRG),这是一种小型可供表现,它捕获了任意场景的底层操纵关系。要从原始视觉观察构建此类图,介绍了名为AR-Net的深形环境网络。它由属性模块和上下文模块组成,该上下文模块分别指导对象和子图水平的关系学习。我们在名为SMRD的新颖操作关系数据集中定量验证了我们的方法。为了评估所提出的模型和表示的性能,进行视觉感知和物理操纵实验。总体而言,AR-NET与MRG优于所有基线,在任务完成(TR)的任务关系识别(TRR)上取得88.89%的成功率(TRR)和73.33%
translated by 谷歌翻译
Scene graph generation from images is a task of great interest to applications such as robotics, because graphs are the main way to represent knowledge about the world and regulate human-robot interactions in tasks such as Visual Question Answering (VQA). Unfortunately, its corresponding area of machine learning is still relatively in its infancy, and the solutions currently offered do not specialize well in concrete usage scenarios. Specifically, they do not take existing "expert" knowledge about the domain world into account; and that might indeed be necessary in order to provide the level of reliability demanded by the use case scenarios. In this paper, we propose an initial approximation to a framework called Ontology-Guided Scene Graph Generation (OG-SGG), that can improve the performance of an existing machine learning based scene graph generator using prior knowledge supplied in the form of an ontology (specifically, using the axioms defined within); and we present results evaluated on a specific scenario founded in telepresence robotics. These results show quantitative and qualitative improvements in the generated scene graphs.
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
这项工作研究了图像目标导航问题,需要通过真正拥挤的环境引导具有嘈杂传感器和控制的机器人。最近的富有成效的方法依赖于深度加强学习,并学习模拟环境中的导航政策,这些环境比真实环境更简单。直接将这些训练有素的策略转移到真正的环境可能非常具有挑战性甚至危险。我们用由四个解耦模块组成的分层导航方法来解决这个问题。第一模块在机器人导航期间维护障碍物映射。第二个将定期预测实时地图上的长期目标。第三个计划碰撞命令集以导航到长期目标,而最终模块将机器人正确靠近目标图像。四个模块是单独开发的,以适应真实拥挤的情景中的图像目标导航。此外,分层分解对导航目标规划,碰撞避免和导航结束预测的学习进行了解耦,这在导航训练期间减少了搜索空间,并有助于改善以前看不见的真实场景的概括。我们通过移动机器人评估模拟器和现实世界中的方法。结果表明,我们的方法优于多种导航基线,可以在这些方案中成功实现导航任务。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
混乱场景中的物体操纵是机器人技术中的一个困难和重要问题。为了有效地操纵物体,重要的是要了解它们的周围环境,尤其是在将一个物体堆叠在另一个物体的情况下,以防止有效抓握。我们在这里提出Duqim-Net,这是一种在堆叠对象的设置中进行对象操作的决策方法。在DUQIM-NET中,使用Adj-Net评估层次堆叠关系,该模型通过添加邻接头来利用现有的变压器编码器编码器对象检测器。该头部的输出概率地渗透了场景中对象的基础层次结构。我们利用DUQIM-NET中的邻接矩阵的属性来执行决策并协助对象抓任务。我们的实验结果表明,ADJ-NET超过了视觉操作关系数据集(VMRD)的对象关系推断的最新技术,并且DUQIM-NET在bin清除任务中的表现优于可比的方法。
translated by 谷歌翻译
通常,基于学习的拓扑导航方法产生了本地政策,同时通过拓扑图保留了空间的一些松散连通性。然而,拓扑图中的伪造或缺失的边缘通常会导致导航故障。在这项工作中,我们提出了一种基于抽样的图形构建方法,与基线方法相比,导致较为稀疏的图形却具有更高的导航性能。我们还提出了图形维护策略,以消除伪边缘并根据需要扩展图形,从而改善终身导航性能。与从固定培训环境中学习的控制器不同,我们表明我们的模型只能使用来自部署代理的现实世界环境中的少量收集的轨迹图像进行微调。我们在现实世界环境进行了微调后证明了成功的导航,并且通过应用我们的终身图形维护策略,随着时间的推移,随着时间的推移表现出显着的导航改进。
translated by 谷歌翻译
translated by 谷歌翻译
我们介绍了泰德(Tidee),这是一种体现的代理,它根据学识渊博的常识对象和房间安排先验来整理一个无序场景。泰德(Tidee)探索家庭环境,检测到其自然位置的对象,渗透到它们的合理对象上下文,在当前场景中定位此类上下文,并重新定位对象。常识先验在三个模块中编码:i)检测到现象对象的视觉声音检测器,ii)对象和空间关系的关联神经图记忆,提出了对象重新定位的合理语义插座和表面,以及iii)引导代理商探索的可视搜索网络,以有效地将利益定位在当前场景中以重新定位对象。我们测试了在AI2THOR模拟环境中整理混乱的场景的潮汐。 Tidee直接从像素和原始深度输入中执行任务,而没有事先观察到同一房间,仅依靠从单独的一组培训房屋中学到的先验。人类对由此产生的房间进行重组的评估表明,泰德(Tidee)的表现优于该模型的消融版本,这些版本不使用一个或多个常识性先验。在相关的房间重新安排基准测试中,该基准使代理可以在重新排列前查看目标状态,我们的模型的简化版本大大胜过了最佳的方法,可以通过大幅度的差距。代码和数据可在项目网站上获得:https://tidee-agent.github.io/。
translated by 谷歌翻译
视觉同时定位和映射(VSLAM)在计算机视觉和机器人社区中取得了巨大进展,并已成功用于许多领域,例如自主机器人导航和AR/VR。但是,VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说,通过与VSLAM结合语义信息,语义VSLAM系统具有近年来解决上述问题的能力。然而,尚无关于语义VSLAM的全面调查。为了填补空白,本文首先回顾了语义VSLAM的发展,并明确着眼于其优势和差异。其次,我们探讨了语义VSLAM的三个主要问题:语义信息的提取和关联,语义信息的应用以及语义VSLAM的优势。然后,我们收集和分析已广泛用于语义VSLAM系统的当前最新SLAM数据集。最后,我们讨论未来的方向,该方向将为语义VSLAM的未来发展提供蓝图。
translated by 谷歌翻译