在这项工作中,我们对对象零件进行了一声视觉搜索。给定具有带注释的负担区域的对象的单个参考图像,我们在目标场景中以语义对应部分进行分段。我们提出了Affcorrs,这是一种无监督的模型,结合了预训练的恐龙图像描述符和环相通讯的特性。我们使用affcorrs来找到相应的课内和间单弹部分分割的负担。这项任务比有监督的替代方案更加困难,但是可以通过模仿和辅助远程处理等将来的工作,例如学习能力。
translated by 谷歌翻译
我们利用从预先训练的视觉变压器(VIT)提取的深度特征,如密集的视觉描述符。我们证明这些特征是当从自我监督的Vit模型(Dino-Vit)中提取时,表现出几种打击性质:(i)特征在高空间分辨率下编码强大的高级信息 - 即,捕获精细的语义对象部件空间粒度和(ii)编码的语义信息跨相关但不同的对象类别(即超级类别)共享。这些属性允许我们设计强大的密集Vit描述符,便于各种应用,包括共分割,部分共分割和通信 - 通过将轻量级方法应用于深度染色特征(例如,分布/聚类)来实现。我们将这些应用程序进一步接受级别任务的领域 - 展示相关类别的对象如何在显着的姿势和外观变化下常规分段为语义部分。我们的方法,在定性和定量地评估的方法,实现最先进的部分共分割结果,以及最近监督方法的竞争结果,专门针对共同分割和对应关系。
translated by 谷歌翻译
我们提出了一种使用图像增强的自我监督训练方法,用于学习视图的视觉描述符。与通常需要复杂数据集的现有作品(例如注册的RGBD序列)不同,我们在无序的一组RGB图像上训练。这允许从单个相机视图(例如,在带有安装式摄像机的现有机器人单元格中学习)学习。我们使用数据增强创建合成视图和密集的像素对应关系。尽管数据记录和设置要求更简单,但我们发现我们的描述符与现有方法具有竞争力。我们表明,对合成对应的培训提供了各种相机视图的描述符的一致性。我们将训练与来自多种视图的几何对应关系进行比较,并提供消融研究。我们还使用从固定式摄像机中学到的描述符显示了一个机器人箱进行挑选实验,以定义掌握偏好。
translated by 谷歌翻译
Unsupervised object discovery aims to localize objects in images, while removing the dependence on annotations required by most deep learning-based methods. To address this problem, we propose a fully unsupervised, bottom-up approach, for multiple objects discovery. The proposed approach is a two-stage framework. First, instances of object parts are segmented by using the intra-image similarity between self-supervised local features. The second step merges and filters the object parts to form complete object instances. The latter is performed by two CNN models that capture semantic information on objects from the entire dataset. We demonstrate that the pseudo-labels generated by our method provide a better precision-recall trade-off than existing single and multiple objects discovery methods. In particular, we provide state-of-the-art results for both unsupervised class-agnostic object detection and unsupervised image segmentation.
translated by 谷歌翻译
无监督语义分割的任务旨在将像素聚集到语义上有意义的群体中。具体而言,分配给同一群集的像素应共享高级语义属性,例如其对象或零件类别。本文介绍了MaskDistill:基于三个关键想法的无监督语义细分的新颖框架。首先,我们提倡一种数据驱动的策略,以生成对象掩模作为语义分割事先的像素分组。这种方法省略了手工制作的先验,这些先验通常是为特定场景组成而设计的,并限制了竞争框架的适用性。其次,MaskDistill将对象掩盖簇簇以获取伪地真相,以训练初始对象分割模型。第三,我们利用此模型过滤出低质量的对象掩模。这种策略减轻了我们像素分组中的噪声,并导致了我们用来训练最终分割模型的干净掩模集合。通过组合这些组件,我们可以大大优于以前的作品,用于对Pascal(+11%MIOU)和COCO(+4%Mask AP50)进行无监督的语义分割。有趣的是,与现有方法相反,我们的框架不在低级图像提示上,也不限于以对象为中心的数据集。代码和型号将提供。
translated by 谷歌翻译
我们为对密集物体网(DON)的稳健训练(DON)提出了一个框架,重点是多对象机器人操纵方案。 DON是一种获取密集的,视图的对象描述符的流行方法,可用于机器人操纵中的多种下游任务,例如,姿势估算,控制状态表示控制等。在唱歌对象上,在实例特定的多对象应用程序上的结果有限。此外,训练需要复杂的数据收集管道,包括每个对象的3D重建和掩盖注释。在本文中,我们通过简化的数据收集和培训制度进一步提高了DON的功效,从而始终如一地产生更高的精度,并能够对数据要求较少的关键点进行强有力的跟踪。特别是,我们专注于使用多对象数据而不是奇异的对象进行培训,并结合精心挑选的增强方案。我们还针对原始PixelWise配方提出了一种替代损失公式,该配方提供了更好的结果,并且对超参数较少敏感。最后,我们在现实世界的机器人抓握任务上展示了我们提出的框架的鲁棒性和准确性。
translated by 谷歌翻译
我们呈现神经描述符字段(NDFS),对象表示,其通过类别级别描述符在对象和目标(例如用于悬挂的机器人夹具或用于悬挂的机架)之间进行编码和相对姿势。我们使用此表示进行对象操作,在这里,在给定任务演示时,我们要在同一类别中对新对象实例重复相同的任务。我们建议通过搜索(通过优化)来实现这一目标,为演示中观察到的描述符匹配的姿势。 NDFS通过不依赖于专家标记的关键点的3D自动编码任务,方便地以自我监督的方式培训。此外,NDFS是SE(3) - 保证在所有可能的3D对象翻译和旋转中推广的性能。我们展示了在仿真和真正的机器人上的少数(5-10)示范中的操纵任务的学习。我们的性能遍历两个对象实例和6-DOF对象姿势,并且显着优于最近依赖于2D描述符的基线。项目网站:https://yilundu.github.io/ndf/。
translated by 谷歌翻译
自我监督的视觉表现学习的目标是学习强大,可转让的图像表示,其中大多数研究专注于物体或场景水平。另一方面,在部分级别的代表学习得到了显着的关注。在本文中,我们向对象部分发现和分割提出了一个无人监督的方法,并进行三个贡献。首先,我们通过一系列目标构建一个代理任务,鼓励模型将图像的有意义分解成其部件。其次,先前的工作争辩地用于重建或聚类预先计算的功能作为代理的代理;我们凭经验展示了这一点,这种情况不太可能找到有意义的部分;主要是因为它们的低分辨率和分类网络到空间涂抹信息的趋势。我们建议像素水平的图像重建可以缓解这个问题,充当互补的提示。最后,我们表明基于Keypoint回归的标准评估与分割质量不符合良好,因此引入不同的指标,NMI和ARI,更好地表征对象的分解成零件。我们的方法产生了一致的细粒度但视觉上不同的类别的语义部分,优于三个基准数据集的现有技术。代码可在项目页面上找到:https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/
translated by 谷歌翻译
物体重新排列最近被出现为机器人操纵的关键能力,具有实用的解决方案,通常涉及物体检测,识别,掌握和高级规划。描述期望场景配置的目标图像是有希望和越来越多的指令模式。一个关键的突出挑战是机器人前面的物体之间的比赛的准确推理,并且在提供的目标图像中看到的那些,其中最近的作品在没有对象特定的培训数据的情况下挣扎。在这项工作中,我们探讨了现有方法在对象之间推断出匹配的能力,因为观察到的目标场景之间的视觉偏移增加。我们发现当前设置的基本限制是源和目标图像必须包含每个对象的相同$ \ texit {实例} $,它限制了实际部署。我们提出了一种新的对象匹配方法,它使用大型预先训练的vision语言模型来匹配交叉实例设置中的对象,通过利用语义以及视觉特征作为更强大,更通用,相似度的衡量标准。我们证明,这在交叉实例设置中提供了大大改进的匹配性能,并且可用于将多对象重新排列与机器人机械手从分享的图像与机器人的场景共享的图像指导。
translated by 谷歌翻译
在非结构化环境中,使用看不见的对象进行实例分割是一个具有挑战性的问题。为了解决这个问题,我们提出了一种机器人学习方法,以积极与新对象进行互动,并收集每个对象的训练标签,以进一步进行微调以提高细分模型的性能,同时避免手动标记数据集的耗时过程。通过端到端的强化学习对奇异和抓斗(SAG)政策进行培训。考虑到一堆混乱的对象,我们的方法选择推动和抓住动作来打破混乱并进行对象不合时宜的抓握,而SAG策略则将其作为输入视觉观察和不完善的分割。我们将问题分解为三个子任务:(1)对象singulation子任务旨在将对象彼此分开,从而产生更多的空间,从而减轻了(2)无碰撞抓握子任务的难度; (3)通过使用基于光流的二进制分类器和运动提示后处理进行传输学习,掩盖生成子任务以获得自标记的地面真相蒙版。我们的系统在模拟的混乱场景中达到了70%的单次成功率。我们系统的交互式分割可实现87.8%,73.9%和69.3%的玩具块,模拟中的YCB对象和现实世界中的新颖对象的平均精度,这表现优于几个基准。
translated by 谷歌翻译
对于机器人来说,拾取透明的对象仍然是一项具有挑战性的任务。透明对象(例如反射和折射)的视觉属性使依赖相机传感的当前抓握方法无法检测和本地化。但是,人类可以通过首先观察其粗剖面,然后戳其感兴趣的区域以获得良好的抓握轮廓来很好地处理透明的物体。受到这一点的启发,我们提出了一个新颖的视觉引导触觉框架,以抓住透明的物体。在拟议的框架中,首先使用分割网络来预测称为戳戳区域的水平上部区域,在该区域中,机器人可以在该区域戳入对象以获得良好的触觉读数,同时导致对物体状态的最小干扰。然后,使用高分辨率胶触觉传感器进行戳戳。鉴于触觉阅读有所改善的当地概况,计划掌握透明物体的启发式掌握。为了减轻对透明对象的现实世界数据收集和标记的局限性,构建了一个大规模逼真的合成数据集。广泛的实验表明,我们提出的分割网络可以预测潜在的戳戳区域,平均平均精度(地图)为0.360,而视觉引导的触觉戳戳可以显着提高抓地力成功率,从38.9%到85.2%。由于其简单性,我们提出的方法也可以被其他力量或触觉传感器采用,并可以用于掌握其他具有挑战性的物体。本文中使用的所有材料均可在https://sites.google.com/view/tactilepoking上获得。
translated by 谷歌翻译
密集对象跟踪,能够通过像素级精度本地化特定的对象点,是一个重要的计算机视觉任务,具有多种机器人的下游应用程序。现有方法在单个前向通行证中计算密集的键盘嵌入,这意味着模型培训以一次性跟踪所有内容,或者将它们的全部容量分配给稀疏预定义的点,交易一般性以获得准确性。在本文中,我们基于观察到给定时间的相关点数通常相对较少,例如,探索中间地面。掌握目标对象的点。我们的主要贡献是一种新颖的架构,灵感来自少量任务适应,这允许一个稀疏样式的网络在嵌入点嵌入的关键点嵌入时的条件。我们的中央发现是,这种方法提供了密集嵌入模型的一般性,同时提供准确性更加接近稀疏关键点方法。我们呈现了说明此容量与准确性权衡的结果,并使用真正的机器人挑选任务展示将转移到新对象实例(在课程中)的能力。
translated by 谷歌翻译
在本文中,我们提出了一种新的深度神经网络架构,用于联合类禁止对象分割和使用平行板夹持器的机器人拾取任务的掌握检测。我们引入深度感知的坐标卷积(CoordConv),一种方法来提高基于点提案的对象实例分段精度,在复杂的场景中不添加任何其他网络参数或计算复杂性。深度感知CoordConv使用深度数据来提取有关对象位置的先前信息以实现高度准确的对象实例分段。这些产生的分割掩模与预测的掌握候选者组合,导致使用平行板夹具抓住的完整场景描述。我们评估掌握检测和实例分割对具有挑战性机器人拣选数据集的准确性,即SIL \'EANE和OCID_GRASP,并展示了在真实世界机器人采摘任务上的联合掌握检测和分割的益处。
translated by 谷歌翻译
现有的计算机视觉系统可以与人类竞争,以理解物体的可见部分,但在描绘部分被遮挡物体的无形部分时,仍然远远远远没有达到人类。图像Amodal的完成旨在使计算机具有类似人类的Amodal完成功能,以了解完整的对象,尽管该对象被部分遮住。这项调查的主要目的是对图像Amodal完成领域的研究热点,关键技术和未来趋势提供直观的理解。首先,我们对这个新兴领域的最新文献进行了全面的评论,探讨了图像Amodal完成中的三个关键任务,包括Amodal形状完成,Amodal外观完成和订单感知。然后,我们检查了与图像Amodal完成有关的流行数据集及其共同的数据收集方法和评估指标。最后,我们讨论了现实世界中的应用程序和未来的研究方向,以实现图像的完成,从而促进了读者对现有技术和即将到来的研究趋势的挑战的理解。
translated by 谷歌翻译
本文介绍了一种从原始RGB-D视频进行任务演示的视频中学习类别级别的新技术,没有手动标签或注释。类别级的学习旨在获取可以推广到新对象的技能,其几何形状和纹理与演示中使用的对象不同。我们通过首先将抓地力和操作视为工具使用的特殊情况,解决此问题,其中工具对象被移至目标对象的参考框架中定义的一系列键置。使用动态图卷积神经网络预测工具和目标对象以及其钥匙置,该网络将整个场景的自动分割深度和颜色图像作为输入。具有真实机器人手臂的对象操纵任务上的经验结果表明,所提出的网络可以有效地从真实的视觉演示中学习,以在同一类别内的新颖对象上执行任务,并且优于替代方法。
translated by 谷歌翻译
互动对象理解,或者我们可以对对象做些什么以及计算机愿景的长期目标。在本文中,我们通过观察野外的自我高端视频的人类手来解决这个问题。我们展示了观察人类的手与之交互以及如何提供相关数据和必要的监督。参加双手,容易定位并稳定积极的物体以进行学习,并揭示发生与对象的交互的地方。分析手显示我们可以对物体做些什么以及如何做些。我们在史诗厨房数据集上应用这些基本原则,并成功地学习了国家敏感的特征,以及互动区域和提供了麦克拉斯的地区),纯粹是通过观察在EGoCentric视频中的手。
translated by 谷歌翻译
形状通知如何将对象掌握,无论是如何以及如何。因此,本文介绍了一种基于分割的架构,用于将用深度摄像机进行分解为多个基本形状的对象,以及用于机器人抓握的后处理管道。分段采用深度网络,称为PS-CNN,在具有6个类的原始形状和使用模拟引擎生成的合成数据上培训。每个原始形状都设计有参数化掌握家族,允许管道识别每个形状区域的多个掌握候选者。掌握是排序的排名,选择用于执行的第一个可行的。对于无任务掌握单个对象,该方法达到94.2%的成功率将其放置在顶部执行掌握方法中,与自上而下和SE(3)基础相比。涉及变量观点和杂波的其他测试展示了设置的鲁棒性。对于面向任务的掌握,PS-CNN实现了93.0%的成功率。总体而言,结果支持该假设,即在抓地管道内明确地编码形状原语应该提高掌握性能,包括无任务和任务相关的掌握预测。
translated by 谷歌翻译
我们提出了神经特征融合场(N3F),当将后者应用于分析多个图像作为3D场景时,可改善密集的2D图像特征提取器的方法。给定图像功能提取器,例如使用自学的预训练,N3F使用它作为老师来学习在3D空间中定义的学生网络。 3D学生网络类似于蒸馏所述功能的神经辐射领域,可以使用通常的可区分渲染机械进行培训。结果,N3F很容易适用于大多数神经渲染制剂,包括香草Nerf及其扩展到复杂的动态场景。我们表明,我们的方法不仅可以在不使用手动标签的情况下在场景特定的神经领域的上下文中实现语义理解,而且还可以始终如一地改善自我监督的2D基线。通过考虑各种任务,例如2D对象检索,3D细分和场景编辑,包括各种序列,包括史诗般的基金斯基准中的长期以上的视频,可以证明这一点。
translated by 谷歌翻译
We introduce a self-supervised method for learning visual correspondence from unlabeled video. The main idea is to use cycle-consistency in time as free supervisory signal for learning visual representations from scratch. At training time, our model learns a feature map representation to be useful for performing cycle-consistent tracking. At test time, we use the acquired representation to find nearest neighbors across space and time. We demonstrate the generalizability of the representation -without finetuning -across a range of visual correspondence tasks, including video object segmentation, keypoint tracking, and optical flow. Our approach outperforms previous self-supervised methods and performs competitively with strongly supervised methods. 1
translated by 谷歌翻译
人类可以轻松地在不知道它们的情况下段移动移动物体。从持续的视觉观测中可能出现这种对象,激励我们与未标记的视频同时进行建模和移动。我们的前提是视频具有通过移动组件相关的相同场景的不同视图,并且右区域分割和区域流程将允许相互视图合成,其可以从数据本身检查,而无需任何外部监督。我们的模型以两个单独的路径开头:一种外观途径,其输出单个图像的基于特征的区域分割,以及输出一对图像的运动功能的运动路径。然后,它将它们绑定在称为段流的联合表示中,该分段流汇集在每个区域上的流程偏移,并提供整个场景的移动区域的总表征。通过培训模型,以最小化基于段流的视图综合误差,我们的外观和运动路径自动学习区域分割和流量估计,而不分别从低级边缘或光学流量构建它们。我们的模型展示了外观途径中对象的令人惊讶的出现,超越了从图像的零射对对象分割上的工作,从带有无监督的测试时间适应的视频移动对象分割,并通过监督微调,通过监督微调。我们的工作是来自视频的第一个真正的零点零点对象分段。它不仅开发了分割和跟踪的通用对象,而且还优于无增强工程的基于普遍的图像对比学习方法。
translated by 谷歌翻译