最近有一个浪涌的方法,旨在以无监督的方式分解和分段场景,即无监督的多对象分段。执行此类任务是计算机愿景的长期目标,提供解锁对象级推理,而无需致密的注释来列车分段模型。尽管取得了重大进展,但在视觉上简单的场景上开发和培训了当前的模型,描绘了纯背景上的单色物体。然而,自然界在视觉上复杂,与多样化的纹理和复杂的照明效果等混杂方面。在这项研究中,我们展示了一个名为Clevrtex的新基准,设计为比较,评估和分析算法的下一个挑战。 CLEVRTEX采用具有不同形状,纹理和光映射材料的合成场景,采用物理基于渲染技术创建。它包括图50k示例,描绘了在背景上布置的3-10个对象,使用60材料的目录创建,以及使用25种不同材料创建的10k图像的另一测试集。我们在CLEVRTEX上基准最近近期无监督的多对象分段模型,并找到所有最先进的方法无法在纹理环境中学习良好的陈述,尽管在更简单的数据上表现令人印象深刻。我们还创建了Clevrtex DataSet的变体,控制了场景复杂性的不同方面,并探讨了各个缺点的当前方法。数据集和代码可在https://www.robots.ox.ac.uk/~vgg/research/clevrtex中获得。
translated by 谷歌翻译
以对象表示的学习背后的想法是,自然场景可以更好地建模为对象的组成及其关系,而不是分布式表示形式。可以将这种归纳偏置注入神经网络中,以可能改善具有多个对象的场景中下游任务的系统概括和性能。在本文中,我们在五个常见的多对象数据集上训练最先进的无监督模型,并评估细分指标和下游对象属性预测。此外,我们通过调查单个对象不超出分布的设置(例如,具有看不见的颜色,质地或形状或场景的全局属性)来研究概括和鲁棒性,例如,通过闭塞来改变,裁剪或增加对象的数量。从我们的实验研究中,我们发现以对象为中心的表示对下游任务很有用,并且通常对影响对象的大多数分布转移有用。但是,当分布转移以较低结构化的方式影响输入时,在模型和分布转移的情况下,分割和下游任务性能的鲁棒性可能会有很大差异。
translated by 谷歌翻译
以对象为中心的表示是通过提供柔性抽象可以在可以建立的灵活性抽象来实现更系统的推广的有希望的途径。最近的简单2D和3D数据集的工作表明,具有对象的归纳偏差的模型可以学习段,并代表单独的数据的统计结构中的有意义对象,而无需任何监督。然而,尽管使用越来越复杂的感应偏差(例如,用于场景的尺寸或3D几何形状),但这种完全无监督的方法仍然无法扩展到不同的现实数据。在本文中,我们采取了弱监督的方法,并专注于如何使用光流的形式的视频数据的时间动态,2)调节在简单的对象位置上的模型可以用于启用分段和跟踪对象在明显更现实的合成数据中。我们介绍了一个顺序扩展,以便引入我们训练的推出,我们训练用于预测现实看的合成场景的光流,并显示调节该模型的初始状态在一小组提示,例如第一帧中的物体的质量中心,是足以显着改善实例分割。这些福利超出了新型对象,新颖背景和更长的视频序列的培训分配。我们还发现,在推论期间可以使用这种初始状态调节作为对特定物体或物体部分的型号查询模型,这可能会为一系列弱监管方法铺平,并允许更有效的互动训练有素的型号。
translated by 谷歌翻译
传统上,本征成像或内在图像分解被描述为将图像分解为两层:反射率,材料的反射率;和一个阴影,由光和几何之间的相互作用产生。近年来,深入学习技术已广泛应用,以提高这些分离的准确性。在本调查中,我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果,讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础,但我们表明,对图像形成过程更复杂的物理原理组件的潜力越来越意识到,这是光学准确的材料模型和几何形状,更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法,我们将这些方法分类为分解的类型。考虑到最近神经,逆和可微分的渲染技术的进步,我们还提供了关于未来研究方向的见解。
translated by 谷歌翻译
尽管当前的视觉算法在许多具有挑战性的任务上都表现出色,但尚不清楚他们如何理解现实世界环境的物理动态。在这里,我们介绍了Physion,一种数据集和基准,用于严格评估预测物理场景如何随着时间而发展的能力。我们的数据集具有对各种物理现象的现实模拟,包括刚性和软体体碰撞,稳定的多对象配置,滚动,滑动和弹丸运动,因此比以前的基准提供了更全面的挑战。我们使用Physion来基准一套模型,其体系结构,学习目标,投入输出结构和培训数据各不相同。同时,我们在同一场景上获得了人类预测行为的精确测量,从而使我们能够直接评估任何模型能够近似人类行为的效果。我们发现,学习以对象为中心的表示的视觉算法通常优于那些没有人的表现,但仍未达到人类绩效。另一方面,绘制具有直接访问物理状态信息的神经网络的表现效果更好,并且做出与人类制作的预测更相似。这些结果表明,提取场景的物理表征是在视力算法中实现人类水平和类似人类的物理理解的主要瓶颈。我们已公开发布了所有数据和代码,以促进使用物理以完全可重现的方式对其他模型进行基准测试,从而使对视觉算法的进度进行系统的评估,这些算法像人们一样坚固地了解物理环境。
translated by 谷歌翻译
代表物体粒度的场景是场景理解和决策的先决条件。我们提出PrisMoNet,一种基于先前形状知识的新方法,用于学习多对象3D场景分解和来自单个图像的表示。我们的方法学会在平面曲面上分解具有多个对象的合成场景的图像,进入其组成场景对象,并从单个视图推断它们的3D属性。经常性编码器从输入的RGB图像中回归3D形状,姿势和纹理的潜在表示。通过可差异化的渲染,我们培训我们的模型以自我监督方式从RGB-D图像中分解场景。 3D形状在功能空间中连续表示,作为我们以监督方式从示例形状预先训练的符号距离函数。这些形状的前沿提供弱监管信号,以更好地条件挑战整体学习任务。我们评估我们模型在推断3D场景布局方面的准确性,展示其生成能力,评估其对真实图像的概括,并指出了学习的表示的益处。
translated by 谷歌翻译
我们介绍了Amazon Berkeley对象(ABO),这是一个新的大型数据集,旨在帮助弥合真实和虚拟3D世界之间的差距。ABO包含产品目录图像,元数据和艺术家创建的3D模型,具有复杂的几何形状和与真实的家用物体相对应的物理基础材料。我们得出了具有挑战性的基准,这些基准利用ABO的独特属性,并测量最先进的对象在三个开放问题上的最新限制,以了解实际3D对象:单视3D 3D重建,材料估计和跨域多视图对象检索。
translated by 谷歌翻译
视觉世界可以以稀疏相互作用的不同实体来嘲笑。在动态视觉场景中发现这种组合结构已被证明对端到端的计算机视觉方法有挑战,除非提供明确的实例级别的监督。利用运动提示的基于老虎机的模型最近在学习代表,细分和跟踪对象的情况下没有直接监督显示了巨大的希望,但是它们仍然无法扩展到复杂的现实世界多对象视频。为了弥合这一差距,我们从人类发展中汲取灵感,并假设以深度信号形式的场景几何形状的信息可以促进以对象为中心的学习。我们介绍了一种以对象为中心的视频模型SAVI ++,该模型经过训练,可以预测基于插槽的视频表示的深度信号。通过进一步利用模型缩放的最佳实践,我们能够训练SAVI ++以细分使用移动摄像机记录的复杂动态场景,其中包含在自然主义背景上具有不同外观的静态和移动对象,而无需进行分割监督。最后,我们证明,通过使用从LIDAR获得的稀疏深度信号,Savi ++能够从真实World Waymo Open DataSet中的视频中学习新兴对象细分和跟踪。
translated by 谷歌翻译
Human perception is structured around objects which form the basis for our higher-level cognition and impressive systematic generalization abilities. Yet most work on representation learning focuses on feature learning without even considering multiple objects, or treats segmentation as an (often supervised) preprocessing step. Instead, we argue for the importance of learning to segment and represent objects jointly. We demonstrate that, starting from the simple assumption that a scene is composed of multiple entities, it is possible to learn to segment images into interpretable objects with disentangled representations. Our method learns -without supervision -to inpaint occluded parts, and extrapolates to scenes with more objects and to unseen objects with novel feature combinations. We also show that, due to the use of iterative variational inference, our system is able to learn multi-modal posteriors for ambiguous inputs and extends naturally to sequences.
translated by 谷歌翻译
最先进的语义或实例分割深度神经网络(DNN)通常在封闭的语义类上培训。因此,它们的装备不适用于处理以前的未持续的对象。然而,检测和定位这些物体对于安全关键应用至关重要,例如对自动驾驶的感知,特别是如果它们出现在前方的道路上。虽然某些方法已经解决了异常或分发的对象分割的任务,但由于缺乏固体基准,在很大程度上存在进展仍然缓慢;现有数据集由合成数据组成,或遭受标签不一致。在本文中,我们通过介绍“SegmentMeifyOUCAN”基准来弥合这个差距。我们的基准解决了两个任务:异常对象分割,这将考虑任何以前的未持续的对象类别;和道路障碍分割,它侧重于道路上的任何物体,可能是已知的或未知的。我们将两个相应的数据集与执行深入方法分析的测试套件一起提供,考虑到已建立的像素 - 明智的性能度量和最近的组件 - 明智的,这对对象尺寸不敏感。我们凭经验评估了多种最先进的基线方法,包括使用我们的测试套件在我们的数据集和公共数据上专门为异常/障碍分割而设计的多种型号。异常和障碍分割结果表明,我们的数据集有助于数据景观的多样性和难度。
translated by 谷歌翻译
了解哪些归纳偏见可能有助于无监督的自然场景中以对象为中心的表示是具有挑战性的。在本文中,我们系统地研究了两个模型在数据集上的性能,其中使用神经样式转移来获取具有复杂纹理的对象,同时仍保留地面真相注释。我们发现,通过使用单个模块重建每个对象的形状和视觉外观,该模型可以学习更多有用的表示形式,并实现更好的对象分离。此外,我们观察到,调整潜在空间尺寸不足以提高分割性能。最后,与分割质量相比,代表性的下游有用性与分割质量的相关性明显更大。
translated by 谷歌翻译
为了帮助代理在其构建块方面的场景的原因,我们希望提取任何给定场景的组成结构(特别是包括场景的对象的配置和特征)。当需要推断出现在代理的位置/观点的同时需要推断场景结构时,这个问题特别困难,因为两个变量共同引起代理人的观察。我们提出了一个无监督的变分方法来解决这个问题。利用不同场景存在的共享结构,我们的模型学会从RGB视频输入推断出两组潜在表示:一组“对象”潜伏,对应于场景的时间不变,对象级内容,如以及一组“帧”潜伏,对应于全局时变元素,例如视点。这种潜水所的分解允许我们的模型Simone,以单独的方式表示对象属性,其不依赖于视点。此外,它允许我们解解对象动态,并将其轨迹总结为时间抽象的,查看 - 不变,每个对象属性。我们在三个程序生成的视频数据集中展示了这些功能,以及在查看合成和实例分段方面的模型的性能。
translated by 谷歌翻译
大量数据集和高容量模型推动了计算机视觉和自然语言理解方面的许多最新进步。这项工作提出了一个平台,可以在体现的AI中实现类似的成功案例。我们提出了Procthor,这是一个程序生成体现的AI环境的框架。 Procthor使我们能够采样多种,交互式,可自定义和性能的虚拟环境的任意大型数据集,以训练和评估在导航,互动和操纵任务中的体现代理。我们通过10,000个生成的房屋和简单的神经模型的样本来证明procthor的能力和潜力。仅在Procthor上仅使用RGB图像训练的模型,没有明确的映射,并且没有人类任务监督在6个体现的AI基准中产生最先进的结果,用于导航,重排和手臂操纵,包括目前正在运行的Habitat 2022,AI2-- Thor重新安排2022,以及机器人挑战。我们还通过对procthor进行预训练,在下游基准测试上没有进行微调,通常会击败以前的最先进的系统,从而访问下游训练数据。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
现有的计算机视觉系统可以与人类竞争,以理解物体的可见部分,但在描绘部分被遮挡物体的无形部分时,仍然远远远远没有达到人类。图像Amodal的完成旨在使计算机具有类似人类的Amodal完成功能,以了解完整的对象,尽管该对象被部分遮住。这项调查的主要目的是对图像Amodal完成领域的研究热点,关键技术和未来趋势提供直观的理解。首先,我们对这个新兴领域的最新文献进行了全面的评论,探讨了图像Amodal完成中的三个关键任务,包括Amodal形状完成,Amodal外观完成和订单感知。然后,我们检查了与图像Amodal完成有关的流行数据集及其共同的数据收集方法和评估指标。最后,我们讨论了现实世界中的应用程序和未来的研究方向,以实现图像的完成,从而促进了读者对现有技术和即将到来的研究趋势的挑战的理解。
translated by 谷歌翻译
从物体及其在3D空间中的几何形状方面对世界的组成理解被认为是人类认知的基石。促进神经网络中这种表示形式的学习有望实质上提高标记的数据效率。作为朝着这个方向发展的关键步骤,我们在学习3D一致的复杂场景分解的问题上取得了进展,以无监督的方式将复杂场景分解为单个对象。我们介绍对象场景表示变压器(OSRT),这是一个以3D为中心的模型,其中各个对象表示通过新颖的视图合成自然出现。 OSRT比现有方法更为复杂,具有更大的对象和背景的复杂场景。同时,由于其光场参数化和新型的插槽混合器解码器,它在组成渲染时的多个数量级更快。我们认为,这项工作不仅将加速未来的建筑探索和扩展工作,而且还将成为以对象为中心和神经场景表示社区的有用工具。
translated by 谷歌翻译
随着增强的焦点和虚拟现实应用(XR)来说,可以对可以将物体从图像和视频升力到适合各种相关3D任务的表示的算法。 XR设备和应用程序的大规模部署意味着我们不能仅仅依赖于监督学习,因为收集和注释现实世界中无限各种物体的数据是不可行的。我们提出了一种弱监督的方法,能够将物体的单个图像分解成形状(深度和正规),材料(反射率,反射率和发光)和全局照明参数。对于培训,该方法仅依赖于训练对象的粗略初始形状估计来引导学习过程。这种形状监督可以例如从预先预制的深度网络或 - 从传统的结构 - 来自运动管道中的普罗维尔或 - 更慷慨地实现。在我们的实验中,我们表明该方法可以将2D图像成功地将2D图像成功渲染为分解的3D表示并推广到未经证明的对象类别。由于缺乏频繁的评估因缺乏地面真理数据而困难,我们还介绍了一种允许定量评估的照片 - 现实的合成测试集。
translated by 谷歌翻译
We propose "factor matting", an alternative formulation of the video matting problem in terms of counterfactual video synthesis that is better suited for re-composition tasks. The goal of factor matting is to separate the contents of video into independent components, each visualizing a counterfactual version of the scene where contents of other components have been removed. We show that factor matting maps well to a more general Bayesian framing of the matting problem that accounts for complex conditional interactions between layers. Based on this observation, we present a method for solving the factor matting problem that produces useful decompositions even for video with complex cross-layer interactions like splashes, shadows, and reflections. Our method is trained per-video and requires neither pre-training on external large datasets, nor knowledge about the 3D structure of the scene. We conduct extensive experiments, and show that our method not only can disentangle scenes with complex interactions, but also outperforms top methods on existing tasks such as classical video matting and background subtraction. In addition, we demonstrate the benefits of our approach on a range of downstream tasks. Please refer to our project webpage for more details: https://factormatte.github.io
translated by 谷歌翻译
近年来,人员检测和人类姿势估计已经取得了很大的进步,通过大规模标记的数据集帮助。但是,这些数据集没有保证或分析人类活动,姿势或情境多样性。此外,隐私,法律,安全和道德问题可能会限制收集更多人类数据的能力。一个新兴的替代方案,用于减轻这些问题的一些问题是合成数据。然而,综合数据生成器的创建令人难以置信的具有挑战性,并防止研究人员探索他们的实用性。因此,我们释放了一个以人为本的合成数据发生器PeoplesAnspeople,它包含模拟就绪3D人类资产,参数化照明和相机系统,并生成2D和3D边界框,实例和语义分段,以及Coco姿态标签。使用PeoplesAnspeople,我们使用Detectron2 KeyPoint R-CNN变体进行基准合成数据训练[1]。我们发现,使用合成数据进行预培训网络和对目标现实世界数据的微调(几次传输到Coco-Person Rain的有限子集[2])导致了60.37 $ 60.37 $的关键点AP( Coco Test-Dev2017)使用相同的实际数据培训的型号优于同一实际数据(35.80美元的Keypoint AP),并使用Imagenet预先培训(Keypoint AP为57.50美元)。这种自由可用的数据发生器应使其在人用于人工以人为主的计算机视野中的临界领域进行实际转移学习的新兴仿真领域。
translated by 谷歌翻译
The ability to associate touch with sight is essential for tasks that require physically interacting with objects in the world. We propose a dataset with paired visual and tactile data called Touch and Go, in which human data collectors probe objects in natural environments using tactile sensors, while simultaneously recording egocentric video. In contrast to previous efforts, which have largely been confined to lab settings or simulated environments, our dataset spans a large number of "in the wild" objects and scenes. To demonstrate our dataset's effectiveness, we successfully apply it to a variety of tasks: 1) self-supervised visuo-tactile feature learning, 2) tactile-driven image stylization, i.e., making the visual appearance of an object more consistent with a given tactile signal, and 3) predicting future frames of a tactile signal from visuo-tactile inputs.
translated by 谷歌翻译