视觉场景的多样性非常丰富,不仅是因为物体和背景的无限组合,而且因为相同场景的观察可能随着观点的变化而变化很大。当观察来自多个观点的含有多个对象的视觉场景时,人类能够以每个观点以组成方式感知场景,同时实现不同视点的所谓的“对象恒定”,即使确切的观点是未计数器。这种能力对于人类来说是必不可少的,同时搬家,并有效地从视野中学习。它是有趣的设计模型具有相似的能力。在本文中,我们考虑从多个未指定的观点学习组成场景表示的新问题,而不使用任何监督,提出一个深深的生成模型,该模型将潜在的表示与视点无关的部分和一个视点依赖部分分开以解决这个问题。为了推断潜在的表示,通过神经网络迭代地集成在不同的视点中包含的信息。在几个专门设计的合成数据集上的实验表明,该方法能够从多个未指定的视点有效学习。
translated by 谷歌翻译
以对象表示的学习背后的想法是,自然场景可以更好地建模为对象的组成及其关系,而不是分布式表示形式。可以将这种归纳偏置注入神经网络中,以可能改善具有多个对象的场景中下游任务的系统概括和性能。在本文中,我们在五个常见的多对象数据集上训练最先进的无监督模型,并评估细分指标和下游对象属性预测。此外,我们通过调查单个对象不超出分布的设置(例如,具有看不见的颜色,质地或形状或场景的全局属性)来研究概括和鲁棒性,例如,通过闭塞来改变,裁剪或增加对象的数量。从我们的实验研究中,我们发现以对象为中心的表示对下游任务很有用,并且通常对影响对象的大多数分布转移有用。但是,当分布转移以较低结构化的方式影响输入时,在模型和分布转移的情况下,分割和下游任务性能的鲁棒性可能会有很大差异。
translated by 谷歌翻译
Learning object-centric representations of complex scenes is a promising step towards enabling efficient abstract reasoning from low-level perceptual features. Yet, most deep learning approaches learn distributed representations that do not capture the compositional properties of natural scenes. In this paper, we present the Slot Attention module, an architectural component that interfaces with perceptual representations such as the output of a convolutional neural network and produces a set of task-dependent abstract representations which we call slots. These slots are exchangeable and can bind to any object in the input by specializing through a competitive procedure over multiple rounds of attention. We empirically demonstrate that Slot Attention can extract object-centric representations that enable generalization to unseen compositions when trained on unsupervised object discovery and supervised property prediction tasks.
translated by 谷歌翻译
我们呈现深度区域竞争(DRC),这是一种旨在以完全无监督的方式从图像中提取前景对象的算法。前景提取可以被视为一种特殊的泛型图像分段的情况,专注于从背景中识别和解开对象。在这项工作中,我们通过以专家(MOE)的混合形式的生成图像建模和生成图像建模来重新思考前景提取,我们进一步介绍了学习的像素重新分配作为捕获规律的基本诱导偏差背景区域。通过这种建模,可以通过期望最大化(EM)自然地发现前景背景分区。我们表明,该方法有效利用了在分区过程中混合成分之间的相互作用,该分区过程紧密地连接到区域竞争,是通用图像分割的一个精细方法。实验表明,与现有方法相比,DRC在复杂的真实数据上表现出更具竞争力的性能和具有挑战性的多对象场景。此外,我们认为,即使在训练期间看不见的类别,DRC也可能概括为新的前景物体。
translated by 谷歌翻译
以对象为中心的表示是通过提供柔性抽象可以在可以建立的灵活性抽象来实现更系统的推广的有希望的途径。最近的简单2D和3D数据集的工作表明,具有对象的归纳偏差的模型可以学习段,并代表单独的数据的统计结构中的有意义对象,而无需任何监督。然而,尽管使用越来越复杂的感应偏差(例如,用于场景的尺寸或3D几何形状),但这种完全无监督的方法仍然无法扩展到不同的现实数据。在本文中,我们采取了弱监督的方法,并专注于如何使用光流的形式的视频数据的时间动态,2)调节在简单的对象位置上的模型可以用于启用分段和跟踪对象在明显更现实的合成数据中。我们介绍了一个顺序扩展,以便引入我们训练的推出,我们训练用于预测现实看的合成场景的光流,并显示调节该模型的初始状态在一小组提示,例如第一帧中的物体的质量中心,是足以显着改善实例分割。这些福利超出了新型对象,新颖背景和更长的视频序列的培训分配。我们还发现,在推论期间可以使用这种初始状态调节作为对特定物体或物体部分的型号查询模型,这可能会为一系列弱监管方法铺平,并允许更有效的互动训练有素的型号。
translated by 谷歌翻译
为了帮助代理在其构建块方面的场景的原因,我们希望提取任何给定场景的组成结构(特别是包括场景的对象的配置和特征)。当需要推断出现在代理的位置/观点的同时需要推断场景结构时,这个问题特别困难,因为两个变量共同引起代理人的观察。我们提出了一个无监督的变分方法来解决这个问题。利用不同场景存在的共享结构,我们的模型学会从RGB视频输入推断出两组潜在表示:一组“对象”潜伏,对应于场景的时间不变,对象级内容,如以及一组“帧”潜伏,对应于全局时变元素,例如视点。这种潜水所的分解允许我们的模型Simone,以单独的方式表示对象属性,其不依赖于视点。此外,它允许我们解解对象动态,并将其轨迹总结为时间抽象的,查看 - 不变,每个对象属性。我们在三个程序生成的视频数据集中展示了这些功能,以及在查看合成和实例分段方面的模型的性能。
translated by 谷歌翻译
学习以上对象的多对象场景表示是对机器智能的有希望的方法,促进了从视觉感觉数据的高级推理和控制。然而,对无监督以上的对象的场景表示的电流方法无法从场景的多个观察中聚合信息。结果,这些“单视图”方法仅基于单个2D观察(视图)形成其3D场景的表示。当然,这导致了几种不准确性,这些方法将受害者下降到单视空间歧义。为了解决此问题,我们提出了多视图和多目标网络(MULMON) - 一种通过利用多个视图学习准确,对象形式的对象场景的表示方法。为了索取跨视图的多对象多视图方案 - 维护对象对象的主要技术难度 - 云母迭代更新多个视图上的场景的潜在对象表示。为了确保这些迭代更新确实汇总空间信息以形成完整的3D场景理解,因此被要求在训练期间从新的观点来预测场景的外观。通过实验,我们表明云母更好地解决了空间歧义,而不是单视图 - 学习更准确和解散的对象表示 - 并且还实现了预测新颖观点的对象分段的新功能。
translated by 谷歌翻译
人类认知具有组成。我们通过将场景分解为不同的概念(例如,对象的形状和位置)并学习这些概念的各个概念(例如,运动定律)或人造(例如,游戏的定律)来理解场景。 。这些定律的自动解析表明该模型能够理解场景的能力,这使得分析在许多视觉任务中起着核心作用。在本文中,我们提出了一个深层可变模型,用于解析(CLAP)。拍手通过编码编码架构来实现类似人类的组成能力,以表示现场的概念为潜在变量,并进一步采用特定于概念的随机功能,并在潜在空间中实例化,以捕获每个概念的法律。我们的实验结果表明,拍手优于比较多个视觉任务中的基线方法,包括直观的物理,抽象的视觉推理和场景表示。此外,拍手可以在场景中学习特定于概念的法律,而无需监督,并且可以通过修改相应的潜在随机功能来编辑法律,从而验证其可解释性和可操作性。
translated by 谷歌翻译
视觉世界可以以稀疏相互作用的不同实体来嘲笑。在动态视觉场景中发现这种组合结构已被证明对端到端的计算机视觉方法有挑战,除非提供明确的实例级别的监督。利用运动提示的基于老虎机的模型最近在学习代表,细分和跟踪对象的情况下没有直接监督显示了巨大的希望,但是它们仍然无法扩展到复杂的现实世界多对象视频。为了弥合这一差距,我们从人类发展中汲取灵感,并假设以深度信号形式的场景几何形状的信息可以促进以对象为中心的学习。我们介绍了一种以对象为中心的视频模型SAVI ++,该模型经过训练,可以预测基于插槽的视频表示的深度信号。通过进一步利用模型缩放的最佳实践,我们能够训练SAVI ++以细分使用移动摄像机记录的复杂动态场景,其中包含在自然主义背景上具有不同外观的静态和移动对象,而无需进行分割监督。最后,我们证明,通过使用从LIDAR获得的稀疏深度信号,Savi ++能够从真实World Waymo Open DataSet中的视频中学习新兴对象细分和跟踪。
translated by 谷歌翻译
Human perception is structured around objects which form the basis for our higher-level cognition and impressive systematic generalization abilities. Yet most work on representation learning focuses on feature learning without even considering multiple objects, or treats segmentation as an (often supervised) preprocessing step. Instead, we argue for the importance of learning to segment and represent objects jointly. We demonstrate that, starting from the simple assumption that a scene is composed of multiple entities, it is possible to learn to segment images into interpretable objects with disentangled representations. Our method learns -without supervision -to inpaint occluded parts, and extrapolates to scenes with more objects and to unseen objects with novel feature combinations. We also show that, due to the use of iterative variational inference, our system is able to learn multi-modal posteriors for ambiguous inputs and extends naturally to sequences.
translated by 谷歌翻译
我们解决了点云上以对象学习为中心的问题,这对于高级关系推理和可扩展的机器智能至关重要。特别是,我们引入了一个框架spair3d,将3D点云分解为空间混合模型,其中每个组件对应于一个对象。为了建模点云上的空间混合物模型,我们得出了倒角混合物损失,该混合物损失自然适合我们的变异训练管道。此外,我们采用了一个对象规范方案,该方案描述了每个对象相对于其本地素素网元单元的位置。这样的方案允许SPAIR3D使用任意数量的对象建模场景。我们评估了无监督场景分解任务的方法。实验结果表明,SPAIR3D具有强大的可伸缩性,并且能够以无监督的方式从点云中检测和分割未知数的对象。
translated by 谷歌翻译
我们提出了一个新的视觉数据表示形式,该数据将对象位置从外观上删除。我们的方法称为深潜粒子(DLP),将视觉输入分解为低维的潜在``粒子'',其中每个粒子都用其周围区域的空间位置和特征来描述。为了学习这种表示形式,我们遵循一种基于VAE的方法,并根据空间 - 软构建结构引入了粒子位置的先验位置,并修改了受粒子之间倒角距离启发的证据下限损失。我们证明,我们的DLP表示形式可用于下游任务,例如无监督关键点(KP)检测,图像操纵和针对由多个动态对象组成的场景的视频预测。此外,我们表明,我们对问题的概率解释自然提供了粒子位置的不确定性估计,可用于模型选择以及其他任务。可用视频和代码:https://taldatech.github.io/deep-latent-particles-web/
translated by 谷歌翻译
代表物体粒度的场景是场景理解和决策的先决条件。我们提出PrisMoNet,一种基于先前形状知识的新方法,用于学习多对象3D场景分解和来自单个图像的表示。我们的方法学会在平面曲面上分解具有多个对象的合成场景的图像,进入其组成场景对象,并从单个视图推断它们的3D属性。经常性编码器从输入的RGB图像中回归3D形状,姿势和纹理的潜在表示。通过可差异化的渲染,我们培训我们的模型以自我监督方式从RGB-D图像中分解场景。 3D形状在功能空间中连续表示,作为我们以监督方式从示例形状预先训练的符号距离函数。这些形状的前沿提供弱监管信号,以更好地条件挑战整体学习任务。我们评估我们模型在推断3D场景布局方面的准确性,展示其生成能力,评估其对真实图像的概括,并指出了学习的表示的益处。
translated by 谷歌翻译
Current supervised visual detectors, though impressive within their training distribution, often fail to segment out-of-distribution scenes into their constituent entities. Recent test-time adaptation methods use auxiliary self-supervised losses to adapt the network parameters to each test example independently and have shown promising results towards generalization outside the training distribution for the task of image classification. In our work, we find evidence that these losses can be insufficient for instance segmentation tasks, without also considering architectural inductive biases. For image segmentation, recent slot-centric generative models break such dependence on supervision by attempting to segment scenes into entities in a self-supervised manner by reconstructing pixels. Drawing upon these two lines of work, we propose Slot-TTA, a semi-supervised instance segmentation model equipped with a slot-centric inductive bias, that is adapted per scene at test time through gradient descent on reconstruction or novel view synthesis objectives. We show that test-time adaptation in Slot-TTA greatly improves instance segmentation in out-of-distribution scenes. We evaluate Slot-TTA in several 3D and 2D scene instance segmentation benchmarks and show substantial out-of-distribution performance improvements against state-of-the-art supervised feed-forward detectors and self-supervised test-time adaptation methods.
translated by 谷歌翻译
最近有一个浪涌的方法,旨在以无监督的方式分解和分段场景,即无监督的多对象分段。执行此类任务是计算机愿景的长期目标,提供解锁对象级推理,而无需致密的注释来列车分段模型。尽管取得了重大进展,但在视觉上简单的场景上开发和培训了当前的模型,描绘了纯背景上的单色物体。然而,自然界在视觉上复杂,与多样化的纹理和复杂的照明效果等混杂方面。在这项研究中,我们展示了一个名为Clevrtex的新基准,设计为比较,评估和分析算法的下一个挑战。 CLEVRTEX采用具有不同形状,纹理和光映射材料的合成场景,采用物理基于渲染技术创建。它包括图50k示例,描绘了在背景上布置的3-10个对象,使用60材料的目录创建,以及使用25种不同材料创建的10k图像的另一测试集。我们在CLEVRTEX上基准最近近期无监督的多对象分段模型,并找到所有最先进的方法无法在纹理环境中学习良好的陈述,尽管在更简单的数据上表现令人印象深刻。我们还创建了Clevrtex DataSet的变体,控制了场景复杂性的不同方面,并探讨了各个缺点的当前方法。数据集和代码可在https://www.robots.ox.ac.uk/~vgg/research/clevrtex中获得。
translated by 谷歌翻译
我们提出了一个无监督的中心生成模型,该模型以无监督的方式从RGB-D视频中学习3D对象。受到2D表示学习的先前艺术的启发,Obpose认为是分解的潜在空间,分别编码对象的位置(其中)和外观(什么)信息。尤其是,Obpose利用对象的规范姿势,通过最小体积原理定义为一种新的感应偏见,用于学习其中的分量。为了实现这一目标,我们提出了一种有效的,体素化的近似方法,直接从神经辐射场(NERF)恢复对象形状。结果,无声的场景将场景作为代表各个对象的NERF的组成。当在YCB数据集上评估无监督场景细分时,Obpose的表现优于3D场景推理中最新的最新艺术(痴迷)在视频输入以及多视频静态静态静态静态质量方面的细分质量方面有很大的差距场景。此外,在Obpose编码器中做出的设计选择通过相关消融验证。
translated by 谷歌翻译
从物体及其在3D空间中的几何形状方面对世界的组成理解被认为是人类认知的基石。促进神经网络中这种表示形式的学习有望实质上提高标记的数据效率。作为朝着这个方向发展的关键步骤,我们在学习3D一致的复杂场景分解的问题上取得了进展,以无监督的方式将复杂场景分解为单个对象。我们介绍对象场景表示变压器(OSRT),这是一个以3D为中心的模型,其中各个对象表示通过新颖的视图合成自然出现。 OSRT比现有方法更为复杂,具有更大的对象和背景的复杂场景。同时,由于其光场参数化和新型的插槽混合器解码器,它在组成渲染时的多个数量级更快。我们认为,这项工作不仅将加速未来的建筑探索和扩展工作,而且还将成为以对象为中心和神经场景表示社区的有用工具。
translated by 谷歌翻译
带有变异自动编码器(VAE)的学习分解表示通常归因于损失的正则化部分。在这项工作中,我们强调了数据与损失的重建项之间的相互作用,这是VAE中解散的主要贡献者。我们注意到,标准化的基准数据集的构建方式有利于学习似乎是分解的表示形式。我们设计了一个直观的对抗数据集,该数据集利用这种机制破坏了现有的最新分解框架。最后,我们提供了一种解决方案,可以通过修改重建损失来实现分离,从而影响VAES如何感知数据点之间的距离。
translated by 谷歌翻译
Amodal完成是人类轻松执行的可视任务,但计算机视觉算法很难。目的是分割那些被遮挡的对象边界,因此是不可见的。对于深度神经网络,此任务特别具有挑战性,因为数据难以获得和注释。因此,我们将Amodal分段标记为任务和分发外概括问题。具体而言,我们用神经网络特征的贝叶斯生成模型替换神经网络中的完全连接的分类器。该模型仅使用边界框注释和类标签从非遮挡图像培训,但应用于概括任务到对象分段,并概括分发到段封闭对象。我们展示这种贝叶斯模型在学习之前的培训任务标签之外,这些模型如何超出培训任务标签。此外,通过利用异常过程,贝叶斯模型可以进一步概括分配以分配部分闭塞物体并预测其散阳物体边界。我们的算法优于使用相同的监控的替代方法,甚至优于在训练期间使用注释的Amodal分段的方法,当闭塞量大时。代码在https://github.com/yihongsun/bayesian-amodal公开。
translated by 谷歌翻译
本文的目的是一个模型,能够在视频中发现,跟踪和细分多个移动对象。我们做出四个贡献:首先,我们引入了一个以对象为中心的分段模型,具有深度订购的层表示。这是使用摄入光流的变压器体系结构的变体来实现的,每个查询向量为整个视频指定对象及其层。该模型可以有效地发现多个移动对象并处理相互阻塞。其次,我们引入了一条可扩展的管道,用于生成具有多个对象的合成训练数据,从而大大降低了对劳动密集型注释的要求,并支持SIM2REAL概括;第三,我们表明该模型能够学习对象的持久性和时间形状的一致性,并能够预测Amodal分割掩码。第四,我们评估了标准视频细分基准测试模型,戴维斯,MOCA,SEGTRACK,FBMS-59,并实现最新的无监督分割性能,甚至优于几种监督方法。通过测试时间适应,我们观察到进一步的性能提高。
translated by 谷歌翻译