主动推断是一种特别是理解大脑的第一原理方法,通常是一种有情的药物,而自由能的单一命令。因此,它通过定义代理的生成模型并推断模型参数,动作和隐藏的状态信念,为对人工智能代理建模提供了一个计算帐户。但是,生成模型和隐藏状态空间结构的确切规范留给了实验者,其设计选择会影响代理的产生行为。最近,已经提出了深度学习方法,以从数据中学习隐藏的状态空间结构,从而从这项乏味的设计任务中减轻了实验者,但导致了一个纠缠的,不可解剖的状态空间。在本文中,我们假设这样一种学识渊博的,纠缠的状态空间并不一定会在自由能中产生最佳模型,并且在状态空间中执行不同的因素可以产生较低的模型复杂性。特别是,我们考虑了3D对象表示的问题,并专注于Shapenet数据集的不同实例。我们提出了一个分配对象形状,姿势和类别的模型,同时仍使用深层神经网络学习每个因素的表示形式。我们表明,当活跃代理在达到首选观察方面采用时,具有最佳分离属性的模型在采用时表现最好。
translated by 谷歌翻译
为了帮助代理在其构建块方面的场景的原因,我们希望提取任何给定场景的组成结构(特别是包括场景的对象的配置和特征)。当需要推断出现在代理的位置/观点的同时需要推断场景结构时,这个问题特别困难,因为两个变量共同引起代理人的观察。我们提出了一个无监督的变分方法来解决这个问题。利用不同场景存在的共享结构,我们的模型学会从RGB视频输入推断出两组潜在表示:一组“对象”潜伏,对应于场景的时间不变,对象级内容,如以及一组“帧”潜伏,对应于全局时变元素,例如视点。这种潜水所的分解允许我们的模型Simone,以单独的方式表示对象属性,其不依赖于视点。此外,它允许我们解解对象动态,并将其轨迹总结为时间抽象的,查看 - 不变,每个对象属性。我们在三个程序生成的视频数据集中展示了这些功能,以及在查看合成和实例分段方面的模型的性能。
translated by 谷歌翻译
In recent years, substantial progress has been achieved in learning-based reconstruction of 3D objects. At the same time, generative models were proposed that can generate highly realistic images. However, despite this success in these closely related tasks, texture reconstruction of 3D objects has received little attention from the research community and state-of-the-art methods are either limited to comparably low resolution or constrained experimental setups. A major reason for these limitations is that common representations of texture are inefficient or hard to interface for modern deep learning techniques. In this paper, we propose Texture Fields, a novel texture representation which is based on regressing a continuous 3D function parameterized with a neural network. Our approach circumvents limiting factors like shape discretization and parameterization, as the proposed texture representation is independent of the shape representation of the 3D object. We show that Texture Fields are able to represent high frequency texture and naturally blend with modern deep learning techniques. Experimentally, we find that Texture Fields compare favorably to state-of-the-art methods for conditional texture reconstruction of 3D objects and enable learning of probabilistic generative models for texturing unseen 3D models. We believe that Texture Fields will become an important building block for the next generation of generative 3D models.
translated by 谷歌翻译
学习以上对象的多对象场景表示是对机器智能的有希望的方法,促进了从视觉感觉数据的高级推理和控制。然而,对无监督以上的对象的场景表示的电流方法无法从场景的多个观察中聚合信息。结果,这些“单视图”方法仅基于单个2D观察(视图)形成其3D场景的表示。当然,这导致了几种不准确性,这些方法将受害者下降到单视空间歧义。为了解决此问题,我们提出了多视图和多目标网络(MULMON) - 一种通过利用多个视图学习准确,对象形式的对象场景的表示方法。为了索取跨视图的多对象多视图方案 - 维护对象对象的主要技术难度 - 云母迭代更新多个视图上的场景的潜在对象表示。为了确保这些迭代更新确实汇总空间信息以形成完整的3D场景理解,因此被要求在训练期间从新的观点来预测场景的外观。通过实验,我们表明云母更好地解决了空间歧义,而不是单视图 - 学习更准确和解散的对象表示 - 并且还实现了预测新颖观点的对象分段的新功能。
translated by 谷歌翻译
从单个图像中的新视图综合最近实现了显着的结果,尽管在训练时需要某种形式的3D,姿势或多视图监管限制了实际情况的部署。这项工作旨在放松这些假设,可实现新颖的观看综合的条件生成模型,以完全无人监测。我们首先使用3D感知GaN制定预先列车纯粹的生成解码器模型,同时训练编码器网络将映射从潜空间颠覆到图像。然后,我们将编码器和解码器交换,并将网络作为条件GaN培训,其混合物类似于自动化器的物镜和自蒸馏。在测试时间,给定对象的视图,我们的模型首先将图像内容嵌入到潜在代码中并通过保留代码固定并改变姿势来生成它的新颖视图。我们在ShapeNet等合成数据集上测试我们的框架,如ShapeNet和无约束的自然图像集合,在那里没有竞争方法可以训练。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
人类是熟练的导航员:我们恰当地在新的地方进行了操纵,意识到我们回到以前见过的位置,甚至可以想到经历我们从未参观过的部分环境的捷径。另一方面,基于模型的强化学习中的当前方法与从训练分布中概括环境动态的努力。我们认为,两个原则可以帮助弥合这一差距:潜在的学习和简约的动态。人类倾向于以简单的术语来思考环境动态 - 我们认为轨迹不是指我们期望在路径上看到的东西,而是在抽象的潜在空间中,其中包含有关该位置的空间坐标的信息。此外,我们假设在环境的新颖部分中四处走动的工作方式与我们所熟悉的部分相同。这两个原则在串联中共同起作用:在潜在空间中,动态表现出了简约的特征。我们开发了一种学习这种简约动态的模型。使用一个变异目标,我们的模型经过培训,可以使用本地线性转换在潜在空间中重建经验丰富的过渡,同时鼓励尽可能少地调用不同的变换。使用我们的框架,我们演示了在一系列政策学习和计划任务中学习简化潜在动态模型的实用性。
translated by 谷歌翻译
带有变异自动编码器(VAE)的学习分解表示通常归因于损失的正则化部分。在这项工作中,我们强调了数据与损失的重建项之间的相互作用,这是VAE中解散的主要贡献者。我们注意到,标准化的基准数据集的构建方式有利于学习似乎是分解的表示形式。我们设计了一个直观的对抗数据集,该数据集利用这种机制破坏了现有的最新分解框架。最后,我们提供了一种解决方案,可以通过修改重建损失来实现分离,从而影响VAES如何感知数据点之间的距离。
translated by 谷歌翻译
Generative models, as an important family of statistical modeling, target learning the observed data distribution via generating new instances. Along with the rise of neural networks, deep generative models, such as variational autoencoders (VAEs) and generative adversarial network (GANs), have made tremendous progress in 2D image synthesis. Recently, researchers switch their attentions from the 2D space to the 3D space considering that 3D data better aligns with our physical world and hence enjoys great potential in practice. However, unlike a 2D image, which owns an efficient representation (i.e., pixel grid) by nature, representing 3D data could face far more challenges. Concretely, we would expect an ideal 3D representation to be capable enough to model shapes and appearances in details, and to be highly efficient so as to model high-resolution data with fast speed and low memory cost. However, existing 3D representations, such as point clouds, meshes, and recent neural fields, usually fail to meet the above requirements simultaneously. In this survey, we make a thorough review of the development of 3D generation, including 3D shape generation and 3D-aware image synthesis, from the perspectives of both algorithms and more importantly representations. We hope that our discussion could help the community track the evolution of this field and further spark some innovative ideas to advance this challenging task.
translated by 谷歌翻译
Unsupervised learning with generative models has the potential of discovering rich representations of 3D scenes. While geometric deep learning has explored 3Dstructure-aware representations of scene geometry, these models typically require explicit 3D supervision. Emerging neural scene representations can be trained only with posed 2D images, but existing methods ignore the three-dimensional structure of scenes. We propose Scene Representation Networks (SRNs), a continuous, 3Dstructure-aware scene representation that encodes both geometry and appearance. SRNs represent scenes as continuous functions that map world coordinates to a feature representation of local scene properties. By formulating the image formation as a differentiable ray-marching algorithm, SRNs can be trained end-toend from only 2D images and their camera poses, without access to depth or shape. This formulation naturally generalizes across scenes, learning powerful geometry and appearance priors in the process. We demonstrate the potential of SRNs by evaluating them for novel view synthesis, few-shot reconstruction, joint shape and appearance interpolation, and unsupervised discovery of a non-rigid face model. 1
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
当研究不受限制的行为并允许小鼠离开笼子去驾驶复杂的迷宫时,小鼠在迷宫中表现出觅食行为,以寻求奖励,不时返回他们的家园,例如。喝。令人惊讶的是,当执行这样的``本垒打''时,老鼠不会遵循确切的反向路径,实际上,入口路径和家居路径几乎没有重叠。最近的工作提出了导航的层次主动推理模型,低级别模型对隐藏状态进行了推断,并提出了解释感官输入的姿势,而高级模型则可以推断出在位置之间移动,从而有效地构建环境地图。但是,使用此``MAP''进行计划,只允许代理找到它以前探索的轨迹,这与观察到的小鼠行为相去甚远。在本文中,我们探讨了通过使用低级生成模型来想象潜在的,但未发现的路径,探讨了将前路径纳入计划算法的方法。我们在网格世界环境中演示了概念证明,展示了代理如何使用从基于像素的观测值中学到的生成模型准确地预测地图中的新的,更短的路径。
translated by 谷歌翻译
人类对我们周围的3D环境具有强烈直观的理解。我们大脑的物理学的心理模型适用于不同材料的物体,使我们能够执行远远超过当前机器人的范围的广泛操纵任务。在这项工作中,我们希望纯粹从2D视觉观测学习动态3D场景的模型。我们的模型将神经辐射字段(NERF)和时间对比学习与自动码框架相结合,这将学习ViewPoint-Invariant的3D感知场景表示。我们表明,通过学习的表示空间构造的动态模型使得能够控制涉及刚体和流体的挑战操纵任务,其中在不同于机器人操作的视点中指定目标。当与自动解码框架耦合时,它甚至可以从训练分布外的相机视点支持目标规范。我们进一步通过执行未来的预测和新颖观看综合来展示学习3D动态模型的丰富性。最后,我们提供了关于不同系统设计和对学习象征的定性分析的详细融合研究。
translated by 谷歌翻译
我们提出了一种对类别级别的6D对象姿势和大小估计的新方法。为了解决类内的形状变化,我们学习规范形状空间(CASS),统一表示,用于某个对象类别的各种情况。特别地,CASS被建模为具有标准化姿势的规范3D形状深度生成模型的潜在空间。我们训练变形式自动编码器(VAE),用于从RGBD图像中的规范空间中生成3D点云。 VAE培训以跨类方式培训,利用公开的大型3D形状存储库。由于3D点云在归一化姿势(具有实际尺寸)中生成,因此VAE的编码器学习视图分解RGBD嵌入。它将RGBD图像映射到任意视图中以独立于姿势的3D形状表示。然后通过将对象姿势与用单独的深神经网络提取的输入RGBD的姿势相关的特征进行对比姿势估计。我们将CASS和姿势和大小估计的学习集成到最终的培训网络中,实现了最先进的性能。
translated by 谷歌翻译
学习以上对象的场景表示对于实现复杂场景的结构理解和抽象至关重要。然而,由于目前为无监督的对象表示学习的方法建立在静止观察者假设或静态场景假设之上,它们通常是:i)遭受单视图空间歧义,或ii)从动态场景中不正确或不准确的对象表示。为了解决此问题,我们提出了动态感知的多目标网络(DYMON),这是一种扩展多视图以对象的表示学习学习到动态场景的方法的方法。我们在多视图 - 动态场景数据上训练Dymon,并显示Dymon学习 - 没有监督 - 从一系列观察序列来构建观察者动作和场景对象动态的纠缠效果,并构建适合渲染的场景对象空间表示在任意次(跨时间查询)和任意视点(查询空间)。我们还显示分解场景表示(W.R.T.对象)支持通过独立和时间通过空间和时间查询单个对象。
translated by 谷歌翻译
自由能原理及其必然的积极推论构成了一种生物启发的理论,该理论假设生物学作用保留在一个受限制的世界首选状态中,即它们最小化自由能。根据这一原则,生物学家学习了世界的生成模型和未来的计划行动,该模型将使代理保持稳态状态,以满足其偏好。该框架使自己在计算机中实现,因为它理解了使其计算负担得起的重要方面,例如变异推断和摊销计划。在这项工作中,我们研究了深度学习的工具,以设计和实现基于主动推断的人造代理,对自由能原理进行深入学习的呈现,调查工作与机器学习和主动推理领域相关,以及讨论实施过程中涉及的设计选择。该手稿探究了积极推理框架的新观点,将其理论方面扎根于更务实的事务中,为活跃推理的新手提供了实用指南,并为深度学习从业人员的起点提供了研究,以调查自由能源原则的实施。
translated by 谷歌翻译
where the highest resolution is required, using facial performance capture as a case in point.
translated by 谷歌翻译
我们如何获得世界模型,这些模型在什么以及我们的行动如何影响它方面都在终止代表外界?我们可以通过与世界互动而获得此类模型,并且我们是否可以说明数学逃亡者与他们与脑海中存在的假设现实的关系?随着机器学习不仅朝着包含观察性的代表性,而且介入介入知识的趋势,我们使用代表学习和小组理论的工具研究了这些问题。在假设我们的执行者对世界上作用的假设,我们提出了学习的方法,不仅要学习感官信息的内部表示,而且还以与世界上的行动和过渡相一致的方式来修改我们的感觉表示的行为。我们使用配备有线性作用在其潜在空间上的组表示的自动编码器,该空间对2步重建进行了训练,例如在组表示上执行合适的同构属性。与现有工作相比,我们的方法对组表示的假设更少,并且代理可以从组中采样的转换。我们从理论上激励我们的方法,并从经验上证明它可以学习群体和环境拓扑的正确表示。我们还将其在轨迹预测中的性能与以前的方法进行比较。
translated by 谷歌翻译
基于线性对称性的分解(LSBD)的定义正式化了线性分解表示的概念,但目前尚无量化LSBD的指标。这样的度量对于评估LSBD方法至关重要,并与以前的分解理解相比。我们建议$ \ mathcal {d} _ \ mathrm {lsbd} $,一种数学上的声音指标,用于量化LSBD,并为$ \ mathrm {so}(so}(2)$ groups提供了实践实现。此外,从这个指标中,我们得出了LSBD-VAE,这是一种学习LSBD表示的半监督方法。我们通过证明(1)基于VAE的常见分解方法不学习LSBD表示,(2)LSBD-VAE以及其他最近的方法可以学习LSBD表示,仅需要有限的转换监督,我们可以在转换中学习LSBD表示,从而证明了我们指标的实用性。(3)LSBD表示也实现了现有的分离指标表达的各种理想属性。
translated by 谷歌翻译
$ \ beta $ -vae是对变形的自身额外转换器的后续技术,提出了在VAE损失中的KL分歧项的特殊加权,以获得解除戒备的表示。即使在玩具数据集和有意义的情况下,甚至在玩具数据集上也是脆弱的学习,难以找到的难以找到的。在这里,我们调查原来的$ \β$ -VAE纸,并向先前获得的结果添加证据表明其缺乏可重复性。我们还进一步扩展了模型的实验,并在分析中包括进一步更复杂的数据集。我们还为$ \β$ -VAE模型实施了FID评分度量,并得出了对所获得的结果的定性分析。我们结束了关于可能进行的未来调查的简要讨论,以增加对索赔的更具稳健性。
translated by 谷歌翻译