我们为高维顺序数据提出了深度潜在的变量模型。我们的模型将潜在空间分解为内容和运动变量。为了模拟多样化的动态,我们将运动空间分成子空间,并为每个子空间引入一个独特的哈密顿运算符。Hamiltonian配方提供可逆动态,学习限制运动路径以保护不变性属性。运动空间的显式分裂将哈密顿人分解成对称组,并提供动态的长期可分离性。这种拆分也意味着可以学习的表示,这很容易解释和控制。我们展示了我们模型来交换两个视频的运动,从给定的图像和无条件序列生成产生各种动作的序列。
translated by 谷歌翻译
学习动态是机器学习(ML)的许多重要应用的核心,例如机器人和自主驾驶。在这些设置中,ML算法通常需要推理使用高维观察的物理系统,例如图像,而不访问底层状态。最近,已经提出了几种方法将从经典机制的前沿集成到ML模型中,以解决图像的物理推理的挑战。在这项工作中,我们清醒了这些模型的当前功能。为此,我们介绍一套由17个数据集组成的套件,该数据集基于具有呈现各种动态的物理系统的视觉观测。我们对几种强大的基线进行了彻底的和详细比较了物理启发方法的主要类别。虽然包含物理前沿的模型通常可以学习具有所需特性的潜在空间,但我们的结果表明这些方法无法显着提高标准技术。尽管如此,我们发现使用连续和时间可逆动力学的使用效益所有课程的模型。
translated by 谷歌翻译
最近提出的一类模型试图使用哈密顿力学所通知的前沿,从高维观察中学习潜在动态的潜在动态。虽然这些模型在机器人或自主驾驶等领域具有重要潜在应用,但目前没有好方法来评估它们的性能:现有方法主要依赖于图像重建质量,这并不总是反映学习潜在动态的质量。在这项工作中,我们经验突出了现有措施的问题,并制定了一套新措施,包括依赖母亲哈密顿动态的二进制指标,我们称之为符号度量或次称。我们的措施利用了汉密尔顿动态的已知属性,并且更符合模型捕获潜在动态的能力而不是重建误差。使用Symetric,我们识别一组架构选择,可以显着提高先前提出的模型的性能,用于从像素,Hamiltonian生成网络(HGN)从像素推断潜在动态。与原始HGN不同,新的HGN ++能够在某些数据集中发现具有物理有意义的潜伏的可解释的相位空间。此外,它在不同范围的13个数据集上的卷展栏上是稳定的,在一个不同的13个数据集上产生基本上无限长度的卷展栏,在数据集的子集上没有质量下降。
translated by 谷歌翻译
在许多现实世界中,当不二维测量值时,可能会提供自由旋转3D刚体(例如卫星)的图像观察。但是,图像数据的高维度排除了学习动力学和缺乏解释性的使用,从而降低了标准深度学习方法的有用性。在这项工作中,我们提出了一个物理知识的神经网络模型,以估计和预测图像序列中的3D旋转动力学。我们使用多阶段预测管道实现了这一目标,该管道将单个图像映射到潜在表示同构为$ \ Mathbf {so}(3)$,从潜在对计算角速度,并使用Hamiltonian Motion使用Hamiltonian运动方程来预测未来的潜在状态博学的哈密顿人的代表。我们证明了方法对新的旋转刚体数据集的功效,该数据集具有旋转立方体和矩形棱镜序列,并具有均匀且不均匀的密度。
translated by 谷歌翻译
我们如何获得世界模型,这些模型在什么以及我们的行动如何影响它方面都在终止代表外界?我们可以通过与世界互动而获得此类模型,并且我们是否可以说明数学逃亡者与他们与脑海中存在的假设现实的关系?随着机器学习不仅朝着包含观察性的代表性,而且介入介入知识的趋势,我们使用代表学习和小组理论的工具研究了这些问题。在假设我们的执行者对世界上作用的假设,我们提出了学习的方法,不仅要学习感官信息的内部表示,而且还以与世界上的行动和过渡相一致的方式来修改我们的感觉表示的行为。我们使用配备有线性作用在其潜在空间上的组表示的自动编码器,该空间对2步重建进行了训练,例如在组表示上执行合适的同构属性。与现有工作相比,我们的方法对组表示的假设更少,并且代理可以从组中采样的转换。我们从理论上激励我们的方法,并从经验上证明它可以学习群体和环境拓扑的正确表示。我们还将其在轨迹预测中的性能与以前的方法进行比较。
translated by 谷歌翻译
不确定性在未来预测中起关键作用。未来是不确定的。这意味着可能有很多可能的未来。未来的预测方法应涵盖坚固的全部可能性。在自动驾驶中,涵盖预测部分中的多种模式对于做出安全至关重要的决策至关重要。尽管近年来计算机视觉系统已大大提高,但如今的未来预测仍然很困难。几个示例是未来的不确定性,全面理解的要求以及嘈杂的输出空间。在本论文中,我们通过以随机方式明确地对运动进行建模并学习潜在空间中的时间动态,从而提出了解决这些挑战的解决方案。
translated by 谷歌翻译
通过深度生成建模的学习表示是动态建模的强大方法,以发现数据的最简化和压缩的基础描述,然后将其用于诸如预测的其他任务。大多数学习任务具有内在的对称性,即输入变换将输出保持不变,或输出经过类似的转换。然而,学习过程通常是对这些对称性的不知情。因此,单独转换输入的学习表示可能不会有意义地相关。在本文中,我们提出了一种如此(3)个等级的深层动态模型(EQDDM),用于运动预测,用于在嵌入随对称转换的情况下变化的意义上学习输入空间的结构化表示。 EQDDM配备了等级网络,可参数化状态空间发射和转换模型。我们展示了在各种运动数据上提出了拟议模型的卓越预测性能。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
用神经网络对物理系统的动力学建模的最新方法强制执行拉格朗日式或哈密顿结构,以改善预测和泛化。但是,当将坐标嵌入高维数据(例如图像)中时,这些方法要么失去解释性,要么只能应用于一个特定示例。我们介绍了一种新的无监督神经网络模型,该模型从图像中学习拉格朗日动态,并具有受益于预测和控制的解释性。该模型在广义坐标上渗透Lagrangian动力学,这些动力学是通过坐标感知的变异自动编码器(VAE)同时学习的。 VAE旨在说明由飞机中多个刚体组成的物理系统的几何形状。通过推断可解释的拉格朗日动力学,该模型学习了物理系统属性,例如动力学和势能,从而可以长期预测图像空间中的动力学和基于能量控制器的合成。
translated by 谷歌翻译
Disentangled表示支持一系列下游任务,包括因果推理,生成建模和公平机器学习。不幸的是,在不纳入监督或归纳偏见的情况下,脱吊度被证明是不可能的。鉴于监督往往是昂贵或不可行的收购,我们选择合并结构感应偏压,并为视频解剖(VDSM)提供无监督的深度状态模型。该模型通过在具有动态现有的和专家解码器的混合物中掺入分层结构而脱离潜在的时变和动态因素。 VDSM了解对象或视频中对象或人的身份的单独解密表示,以及正在执行的操作。我们在一系列定性和定量任务中评估VDSM,包括身份和动态传输,序列生成,FR \'ECET距离和因子分类。 VDSM提供最先进的性能并超出对抗方法,即使方法使用额外的监督。
translated by 谷歌翻译
We introduce Embed to Control (E2C), a method for model learning and control of non-linear dynamical systems from raw pixel images. E2C consists of a deep generative model, belonging to the family of variational autoencoders, that learns to generate image trajectories from a latent space in which the dynamics is constrained to be locally linear. Our model is derived directly from an optimal control formulation in latent space, supports long-term prediction of image sequences and exhibits strong performance on a variety of complex control problems.
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
在本章中,我们确定了基本的几何结构,这些几何结构是采样,优化,推理和自适应决策问题的基础。基于此识别,我们得出了利用这些几何结构来有效解决这些问题的算法。我们表明,在这些领域中自然出现了广泛的几何理论,范围从测量过程,信息差异,泊松几何和几何整合。具体而言,我们解释了(i)如何利用汉密尔顿系统的符合性几何形状,使我们能够构建(加速)采样和优化方法,(ii)希尔伯特亚空间和Stein操作员的理论提供了一种通用方法来获得可靠的估计器,(iii)(iii)(iii)保留决策的信息几何形状会产生执行主动推理的自适应剂。在整个过程中,我们强调了这些领域之间的丰富联系。例如,推论借鉴了抽样和优化,并且自适应决策通过推断其反事实后果来评估决策。我们的博览会提供了基本思想的概念概述,而不是技术讨论,可以在本文中的参考文献中找到。
translated by 谷歌翻译
配备具有推断人类意图的能力的机器人是有效合作的重要前提。对于这种目标的大多数计算方法采用了概率的推理,以回收机器人感知状态的“意图”的分布。然而,这些方法通常假设人类意图的特定任务概念(例如标记目标)是先验的。为了克服这一限制,我们提出了解离序列聚类变分性Autiachoder(Discvae),该群集框架可以用于以无监督的方式学习意图的这种分布。 DiscVae利用最近在无监督的学习方面的进步导出了顺序数据的解除不诚格潜在表示,从时间不变的全局方面分离时变化的本地特征。虽然与前面的解剖学框架不同,但是所提出的变体也涉及分立变量,以形成潜在混合模型,并使全局序列概念进行聚类,例如,观察到人类行为的意图。为了评估Discvae,首先使用弹跳数字和2D动画的视频数据集来验证其从未标记序列发现类的容量。然后,我们从机器人轮椅上进行的现实世界机器人交互实验报告结果。我们的调查结果引入了推断离散变量如何与人类意图一致,从而用于改善协作设置的帮助,例如共享控制。
translated by 谷歌翻译
最近,对具有神经网络的物理系统建模和计算的兴趣越来越多。在古典力学中,哈密顿系统是一种优雅而紧凑的形式主义,该动力学由一个标量功能,哈密顿量完全决定。解决方案轨迹通常受到约束,以在线性矢量空间的子序列上进化。在这项工作中,我们提出了新的方法,以准确地逼近其解决方案的示例数据信息的约束机械系统的哈密顿功能。我们通过使用明确的谎言组集成商和其他经典方案来关注学习策略中约束的重要性。
translated by 谷歌翻译
机器人动态的准确模型对于新颖的操作条件安全和稳定控制和概括至关重要。然而,即使在仔细参数调谐后,手工设计的模型也可能是不够准确的。这激励了使用机器学习技术在训练集的状态控制轨迹上近似机器人动力学。根据其SE(3)姿势和广义速度,并满足能量原理的保护,描述了许多机器人的动态,包括地面,天线和水下车辆。本文提出了在神经常规差分方程(ODE)网络结构的SE(3)歧管上的HamiltonIAN制剂,以近似刚体的动态。与黑匣子颂网络相比,我们的配方通过施工保证了总节能。我们为学习的学习,潜在的SE(3)Hamiltonian动力学开发能量整形和阻尼注射控制,以实现具有各种平台的稳定和轨迹跟踪的统一方法,包括摆锤,刚体和四极其系统。
translated by 谷歌翻译
合理和可控3D人类运动动画的创建是一个长期存在的问题,需要对技术人员艺术家进行手动干预。目前的机器学习方法可以半自动化该过程,然而,它们以显着的方式受到限制:它们只能处理预期运动的单个轨迹,该轨迹排除了对输出的细粒度控制。为了缓解该问题,我们在多个轨迹表示为具有缺失关节的姿势的空间和时间内将未来姿态预测的问题重构为姿势完成。我们表明这种框架可以推广到设计用于未来姿态预测的其他神经网络。曾经在该框架中培训,模型能够从任何数量的轨迹预测序列。我们提出了一种新颖的变形金刚架构,Trajevae,在这个想法上建立了一个,为3D人类动画提供了一个多功能框架。我们展示了Trajevae提供比基于轨迹的参考方法和方法基于过去的姿势。我们还表明,即使仅提供初始姿势,它也可以预测合理的未来姿势。
translated by 谷歌翻译
从视觉观察中了解动态系统的潜在因果因素被认为是对复杂环境中推理的推理的关键步骤。在本文中,我们提出了Citris,这是一种变异自动编码器框架,从图像的时间序列中学习因果表示,其中潜在的因果因素可能已被干预。与最近的文献相反,Citris利用了时间性和观察干预目标,以鉴定标量和多维因果因素,例如3D旋转角度。此外,通过引入归一化流,可以轻松扩展柑橘,以利用和删除已验证的自动编码器获得的删除表示形式。在标量因果因素上扩展了先前的结果,我们在更一般的环境中证明了可识别性,其中仅因果因素的某些成分受干预措施影响。在对3D渲染图像序列的实验中,柑橘类似于恢复基本因果变量的先前方法。此外,使用预验证的自动编码器,Citris甚至可以概括为因果因素的实例化,从而在SIM到现实的概括中开放了未来的研究领域,以进行因果关系学习。
translated by 谷歌翻译
基于线性对称性的分解(LSBD)的定义正式化了线性分解表示的概念,但目前尚无量化LSBD的指标。这样的度量对于评估LSBD方法至关重要,并与以前的分解理解相比。我们建议$ \ mathcal {d} _ \ mathrm {lsbd} $,一种数学上的声音指标,用于量化LSBD,并为$ \ mathrm {so}(so}(2)$ groups提供了实践实现。此外,从这个指标中,我们得出了LSBD-VAE,这是一种学习LSBD表示的半监督方法。我们通过证明(1)基于VAE的常见分解方法不学习LSBD表示,(2)LSBD-VAE以及其他最近的方法可以学习LSBD表示,仅需要有限的转换监督,我们可以在转换中学习LSBD表示,从而证明了我们指标的实用性。(3)LSBD表示也实现了现有的分离指标表达的各种理想属性。
translated by 谷歌翻译
Methods based on ordinary differential equations (ODEs) are widely used to build generative models of time-series. In addition to high computational overhead due to explicitly computing hidden states recurrence, existing ODE-based models fall short in learning sequence data with sharp transitions - common in many real-world systems - due to numerical challenges during optimization. In this work, we propose LS4, a generative model for sequences with latent variables evolving according to a state space ODE to increase modeling capacity. Inspired by recent deep state space models (S4), we achieve speedups by leveraging a convolutional representation of LS4 which bypasses the explicit evaluation of hidden states. We show that LS4 significantly outperforms previous continuous-time generative models in terms of marginal distribution, classification, and prediction scores on real-world datasets in the Monash Forecasting Repository, and is capable of modeling highly stochastic data with sharp temporal transitions. LS4 sets state-of-the-art for continuous-time latent generative models, with significant improvement of mean squared error and tighter variational lower bounds on irregularly-sampled datasets, while also being x100 faster than other baselines on long sequences.
translated by 谷歌翻译