我们引入了变分状态空间过滤器(VSSF),这是从原始像素的无监督学习,识别和过滤潜伏的Larkov状态空间模型的新方法。在异构传感器配置下,我们为潜在的状态空间推断提出了理论上的声音框架。得到的模型可以集成训练期间使用的传感器测量的任意子集,从而实现半监督状态表示的学习,从而强制执行学习潜在状态空间的某些组件来达成可解释的测量。从此框架中,我们派生了L-VSSF,这是一个用线性潜在动态和高斯分布参数化的本模型的明确实例化。我们通过实验演示了L-VSSF在几个不同的测试环境中过滤超出训练数据集的序列长度的潜伏空间的能力。
translated by 谷歌翻译
We introduce Embed to Control (E2C), a method for model learning and control of non-linear dynamical systems from raw pixel images. E2C consists of a deep generative model, belonging to the family of variational autoencoders, that learns to generate image trajectories from a latent space in which the dynamics is constrained to be locally linear. Our model is derived directly from an optimal control formulation in latent space, supports long-term prediction of image sequences and exhibits strong performance on a variety of complex control problems.
translated by 谷歌翻译
在许多领域,包括强化学习和控制在内的许多领域,从一系列高维观测中学习或识别动力学是一个困难的挑战。最近通过潜在动力学从生成的角度研究了这个问题:将高维观测结果嵌入到较低维的空间中,可以在其中学习动力学。尽管取得了一些成功,但尚未将潜在动力学模型应用于现实世界的机器人系统,在这些机器人系统中,学习的表示形式必须适合各种感知混杂和噪声源。在本文中,我们提出了一种共同学习潜在状态表示的方法以及在感知困难条件下的长期计划和闭环控制的相关动力。作为我们的主要贡献,我们描述了我们的表示如何能够通过检测新颖或分布(OOD)输入来捕获测试时间的异质或输入特异性不确定性的概念。我们介绍了有关两个基于图像的任务的预测和控制实验的结果:一个模拟的摆平衡任务和实现任务的现实世界机器人操纵器。我们证明,与仅在不同程度的输入降解的情况下,我们的模型可产生更准确的预测,并表现出改善的控制性能。
translated by 谷歌翻译
基于近似基础的Koopman操作员或发电机的数据驱动的非线性动力系统模型已被证明是预测,功能学习,状态估计和控制的成功工具。众所周知,用于控制膜系统的Koopman发电机还对输入具有仿射依赖性,从而导致动力学的方便有限维双线性近似。然而,仍然存在两个主要障碍,限制了当前方法的范围,以逼近系统的koopman发电机。首先,现有方法的性能在很大程度上取决于要近似Koopman Generator的基础函数的选择;目前,目前尚无通用方法来为无法衡量保存的系统选择它们。其次,如果我们不观察到完整的状态,我们可能无法访问足够丰富的此类功能来描述动态。这是因为在有驱动时,通常使用时间延迟的可观察物的方法失败。为了解决这些问题,我们将Koopman Generator控制的可观察到的动力学写为双线性隐藏Markov模型,并使用预期最大化(EM)算法确定模型参数。 E-Step涉及标准的Kalman滤波器和更光滑,而M-Step类似于发电机的控制效果模式分解。我们在三个示例上证明了该方法的性能,包括恢复有限的Koopman-Invariant子空间,用于具有缓慢歧管的驱动系统;估计非强制性行驶方程的Koopman本征函数;仅基于提升和阻力的嘈杂观察,对流体弹球系统的模型预测控制。
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
Planning has been very successful for control tasks with known environment dynamics. To leverage planning in unknown environments, the agent needs to learn the dynamics from interactions with the world. However, learning dynamics models that are accurate enough for planning has been a long-standing challenge, especially in image-based domains. We propose the Deep Planning Network (PlaNet), a purely model-based agent that learns the environment dynamics from images and chooses actions through fast online planning in latent space. To achieve high performance, the dynamics model must accurately predict the rewards ahead for multiple time steps. We approach this using a latent dynamics model with both deterministic and stochastic transition components. Moreover, we propose a multi-step variational inference objective that we name latent overshooting. Using only pixel observations, our agent solves continuous control tasks with contact dynamics, partial observability, and sparse rewards, which exceed the difficulty of tasks that were previously solved by planning with learned models. PlaNet uses substantially fewer episodes and reaches final performance close to and sometimes higher than strong model-free algorithms.
translated by 谷歌翻译
非线性状态空间模型是一种强大的工具,可以在复杂时间序列中描述动态结构。在一个流的媒体设置中,当一次处理一个样本的情况下,状态的同时推断及其非线性动力学在实践中提出了重大挑战。我们开发了一个小说在线学习框架,利用变分推理和顺序蒙特卡罗,这使得灵活和准确的贝叶斯联合过滤。我们的方法提供了滤波后的近似,这可以任意地接近针对广泛的动态模型和观察模型的真正滤波分布。具体地,所提出的框架可以使用稀疏高斯过程有效地近似于动态的后验,允许潜在动力学的可解释模型。每个样本的恒定时间复杂性使我们的方法能够适用于在线学习场景,适用于实时应用。
translated by 谷歌翻译
预测驾驶行为或其他传感器测量是自主驱动系统的基本组成部分。通常是现实世界多变量序列数据难以模拟,因为潜在的动态是非线性的,并且观察是嘈杂的。此外,驾驶数据通常可以在分布中多传,这意味着存在不同的预测,但平均可能会损害模型性能。为解决此问题,我们提出了对非线性和多模态时间序列数据的有效推理和预测的转换复发性卡尔曼网络(SRKN)。该模型在几个卡尔曼滤波器之间切换,该滤波器以分解潜在状态模拟动态的不同方面。我们经验测试了在玩具数据集上产生的可扩展和可解释的深度状态空间模型,并在波尔图中的出租车实际驾驶数据。在所有情况下,该模型可以捕获数据中动态的多模式性质。
translated by 谷歌翻译
Spatiotemporal imaging has applications in e.g. cardiac diagnostics, surgical guidance, and radiotherapy monitoring, In this paper, we explain the temporal motion by identifying the underlying dynamics, only based on the sequential images. Our dynamical model maps the inputs of observed high-dimensional sequential images to a low-dimensional latent space wherein a linear relationship between a hidden state process and the lower-dimensional representation of the inputs holds. For this, we use a conditional variational auto-encoder (CVAE) to nonlinearly map the higher-dimensional image to a lower-dimensional space, wherein we model the dynamics with a linear Gaussian state-space model (LG-SSM). The model, a modified version of the Kalman variational auto-encoder, is end-to-end trainable, and the weights, both in the CVAE and LG-SSM, are simultaneously updated by maximizing the evidence lower bound of the marginal likelihood. In contrast to the original model, we explain the motion with a spatial transformation from one image to another. This results in sharper reconstructions and the possibility of transferring auxiliary information, such as segmentation, through the image sequence. Our experiments, on cardiac ultrasound time series, show that the dynamic model outperforms traditional image registration in execution time, to a similar performance. Further, our model offers the possibility to impute and extrapolate for missing samples.
translated by 谷歌翻译
准确的动力学模型在许多机器人技术应用程序(例如越野导航和高速驾驶)中起着至关重要的作用。然而,学习随机运动动力学模型的许多最先进的方法需要对机器人状态作为标记的输入/输出示例进行精确测量,由于传感器功能有限,并且缺乏地面真相,在室外设置中可能很难获得。 。在这项工作中,我们提出了一种新技术,用于通过执行同时进行状态估计和动力学学习,从嘈杂和间接观察中学习神经随机的动力学模型。所提出的技术迭代地改善了预期最大化环路中的动力学模型,其中E步骤采样了使用粒子过滤的后状态轨迹,并且M步骤更新动力学,以使通过随机梯度上升的采样轨迹更加一致。我们在模拟和实际基准测试中评估了我们的方法,并将其与几种基线技术进行比较。我们的方法不仅达到了更高的精度,而且对观察噪声也更加强大,从而显示出有望提高许多其他机器人应用的性能。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
纵向生物医学数据通常是稀疏时间网格和个体特定发展模式的特征。具体而言,在流行病学队列研究和临床登记处,我们面临的问题是在研究早期阶段中可以从数据中学到的问题,只有基线表征和一个后续测量。灵感来自最近的进步,允许将深度学习与动态建模相结合,我们调查这些方法是否可用于揭示复杂结构,特别是对于每个单独的两个观察时间点的极端小数据设置。然后,通过利用个体的相似性,可以使用不规则间距来获得有关个体动态的更多信息。我们简要概述了变形的自动化器(VAES)如何作为深度学习方法,可以与普通微分方程(ODES)相关联用于动态建模,然后具体研究这种方法的可行性,即提供个人特定的潜在轨迹的方法通过包括规律性假设和个人的相似性。我们还提供了对这种深度学习方法的描述作为过滤任务,以提供统计的视角。使用模拟数据,我们展示了方法可以在多大程度上从多大程度上恢复具有两个和四个未知参数的颂歌系统的单个轨迹,以及使用具有类似轨迹的个体群体,以及其崩溃的地方。结果表明,即使在极端的小数据设置中,这种动态深度学习方法也可能是有用的,但需要仔细调整。
translated by 谷歌翻译
复发状态空间模型(RSSM)是时间序列数据和系统标识中学习模式的高度表达模型。但是,这些模型假定动力学是固定和不变的,在现实世界中,这种动力学很少发生。许多控制应用程序通常表现出具有相似但不相同动力学的任务,这些任务可以建模为潜在变量。我们介绍了隐藏的参数复发状态空间模型(HIP-RSSM),该框架为具有低维的潜在因素集的相关动态系统的家庭参数。我们提出了一种对这种高斯图形模型的学习和执行推理的简单有效方法,该模型避免了诸如变异推理之类的近似值。我们表明,HIP-RSSM在现实世界系统和仿真上的几个挑战性机器人基准上都优于RSSM和竞争性的多任务模型。
translated by 谷歌翻译
变分推理(VI)与贝叶斯非线性滤波相结合,为潜在时间序列建模产生最先进的结果。最近的工作中的一个身体专注于序贯蒙特卡罗(SMC)及其变体,例如,前向滤波后仿真(FFBSI)。虽然这些研究成功了,但严重的问题仍然存在于粒子退化和偏见的渐变估计中。在本文中,我们提出了Enemble Kalman变分目标(ENKO),VI的混合方法和集合卡尔曼滤波器(ENKF),以推断出状态空间模型(SSMS)。我们所提出的方法可以有效地识别潜在动力学,因为其粒子多样性和无偏梯度估计值。我们展示了我们的ENKO在三个基准非线性系统识别任务的预测能力和粒子效率方面优于基于SMC的方法。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case. Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are reflected in experimental results.
translated by 谷歌翻译
通用非线性系统的最优控制是自动化中的中央挑战。通过强大的函数近似器启用的数据驱动的控制方法,最近在处理具有挑战性的机器人应用方面取得了巨大成功。但是,这些方法通常会掩盖黑盒上过度参数化表示的动态和控制的结构,从而限制了我们理解闭环行为的能力。本文采用混合系统的非线性建模和控制的视图,对问题提供显式层次结构,并将复杂的动态分解为更简单的本地化单元。因此,我们考虑一个序列建模范式,它捕获数据的时间结构,并导出了一种具有非线性边界的随机分段仿射动态系统将非线性动力学自动分解的序列 - 最大化(EM)算法。此外,我们表明,这些时间序列模型自然地承认我们使用的闭环扩展,以通过模仿学习从非线性专家提取本地线性或多项式反馈控制器。最后,我们介绍了一种新的混合地位熵策略搜索(HB-reps)技术,其结合了混合系统的分层性质,并优化了从全局价值函数的局部多项式近似导出的一组时间不变的局部反馈控制器。
translated by 谷歌翻译
人类是熟练的导航员:我们恰当地在新的地方进行了操纵,意识到我们回到以前见过的位置,甚至可以想到经历我们从未参观过的部分环境的捷径。另一方面,基于模型的强化学习中的当前方法与从训练分布中概括环境动态的努力。我们认为,两个原则可以帮助弥合这一差距:潜在的学习和简约的动态。人类倾向于以简单的术语来思考环境动态 - 我们认为轨迹不是指我们期望在路径上看到的东西,而是在抽象的潜在空间中,其中包含有关该位置的空间坐标的信息。此外,我们假设在环境的新颖部分中四处走动的工作方式与我们所熟悉的部分相同。这两个原则在串联中共同起作用:在潜在空间中,动态表现出了简约的特征。我们开发了一种学习这种简约动态的模型。使用一个变异目标,我们的模型经过培训,可以使用本地线性转换在潜在空间中重建经验丰富的过渡,同时鼓励尽可能少地调用不同的变换。使用我们的框架,我们演示了在一系列政策学习和计划任务中学习简化潜在动态模型的实用性。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译