Spatiotemporal imaging has applications in e.g. cardiac diagnostics, surgical guidance, and radiotherapy monitoring, In this paper, we explain the temporal motion by identifying the underlying dynamics, only based on the sequential images. Our dynamical model maps the inputs of observed high-dimensional sequential images to a low-dimensional latent space wherein a linear relationship between a hidden state process and the lower-dimensional representation of the inputs holds. For this, we use a conditional variational auto-encoder (CVAE) to nonlinearly map the higher-dimensional image to a lower-dimensional space, wherein we model the dynamics with a linear Gaussian state-space model (LG-SSM). The model, a modified version of the Kalman variational auto-encoder, is end-to-end trainable, and the weights, both in the CVAE and LG-SSM, are simultaneously updated by maximizing the evidence lower bound of the marginal likelihood. In contrast to the original model, we explain the motion with a spatial transformation from one image to another. This results in sharper reconstructions and the possibility of transferring auxiliary information, such as segmentation, through the image sequence. Our experiments, on cardiac ultrasound time series, show that the dynamic model outperforms traditional image registration in execution time, to a similar performance. Further, our model offers the possibility to impute and extrapolate for missing samples.
translated by 谷歌翻译
We introduce Embed to Control (E2C), a method for model learning and control of non-linear dynamical systems from raw pixel images. E2C consists of a deep generative model, belonging to the family of variational autoencoders, that learns to generate image trajectories from a latent space in which the dynamics is constrained to be locally linear. Our model is derived directly from an optimal control formulation in latent space, supports long-term prediction of image sequences and exhibits strong performance on a variety of complex control problems.
translated by 谷歌翻译
我们引入了变分状态空间过滤器(VSSF),这是从原始像素的无监督学习,识别和过滤潜伏的Larkov状态空间模型的新方法。在异构传感器配置下,我们为潜在的状态空间推断提出了理论上的声音框架。得到的模型可以集成训练期间使用的传感器测量的任意子集,从而实现半监督状态表示的学习,从而强制执行学习潜在状态空间的某些组件来达成可解释的测量。从此框架中,我们派生了L-VSSF,这是一个用线性潜在动态和高斯分布参数化的本模型的明确实例化。我们通过实验演示了L-VSSF在几个不同的测试环境中过滤超出训练数据集的序列长度的潜伏空间的能力。
translated by 谷歌翻译
预测驾驶行为或其他传感器测量是自主驱动系统的基本组成部分。通常是现实世界多变量序列数据难以模拟,因为潜在的动态是非线性的,并且观察是嘈杂的。此外,驾驶数据通常可以在分布中多传,这意味着存在不同的预测,但平均可能会损害模型性能。为解决此问题,我们提出了对非线性和多模态时间序列数据的有效推理和预测的转换复发性卡尔曼网络(SRKN)。该模型在几个卡尔曼滤波器之间切换,该滤波器以分解潜在状态模拟动态的不同方面。我们经验测试了在玩具数据集上产生的可扩展和可解释的深度状态空间模型,并在波尔图中的出租车实际驾驶数据。在所有情况下,该模型可以捕获数据中动态的多模式性质。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
这项工作提出了一种随机变化深内核学习方法,用于从高维噪声数据中发现低维动力学模型的数据驱动。该框架由一个编码器组成,该编码器将高维测量值压缩为低维状态变量,以及用于状态变量的潜在动力学模型,该模型可以预测随时间时间的系统演化。提出的模型的培训是以无监督的方式进行的,即不依赖标记的数据。我们的学习方法是根据摆锤的运动进行评估的,这是通过高维嘈杂的RGB图像测量的非线性模型识别和对照的良好研究基线。结果表明,该方法可以有效地确定测量,学习紧凑的状态表示和潜在的动力学模型,并识别和量化建模不确定性。
translated by 谷歌翻译
How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case. Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are reflected in experimental results.
translated by 谷歌翻译
矢量量化变量自动编码器(VQ-VAE)是基于数据的离散潜在表示的生成模型,其中输入映射到有限的学习嵌入式集合。要生成新样品,必须对离散状态进行自动介绍的先验分布。分别地。这一先验通常非常复杂,并导致生成缓慢。在这项工作中,我们提出了一个新模型,以同时训练先验和编码器/解码器网络。我们在连续编码的向量和非信息性先验分布之间建立扩散桥。然后将潜在离散状态作为这些连续向量的随机函数。我们表明,我们的模型与迷你imagenet和Cifar数据集的自动回归先验具有竞争力,并且在优化和采样方面都有效。我们的框架还扩展了标准VQ-VAE,并可以启用端到端培训。
translated by 谷歌翻译
神经网络在许多科学学科中发挥着越来越大的作用,包括物理学。变形AutoEncoders(VAE)是能够表示在低维潜空间中的高维数据的基本信息,该神经网络具有概率解释。特别是所谓的编码器网络,VAE的第一部分,其将其输入到潜伏空间中的位置,另外在该位置的方差方面提供不确定性信息。在这项工作中,介绍了对AutoEncoder架构的扩展,渔民。在该架构中,借助于Fisher信息度量,不使用编码器中的附加信息信道生成潜在空间不确定性,而是从解码器导出。这种架构具有来自理论观点的优点,因为它提供了从模型的直接不确定性量化,并且还考虑不确定的交叉相关。我们可以通过实验表明,渔民生产比可比较的VAE更准确的数据重建,并且其学习性能也明显较好地缩放了潜伏空间尺寸的数量。
translated by 谷歌翻译
我们介绍了一种从高维时间序列数据学习潜在随机微分方程(SDES)的方法。考虑到从较低维潜在未知IT \ ^ O过程产生的高维时间序列,所提出的方法通过自我监督的学习方法学习从环境到潜在空间的映射和潜在的SDE系数。使用变形AutiaceOders的框架,我们考虑基于SDE解决方案的Euler-Maruyama近似的数据的条件生成模型。此外,我们使用最近的结果对潜在变量模型的可识别性来表明,所提出的模型不仅可以恢复底层的SDE系数,还可以在无限数据的极限中恢复底层的SDE系数,也可以最大潜在潜在变量。我们通过多个模拟视频处理任务验证方法,其中底层SDE是已知的,并通过真实的世界数据集。
translated by 谷歌翻译
纵向生物医学数据通常是稀疏时间网格和个体特定发展模式的特征。具体而言,在流行病学队列研究和临床登记处,我们面临的问题是在研究早期阶段中可以从数据中学到的问题,只有基线表征和一个后续测量。灵感来自最近的进步,允许将深度学习与动态建模相结合,我们调查这些方法是否可用于揭示复杂结构,特别是对于每个单独的两个观察时间点的极端小数据设置。然后,通过利用个体的相似性,可以使用不规则间距来获得有关个体动态的更多信息。我们简要概述了变形的自动化器(VAES)如何作为深度学习方法,可以与普通微分方程(ODES)相关联用于动态建模,然后具体研究这种方法的可行性,即提供个人特定的潜在轨迹的方法通过包括规律性假设和个人的相似性。我们还提供了对这种深度学习方法的描述作为过滤任务,以提供统计的视角。使用模拟数据,我们展示了方法可以在多大程度上从多大程度上恢复具有两个和四个未知参数的颂歌系统的单个轨迹,以及使用具有类似轨迹的个体群体,以及其崩溃的地方。结果表明,即使在极端的小数据设置中,这种动态深度学习方法也可能是有用的,但需要仔细调整。
translated by 谷歌翻译
现代工业系统中成像和配置传感器的广泛可访问性创造了大量的高维传感变量。这导致对高维过程监测的研究日益兴趣。然而,文献中的大多数方法都假设控制内人群以给定基础(即样条,小波,核等)或未知基础(即主成分分析及其变体)的线性歧管(即样条,小波,内核等)。 ,不能用来有效地用非线性流形对概况进行建模,这在许多现实生活中很常见。我们将深层概率自动编码器作为一种可行的无监督学习方法来建模这种歧管。为此,我们从经典方法中制定了监测统计数据的非线性和概率扩展,作为预期重建误差(ERE)和基于KL-Divergence(KLD)的监视统计量。通过广泛的仿真研究,我们提供了有关为什么基于潜在空间的统计数据不可靠的见解,以及为什么基于残留空间的统计数据通常在基于深度学习的方法方面表现更好。最后,我们通过模拟研究和现实生活中的案例研究展示了深层概率模型的优势,涉及热钢滚动过程中缺陷的图像。
translated by 谷歌翻译
心肌运动和变形是表征心脏功能的丰富描述符。图像注册是心肌运动跟踪最常用的技术,是一个不当的反问题,通常需要先前对解决方案空间进行假设。与大多数现有的方法相反,它们强加了明确的通用正则化(例如平滑度),在这项工作中,我们提出了一种新的方法,该方法可以隐式地学习了特定于应用程序的生物力学知识,并将其嵌入了神经网络参数化转换模型中。尤其是,提出的方法利用基于变异自动编码器的生成模型来学习生物力学上合理变形的多种多样。然后,可以通过穿越学习的歧管来搜索最佳转换时,在考虑序列信息时搜索最佳转换。该方法在三个公共心脏Cine MRI数据集中进行了验证,并具有全面的评估。结果表明,所提出的方法可以胜过其他方法,从而获得更高的运动跟踪精度,并具有合理的量保存和更好地变化数据分布的概括性。它还可以更好地估计心肌菌株,这表明该方法在表征时空特征以理解心血管疾病方面的潜力。
translated by 谷歌翻译
在这项工作中,我们为生成自动编码器的变异培训提供了确切的可能性替代方法。我们表明,可以使用可逆层来构建VAE风格的自动编码器,该层提供了可拖动的精确可能性,而无需任何正则化项。这是在选择编码器,解码器和先前体系结构的全部自由的同时实现的,这使我们的方法成为培训现有VAE和VAE风格模型的替换。我们将结果模型称为流中的自动编码器(AEF),因为编码器,解码器和先验被定义为整体可逆体系结构的单个层。我们表明,在对数可能,样本质量和降低性能的方面,该方法的性能比结构上等效的VAE高得多。从广义上讲,这项工作的主要野心是在共同的可逆性和确切的最大可能性的共同框架下缩小正常化流量和自动编码器文献之间的差距。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
随机过程提供了数学上优雅的方式模型复杂数据。从理论上讲,它们为可以编码广泛有趣的假设的功能类提供了灵活的先验。但是,实际上,难以通过优化或边缘化来有效推断,这一问题进一步加剧了大数据和高维输入空间。我们提出了一种新颖的变性自动编码器(VAE),称为先前的编码变量自动编码器($ \ pi $ vae)。 $ \ pi $ vae是有限的交换且Kolmogorov一致的,因此是一个连续的随机过程。我们使用$ \ pi $ vae学习功能类的低维嵌入。我们表明,我们的框架可以准确地学习表达功能类,例如高斯流程,也可以学习函数的属性以启用统计推断(例如log高斯过程的积分)。对于流行的任务,例如空间插值,$ \ pi $ vae在准确性和计算效率方面都达到了最先进的性能。也许最有用的是,我们证明了所学的低维独立分布的潜在空间表示提供了一种优雅,可扩展的方法,可以在概率编程语言(例如Stan)中对随机过程进行贝叶斯推断。
translated by 谷歌翻译
变分推理(VI)与贝叶斯非线性滤波相结合,为潜在时间序列建模产生最先进的结果。最近的工作中的一个身体专注于序贯蒙特卡罗(SMC)及其变体,例如,前向滤波后仿真(FFBSI)。虽然这些研究成功了,但严重的问题仍然存在于粒子退化和偏见的渐变估计中。在本文中,我们提出了Enemble Kalman变分目标(ENKO),VI的混合方法和集合卡尔曼滤波器(ENKF),以推断出状态空间模型(SSMS)。我们所提出的方法可以有效地识别潜在动力学,因为其粒子多样性和无偏梯度估计值。我们展示了我们的ENKO在三个基准非线性系统识别任务的预测能力和粒子效率方面优于基于SMC的方法。
translated by 谷歌翻译
The framework of normalizing flows provides a general strategy for flexible variational inference of posteriors over latent variables. We propose a new type of normalizing flow, inverse autoregressive flow (IAF), that, in contrast to earlier published flows, scales well to high-dimensional latent spaces. The proposed flow consists of a chain of invertible transformations, where each transformation is based on an autoregressive neural network. In experiments, we show that IAF significantly improves upon diagonal Gaussian approximate posteriors. In addition, we demonstrate that a novel type of variational autoencoder, coupled with IAF, is competitive with neural autoregressive models in terms of attained log-likelihood on natural images, while allowing significantly faster synthesis.
translated by 谷歌翻译
深层生成模型被广泛用于建模高维时间序列,例如视频动画,音频和气候数据。对于许多应用程序,已成功考虑了顺序变异自动编码器,许多变体模型依赖于离散的时间方法和经常性神经网络(RNN)。另一方面,连续时间方法最近获得了吸引力,尤其是在不规则采样的时间序列的背景下,它们可以比离散时间方法更好地处理数据。这样的类是高斯工艺变异自动编码器(GPVAE),其中VAE先验设置为高斯过程(GPS),允许通过潜在空间的内核功能和解释性明确编码归纳偏置。但是,GPVAE的主要限制是它继承了与GPS相同的立方计算成本。在这项工作中,我们利用了马尔可夫GP的等效离散状态空间表示形式,以通过Kalman过滤和平滑启用线性GP求解器。我们通过损坏和缺少框架任务显示出我们的方法的性能,尤其是在后者优于基于RNN的模型的后者。
translated by 谷歌翻译
在存在潜在变量的情况下,从观察数据中估算因果关系的效果有时会导致虚假关系,这可能被错误地认为是因果关系。这是许多领域的重要问题,例如金融和气候科学。我们提出了序性因果效应变异自动编码器(SCEVAE),这是一种在隐藏混杂下的时间序列因果关系分析的新方法。它基于CEVAE框架和复发性神经网络。通过基于Pearl的Do-Calculus使用直接因果标准来计算因果链接的混杂变量强度。我们通过将其应用于具有线性和非线性因果链接的合成数据集,以显示SCEVAE的功效。此外,我们将方法应用于真实的气溶胶气候观察数据。我们将我们的方法与在合成数据上有或没有替代混杂因素的时间序列变形方法进行比较。我们证明我们的方法通过将两种方法与地面真理进行比较来表现更好。对于真实数据,我们使用因果链接的专家知识,并显示正确的代理变量的使用如何帮助数据重建。
translated by 谷歌翻译