在高维度中整合时间依赖性的fokker-planck方程的选择方法是通过集成相关的随机微分方程来生成溶液中的样品。在这里,我们介绍了基于整合描述概率流的普通微分方程的替代方案。与随机动力学不同,该方程式在以后的任何时候都会从初始密度将样品从溶液中的样品推到样品。该方法具有直接访问数量的优势,这些数量挑战仅估算仅给定解决方案的样品,例如概率电流,密度本身及其熵。概率流程方程取决于溶液对数的梯度(其“得分”),因此A-Priori未知也是如此。为了解决这种依赖性,我们用一个深神网络对分数进行建模,该网络通过根据瞬时概率电流传播一组粒子来实现,该网络可以在直接学习中学习。我们的方法是基于基于得分的生成建模的最新进展,其重要区别是训练程序是独立的,并且不需要来自目标密度的样本才能事先可用。为了证明该方法的有效性,我们考虑了相互作用粒子系统物理学的几个示例。我们发现该方法可以很好地缩放到高维系统,并准确匹配可用的分析解决方案和通过蒙特卡洛计算的力矩。
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
Wasserstein-Fisher-Rao(WFR)距离是一个指标家族,用于评估两种ra措施的差异,这同时考虑了运输和重量的变化。球形WFR距离是WFR距离的投影版本,以实现概率措施,因此配备了WFR的ra尺度空间可以在概率测量的空间中,用球形WFR视为公式锥。与Wasserstein距离相比,在球形WFR下对大地测量学的理解尚不清楚,并且仍然是持续的研究重点。在本文中,我们开发了一个深度学习框架,以计算球形WFR指标下的大地测量学,并且可以采用学习的大地测量学来生成加权样品。我们的方法基于球形WFR的Benamou-Brenier型动态配方。为了克服重量变化带来的边界约束的困难,将基于反向映射的kullback-leibler(KL)发散术语引入成本函数。此外,引入了使用粒子速度的新的正则化项,以替代汉密尔顿 - 雅各比方程的动态公式中的潜力。当用于样品生成时,与先前的流量模型相比,与给定加权样品的应用相比,我们的框架可能对具有给定加权样品的应用有益。
translated by 谷歌翻译
计算科学和统计推断中的许多应用都需要计算有关具有未知归一化常数的复杂高维分布以及这些常数的估计。在这里,我们开发了一种基于从简单的基本分布生成样品,沿着速度场生成的流量运输的方法,并沿这些流程线执行平均值。这种非平衡重要性采样(NEIS)策略是直接实施的,可用于具有任意目标分布的计算。在理论方面,我们讨论了如何将速度场定制到目标,并建立所提出的估计器是一个完美的估计器,具有零变化。我们还通过将基本分布映射到目标上,通过传输图绘制了NEIS和方法之间的连接。在计算方面,我们展示了如何使用深度学习来代表神经网络,并将其训练为零方差最佳。这些结果在高维示例上进行了数值说明,我们表明训练速度场可以将NEIS估计量的方差降低至6个数量级,而不是Vanilla估计量。我们还表明,NEIS在这些示例上的表现要比NEAL的退火重要性采样(AIS)更好。
translated by 谷歌翻译
The accurate numerical solution of partial differential equations is a central task in numerical analysis allowing to model a wide range of natural phenomena by employing specialized solvers depending on the scenario of application. Here, we develop a variational approach for solving partial differential equations governing the evolution of high dimensional probability distributions. Our approach naturally works on the unbounded continuous domain and encodes the full probability density function through its variational parameters, which are adapted dynamically during the evolution to optimally reflect the dynamics of the density. For the considered benchmark cases we observe excellent agreement with numerical solutions as well as analytical solutions in regimes inaccessible to traditional computational approaches.
translated by 谷歌翻译
在这项工作中,我们探讨了随机梯度下降(SGD)训练的深神经网络的限制动态。如前所述,长时间的性能融合,网络继续通过参数空间通过一个异常扩散的过程,其中距离在具有非活动指数的梯度更新的数量中增加距离。我们揭示了优化的超公数,梯度噪声结构之间的复杂相互作用,以及在训练结束时解释这种异常扩散的Hessian矩阵。为了构建这种理解,我们首先为SGD推导出一个连续时间模型,具有有限的学习速率和批量尺寸,作为欠下的Langevin方程。我们在线性回归中研究了这个方程,我们可以为参数的相位空间动态和它们的瞬时速度来得出精确的分析表达式,从初始化到实用性。使用Fokker-Planck方程,我们表明驾驶这些动态的关键成分不是原始的训练损失,而是修改的损失的组合,其隐含地规则地规范速度和概率电流,这导致相位空间中的振荡。我们在ImageNet培训的Reset-18模型的动态中确定了这种理论的定性和定量预测。通过统计物理的镜头,我们揭示了SGD培训的深神经网络的异常限制动态的机制来源。
translated by 谷歌翻译
在本章中,我们确定了基本的几何结构,这些几何结构是采样,优化,推理和自适应决策问题的基础。基于此识别,我们得出了利用这些几何结构来有效解决这些问题的算法。我们表明,在这些领域中自然出现了广泛的几何理论,范围从测量过程,信息差异,泊松几何和几何整合。具体而言,我们解释了(i)如何利用汉密尔顿系统的符合性几何形状,使我们能够构建(加速)采样和优化方法,(ii)希尔伯特亚空间和Stein操作员的理论提供了一种通用方法来获得可靠的估计器,(iii)(iii)(iii)保留决策的信息几何形状会产生执行主动推理的自适应剂。在整个过程中,我们强调了这些领域之间的丰富联系。例如,推论借鉴了抽样和优化,并且自适应决策通过推断其反事实后果来评估决策。我们的博览会提供了基本思想的概念概述,而不是技术讨论,可以在本文中的参考文献中找到。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
The modeling of probability distributions, specifically generative modeling and density estimation, has become an immensely popular subject in recent years by virtue of its outstanding performance on sophisticated data such as images and texts. Nevertheless, a theoretical understanding of its success is still incomplete. One mystery is the paradox between memorization and generalization: In theory, the model is trained to be exactly the same as the empirical distribution of the finite samples, whereas in practice, the trained model can generate new samples or estimate the likelihood of unseen samples. Likewise, the overwhelming diversity of distribution learning models calls for a unified perspective on this subject. This paper provides a mathematical framework such that all the well-known models can be derived based on simple principles. To demonstrate its efficacy, we present a survey of our results on the approximation error, training error and generalization error of these models, which can all be established based on this framework. In particular, the aforementioned paradox is resolved by proving that these models enjoy implicit regularization during training, so that the generalization error at early-stopping avoids the curse of dimensionality. Furthermore, we provide some new results on landscape analysis and the mode collapse phenomenon.
translated by 谷歌翻译
非线性部分差分差异方程成功地用于描述自然科学,工程甚至金融中的广泛时间依赖性现象。例如,在物理系统中,Allen-Cahn方程描述了与相变相关的模式形成。相反,在金融中,黑色 - choles方程描述了衍生投资工具价格的演变。这种现代应用通常需要在经典方法无效的高维度中求解这些方程。最近,E,Han和Jentzen [1] [2]引入了一种有趣的新方法。主要思想是构建一个深网,该网络是根据科尔莫戈罗夫方程式下离散的随机微分方程样本进行训练的。该网络至少能够在数值上近似,在整个空间域中具有多项式复杂性的Kolmogorov方程的解。在这一贡献中,我们通过使用随机微分方程的不同离散方案来研究深网的变体。我们在基准的示例上比较了相关网络的性能,并表明,对于某些离散方案,可以改善准确性,而不会影响观察到的计算复杂性。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
尽管存在扩散模型的各种变化,但将线性扩散扩散到非线性扩散过程中仅由几项作品研究。非线性效应几乎没有被理解,但是直觉上,将有更多有希望的扩散模式来最佳地训练生成分布向数据分布。本文介绍了基于分数扩散模型的数据自适应和非线性扩散过程。提出的隐式非线性扩散模型(INDM)通过结合归一化流量和扩散过程来学习非线性扩散过程。具体而言,INDM通过通过流网络利用\ textIt {litex {litex {littent Space}的线性扩散来隐式构建\ textIt {data Space}的非线性扩散。由于非线性完全取决于流网络,因此该流网络是形成非线性扩散的关键。这种灵活的非线性是针对DDPM ++的非MLE训练,将INDM的学习曲线提高到了几乎最大的似然估计(MLE)训练,事实证明,这是具有身份流量的INDM的特殊情况。同样,训练非线性扩散可以通过离散的步骤大小产生采样鲁棒性。在实验中,INDM实现了Celeba的最新FID。
translated by 谷歌翻译
在许多学科中,动态系统的数据信息预测模型的开发引起了广泛的兴趣。我们提出了一个统一的框架,用于混合机械和机器学习方法,以从嘈杂和部分观察到的数据中识别动态系统。我们将纯数据驱动的学习与混合模型进行比较,这些学习结合了不完善的域知识。我们的公式与所选的机器学习模型不可知,在连续和离散的时间设置中都呈现,并且与表现出很大的内存和错误的模型误差兼容。首先,我们从学习理论的角度研究无内存线性(W.R.T.参数依赖性)模型误差,从而定义了过多的风险和概括误差。对于沿阵行的连续时间系统,我们证明,多余的风险和泛化误差都通过与T的正方形介于T的术语(指定训练数据的时间间隔)的术语界定。其次,我们研究了通过记忆建模而受益的方案,证明了两类连续时间复发性神经网络(RNN)的通用近似定理:两者都可以学习与内存有关的模型误差。此外,我们将一类RNN连接到储层计算,从而将学习依赖性错误的学习与使用随机特征在Banach空间之间进行监督学习的最新工作联系起来。给出了数值结果(Lorenz '63,Lorenz '96多尺度系统),以比较纯粹的数据驱动和混合方法,发现混合方法较少,渴望数据较少,并且更有效。最后,我们从数值上证明了如何利用数据同化来从嘈杂,部分观察到的数据中学习隐藏的动态,并说明了通过这种方法和培训此类模型来表示记忆的挑战。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
The purpose of this paper is to explore the use of deep learning for the solution of the nonlinear filtering problem. This is achieved by solving the Zakai equation by a deep splitting method, previously developed for approximate solution of (stochastic) partial differential equations. This is combined with an energy-based model for the approximation of functions by a deep neural network. This results in a computationally fast filter that takes observations as input and that does not require re-training when new observations are received. The method is tested on four examples, two linear in one and twenty dimensions and two nonlinear in one dimension. The method shows promising performance when benchmarked against the Kalman filter and the bootstrap particle filter.
translated by 谷歌翻译
We investigate the parameterization of deep neural networks that by design satisfy the continuity equation, a fundamental conservation law. This is enabled by the observation that any solution of the continuity equation can be represented as a divergence-free vector field. We hence propose building divergence-free neural networks through the concept of differential forms, and with the aid of automatic differentiation, realize two practical constructions. As a result, we can parameterize pairs of densities and vector fields that always exactly satisfy the continuity equation, foregoing the need for extra penalty methods or expensive numerical simulation. Furthermore, we prove these models are universal and so can be used to represent any divergence-free vector field. Finally, we experimentally validate our approaches by computing neural network-based solutions to fluid equations, solving for the Hodge decomposition, and learning dynamical optimal transport maps.
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
我们为Nesterov在概率空间中加速的梯度流提供了一个框架,以设计有效的平均田间马尔可夫链蒙特卡洛(MCMC)贝叶斯逆问题算法。在这里,考虑了四个信息指标的示例,包括Fisher-Rao Metric,Wasserstein-2 Metric,Kalman-Wasserstein Metric和Stein Metric。对于Fisher-Rao和Wasserstein-2指标,我们都证明了加速梯度流的收敛性。在实施中,我们建议使用重新启动技术的Wasserstein-2,Kalman-Wasseintein和Stein加速梯度流的抽样效率离散算法。我们还制定了一种内核带宽选择方法,该方法从布朗动物样品中学习了密度对数的梯度。与最先进的算法相比,包括贝叶斯逻辑回归和贝叶斯神经网络在内的数值实验显示了所提出方法的强度。
translated by 谷歌翻译
逐步应用高斯噪声将复杂的数据分布转换为大约高斯。逆转此动态定义了一种生成模型。当前进通知过程由随机微分方程(SDE),Song等人提供。 (2021)证明可以使用分数匹配估计相关反向时间SDE的时间不均匀漂移。这种方法的限制是必须在最终分布到高斯的最终分布必须运行前进时间SDE。相反,解决Schr \“odinger桥问题(SB),即路径空间上的熵正常化的最佳运输问题,产生从有限时间内从数据分布产生样本的扩散。我们存在扩散SB(DSB),原始近似迭代比例拟合(IPF)程序来解决SB问题,并提供理论分析以及生成建模实验。第一个DSB迭代恢复Song等人提出的方法。(2021),使用较短时间的灵活性间隔,随后的DSB迭代减少了前进(RESP。后向)SDE的最终时间边际之间的差异,相对于先前(RESP。数据)分布。除了生成的建模之外,DSB提供了广泛适用的计算最优运输工具流行池算法的连续状态空间模拟(Cuturi,2013)。
translated by 谷歌翻译