本文使用最佳运输理论介绍了贝叶法律的各种表示。差异表示是根据(状态,观察)及其独立耦合之间的最佳运输。通过将某些结构施加在传输图上,用于变异问题的解决方案用于构建一个将先前分布传输到观测信号的任何值的Brenier型图。新的公式用于用于离散时间过滤问题的集合卡尔曼滤波器(ENKF)的最佳传输形式,并使用输入凸神经网络提出了ENKF向非高斯设置的新型扩展。最后,所提出的方法用于在连续时限内得出反馈粒子填充物(FPF)的最佳运输形式,该形式构成了其第一个变化构建,而无需明确使用非线性滤波方程或贝叶斯定律。
translated by 谷歌翻译
我们根据二阶Langevin动力学的集合近似提出了一种采样方法。对数目标密度的附加辅助动量变量中附加了二次项,并引入了阻尼驱动的汉密尔顿动力学。所得的随机微分方程对于Gibbs度量不变,而目标坐标的边际坐标。根据动力学定律,基于协方差的预处理不会改变此不变性属性,并且被引入以加速融合到吉布斯度量。可以通过合奏方法近似产生的平均场动力学。这导致无梯度和仿射不变的随机动力学系统。数值结果证明了其作为贝叶斯反问题中数值采样器的基础的潜力。
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
我们提出了两个连续分布之间的最佳传输方法(OT)问题的方法(x_1-x_0)] $在耦合$(x_0,x_1)$的集合中,其在$ x_0,x_1 $等于$ \ pi_0,\ pi_1 $上的边缘分布,其中$ c $是成本函数。我们的方法迭代地构建了一系列神经普通可区分的方程式(ODE),每个方程式(ODE)通过求解简单的无约束回归问题来学习,该问题可以单调地降低运输成本,同时自动保留边缘约束。这产生了一种单调的内部方法,该方法在有效耦合的集合中穿越以降低运输成本,从而将自身与大多数现有方法区分开来,从而强制执行耦合约束与外部。该方法的主要思想是从整流流程中获取的,最近的一种方法可以同时降低凸函数$ c $引起的整个运输成本(因此本质上是多目标),但并非量身定制以最大程度地减少特定的运输成本。我们的方法是整流流的单对象变体,可以保证为固定的,用户指定的凸成本函数$ c $解决OT问题。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
在高维度中整合时间依赖性的fokker-planck方程的选择方法是通过集成相关的随机微分方程来生成溶液中的样品。在这里,我们介绍了基于整合描述概率流的普通微分方程的替代方案。与随机动力学不同,该方程式在以后的任何时候都会从初始密度将样品从溶液中的样品推到样品。该方法具有直接访问数量的优势,这些数量挑战仅估算仅给定解决方案的样品,例如概率电流,密度本身及其熵。概率流程方程取决于溶液对数的梯度(其“得分”),因此A-Priori未知也是如此。为了解决这种依赖性,我们用一个深神网络对分数进行建模,该网络通过根据瞬时概率电流传播一组粒子来实现,该网络可以在直接学习中学习。我们的方法是基于基于得分的生成建模的最新进展,其重要区别是训练程序是独立的,并且不需要来自目标密度的样本才能事先可用。为了证明该方法的有效性,我们考虑了相互作用粒子系统物理学的几个示例。我们发现该方法可以很好地缩放到高维系统,并准确匹配可用的分析解决方案和通过蒙特卡洛计算的力矩。
translated by 谷歌翻译
粒子过滤是针对多种顺序推断任务的标准蒙特卡洛方法。粒子过滤器的关键成分是一组具有重要性权重的粒子,它们可以作为某些随机过程的真实后验分布的代理。在这项工作中,我们提出了连续的潜在粒子过滤器,该方法将粒子过滤扩展到连续时域。我们证明了如何将连续的潜在粒子过滤器用作依赖于学到的变异后验的推理技术的通用插件替换。我们对基于潜在神经随机微分方程的不同模型家族进行的实验表明,在推理任务中,连续时间粒子滤波在推理任务中的卓越性能,例如似然估计和各种随机过程的顺序预测。
translated by 谷歌翻译
去核扩散模型最近已成为强大的生成模型类别。它们提供最新的结果,不仅用于无条件模拟,而且还提供了解决在各种反问题中产生的条件模拟问题时。这些模型的一个局限性在于它们在生成时间上是计算密集型的,因为它们需要长期模拟扩散过程。进行无条件的模拟时,Schr \“生成建模的Odinger桥式公式会导致理论上接地的算法缩短生成时间,这与其他提出的加速技术互补。我们将Schr \'Edinger桥式桥式扩展到条件模拟。我们在各种应用程序上演示了这种新颖的方法,包括图像超分辨率,状态空间模型的最佳过滤以及预训练的网络的完善。我们的代码可以在https://github.com/vdeborto/cdsb上找到。
translated by 谷歌翻译
The modeling of probability distributions, specifically generative modeling and density estimation, has become an immensely popular subject in recent years by virtue of its outstanding performance on sophisticated data such as images and texts. Nevertheless, a theoretical understanding of its success is still incomplete. One mystery is the paradox between memorization and generalization: In theory, the model is trained to be exactly the same as the empirical distribution of the finite samples, whereas in practice, the trained model can generate new samples or estimate the likelihood of unseen samples. Likewise, the overwhelming diversity of distribution learning models calls for a unified perspective on this subject. This paper provides a mathematical framework such that all the well-known models can be derived based on simple principles. To demonstrate its efficacy, we present a survey of our results on the approximation error, training error and generalization error of these models, which can all be established based on this framework. In particular, the aforementioned paradox is resolved by proving that these models enjoy implicit regularization during training, so that the generalization error at early-stopping avoids the curse of dimensionality. Furthermore, we provide some new results on landscape analysis and the mode collapse phenomenon.
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
Wasserstein-Fisher-Rao(WFR)距离是一个指标家族,用于评估两种ra措施的差异,这同时考虑了运输和重量的变化。球形WFR距离是WFR距离的投影版本,以实现概率措施,因此配备了WFR的ra尺度空间可以在概率测量的空间中,用球形WFR视为公式锥。与Wasserstein距离相比,在球形WFR下对大地测量学的理解尚不清楚,并且仍然是持续的研究重点。在本文中,我们开发了一个深度学习框架,以计算球形WFR指标下的大地测量学,并且可以采用学习的大地测量学来生成加权样品。我们的方法基于球形WFR的Benamou-Brenier型动态配方。为了克服重量变化带来的边界约束的困难,将基于反向映射的kullback-leibler(KL)发散术语引入成本函数。此外,引入了使用粒子速度的新的正则化项,以替代汉密尔顿 - 雅各比方程的动态公式中的潜力。当用于样品生成时,与先前的流量模型相比,与给定加权样品的应用相比,我们的框架可能对具有给定加权样品的应用有益。
translated by 谷歌翻译
我们考虑模拟扩散桥的问题,即被调节以在两个给定的状态下初始化和终止的扩散过程。扩散桥梁仿真在不同的科学领域具有应用,并对离散观察的扩散的统计推断起着至关重要的作用。众所周知,这是一个有挑战性的问题,在过去的二十年里受到了很多关注。在这项工作中,我们首先表明,如果可以在时间反转无条件的扩散过程,则可以模拟时间反转的扩散桥接过程。我们介绍了一个变分制剂,以了解这一依赖于得分匹配方法以规避诡计的逆转性。然后,我们考虑另一次迭代我们提出的方法,以近似Dooob的$ H $ -transform定义扩散桥过程。由于我们的方法通常适用于潜在的扩散过程的温和假设,因此可以轻松地用于改善现有方法和框架内的提案桥接过程。我们讨论算法考虑和扩展,并呈现一些数值结果。
translated by 谷歌翻译
从卫星图像中提取的大气运动向量(AMV)是唯一具有良好全球覆盖范围的风观测。它们是进食数值天气预测(NWP)模型的重要特征。已经提出了几种贝叶斯模型来估计AMV。尽管对于正确同化NWP模型至关重要,但很少有方法可以彻底表征估计误差。估计误差的困难源于后验分布的特异性,这既是很高的维度,又是由于奇异的可能性而导致高度不良的条件,这在缺少数据(未观察到的像素)的情况下特别重要。这项工作研究了使用基于梯度的Markov链Monte Carlo(MCMC)算法评估AMV的预期误差。我们的主要贡献是提出一种回火策略,这相当于在点估计值附近的AMV和图像变量的联合后验分布的局部近似。此外,我们提供了与先前家庭本身有关的协方差(分数布朗运动),并具有不同的超参数。从理论的角度来看,我们表明,在规律性假设下,随着温度降低到{optimal}高斯近似值,在最大a后验(MAP)对数密度给出的点估计下,温度降低到{optimal}高斯近似值。从经验的角度来看,我们根据一些定量的贝叶斯评估标准评估了提出的方法。我们对合成和真实气象数据进行的数值模拟揭示了AMV点估计的准确性及其相关的预期误差估计值的显着提高,但在MCMC算法的收敛速度方面也有很大的加速度。
translated by 谷歌翻译
Multilevel Stein variational gradient descent is a method for particle-based variational inference that leverages hierarchies of approximations of target distributions with varying costs and fidelity to computationally speed up inference. This work provides a cost complexity analysis of multilevel Stein variational gradient descent that applies under milder conditions than previous results, especially in discrete-in-time regimes and beyond the limited settings where Stein variational gradient descent achieves exponentially fast convergence. The analysis shows that the convergence rate of Stein variational gradient descent enters only as a constant factor for the cost complexity of the multilevel version, which means that the costs of the multilevel version scale independently of the convergence rate of Stein variational gradient descent on a single level. Numerical experiments with Bayesian inverse problems of inferring discretized basal sliding coefficient fields of the Arolla glacier ice demonstrate that multilevel Stein variational gradient descent achieves orders of magnitude speedups compared to its single-level version.
translated by 谷歌翻译
我们为Nesterov在概率空间中加速的梯度流提供了一个框架,以设计有效的平均田间马尔可夫链蒙特卡洛(MCMC)贝叶斯逆问题算法。在这里,考虑了四个信息指标的示例,包括Fisher-Rao Metric,Wasserstein-2 Metric,Kalman-Wasserstein Metric和Stein Metric。对于Fisher-Rao和Wasserstein-2指标,我们都证明了加速梯度流的收敛性。在实施中,我们建议使用重新启动技术的Wasserstein-2,Kalman-Wasseintein和Stein加速梯度流的抽样效率离散算法。我们还制定了一种内核带宽选择方法,该方法从布朗动物样品中学习了密度对数的梯度。与最先进的算法相比,包括贝叶斯逻辑回归和贝叶斯神经网络在内的数值实验显示了所提出方法的强度。
translated by 谷歌翻译
基于得分的扩散模型已成为深度生成型号最有前途的框架之一。在这项工作中,我们对基于得分的扩散模型进行了学习条件概率分布的不同方法的系统比较和理论分析。特别是,我们证明了结果为条件分数最成功的估算之一提供了理论典范。此外,我们引入了多速扩散框架,这导致了一个新的估算器,用于条件得分,与先前的最先进的方法相提并论。我们的理论和实验结果伴随着开源库MSDIFF,允许应用和进一步研究多速扩散模型。
translated by 谷歌翻译
我们考虑了最小化客观功能的优化问题,该问题允许变异形式,并根据\ textIt {约束域}上的概率分布定义,这对理论分析和算法设计构成了挑战。受镜下降算法的启发,我们提出了一种迭代和基于粒子的算法,称为镜像变异传输(\ textbf {mirriryvt})。对于每次迭代,\ textbf {mirrirvt}将粒子映射到由镜像映射引起的无约束的双空间,然后大约在通过推动粒子来定义的分布的歧管上大致执行wasserstein梯度下降。在迭代结束时,将粒子映射回原始的约束空间。通过模拟实验,我们证明了\ textbf {mirrirvt}的有效性,可以最大程度地限制函数,而不是单纯形和欧几里得球受到的域上的概率分布。我们还分析了其理论特性,并将其融合到目标功能的全局最小值。
translated by 谷歌翻译
This paper revisits the work of Rauch et al. (1965) and develops a novel method for recursive maximum likelihood particle filtering for general state-space models. The new method is based on statistical analysis of incomplete observations of the systems. Score function and conditional observed information of the incomplete observations/data are introduced and their distributional properties are discussed. Some identities concerning the score function and information matrices of the incomplete data are derived. Maximum likelihood estimation of state-vector is presented in terms of the score function and observed information matrices. In particular, to deal with nonlinear state-space, a sequential Monte Carlo method is developed. It is given recursively by an EM-gradient-particle filtering which extends the work of Lange (1995) for state estimation. To derive covariance matrix of state-estimation errors, an explicit form of observed information matrix is proposed. It extends Louis (1982) general formula for the same matrix to state-vector estimation. Under (Neumann) boundary conditions of state transition probability distribution, the inverse of this matrix coincides with the Cramer-Rao lower bound on the covariance matrix of estimation errors of unbiased state-estimator. In the case of linear models, the method shows that the Kalman filter is a fully efficient state estimator whose covariance matrix of estimation error coincides with the Cramer-Rao lower bound. Some numerical examples are discussed to exemplify the main results.
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
扩散模型已成为深层生成建模的最有希望的框架之一。在这项工作中,我们探讨了不均匀扩散模型的潜力。我们表明,非均匀扩散会导致多尺度扩散模型,这些模型与多尺度归一化流的结构相似。我们从实验上发现,在相同或更少的训练时间中,多尺度扩散模型比标准均匀扩散模型获得更好的FID得分。更重要的是,它生成样品$ 4.4 $ 4.4美元的$ 4.4 $ $ 128 \ times 128 $分辨率。在使用更多量表的较高分辨率中,预计加速度将更高。此外,我们表明,不均匀的扩散导致有条件得分函数的新估计量,该估计函数以最新的条件降解估计量以PAR性能达到了PAR性能。我们的理论和实验性发现伴随着开源库MSDIFF,可以促进对非均匀扩散模型的进一步研究。
translated by 谷歌翻译