我们考虑了从一个示例轨迹中学习$ dx_t = f(x_t)dt+sigma(x_t)dw_t $的形式的随机微分方程的问题。这个问题比学习确定性动力学系统更具挑战性,因为一个示例轨迹仅提供有关未知功能$ f $,$ \ sigma $的间接信息,而随机过程$ dw_t $代表漂移,扩散和随机强迫术语,强迫术语,,分别。我们为此问题提出了一个简单的基于内核的解决方案,可以分解如下:(1)表示时间添加映射$ x_t \ rightarrow x_ {t+dt} $作为计算图,其中$ f $,$ \ \ Sigma $和$ DW_T $作为未知功能和随机变量出现。 (2)通过在未知函数上使用高斯过程(GP)先验的最大后验估计(给定数据)来完成图(近似未知的函数和随机变量)。 (3)从具有随机交叉验证的数据中学习GP先验的协方差函数(内核)。数值实验说明了我们方法的功效,鲁棒性和范围。
translated by 谷歌翻译
Interacting particle or agent systems that display a rich variety of swarming behaviours are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and swarming. In this paper, we study the data-driven discovery of a second-order particle swarming model that describes the evolution of $N$ particles in $\mathbb{R}^d$ under radial interactions. We propose a learning approach that models the latent radial interaction function as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of {the} interaction function with pointwise uncertainty quantification, and the other one is the inference of unknown scalar parameters in the non-collective friction forces of the system. We formulate the learning problem as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. Given data collected from $M$ i.i.d trajectories with independent Gaussian observational noise, we provide a finite-sample analysis, showing that our posterior mean estimator converges in a Reproducing kernel Hilbert space norm, at an optimal rate in $M$ equal to the one in the classical 1-dimensional Kernel Ridge regression. As a byproduct, we show we can obtain a parametric learning rate in $M$ for the posterior marginal variance using $L^{\infty}$ norm, and the rate could also involve $N$ and $L$ (the number of observation time instances for each trajectory), depending on the condition number of the inverse problem. Numerical results on systems that exhibit different swarming behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.
translated by 谷歌翻译
估计给定样品的吉布斯密度函数是计算统计和统计学习中的重要问题。尽管普遍使用了良好的最大似然法,但它需要计算分区函数(即密度的归一化)。可以轻松地针对简单的低维问题计算此功能,但是对于一般密度和高维问题,其计算很困难甚至是棘手的。在本文中,我们提出了一种基于最大a-posteriori(MAP)估计器的替代方法,我们命名了最大恢复地图(MR-MAP),以得出不需要计算分区功能的估计器,并将问题重新制定为优化问题。我们进一步提出了一种最小动作类型的潜力,使我们能够快速解决优化问题作为馈送屈曲神经网络。我们证明了我们的方法对某些标准数据集的有效性。
translated by 谷歌翻译
神经切线核是根据无限宽度神经网络的参数分布定义的内核函数。尽管该极限不切实际,但神经切线内核允许对神经网络进行更直接的研究,并凝视着黑匣子的面纱。最近,从理论上讲,Laplace内核和神经切线内核在$ \ Mathbb {S}}^{D-1} $中共享相同的复制核Hilbert空间,暗示了它们的等价。在这项工作中,我们分析了两个内核的实际等效性。我们首先是通过与核的准确匹配,然后通过与高斯过程的后代匹配来进行匹配。此外,我们分析了$ \ mathbb {r}^d $中的内核,并在回归任务中进行实验。
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
从数据中学习动态系统的简单和可解释的方法是用内核插值其矢量字段。特别是,当内核使用内核流量(KF)〜\ Cite {OWHADI19}(使用基于梯度优化来学习内核时,该策略是高效的(在准确性和复杂性方面)高效(无论是准确性和复杂性)。如果有一半的数据用于插值,则内核是良好的,如果使用一半的准确性没有显着损失)。尽管其先前的成功,但这种策略(基于插值驾驶动态系统的矢量场)时,当观察时间序列不定期采样时,打破了。在这项工作中,我们建议通过在(kf)数据适应的内核中的观察之间的时间差异结合时间差来解决动态系统的矢量字段来解决这个问题。我们将我们的方法与古典的基准动态系统进行了比较,并表明它显着提高了预测精度,同时保持简单,快速,坚固。
translated by 谷歌翻译
度量的运输提供了一种用于建模复杂概率分布的多功能方法,并具有密度估计,贝叶斯推理,生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt(kr)重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而,此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习(例如,通过最大似然估计)出现的优化问题的属性产生了重大影响。我们提出了一个通用框架,用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件,以使相关的无限维度最小化问题没有伪造的局部最小值,即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布,唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品,我们提出了一种自适应算法,该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计,无可能的推断以及有向图形模型的结构学习,并在一系列样本量之间具有稳定的概括性能。
translated by 谷歌翻译
这项工作提出了一个新的程序,可以在高斯过程(GP)建模的背景下获得预测分布,并放松了一些感兴趣的范围之外的插值约束:预测分布的平均值不一定会在观察到的值时插入观察值的值。感兴趣的外部范围,但仅限于留在外面。这种称为放松的高斯工艺(REGP)插值的方法在感兴趣的范围内提供了更好的预测分布,尤其是在GP模型的平稳性假设不合适的情况下。它可以被视为一种面向目标的方法,并且在贝叶斯优化中变得特别有趣,例如,对于目标函数的最小化,低功能值的良好预测分布很重要。当将预期改进标准和REGP用于依次选择评估点时,从理论上保证了所得优化算法的收敛性(前提)。实验表明,在贝叶斯优化中使用REGP代替固定的GP模型是有益的。
translated by 谷歌翻译
我们介绍了一种新颖的几何形状不可逆的扰动,该扰动加速了langevin算法的贝叶斯计算的收敛性。有充分的文献证明,兰格文动力学存在扰动,该动力学在加速其收敛的同时保留其不变度的度量。不可逆的扰动和可逆扰动(例如Riemannian歧管Langevin Dynamics(RMLD))已被单独显示以改善Langevin Samplers的性能。我们同时考虑了这两种扰动,通过呈现一种新型的RMLD不可逆扰动形式,该形式由基础几何形状告知。通过数值示例,我们表明,这种新的不可逆扰动可以改善估计性性能,而不是不可逆的扰动,而这些扰动不会考虑到几何。此外,我们证明,不可逆转的扰动通常可以与Langevin算法的随机梯度版本结合使用。最后,尽管连续的不可逆扰动不能损害兰格文估计器的性能,但考虑离散化时,情况有时会更加复杂。为此,我们描述了一个离散的示例,其中不可逆性增加了所得估计量的偏差和差异。
translated by 谷歌翻译
我们确定有效的随机微分方程(SDE),用于基于精细的粒子或基于试剂的模拟的粗糙观察结果;然后,这些SDE提供了精细规模动力学的有用的粗替代模型。我们通过神经网络近似这些有效的SDE中的漂移和扩散率函数,可以将其视为有效的随机分解。损失函数的灵感来自于已建立的随机数值集成剂的结构(在这里,欧拉 - 玛鲁山和米尔斯坦);因此,我们的近似值可以受益于这些基本数值方案的向后误差分析。当近似粗的模型(例如平均场方程)可用时,它们还自然而然地适合“物理信息”的灰色盒识别。 Langevin型方程和随机部分微分方程(SPDE)的现有数值集成方案也可以用于训练;我们在随机强迫振荡器和随机波方程式上证明了这一点。我们的方法不需要长时间的轨迹,可以在散落的快照数据上工作,并且旨在自然处理每个快照的不同时间步骤。我们考虑了预先知道粗糙的集体观察物以及必须以数据驱动方式找到它们的情况。
translated by 谷歌翻译
高斯流程已成为各种安全至关重要环境的有前途的工具,因为后方差可用于直接估计模型误差并量化风险。但是,针对安全 - 关键环境的最新技术取决于核超参数是已知的,这通常不适用。为了减轻这种情况,我们在具有未知的超参数的设置中引入了强大的高斯过程统一误差界。我们的方法计算超参数空间中的一个置信区域,这使我们能够获得具有任意超参数的高斯过程模型误差的概率上限。我们不需要对超参数的任何界限,这是相关工作中常见的假设。相反,我们能够以直观的方式从数据中得出界限。我们还采用了建议的技术来为一类基于学习的控制问题提供绩效保证。实验表明,界限的性能明显优于香草和完全贝叶斯高斯工艺。
translated by 谷歌翻译
从嘈杂和稀疏数据中学习普通微分方程(ODES)的非参数系统$ \ dot x = f(t,x)$是一个新兴的机器学习主题。我们使用良好的复制内核希尔伯特空间(RKHS)的理论来定义$ f $的候选者,该候选者的解决方案存在且独特。Learning $ f $包括解决RKHS中的约束优化问题。我们提出了一种惩罚方法,该方法迭代使用代表定理和Euler近似来提供数值解决方案。我们证明了$ l^2 $距离$ x $及其估算器之间的概括。为Fitzhugh Nagumo振荡器提供了实验,并预测了衰老受试者皮质中的淀粉样蛋白水平。在这两种情况下,与最新技术相比,我们都表现出竞争成果。
translated by 谷歌翻译
我们引入了一种新颖的方式,将增强功能与高斯工艺和混合效应模型相结合。首先,在高斯过程中先前的平均函数的零或线性假设可以放松,并以灵活的非参数方式分组随机效应模型,其次,第二个在大多数增强算法中做出的独立性假设。前者有利于预测准确性和避免模型错误。后者对于有效学习固定效应预测函数和获得概率预测很重要。我们提出的算法也是用于处理培养树木中高心电图分类变量的新颖解决方案。此外,我们提出了一个扩展名,该扩展是使用维奇亚近似为高斯工艺模型缩放到大数据的,该模型依靠新的结果进行协方差参数推断。与几个模拟和现实世界数据集的现有方法相比,我们获得了提高的预测准确性。
translated by 谷歌翻译
Temporal data like time series are often observed at irregular intervals which is a challenging setting for existing machine learning methods. To tackle this problem, we view such data as samples from some underlying continuous function. We then define a diffusion-based generative model that adds noise from a predefined stochastic process while preserving the continuity of the resulting underlying function. A neural network is trained to reverse this process which allows us to sample new realizations from the learned distribution. We define suitable stochastic processes as noise sources and introduce novel denoising and score-matching models on processes. Further, we show how to apply this approach to the multivariate probabilistic forecasting and imputation tasks. Through our extensive experiments, we demonstrate that our method outperforms previous models on synthetic and real-world datasets.
translated by 谷歌翻译
本文介绍了在高斯过程回归/克里格替代建模技术中选择/设计内核的算法。我们在临时功能空间中采用内核方法解决方案的设置,即繁殖内核希尔伯特空间(RKHS),以解决在观察到它的观察值的情况下近似定期目标函数的问题,即监督学习。第一类算法是内核流,该算法是在机器学习中的分类中引入的。它可以看作是一个交叉验证过程,因此选择了“最佳”内核,从而最小化了通过删除数据集的某些部分(通常为一半)而产生的准确性损失。第二类算法称为光谱内核脊回归,旨在选择“最佳”核,以便在相关的RKHS中,要近似的函数的范围很小。在Mercer定理框架内,我们就目标函数的主要特征来获得该“最佳”内核的明确结构。从数据中学习内核的两种方法均通过有关合成测试功能的数值示例,以及在湍流建模验证二维机翼的湍流模型验证中的经典测试用例。
translated by 谷歌翻译
最近,通过深度学习框架提取动态系统的数据驱动法则在各个领域都引起了很多关注。此外,越来越多的研究工作倾向于将确定性动力学系统转移到随机动力学系统上,尤其是由非高斯乘法噪声驱动的系统。但是,对于高斯病例,许多基于原木样式的算法不能直接扩展到非高斯场景,这些场景可能存在很高的错误和低收敛问题。在这项工作中,我们克服了其中的一些挑战,并确定由$ \ alpha $稳定的l \'evy噪声驱动的随机动力系统,仅来自随机的成对数据。我们的创新包括:(1)设计一种深度学习方法,以学习l \'evy诱发的噪声的漂移和扩散系数,并在所有值中使用$ \ alpha $,(2)学习复杂的乘法噪声,而无需限制小噪声强度,(( 3)在一般输入数据假设下,即随机系统识别的端到端完整框架,即$ \ alpha $稳定的随机变量。最后,数值实验和与非本地KRAMERS-MOYAL公式与力矩生成功能的比较证实了我们方法的有效性。
translated by 谷歌翻译
我们研究了回归中神经网络(NNS)的模型不确定性的方法。为了隔离模型不确定性的效果,我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是,我们发现,建立的基准通常无法可靠地捕获其中一些逃避者,即使是贝叶斯理论要求的基准。为了解决这个问题,我们介绍了一种新方法来捕获NNS的模型不确定性,我们称之为基于神经优化的模型不确定性(NOMU)。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构,一个用于模型预测,一个用于模型不确定性,并使用精心设计的损耗函数进行训练。重要的是,我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构,NOMU可以为任何给定(先前训练)NN提供模型不确定性,如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化(BO)中评估NOMU,并具有昂贵的评估。在回归中,NOMU至少和最先进的方法。在BO中,Nomu甚至胜过所有考虑的基准。
translated by 谷歌翻译
我们制定自然梯度变推理(VI),期望传播(EP),和后线性化(PL)作为牛顿法用于优化贝叶斯后验分布的参数扩展。这种观点明确地把数值优化框架下的推理算法。我们表明,通用近似牛顿法从优化文献,即高斯 - 牛顿和准牛顿方法(例如,该BFGS算法),仍然是这种“贝叶斯牛顿”框架下有效。这导致了一套这些都保证以产生半正定协方差矩阵,不像标准VI和EP新颖算法。我们统一的观点提供了新的见解各种推理方案之间的连接。所有提出的方法适用于具有高斯事先和非共轭的可能性,这是我们与(疏)高斯过程和状态空间模型展示任何模型。
translated by 谷歌翻译
标准GPS为行为良好的流程提供了灵活的建模工具。然而,预计与高斯的偏差有望在现实世界数据集中出现,结构异常值和冲击通常会观察到。在这些情况下,GP可能无法充分建模不确定性,并且可能会过度推动。在这里,我们将GP框架扩展到一类新的时间变化的GP,从而可以直接建模重尾非高斯行为,同时通过非均匀GPS表示的无限混合物保留了可拖动的条件GP结构。有条件的GP结构是通过在潜在转化的输入空间上调节观测值来获得的,并使用L \'{e} Vy过程对潜在转化的随机演变进行建模,该过程允许贝叶斯在后端预测密度和潜在转化中的贝叶斯推断功能。我们为该模型提供了马尔可夫链蒙特卡洛推理程序,并证明了与标准GP相比的潜在好处。
translated by 谷歌翻译
贝叶斯推理允许在贝叶斯神经网络的上下文中获取有关模型参数的有用信息,或者在贝叶斯神经网络的背景下。通常的Monte Carlo方法的计算成本,用于在贝叶斯推理中对贝叶斯推理的后验法律进行线性点的数量与数据点的数量进行线性。将其降低到这一成本的一小部分的一种选择是使用Langevin动态的未经调整的离散化来诉诸Mini-Batching,在这种情况下,只使用数据的随机分数来估计梯度。然而,这导致动态中的额外噪声,因此在马尔可夫链采样的不变度量上的偏差。我们倡导使用所谓的自适应Langevin动态,这是一种改进标准惯性Langevin动态,其动态摩擦力,可自动校正迷你批次引起的增加的噪声。我们调查假设适应性Langevin的假设(恒定协方差估计梯度的恒定协方差),这在贝叶斯推理的典型模型中不满足,并在这种情况下量化小型匹配诱导的偏差。我们还展示了如何扩展ADL,以便通过考虑根据参数的当前值来系统地减少后部分布的偏置。
translated by 谷歌翻译