我们考虑扩散过程的过滤和预测问题。信号和观察是由由相关的维纳过程驱动的随机微分方程(SDE)建模的。在经典估计理论中,用于滤波和预测度量的测量值随机偏微分方程(SPDE)。这些方程可能很难在数值上求解。我们使用条件生成对抗网络(GAN)与签名(来自粗糙路径理论的对象)相结合提供了近似算法。足够平滑路径的签名完全决定了路径。结果,在某些情况下,基于签名的gan被证明可以有效地近似随机过程的定律。对于我们的算法,我们将此方法扩展到从条件定律中进行样本,鉴于嘈杂的部分观察结果。我们的发电机是使用神经微分方程(NDE)构建的,依赖于其通用近似属性。我们在提供严格的数学框架方面表现出良好的性能。数值结果显示了我们算法的效率。
translated by 谷歌翻译
显示了最佳的收敛速率,显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果,该SPDE的定量中心极限定理再次得出,并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的,浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明,在限制SPDE中包含波动可以提高收敛速度,并保留有关随机梯度下降的波动的信息。
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
合成数据是一种新兴技术,可以显着加快AI机器学习管道的开发和部署。在这项工作中,我们通过将连续时间随机模型与新提出的签名$ W_1 $公制组合,开发高保真时间序列发生器,SIGWGAN。前者是基于随机微分方程的Logsig-RNN模型,而后者源自通用和原则性的数学特征,以表征时间序列引起的度量。Sigwgan允许在产生高保真样本的同时在监督学习中转向计算上的GaN Min-Max问题。我们验证了由流行的量化风险模型和经验财务数据产生的合成数据的提出模型。代码在https://github.com/sigcgans/sig-wassersein-gans.git上获得。
translated by 谷歌翻译
本文研究了使用神经跳跃(NJ-ODE)框架扩展的一般随机过程的问题。虽然NJ-ODE是为预测不规则观察到的时间序列而建立收敛保证的第一个框架,但这些结果仅限于从中\^o-diffusions的数据,特别是Markov过程,特别是在其中同时观察到所有坐标。。在这项工作中,我们通过利用签名变换的重建属性,将这些结果推广到具有不完整观察结果的通用,可能是非马克维亚或不连续的随机过程。这些理论结果得到了经验研究的支持,在该研究中,在非马克维亚数据的情况下,依赖路径依赖性的NJ-ode优于原始的NJ-ode框架。
translated by 谷歌翻译
连续的时间加强学习提供了一种吸引人的形式主义,用于描述控制问题,其中时间的流逝并不自然地分为离散的增量。在这里,我们考虑了预测在连续时间随机环境中相互作用的代理商获得的回报分布的问题。准确的回报预测已被证明可用于确定对风险敏感的控制,学习状态表示,多基因协调等的最佳策略。我们首先要建立汉密尔顿 - 雅各布人(HJB)方程的分布模拟,以扩散和更广泛的feller-dynkin过程。然后,我们将此方程式专注于返回分布近似于$ n $均匀加权粒子的设置,这是分销算法中常见的设计选择。我们的派生突出显示了由于统计扩散率而引起的其他术语,这是由于在连续时间设置中正确处理分布而产生的。基于此,我们提出了一种可访问算法,用于基于JKO方案近似求解分布HJB,该方案可以在在线控制算法中实现。我们证明了这种算法在合成控制问题中的有效性。
translated by 谷歌翻译
矢量值随机变量的矩序列可以表征其定律。我们通过使用所谓的稳健签名矩来研究路径值随机变量(即随机过程)的类似问题。这使我们能够为随机过程定律得出最大平均差异类型的度量,并研究其在随机过程定律方面引起的拓扑。可以使用签名内核对该度量进行内核,从而有效地计算它。作为应用程序,我们为随机过程定律提供了非参数的两样本假设检验。
translated by 谷歌翻译
Several problems in stochastic analysis are defined through their geometry, and preserving that geometric structure is essential to generating meaningful predictions. Nevertheless, how to design principled deep learning (DL) models capable of encoding these geometric structures remains largely unknown. We address this open problem by introducing a universal causal geometric DL framework in which the user specifies a suitable pair of geometries $\mathscr{X}$ and $\mathscr{Y}$ and our framework returns a DL model capable of causally approximating any ``regular'' map sending time series in $\mathscr{X}^{\mathbb{Z}}$ to time series in $\mathscr{Y}^{\mathbb{Z}}$ while respecting their forward flow of information throughout time. Suitable geometries on $\mathscr{Y}$ include various (adapted) Wasserstein spaces arising in optimal stopping problems, a variety of statistical manifolds describing the conditional distribution of continuous-time finite state Markov chains, and all Fr\'echet spaces admitting a Schauder basis, e.g. as in classical finance. Suitable, $\mathscr{X}$ are any compact subset of any Euclidean space. Our results all quantitatively express the number of parameters needed for our DL model to achieve a given approximation error as a function of the target map's regularity and the geometric structure both of $\mathscr{X}$ and of $\mathscr{Y}$. Even when omitting any temporal structure, our universal approximation theorems are the first guarantees that H\"older functions, defined between such $\mathscr{X}$ and $\mathscr{Y}$ can be approximated by DL models.
translated by 谷歌翻译
增强学习算法通常需要马尔可夫决策过程(MDP)中的状态和行动空间的有限度,并且在文献中已经对连续状态和动作空间的这种算法的适用性进行了各种努力。在本文中,我们表明,在非常温和的规律条件下(特别是仅涉及MDP的转换内核的弱连续性),通过量化状态和动作会聚到限制,Q-Learning用于标准BOREL MDP,而且此外限制满足最优性方程,其导致与明确的性能界限接近最优性,或者保证渐近最佳。我们的方法在(i)上建立了(i)将量化视为测量内核,因此将量化的MDP作为POMDP,(ii)利用Q-Learning的Q-Learning的近的最优性和收敛结果,并最终是有限状态的近最优态模型近似用于MDP的弱连续内核,我们展示对应于构造POMDP的固定点。因此,我们的论文提出了一种非常一般的收敛性和近似值,了解Q-Learning用于连续MDP的适用性。
translated by 谷歌翻译
在本文中,我们专注于使用神经网络的时间序列数据的生成。通常情况下,输入时间序列数据仅实现了一个(通常是不规则采样)路径,这使得很难提取时间序列特征,并且其噪声结构比I.I.D更为复杂。类型。时间序列数据,尤其是来自水文,电信,经济学和金融的数据,也表现出长期记忆,也称为长期依赖性(LRD)。本文的主要目的是在神经网络的帮助下人为地生成时间序列,并考虑到路径的LRD。我们提出了FSDE-NET:神经分数随机微分方程网络。它通过使用大于一半的HURST索引的分数Brownian运动来概括神经随机微分方程模型,该方程式大于一半。我们得出FSDE-NET的求解器,并理论上分析了FSDE-NET溶液的存在和唯一性。我们对人工和实时序列数据进行的实验表明,FSDE-NET模型可以很好地复制分布属性。
translated by 谷歌翻译
We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.
translated by 谷歌翻译
标准化流动,扩散归一化流量和变形自动置换器是强大的生成模型。在本文中,我们提供了一个统一的框架来通过马尔可夫链处理这些方法。实际上,我们考虑随机标准化流量作为一对马尔可夫链,满足一些属性,并表明许多用于数据生成的最先进模型适合该框架。马尔可夫链的观点使我们能够将确定性层作为可逆的神经网络和随机层作为大都会加速层,Langevin层和变形自身偏移,以数学上的声音方式。除了具有Langevin层的密度的层,扩散层或变形自身形式,也可以处理与确定性层或大都会加热器层没有密度的层。因此,我们的框架建立了一个有用的数学工具来结合各种方法。
translated by 谷歌翻译
其中的许多神经网络能够复制复杂的任务或功能的原因之一是其普遍性财产。在过去的几十年里已经在提供单一或类神经网络的构造性证明见过很多尝试。本文是为了提供一大类,包括激活现有的大多数激活和超越的普遍性统一的和建设性的框架。在框架的心脏是神经网络近似标识的概念。事实证明,大多数现有的激活是神经网络近似的标志,因此在连续的函数对致密的空间普遍。该框架诱导几个优点。首先,它是建设性与功能分析,概率论,和数值分析的基本手段。其次,它是第一个统一的尝试,其有效期为大多数现有的激活。第三,作为一个以产品,该框架提供了一些现有的激活功能,包括米什司炉ELU,格鲁,等四的第一所大学证明,它发现带有普遍性的保证财产新的激活。事实上,任何活化\ textemdash其$ \ķ$阶导数,以$ \ķ$为整数,是积并且基本上界定\ textemdash是普遍的。第五,对于给定的激活和容错,框架精确地提供了具有预定数量的神经元,和重量/偏差的值中对应的一个隐藏神经网络的体系结构。
translated by 谷歌翻译
对于人造深神经网络,我们证明了分析函数的表达率$ f:\ mathbb {r} ^ d \ to \ mathbb {r} $中的$ l ^ 2(\ mathbb {r} ^ d,\ gamma_d )$ down $ d \ in {\ mathbb {n}} \ cup \ {\ idty \} $。 $ \ gamma_d $ denot $ \ mathbb {r} ^ d $的高斯产品概率测量。我们特别考虑relu和relu $ {} ^ $ y ^ $ yrucations for Integer $ k \ geq 2 $。对于$ d \ in \ mathbb {n} $,我们显示了$ l ^ 2(\ mathbb {r} ^ d,\ gamma_d)$的指数融合率。在$ d = \ infty $,在$ f:\ mathbb {r} ^ {\ mathbb {r}} \ to \ mathbb {r} $的适当平滑和稀疏假设下,用$ \ gamma_ \ idty $表示$ \ mathbb {r} ^ {\ mathbb {n}} $的无限(高斯)产品测量值,我们证明了$ l ^ 2(\ mathbb {r} ^ {\ mathbb { n}},\ gamma_ \ idty)$。该速率仅取决于(分析延续)的量化全阵列(分析延续)地图$ f $到$ \ mathbb {c} ^ d $中的条带产品。作为应用程序,我们将深度Relu-NNS的表达率界限进行了椭圆PDE的响应曲面与Log-Gaussian随机场输入。
translated by 谷歌翻译
滤波方程控制给定部分,并且可能嘈杂,依次到达的信号过程的条件分布的演变。它们的数值近似在许多真实应用中起着核心作用,包括数字天气预报,金融和工程。近似滤波方程解决方案的一种经典方法是使用由Gyongy,Krylov,Legland,Legland,Legland的PDE启发方法,称为分裂方法,其中包括其他贡献者。该方法和其他基于PDE的方法,具有特别适用性来解决低维问题。在这项工作中,我们将这种方法与神经网络表示相结合。新方法用于产生信号过程的无通知条件分布的近似值。我们进一步开发递归归一化程序,以恢复信号过程的归一化条件分布。新方案可以在多个时间步骤中迭代,同时保持其渐近无偏见属性完整。我们用Kalman和Benes滤波器的数值近似结果测试神经网络近似。
translated by 谷歌翻译
众所周知,进食前馈神经网络的学习速度很慢,并且在深度学习应用中呈现了几十年的瓶颈。例如,广泛用于训练神经网络的基于梯度的学习算法在所有网络参数都必须迭代调整时往往会缓慢起作用。为了解决这个问题,研究人员和从业人员都尝试引入随机性来减少学习要求。基于Igelnik和Pao的原始结构,具有随机输入层的重量和偏见的单层神经网络在实践中取得了成功,但是缺乏必要的理论理由。在本文中,我们开始填补这一理论差距。我们提供了一个(校正的)严格证明,即Igelnik和PAO结构是连续函数在紧凑型域上连续函数的通用近似值,并且近似错误渐近地衰减,例如$ o(1/\ sqrt {n})网络节点。然后,我们将此结果扩展到非反应设置,证明人们可以在$ n $的情况下实现任何理想的近似误差,而概率很大。我们进一步调整了这种随机神经网络结构,以近似欧几里得空间的平滑,紧凑的亚曼叶量的功能,从而在渐近和非催化形式的理论保证中提供了理论保证。最后,我们通过数值实验说明了我们在歧管上的结果。
translated by 谷歌翻译
There has been a great deal of recent interest in learning and approximation of functions that can be expressed as expectations of a given nonlinearity with respect to its random internal parameters. Examples of such representations include "infinitely wide" neural nets, where the underlying nonlinearity is given by the activation function of an individual neuron. In this paper, we bring this perspective to function representation by neural stochastic differential equations (SDEs). A neural SDE is an It\^o diffusion process whose drift and diffusion matrix are elements of some parametric families. We show that the ability of a neural SDE to realize nonlinear functions of its initial condition can be related to the problem of optimally steering a certain deterministic dynamical system between two given points in finite time. This auxiliary system is obtained by formally replacing the Brownian motion in the SDE by a deterministic control input. We derive upper and lower bounds on the minimum control effort needed to accomplish this steering; these bounds may be of independent interest in the context of motion planning and deterministic optimal control.
translated by 谷歌翻译
连续数据的优化问题出现在,例如强大的机器学习,功能数据分析和变分推理。这里,目标函数被给出为一个(连续)索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决:在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中,我们研究了随机梯度下降算法的连续时间变量,以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如,反射扩散,纯跳跃过程或紧凑空间上的其他L evy过程。因此,我们研究了用于连续数据空间的多种采样模式,并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质,并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。
translated by 谷歌翻译
我们提出了一种深层签名/对数符号FBSDE算法,以求解具有状态和路径依赖性特征的前回向随机微分方程(FBSDE)。通过将深度签名/对数签名转换纳入复发性神经网络(RNN)模型,我们的算法缩短了训练时间,提高了准确性,并扩展了与现有文献中方法相比的时间范围。此外,我们的算法可以应用于涉及高频数据,模型歧义和随机游戏等广泛的应用程序和路径依赖的选项定价,这些定价与抛物线偏差方程(PDES)以及路径依赖性依赖性链接有关PDE(PPDE)。最后,我们还得出了深度签名/对数签名FBSDE算法的收敛分析。
translated by 谷歌翻译
我们引入了一个深度学习模型,该模型通常可以近似于常规条件分布(RCD)。所提出的模型分为三个阶段:首先从给定的度量空间$ \ mathcal {x} $到$ \ mathbb {r}^d $通过功能映射进行线性化输入,然后这些线性化的功能由深层馈电的神经网络处理,然后通过Bahdanau等人引入的注意机制的概率扩展,将网络的输出转换为$ 1 $ -WASSERSTEIN SPACE $ \ MATHCAL {P} _1(\ Mathbb {r}^d)$。 (2014)。我们发现,使用我们的框架构建的模型可以从$ \ mathbb {r}^d $到$ \ mathcal {p} _1(\ mathbb {r}^d)$均匀地在紧凑的集合上近似任何连续功能。当近似$ \ mathcal {p} _1(\ mathbb {r}^d)$ - 有价值的函数时,我们确定了两种避免维数的诅咒的方法。第一个策略描述了$ c(\ mathbb {r}^d,\ mathcal {p} _1(\ mathbb {r}^d))$中的函数,可以在$ \ mathbb {r}的任何紧凑子集上有效地近似地近似^D $。第二种方法描述了$ \ mathbb {r}^d $的紧凑子集,其中最多的$ c(\ mathbb {r}^d,\ mathcal {p} _1 _1(\ mathbb {r}^d))$可以有效地近似。结果经过实验验证。
translated by 谷歌翻译