本文研究了使用神经跳跃(NJ-ODE)框架扩展的一般随机过程的问题。虽然NJ-ODE是为预测不规则观察到的时间序列而建立收敛保证的第一个框架,但这些结果仅限于从中\^o-diffusions的数据,特别是Markov过程,特别是在其中同时观察到所有坐标。。在这项工作中,我们通过利用签名变换的重建属性,将这些结果推广到具有不完整观察结果的通用,可能是非马克维亚或不连续的随机过程。这些理论结果得到了经验研究的支持,在该研究中,在非马克维亚数据的情况下,依赖路径依赖性的NJ-ode优于原始的NJ-ode框架。
translated by 谷歌翻译
在本文中,我们提出了一种基于深度学习的数值方案,用于强烈耦合FBSDE,这是由随机控制引起的。这是对深度BSDE方法的修改,其中向后方程的初始值不是一个免费参数,并且新的损失函数是控制问题的成本的加权总和,而差异项与与该的差异相吻合终端条件下的平均误差。我们通过一个数值示例表明,经典深度BSDE方法的直接扩展为FBSDE,失败了简单的线性季度控制问题,并激励新方法为何工作。在定期和有限性的假设上,对时间连续和时间离散控制问题的确切控制,我们为我们的方法提供了错误分析。我们从经验上表明,该方法收敛于三个不同的问题,一个方法是直接扩展Deep BSDE方法的问题。
translated by 谷歌翻译
在本文中,我们将Wiener-Ito混乱分解扩展到扩散过程的类别,其漂移和扩散系数具有线性生长。通过省略混乱扩展中的正交性,我们能够证明,对于[1,\ infty)$中的$ p \ in [1,\ infty)$的每个$ p $积分功能都可以表示为基础过程的迭代积分的总和。使用此扩展的截断和(可能是随机的)神经网络的截断总和,在机器学习设置中学习了参数,我们证明,每个财务衍生物都可以在$ l^p $ sense中任意地近似。此外,可以以封闭形式计算近似财务导数的对冲策略。
translated by 谷歌翻译
The logit outputs of a feedforward neural network at initialization are conditionally Gaussian, given a random covariance matrix defined by the penultimate layer. In this work, we study the distribution of this random matrix. Recent work has shown that shaping the activation function as network depth grows large is necessary for this covariance matrix to be non-degenerate. However, the current infinite-width-style understanding of this shaping method is unsatisfactory for large depth: infinite-width analyses ignore the microscopic fluctuations from layer to layer, but these fluctuations accumulate over many layers. To overcome this shortcoming, we study the random covariance matrix in the shaped infinite-depth-and-width limit. We identify the precise scaling of the activation function necessary to arrive at a non-trivial limit, and show that the random covariance matrix is governed by a stochastic differential equation (SDE) that we call the Neural Covariance SDE. Using simulations, we show that the SDE closely matches the distribution of the random covariance matrix of finite networks. Additionally, we recover an if-and-only-if condition for exploding and vanishing norms of large shaped networks based on the activation function.
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
Several problems in stochastic analysis are defined through their geometry, and preserving that geometric structure is essential to generating meaningful predictions. Nevertheless, how to design principled deep learning (DL) models capable of encoding these geometric structures remains largely unknown. We address this open problem by introducing a universal causal geometric DL framework in which the user specifies a suitable pair of geometries $\mathscr{X}$ and $\mathscr{Y}$ and our framework returns a DL model capable of causally approximating any ``regular'' map sending time series in $\mathscr{X}^{\mathbb{Z}}$ to time series in $\mathscr{Y}^{\mathbb{Z}}$ while respecting their forward flow of information throughout time. Suitable geometries on $\mathscr{Y}$ include various (adapted) Wasserstein spaces arising in optimal stopping problems, a variety of statistical manifolds describing the conditional distribution of continuous-time finite state Markov chains, and all Fr\'echet spaces admitting a Schauder basis, e.g. as in classical finance. Suitable, $\mathscr{X}$ are any compact subset of any Euclidean space. Our results all quantitatively express the number of parameters needed for our DL model to achieve a given approximation error as a function of the target map's regularity and the geometric structure both of $\mathscr{X}$ and of $\mathscr{Y}$. Even when omitting any temporal structure, our universal approximation theorems are the first guarantees that H\"older functions, defined between such $\mathscr{X}$ and $\mathscr{Y}$ can be approximated by DL models.
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译
深度重新结合因实现最新的机器学习任务而被认可。但是,这些体系结构的出色性能取决于培训程序,需要精心制作以避免消失或爆炸梯度,尤其是随着深度$ l $的增加。关于如何减轻此问题,尚无共识,尽管广泛讨论的策略在于将每一层的输出缩放为$ \ alpha_l $。我们在概率环境中显示标准I.I.D.初始化,唯一的非平凡动力学是$ \ alpha_l = 1/\ sqrt {l} $(其他选择导致爆炸或身份映射)。该缩放因子在连续的时间限制中对应于神经随机微分方程,这与广泛的解释相反,即深度重新连接是神经普通微分方程的离散化。相比之下,在后一种制度中,具有特定相关初始化和$ \ alpha_l = 1/l $获得稳定性。我们的分析表明,与层指数的函数之间的缩放比例和规律性之间存在很强的相互作用。最后,在一系列实验中,我们表现出由这两个参数驱动的连续范围,这在训练之前和之后会共同影响性能。
translated by 谷歌翻译
矢量值随机变量的矩序列可以表征其定律。我们通过使用所谓的稳健签名矩来研究路径值随机变量(即随机过程)的类似问题。这使我们能够为随机过程定律得出最大平均差异类型的度量,并研究其在随机过程定律方面引起的拓扑。可以使用签名内核对该度量进行内核,从而有效地计算它。作为应用程序,我们为随机过程定律提供了非参数的两样本假设检验。
translated by 谷歌翻译
在本文中,我们专注于使用神经网络的时间序列数据的生成。通常情况下,输入时间序列数据仅实现了一个(通常是不规则采样)路径,这使得很难提取时间序列特征,并且其噪声结构比I.I.D更为复杂。类型。时间序列数据,尤其是来自水文,电信,经济学和金融的数据,也表现出长期记忆,也称为长期依赖性(LRD)。本文的主要目的是在神经网络的帮助下人为地生成时间序列,并考虑到路径的LRD。我们提出了FSDE-NET:神经分数随机微分方程网络。它通过使用大于一半的HURST索引的分数Brownian运动来概括神经随机微分方程模型,该方程式大于一半。我们得出FSDE-NET的求解器,并理论上分析了FSDE-NET溶液的存在和唯一性。我们对人工和实时序列数据进行的实验表明,FSDE-NET模型可以很好地复制分布属性。
translated by 谷歌翻译
我们提出了对使用Rademacher和Vapnik-Chervonenkis边界学习有条件的价值(VAR)和预期短缺的两步方法的非反应收敛分析。我们的VAR方法扩展到了一次学习的问题,该问题对应于不同的分数水平。这导致基于神经网络分位数和最小二乘回归的有效学习方案。引入了一个后验蒙特卡洛(非巢)程序,以估计地面真相和ES的距离,而无需访问后者。使用高斯玩具模型中的数值实验和财务案例研究中的目标是学习动态初始边缘的情况。
translated by 谷歌翻译
找到Reset中的参数的最佳配置是一个非凸显最小化问题,但一阶方法尽管如此,找到了过度分辨率制度的全局最优。通过将Reset的训练过程转化为梯度流部分微分方程(PDE)和检查该限制过程的收敛性能,我们研究了这种现象。假设激活函数为2美元 - 最佳或部分$ 1 $-homerence;正则Relu满足后一种条件。我们表明,如果Reset足够大,则深度和宽度根据代数上的准确性和置信水平,一阶优化方法可以找到适合培训数据的全局最小化器。
translated by 谷歌翻译
我们为研究通过将噪声注入隐藏状态而训练的经常性神经网络(RNN)提供了一般框架。具体地,我们考虑RNN,其可以被视为由输入数据驱动的随机微分方程的离散化。该框架允许我们通过在小噪声制度中导出近似显式规范器来研究一般噪声注入方案的隐式正则化效果。我们发现,在合理的假设下,这种隐含的正规化促进了更平坦的最小值;它偏向具有更稳定动态的模型;并且,在分类任务中,它有利于具有较大分类余量的模型。获得了全局稳定性的充分条件,突出了随机稳定的现象,其中噪音注入可以在训练期间提高稳定性。我们的理论得到了经验结果支持,证明RNN对各种输入扰动具有改善的鲁棒性。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
随机梯度算法在大规模学习和推理问题中广泛用于优化和采样。但是,实际上,调整这些算法通常是使用启发式和反复试验而不是严格的,可概括的理论来完成的。为了解决理论和实践之间的这一差距,我们通过表征具有固定步长的非常通用的预处理随机梯度算法的迭代术的大样本行为来对调整参数的效果进行新的见解。在优化设置中,我们的结果表明,具有较大固定步长的迭代平均值可能会导致(局部)M-静态器的统计效率近似。在抽样环境中,我们的结果表明,通过适当的调整参数选择,限制固定协方差可以与Bernstein匹配 - 后验的von Mises限制,对模型错误指定后验的调整或MLE的渐近分布;而幼稚的调整极限与这些都不相对应。此外,我们认为可以在数据集对固定数量的通行证后获得基本独立的样本。我们使用模拟和真实数据通过多个实验来验证渐近样结果。总体而言,我们证明具有恒定步长的正确调整的随机梯度算法为获得点估计或后部样品提供了计算上有效且统计上健壮的方法。
translated by 谷歌翻译
协方差估计在功能数据分析中普遍存在。然而,对多维域的功能观测的情况引入了计算和统计挑战,使标准方法有效地不适用。为了解决这个问题,我们将“协方差网络”(CoVNet)介绍为建模和估算工具。 Covnet模型是“Universal” - 它可用于近似于达到所需精度的任何协方差。此外,该模型可以有效地拟合到数据,其神经网络架构允许我们在实现中采用现代计算工具。 Covnet模型还承认了一个封闭形式的实体分解,可以有效地计算,而不构建协方差本身。这有助于在CoVnet的背景下轻松存储和随后操纵协方差。我们建立了拟议估计者的一致性,得出了汇合速度。通过广泛的仿真研究和休息状态FMRI数据的应用,证明了所提出的方法的有用性。
translated by 谷歌翻译
连续数据的优化问题出现在,例如强大的机器学习,功能数据分析和变分推理。这里,目标函数被给出为一个(连续)索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决:在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中,我们研究了随机梯度下降算法的连续时间变量,以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如,反射扩散,纯跳跃过程或紧凑空间上的其他L evy过程。因此,我们研究了用于连续数据空间的多种采样模式,并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质,并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。
translated by 谷歌翻译
在许多学科中,动态系统的数据信息预测模型的开发引起了广泛的兴趣。我们提出了一个统一的框架,用于混合机械和机器学习方法,以从嘈杂和部分观察到的数据中识别动态系统。我们将纯数据驱动的学习与混合模型进行比较,这些学习结合了不完善的域知识。我们的公式与所选的机器学习模型不可知,在连续和离散的时间设置中都呈现,并且与表现出很大的内存和错误的模型误差兼容。首先,我们从学习理论的角度研究无内存线性(W.R.T.参数依赖性)模型误差,从而定义了过多的风险和概括误差。对于沿阵行的连续时间系统,我们证明,多余的风险和泛化误差都通过与T的正方形介于T的术语(指定训练数据的时间间隔)的术语界定。其次,我们研究了通过记忆建模而受益的方案,证明了两类连续时间复发性神经网络(RNN)的通用近似定理:两者都可以学习与内存有关的模型误差。此外,我们将一类RNN连接到储层计算,从而将学习依赖性错误的学习与使用随机特征在Banach空间之间进行监督学习的最新工作联系起来。给出了数值结果(Lorenz '63,Lorenz '96多尺度系统),以比较纯粹的数据驱动和混合方法,发现混合方法较少,渴望数据较少,并且更有效。最后,我们从数值上证明了如何利用数据同化来从嘈杂,部分观察到的数据中学习隐藏的动态,并说明了通过这种方法和培训此类模型来表示记忆的挑战。
translated by 谷歌翻译
本文涉及高维度中经验措施的收敛。我们提出了一类新的指标,并表明在这样的指标下,融合不受维度的诅咒(COD)。这样的特征对于高维分析至关重要,并且与经典指标相反({\ it,例如,瓦斯泰尔距离)。所提出的指标源自最大平均差异,我们通过提出选择测试功能空间的特定标准来概括,以确保没有COD的属性。因此,我们将此类别称为广义最大平均差异(GMMD)。所选测试功能空间的示例包括复制的内核希尔伯特空间,巴伦空间和流动诱导的功能空间。提出了所提出的指标的三种应用:1。在随机变量的情况下,经验度量的收敛; 2. $ n $粒子系统的收敛到麦基·维拉索夫随机微分方程的解决方案; 3.构建$ \ varepsilon $ -NASH平衡,用于均质$ n $ - 玩家游戏的平均范围限制。作为副产品,我们证明,考虑到接近GMMD测量的目标分布和目标分布的一定表示,我们可以在Wasserstein距离和相对熵方面生成接近目标的分布。总体而言,我们表明,所提出的指标类是一种强大的工具,可以在没有COD的高维度中分析经验度量的收敛性。
translated by 谷歌翻译
定量金融中经典问题的许多现代计算方法被提出为经验损失最小化(ERM),从而可以直接应用统计机器学习的经典结果。这些方法旨在直接构建对冲或投资决策的最佳反馈表示,在此框架中分析了它们的有效性以及它们对概括错误的敏感性。使用古典技术表明,过度训练的渲染仪训练有素的投资决策成为预期,并证明了大型假设空间的过度学习。另一方面,基于Rademacher复杂性的非反应估计显示了足够大的训练集的收敛性。这些结果强调了合成数据生成的重要性以及复杂模型对市场数据的适当校准。一个数值研究的风格化示例说明了这些可能性,包括问题维度在过度学习程度上的重要性以及该方法的有效性。
translated by 谷歌翻译