我们介绍了一种基于神经网络的新颖且高度可触犯的监督学习方法,该方法可用于计算潜在高维,金融导数的无模型价格界限,并确定达到这些边界的最佳对冲策略。特别是,我们的方法允许离线培训单个神经网络,然后在线使用它来快速确定与当前市场数据的整个金融衍生品的无模型价格界限。我们显示了这种方法的适用性,并在涉及真实市场数据的几个示例中强调了其准确性。此外,我们展示了如何培训神经网络,以解决涉及固定边际分布而不是金融市场数据的Martingale最佳运输问题。
translated by 谷歌翻译
Several problems in stochastic analysis are defined through their geometry, and preserving that geometric structure is essential to generating meaningful predictions. Nevertheless, how to design principled deep learning (DL) models capable of encoding these geometric structures remains largely unknown. We address this open problem by introducing a universal causal geometric DL framework in which the user specifies a suitable pair of geometries $\mathscr{X}$ and $\mathscr{Y}$ and our framework returns a DL model capable of causally approximating any ``regular'' map sending time series in $\mathscr{X}^{\mathbb{Z}}$ to time series in $\mathscr{Y}^{\mathbb{Z}}$ while respecting their forward flow of information throughout time. Suitable geometries on $\mathscr{Y}$ include various (adapted) Wasserstein spaces arising in optimal stopping problems, a variety of statistical manifolds describing the conditional distribution of continuous-time finite state Markov chains, and all Fr\'echet spaces admitting a Schauder basis, e.g. as in classical finance. Suitable, $\mathscr{X}$ are any compact subset of any Euclidean space. Our results all quantitatively express the number of parameters needed for our DL model to achieve a given approximation error as a function of the target map's regularity and the geometric structure both of $\mathscr{X}$ and of $\mathscr{Y}$. Even when omitting any temporal structure, our universal approximation theorems are the first guarantees that H\"older functions, defined between such $\mathscr{X}$ and $\mathscr{Y}$ can be approximated by DL models.
translated by 谷歌翻译
定量金融中经典问题的许多现代计算方法被提出为经验损失最小化(ERM),从而可以直接应用统计机器学习的经典结果。这些方法旨在直接构建对冲或投资决策的最佳反馈表示,在此框架中分析了它们的有效性以及它们对概括错误的敏感性。使用古典技术表明,过度训练的渲染仪训练有素的投资决策成为预期,并证明了大型假设空间的过度学习。另一方面,基于Rademacher复杂性的非反应估计显示了足够大的训练集的收敛性。这些结果强调了合成数据生成的重要性以及复杂模型对市场数据的适当校准。一个数值研究的风格化示例说明了这些可能性,包括问题维度在过度学习程度上的重要性以及该方法的有效性。
translated by 谷歌翻译
我们引入了一个深度学习模型,该模型通常可以近似于常规条件分布(RCD)。所提出的模型分为三个阶段:首先从给定的度量空间$ \ mathcal {x} $到$ \ mathbb {r}^d $通过功能映射进行线性化输入,然后这些线性化的功能由深层馈电的神经网络处理,然后通过Bahdanau等人引入的注意机制的概率扩展,将网络的输出转换为$ 1 $ -WASSERSTEIN SPACE $ \ MATHCAL {P} _1(\ Mathbb {r}^d)$。 (2014)。我们发现,使用我们的框架构建的模型可以从$ \ mathbb {r}^d $到$ \ mathcal {p} _1(\ mathbb {r}^d)$均匀地在紧凑的集合上近似任何连续功能。当近似$ \ mathcal {p} _1(\ mathbb {r}^d)$ - 有价值的函数时,我们确定了两种避免维数的诅咒的方法。第一个策略描述了$ c(\ mathbb {r}^d,\ mathcal {p} _1(\ mathbb {r}^d))$中的函数,可以在$ \ mathbb {r}的任何紧凑子集上有效地近似地近似^D $。第二种方法描述了$ \ mathbb {r}^d $的紧凑子集,其中最多的$ c(\ mathbb {r}^d,\ mathcal {p} _1 _1(\ mathbb {r}^d))$可以有效地近似。结果经过实验验证。
translated by 谷歌翻译
我们因与Relu神经网络的参数双曲标量保护定律的近似值所产生的误差得出了严格的界限。我们表明,通过克服维度诅咒的relu神经网络,可以使近似误差尽可能小。此外,我们在训练误差,训练样本数量和神经网络大小方面提供了明确的上限。理论结果通过数值实验说明。
translated by 谷歌翻译
High-dimensional PDEs have been a longstanding computational challenge. We propose to solve highdimensional PDEs by approximating the solution with a deep neural network which is trained to satisfy the differential operator, initial condition, and boundary conditions. Our algorithm is meshfree, which is key since meshes become infeasible in higher dimensions. Instead of forming a mesh, the neural network is trained on batches of randomly sampled time and space points. The algorithm is tested on a class of high-dimensional free boundary PDEs, which we are able to accurately solve in up to 200 dimensions. The algorithm is also tested on a high-dimensional Hamilton-Jacobi-Bellman PDE and Burgers' equation. The deep learning algorithm approximates the general solution to the Burgers' equation for a continuum of different boundary conditions and physical conditions (which can be viewed as a high-dimensional space). We call the algorithm a "Deep Galerkin Method (DGM)" since it is similar in spirit to Galerkin methods, with the solution approximated by a neural network instead of a linear combination of basis functions. In addition, we prove a theorem regarding the approximation power of neural networks for a class of quasilinear parabolic PDEs.
translated by 谷歌翻译
大多数随机梯度下降算法可以优化在其参数中的子微分内的神经网络;然而,这意味着神经网络的激活函数必须表现出一定程度的连续性,这将神经网络模型的均匀近似容量限制为连续功能。本文重点介绍不连续性从不同的子模式产生的情况,每个子模式都在输入空间的不同部分上定义。我们提出了一种新的不连续的深度神经网络模型,通过解耦的两步过程培训,避免通过网络的唯一和战略放置的不连续单元通过梯度更新。我们为我们在我们在此介绍的分段连续功能的空间中提供了近似的宽度保证。我们为我们的结构量身定制了一部小型半监督两步培训程序,为其结构量身定制,我们为其有效性提供了理论支持。我们的模型和提议程序培训的性能在实验上在实际的金融数据集和合成数据集上进行了实验评估。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
我们在离散时间无限的地平线设置下引入了Markov决策问题的一般框架。通过提供动态的编程原则,我们获得了局部到全球范式,即求解本地,即一个时间步骤的强大优化问题会导致全局(即无限时步)的优化器,以及相应的最坏情况。此外,我们将此框架应用于涉及标准普尔500数据的投资组合优化。我们提出了两种不同类型的歧义集。一个由余地量围绕经验度量给出的完全数据驱动的,第二个是由多元正常分布的参数集来描述的,其中参数的相应不确定性集是从数据中估算的。事实证明,在市场波动或看跌的情况下,来自相应的健壮优化问题的最佳投资组合策略胜过没有模型不确定性的情况,表明将模型不确定性考虑到了重要性。
translated by 谷歌翻译
我们提出了一个数据驱动的投资组合选择模型,该模型使用分布稳健优化的框架来整合侧面信息,条件估计和鲁棒性。投资组合经理在观察到的侧面信息上进行条件解决了一个分配问题,该问题可最大程度地减少最坏情况下的风险回收权衡权衡,但要受到最佳运输歧义集中协变量返回概率分布的所有可能扰动。尽管目标函数在概率措施中的非线性性质非线性,但我们表明,具有侧面信息问题的分布稳健的投资组合分配可以作为有限维优化问题进行重新纠正。如果基于均值变化或均值的风险标准做出投资组合的决策,则可以进一步简化所得的重新制定为二阶或半明确锥体程序。美国股票市场的实证研究证明了我们对其他基准的综合框架的优势。
translated by 谷歌翻译
本文研究了使用神经跳跃(NJ-ODE)框架扩展的一般随机过程的问题。虽然NJ-ODE是为预测不规则观察到的时间序列而建立收敛保证的第一个框架,但这些结果仅限于从中\^o-diffusions的数据,特别是Markov过程,特别是在其中同时观察到所有坐标。。在这项工作中,我们通过利用签名变换的重建属性,将这些结果推广到具有不完整观察结果的通用,可能是非马克维亚或不连续的随机过程。这些理论结果得到了经验研究的支持,在该研究中,在非马克维亚数据的情况下,依赖路径依赖性的NJ-ode优于原始的NJ-ode框架。
translated by 谷歌翻译
Consider the multivariate nonparametric regression model. It is shown that estimators based on sparsely connected deep neural networks with ReLU activation function and properly chosen network architecture achieve the minimax rates of convergence (up to log nfactors) under a general composition assumption on the regression function. The framework includes many well-studied structural constraints such as (generalized) additive models. While there is a lot of flexibility in the network architecture, the tuning parameter is the sparsity of the network. Specifically, we consider large networks with number of potential network parameters exceeding the sample size. The analysis gives some insights into why multilayer feedforward neural networks perform well in practice. Interestingly, for ReLU activation function the depth (number of layers) of the neural network architectures plays an important role and our theory suggests that for nonparametric regression, scaling the network depth with the sample size is natural. It is also shown that under the composition assumption wavelet estimators can only achieve suboptimal rates.
translated by 谷歌翻译
协方差估计在功能数据分析中普遍存在。然而,对多维域的功能观测的情况引入了计算和统计挑战,使标准方法有效地不适用。为了解决这个问题,我们将“协方差网络”(CoVNet)介绍为建模和估算工具。 Covnet模型是“Universal” - 它可用于近似于达到所需精度的任何协方差。此外,该模型可以有效地拟合到数据,其神经网络架构允许我们在实现中采用现代计算工具。 Covnet模型还承认了一个封闭形式的实体分解,可以有效地计算,而不构建协方差本身。这有助于在CoVnet的背景下轻松存储和随后操纵协方差。我们建立了拟议估计者的一致性,得出了汇合速度。通过广泛的仿真研究和休息状态FMRI数据的应用,证明了所提出的方法的有用性。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
我们为可交易仪器的市场模拟器提供了一种数值有效的方法,用于学习最少的等效鞅措施,例如,可交易仪器的市场模拟器。出于在同一底层写入的现货价格和选择。在存在交易成本和交易限制的情况下,我们放松了对学习最低等同的“近马丁措施”的结果,其中预期的回报仍然存在于普遍的出价/询问差价中。我们在高维复杂空间中“去除漂移”的方法完全是无模型的,并且可以应用于任何不展示经典套用的市场模拟器。所产生的模型可用于风险中性定价,或者在交易成本或交易限制的情况下,“深度套期保值”。我们通过将其应用于两个市场模拟器,自动回归离散时间随机隐含的波动率模型和基于生成的对冲网络(GAN)的模拟器来展示我们的方法,这些模拟器都在统计测量下的选项价格的历史数据上培训产生现货和期权价格的现实样本。关于原始市场模拟器的估计误差,我们评论了鲁棒性。
translated by 谷歌翻译
我们在决策边界是一定规律的假设下,研究从无噪声训练样本的学习分类功能的问题。我们为这一估计问题建立了普遍的下限,对于连续决策边界的一般阶级。对于本地禁区的类别,我们发现最佳估计率基本上独立于底层维度,并且可以通过在适当类的深神经网络上通过经验风险最小化方法实现。这些结果基于$ l ^ 1 $和$ l ^ \ infty $ intty $ inthty $ off的禁区常规职能的新颖估计数。
translated by 谷歌翻译
我们开发了一种利用无模型增强学习(RL)解决时间一致风险敏感随机优化问题的方法。具体地,我们假设代理商使用动态凸面风险措施评估一系列随机变量的风险。我们采用时间一致的动态编程原则来确定特定策略的值,并开发策略渐变更新规则。我们进一步开发了一个使用神经网络的演员批评风格算法,以优化策略。最后,我们通过将其应用于统计套利交易和障碍避免机器人控制中的优化问题来证明我们的方法的性能和灵活性。
translated by 谷歌翻译
机器学习通常以经典的概率理论为前提,这意味着聚集是基于期望的。现在有多种原因可以激励人们将经典概率理论作为机器学习的数学基础。我们系统地检查了一系列强大而丰富的此类替代品,即各种称为光谱风险度量,Choquet积分或Lorentz规范。我们提出了一系列的表征结果,并演示了使这个光谱家族如此特别的原因。在此过程中,我们证明了所有连贯的风险度量的自然分层,从它们通过利用重新安排不变性Banach空间理论的结果来诱导的上层概率。我们凭经验证明了这种新的不确定性方法如何有助于解决实用的机器学习问题。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
我们研究了神经网络中平方损耗训练问题的优化景观和稳定性,但通用非线性圆锥近似方案。据证明,如果认为非线性圆锥近似方案是(以适当定义的意义)比经典线性近似方法更具表现力,并且如果存在不完美的标签向量,则在方位损耗的训练问题必须在其中不稳定感知其解决方案集在训练数据中的标签向量上不连续地取决于标签向量。我们进一步证明对这些不稳定属性负责的效果也是马鞍点出现的原因和杂散的局部最小值,这可能是从全球解决方案的任意遥远的,并且既不训练问题也不是训练问题的不稳定性通常,杂散局部最小值的存在可以通过向目标函数添加正则化术语来克服衡量近似方案中参数大小的目标函数。无论可实现的可实现性是否满足,后一种结果都被证明是正确的。我们表明,我们的分析特别适用于具有可变宽度的自由结插值方案和深层和浅层神经网络的培训问题,其涉及各种激活功能的任意混合(例如,二进制,六骨,Tanh,arctan,软标志, ISRU,Soft-Clip,SQNL,Relu,Lifley Relu,Soft-Plus,Bent Identity,Silu,Isrlu和ELU)。总之,本文的发现说明了神经网络和一般非线性圆锥近似仪器的改进近似特性以直接和可量化的方式与必须解决的优化问题的不期望的性质链接,以便训练它们。
translated by 谷歌翻译