在本文中,我们提出了一种自适应组套索深神经网络,用于高维函数近似,其中从动力系统生成输入数据,目标函数取决于少数有源变量或几乎没有变量的线性组合。我们通过深度神经网络近似于目标功能,并强制对合适的隐藏层的权重实施自适应组套索约束,以便表示目标函数的约束。我们利用近端算法优化惩罚损耗函数。使用BREGMAN距离的非负属性,我们证明所提出的优化程序实现损失衰减。我们的实证研究表明,该方法始终优于最近的最先进方法,包括稀疏词典矩阵方法,有或没有组卢赛诺罚款的神经网络。
translated by 谷歌翻译
广泛利用医学和工程科学深度学习的一个主要障碍是其可解释性。虽然神经网络模型是制作预测的强大工具,但它们通常提供很少的信息,其中特征在影响预测准确性时发挥着重要作用。为了克服这个问题,已经提出了利用神经网络学习的许多正则化程序,以丢弃非重大功能。不幸的是,缺乏理论结果对这种管道的适用性产生了疑虑。在这项工作中,我们提出并建立了使用自适应组套索来选择神经网络的重要特征的理论保障。具体而言,我们表明我们的特征选择方法对于具有一个隐藏层和双曲线切线激活功能的单输出前馈神经网络一致。我们使用仿真和数据分析展示其适用性。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
最近有兴趣的兴趣在教师学生环境中的各种普遍性线性估计问题中的渐近重建性能研究,特别是对于I.I.D标准正常矩阵的案例。在这里,我们超越这些矩阵,并证明了具有具有任意界限频谱的旋转不变数据矩阵的凸遍的线性模型的重建性能的分析公式,严格地确认使用来自统计物理的副本衍生的猜想。该公式包括许多问题,例如压缩感测或稀疏物流分类。通过利用消息通过算法和迭代的统计特性来实现证明,允许表征估计器的渐近实证分布。我们的证据是基于构建Oracle多层向量近似消息传递算法的会聚序列的构建,其中通过检查等效动态系统的稳定性来完成收敛分析。我们说明了我们对主流学习方法的数值示例的要求,例如稀疏的逻辑回归和线性支持矢量分类器,显示中等大小模拟和渐近预测之间的良好一致性。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
在本文中,我们研究了学习最适合培训数据集的浅层人工神经网络的问题。我们在过度参数化的制度中研究了这个问题,在该制度中,观测值的数量少于模型中的参数数量。我们表明,通过二次激活,训练的优化景观这种浅神经网络具有某些有利的特征,可以使用各种局部搜索启发式方法有效地找到全球最佳模型。该结果适用于输入/输出对的任意培训数据。对于可区分的激活函数,我们还表明,适当初始化的梯度下降以线性速率收敛到全球最佳模型。该结果着重于选择输入的可实现模型。根据高斯分布和标签是根据种植的重量系数生成的。
translated by 谷歌翻译
我们提出了一个基于一般学习的框架,用于解决非平滑和非凸图像重建问题。我们将正则函数建模为$ l_ {2,1} $ norm的组成,并将平滑但非convex功能映射参数化为深卷积神经网络。我们通过利用Nesterov的平滑技术和残留学习的概念来开发一种可证明的趋同的下降型算法来解决非平滑非概念最小化问题,并学习网络参数,以使算法的输出与培训数据中的参考匹配。我们的方法用途广泛,因为人们可以将各种现代网络结构用于正规化,而所得网络继承了算法的保证收敛性。我们还表明,所提出的网络是参数有效的,其性能与实践中各种图像重建问题中的最新方法相比有利。
translated by 谷歌翻译
一类非平滑实践优化问题可以写成,以最大程度地减少平滑且部分平滑的功能。我们考虑了这种结构化问题,这些问题也取决于参数矢量,并研究了将其解决方案映射相对于参数的问题,该参数在灵敏度分析和参数学习选择材料问题中具有很大的应用。我们表明,在部分平滑度和其他温和假设下,近端分裂算法产生的序列的自动分化(AD)会收敛于溶液映射的衍生物。对于一种自动分化的变体,我们称定点自动分化(FPAD),我们纠正了反向模式AD的内存开销问题,此外,理论上提供了更快的收敛。我们从数值上说明了套索和组套索问题的AD和FPAD的收敛性和收敛速率,并通过学习正则化项来证明FPAD在原型实用图像deoise问题上的工作。
translated by 谷歌翻译
我们提出了一种惩罚的非参数方法,以使用整流器二次单元(REEND)激活了深层神经网络,以估计不可分割的模型中的分位数回归过程(QRP),并引入了新的惩罚函数,以实施对瓦解回归曲线的非交叉。我们为估计的QRP建立了非反应过量的风险界限,并在轻度平滑度和规律性条件下得出估计的QRP的平均综合平方误差。为了建立这些非反应风险和估计误差范围,我们还使用$ s> 0 $及其衍生物及其衍生物使用所需的激活的神经网络开发了一个新的错误,用于近似$ c^s $平滑功能。这是必需网络的新近似结果,并且具有独立的兴趣,并且可能在其他问题中有用。我们的数值实验表明,所提出的方法具有竞争性或胜过两种现有方法,包括使用再现核和随机森林的方法,用于非参数分位数回归。
translated by 谷歌翻译
Consider the multivariate nonparametric regression model. It is shown that estimators based on sparsely connected deep neural networks with ReLU activation function and properly chosen network architecture achieve the minimax rates of convergence (up to log nfactors) under a general composition assumption on the regression function. The framework includes many well-studied structural constraints such as (generalized) additive models. While there is a lot of flexibility in the network architecture, the tuning parameter is the sparsity of the network. Specifically, we consider large networks with number of potential network parameters exceeding the sample size. The analysis gives some insights into why multilayer feedforward neural networks perform well in practice. Interestingly, for ReLU activation function the depth (number of layers) of the neural network architectures plays an important role and our theory suggests that for nonparametric regression, scaling the network depth with the sample size is natural. It is also shown that under the composition assumption wavelet estimators can only achieve suboptimal rates.
translated by 谷歌翻译
每次使用新的(但类似)数据的应用程序都必须重复解决优化问题的应用。可以手动设计分析优化算法以迭代方式解决这些问题。一方面,数据驱动的算法可以“学习优化”(L2O),其迭代率较少,而每次迭代的成本与通用优化算法相似。另一方面,不幸的是,许多L2O算法缺乏融合保证。为了融合这些方法的优势,我们提出了一个安全的L2O框架。 Safe-L2O更新结合了保障措施,以保证近端和/或梯度甲状管的凸问题收敛。安全性在实现方面很简单且计算便宜,并且只有在数据驱动的L2O更新性能较差或似乎差异时,它才会被激活。这产生了使用机器学习来创建快速L2O算法的数值好处,同时仍然保证收敛。我们的数值示例表明,即使提供的数据不是来自培训数据的分布,Safe-L2O算法的收敛性也是如此。
translated by 谷歌翻译
我们考虑最小化高维目标函数的问题,该功能可以包括正则化术语,使用(可能的噪声)评估该功能。这种优化也称为无衍生,零阶或黑匣子优化。我们提出了一个新的$ \ textbf {z} $ feroth - $ \ textbf {o} $ rder $ \ textbf {r} $ ptimization方法,称为zoro。当潜在的梯度大致稀疏时,Zoro需要很少的客观函数评估,以获得降低目标函数的新迭代。我们通过自适应,随机梯度估计器实现这一点,然后是不精确的近端梯度方案。在一个新颖的大致稀疏梯度假设和各种不同的凸面设置下,我们显示了zoro的(理论和实证)收敛速率仅对对数依赖于问题尺寸。数值实验表明,Zoro在合成和实际数据集中优于具有相似假设的现有方法。
translated by 谷歌翻译
非参数,添加剂模型能够以灵活且可诠释的方式捕获复杂的数据依赖性。但是,选择添加剂组件的格式通常需要非琐碎的数据探索。在这里,作为替代方案,我们提出了Prada-Net,一种单隐层神经网络,具有近端梯度下降和自适应套索的训练。 Prada-Net自动调整神经网络的大小和架构,以反映数据的复杂性和结构。 Prada-Net获得的紧凑型网络可以转换为附加模型组件,使其适用于具有自动模型选择的非参数统计建模。我们在模拟数据上展示了PRADA-NET,其中将PRADA-NET的测试错误性能,可变重要性和可变子集识别属性进行了针对神经网络的其他基于卢赛的正则化方法。我们还将PRADA-NET应用于大量的U.K.黑烟数据集,以演示PRADA-NET如何使用空间和时间部件来模拟复杂和异构数据。与经典的统计非参数方法相比,Prada-Net不需要初步建模来选择添加剂组分的功能形式,但仍然导致可解释的模型表示。
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译
在广泛的应用程序中,从观察到的数据中识别隐藏的动态是一项重大且具有挑战性的任务。最近,线性多步法方法(LMM)和深度学习的结合已成功地用于发现动力学,而对这种方法进行完整的收敛分析仍在开发中。在这项工作中,我们考虑了基于网络的深度LMM,以发现动态。我们使用深网的近似属性提出了这些方法的错误估计。它指出,对于某些LMMS的家庭,$ \ ell^2 $网格错误由$ O(H^p)$的总和和网络近似错误,其中$ h $是时间步长和$P $是本地截断错误顺序。提供了几个物理相关示例的数值结果,以证明我们的理论。
translated by 谷歌翻译
本文开发了简单的前馈神经网络,实现了所有连续功能的通用近似性,具有固定的有限数量的神经元。这些神经网络很简单,因为它们的设计具有简单且可增加的连续激活功能$ \ Sigma $利用三角波函数和软片功能。我们证明了$ \ Sigma $ -Activated网络,宽度为36d $ 36d(2d + 1)$和11 $ 11 $可以在任意小错误中估计$ d $ -dimensioanl超级函数上的任何连续功能。因此,对于监督学习及其相关的回归问题,这些网络产生的假设空间,尺寸不小于36d(2d + 1)\ times 11 $的持续功能的空间。此外,由图像和信号分类引起的分类函数在$ \ sigma $ -activated网络生成的假设空间中,宽度为36d(2d + 1)$和12 $ 12 $,当存在$ \的成对不相交的界限子集时mathbb {r} ^ d $,使得同一类的样本位于同一子集中。
translated by 谷歌翻译
许多实际优化问题涉及不确定的参数,这些参数具有概率分布,可以使用上下文特征信息来估算。与首先估计不确定参数的分布然后基于估计优化目标的标准方法相反,我们提出了一个\ textIt {集成条件估计 - 优化}(ICEO)框架,该框架估计了随机参数的潜在条件分布同时考虑优化问题的结构。我们将随机参数的条件分布与上下文特征之间的关系直接建模,然后以与下游优化问题对齐的目标估算概率模型。我们表明,我们的ICEO方法在适度的规律性条件下渐近一致,并以概括范围的形式提供有限的性能保证。在计算上,使用ICEO方法执行估计是一种非凸面且通常是非差异的优化问题。我们提出了一种通用方法,用于近似从估计的条件分布到通过可区分函数的最佳决策的潜在非差异映射,这极大地改善了应用于非凸问题的基于梯度的算法的性能。我们还提供了半代理案例中的多项式优化解决方案方法。还进行了数值实验,以显示我们在不同情况下的方法的经验成功,包括数据样本和模型不匹配。
translated by 谷歌翻译
在本文中,我们将深度学习文献与非线性因素模型联系起来,并表明深度学习估计可以大大改善非线性加性因子模型文献。我们通过扩展Schmidt-Hieber(2020)定理来提供预期风险的界限,并表明这些上限在一组多个响应变量上是均匀的。我们表明,我们的风险界限并不取决于因素的数量。为了构建资产回报的协方差矩阵估计器,我们开发了深层神经网络中误差协方差矩阵的新型数据依赖性估计器。估算器是指灵活的自适应阈值技术,对创新中的异常值很强。我们证明估计量在光谱规范中是一致的。然后使用该结果,我们显示了协方差矩阵的一致性和收敛速率和资产回报的精确矩阵估计器。两种结果中的收敛速度并不取决于因素的数量,因此我们的收敛性是因子模型文献中的一个新结果,因为这一事实是因素的数量妨碍了更好的估计和预测。除了精确矩阵结果外,即使资产数量大于时间跨度,我们也可以获得我们所有的结果,并且两个数量都在增长。各种蒙特卡洛模拟证实了我们的大型样本发现,并揭示了DNN-FM的卓越精确度,以估计连接因子和可观察变量的真实潜在功能形式,以及与竞争方法相比的协方差和精确矩阵。此外,在大多数情况下,就样本外投资组合策略而言,在样本外预测应用程序中,就样本外投资组合标准偏差和Sharpe比率而言,它的表现优于其他投资组合策略。
translated by 谷歌翻译
我们提出了对使用Rademacher和Vapnik-Chervonenkis边界学习有条件的价值(VAR)和预期短缺的两步方法的非反应收敛分析。我们的VAR方法扩展到了一次学习的问题,该问题对应于不同的分数水平。这导致基于神经网络分位数和最小二乘回归的有效学习方案。引入了一个后验蒙特卡洛(非巢)程序,以估计地面真相和ES的距离,而无需访问后者。使用高斯玩具模型中的数值实验和财务案例研究中的目标是学习动态初始边缘的情况。
translated by 谷歌翻译
在本说明中,我们研究了如何使用单个隐藏层和RELU激活的神经网络插值数据,该数据是从径向对称分布中的,目标标签1处的目标标签1和单位球外部0,如果单位球内没有标签。通过重量衰减正则化和无限神经元的无限数据限制,我们证明存在独特的径向对称最小化器,其重量衰减正常器和Lipschitz常数分别为$ d $和$ \ sqrt {d} $。我们此外表明,如果标签$ 1 $强加于半径$ \ varepsilon $,而不仅仅是源头,则重量衰减正规剂会在$ d $中成倍增长。相比之下,具有两个隐藏层的神经网络可以近似目标函数,而不会遇到维度的诅咒。
translated by 谷歌翻译