智能论文笔记

Two-layer neural networks with values in a Banach space

Yury Korolev

分类：机器学习

2021-05-05

我们研究了两层神经网络，其领域和范围是具有可分离性的Banach空间。另外，我们假设图像空间配备了部分顺序，即它是Riesz空间。作为非线性，我们选择了取积极部分的晶格操作；如果$ \ Mathbb r^d $可值的神经网络，这对应于Relu激活函数。我们证明了特定类别功能的蒙特卡洛速率的逆近似定理和直接近似定理，从而扩展了有限维情况的现有结果。在本文的第二部分中，我们从正规化理论的角度研究，通过有限数量的嘈杂观测值在潜在空间上进行签名的措施来找到此类功能的最佳表示的问题。我们讨论称为源条件的规律性条件，并在噪声水平均为零并且样本数量以适当的速度为零时，在Bregman距离中获得代表度量的收敛速率。

translated by 谷歌翻译

Conservative SPDEs as fluctuating mean field limits of stochastic gradient descent

Benjamin Gess , Rishabh S. Gvalani , Vitalii Konarovskyi

分类：机器学习 | (统计)机器学习

2022-07-12

显示了最佳的收敛速率，显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果，该SPDE的定量中心极限定理再次得出，并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的，浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明，在限制SPDE中包含波动可以提高收敛速度，并保留有关随机梯度下降的波动的信息。

translated by 谷歌翻译

Controlling Wasserstein distances by Kernel norms with application to Compressive Statistical Learning

Titouan Vayer , Rémi Gribonval

分类： (统计)机器学习 | 机器学习

2021-12-01

比较概率分布是许多机器学习算法的关键。最大平均差异（MMD）和最佳运输距离（OT）是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件，可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习（CSL）理论的推动，资源有效的大规模学习的一般框架，其中训练数据总结在单个向量（称为草图）中，该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发，我们介绍了H \“较旧的较低限制的等距属性（H \”较旧的LRIP）并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系，我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证，即概率分布之间的某些特定于特定的特定度量，可以由Wassersein界定距离。

translated by 谷歌翻译

Local approximation of operators

Hrushikesh Mhaskar

分类：机器学习

2022-02-13

Many applications, such as system identification, classification of time series, direct and inverse problems in partial differential equations, and uncertainty quantification lead to the question of approximation of a non-linear operator between metric spaces $\mathfrak{X}$ and $\mathfrak{Y}$. We study the problem of determining the degree of approximation of such operators on a compact subset $K_\mathfrak{X}\subset \mathfrak{X}$ using a finite amount of information. If $\mathcal{F}: K_\mathfrak{X}\to K_\mathfrak{Y}$, a well established strategy to approximate $\mathcal{F}(F)$ for some $F\in K_\mathfrak{X}$ is to encode $F$ (respectively, $\mathcal{F}(F)$) in terms of a finite number $d$ (repectively $m$) of real numbers. Together with appropriate reconstruction algorithms (decoders), the problem reduces to the approximation of $m$ functions on a compact subset of a high dimensional Euclidean space $\mathbb{R}^d$, equivalently, the unit sphere $\mathbb{S}^d$ embedded in $\mathbb{R}^{d+1}$. The problem is challenging because $d$, $m$, as well as the complexity of the approximation on $\mathbb{S}^d$ are all large, and it is necessary to estimate the accuracy keeping track of the inter-dependence of all the approximations involved. In this paper, we establish constructive methods to do this efficiently; i.e., with the constants involved in the estimates on the approximation on $\mathbb{S}^d$ being $\mathcal{O}(d^{1/6})$. We study different smoothness classes for the operators, and also propose a method for approximation of $\mathcal{F}(F)$ using only information in a small neighborhood of $F$, resulting in an effective reduction in the number of parameters involved.

translated by 谷歌翻译

Sharp Bounds on the Approximation Rates, Metric Entropy, and $n$-widths of Shallow Neural Networks

Jonathan W. Siegel , Jinchao Xu

分类： (统计)机器学习 | 机器学习

2021-01-29

在本文中，我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具，用于估计这些空间的度量熵，近似率和$ n $宽度。首先，我们介绍了平滑参数化词典的概念，并在非线性近似速率，度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典，并且在许多情况下它们的现有结果改善了。接下来，我们提供了一种方法，用于下限度量熵和$ n $ widths的变化空间，其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率，度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。

translated by 谷歌翻译

Integral representations of shallow neural network with Rectified Power Unit activation function

Ahmed Abdeljawad , Philipp Grohs

分类：神经与进化计算 | 机器学习

2021-12-20

在这项工作中，我们通过整流电源单元激活功能导出浅神经网络的整体表示的公式。主要是，我们的第一件结果涉及REPU浅网络的非相似性表现能力。本文的多维结果表征了可以用有界规范和可能无界宽度表示的功能集。

translated by 谷歌翻译

Deep learning architectures for nonlinear operator functions and nonlinear inverse problems

Maarten V. de Hoop , Matti Lassas , Christopher A. Wong

分类：机器学习

2019-12-23

我们为特殊神经网络架构，称为运营商复发性神经网络的理论分析，用于近似非线性函数，其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量，因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此，我们介绍一个类似标准的神经网络架构的新系列，但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析，我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后，我们研究其表示属性以及其近似属性。我们还表明，可以引入明确的正则化，其可以从所述逆问题的数学分析导出，并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后，我们讨论如何将运营商复发网络视为深度学习模拟，以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。

translated by 谷歌翻译

A Class of Dimension-free Metrics for the Convergence of Empirical Measures

Jiequn Han , Ruimeng Hu , Jihao Long

分类：机器学习 | (统计)机器学习

2021-04-24

本文涉及高维度中经验措施的收敛。我们提出了一类新的指标，并表明在这样的指标下，融合不受维度的诅咒（COD）。这样的特征对于高维分析至关重要，并且与经典指标相反（{\ it，例如，瓦斯泰尔距离）。所提出的指标源自最大平均差异，我们通过提出选择测试功能空间的特定标准来概括，以确保没有COD的属性。因此，我们将此类别称为广义最大平均差异（GMMD）。所选测试功能空间的示例包括复制的内核希尔伯特空间，巴伦空间和流动诱导的功能空间。提出了所提出的指标的三种应用：1。在随机变量的情况下，经验度量的收敛； 2. $ n $粒子系统的收敛到麦基·维拉索夫随机微分方程的解决方案； 3.构建$ \ varepsilon $ -NASH平衡，用于均质$ n $ - 玩家游戏的平均范围限制。作为副产品，我们证明，考虑到接近GMMD测量的目标分布和目标分布的一定表示，我们可以在Wasserstein距离和相对熵方面生成接近目标的分布。总体而言，我们表明，所提出的指标类是一种强大的工具，可以在没有COD的高维度中分析经验度量的收敛性。

translated by 谷歌翻译

Convex regularization in statistical inverse learning problems

Tatiana A. Bubba , Martin Burger , Tapio Helin , Luca Ratti

分类： (统计)机器学习 | 机器学习

2021-02-18

我们考虑统计逆学习问题，任务是根据$ AF $的嘈杂点评估估算函数$ F $，其中$ a $是一个线性运算符。函数$ AF $在I.I.D评估。随机设计点$ u_n $，$ n = 1，...，n $由未知的一般概率分布生成。我们认为Tikhonov正规用一般凸起和$ P $-Homenecous罚款功能，并在由惩罚功能引起的对称BREGMAN距离中测量的地面真理的正则化解决方案的集中率。我们获得了Besov Norm处罚的具体率，并在数值上展示了与X射线断层扫描的背景下的观察到的率的对应。

translated by 谷歌翻译

Off-the-grid learning of sparse mixtures from a continuous dictionary

Cristina Butucea , Jean-François Delmas , Anne Dutfoy , Clément Hardy

分类： (统计)机器学习 | 机器学习

2022-06-29

我们考虑了一个通用的非线性模型，其中信号是未知（可能增加的，可能增加的特征数量）的有限混合物，该特征是由由真实非线性参数参数化的连续字典发出的。在连续或离散设置中使用高斯（可能相关）噪声观察信号。我们提出了一种网格优化方法，即一种不使用参数空间上任何离散化方案的方法来估计特征的非线性参数和混合物的线性参数。我们使用有关离网方法的几何形状的最新结果，在真实的基础非线性参数上给出最小的分离，以便可以构建插值证书函数。还使用尾部界限，用于高斯过程的上流，我们将预测误差限制为高概率。假设可以构建证书函数，我们的预测误差绑定到日志 - 因线性回归模型中LASSO预测器所达到的速率类似。我们还建立了收敛速率，以高概率量化线性和非线性参数的估计质量。

translated by 谷歌翻译

Optimal bump functions for shallow ReLU networks: Weight decay, depth separation and the curse of dimensionality

Stephan Wojtowytsch

分类： (统计)机器学习 | 机器学习

2022-09-02

在本说明中，我们研究了如何使用单个隐藏层和RELU激活的神经网络插值数据，该数据是从径向对称分布中的，目标标签1处的目标标签1和单位球外部0，如果单位球内没有标签。通过重量衰减正则化和无限神经元的无限数据限制，我们证明存在独特的径向对称最小化器，其重量衰减正常器和Lipschitz常数分别为$ d $和$ \ sqrt {d} $。我们此外表明，如果标签$ 1 $强加于半径$ \ varepsilon $，而不仅仅是源头，则重量衰减正规剂会在$ d $中成倍增长。相比之下，具有两个隐藏层的神经网络可以近似目标函数，而不会遇到维度的诅咒。

translated by 谷歌翻译

HTML版本

Convergence bounds for nonlinear least squares for tensor recovery

Philipp Trunschke

分类： (统计)机器学习

2022-08-23

我们考虑在只能计算出L2-核的加权蒙特卡洛估计值时，在L2的一般非线性子集中近似函数的问题。在这种情况下特别感兴趣的是样本复杂性的概念，即以高概率实现规定误差所需的样品点数。该数量的合理最坏情况仅适用于L2的特定子集，例如线性空间或一组稀疏向量。对于更通用的子集，例如张量网络，当前现有的界限非常悲观。通过将模型类限制为最佳近似的邻域，我们可以为样品复杂性得出改善的最差案例边界。当被考虑的邻域是具有正局部覆盖范围的多种歧视时，可以通过切线空间的样品复杂性以及正常空间的样品复杂性和歧管曲率的样品复杂性来估计样品复杂性。

translated by 谷歌翻译

Universal Regular Conditional Distributions

Anastasis Kratsios

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2021-05-17

我们引入了一个深度学习模型，该模型通常可以近似于常规条件分布（RCD）。所提出的模型分为三个阶段：首先从给定的度量空间$ \ mathcal {x} $到$ \ mathbb {r}^d $通过功能映射进行线性化输入，然后这些线性化的功能由深层馈电的神经网络处理，然后通过Bahdanau等人引入的注意机制的概率扩展，将网络的输出转换为$ 1 $ -WASSERSTEIN SPACE $ \ MATHCAL {P} _1（\ Mathbb {r}^d）$。（2014）。我们发现，使用我们的框架构建的模型可以从$ \ mathbb {r}^d $到$ \ mathcal {p} _1（\ mathbb {r}^d）$均匀地在紧凑的集合上近似任何连续功能。当近似$ \ mathcal {p} _1（\ mathbb {r}^d）$ - 有价值的函数时，我们确定了两种避免维数的诅咒的方法。第一个策略描述了$ c（\ mathbb {r}^d，\ mathcal {p} _1（\ mathbb {r}^d））$中的函数，可以在$ \ mathbb {r}的任何紧凑子集上有效地近似地近似^D $。第二种方法描述了$ \ mathbb {r}^d $的紧凑子集，其中最多的$ c（\ mathbb {r}^d，\ mathcal {p} _1 _1（\ mathbb {r}^d））$可以有效地近似。结果经过实验验证。

translated by 谷歌翻译

Statistical and Topological Properties of Sliced Probability Divergences

Kimia Nadjahi , Alain Durmus , Lénaïc Chizat , Soheil Kolouri , Shahin Shahrampour , Umut Şimşekli

分类： (统计)机器学习 | 机器学习

2020-03-12

在包括生成建模的各种机器学习应用中的两个概率措施中，已经证明了切片分歧的想法是成功的，并且包括计算两种测量的一维随机投影之间的“基地分歧”的预期值。然而，这种技术的拓扑，统计和计算后果尚未完整地确定。在本文中，我们的目标是弥合这种差距并导出切片概率分歧的各种理论特性。首先，我们表明切片保留了公制公理和分歧的弱连续性，这意味着切片分歧将共享相似的拓扑性质。然后，我们在基本发散属于积分概率度量类别的情况下精确结果。另一方面，我们在轻度条件下建立了切片分歧的样本复杂性并不依赖于问题尺寸。我们终于将一般结果应用于几个基地分歧，并说明了我们对合成和实际数据实验的理论。

translated by 谷歌翻译

Neural Operator: Learning Maps Between Function Spaces

Nikola Kovachki , Zongyi Li , Burigede Liu , Kamyar Azizzadenesheli , Kaushik Bhattacharya , Andrew Stuart , Anima Anandkumar

分类：机器学习

2021-08-19

神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括，以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似，使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外，我们介绍了四类运算符参数化：基于图形的运算符，低秩运算符，基于多极图形的运算符和傅里叶运算符，并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的：它们在底层函数空间的不同离散化之间共享相同的网络参数，并且可以用于零击超分辨率。在数值上，与现有的基于机器学习的方法，达西流程和Navier-Stokes方程相比，所提出的模型显示出卓越的性能，而与传统的PDE求解器相比，与现有的基于机器学习的方法有关的基于机器学习的方法。

translated by 谷歌翻译

Transport in reservoir computing

G Manjunath , Juan-Pablo Ortega

分类：神经与进化计算

2022-09-16

储层计算系统是使用驱动的动力系统构建的，在该系统中，外部输入可以改变系统的发展状态。这些范例用于信息处理，机器学习和计算。在此框架中需要解决的一个基本问题是输入与系统状态之间的统计关系。本文提供的条件可以保证驱动系统的渐近措施的存在和唯一性，并表明当输入和输出过程的集合赋予了Wasserstein距离时，它们对输入过程的依赖性是连续的。这些发展中的主要工具是将这些不变的度量表征为在这种情况下出现并在论文中进行了大量研究的自然定义的FOIA算子的固定点。这些固定点是通过在驱动系统中施加新引入的随机状态合同性来获得的，该系统在示例中很容易验证。可以通过非国家缩减的系统来满足随机状态的合同性，这通常是为了保证储层计算中的回声状态属性的需求。结果，即使不存在Echo State属性，也可能会得到满足。

translated by 谷歌翻译

Debiased Inference on Identified Linear Functionals of Underidentified Nuisances via Penalized Minimax Estimation

Nathan Kallus , Xiaojie Mao

分类： (统计)机器学习

2022-08-17

我们研究了对识别的非唯一麻烦的线性功能的通用推断，该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中，包括非参数仪器变量模型，未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能（例如平均治疗效应）在适当的条件下是可以识别出的，但令人讨厌的非独家性对统计推断构成了严重的挑战，因为在这种情况下，常见的滋扰估计器可能是不稳定的，并且缺乏固定限制。在本文中，我们提出了对滋扰功能的受惩罚的最小估计器，并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别，重要的是，无论滋扰是否是唯一的，它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量，并在通用高级条件下证明其渐近正态性，这提供了渐近有效的置信区间。

translated by 谷歌翻译

Continuum Limit of Lipschitz Learning on Graphs

Tim Roith , Leon Bungert

分类：机器学习 | (统计)机器学习

2020-12-07

解决基于图形的方法的半监督学习问题已成为近年来的趋势，因为图表可以代表各种数据，并为差分运算符提供了适当的框架，例如用于研究连续体限制。这里的流行策略是$ p $ -laplacian学习，它在该组未标记的数据上对所寻求的推理功能构成平滑状态。对于$ p <\ infty $ of the infult的$ of theftum，使用$ \ gamma $ -convergence的工具研究了这种方法。对于案件$ p = \ infty $，被称为Lipschitz学习，使用粘度溶液的概念研究了相关无限拉拉披肩方程的连续范围。在这项工作中，我们通过$ \ Gamma $ -Convergence证明了Lipschitz学习的连续内限。特别是，我们定义了一系列功能，该功能近似于图形功能的最大局部嘴唇常数，并以$ l ^ \ idty $ -topology以梯度的高价计算到梯度的$ \ gamma $ -convergence，因为图表变得更密集。此外，我们展示了暗示偶然的功能的紧凑性。在我们的分析中，我们允许改变一组标记的数据，该数据会聚到Hausdorff距离中的一般关闭集。我们将结果应用于非线性地面状态，即，最小化器，具有约束的$ L ^ P $ -Norm，并且作为副产品，证明了Graph距离函数的收敛到Geodeic距离功能。

translated by 谷歌翻译

Duality for Neural Networks through Reproducing Kernel Banach Spaces

Len Spek , Tjeerd Jan Heeringa , Christoph Brune

分类：机器学习

2022-11-09

Reproducing Kernel Hilbert spaces (RKHS) have been a very successful tool in various areas of machine learning. Recently, Barron spaces have been used to prove bounds on the generalisation error for neural networks. Unfortunately, Barron spaces cannot be understood in terms of RKHS due to the strong nonlinear coupling of the weights. We show that this can be solved by using the more general Reproducing Kernel Banach spaces (RKBS). This class of integral RKBS can be understood as an infinite union of RKHS spaces. As the RKBS is not a Hilbert space, it is not its own dual space. However, we show that its dual space is again an RKBS where the roles of the data and parameters are interchanged, forming an adjoint pair of RKBSs including a reproducing property in the dual space. This allows us to construct the saddle point problem for neural networks, which can be used in the whole field of primal-dual optimisation.

translated by 谷歌翻译

On the Stability Properties and the Optimization Landscape of Training Problems with Squared Loss for Neural Networks and General Nonlinear Conic Approximation Schemes

Constantin Christof

分类：机器学习

2020-11-06

我们研究了神经网络中平方损耗训练问题的优化景观和稳定性，但通用非线性圆锥近似方案。据证明，如果认为非线性圆锥近似方案是（以适当定义的意义）比经典线性近似方法更具表现力，并且如果存在不完美的标签向量，则在方位损耗的训练问题必须在其中不稳定感知其解决方案集在训练数据中的标签向量上不连续地取决于标签向量。我们进一步证明对这些不稳定属性负责的效果也是马鞍点出现的原因和杂散的局部最小值，这可能是从全球解决方案的任意遥远的，并且既不训练问题也不是训练问题的不稳定性通常，杂散局部最小值的存在可以通过向目标函数添加正则化术语来克服衡量近似方案中参数大小的目标函数。无论可实现的可实现性是否满足，后一种结果都被证明是正确的。我们表明，我们的分析特别适用于具有可变宽度的自由结插值方案和深层和浅层神经网络的培训问题，其涉及各种激活功能的任意混合（例如，二进制，六骨，Tanh，arctan，软标志， ISRU，Soft-Clip，SQNL，Relu，Lifley Relu，Soft-Plus，Bent Identity，Silu，Isrlu和ELU）。总之，本文的发现说明了神经网络和一般非线性圆锥近似仪器的改进近似特性以直接和可量化的方式与必须解决的优化问题的不期望的性质链接，以便训练它们。

translated by 谷歌翻译