智能论文笔记

The Mori-Zwanzig formulation of deep learning

Daniele Venturi , Xiantao Li

分类：机器学习 | (统计)机器学习

2022-09-12

我们根据不可逆统计力学的莫里兹万齐（MZ）形式主义开发了深度学习的新表述。新的公式建立在深神经网络和离散随机动力学系统之间的众所周知的二元性上，它使我们能够通过网络通过网络直接向前和向后传播关注数量的（条件期望和概率密度函数）。操作员方程。这种新方程可用作开发深神经网络的新有效参数化的起点，并提供了一个新的框架来通过操作理论方法研究深入学习。所提出的深度学习的MZ表述自然引入了一个新概念，即神经网络的记忆，该概念在低维建模和参数化中起着基本作用。通过使用收缩映射理论，我们开发了足够的条件，以使神经网络的记忆随着层数的数量而衰减。这使我们可以严格地将深网络转换为浅网络，例如，通过减少每层神经元的数量（使用投影操作员）或减少层总数（使用内存操作员的衰减属性）。

translated by 谷歌翻译

Controlling Wasserstein distances by Kernel norms with application to Compressive Statistical Learning

Titouan Vayer , Rémi Gribonval

分类： (统计)机器学习 | 机器学习

2021-12-01

比较概率分布是许多机器学习算法的关键。最大平均差异（MMD）和最佳运输距离（OT）是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件，可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习（CSL）理论的推动，资源有效的大规模学习的一般框架，其中训练数据总结在单个向量（称为草图）中，该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发，我们介绍了H \“较旧的较低限制的等距属性（H \”较旧的LRIP）并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系，我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证，即概率分布之间的某些特定于特定的特定度量，可以由Wassersein界定距离。

translated by 谷歌翻译

Deep learning architectures for nonlinear operator functions and nonlinear inverse problems

Maarten V. de Hoop , Matti Lassas , Christopher A. Wong

分类：机器学习

2019-12-23

我们为特殊神经网络架构，称为运营商复发性神经网络的理论分析，用于近似非线性函数，其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量，因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此，我们介绍一个类似标准的神经网络架构的新系列，但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析，我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后，我们研究其表示属性以及其近似属性。我们还表明，可以引入明确的正则化，其可以从所述逆问题的数学分析导出，并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后，我们讨论如何将运营商复发网络视为深度学习模拟，以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。

translated by 谷歌翻译

The Neural Covariance SDE: Shaped Infinite Depth-and-Width Networks at Initialization

Mufan Bill Li , Mihai Nica , Daniel M. Roy

分类： (统计)机器学习 | 机器学习

2022-06-06

The logit outputs of a feedforward neural network at initialization are conditionally Gaussian, given a random covariance matrix defined by the penultimate layer. In this work, we study the distribution of this random matrix. Recent work has shown that shaping the activation function as network depth grows large is necessary for this covariance matrix to be non-degenerate. However, the current infinite-width-style understanding of this shaping method is unsatisfactory for large depth: infinite-width analyses ignore the microscopic fluctuations from layer to layer, but these fluctuations accumulate over many layers. To overcome this shortcoming, we study the random covariance matrix in the shaped infinite-depth-and-width limit. We identify the precise scaling of the activation function necessary to arrive at a non-trivial limit, and show that the random covariance matrix is governed by a stochastic differential equation (SDE) that we call the Neural Covariance SDE. Using simulations, we show that the SDE closely matches the distribution of the random covariance matrix of finite networks. Additionally, we recover an if-and-only-if condition for exploding and vanishing norms of large shaped networks based on the activation function.

translated by 谷歌翻译

PSD Representations for Effective Probability Models

Alessandro Rudi , Carlo Ciliberto

分类：机器学习 | (统计)机器学习

2021-06-30

找到模型概率密度的好方法是概率推断的关键。理想的模型应该能够简单地近似于概率，同时也与两个主要操作兼容：两个模型（产品规则）的乘法和相对于随机变量的子集（SUM规则）的边缘化。在这项工作中，我们表明最近提出的非负函数的正半明确（PSD）模型特别适用于此。特别是，我们表征了PSD模型的近似和泛化能力，显示它们享有强烈的理论保证。此外，我们表明我们可以通过矩阵操作以封闭形式的封闭形式有效地执行和产品规则，享受混合模型的相同多功能性。我们的结果为PSD模型应用于密度估计，决策理论和推理的方式开辟了途径。

translated by 谷歌翻译

Optimization-Based Separations for Neural Networks

Itay Safran , Jason D. Lee

分类：机器学习

2021-12-04

深度分离结果提出了对深度神经网络过较浅的架构的好处的理论解释，建立前者具有卓越的近似能力。然而，没有已知的结果，其中更深的架构利用这种优势成为可提供的优化保证。我们证明，当数据由具有满足某些温和假设的径向对称的分布产生的数据时，梯度下降可以使用具有两层S形激活的深度2神经网络有效地学习球指示器功能，并且隐藏层固定在一起训练。由于众所周知，当使用用单层非线性的深度2网络（Safran和Shamir，2017）使用深度2网络时，球指示器难以近似于一定的重型分配，这建立了我们最好的知识，基于第一优化的分离结果，其中近似架构的近似效益在实践中可怕的。我们的证明技术依赖于随机特征方法，该方法减少了用单个神经元学习的问题，其中新工具需要在数据分布重尾时显示梯度下降的收敛。

translated by 谷歌翻译

On lower bounds for the bias-variance trade-off

Alexis Derumigny , Johannes Schmidt-Hieber

分类： (统计)机器学习

2020-05-30

对于高维和非参数统计模型，速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到，但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略，以获得对任何估计方差的下限，偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的，并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限，用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中，将抽象的下限应用于几种统计模型，包括高斯白噪声模型，边界估计问题，高斯序列模型和高维线性回归模型。对于这些特定的统计应用，发生不同类型的偏差差异发生，其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡，我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动，以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中，发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用，但是平方偏差的速率和方差不必平衡以实现最小估计速率。

translated by 谷歌翻译

Conservative SPDEs as fluctuating mean field limits of stochastic gradient descent

Benjamin Gess , Rishabh S. Gvalani , Vitalii Konarovskyi

分类：机器学习 | (统计)机器学习

2022-07-12

显示了最佳的收敛速率，显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果，该SPDE的定量中心极限定理再次得出，并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的，浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明，在限制SPDE中包含波动可以提高收敛速度，并保留有关随机梯度下降的波动的信息。

translated by 谷歌翻译

Sharp Bounds on the Approximation Rates, Metric Entropy, and $n$-widths of Shallow Neural Networks

Jonathan W. Siegel , Jinchao Xu

分类： (统计)机器学习 | 机器学习

2021-01-29

在本文中，我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具，用于估计这些空间的度量熵，近似率和$ n $宽度。首先，我们介绍了平滑参数化词典的概念，并在非线性近似速率，度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典，并且在许多情况下它们的现有结果改善了。接下来，我们提供了一种方法，用于下限度量熵和$ n $ widths的变化空间，其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率，度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。

translated by 谷歌翻译

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation

Wenlong Mou , Ashwin Pananjady , Martin J. Wainwright , Peter L. Bartlett

分类：机器学习 | (统计)机器学习

2021-12-23

我们研究了随机近似程序，以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后，我们证明了一种在适当平均迭代序列上的非渐近实例依赖性，具有匹配局部渐近最小的限制的领先术语，包括对参数$的敏锐依赖（d，t _ {\ mathrm {mix}}） $以高阶术语。我们将这些上限与非渐近Minimax的下限补充，该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD（$ \ lambda $）算法，以便[0,1）$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门（例如，在运行TD（$ \ Lambda $）算法时选择$ \ lambda $的值）。

translated by 谷歌翻译

Random Vector Functional Link Networks for Function Approximation on Manifolds

Deanna Needell , Aaron A. Nelson , Rayan Saab , Palina Salanevich

分类： (统计)机器学习 | 机器学习

2020-07-30

众所周知，进食前馈神经网络的学习速度很慢，并且在深度学习应用中呈现了几十年的瓶颈。例如，广泛用于训练神经网络的基于梯度的学习算法在所有网络参数都必须迭代调整时往往会缓慢起作用。为了解决这个问题，研究人员和从业人员都尝试引入随机性来减少学习要求。基于Igelnik和Pao的原始结构，具有随机输入层的重量和偏见的单层神经网络在实践中取得了成功，但是缺乏必要的理论理由。在本文中，我们开始填补这一理论差距。我们提供了一个（校正的）严格证明，即Igelnik和PAO结构是连续函数在紧凑型域上连续函数的通用近似值，并且近似错误渐近地衰减，例如$ o（1/\ sqrt {n}）网络节点。然后，我们将此结果扩展到非反应设置，证明人们可以在$ n $的情况下实现任何理想的近似误差，而概率很大。我们进一步调整了这种随机神经网络结构，以近似欧几里得空间的平滑，紧凑的亚曼叶量的功能，从而在渐近和非催化形式的理论保证中提供了理论保证。最后，我们通过数值实验说明了我们在歧管上的结果。

translated by 谷歌翻译

The Voronoigram: Minimax Estimation of Bounded Variation Functions From Scattered Data

Addison J. Hu , Alden Green , Ryan J. Tibshirani

分类： (统计)机器学习 | 机器学习

2022-12-30

We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.

translated by 谷歌翻译

Comparison of Markov chains via weak Poincaré inequalities with application to pseudo-marginal MCMC

Christophe Andrieu , Anthony Lee , Sam Power , Andi Q. Wang

分类：机器学习

2021-12-10

我们调查了一定类别的功能不等式，称为弱Poincar的不等式，以使Markov链的收敛性与均衡相结合。我们表明，这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法，后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单，并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解，分析平均近似贝叶斯计算（ABC）的效果以及独立平均值的产品，以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯（PMMH）。

translated by 谷歌翻译

Learning Optimal Flows for Non-Equilibrium Importance Sampling

Yu Cao , Eric Vanden-Eijnden

分类： (统计)机器学习

2022-06-20

计算科学和统计推断中的许多应用都需要计算有关具有未知归一化常数的复杂高维分布以及这些常数的估计。在这里，我们开发了一种基于从简单的基本分布生成样品，沿着速度场生成的流量运输的方法，并沿这些流程线执行平均值。这种非平衡重要性采样（NEIS）策略是直接实施的，可用于具有任意目标分布的计算。在理论方面，我们讨论了如何将速度场定制到目标，并建立所提出的估计器是一个完美的估计器，具有零变化。我们还通过将基本分布映射到目标上，通过传输图绘制了NEIS和方法之间的连接。在计算方面，我们展示了如何使用深度学习来代表神经网络，并将其训练为零方差最佳。这些结果在高维示例上进行了数值说明，我们表明训练速度场可以将NEIS估计量的方差降低至6个数量级，而不是Vanilla估计量。我们还表明，NEIS在这些示例上的表现要比NEAL的退火重要性采样（AIS）更好。

translated by 谷歌翻译

Designing Universal Causal Deep Learning Models: The Geometric (Hyper)Transformer

Beatrice Acciaio , Anastasis Kratsios , Gudmund Pammer

分类：机器学习 | 神经与进化计算

2022-01-31

Several problems in stochastic analysis are defined through their geometry, and preserving that geometric structure is essential to generating meaningful predictions. Nevertheless, how to design principled deep learning (DL) models capable of encoding these geometric structures remains largely unknown. We address this open problem by introducing a universal causal geometric DL framework in which the user specifies a suitable pair of geometries $\mathscr{X}$ and $\mathscr{Y}$ and our framework returns a DL model capable of causally approximating any ``regular'' map sending time series in $\mathscr{X}^{\mathbb{Z}}$ to time series in $\mathscr{Y}^{\mathbb{Z}}$ while respecting their forward flow of information throughout time. Suitable geometries on $\mathscr{Y}$ include various (adapted) Wasserstein spaces arising in optimal stopping problems, a variety of statistical manifolds describing the conditional distribution of continuous-time finite state Markov chains, and all Fr\'echet spaces admitting a Schauder basis, e.g. as in classical finance. Suitable, $\mathscr{X}$ are any compact subset of any Euclidean space. Our results all quantitatively express the number of parameters needed for our DL model to achieve a given approximation error as a function of the target map's regularity and the geometric structure both of $\mathscr{X}$ and of $\mathscr{Y}$. Even when omitting any temporal structure, our universal approximation theorems are the first guarantees that H\"older functions, defined between such $\mathscr{X}$ and $\mathscr{Y}$ can be approximated by DL models.

translated by 谷歌翻译

Neural Operator: Learning Maps Between Function Spaces

Nikola Kovachki , Zongyi Li , Burigede Liu , Kamyar Azizzadenesheli , Kaushik Bhattacharya , Andrew Stuart , Anima Anandkumar

分类：机器学习

2021-08-19

神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括，以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似，使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外，我们介绍了四类运算符参数化：基于图形的运算符，低秩运算符，基于多极图形的运算符和傅里叶运算符，并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的：它们在底层函数空间的不同离散化之间共享相同的网络参数，并且可以用于零击超分辨率。在数值上，与现有的基于机器学习的方法，达西流程和Navier-Stokes方程相比，所提出的模型显示出卓越的性能，而与传统的PDE求解器相比，与现有的基于机器学习的方法有关的基于机器学习的方法。

translated by 谷歌翻译

On minimax density estimation via measure transport

Sven Wang , Youssef Marzouk

分类： (统计)机器学习

2022-07-20

我们研究基于度量传输的非参数密度估计器的收敛性和相关距离。这些估计量代表了利息的度量，作为传输图下选择的参考分布的推动力，其中地图是通过最大似然目标选择（等效地，将经验性的kullback-leibler损失）或其受惩罚版本选择。我们通过将M估计的技术与基于运输的密度表示的分析性能相结合，为一般惩罚措施估计量的一般类别的措施运输估计器建立了浓度不平等。然后，我们证明了我们的理论对三角形knothe-rosenblatt（kr）在$ d $维单元方面的运输的含义，并表明该估计器的惩罚和未化的版本都达到了Minimax最佳收敛速率，超过了H \ \ \'“较旧的密度类别。具体来说，我们建立了在有限的h \“较旧型球上，未确定的非参数最大似然估计，然后在某些sobolev-penalate的估计器和筛分的小波估计器中建立了最佳速率。

translated by 谷歌翻译

A Unified and Constructive Framework for the Universality of Neural Networks

Tan Bui-Thanh

分类：机器学习 | (统计)机器学习

2021-12-30

其中的许多神经网络能够复制复杂的任务或功能的原因之一是其普遍性财产。在过去的几十年里已经在提供单一或类神经网络的构造性证明见过很多尝试。本文是为了提供一大类，包括激活现有的大多数激活和超越的普遍性统一的和建设性的框架。在框架的心脏是神经网络近似标识的概念。事实证明，大多数现有的激活是神经网络近似的标志，因此在连续的函数对致密的空间普遍。该框架诱导几个优点。首先，它是建设性与功能分析，概率论，和数值分析的基本手段。其次，它是第一个统一的尝试，其有效期为大多数现有的激活。第三，作为一个以产品，该框架提供了一些现有的激活功能，包括米什司炉ELU，格鲁，等四的第一所大学证明，它发现带有普遍性的保证财产新的激活。事实上，任何活化\ textemdash其$ \ķ$阶导数，以$ \ķ$为整数，是积并且基本上界定\ textemdash是普遍的。第五，对于给定的激活和容错，框架精确地提供了具有预定数量的神经元，和重量/偏差的值中对应的一个隐藏神经网络的体系结构。

translated by 谷歌翻译

Minimax Optimal Regression over Sobolev Spaces via Laplacian Eigenmaps on Neighborhood Graphs

Alden Green , Sivaraman Balakrishnan , Ryan J. Tibshirani

分类： (统计)机器学习

2021-11-14

本文研究了基于Laplacian Eigenmaps（Le）的基于Laplacian EIGENMAPS（PCR-LE）的主要成分回归的统计性质，这是基于Laplacian Eigenmaps（Le）的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =（y_1，\ ldots，y_n）$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下，PCR-le达到估计的最佳速率（其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /（2s + d））} $）和健美的测试（$ n ^ { - 4s /（4s + d）$）。我们还表明PCR-LE是\ EMPH {歧管Adaptive}：即，我们考虑在小型内在维度$ M $的歧管上支持设计的情况，并为PCR-LE提供更快的界限Minimax估计（$ n ^ { - 2s /（2s + m）$）和测试（$ n ^ { - 4s /（4s + m）$）收敛率。有趣的是，这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说，对于这个问题的回归估计的特征似乎更容易，统计上讲，而不是估计特征本身。我们通过经验证据支持这些理论结果。

translated by 谷歌翻译

Finite-Time Bounds for Fitted Value Iteration.

分类：

In this paper we develop a theoretical analysis of the performance of sampling-based fitted value iteration (FVI) to solve infinite state-space, discounted-reward Markovian decision processes (MDPs) under the assumption that a generative model of the environment is available. Our main results come in the form of finite-time bounds on the performance of two versions of sampling-based FVI. The convergence rate results obtained allow us to show that both versions of FVI are well behaving in the sense that by using a sufficiently large number of samples for a large class of MDPs, arbitrary good performance can be achieved with high probability. An important feature of our proof technique is that it permits the study of weighted L p -norm performance bounds. As a result, our technique applies to a large class of function-approximation methods (e.g., neural networks, adaptive regression trees, kernel machines, locally weighted learning), and our bounds scale well with the effective horizon of the MDP. The bounds show a dependence on the stochastic stability properties of the MDP: they scale with the discounted-average concentrability of the future-state distributions. They also depend on a new measure of the approximation power of the function space, the inherent Bellman residual, which reflects how well the function space is "aligned" with the dynamics and rewards of the MDP. The conditions of the main result, as well as the concepts introduced in the analysis, are extensively discussed and compared to previous theoretical results. Numerical experiments are used to substantiate the theoretical findings.

translated by 谷歌翻译