智能论文笔记

Strong uniform convergence of Laplacians of random geometric and directed kNN graphs on compact manifolds

Hélène Guérin , Dinh-Toan Nguyen , Viet-Chi Tran

分类： (统计)机器学习

2022-12-20

Consider $n$ points independently sampled from a density $p$ of class $\mathcal{C}^2$ on a smooth compact $d$-dimensional sub-manifold $\mathcal{M}$ of $\mathbb{R}^m$, and consider the generator of a random walk visiting these points according to a transition kernel $K$. We study the almost sure uniform convergence of this operator to the diffusive Laplace-Beltrami operator when $n$ tends to infinity. This work extends known results of the past 15 years. In particular, our result does not require the kernel $K$ to be continuous, which covers the cases of walks exploring $k$NN-random and geometric graphs, and convergence rates are given. The distance between the random walk generator and the limiting operator is separated into several terms: a statistical term, related to the law of large numbers, is treated with concentration tools and an approximation term that we control with tools from differential geometry. The convergence of $k$NN Laplacians is detailed.

translated by 谷歌翻译

Off-the-grid learning of sparse mixtures from a continuous dictionary

Cristina Butucea , Jean-François Delmas , Anne Dutfoy , Clément Hardy

分类： (统计)机器学习 | 机器学习

2022-06-29

我们考虑了一个通用的非线性模型，其中信号是未知（可能增加的，可能增加的特征数量）的有限混合物，该特征是由由真实非线性参数参数化的连续字典发出的。在连续或离散设置中使用高斯（可能相关）噪声观察信号。我们提出了一种网格优化方法，即一种不使用参数空间上任何离散化方案的方法来估计特征的非线性参数和混合物的线性参数。我们使用有关离网方法的几何形状的最新结果，在真实的基础非线性参数上给出最小的分离，以便可以构建插值证书函数。还使用尾部界限，用于高斯过程的上流，我们将预测误差限制为高概率。假设可以构建证书函数，我们的预测误差绑定到日志 - 因线性回归模型中LASSO预测器所达到的速率类似。我们还建立了收敛速率，以高概率量化线性和非线性参数的估计质量。

translated by 谷歌翻译

The Voronoigram: Minimax Estimation of Bounded Variation Functions From Scattered Data

Addison J. Hu , Alden Green , Ryan J. Tibshirani

分类： (统计)机器学习 | 机器学习

2022-12-30

We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.

translated by 谷歌翻译

Optimal transport map estimation in general function spaces

Vincent Divol , Jonathan Niles-Weed , Aram-Alexandre Pooladian

分类： (统计)机器学习

2022-12-07

We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.

translated by 谷歌翻译

Minimax Optimal Regression over Sobolev Spaces via Laplacian Eigenmaps on Neighborhood Graphs

Alden Green , Sivaraman Balakrishnan , Ryan J. Tibshirani

分类： (统计)机器学习

2021-11-14

本文研究了基于Laplacian Eigenmaps（Le）的基于Laplacian EIGENMAPS（PCR-LE）的主要成分回归的统计性质，这是基于Laplacian Eigenmaps（Le）的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =（y_1，\ ldots，y_n）$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下，PCR-le达到估计的最佳速率（其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /（2s + d））} $）和健美的测试（$ n ^ { - 4s /（4s + d）$）。我们还表明PCR-LE是\ EMPH {歧管Adaptive}：即，我们考虑在小型内在维度$ M $的歧管上支持设计的情况，并为PCR-LE提供更快的界限Minimax估计（$ n ^ { - 2s /（2s + m）$）和测试（$ n ^ { - 4s /（4s + m）$）收敛率。有趣的是，这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说，对于这个问题的回归估计的特征似乎更容易，统计上讲，而不是估计特征本身。我们通过经验证据支持这些理论结果。

translated by 谷歌翻译

Eigen-convergence of Gaussian kernelized graph Laplacian by manifold heat interpolation

Xiuyuan Cheng , Nan Wu

分类：机器学习 | (统计)机器学习

2021-01-25

当图形亲和力矩阵是由$ n $随机样品构建的，在$ d $ d $维歧管上构建图形亲和力矩阵时，这项工作研究图形拉普拉斯元素与拉普拉斯 - 贝特拉米操作员的光谱收敛。通过分析DIRICHLET形成融合并通过歧管加热核卷积构建候选本本函数，我们证明，使用高斯内核，可以设置核band band band band parame $ \ epsilon \ sim \ sim（\ log n/ n/ n）^{1/（D /2+2）} $使得特征值收敛率为$ n^{ - 1/（d/2+2）} $，并且2-norm中的特征向量收敛率$ n^{ - 1/（d+） 4）} $;当$ \ epsilon \ sim（\ log n/n）^{1/（d/2+3）} $时，eigenValue和eigenVector速率均为$ n^{ - 1/（d/2+3）} $。这些费率最高为$ \ log n $因素，并被证明是有限的许多低洼特征值。当数据在歧管上均匀采样以及密度校正的图laplacian（在两个边的度矩阵中归一化）时，结果适用于非归一化和随机漫步图拉普拉斯laplacians laplacians laplacians以及密度校正的图laplacian（其中两侧的级别矩阵）采样数据。作为中间结果，我们证明了密度校正图拉普拉斯的新点和差异形式的收敛速率。提供数值结果以验证理论。

translated by 谷歌翻译

Exploring Singularities in point clouds with the graph Laplacian: An explicit approach

Martin Andersson , Benny Avelin

分类： (统计)机器学习 | 机器学习

2022-12-31

We develop theory and methods that use the graph Laplacian to analyze the geometry of the underlying manifold of point clouds. Our theory provides theoretical guarantees and explicit bounds on the functional form of the graph Laplacian, in the case when it acts on functions defined close to singularities of the underlying manifold. We also propose methods that can be used to estimate these geometric properties of the point cloud, which are based on the theoretical guarantees.

translated by 谷歌翻译

Benign overfitting and adaptive nonparametric regression

Julien Chhor , Suzanne Sigalla , Alexandre B. Tsybakov

分类：机器学习 | (统计)机器学习

2022-06-27

在非参数回归设置中，我们构建了一个估计器，该估计器是一个连续的函数，以高概率插值数据点，同时在H \ h \'较大级别的平均平方风险下达到最小的最佳速率，以适应未知的平滑度。

translated by 谷歌翻译

Boundary Estimation from Point Clouds: Algorithms, Guarantees and Applications

Jeff Calder , Sangmin Park , Dejan Slepčev

分类： (统计)机器学习

2021-11-05

我们调查识别来自域中的采样点的域的边界。我们向边界引入正常矢量的新估计，指向边界的距离，以及对边界条内的点位于边界的测试。可以有效地计算估算器，并且比文献中存在的估计更准确。我们为估算者提供严格的错误估计。此外，我们使用检测到的边界点来解决Point云上PDE的边值问题。我们在点云上证明了LAPLACH和EIKONG方程的错误估计。最后，我们提供了一系列数值实验，说明了我们的边界估计器，在点云上的PDE应用程序的性能，以及在图像数据集上测试。

translated by 谷歌翻译

What Happens after SGD Reaches Zero Loss? --A Mathematical Framework

Zhiyuan Li , Tianhao Wang , Sanjeev Arora

分类：机器学习 | (统计)机器学习

2021-10-13

了解随机梯度下降（SGD）的隐式偏见是深度学习的关键挑战之一，尤其是对于过度透明的模型，损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲，SGD $ \ eta $的学习率很小，SGD跟踪梯度下降（GD），直到它接近这种歧管为止，梯度噪声阻止了进一步的收敛。在这样的政权中，Blanc等人。（2020）证明，带有标签噪声的SGD局部降低了常规术语，损失的清晰度，$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger（1991）的想法提供了一个总体框架。它原则上允许使用随机微分方程（SDE）描述参数的限制动力学的SGD围绕此歧管的正规化效应（即“隐式偏见”）的正则化效应，这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果：（1）与Blanc等人的局部分析相比，对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。（2020）仅适用于$ \ eta^{ - 1.6} $ steps和（2）允许任意噪声协方差。作为一个应用程序，我们以任意大的初始化显示，标签噪声SGD始终可以逃脱内核制度，并且仅需要$ o（\ kappa \ ln d）$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $（Woodworth等，2020），而GD在内核制度中初始化的GD需要$ \ omega（d）$样本。该上限是最小值的最佳，并改善了先前的$ \ tilde {o}（\ kappa^2）$上限（Haochen等，2020）。

translated by 谷歌翻译

Universal Approximation Theorems for Differentiable Geometric Deep Learning

Anastasis Kratsios , Leonie Papon

分类：机器学习

2021-01-13

本文通过引入几何深度学习（GDL）框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型，从而解决了对非欧国人数据进行处理的需求。我们表明，我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反，我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数，任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件，确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现，任何“现实世界”（即有限）数据集始终满足我们的状况，相反，如果目标函数平滑，则任何数据集都满足我们的要求。作为应用，我们确认了以下GDL模型的通用近似功能：Ganea等。（2018）的双波利馈电网络，实施Krishnan等人的体系结构。（2015年）的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了：Meyer等人的SPD-Matrix回归剂的通用扩展/变体。（2011）和Fletcher（2003）的Procrustean回归剂。在欧几里得的环境中，我们的结果暗示了Kidger和Lyons（2020）的近似定理和Yarotsky和Zhevnerchuk（2019）无估计近似率的数据依赖性版本的定量版本。

translated by 谷歌翻译

Neural Estimation of Statistical Divergences

Sreejith Sreekumar , Ziv Goldfeld

分类： (统计)机器学习

2021-10-07

量化概率分布之间的异化的统计分歧（SDS）是统计推理和机器学习的基本组成部分。用于估计这些分歧的现代方法依赖于通过神经网络（NN）进行参数化经验变化形式并优化参数空间。这种神经估算器在实践中大量使用，但相应的性能保证是部分的，并呼吁进一步探索。特别是，涉及的两个错误源之间存在基本的权衡：近似和经验估计。虽然前者需要NN课程富有富有表现力，但后者依赖于控制复杂性。我们通过非渐近误差界限基于浅NN的基于浅NN的估计的估算权，重点关注四个流行的$ \ mathsf {f} $ - 分离 - kullback-leibler，chi squared，squared hellinger，以及总变异。我们分析依赖于实证过程理论的非渐近功能近似定理和工具。界限揭示了NN尺寸和样品数量之间的张力，并使能够表征其缩放速率，以确保一致性。对于紧凑型支持的分布，我们进一步表明，上述上三次分歧的神经估算器以适当的NN生长速率接近Minimax率 - 最佳，实现了对数因子的参数速率。

translated by 谷歌翻译

On lower bounds for the bias-variance trade-off

Alexis Derumigny , Johannes Schmidt-Hieber

分类： (统计)机器学习

2020-05-30

对于高维和非参数统计模型，速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到，但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略，以获得对任何估计方差的下限，偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的，并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限，用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中，将抽象的下限应用于几种统计模型，包括高斯白噪声模型，边界估计问题，高斯序列模型和高维线性回归模型。对于这些特定的统计应用，发生不同类型的偏差差异发生，其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡，我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动，以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中，发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用，但是平方偏差的速率和方差不必平衡以实现最小估计速率。

translated by 谷歌翻译

Controlling Wasserstein distances by Kernel norms with application to Compressive Statistical Learning

Titouan Vayer , Rémi Gribonval

分类： (统计)机器学习 | 机器学习

2021-12-01

比较概率分布是许多机器学习算法的关键。最大平均差异（MMD）和最佳运输距离（OT）是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件，可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习（CSL）理论的推动，资源有效的大规模学习的一般框架，其中训练数据总结在单个向量（称为草图）中，该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发，我们介绍了H \“较旧的较低限制的等距属性（H \”较旧的LRIP）并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系，我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证，即概率分布之间的某些特定于特定的特定度量，可以由Wassersein界定距离。

translated by 谷歌翻译

Comparison of Markov chains via weak Poincaré inequalities with application to pseudo-marginal MCMC

Christophe Andrieu , Anthony Lee , Sam Power , Andi Q. Wang

分类：机器学习

2021-12-10

我们调查了一定类别的功能不等式，称为弱Poincar的不等式，以使Markov链的收敛性与均衡相结合。我们表明，这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法，后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单，并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解，分析平均近似贝叶斯计算（ABC）的效果以及独立平均值的产品，以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯（PMMH）。

translated by 谷歌翻译

Uniform Convergence Rates for Lipschitz Learning on Graphs

Leon Bungert , Jeff Calder , Tim Roith

分类：机器学习

2021-11-24

Lipschitz Learning是一种基于图的半监督学习方法，其中一个人通过在加权图上求解Infinity Laplace方程来扩展标签到未标记的数据集的标签。在这项工作中，随着顶点的数量生长到无穷大，我们证明了图形无穷大行道方程的解决方案的统一收敛速率。它们的连续内容是绝对最小化LipsChitz扩展，即关于从图形顶点采样图形顶点的域的测地度量。我们在图表权重的非常一般的假设下工作，标记顶点的集合和连续域。我们的主要贡献是，即使对于非常稀疏的图形，我们也获得了定量的收敛速率，因为它们通常出现在半监督学习等应用中。特别是，我们的框架允许绘制到连接半径的图形带宽。为了证明，我们首先显示图表距离函数的定量收敛性声明，在连续体中的测量距离功能。使用“与距离函数的比较”原理，我们可以将这些收敛语句传递给无限谐波函数，绝对最小化Lipschitz扩展。

translated by 谷歌翻译

Gradient flows on graphons: existence, convergence, continuity equations

Sewoong Oh , Soumik Pal , Raghav Somani , Raghav Tripathi

分类：机器学习

2021-11-18

Wassersein梯度流通概率措施在各种优化问题中发现了许多应用程序。它们通常由于由涉及梯度型电位的一些平均场相互作用而发展的可交换粒子系统的连续极限。然而，在许多问题中，例如在多层神经网络中，所谓的粒子是在节点可更换的大图上的边缘权重。已知这样的大图可以收敛到连续的限制，称为Graphons，因为它们的大小增长到无穷大。我们表明，边缘权重的合适功能的欧几里德梯度流量会聚到可以被适当地描述为梯度流的曲线上的曲线给出的新型连续轴限制，或者更重要的是最大斜率的曲线。我们的设置涵盖了诸如同性恋功能和标量熵的石墨源上的几种自然功能，并详细介绍了示例。

translated by 谷歌翻译

Riemannian Langevin Algorithm for Solving Semidefinite Programs

Mufan Bill Li , Murat A. Erdogdu

分类： (统计)机器学习 | 机器学习

2020-10-21

我们提出了一种基于langevin扩散的算法，以在球体的产物歧管上进行非凸优化和采样。在对数Sobolev不平等的情况下，我们根据Kullback-Leibler Divergence建立了有限的迭代迭代收敛到Gibbs分布的保证。我们表明，有了适当的温度选择，可以保证，次级最小值的次数差距很小，概率很高。作为一种应用，我们考虑了使用对角线约束解决半决赛程序（SDP）的burer- monteiro方法，并分析提出的langevin算法以优化非凸目标。特别是，我们为Burer建立了对数Sobolev的不平等现象 - 当没有虚假的局部最小值时，但在鞍点下，蒙蒂罗问题。结合结果，我们为SDP和最大切割问题提供了全局最佳保证。更确切地说，我们证明了Langevin算法在$ \ widetilde {\ omega}（\ epsilon^{ - 5}）$ tererations $ tererations $ \ widetilde {\ omega}（\ omega}中，具有很高的概率。

translated by 谷歌翻译

On minimax density estimation via measure transport

Sven Wang , Youssef Marzouk

分类： (统计)机器学习

2022-07-20

我们研究基于度量传输的非参数密度估计器的收敛性和相关距离。这些估计量代表了利息的度量，作为传输图下选择的参考分布的推动力，其中地图是通过最大似然目标选择（等效地，将经验性的kullback-leibler损失）或其受惩罚版本选择。我们通过将M估计的技术与基于运输的密度表示的分析性能相结合，为一般惩罚措施估计量的一般类别的措施运输估计器建立了浓度不平等。然后，我们证明了我们的理论对三角形knothe-rosenblatt（kr）在$ d $维单元方面的运输的含义，并表明该估计器的惩罚和未化的版本都达到了Minimax最佳收敛速率，超过了H \ \ \'“较旧的密度类别。具体来说，我们建立了在有限的h \“较旧型球上，未确定的非参数最大似然估计，然后在某些sobolev-penalate的估计器和筛分的小波估计器中建立了最佳速率。

translated by 谷歌翻译

From Monte Carlo to neural networks approximations of boundary value problems

Lucian Beznea , Iulian Cimpean , Oana Lupascu-Stamate , Ionel Popescu , Arghir Zarnescu

分类：人工智能 | 机器学习

2022-09-03

在本文中，我们研究了针对泊松方程的解决方案的概率和神经网络近似，但在$ \ mathbb {r}^d $的一般边界域中，较旧或$ c^2 $数据。我们的目标是两个基本目标。首先，也是最重要的是，我们证明了泊松方程的解决方案可以通过蒙特卡洛方法在sup-norm中进行数值近似，但基于球形算法的步行略有变化。这提供了相对于相对于相对于相对于有效的估计值规定的近似误差且没有维度的诅咒。此外，样品的总数不取决于执行近似的点。作为第二个目标，我们表明获得的蒙特卡洛求解器renders relu relu深层神经网络（DNN）解决泊松问题的解决方案，其大小在尺寸$ d $以及所需的错误中大多数取决于多项式。和低多项式复杂性。

translated by 谷歌翻译