智能论文笔记

An Asymptotic Equivalence between the Mean-Shift Algorithm and the Cluster Tree

Ery Arias-Castro , Wanli Qiao

分类：机器学习

2021-11-19

在1970年代的两个重要非参数方法中出现了群集的：级别集或群集树，由Hartigan提出的级别树木，并通过福卢加和旅馆提出的梯度线或渐变流的聚类。在最近的一篇论文中，我们认为这两种方法的目的是根本值的，通过表明梯度流提供了沿着簇树移动的方法。在制作更强大的情况下，我们面临的事实是群集树没有定义底层密度的整个支持的分区，而梯度流动。在本文中，我们通过提出从群集树中获取分区的两种方法来解决这一难题 - 其中一个人在其自己的右侧非常自然 - 并且显示它们两者都减少到梯度流给出的分区根据对采样密度的标准假设。

translated by 谷歌翻译

Moving Up the Cluster Tree with the Gradient Flow

Ery Arias-Castro , Wanli Qiao

分类： (统计)机器学习

2021-09-17

本文在20世纪70年代出现的两个重要聚类方法之间建立了强大的对应方法：级别集或群集树的聚类，如Hartigan提出的梯度线或渐变线或福卢加和大学家所提出的梯度流。我们这样做通过显示我们可以通过遵循渐变上升流来向上移动群集树。

translated by 谷歌翻译

Adaptive Clustering Using Kernel Density Estimators

Ingo Steinwart , Bharath K. Sriperumbudur , Philipp Thomann

分类： (统计)机器学习

2017-08-17

我们派生并分析了一种用于估计有限簇树中的所有分裂的通用，递归算法以及相应的群集。我们进一步研究了从内核密度估计器接收级别设置估计时该通用聚类算法的统计特性。特别是，我们推出了有限的样本保证，一致性，收敛率以及用于选择内核带宽的自适应数据驱动策略。对于这些结果，我们不需要与H \“{o}连续性等密度的连续性假设，而是仅需要非参数性质的直观几何假设。

translated by 谷歌翻译

Embedding Functional Data: Multidimensional Scaling and Manifold Learning

Ery Arias-Castro , Wanli Qiao

分类：机器学习

2022-08-30

我们将最初在多维扩展和降低多元数据的降低领域发展为功能设置。我们专注于经典缩放和ISOMAP - 在这些领域中起重要作用的原型方法 - 并在功能数据分析的背景下展示它们的使用。在此过程中，我们强调了环境公制扮演的关键作用。

translated by 谷歌翻译

Uniform Consistency in Nonparametric Mixture Models

Bryon Aragam , Ruiyi Yang

分类： (统计)机器学习

2021-08-31

我们研究了非参数混合模型中的一致性以及回归的密切相关的混合物（也称为混合回归）模型，其中允许回归函数是非参数的，并且假定误差分布是高斯密度的卷积。我们在一般条件下构建统一的一致估计器，同时突出显示了将现有的点一致性结果扩展到均匀结果的几个疼痛点。最终的分析事实并非如此，并且在此过程中开发了几种新颖的技术工具。在混合回归的情况下，我们证明了回归函数的$ l^1 $收敛性，同时允许组件回归函数任意地相交，这带来了其他技术挑战。我们还考虑对一般（即非跨方向）非参数混合物的概括。

translated by 谷歌翻译

On Convergence Lemma and Convergence Stability for Piecewise Analytic Functions

Xiaotie Deng , Hanyu Li , Ningyuan Li

分类：人工智能 | 机器学习

2022-04-04

在这项工作中，证明了功能$ f $的收敛引理是分析映射的有限组成和最大运算符。引理表明，$ \ delta $ - 定位点附近附近的隔离本地最小点$ x^*$正在收缩到$ x^*$，为$ \ delta \ to 0 $。它是强烈凸出$ c^1 $函数的版本的自然扩展。但是，引理的正确性是微妙的。分析映射对于诱饵是必要的，因为用可区分或$ c^\ infty $映射代替它会导致引理错误。该证明基于{\ l} ojasiewicz的半分析集的分层定理。此证明的扩展显示了$ f $的一组固定点的几何表征。最后，提出了在固定点上的稳定性概念，称为收敛稳定性。它询问，在小数字错误下，合理的收敛优化方法是否在固定点附近开始应最终收敛到同一固定点。仅当目标函数既非滑动和非概念），趋同稳定性的概念在质量上变得无处不在。通过收敛引理，证明了$ F $的收敛稳定性的直观等效条件。这些结果共同提供了一个新的几何观点，可以研究非平滑非凸优化中“何处连接”的问题。

translated by 谷歌翻译

Statistical Inference with Local Optima

Yen-Chi Chen

分类： (统计)机器学习

2018-07-12

我们研究通过应用具有多个初始化的梯度上升方法来源的估计器的统计特性。我们派生了该估算器的目标的人口数量，并研究了从渐近正常性和自举方法构成的置信区间（CIS）的性质。特别是，我们通过有限数量的随机初始化来分析覆盖范围。我们还通过反转可能性比率测试，得分测试和WALD测试来调查CI，我们表明所得到的CIS可能非常不同。即使MLE是棘手的，我们也提出了一种两个样本测试程序。此外，我们在随机初始化下分析了EM算法的性能，并通过有限数量的初始化导出了CI的覆盖范围。

translated by 谷歌翻译

Uniform Convergence Rates for Lipschitz Learning on Graphs

Leon Bungert , Jeff Calder , Tim Roith

分类：机器学习

2021-11-24

Lipschitz Learning是一种基于图的半监督学习方法，其中一个人通过在加权图上求解Infinity Laplace方程来扩展标签到未标记的数据集的标签。在这项工作中，随着顶点的数量生长到无穷大，我们证明了图形无穷大行道方程的解决方案的统一收敛速率。它们的连续内容是绝对最小化LipsChitz扩展，即关于从图形顶点采样图形顶点的域的测地度量。我们在图表权重的非常一般的假设下工作，标记顶点的集合和连续域。我们的主要贡献是，即使对于非常稀疏的图形，我们也获得了定量的收敛速率，因为它们通常出现在半监督学习等应用中。特别是，我们的框架允许绘制到连接半径的图形带宽。为了证明，我们首先显示图表距离函数的定量收敛性声明，在连续体中的测量距离功能。使用“与距离函数的比较”原理，我们可以将这些收敛语句传递给无限谐波函数，绝对最小化Lipschitz扩展。

translated by 谷歌翻译

Gradient flows on graphons: existence, convergence, continuity equations

Sewoong Oh , Soumik Pal , Raghav Somani , Raghav Tripathi

分类：机器学习

2021-11-18

Wassersein梯度流通概率措施在各种优化问题中发现了许多应用程序。它们通常由于由涉及梯度型电位的一些平均场相互作用而发展的可交换粒子系统的连续极限。然而，在许多问题中，例如在多层神经网络中，所谓的粒子是在节点可更换的大图上的边缘权重。已知这样的大图可以收敛到连续的限制，称为Graphons，因为它们的大小增长到无穷大。我们表明，边缘权重的合适功能的欧几里德梯度流量会聚到可以被适当地描述为梯度流的曲线上的曲线给出的新型连续轴限制，或者更重要的是最大斜率的曲线。我们的设置涵盖了诸如同性恋功能和标量熵的石墨源上的几种自然功能，并详细介绍了示例。

translated by 谷歌翻译

High Dimensional Optimization through the Lens of Machine Learning

Felix Benning

分类： (统计)机器学习

2021-12-31

本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的，我们专注于适合高维优化的方法。我们在二次模型上构建直觉，以确定哪种方法适用于非凸优化，并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础，我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外，最后一章还提供了对更多理论方法的广泛审查，这在实践中并不像惯例。所以在某些情况下，这项工作试图回答这个问题：为什么默认值中包含的默认TensorFlow优化器？

translated by 谷歌翻译

The Voronoigram: Minimax Estimation of Bounded Variation Functions From Scattered Data

Addison J. Hu , Alden Green , Ryan J. Tibshirani

分类： (统计)机器学习 | 机器学习

2022-12-30

We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.

translated by 谷歌翻译

On Constraints in First-Order Optimization: A View from Non-Smooth Dynamical Systems

Michael Muehlebach , Michael I. Jordan

分类：机器学习

2021-07-17

We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.

translated by 谷歌翻译

The Dynamics of Riemannian Robbins-Monro Algorithms

Mohammad Reza Karimi , Ya-Ping Hsieh , Panayotis Mertikopoulos , Andreas Krause

分类：机器学习

2022-06-14

许多重要的学习算法，例如随机梯度方法，通常被部署以解决Riemannian歧管上的非线性问题。在这些应用中，我们提出了一个概括和扩展Robbins和Monro的精确随机近似框架的Riemannian算法家族。与他们的欧几里得对应物相比，由于歧管上缺乏全局线性结构，Riemannian迭代算法的理解要少得多。我们通过引入扩展的费米坐标框架来克服这一困难，该框架使我们能够绘制拟议的Riemannian Robbins-Monro（RRM）算法类别的渐近行为，以在基础歧管上非常轻微的假设下，在相关的确定性动力学系统下的算法。这样一来，我们提供了一个几乎肯定的收敛结果的一般模板，该模板镜像并扩展了欧几里得robbins-Monro方案的现有理论，尽管其分析要大得多，需要大量的新几何成分。我们通过使用该框架来建立基于回缩的类似物的融合来展示提出的RRM框架的灵活性，以解决最小化问题和游戏的流行乐观 /额外梯度方法，并且我们为其收敛提供了统一的处理。

translated by 谷歌翻译

On the Global Convergence of Gradient Descent for multi-layer ResNets in the mean-field regime

Zhiyan Ding , Shi Chen , Qin Li , Stephen Wright

分类：机器学习 | (统计)机器学习

2021-10-06

找到Reset中的参数的最佳配置是一个非凸显最小化问题，但一阶方法尽管如此，找到了过度分辨率制度的全局最优。通过将Reset的训练过程转化为梯度流部分微分方程（PDE）和检查该限制过程的收敛性能，我们研究了这种现象。假设激活函数为2美元 - 最佳或部分$ 1 $-homerence;正则Relu满足后一种条件。我们表明，如果Reset足够大，则深度和宽度根据代数上的准确性和置信水平，一阶优化方法可以找到适合培训数据的全局最小化器。

translated by 谷歌翻译

On the Whitney extension problem for near isometries and beyond

Steven B. Damelin

分类：计算机视觉 | 机器学习

2021-03-17

在此备忘录中，我们开发了一般框架，它允许同时研究$ \ MathBB R ^ D $和惠特尼在$ \ Mathbb r的离散和非离散子集附近的insoctry扩展问题附近的标签和未标记的近对准数据问题。^ d $与某些几何形状。此外，我们调查了与集群，维度减少，流形学习，视觉以及最小的能量分区，差异和最小最大优化的相关工作。给出了谐波分析，计算机视觉，歧管学习和与我们工作的信号处理中的众多开放问题。本发明内容中的一部分工作基于纸张中查尔斯Fefferman的联合研究[48]，[49]，[50]，[51]。

translated by 谷歌翻译

Convergence of gradient descent for deep neural networks

Sourav Chatterjee

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2022-03-30

本文介绍了梯度下降到全球最低最低限度的新标准。该标准用于表明，当训练任何具有光滑且严格增加激活功能的前馈神经网络时，具有适当初始化的梯度下降将收敛到全局最小值，前提是输入维度大于或等于数据点的数量。先前工作的主要区别在于，网络的宽度可以是固定的数字，而不是作为数据点数量的某些倍数或功率而不现实地生长。

translated by 谷歌翻译

Learning Optimal Flows for Non-Equilibrium Importance Sampling

Yu Cao , Eric Vanden-Eijnden

分类： (统计)机器学习

2022-06-20

计算科学和统计推断中的许多应用都需要计算有关具有未知归一化常数的复杂高维分布以及这些常数的估计。在这里，我们开发了一种基于从简单的基本分布生成样品，沿着速度场生成的流量运输的方法，并沿这些流程线执行平均值。这种非平衡重要性采样（NEIS）策略是直接实施的，可用于具有任意目标分布的计算。在理论方面，我们讨论了如何将速度场定制到目标，并建立所提出的估计器是一个完美的估计器，具有零变化。我们还通过将基本分布映射到目标上，通过传输图绘制了NEIS和方法之间的连接。在计算方面，我们展示了如何使用深度学习来代表神经网络，并将其训练为零方差最佳。这些结果在高维示例上进行了数值说明，我们表明训练速度场可以将NEIS估计量的方差降低至6个数量级，而不是Vanilla估计量。我们还表明，NEIS在这些示例上的表现要比NEAL的退火重要性采样（AIS）更好。

translated by 谷歌翻译

What Happens after SGD Reaches Zero Loss? --A Mathematical Framework

Zhiyuan Li , Tianhao Wang , Sanjeev Arora

分类：机器学习 | (统计)机器学习

2021-10-13

了解随机梯度下降（SGD）的隐式偏见是深度学习的关键挑战之一，尤其是对于过度透明的模型，损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲，SGD $ \ eta $的学习率很小，SGD跟踪梯度下降（GD），直到它接近这种歧管为止，梯度噪声阻止了进一步的收敛。在这样的政权中，Blanc等人。（2020）证明，带有标签噪声的SGD局部降低了常规术语，损失的清晰度，$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger（1991）的想法提供了一个总体框架。它原则上允许使用随机微分方程（SDE）描述参数的限制动力学的SGD围绕此歧管的正规化效应（即“隐式偏见”）的正则化效应，这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果：（1）与Blanc等人的局部分析相比，对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。（2020）仅适用于$ \ eta^{ - 1.6} $ steps和（2）允许任意噪声协方差。作为一个应用程序，我们以任意大的初始化显示，标签噪声SGD始终可以逃脱内核制度，并且仅需要$ o（\ kappa \ ln d）$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $（Woodworth等，2020），而GD在内核制度中初始化的GD需要$ \ omega（d）$样本。该上限是最小值的最佳，并改善了先前的$ \ tilde {o}（\ kappa^2）$上限（Haochen等，2020）。

translated by 谷歌翻译

Minimax Optimal Regression over Sobolev Spaces via Laplacian Eigenmaps on Neighborhood Graphs

Alden Green , Sivaraman Balakrishnan , Ryan J. Tibshirani

分类： (统计)机器学习

2021-11-14

本文研究了基于Laplacian Eigenmaps（Le）的基于Laplacian EIGENMAPS（PCR-LE）的主要成分回归的统计性质，这是基于Laplacian Eigenmaps（Le）的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =（y_1，\ ldots，y_n）$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下，PCR-le达到估计的最佳速率（其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /（2s + d））} $）和健美的测试（$ n ^ { - 4s /（4s + d）$）。我们还表明PCR-LE是\ EMPH {歧管Adaptive}：即，我们考虑在小型内在维度$ M $的歧管上支持设计的情况，并为PCR-LE提供更快的界限Minimax估计（$ n ^ { - 2s /（2s + m）$）和测试（$ n ^ { - 4s /（4s + m）$）收敛率。有趣的是，这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说，对于这个问题的回归估计的特征似乎更容易，统计上讲，而不是估计特征本身。我们通过经验证据支持这些理论结果。

translated by 谷歌翻译

On the Stability Properties and the Optimization Landscape of Training Problems with Squared Loss for Neural Networks and General Nonlinear Conic Approximation Schemes

Constantin Christof

分类：机器学习

2020-11-06

我们研究了神经网络中平方损耗训练问题的优化景观和稳定性，但通用非线性圆锥近似方案。据证明，如果认为非线性圆锥近似方案是（以适当定义的意义）比经典线性近似方法更具表现力，并且如果存在不完美的标签向量，则在方位损耗的训练问题必须在其中不稳定感知其解决方案集在训练数据中的标签向量上不连续地取决于标签向量。我们进一步证明对这些不稳定属性负责的效果也是马鞍点出现的原因和杂散的局部最小值，这可能是从全球解决方案的任意遥远的，并且既不训练问题也不是训练问题的不稳定性通常，杂散局部最小值的存在可以通过向目标函数添加正则化术语来克服衡量近似方案中参数大小的目标函数。无论可实现的可实现性是否满足，后一种结果都被证明是正确的。我们表明，我们的分析特别适用于具有可变宽度的自由结插值方案和深层和浅层神经网络的培训问题，其涉及各种激活功能的任意混合（例如，二进制，六骨，Tanh，arctan，软标志， ISRU，Soft-Clip，SQNL，Relu，Lifley Relu，Soft-Plus，Bent Identity，Silu，Isrlu和ELU）。总之，本文的发现说明了神经网络和一般非线性圆锥近似仪器的改进近似特性以直接和可量化的方式与必须解决的优化问题的不期望的性质链接，以便训练它们。

translated by 谷歌翻译