当图形亲和力矩阵是由$ n $随机样品构建的,在$ d $ d $维歧管上构建图形亲和力矩阵时,这项工作研究图形拉普拉斯元素与拉普拉斯 - 贝特拉米操作员的光谱收敛。通过分析DIRICHLET形成融合并通过歧管加热核卷积构建候选本本函数,我们证明,使用高斯内核,可以设置核band band band band parame $ \ epsilon \ sim \ sim(\ log n/ n/ n)^{1/(D /2+2)} $使得特征值收敛率为$ n^{ - 1/(d/2+2)} $,并且2-norm中的特征向量收敛率$ n^{ - 1/(d+) 4)} $;当$ \ epsilon \ sim(\ log n/n)^{1/(d/2+3)} $时,eigenValue和eigenVector速率均为$ n^{ - 1/(d/2+3)} $。这些费率最高为$ \ log n $因素,并被证明是有限的许多低洼特征值。当数据在歧管上均匀采样以及密度校正的图laplacian(在两个边的度矩阵中归一化)时,结果适用于非归一化和随机漫步图拉普拉斯laplacians laplacians laplacians以及密度校正的图laplacian(其中两侧的级别矩阵)采样数据。作为中间结果,我们证明了密度校正图拉普拉斯的新点和差异形式的收敛速率。提供数值结果以验证理论。
translated by 谷歌翻译
内元化图亲和力矩阵的双性化归一化为基于图的数据分析中的图形laplacian方法提供了一种替代归一化方案,并且可以通过sinkhorn-knopp(SK)迭代在实践中有效地计算出来。本文证明了双性化标准化图拉普拉斯(Laplacian)与laplacian的融合,当$ n $数据点为i.i.d.从嵌入可能高维空间中的一般$ d $维歧管中取样。在$ n \ to \ infty $和内核带宽$ \ epsilon \ to 0 $的某些联合限制下,图Laplacian操作员的点融合率(2-Norm)被证明为$ O(N^{n^{ -1/(d/2+3)})$在有限的大$ n $上,到log racture,在$ \ epsilon \ sim n^{ - 1/(d/2+3)} $时实现。当歧管数据被异常噪声损坏时,我们从理论上证明了图形laplacian点的一致性,该图与清洁歧管数据的速率匹配到与噪声矢量相互内部产物的界限成比例的附加错误项。我们的分析表明,在本文中考虑的设置下,不是精确的双性化归一化,而是大约将达到相同的一致性率。在分析的激励下,我们提出了一个近似且受约束的矩阵缩放问题,可以通过早期终止的SK迭代来解决,并适用于模拟的歧管数据既干净又具有离群的噪声。数值实验支持我们的理论结果,并显示了双形式归一化图拉普拉斯对异常噪声的鲁棒性。
translated by 谷歌翻译
本文研究了基于Laplacian Eigenmaps(Le)的基于Laplacian EIGENMAPS(PCR-LE)的主要成分回归的统计性质,这是基于Laplacian Eigenmaps(Le)的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =(y_1,\ ldots,y_n)$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下,PCR-le达到估计的最佳速率(其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /(2s + d) )} $)和健美的测试($ n ^ { - 4s /(4s + d)$)。我们还表明PCR-LE是\ EMPH {歧管Adaptive}:即,我们考虑在小型内在维度$ M $的歧管上支持设计的情况,并为PCR-LE提供更快的界限Minimax估计($ n ^ { - 2s /(2s + m)$)和测试($ n ^ { - 4s /(4s + m)$)收敛率。有趣的是,这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说,对于这个问题的回归估计的特征似乎更容易,统计上讲,而不是估计特征本身。我们通过经验证据支持这些理论结果。
translated by 谷歌翻译
我们系统地{研究基于内核的图形laplacian(gl)的光谱},该图在非null设置中由高维和嘈杂的随机点云构成,其中点云是从低维几何对象(如歧管)中采样的,被高维噪音破坏。我们量化了信号和噪声在信号噪声比(SNR)的不同状态下如何相互作用,并报告GL的{所产生的特殊光谱行为}。此外,我们还探索了GL频谱上的内核带宽选择,而SNR的不同状态则导致带宽的自适应选择,这与实际数据中的共同实践相吻合。该结果为数据集嘈杂时的从业人员提供了理论支持。
translated by 谷歌翻译
在非参数回归中,落在欧几里德空间的限制子集中是常见的。基于典型的内核的方法,不考虑收集观察的域的内在几何学可能产生次优效果。在本文中,我们专注于在高斯过程(GP)模型的背景下解决这个问题,提出了一种新的基于Graplacian的GPS(GL-GPS),该GPS(GL-GPS),该GPS(GL-GPS)学习尊重输入域几何的协方差。随着热核的难以计算地,我们使用Prop Laplacian(GL)的有限许多特征方来近似协方差。 GL由内核构成,仅取决于输入的欧几里德坐标。因此,我们可以从关于内核的完整知识中受益,以通过NYSTR \“{o} M型扩展来将协方差结构扩展到新到达的样本。我们为GL-GP方法提供了实质性的理论支持,并说明了性能提升各种应用。
translated by 谷歌翻译
高斯内核及其传统的正常化(例如,行 - 故事)是评估数据点(通常用于流形学习和聚类的数据点之间的相似性)的流行方法,以及在图形上进行的监督和半监督学习。在许多实际情况下,数据可能会被禁止传统亲和力矩阵正确评估相似性的噪声损坏,尤其是在整个数据中的噪声幅度差异很大的情况下,例如在异性恋或异常值下。在噪声下提供更稳定行为的另一种方法是高斯内核的双随机归一化。在这项工作中,我们在一个环境中研究了这种归一化,在这种情况下,在高维空间中嵌入的低维歧管上的未知密度采样点,并因可能强大的,非相同的分布式,高斯的噪声而损坏。我们建立了双重随机亲和力矩阵的点浓度及其围绕某些种群形式的缩放因素。然后,我们利用这些结果来开发几种用于鲁棒推理的工具。首先,我们得出一个强大的密度估计器,该密度估计器在高维噪声下可以显着优于标准内核密度估计器。其次,我们提供估计噪声幅度的估计量,点式信号幅度以及清洁数据点之间的成对欧几里得距离。最后,我们得出了强大的图形拉普拉斯融合,这些标准差异近似于流行的歧管拉普拉斯人,包括拉普拉斯·贝特拉米操作员,表明可以在高维噪声下恢复歧管的局部几何形状。我们在仿真和实际单细胞RNA-sequering数据中举例说明了我们的结果。在后者中,我们表明我们提出的正常化对与不同细胞类型相关的技术变异性是可靠的。
translated by 谷歌翻译
In this work we study statistical properties of graph-based algorithms for multi-manifold clustering (MMC). In MMC the goal is to retrieve the multi-manifold structure underlying a given Euclidean data set when this one is assumed to be obtained by sampling a distribution on a union of manifolds $\mathcal{M} = \mathcal{M}_1 \cup\dots \cup \mathcal{M}_N$ that may intersect with each other and that may have different dimensions. We investigate sufficient conditions that similarity graphs on data sets must satisfy in order for their corresponding graph Laplacians to capture the right geometric information to solve the MMC problem. Precisely, we provide high probability error bounds for the spectral approximation of a tensorized Laplacian on $\mathcal{M}$ with a suitable graph Laplacian built from the observations; the recovered tensorized Laplacian contains all geometric information of all the individual underlying manifolds. We provide an example of a family of similarity graphs, which we call annular proximity graphs with angle constraints, satisfying these sufficient conditions. We contrast our family of graphs with other constructions in the literature based on the alignment of tangent planes. Extensive numerical experiments expand the insights that our theory provides on the MMC problem.
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
我们研究具有流形结构的物理系统的langevin动力学$ \ MATHCAL {M} \ subset \ Mathbb {r}^p $,基于收集的样品点$ \ {\ Mathsf {x} _i \} _ {_i \} _ {i = 1} ^n \ subset \ mathcal {m} $探测未知歧管$ \ mathcal {m} $。通过扩散图,我们首先了解反应坐标$ \ {\ MATHSF {y} _i \} _ {i = 1}^n \ subset \ subset \ mathcal {n} $对应于$ \ {\ {\ mathsf {x} _i _i \ \ \ \ \ _i \ \ \ \ {x} } _ {i = 1}^n $,其中$ \ mathcal {n} $是$ \ mathcal {m} $的歧义diffeomorphic,并且与$ \ mathbb {r}^\ ell $ insometryally嵌入了$ \ ell $,带有$ \ ell \ ell \ ell \ ell \ el \ ell \ el \ el \ ell \ el \ LL P $。在$ \ Mathcal {n} $上的诱导Langevin动力学在反应坐标方面捕获了缓慢的时间尺度动力学,例如生化反应的构象变化。要构建$ \ Mathcal {n} $上的Langevin Dynamics的高效稳定近似,我们利用反应坐标$ \ MATHSF {y} n effertold $ \ Mathcal {n} $上的歧管$ \ Mathcal {n} $上的相应的fokker-planck方程$。我们为此Fokker-Planck方程提出了可实施的,无条件稳定的数据驱动的有限卷方程,该方程将自动合并$ \ Mathcal {n} $的歧管结构。此外,我们在$ \ Mathcal {n} $上提供了有限卷方案的加权$ L^2 $收敛分析。所提出的有限体积方案在$ \ {\ Mathsf {y} _i \} _ {i = 1}^n $上导致Markov链,并具有近似的过渡概率和最近的邻居点之间的跳跃速率。在无条件稳定的显式时间离散化之后,数据驱动的有限体积方案为$ \ Mathcal {n} $上的Langevin Dynamics提供了近似的Markov进程,并且近似的Markov进程享有详细的平衡,Ergodicity和其他良好的属性。
translated by 谷歌翻译
We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.
translated by 谷歌翻译
我们调查识别来自域中的采样点的域的边界。我们向边界引入正常矢量的新估计,指向边界的距离,以及对边界条内的点位于边界的测试。可以有效地计算估算器,并且比文献中存在的估计更准确。我们为估算者提供严格的错误估计。此外,我们使用检测到的边界点来解决Point云上PDE的边值问题。我们在点云上证明了LAPLACH和EIKONG方程的错误估计。最后,我们提供了一系列数值实验,说明了我们的边界估计器,在点云上的PDE应用程序的性能,以及在图像数据集上测试。
translated by 谷歌翻译
散射变换是一种基于小波的多层转换,最初是作为卷积神经网络(CNN)的模型引入的,它在我们对这些网络稳定性和不变性属性的理解中发挥了基础作用。随后,人们普遍兴趣将CNN的成功扩展到具有非欧盟结构的数据集,例如图形和歧管,从而导致了几何深度学习的新兴领域。为了提高我们对这个新领域中使用的体系结构的理解,几篇论文提出了对非欧几里得数据结构(如无方向的图形和紧凑的Riemannian歧管)的散射转换的概括。在本文中,我们介绍了一个通用的统一模型,用于测量空间上的几何散射。我们提出的框架包括以前的几何散射作品作为特殊情况,但也适用于更通用的设置,例如有向图,签名图和带边界的歧管。我们提出了一个新标准,该标准可以识别哪些有用表示应该不变的组,并表明该标准足以确保散射变换具有理想的稳定性和不变性属性。此外,我们考虑从随机采样未知歧管获得的有限度量空间。我们提出了两种构造数据驱动图的方法,在该图上相关的图形散射转换近似于基础歧管上的散射变换。此外,我们使用基于扩散图的方法来证明这些近似值之一的收敛速率的定量估计值,因为样品点的数量趋向于无穷大。最后,我们在球形图像,有向图和高维单细胞数据上展示了方法的实用性。
translated by 谷歌翻译
在(特殊的)平滑样条问题中,一个人考虑了二次数据保真惩罚和拉普拉斯正则化的变异问题。可以通过用聚拉普拉斯的正规机构代替拉普拉斯的常规机构来获得较高的规律性。该方法很容易适应图,在这里,我们考虑在完全监督的,非参数,噪声损坏的回归问题中图形多拉普拉斯正则化。特别是,给定一个数据集$ \ {x_i \} _ {i = 1}^n $和一组嘈杂的标签$ \ {y_i \} _ {i = 1}^n \ subset \ subset \ mathbb {r}令$ u_n:\ {x_i \} _ {i = 1}^n \ to \ mathbb {r} $是由数据保真项组成的能量的最小化器,由数据保真术语和适当缩放的图形poly-laplacian项组成。当$ y_i = g(x_i)+\ xi_i $,对于IID噪声$ \ xi_i $,并使用几何随机图,我们在大型中识别(高概率)$ u_n $ to $ g $的收敛速率数据限制$ n \ to \ infty $。此外,我们的速率(到对数)与通常的平滑样条模型中已知的收敛速率相吻合。
translated by 谷歌翻译
Consider $n$ points independently sampled from a density $p$ of class $\mathcal{C}^2$ on a smooth compact $d$-dimensional sub-manifold $\mathcal{M}$ of $\mathbb{R}^m$, and consider the generator of a random walk visiting these points according to a transition kernel $K$. We study the almost sure uniform convergence of this operator to the diffusive Laplace-Beltrami operator when $n$ tends to infinity. This work extends known results of the past 15 years. In particular, our result does not require the kernel $K$ to be continuous, which covers the cases of walks exploring $k$NN-random and geometric graphs, and convergence rates are given. The distance between the random walk generator and the limiting operator is separated into several terms: a statistical term, related to the law of large numbers, is treated with concentration tools and an approximation term that we control with tools from differential geometry. The convergence of $k$NN Laplacians is detailed.
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
我们提出了一种基于langevin扩散的算法,以在球体的产物歧管上进行非凸优化和采样。在对数Sobolev不平等的情况下,我们根据Kullback-Leibler Divergence建立了有限的迭代迭代收敛到Gibbs分布的保证。我们表明,有了适当的温度选择,可以保证,次级最小值的次数差距很小,概率很高。作为一种应用,我们考虑了使用对角线约束解决半决赛程序(SDP)的burer- monteiro方法,并分析提出的langevin算法以优化非凸目标。特别是,我们为Burer建立了对数Sobolev的不平等现象 - 当没有虚假的局部最小值时,但在鞍点下,蒙蒂罗问题。结合结果,我们为SDP和最大切割问题提供了全局最佳保证。更确切地说,我们证明了Langevin算法在$ \ widetilde {\ omega}(\ epsilon^{ - 5})$ tererations $ tererations $ \ widetilde {\ omega}(\ omega}中,具有很高的概率。
translated by 谷歌翻译
Lipschitz Learning是一种基于图的半监督学习方法,其中一个人通过在加权图上求解Infinity Laplace方程来扩展标签到未标记的数据集的标签。在这项工作中,随着顶点的数量生长到无穷大,我们证明了图形无穷大行道方程的解决方案的统一收敛速率。它们的连续内容是绝对最小化LipsChitz扩展,即关于从图形顶点采样图形顶点的域的测地度量。我们在图表权重的非常一般的假设下工作,标记顶点的集合和连续域。我们的主要贡献是,即使对于非常稀疏的图形,我们也获得了定量的收敛速率,因为它们通常出现在半监督学习等应用中。特别是,我们的框架允许绘制到连接半径的图形带宽。为了证明,我们首先显示图表距离函数的定量收敛性声明,在连续体中的测量距离功能。使用“与距离函数的比较”原理,我们可以将这些收敛语句传递给无限谐波函数,绝对最小化Lipschitz扩展。
translated by 谷歌翻译
通过内核矩阵或图形laplacian矩阵代表数据点的光谱方法已成为无监督数据分析的主要工具。在许多应用程序场景中,可以通过神经网络嵌入的光谱嵌入可以在数据样本上进行训练,这为实现自动样本外扩展以及计算可扩展性提供了一种有希望的方法。在Spectralnet的原始论文中采用了这种方法(Shaham等人,2018年),我们称之为Specnet1。当前的论文引入了一种名为SpecNet2的新神经网络方法,以计算光谱嵌入,该方法优化了特征问题的等效目标,并删除了SpecNet1中的正交层。 SpecNet2还允许通过通过梯度公式跟踪每个数据点的邻居来分离图形亲和力矩阵的行采样和列。从理论上讲,我们证明了新的无正交物质目标的任何局部最小化均显示出领先的特征向量。此外,证明了使用基于批处理的梯度下降法的这种新的无正交目标的全局收敛。数值实验证明了在模拟数据和图像数据集上Specnet2的性能和计算效率的提高。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
假设$ g $是根据所谓的HyperGraph随机块模型(HSBM)产生的,我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明,基于非折线操作员的光谱方法具有很高的概率,可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱,并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果,可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题,该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知,这是第一种可证明,有效的光谱算法,它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。
translated by 谷歌翻译