我们调查识别来自域中的采样点的域的边界。我们向边界引入正常矢量的新估计,指向边界的距离,以及对边界条内的点位于边界的测试。可以有效地计算估算器,并且比文献中存在的估计更准确。我们为估算者提供严格的错误估计。此外,我们使用检测到的边界点来解决Point云上PDE的边值问题。我们在点云上证明了LAPLACH和EIKONG方程的错误估计。最后,我们提供了一系列数值实验,说明了我们的边界估计器,在点云上的PDE应用程序的性能,以及在图像数据集上测试。
translated by 谷歌翻译
We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.
translated by 谷歌翻译
本文研究了基于Laplacian Eigenmaps(Le)的基于Laplacian EIGENMAPS(PCR-LE)的主要成分回归的统计性质,这是基于Laplacian Eigenmaps(Le)的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =(y_1,\ ldots,y_n)$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下,PCR-le达到估计的最佳速率(其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /(2s + d) )} $)和健美的测试($ n ^ { - 4s /(4s + d)$)。我们还表明PCR-LE是\ EMPH {歧管Adaptive}:即,我们考虑在小型内在维度$ M $的歧管上支持设计的情况,并为PCR-LE提供更快的界限Minimax估计($ n ^ { - 2s /(2s + m)$)和测试($ n ^ { - 4s /(4s + m)$)收敛率。有趣的是,这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说,对于这个问题的回归估计的特征似乎更容易,统计上讲,而不是估计特征本身。我们通过经验证据支持这些理论结果。
translated by 谷歌翻译
In this work we study statistical properties of graph-based algorithms for multi-manifold clustering (MMC). In MMC the goal is to retrieve the multi-manifold structure underlying a given Euclidean data set when this one is assumed to be obtained by sampling a distribution on a union of manifolds $\mathcal{M} = \mathcal{M}_1 \cup\dots \cup \mathcal{M}_N$ that may intersect with each other and that may have different dimensions. We investigate sufficient conditions that similarity graphs on data sets must satisfy in order for their corresponding graph Laplacians to capture the right geometric information to solve the MMC problem. Precisely, we provide high probability error bounds for the spectral approximation of a tensorized Laplacian on $\mathcal{M}$ with a suitable graph Laplacian built from the observations; the recovered tensorized Laplacian contains all geometric information of all the individual underlying manifolds. We provide an example of a family of similarity graphs, which we call annular proximity graphs with angle constraints, satisfying these sufficient conditions. We contrast our family of graphs with other constructions in the literature based on the alignment of tangent planes. Extensive numerical experiments expand the insights that our theory provides on the MMC problem.
translated by 谷歌翻译
本文提出了一个无网格的计算框架和机器学习理论,用于在未知的歧管上求解椭圆形PDE,并根据扩散地图(DM)和深度学习确定点云。 PDE求解器是作为监督的学习任务制定的,以解决最小二乘回归问题,该问题施加了近似PDE的代数方程(如果适用)。该代数方程涉及通过DM渐近扩展获得的图形拉平型矩阵,该基质是二阶椭圆差差算子的一致估计器。最终的数值方法是解决受神经网络假设空间解决方案的高度非凸经验最小化问题。在体积良好的椭圆PDE设置中,当假设空间由具有无限宽度或深度的神经网络组成时,我们表明,经验损失函数的全球最小化器是大型训练数据极限的一致解决方案。当假设空间是一个两层神经网络时,我们表明,对于足够大的宽度,梯度下降可以识别经验损失函数的全局最小化器。支持数值示例证明了解决方案的收敛性,范围从具有低和高共限度的简单歧管到具有和没有边界的粗糙表面。我们还表明,所提出的NN求解器可以在具有概括性误差的新数据点上稳健地概括PDE解决方案,这些误差几乎与训练错误相同,从而取代了基于Nystrom的插值方法。
translated by 谷歌翻译
Lipschitz Learning是一种基于图的半监督学习方法,其中一个人通过在加权图上求解Infinity Laplace方程来扩展标签到未标记的数据集的标签。在这项工作中,随着顶点的数量生长到无穷大,我们证明了图形无穷大行道方程的解决方案的统一收敛速率。它们的连续内容是绝对最小化LipsChitz扩展,即关于从图形顶点采样图形顶点的域的测地度量。我们在图表权重的非常一般的假设下工作,标记顶点的集合和连续域。我们的主要贡献是,即使对于非常稀疏的图形,我们也获得了定量的收敛速率,因为它们通常出现在半监督学习等应用中。特别是,我们的框架允许绘制到连接半径的图形带宽。为了证明,我们首先显示图表距离函数的定量收敛性声明,在连续体中的测量距离功能。使用“与距离函数的比较”原理,我们可以将这些收敛语句传递给无限谐波函数,绝对最小化Lipschitz扩展。
translated by 谷歌翻译
当图形亲和力矩阵是由$ n $随机样品构建的,在$ d $ d $维歧管上构建图形亲和力矩阵时,这项工作研究图形拉普拉斯元素与拉普拉斯 - 贝特拉米操作员的光谱收敛。通过分析DIRICHLET形成融合并通过歧管加热核卷积构建候选本本函数,我们证明,使用高斯内核,可以设置核band band band band parame $ \ epsilon \ sim \ sim(\ log n/ n/ n)^{1/(D /2+2)} $使得特征值收敛率为$ n^{ - 1/(d/2+2)} $,并且2-norm中的特征向量收敛率$ n^{ - 1/(d+) 4)} $;当$ \ epsilon \ sim(\ log n/n)^{1/(d/2+3)} $时,eigenValue和eigenVector速率均为$ n^{ - 1/(d/2+3)} $。这些费率最高为$ \ log n $因素,并被证明是有限的许多低洼特征值。当数据在歧管上均匀采样以及密度校正的图laplacian(在两个边的度矩阵中归一化)时,结果适用于非归一化和随机漫步图拉普拉斯laplacians laplacians laplacians以及密度校正的图laplacian(其中两侧的级别矩阵)采样数据。作为中间结果,我们证明了密度校正图拉普拉斯的新点和差异形式的收敛速率。提供数值结果以验证理论。
translated by 谷歌翻译
在本文中,我们研究了针对泊松方程的解决方案的概率和神经网络近似,但在$ \ mathbb {r}^d $的一般边界域中,较旧或$ c^2 $数据。我们的目标是两个基本目标。首先,也是最重要的是,我们证明了泊松方程的解决方案可以通过蒙特卡洛方法在sup-norm中进行数值近似,但基于球形算法的步行略有变化。这提供了相对于相对于相对于相对于有效的估计值规定的近似误差且没有维度的诅咒。此外,样品的总数不取决于执行近似的点。作为第二个目标,我们表明获得的蒙特卡洛求解器renders relu relu深层神经网络(DNN)解决泊松问题的解决方案,其大小在尺寸$ d $以及所需的错误中大多数取决于多项式。和低多项式复杂性。
translated by 谷歌翻译
我们研究了趋势过滤的多元版本,称为Kronecker趋势过滤或KTF,因为设计点以$ D $维度形成格子。 KTF是单变量趋势过滤的自然延伸(Steidl等,2006; Kim等人,2009; Tibshirani,2014),并通过最大限度地减少惩罚最小二乘问题,其罚款术语总和绝对(高阶)沿每个坐标方向估计参数的差异。相应的惩罚运算符可以编写单次趋势过滤惩罚运营商的Kronecker产品,因此名称Kronecker趋势过滤。等效,可以在$ \ ell_1 $ -penalized基础回归问题上查看KTF,其中基本功能是下降阶段函数的张量产品,是一个分段多项式(离散样条)基础,基于单变量趋势过滤。本文是Sadhanala等人的统一和延伸结果。 (2016,2017)。我们开发了一套完整的理论结果,描述了$ k \ grone 0 $和$ d \ geq 1 $的$ k ^ {\ mathrm {th}} $ over kronecker趋势过滤的行为。这揭示了许多有趣的现象,包括KTF在估计异构平滑的功能时KTF的优势,并且在$ d = 2(k + 1)$的相位过渡,一个边界过去(在高维对 - 光滑侧)线性泡沫不能完全保持一致。我们还利用Tibshirani(2020)的离散花键来利用最近的结果,特别是离散的花键插值结果,使我们能够将KTF估计扩展到恒定时间内的任何偏离晶格位置(与晶格数量的大小无关)。
translated by 谷歌翻译
在许多应用中,我们获得了流畅的函数的嘈杂模态样本的访问,其目标是鲁棒地解开样本,即估计该功能的原始样本。在最近的工作中,Cucuringu和Tyagi通过首先将它们代表在单元复杂圆上,然后解决平滑度规则化最小二乘问题 - Laplacian的平滑度适用的Proximity Graph的平滑度$ G $ - ON单位圆的产品歧管。这个问题是二次受约束的二次程序(QCQP),其是非凸显的,因此提出解决其球形放松导致信任区域子问题(TRS)。就理论担保而言,派生$ \ ell_2 $错误界限(trs)。然而,这些界限通常弱,并且没有真正证明由(TRS)进行的去噪。在这项工作中,我们分析(TRS)以及(QCQP)的不受约束的放松。对于这些估算器,我们在高斯噪声的设置中提供了一种精致的分析,并导出了噪音制度,其中他们可否证明模数观察W.R.T $ \ ell_2 $常规。分析在$ G $是任何连接的图形中的常规设置中进行。
translated by 谷歌翻译
由于在数据稀缺的设置中,交叉验证的性能不佳,我们提出了一个新颖的估计器,以估计数据驱动的优化策略的样本外部性能。我们的方法利用优化问题的灵敏度分析来估计梯度关于数据中噪声量的最佳客观值,并利用估计的梯度将策略的样本中的表现为依据。与交叉验证技术不同,我们的方法避免了为测试集牺牲数据,在训练和因此非常适合数据稀缺的设置时使用所有数据。我们证明了我们估计量的偏见和方差范围,这些问题与不确定的线性目标优化问题,但已知的,可能是非凸的,可行的区域。对于更专业的优化问题,从某种意义上说,可行区域“弱耦合”,我们证明结果更强。具体而言,我们在估算器的错误上提供明确的高概率界限,该估计器在策略类别上均匀地保持,并取决于问题的维度和策略类的复杂性。我们的边界表明,在轻度条件下,随着优化问题的尺寸的增长,我们的估计器的误差也会消失,即使可用数据的量仍然很小且恒定。说不同的是,我们证明我们的估计量在小型数据中的大规模政权中表现良好。最后,我们通过数值将我们提出的方法与最先进的方法进行比较,通过使用真实数据调度紧急医疗响应服务的案例研究。我们的方法提供了更准确的样本外部性能估计,并学习了表现更好的政策。
translated by 谷歌翻译
高斯内核及其传统的正常化(例如,行 - 故事)是评估数据点(通常用于流形学习和聚类的数据点之间的相似性)的流行方法,以及在图形上进行的监督和半监督学习。在许多实际情况下,数据可能会被禁止传统亲和力矩阵正确评估相似性的噪声损坏,尤其是在整个数据中的噪声幅度差异很大的情况下,例如在异性恋或异常值下。在噪声下提供更稳定行为的另一种方法是高斯内核的双随机归一化。在这项工作中,我们在一个环境中研究了这种归一化,在这种情况下,在高维空间中嵌入的低维歧管上的未知密度采样点,并因可能强大的,非相同的分布式,高斯的噪声而损坏。我们建立了双重随机亲和力矩阵的点浓度及其围绕某些种群形式的缩放因素。然后,我们利用这些结果来开发几种用于鲁棒推理的工具。首先,我们得出一个强大的密度估计器,该密度估计器在高维噪声下可以显着优于标准内核密度估计器。其次,我们提供估计噪声幅度的估计量,点式信号幅度以及清洁数据点之间的成对欧几里得距离。最后,我们得出了强大的图形拉普拉斯融合,这些标准差异近似于流行的歧管拉普拉斯人,包括拉普拉斯·贝特拉米操作员,表明可以在高维噪声下恢复歧管的局部几何形状。我们在仿真和实际单细胞RNA-sequering数据中举例说明了我们的结果。在后者中,我们表明我们提出的正常化对与不同细胞类型相关的技术变异性是可靠的。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
bump狩猎与样本空间中的发现有意义的数据子集,称为颠簸。这些传统上被认为是基础密度函数图中的模态或凹区域。我们根据概率密度的曲率功能定义抽象的凸起构建体。然后,我们探讨了涉及衍生物最高到二阶的几种替代特征。特别是,在多元案例中提出了适当的善良和加斯金斯原始凹凸凹凸的实施。此外,我们将探索性数据分析概念(如平均曲率和拉普拉斯人)在应用域中产生良好结果。我们的方法可以通过插件内核密度估计器来解决曲率功能的近似。我们提供了理论上的结果,以确保在Hausdorff距离内的凸界边界的渐近一致性,并具有负担得起的收敛速度。我们还提出了渐近有效且一致的置信区域边界曲率凸起。该理论通过NBA,MLB和NFL的数据集的体育分析中的几种用例来说明。我们得出的结论是,不同的曲率实例有效地结合了以产生洞察力的可视化。
translated by 谷歌翻译
Consider $n$ points independently sampled from a density $p$ of class $\mathcal{C}^2$ on a smooth compact $d$-dimensional sub-manifold $\mathcal{M}$ of $\mathbb{R}^m$, and consider the generator of a random walk visiting these points according to a transition kernel $K$. We study the almost sure uniform convergence of this operator to the diffusive Laplace-Beltrami operator when $n$ tends to infinity. This work extends known results of the past 15 years. In particular, our result does not require the kernel $K$ to be continuous, which covers the cases of walks exploring $k$NN-random and geometric graphs, and convergence rates are given. The distance between the random walk generator and the limiting operator is separated into several terms: a statistical term, related to the law of large numbers, is treated with concentration tools and an approximation term that we control with tools from differential geometry. The convergence of $k$NN Laplacians is detailed.
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
在本文中,我们研究了使用深丽升方法(DRM)和物理信息的神经网络(Pinns)从随机样品求解椭圆局部微分方程(PDE)的深度学习技术的统计限制。为了简化问题,我们专注于原型椭圆PDE:SCHR \“odinginger方程,具有零的Dirichlet边界条件,其在量子 - 机械系统中具有广泛的应用。我们为两种方法建立了上下界,通过快速速率泛化绑定并发地改善了这个问题的上限。我们发现当前的深ritz方法是次优的,提出修改版本。我们还证明了Pinn和DRM的修改版本可以实现Minimax SoboLev空间的最佳限制。经验上,近期工作表明,根据权力法,我们提供了培训训练的深层模型精度,我们提供了计算实验,以显示对深PDE求解器的尺寸依赖权力法的类似行为。
translated by 谷歌翻译
内元化图亲和力矩阵的双性化归一化为基于图的数据分析中的图形laplacian方法提供了一种替代归一化方案,并且可以通过sinkhorn-knopp(SK)迭代在实践中有效地计算出来。本文证明了双性化标准化图拉普拉斯(Laplacian)与laplacian的融合,当$ n $数据点为i.i.d.从嵌入可能高维空间中的一般$ d $维歧管中取样。在$ n \ to \ infty $和内核带宽$ \ epsilon \ to 0 $的某些联合限制下,图Laplacian操作员的点融合率(2-Norm)被证明为$ O(N^{n^{ -1/(d/2+3)})$在有限的大$ n $上,到log racture,在$ \ epsilon \ sim n^{ - 1/(d/2+3)} $时实现。当歧管数据被异常噪声损坏时,我们从理论上证明了图形laplacian点的一致性,该图与清洁歧管数据的速率匹配到与噪声矢量相互内部产物的界限成比例的附加错误项。我们的分析表明,在本文中考虑的设置下,不是精确的双性化归一化,而是大约将达到相同的一致性率。在分析的激励下,我们提出了一个近似且受约束的矩阵缩放问题,可以通过早期终止的SK迭代来解决,并适用于模拟的歧管数据既干净又具有离群的噪声。数值实验支持我们的理论结果,并显示了双形式归一化图拉普拉斯对异常噪声的鲁棒性。
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
在(特殊的)平滑样条问题中,一个人考虑了二次数据保真惩罚和拉普拉斯正则化的变异问题。可以通过用聚拉普拉斯的正规机构代替拉普拉斯的常规机构来获得较高的规律性。该方法很容易适应图,在这里,我们考虑在完全监督的,非参数,噪声损坏的回归问题中图形多拉普拉斯正则化。特别是,给定一个数据集$ \ {x_i \} _ {i = 1}^n $和一组嘈杂的标签$ \ {y_i \} _ {i = 1}^n \ subset \ subset \ mathbb {r}令$ u_n:\ {x_i \} _ {i = 1}^n \ to \ mathbb {r} $是由数据保真项组成的能量的最小化器,由数据保真术语和适当缩放的图形poly-laplacian项组成。当$ y_i = g(x_i)+\ xi_i $,对于IID噪声$ \ xi_i $,并使用几何随机图,我们在大型中识别(高概率)$ u_n $ to $ g $的收敛速率数据限制$ n \ to \ infty $。此外,我们的速率(到对数)与通常的平滑样条模型中已知的收敛速率相吻合。
translated by 谷歌翻译