智能论文笔记

Probabilistic Inverse Optimal Transport

Wei-Ting Chiu , Pei Wang , Patrick Shafto

分类： (统计)机器学习 | 机器学习

2021-12-17

最优传输（OT）正式确定在给定成本矩阵的概率测量之间找到最佳耦合的问题。推断给出耦合的成本的逆问题是逆最佳传输（物联网）。IOT不太明朗地理解OT。我们使用熵正规的OT研究的工具来正式化和系统地分析物联网的属性。理论贡献包括横向比等同成本的歧管的表征，模型前沿的含义，以及MCMC采样器的推导。经验贡献包括对基本实施例和仿真验证理论结果的基本实施例的串联等效效果的可视化。

translated by 谷歌翻译

Learning Topic Models: Identifiability and Finite-Sample Analysis

Yinyin Chen , Shishuang He , Yun Yang , Feng Liang

分类： (统计)机器学习 | 机器学习

2021-10-08

主题模型为学习，提取和发现大型文本语料库中的潜在结构提供了有用的文本挖掘工具。尽管已经为主题建模提出了大量方法，但文献缺乏是对潜在主题估计的统计识别性和准确性的正式理论研究。在本文中，我们提出了一个基于特定的集成可能性的潜在主题的最大似然估计量（MLE），该主题自然地与该概念相连，在计算几何学中，体积最小化。我们的理论介绍了主题模型可识别性的一组新几何条件，这些条件比常规的可分离性条件弱，这些条件通常依赖于纯主题文档或锚定词的存在。较弱的条件允许更广泛的调查，因此可能会更加富有成果的研究。我们对拟议的估计器进行有限样本误差分析，并讨论我们的结果与先前研究的结果之间的联系。我们以使用模拟和真实数据集的实证研究结论。

translated by 谷歌翻译

Bayesian Learning with Wasserstein Barycenters

Julio Backhoff-Veraguas , Joaquin Fontbona , Gonzalo Rios , Felipe Tobar

分类： (统计)机器学习 | 机器学习

2018-05-28

We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.

translated by 谷歌翻译

Bi-stochastically normalized graph Laplacian: convergence to manifold Laplacian and robustness to outlier noise

Xiuyuan Cheng , Boris Landa

分类：机器学习 | (统计)机器学习

2022-06-22

内元化图亲和力矩阵的双性化归一化为基于图的数据分析中的图形laplacian方法提供了一种替代归一化方案，并且可以通过sinkhorn-knopp（SK）迭代在实践中有效地计算出来。本文证明了双性化标准化图拉普拉斯（Laplacian）与laplacian的融合，当$ n $数据点为i.i.d.从嵌入可能高维空间中的一般$ d $维歧管中取样。在$ n \ to \ infty $和内核带宽$ \ epsilon \ to 0 $的某些联合限制下，图Laplacian操作员的点融合率（2-Norm）被证明为$ O（N^{n^{ -1/（d/2+3）}）$在有限的大$ n $上，到log racture，在$ \ epsilon \ sim n^{ - 1/（d/2+3）} $时实现。当歧管数据被异常噪声损坏时，我们从理论上证明了图形laplacian点的一致性，该图与清洁歧管数据的速率匹配到与噪声矢量相互内部产物的界限成比例的附加错误项。我们的分析表明，在本文中考虑的设置下，不是精确的双性化归一化，而是大约将达到相同的一致性率。在分析的激励下，我们提出了一个近似且受约束的矩阵缩放问题，可以通过早期终止的SK迭代来解决，并适用于模拟的歧管数据既干净又具有离群的噪声。数值实验支持我们的理论结果，并显示了双形式归一化图拉普拉斯对异常噪声的鲁棒性。

translated by 谷歌翻译

Assignment Flows for Data Labeling on Graphs: Convergence and Stability

Artjom Zern , Alexander Zeilmann , Christoph Schnörr

分类：神经与进化计算

2020-02-26

最近在J. Math中引入的分配流程。成像和视觉58/2（2017）构成了一种高维动态系统，其在基本统计歧管上发展，并执行任何度量空间中给出的数据的上下文标记（分类）。给定图形的顶点索引数据点并定义邻域的系统。这些邻域与非负重量参数一起定义标签分配的演变的正则化，通过由信息几何的仿射电子连接引起的几何平均来定义对数据点的数量。关于进化游戏动态，分配流程可以被称为由几何平均耦合的复制器方程的大型系统。本文在重量参数上建立了保证连续时间分配流程的重量参数（标签）的融合，最多可忽略不计在实际数据的实际数据时不会遇到的情况。此外，我们对流动的吸引子分类并量化相应的吸引力盆地。这为分配流提供了会聚保证，该分配流程扩展到不同时间分配流程，这些流量是应用跑步-Kutta-munthe-KAAS方案的用于分配流的数值几何集成。若干反作用例说明违反条件可能需要关于上下文数据分类的分配流的不利行为。

translated by 谷歌翻译

Noise Estimation in Gaussian Process Regression

Siavash Ameli , Shawn C. Shadden

分类：机器学习 | (统计)机器学习

2022-06-20

我们开发了一个计算程序，以估计具有附加噪声的半摩托车高斯过程回归模型的协方差超参数。也就是说，提出的方法可用于有效估计相关误差的方差，以及基于最大化边际似然函数的噪声方差。我们的方法涉及适当地降低超参数空间的维度，以简化单变量的根发现问题的估计过程。此外，我们得出了边际似然函数及其衍生物的边界和渐近线，这对于缩小高参数搜索的初始范围很有用。使用数值示例，我们证明了与传统参数优化相比，提出方法的计算优势和鲁棒性。

translated by 谷歌翻译

Low-rank Optimal Transport: Approximation, Statistics and Debiasing

Meyer Scetbon , Marco Cuturi

分类： (统计)机器学习 | 机器学习

2022-05-24

最佳运输（OT）背后的匹配原理在机器学习中起着越来越重要的作用，这一趋势可以观察到ot被用来消除应用程序中的数据集（例如，单细胞基因组学）或用于改善更复杂的方法（例如，平衡平衡）注意变形金刚或自我监督的学习）。为了扩展到更具挑战性的问题，越来越多的共识要求求解器可以在数百万而不是数千点上运作。在\ cite {scetbon2021lowrank}中提倡的低级最佳运输方法（LOT）方法在这方面有几个诺言，并被证明可以补充更确定的熵正则化方法，能够将自己插入更复杂的管道中，例如Quadratic OT。批次将低成本耦合的搜索限制在具有低位级等级的耦合方面，在感兴趣的情况下产生线性时间算法。但是，只有在比较感兴趣的属性时，只有将批次方法视为熵正则化的合法竞争者，这些诺言才能实现，记分卡通常包含理论属性（统计复杂性和与其他方法）或实际方面（偏见，偏见，偏见，依据，，依据，统计复杂性和关系）高参数调整，初始化）。我们针对本文中的每个领域，以巩固计算OT中低级别方法的影响。

translated by 谷歌翻译

Asymptotic consistency of the WSINDy algorithm in the limit of continuum data

Daniel A. Messenger , David M. Bortz

分类：机器学习 | (统计)机器学习

2022-11-29

In this work we study the asymptotic consistency of the weak-form sparse identification of nonlinear dynamics algorithm (WSINDy) in the identification of differential equations from noisy samples of solutions. We prove that the WSINDy estimator is unconditionally asymptotically consistent for a wide class of models which includes the Navier-Stokes equations and the Kuramoto-Sivashinsky equation. We thus provide a mathematically rigorous explanation for the observed robustness to noise of weak-form equation learning. Conversely, we also show that in general the WSINDy estimator is only conditionally asymptotically consistent, yielding discovery of spurious terms with probability one if the noise level is above some critical threshold and the nonlinearities exhibit sufficiently fast growth. We derive explicit bounds on the critical noise threshold in the case of Gaussian white noise and provide an explicit characterization of these spurious terms in the case of trigonometric and/or polynomial model nonlinearities. However, a silver lining to this negative result is that if the data is suitably denoised (a simple moving average filter is sufficient), then we recover unconditional asymptotic consistency on the class of models with locally-Lipschitz nonlinearities. Altogether, our results reveal several important aspects of weak-form equation learning which may be used to improve future algorithms. We demonstrate our results numerically using the Lorenz system, the cubic oscillator, a viscous Burgers growth model, and a Kuramoto-Sivashinsky-type higher-order PDE.

translated by 谷歌翻译

Reversible Gromov-Monge Sampler for Simulation-Based Inference

YoonHaeng Hur , Wenxuan Guo , Tengyuan Liang

分类：机器学习 | (统计)机器学习

2021-09-28

本文介绍了一种新的基于仿真的推理程序，以对访问I.I.D. \ samples的多维概率分布进行建模和样本，从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge（RGM）距离的新概念的距离和同构的动机，并研究了RGM如何用于设计新的转换样本，以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$（\ cx，\ mu，c _ {\ cx}）$和$（\ cy，\ cy，\ nu，c _ {\ cy}）$从经验数据集中，估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $，反之亦然。我们研究了RGM距离的分析特性，并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是，与Brenier的两极分解结合了连接，我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛，表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。

translated by 谷歌翻译

Optimal Thinning of MCMC Output

Marina Riabiz , Wilson Chen , Jon Cockayne , Pawel Swietach , Steven A. Niederer , Lester Mackey , Chris. J. Oates

分类： (统计)机器学习

2020-05-08

利用启发式来评估收敛性和压缩马尔可夫链蒙特卡罗的输出可以在生产的经验逼近时是次优。通常，许多初始状态归因于“燃烧”并移除，而链条的其余部分是“变薄”，如果还需要压缩。在本文中，我们考虑回顾性地从样本路径中选择固定基数的状态的问题，使得由其经验分布提供的近似接近最佳。提出了一种基于核心稳定性差异的贪婪最小化的新方法，这适用于需要重压力的问题。理论结果保障方法的一致性及其有效性在常微分方程的参数推理的具体背景下证明了该效果。软件可在Python，R和Matlab中的Stein细化包中提供。

translated by 谷歌翻译

IAN: Iterated Adaptive Neighborhoods for manifold learning and dimensionality estimation

Luciano Dyballa , Steven W. Zucker

分类：机器学习 | 人工智能

2022-08-19

在机器学习中调用多种假设需要了解歧管的几何形状和维度，理论决定了需要多少样本。但是，在应用程序数据中，采样可能不均匀，歧管属性是未知的，并且（可能）非纯化；这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域（Gabriel）图开始，我们根据加权对应物进行迭代率稀疏。在每个步骤中，线性程序在全球范围内产生最小的社区，并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低，地球计算和维度估计。与标准算法的比较，例如使用K-Nearest邻居，证明了它们的实用性。

translated by 谷歌翻译

A rigorous introduction to linear models

Jun Lu

分类：机器学习 | (统计)机器学习

2021-05-10

这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍，并事先接触普通最小二乘。在机器学习中，输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是，这些算法中的大多数都基于简单的线性模型。然后，我们从不同视图中描述线性模型，并找到模型背后的属性和理论。线性模型是回归问题中的主要技术，其主要工具是最小平方近似，可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时，这是一个自然的选择，该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要，即线性模型背后的重要理论的重要性，例如分布理论，最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘，我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声，该模型产生了可能性，因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后，我们证明最小二乘是均值误差的最佳无偏线性模型，最重要的是，它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。

translated by 谷歌翻译

Function Classes for Identifiable Nonlinear Independent Component Analysis

Simon Buchholz , Michel Besserve , Bernhard Schölkopf

分类： (统计)机器学习 | 机器学习

2022-08-12

潜在变量模型（LVM）的无监督学习被广泛用于表示机器学习中的数据。当这样的模型反映了地面真理因素和将它们映射到观察的机制时，有理由期望它们允许在下游任务中进行概括。但是，众所周知，如果不在模型类上施加限制，通常无法实现此类可识别性保证。非线性独立组件分析是如此，其中LVM通过确定性的非线性函数将统计上独立的变量映射到观察。几个伪造解决方案的家庭完全适合数据，但是可以在通用环境中构建与地面真相因素相对应的。但是，最近的工作表明，限制此类模型的功能类别可能会促进可识别性。具体而言，已经提出了在Jacobian矩阵中收集的部分衍生物的函数类，例如正交坐标转换（OCT），它们强加了Jacobian柱的正交性。在目前的工作中，我们证明了这些转换的子类，共形图，是可识别的，并提供了新颖的理论结果，这表明OCT具有防止虚假解决方案家族在通用环境中破坏可识别性的特性。

translated by 谷歌翻译

Efficient Approximation of Gromov-Wasserstein Distance using Importance Sparsification

Mengyu Li , Jun Yu , Hongteng Xu , Cheng Meng

分类：机器学习 | (统计)机器学习

2022-05-26

作为度量度量空间的有效度量，Gromov-Wasserstein（GW）距离显示了匹配结构化数据（例如点云和图形）问题的潜力。但是，由于其较高的计算复杂性，其实践中的应用受到限制。为了克服这一挑战，我们提出了一种新颖的重要性稀疏方法，称为SPAR-GW，以有效地近似GW距离。特别是，我们的方法没有考虑密集的耦合矩阵，而是利用一种简单但有效的采样策略来构建稀疏的耦合矩阵，并使用几个计算进行更新。我们证明了所提出的SPAR-GW方法适用于GW距离，并以任意地面成本适用于GW距离，并且将复杂性从$ \ Mathcal {o}（n^4）$降低到$ \ Mathcal {o}（n^{2） +\ delta}）$对于任意的小$ \ delta> 0 $。另外，该方法可以扩展到近似GW距离的变体，包括熵GW距离，融合的GW距离和不平衡的GW距离。实验表明，在合成和现实世界任务中，我们的SPAR-GW对最先进的方法的优越性。

translated by 谷歌翻译

FuDGE: A Method to Estimate a Functional Differential Graph in a High-Dimensional Setting

Boxin Zhao , Y. Samuel Wang , Mladen Kolar

分类： (统计)机器学习 | 机器学习

2020-03-11

我们考虑使用共享结构估算两个功能无向图形模型之间的差异的问题。在许多应用中，数据自然被认为是随机函数的向量而不是标量的矢量。例如，脑电图（EEG）数据更适当地被视为时间函数。在这样的问题中，不仅可以每个样本测量的函数数量大，而且每个功能都是自身是无限尺寸对象，使估计模型参数具有挑战性。这进一步复杂于曲线通常仅在离散时间点观察到。我们首先定义一个功能差异图，捕获两个功能图形模型之间的差异，并在功能性差分图定义良好时正式表征。然后，我们提出了一种方法，软件，直接估计功能差异图，而不首先估计每个图形。这在各个图形是密集的情况下，这是特别有益的，但差分图是稀疏的。我们表明，融合始终估计功能差图，即使在全面观察和离散的功能路径的高维设置中也是如此。我们通过仿真研究说明了我们方法的有限样本性质。我们还提出了一种竞争方法，该方法是关节功能图形套索，它概括了关节图形套索到功能设置。最后，我们将我们的方法应用于EEG数据，以揭示一群含有酒精使用障碍和对照组的个体之间的功能性脑连接的差异。

translated by 谷歌翻译

Uncertainty of Atmospheric Motion Vectors by Sampling Tempered Posterior Distributions

Patrick Héas , Frédéric Cérou , Mathias Rousset

分类：计算机视觉

2022-07-07

从卫星图像中提取的大气运动向量（AMV）是唯一具有良好全球覆盖范围的风观测。它们是进食数值天气预测（NWP）模型的重要特征。已经提出了几种贝叶斯模型来估计AMV。尽管对于正确同化NWP模型至关重要，但很少有方法可以彻底表征估计误差。估计误差的困难源于后验分布的特异性，这既是很高的维度，又是由于奇异的可能性而导致高度不良的条件，这在缺少数据（未观察到的像素）的情况下特别重要。这项工作研究了使用基于梯度的Markov链Monte Carlo（MCMC）算法评估AMV的预期误差。我们的主要贡献是提出一种回火策略，这相当于在点估计值附近的AMV和图像变量的联合后验分布的局部近似。此外，我们提供了与先前家庭本身有关的协方差（分数布朗运动），并具有不同的超参数。从理论的角度来看，我们表明，在规律性假设下，随着温度降低到{optimal}高斯近似值，在最大a后验（MAP）对数密度给出的点估计下，温度降低到{optimal}高斯近似值。从经验的角度来看，我们根据一些定量的贝叶斯评估标准评估了提出的方法。我们对合成和真实气象数据进行的数值模拟揭示了AMV点估计的准确性及其相关的预期误差估计值的显着提高，但在MCMC算法的收敛速度方面也有很大的加速度。

translated by 谷歌翻译

Scalable Variational Bayes methods for Hawkes processes

Deborah Sulem , Vincent Rivoirard , Judith Rousseau

分类： (统计)机器学习

2022-12-01

Multivariate Hawkes processes are temporal point processes extensively applied to model event data with dependence on past occurrences and interaction phenomena. In the generalised nonlinear model, positive and negative interactions between the components of the process are allowed, therefore accounting for so-called excitation and inhibition effects. In the nonparametric setting, learning the temporal dependence structure of Hawkes processes is often a computationally expensive task, all the more with Bayesian estimation methods. In general, the posterior distribution in the nonlinear Hawkes model is non-conjugate and doubly intractable. Moreover, existing Monte-Carlo Markov Chain methods are often slow and not scalable to high-dimensional processes in practice. Recently, efficient algorithms targeting a mean-field variational approximation of the posterior distribution have been proposed. In this work, we unify existing variational Bayes inference approaches under a general framework, that we theoretically analyse under easily verifiable conditions on the prior, the variational class, and the model. We notably apply our theory to a novel spike-and-slab variational class, that can induce sparsity through the connectivity graph parameter of the multivariate Hawkes model. Then, in the context of the popular sigmoid Hawkes model, we leverage existing data augmentation technique and design adaptive and sparsity-inducing mean-field variational methods. In particular, we propose a two-step algorithm based on a thresholding heuristic to select the graph parameter. Through an extensive set of numerical simulations, we demonstrate that our approach enjoys several benefits: it is computationally efficient, can reduce the dimensionality of the problem by selecting the graph parameter, and is able to adapt to the smoothness of the underlying parameter.

translated by 谷歌翻译

Deviance Matrix Factorization

Liang Wang , Luis Carvalho

分类： (统计)机器学习 | 机器学习

2021-10-12

We investigate a general matrix factorization for deviance-based data losses, extending the ubiquitous singular value decomposition beyond squared error loss. While similar approaches have been explored before, our method leverages classical statistical methodology from generalized linear models (GLMs) and provides an efficient algorithm that is flexible enough to allow for structural zeros and entry weights. Moreover, by adapting results from GLM theory, we provide support for these decompositions by (i) showing strong consistency under the GLM setup, (ii) checking the adequacy of a chosen exponential family via a generalized Hosmer-Lemeshow test, and (iii) determining the rank of the decomposition via a maximum eigenvalue gap method. To further support our findings, we conduct simulation studies to assess robustness to decomposition assumptions and extensive case studies using benchmark datasets from image face recognition, natural language processing, network analysis, and biomedical studies. Our theoretical and empirical results indicate that the proposed decomposition is more flexible, general, and robust, and can thus provide improved performance when compared to similar methods. To facilitate applications, an R package with efficient model fitting and family and rank determination is also provided.

translated by 谷歌翻译

Perturbation Analysis of Randomized SVD and its Applications to High-dimensional Statistics

Yichi Zhang , Minh Tang

分类： (统计)机器学习

2022-03-19

随机奇异值分解（RSVD）是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $，原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数，$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中，我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性，即，观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $（频谱规范）和$ \ ell_ {2 \ to \ infty} $（最大行行列$ \ ell_2 $ norm）$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比（SNR）和功率迭代$ g $的数量。观察到一个相变现象，其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明，每当噪声矩阵满足一定的痕量生长条件时，这些相变发生的$ g $的阈值都会很清晰。最后，我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下，即社区检测，矩阵完成和主要的组件分析，并使用缺失的数据来说明我们的理论结果。

translated by 谷歌翻译

Neural Operator: Learning Maps Between Function Spaces

Nikola Kovachki , Zongyi Li , Burigede Liu , Kamyar Azizzadenesheli , Kaushik Bhattacharya , Andrew Stuart , Anima Anandkumar

分类：机器学习

2021-08-19

神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括，以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似，使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外，我们介绍了四类运算符参数化：基于图形的运算符，低秩运算符，基于多极图形的运算符和傅里叶运算符，并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的：它们在底层函数空间的不同离散化之间共享相同的网络参数，并且可以用于零击超分辨率。在数值上，与现有的基于机器学习的方法，达西流程和Navier-Stokes方程相比，所提出的模型显示出卓越的性能，而与传统的PDE求解器相比，与现有的基于机器学习的方法有关的基于机器学习的方法。

translated by 谷歌翻译