本文考虑了Barycentric编码模型(BCM)下的测量估计问题,其中假定未知的度量属于有限的已知测量集的Wasserstein-2 Barycenters集合。估计该模型下的度量等同于估计未知的Barycentric坐标。我们为BCM下的测量估计提供了新颖的几何,统计和计算见解,由三个主要结果组成。我们的第一个主要结果利用了Wasserstein-2空间的Riemannian几何形状,以提供恢复Barycentric坐标的程序,作为假设对真实参考度量访问的二次优化问题的解决方案。基本的几何见解是,该二次问题的参数是由从给定度量到定义BCM的参考度量的最佳位移图之间的内部产物确定的。然后,我们的第二个主要结果建立了一种算法,用于求解BCM中坐标的算法,当时通过I.I.D进行经验观察到所有测量。样品。我们证明了该算法的精确收敛速率 - 取决于基本措施的平稳性及其维度 - 从而保证其统计一致性。最后,我们证明了BCM和相关估计程序在三个应用领域的实用性:(i)高斯措施的协方差估计; (ii)图像处理; (iii)自然语言处理。
translated by 谷歌翻译
假设我们在$ \ mathbb {r} ^ d $和predictor x中的响应变量y在$ \ mathbb {r} ^ d $,以便为$ d \ geq 1 $。在置换或未解释的回归中,我们可以访问x和y上的单独无序数据,而不是在通常回归中的(x,y)-pabes上的数据。到目前为止,在文献中,案件$ d = 1 $已收到关注,请参阅例如近期的纸张和杂草[信息和推理,8,619--717]和Balabdaoui等人。 [J.马赫。学习。 res,22(172),1-60]。在本文中,我们考虑使用$ d \ geq 1 $的一般多变量设置。我们表明回归函数的周期性单调性的概念足以用于置换/未解释的回归模型中的识别和估计。我们在允许的回归设置中研究置换恢复,并在基于Kiefer-WolfoItz的基于代索的计算高效且易用算法[ANN。数学。统计部。,27,887--906]非参数最大似然估计和来自最佳运输理论的技术。我们在高斯噪声的相关均方方向误差误差上提供显式上限。与之前的案件的工作$ d = 1 $一样,置换/未解释的设置涉及潜在的解卷积问题的慢速(对数)收敛率。数值研究证实了我们的理论分析,并表明所提出的方法至少根据上述事先工作中的方法进行了比例,同时在计算复杂性方面取得了大量减少。
translated by 谷歌翻译
本文研究了主题模型中高维,离散,可能稀疏的混合模型的估计。数据包括在$ n $独立文档中观察到的$ p $单词的多项式计数。在主题模型中,$ p \ times n $预期的单词频率矩阵被认为被分解为$ p \ times k $ word-top-topic矩阵$ a $ a $和a $ k \ times n $ topic-document $ t $ t $ 。由于两个矩阵的列代表属于概率简单的条件概率,因此$ a $的列被视为$ p $ - 二维混合组件,这些混合组件是所有文档共有的,而$ t $的列被视为$ k $二维的混合物特定文档并允许稀疏的权重。主要的兴趣是提供鲜明的,有限的样本,$ \ ell_1 $ norm收敛速率,用于混合物重量$ t $的估计量,当$ a $是已知或未知时。对于已知的$ a $,我们建议MLE估计为$ t $。我们对MLE的非标准分析不仅建立了其$ \ ell_1 $收敛率,而且揭示了一个非凡的属性:MLE,没有额外的正则化,可能完全稀疏,并且包含$ t $的真实零模式。我们进一步表明,MLE既是最佳的最佳选择,又适应了一大批稀疏主题分布中未知的稀疏性。当$ a $未知时,我们通过优化与$ a $ a $的插件的可能性功能来估计$ t $。对于任何满足与$ a $ $ a $的详细条件的估计器$ \ hat {a} $,显示出$ t $的估计器可保留为MLE建立的属性。环境尺寸$ k $和$ p $可以随着样本量而增长。我们的应用是对文档生成分布之间1-Wasserstein距离的估计。我们建议,估计和分析两个概率文档表示之间的新1-Wasserstein距离。
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
素描的Wasserstein距离($ W^S $)是专门针对有限混合物分布的新概率距离。给定概率分布的集合$ \ MATHCAL {a} $定义的任何度量$ d $,$ w^s $定义为该指标的最判别凸扩展为space $ \ mathcal {s} = \ textrm {cons}(\ Mathcal {a})$ \ Mathcal {a} $的元素混合物的$。我们的表示定理表明,以这种方式构建的空间$(\ MATHCAL {S},w^s)$对$ \ MATHCAL {x} =(\ Mathcal {a},d)$的wasserstein空间是同构的。该结果为Wasserstein距离建立了普遍性,表明它们的特征是它们具有有限混合物的判别能力。我们利用此表示定理提出了基于Kantorovich--Rubenstein二元性的估计方法,并证明了一般定理,该定理表明其估计误差可以由任何估计混合物重量和混合物组件的误差的总和来限制。这些数量的估计器。在$ p $二维离散$ k $ -mixtures的情况下,我们得出了估计$ w^s $的尖锐统计属性,我们显示的可以估计的速率与$ \ sqrt {k/n} $,达到对数因素。我们对这些边界进行了互补,以估计$ k $ - 点度量空间上的分布之间的瓦斯汀距离的风险,这与我们的上限与对数因素相匹配。该结果是用于估计离散分布之间的Wasserstein距离的第一个接近最小的下限。此外,我们构造了混合物权重的$ \ sqrt {n} $渐变正常的估计器,并得出了我们$ w^s $的估计器的$ \ sqrt {n} $分布限制。仿真研究和数据分析为新素描的瓦斯汀距离的适用性提供了强有力的支持。
translated by 谷歌翻译
我们将最初在多维扩展和降低多元数据的降低领域发展为功能设置。我们专注于经典缩放和ISOMAP - 在这些领域中起重要作用的原型方法 - 并在功能数据分析的背景下展示它们的使用。在此过程中,我们强调了环境公制扮演的关键作用。
translated by 谷歌翻译
三角形流量,也称为kn \“{o}的Rosenblatt测量耦合,包括用于生成建模和密度估计的归一化流模型的重要构建块,包括诸如实值的非体积保存变换模型的流行自回归流模型(真实的NVP)。我们提出了三角形流量统计模型的统计保证和样本复杂性界限。特别是,我们建立了KN的统计一致性和kullback-leibler估算器的rospblatt的kullback-leibler估计的有限样本会聚率使用实证过程理论的工具测量耦合。我们的结果突出了三角形流动下播放功能类的各向异性几何形状,优化坐标排序,并导致雅各比比流动的统计保证。我们对合成数据进行数值实验,以说明我们理论发现的实际意义。
translated by 谷歌翻译
我们介绍了一类小说的预计方法,对实际线上的概率分布数据集进行统计分析,具有2-Wassersein指标。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影运算符来限制Wassersein空间中的结果来利用与其弱利米结构密切相关的Wasserstein空间的表示。通过仔细选择切线,我们能够推出快速的经验方法,利用受约束的B样条近似。作为我们方法的副产品,我们还能够为PCA的PCA进行更快的例程来获得分布。通过仿真研究,我们将我们的方法与先前提出的方法进行比较,表明我们预计的PCA具有类似的性能,即使在拼盘下也是极其灵活的。研究了模型的若干理论性质,并证明了渐近一致性。讨论了两个真实世界应用于美国和风速预测的Covid-19死亡率。
translated by 谷歌翻译
对于函数的矩阵或凸起的正半明确度(PSD)的形状约束在机器学习和科学的许多应用中起着核心作用,包括公制学习,最佳运输和经济学。然而,存在很少的功能模型,以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中,我们介绍了用于在PSD锥中的值的函数的内核平方模型,其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理,表明它构成了PSD函数的普遍近似器,并在限定的平等约束的情况下导出特征值界限。然后,我们将结果应用于建模凸起函数,通过执行其Hessian的核心量子表示,并表明可以因此表示任何平滑且强凸的功能。最后,我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
指数族在机器学习中广泛使用,包括连续和离散域中的许多分布(例如,通过SoftMax变换,Gaussian,Dirichlet,Poisson和分类分布)。这些家庭中的每个家庭的分布都有固定的支持。相比之下,对于有限域而言,最近在SoftMax稀疏替代方案(例如Sparsemax,$ \ alpha $ -entmax和Fusedmax)的稀疏替代方案中导致了带有不同支持的分布。本文基于几种技术贡献,开发了连续分布的稀疏替代方案:首先,我们定义了$ \ omega $ regultion的预测图和任意域的Fenchel-young损失(可能是无限或连续的)。对于线性参数化的家族,我们表明,Fenchel-Young损失的最小化等效于统计的矩匹配,从而概括了指数家族的基本特性。当$ \ omega $是带有参数$ \ alpha $的Tsallis negentropy时,我们将获得````trabormed rompential指数)'',其中包括$ \ alpha $ -entmax和sparsemax和sparsemax($ \ alpha = 2 $)。对于二次能量函数,产生的密度为$ \ beta $ -Gaussians,椭圆形分布的实例,其中包含特殊情况,即高斯,双重量级,三人级和epanechnikov密度,我们为差异而得出了差异的封闭式表达式, Tsallis熵和Fenchel-Young损失。当$ \ Omega $是总变化或Sobolev正常化程序时,我们将获得Fusedmax的连续版本。最后,我们引入了连续的注意机制,从\ {1、4/3、3/3、3/2、2 \} $中得出有效的梯度反向传播算法。使用这些算法,我们证明了我们的稀疏连续分布,用于基于注意力的音频分类和视觉问题回答,表明它们允许参加时间间隔和紧凑区域。
translated by 谷歌翻译
确定点过程(DPP)是排斥点模式的统计模型。取样和推理都是DPPS的易用,这是具有负依赖性的模型中的罕见特征,解释了他们在机器学习和空间统计中的普及。已经在有限情况下提出了参数和非参数推断方法,即当点模式生活在有限的地面集中时。在连续的情况下,只有研究参数方法,而DPPS的非参数最大可能性 - 追踪课程运算符的优化问题 - 仍然是一个打开的问题。在本文中,我们表明,这种最大可能性(MLE)问题的受限制版本落入了RKHS中的非负面函数的最新代表定理的范围内。这导致有限的尺寸问题,具有强大的统计关系到原始MLE。此外,我们提出,分析,并展示了解决这个有限尺寸问题的定点算法。最后,我们还提供了对DPP的相关核的受控估计,从而提供更多的解释性。
translated by 谷歌翻译
监督字典学习(SDL)是一种经典的机器学习方法,同时寻求特征提取和分类任务,不一定是先验的目标。 SDL的目的是学习类歧视性词典,这是一组潜在特征向量,可以很好地解释特征以及观察到的数据的标签。在本文中,我们提供了SDL的系统研究,包括SDL的理论,算法和应用。首先,我们提供了一个新颖的框架,该框架将“提升” SDL作为组合因子空间中的凸问题,并提出了一种低级别的投影梯度下降算法,该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型,并根据高参数制度提供真实参数的全局估计保证。其次,我们被视为一个非convex约束优化问题,我们为SDL提供了有效的块坐标下降算法,该算法可以保证在$ O(\ varepsilon^{ - 1}(\ log)中找到$ \ varepsilon $ - 定位点(\ varepsilon \ varepsilon^{ - 1})^{2})$ iterations。对于相应的生成模型,我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果,这可能是独立的。第三,我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中,以进行不平衡的文档分类。我们还提供了模拟研究,以证明当最佳的重建性和最佳判别词典之间存在差异时,SDL变得更加有效。
translated by 谷歌翻译
度量的运输提供了一种用于建模复杂概率分布的多功能方法,并具有密度估计,贝叶斯推理,生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt(kr)重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而,此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习(例如,通过最大似然估计)出现的优化问题的属性产生了重大影响。我们提出了一个通用框架,用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件,以使相关的无限维度最小化问题没有伪造的局部最小值,即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布,唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品,我们提出了一种自适应算法,该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计,无可能的推断以及有向图形模型的结构学习,并在一系列样本量之间具有稳定的概括性能。
translated by 谷歌翻译
Projection robust Wasserstein (PRW) distance, or Wasserstein projection pursuit (WPP), is a robust variant of the Wasserstein distance. Recent work suggests that this quantity is more robust than the standard Wasserstein distance, in particular when comparing probability measures in high-dimensions. However, it is ruled out for practical application because the optimization model is essentially non-convex and non-smooth which makes the computation intractable. Our contribution in this paper is to revisit the original motivation behind WPP/PRW, but take the hard route of showing that, despite its non-convexity and lack of nonsmoothness, and even despite some hardness results proved by~\citet{Niles-2019-Estimation} in a minimax sense, the original formulation for PRW/WPP \textit{can} be efficiently computed in practice using Riemannian optimization, yielding in relevant cases better behavior than its convex relaxation. More specifically, we provide three simple algorithms with solid theoretical guarantee on their complexity bound (one in the appendix), and demonstrate their effectiveness and efficiency by conducing extensive experiments on synthetic and real data. This paper provides a first step into a computational theory of the PRW distance and provides the links between optimal transport and Riemannian optimization.
translated by 谷歌翻译
聚类是基于它们的相似性对组对象的重要探索性数据分析技术。广泛使用的$ k $ -MEANS聚类方法依赖于一些距离的概念将数据划分为较少数量的组。在欧几里得空间中,$ k $ -Means的基于质心和基于距离的公式相同。在现代机器学习应用中,数据通常是作为概率分布而出现的,并且可以使用最佳运输指标来处理测量值数据。由于瓦斯坦斯坦空间的非负亚历山德罗夫曲率,巴里中心遭受了规律性和非舒适性问题。 Wasserstein Barycenters的特殊行为可能使基于质心的配方无法代表集群内的数据点,而基于距离的$ K $ -MEANS方法及其半决赛计划(SDP)可以恢复真实的方法集群标签。在聚集高斯分布的特殊情况下,我们表明SDP放松的Wasserstein $ k $ - 金钱可以实现精确的恢复,因为这些集群按照$ 2 $ - WASSERSTEIN MERTRIC进行了良好的分离。我们的仿真和真实数据示例还表明,基于距离的$ K $ -Means可以比基于标准的基于质心的$ k $ -Means获得更好的分类性能,用于聚类概率分布和图像。
translated by 谷歌翻译
This work considers a computationally and statistically efficient parameter estimation method for a wide class of latent variable models-including Gaussian mixture models, hidden Markov models, and latent Dirichlet allocation-which exploits a certain tensor structure in their low-order observable moments (typically, of second-and third-order). Specifically, parameter estimation is reduced to the problem of extracting a certain (orthogonal) decomposition of a symmetric tensor derived from the moments; this decomposition can be viewed as a natural generalization of the singular value decomposition for matrices. Although tensor decompositions are generally intractable to compute, the decomposition of these specially structured tensors can be efficiently obtained by a variety of approaches, including power iterations and maximization approaches (similar to the case of matrices). A detailed analysis of a robust tensor power method is provided, establishing an analogue of Wedin's perturbation theorem for the singular vectors of matrices. This implies a robust and computationally tractable estimation approach for several popular latent variable models.
translated by 谷歌翻译
In this paper, we propose Wasserstein Isometric Mapping (Wassmap), a nonlinear dimensionality reduction technique that provides solutions to some drawbacks in existing global nonlinear dimensionality reduction algorithms in imaging applications. Wassmap represents images via probability measures in Wasserstein space, then uses pairwise Wasserstein distances between the associated measures to produce a low-dimensional, approximately isometric embedding. We show that the algorithm is able to exactly recover parameters of some image manifolds including those generated by translations or dilations of a fixed generating measure. Additionally, we show that a discrete version of the algorithm retrieves parameters from manifolds generated from discrete measures by providing a theoretical bridge to transfer recovery results from functional data to discrete data. Testing of the proposed algorithms on various image data manifolds show that Wassmap yields good embeddings compared with other global and local techniques.
translated by 谷歌翻译
我们使用2-wasserstein空间的几何特性在一组概率度量之间发展了一个投影概念。它是为一般的多元概率度量而设计的,在计算上有效地实施,并在常规设置中提供了独特的解决方案。这个想法是使用广义的大地测量学处理瓦斯汀空间的常规切线锥。它的结构和计算属性使该方法适用于各种设置,从因果推断到对象数据的分析。估计因果效应的应用将合成控制的概念概括为具有个体级异质性的多元数据,以及一种在所有时间段内共同估算最佳权重的方法。
translated by 谷歌翻译
We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.
translated by 谷歌翻译