Jensen-Shannon Divergence是无界的Kullback-Leibler Divergence的著名界面对称性,可测量总的Kullback-Leibler差异与平均混合物分布。但是,高斯分布之间的詹森 - 香农差异在封闭式中不可用。为了绕过这个问题,我们使用抽象方式提出了Jensen-Shannon(JS)差异的概括,当根据分布的参数家族选择均值时,该抽象方式会产生封闭形式的表达式。更普遍地,我们使用从抽象手段得出的广义统计混合物来定义任何距离的JS隔离化。特别是,我们首先表明几何平均值非常适合指数族,并报告了(i)(i)同一指数家族概率密度之间的几何詹森 - 香农(Jensen-Shannon)的两种封闭式公式,以及(ii)几何学反向kullback-leibler发散的JS对称。作为第二个说明示例,我们表明,谐波平均值非常适合cauchy分布,并报告了缩放尺度分布之间的谐波詹森 - 香农差异的封闭式公式。我们还定义了矩阵(例如量子Jensen-Shannon Diverences)之间的广义詹森 - 香农差异,并考虑了这些新颖的詹森 - 香农分歧的聚类。
translated by 谷歌翻译
Jeffreys分歧是广泛用于信息科学的面向克鲁克 - 雷布尔分歧的着名对称化。由于高斯混合模型之间的jeffreys在闭合形式之间提供,因此在文献中提出了具有优缺点的各种技术,以估计,近似或降低这种发散。在本文中,我们提出了一种简单而快速的启发式,以近似与任意数量的组件的两个单变量高斯混合物之间的Jeffreys分歧。我们的启发式依赖于将混合物转换成属于指数家庭的双重参数化概率密度。特别是,我们考虑多功能多项式指数家庭密度,并设计分歧,以闭合形成高斯混合物与其多项式指数密度近似的拟合的良好度。这种拟合的良好分歧是Hyv \“Arinen分歧的概括,用于估计具有计算棘手的癌症的模型。它允许我们通过选择用于近似混合物的多项式指数密度的订单来执行模型选择。我们展示实验地,我们的启发式近似于jeffreys发散的数量幅度提高了随机蒙特卡罗估计的计算时间,同时接近jeffreys发散,特别是当混合物具有非常少量的模式时。此外,我们的混合物 - 指数家庭转换技术可能在其他设置中证明。
translated by 谷歌翻译
有限维概率单纯x中的聚类分类分布是处理归一化直方图的许多应用中的基本任务。传统上,概率单位的差分几何结构已经通过(i)将Riemannian公制矩阵设定为分类分布的Fisher信息矩阵,或(ii)定义由平滑异化性引起的二元信息 - 几何结构衡量标准,kullback-leibler发散。在这项工作中,我们介绍了群集任务一种新颖的计算型友好框架,用于在几何上建模概率单纯x:{\ em hilbert simplex几何}。在Hilbert Simplex几何形状中,距离是不可分离的Hilbert公制距离,其满足与多光镜边界描述的距离水平集功能的信息单调性的特性。我们表明,Aitchison和Hilbert Simplex的距离分别是关于$ \ ell_2 $和变化规范的标准化对数表示的距离。我们讨论了这些不同的统计建模的利弊,并通过基于基于中心的$ k $ -means和$ k $ -center聚类的基准这些不同的几何形状。此外,由于可以在欧几里德空间的任何有界凸形子集上定义规范希尔伯特距离,因此我们还考虑了与FR \“Obenius和Log-Det分歧相比的相关矩阵的椭圆形的几何形状并研究其聚类性能。
translated by 谷歌翻译
马尔可夫链蒙特卡洛方法用于从复杂分布和估计归一化常数采样的方法,通常会模拟沿着退火路径的一系列中间分布的样品,该路径桥梁在可缝隙的初始分布和目标密度之间桥接。先前的工作已经使用准算术手段构建了退火路径,并将所得的中间密度解释为最小化对终点的预期差异。我们在单调的密度函数嵌入下使用布雷格曼的分歧对这种“质心”属性进行了全面分析,从而将诸如Amari和Renyi的$ {\ alpha} $ - divergences等共同差异相关联,$ {(\ alpha,\ beta) } $ - 分歧,以及沿着退火路径的中间密度的詹森 - 香农脱落。我们的分析强调了使用Zhang 2004的Rho-Tau Bregman Divergence框架; 2013年的Rho-Tau Bregman Divergence框架之间的参数族之间的相互作用和分歧函数。
translated by 谷歌翻译
我们以非渐近方式考虑最大似然估计(MLE)的预期对数估计(MLE)的预期似然估计(MLE)的最佳次数(MAL)的缀合物最大(MAP)的问题。令人惊讶的是,我们在文献中没有找到对这个问题的一般解决方案。特别是,当前的理论不适用于高斯或有趣的少数样本制度。在表现出问题的各个方面之后,我们显示我们可以将地图解释为在日志可能性上运行随机镜像下降(SMD)。然而,现代收敛结果不适用于指数家庭的标准例子,突出趋同文献中的孔。我们认为解决这一非常根本的问题可能会对统计和优化社区带来进展。
translated by 谷歌翻译
The link with exponential families has allowed $k$-means clustering to be generalized to a wide variety of data generating distributions in exponential families and clustering distortions among Bregman divergences. Getting the framework to work above exponential families is important to lift roadblocks like the lack of robustness of some population minimizers carved in their axiomatization. Current generalisations of exponential families like $q$-exponential families or even deformed exponential families fail at achieving the goal. In this paper, we provide a new attempt at getting the complete framework, grounded in a new generalisation of exponential families that we introduce, tempered exponential measures (TEM). TEMs keep the maximum entropy axiomatization framework of $q$-exponential families, but instead of normalizing the measure, normalize a dual called a co-distribution. Numerous interesting properties arise for clustering such as improved and controllable robustness for population minimizers, that keep a simple analytic form.
translated by 谷歌翻译
指数族在机器学习中广泛使用,包括连续和离散域中的许多分布(例如,通过SoftMax变换,Gaussian,Dirichlet,Poisson和分类分布)。这些家庭中的每个家庭的分布都有固定的支持。相比之下,对于有限域而言,最近在SoftMax稀疏替代方案(例如Sparsemax,$ \ alpha $ -entmax和Fusedmax)的稀疏替代方案中导致了带有不同支持的分布。本文基于几种技术贡献,开发了连续分布的稀疏替代方案:首先,我们定义了$ \ omega $ regultion的预测图和任意域的Fenchel-young损失(可能是无限或连续的)。对于线性参数化的家族,我们表明,Fenchel-Young损失的最小化等效于统计的矩匹配,从而概括了指数家族的基本特性。当$ \ omega $是带有参数$ \ alpha $的Tsallis negentropy时,我们将获得````trabormed rompential指数)'',其中包括$ \ alpha $ -entmax和sparsemax和sparsemax($ \ alpha = 2 $)。对于二次能量函数,产生的密度为$ \ beta $ -Gaussians,椭圆形分布的实例,其中包含特殊情况,即高斯,双重量级,三人级和epanechnikov密度,我们为差异而得出了差异的封闭式表达式, Tsallis熵和Fenchel-Young损失。当$ \ Omega $是总变化或Sobolev正常化程序时,我们将获得Fusedmax的连续版本。最后,我们引入了连续的注意机制,从\ {1、4/3、3/3、3/2、2 \} $中得出有效的梯度反向传播算法。使用这些算法,我们证明了我们的稀疏连续分布,用于基于注意力的音频分类和视觉问题回答,表明它们允许参加时间间隔和紧凑区域。
translated by 谷歌翻译
我们重新审视混合技术的方法,也称为拉普拉斯法,以研究通用指数家族中的浓度现象。将与家族的对数分区功能相关的Bregman差异的性质与超级木制混合物的方法相关联,我们建立了一个通用的结合,以控制家族参数与参数的有限样本估算之间的Bregman差异。我们的界限是时间均匀的,并且看起来很大,将经典信息增益扩展到指数式家庭,我们称之为Bregman信息收益。对于从业者而言,我们实例化了这本小说绑定到几个古典家庭,例如高斯,伯努利,指数,威布尔,帕雷托,帕尔托,泊松和卡方和卡方,从而产生了置信度的明确形式和布雷格曼信息的收益。我们从数值上进一步将所得的置信度界限与最先进的替代方案进行比较,以使其均匀浓度,并表明这种新颖的方法会产生竞争结果。最后,我们强调了集中界对某些说明性应用的好处。
translated by 谷歌翻译
我们提供了概率分布的Riemannian歧管上的经典力学的信息几何公式,该分布是具有双翼连接的仿射歧管。在非参数形式主义中,我们考虑了有限的样本空间上的全套正概率函数,并以统计歧管上的切线和cotangent空间为特定的表达式提供了一种,就希尔伯特束结构而言,我们称之统计捆绑包。在这种情况下,我们使用规范双对的平行传输来计算一维统计模型的速度和加速度,并在束上定义了Lagrangian和Hamiltonian力学的连贯形式主义。最后,在一系列示例中,我们展示了我们的形式主义如何为概率单纯性加速自然梯度动力学提供一个一致的框架,为在优化,游戏理论和神经网络中的直接应用铺平了道路。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
对于高维和非参数统计模型,速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到,但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略,以获得对任何估计方差的下限,偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的,并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限,用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中,将抽象的下限应用于几种统计模型,包括高斯白噪声模型,边界估计问题,高斯序列模型和高维线性回归模型。对于这些特定的统计应用,发生不同类型的偏差差异发生,其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡,我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动,以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中,发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用,但是平方偏差的速率和方差不必平衡以实现最小估计速率。
translated by 谷歌翻译
我们将最初在多维扩展和降低多元数据的降低领域发展为功能设置。我们专注于经典缩放和ISOMAP - 在这些领域中起重要作用的原型方法 - 并在功能数据分析的背景下展示它们的使用。在此过程中,我们强调了环境公制扮演的关键作用。
translated by 谷歌翻译
机器学习中的一个基本问题是从低维潜在空间$ \ MATHCAL {y} $找到映射$ f $到高维观察空间$ \ MATHCAL {x} $。深层神经网络等现代工具能够代表一般的非线性映射。学习者可以轻松找到完美适合所有观察结果的映射。但是,这样的映射通常不被认为是好的,因为它不够简单并且可以过度合适。如何定义简单性?我们试图对非线性映射$ f $施加的信息量进行正式定义。直观地,我们测量了回溯几何形状和潜在空间的内在几何形状之间的局部差异。我们的定义基于信息几何形状,并且独立于经验观察,也不是特定的参数化。我们证明其基本属性,并与相关的机器学习方法讨论关系。
translated by 谷歌翻译
期望 - 最大化(EM)算法是一种简单的元叠加,当观察到的数据中缺少测量值或数据由可观察到的数据组成时,它已多年来用作统计推断的方法。它的一般属性进行了充分的研究,而且还有无数方法将其应用于个人问题。在本文中,我们介绍了$ em $ $ and算法,EM算法的信息几何公式及其扩展和应用程序以及各种问题。具体而言,我们将看到,可以制定一个异常稳定推理算法,用于计算通道容量的算法,概率单纯性的参数估计方法,特定的多变量分析方法,例如概率模型中的主要组件分析和模态回归中的主成分分析,基质分解和学习生成模型,这些模型最近从几何学角度引起了深度学习的关注。
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
三角形流量,也称为kn \“{o}的Rosenblatt测量耦合,包括用于生成建模和密度估计的归一化流模型的重要构建块,包括诸如实值的非体积保存变换模型的流行自回归流模型(真实的NVP)。我们提出了三角形流量统计模型的统计保证和样本复杂性界限。特别是,我们建立了KN的统计一致性和kullback-leibler估算器的rospblatt的kullback-leibler估计的有限样本会聚率使用实证过程理论的工具测量耦合。我们的结果突出了三角形流动下播放功能类的各向异性几何形状,优化坐标排序,并导致雅各比比流动的统计保证。我们对合成数据进行数值实验,以说明我们理论发现的实际意义。
translated by 谷歌翻译
我们研究了与给定的无向图$ g $相对应的图形模型的最大似然估计的问题。我们表明,最大似然估计(MLE)是几个帐篷函数的指数的乘积,每个最大集团的$ g $。虽然图形模型中的一组对数符号密度是无限维度的,但我们的结果表明,可以通过求解有限维凸优化问题来找到MLE。我们提供实施和一些示例。此外,我们证明MLE存在并且具有概率为1,只要样品数量大于$ g $ chordal时最大的$ g $集团的大小。我们证明,当图$ g $是集团的不交联时,MLE是一致的。最后,我们讨论了$ g $的图形模型中的对数 - 串联密度在$ g $中具有对数符号分解的条件。
translated by 谷歌翻译
我们考虑通过复制内核希尔伯特空间的相关协方差操作员对概率分布进行分析。我们表明,冯·诺伊曼(Von Neumann)的熵和这些操作员的相对熵与香农熵和相对熵的通常概念密切相关,并具有许多特性。它们与来自概率分布的各种口径的有效估计算法结合在一起。我们还考虑了产品空间,并表明对于张量产品内核,我们可以定义互信息和联合熵的概念,然后可以完美地表征独立性,但只能部分条件独立。我们最终展示了这些新的相对熵概念如何导致对数分区函数的新上限,这些函数可以与变异推理方法中的凸优化一起使用,从而提供了新的概率推理方法家族。
translated by 谷歌翻译
鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本,何时可以生成更大的$ n + m $ samples,这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品?(AXELROD等人2019)将该问题正式化为样本放大问题,并为离散分布和高斯位置模型提供了最佳放大程序。然而,这些程序和相关的下限定制到特定分布类,对样本扩增的一般统计理解仍然很大程度上。在这项工作中,我们通过推出通常适用的放大程序,下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布,包括指数家庭,并在样本放大和分配学习之间建立严格的联系。
translated by 谷歌翻译
We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.
translated by 谷歌翻译