离散状态空间代表了对统计推断的主要计算挑战,因为归一化常数的计算需要在大型或可能的无限集中进行求和,这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发,主要思想是使用离散的Fisher Divergence更新有关模型参数的信念,以代替有问题的棘手的可能性。结果是可以使用标准计算工具(例如Markov Chain Monte Carlo)进行采样的广义后部,从而规避了棘手的归一化常数。分析了广义后验的统计特性,并具有足够的后验一致性和渐近正态性的条件。此外,提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍,在每种情况下,方法论都以低计算成本促进通用的贝叶斯推断。
translated by 谷歌翻译
我们对通过歧管(例如球形,Tori和其他隐式表面)描述的复杂几何形状的学习生成模型感兴趣。现有(欧几里德)生成模型的当前延伸仅限于特定几何形状,并且通常遭受高计算成本。我们介绍了Moser Flow(MF),是连续标准化流量(CNF)系列内的一类新的生成型号。 MF还通过解决方案产生CNF,然而,与其他CNF方法不同,其模型(学习)密度被参数化,因为源(先前)密度减去神经网络(NN)的发散。分歧是局部线性差分操作员,易于近似和计算歧管。因此,与其他CNFS不同,MF不需要在训练期间通过颂歌求解器调用或反向。此外,将模型密度明确表示为NN的发散而不是作为颂歌的解决方案有助于学习高保真密度。从理论上讲,我们证明了MF在合适的假设下构成了通用密度近似器。经验上,我们首次证明了流动模型的使用从一般曲面采样,并在挑战地球和气候的挑战性几何形状和现实世界基准中实现了密度估计,样本质量和培训复杂性的显着改善科学。
translated by 谷歌翻译
指数族在机器学习中广泛使用,包括连续和离散域中的许多分布(例如,通过SoftMax变换,Gaussian,Dirichlet,Poisson和分类分布)。这些家庭中的每个家庭的分布都有固定的支持。相比之下,对于有限域而言,最近在SoftMax稀疏替代方案(例如Sparsemax,$ \ alpha $ -entmax和Fusedmax)的稀疏替代方案中导致了带有不同支持的分布。本文基于几种技术贡献,开发了连续分布的稀疏替代方案:首先,我们定义了$ \ omega $ regultion的预测图和任意域的Fenchel-young损失(可能是无限或连续的)。对于线性参数化的家族,我们表明,Fenchel-Young损失的最小化等效于统计的矩匹配,从而概括了指数家族的基本特性。当$ \ omega $是带有参数$ \ alpha $的Tsallis negentropy时,我们将获得````trabormed rompential指数)'',其中包括$ \ alpha $ -entmax和sparsemax和sparsemax($ \ alpha = 2 $)。对于二次能量函数,产生的密度为$ \ beta $ -Gaussians,椭圆形分布的实例,其中包含特殊情况,即高斯,双重量级,三人级和epanechnikov密度,我们为差异而得出了差异的封闭式表达式, Tsallis熵和Fenchel-Young损失。当$ \ Omega $是总变化或Sobolev正常化程序时,我们将获得Fusedmax的连续版本。最后,我们引入了连续的注意机制,从\ {1、4/3、3/3、3/2、2 \} $中得出有效的梯度反向传播算法。使用这些算法,我们证明了我们的稀疏连续分布,用于基于注意力的音频分类和视觉问题回答,表明它们允许参加时间间隔和紧凑区域。
translated by 谷歌翻译
引入了Wasserstein距离的许多变体,以减轻其原始计算负担。尤其是切成薄片的距离(SW),该距离(SW)利用了一维投影,可以使用封闭式的瓦斯汀距离解决方案。然而,它仅限于生活在欧几里得空间中的数据,而Wasserstein距离已被研究和最近在歧管上使用。我们更具体地专门地关注球体,为此定义了新颖的SW差异,我们称之为球形切片 - 拖鞋,这是朝着定义SW差异的第一步。我们的构造明显基于圆圈上瓦斯汀距离的封闭式解决方案,以及新的球形ra径。除了有效的算法和相应的实现外,我们在几个机器学习用例中说明了它的属性,这些用例中,数据的球形表示受到威胁:在球体上的密度估计,变异推理或超球体自动编码器。
translated by 谷歌翻译
基于分数的模型研究在过去几年中通过采用高斯去噪得分匹配(DSM)产生了艺术生成模型的状态。然而,高斯噪声假设具有几个高维限制,使未来甚至更高维度PDF估计的促进更具体的路线。在将理论扩展到更广泛的声音分布的情况下,我们概述了这一限制 - 即,广义正常分布。在理论上,我们可以在(去噪)得分匹配理论中放宽一个关键假设,展示了差异化的分布{几乎无处不在}允许与高斯同样的客观简化。对于噪声矢量长度分布,我们在深度学习中普遍存在的高维空间中的衡量标准的有利集中。在该过程中,我们发现偏斜噪声矢量长度分布,并开发迭代噪声缩放算法,以一致地初始化退火的Langevin动态中的多级噪声。在实践方面,我们使用重尾DSM导致分数估计,可控采样融合,更平衡的不规则的无条件生成性能,对不平衡数据集进行更高。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
连续归一化流(CNF)是一类生成模型,可以通过求解普通的微分方程(ODE)将先验分布转换为模型分布。我们建议通过最大程度地减少概率路径差异(PPD)来训练CNF,这是CNF产生的概率密度路径与目标概率密度路径之间的新型差异家族。 PPD是使用对数质量保护公式制定的,该公式是线性的一阶部分微分方程,将对数目标概率和CNF的定义向量场进行配方。 PPD比现有方法具有多个关键好处:它避免了在迭代中解决颂歌的需求,很容易应用于歧管数据,比例到高维度,并与大型目标路径兼容,该目标路径在有限的时间内插值纯噪声和数据。从理论上讲,PPD显示为结合经典概率差异。从经验上讲,我们表明,通过最小化PPD实现最新的CNF在现有的低维歧管基准上获得了最新的可能性和样品质量,并且是生成模型以扩展到中度高维歧管的第一个示例。
translated by 谷歌翻译
我们为Nesterov在概率空间中加速的梯度流提供了一个框架,以设计有效的平均田间马尔可夫链蒙特卡洛(MCMC)贝叶斯逆问题算法。在这里,考虑了四个信息指标的示例,包括Fisher-Rao Metric,Wasserstein-2 Metric,Kalman-Wasserstein Metric和Stein Metric。对于Fisher-Rao和Wasserstein-2指标,我们都证明了加速梯度流的收敛性。在实施中,我们建议使用重新启动技术的Wasserstein-2,Kalman-Wasseintein和Stein加速梯度流的抽样效率离散算法。我们还制定了一种内核带宽选择方法,该方法从布朗动物样品中学习了密度对数的梯度。与最先进的算法相比,包括贝叶斯逻辑回归和贝叶斯神经网络在内的数值实验显示了所提出方法的强度。
translated by 谷歌翻译
Jeffreys分歧是广泛用于信息科学的面向克鲁克 - 雷布尔分歧的着名对称化。由于高斯混合模型之间的jeffreys在闭合形式之间提供,因此在文献中提出了具有优缺点的各种技术,以估计,近似或降低这种发散。在本文中,我们提出了一种简单而快速的启发式,以近似与任意数量的组件的两个单变量高斯混合物之间的Jeffreys分歧。我们的启发式依赖于将混合物转换成属于指数家庭的双重参数化概率密度。特别是,我们考虑多功能多项式指数家庭密度,并设计分歧,以闭合形成高斯混合物与其多项式指数密度近似的拟合的良好度。这种拟合的良好分歧是Hyv \“Arinen分歧的概括,用于估计具有计算棘手的癌症的模型。它允许我们通过选择用于近似混合物的多项式指数密度的订单来执行模型选择。我们展示实验地,我们的启发式近似于jeffreys发散的数量幅度提高了随机蒙特卡罗估计的计算时间,同时接近jeffreys发散,特别是当混合物具有非常少量的模式时。此外,我们的混合物 - 指数家庭转换技术可能在其他设置中证明。
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
隐式和明确的生成建模的几种作品经验观察到特征学习鉴别器在模型的样本质量方面优于固定内核鉴别器。我们在使用函数类$ \ mathcal {f} _2 $和$ \ mathcal {f} _1 $分别在使用函数类$ \ mathcal {f} _2 $分别提供分离结果。 。特别地,我们构造了通过固定内核$(\ Mathcal {F} _2)$积分概率度量(IPM)和高维度的超积分(\ Mathcal {F} _2)和高维度差异(SD)的超领域的分布对。但是可以是由他们的特征学习($ \ mathcal {f} _1 $)对应物歧视。为了进一步研究分离,我们提供$ \ mathcal {f} _1 $和$ \ mathcal {f} _2 $ IMM之间的链接。我们的工作表明,固定内核鉴别者的表现比其特征学习对应者更糟糕,因为它们的相应度量较弱。
translated by 谷歌翻译
我们介绍了一种算法,用于计算采样歧管的测量测量算法,其依赖于对采样数据的植物嵌入的曲线图的模拟。我们的方法利用经典的结果在半导体分析和量子古典对应中,并形成用于学习数据集的歧管的技术的基础,随后用于高维数据集的非线性维度降低。我们以基于CoVID-19移动数据的聚类演示,从模型歧管中采样数据采样的数据,并通过集群演示来说明新的算法。最后,我们的方法揭示了数据采样和量化提供的离散化之间有趣的连接。
translated by 谷歌翻译
bump狩猎与样本空间中的发现有意义的数据子集,称为颠簸。这些传统上被认为是基础密度函数图中的模态或凹区域。我们根据概率密度的曲率功能定义抽象的凸起构建体。然后,我们探讨了涉及衍生物最高到二阶的几种替代特征。特别是,在多元案例中提出了适当的善良和加斯金斯原始凹凸凹凸的实施。此外,我们将探索性数据分析概念(如平均曲率和拉普拉斯人)在应用域中产生良好结果。我们的方法可以通过插件内核密度估计器来解决曲率功能的近似。我们提供了理论上的结果,以确保在Hausdorff距离内的凸界边界的渐近一致性,并具有负担得起的收敛速度。我们还提出了渐近有效且一致的置信区域边界曲率凸起。该理论通过NBA,MLB和NFL的数据集的体育分析中的几种用例来说明。我们得出的结论是,不同的曲率实例有效地结合了以产生洞察力的可视化。
translated by 谷歌翻译
我们调查识别来自域中的采样点的域的边界。我们向边界引入正常矢量的新估计,指向边界的距离,以及对边界条内的点位于边界的测试。可以有效地计算估算器,并且比文献中存在的估计更准确。我们为估算者提供严格的错误估计。此外,我们使用检测到的边界点来解决Point云上PDE的边值问题。我们在点云上证明了LAPLACH和EIKONG方程的错误估计。最后,我们提供了一系列数值实验,说明了我们的边界估计器,在点云上的PDE应用程序的性能,以及在图像数据集上测试。
translated by 谷歌翻译
辍学是神经网络培训中最受欢迎的正规化技术之一。由于它的力量和简单性,已经对辍学进行了广泛的分析,并提出了许多变体。在本文中,从信息几何学的角度来讨论辍学的几种属性。我们表明辍学使模型歧管变平,并且它们的正则化性能取决于曲率的量。然后,我们表明辍学基本上是对应于依赖Fisher信息的正则化,并支持了数值实验的结果。从不同的角度,对技术的这种理论分析有望极大地有助于理解仍处于起步阶段的神经网络。
translated by 谷歌翻译
本文为工程产品的计算模型或仅返回分类信息的过程提供了一种新的高效和健壮方法,用于罕见事件概率估计,例如成功或失败。对于此类模型,大多数用于估计故障概率的方法,这些方法使用结果的数值来计算梯度或估计与故障表面的接近度。即使性能函数不仅提供了二进制输出,系统的状态也可能是连续输入变量域中定义的不平滑函数,甚至是不连续的函数。在这些情况下,基于经典的梯度方法通常会失败。我们提出了一种简单而有效的算法,该算法可以从随机变量的输入域进行顺序自适应选择点,以扩展和完善简单的基于距离的替代模型。可以在连续采样的任何阶段完成两个不同的任务:(i)估计失败概率,以及(ii)如果需要进一步改进,则选择最佳的候选者进行后续模型评估。选择用于模型评估的下一个点的建议标准最大化了使用候选者分类的预期概率。因此,全球探索与本地剥削之间的完美平衡是自动维持的。该方法可以估计多种故障类型的概率。此外,当可以使用模型评估的数值来构建平滑的替代物时,该算法可以容纳此信息以提高估计概率的准确性。最后,我们定义了一种新的简单但一般的几何测量,这些测量是对稀有事实概率对单个变量的全局敏感性的定义,该度量是作为所提出算法的副产品获得的。
translated by 谷歌翻译
本文研究了基于Laplacian Eigenmaps(Le)的基于Laplacian EIGENMAPS(PCR-LE)的主要成分回归的统计性质,这是基于Laplacian Eigenmaps(Le)的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =(y_1,\ ldots,y_n)$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下,PCR-le达到估计的最佳速率(其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /(2s + d) )} $)和健美的测试($ n ^ { - 4s /(4s + d)$)。我们还表明PCR-LE是\ EMPH {歧管Adaptive}:即,我们考虑在小型内在维度$ M $的歧管上支持设计的情况,并为PCR-LE提供更快的界限Minimax估计($ n ^ { - 2s /(2s + m)$)和测试($ n ^ { - 4s /(4s + m)$)收敛率。有趣的是,这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说,对于这个问题的回归估计的特征似乎更容易,统计上讲,而不是估计特征本身。我们通过经验证据支持这些理论结果。
translated by 谷歌翻译
我们研究了紧凑型歧管M上的回归问题。为了利用数据的基本几何形状和拓扑结构,回归任务是基于歧管的前几个特征函数执行的,该特征是歧管的laplace-beltrami操作员,通过拓扑处罚进行正规化。提出的惩罚基于本征函数或估计功能的子级集的拓扑。显示总体方法可在合成和真实数据集上对各种应用产生有希望的和竞争性能。我们还根据回归函数估计,其预测误差及其平滑度(从拓扑意义上)提供理论保证。综上所述,这些结果支持我们方法在目标函数“拓扑平滑”的情况下的相关性。
translated by 谷歌翻译
在本章中,我们确定了基本的几何结构,这些几何结构是采样,优化,推理和自适应决策问题的基础。基于此识别,我们得出了利用这些几何结构来有效解决这些问题的算法。我们表明,在这些领域中自然出现了广泛的几何理论,范围从测量过程,信息差异,泊松几何和几何整合。具体而言,我们解释了(i)如何利用汉密尔顿系统的符合性几何形状,使我们能够构建(加速)采样和优化方法,(ii)希尔伯特亚空间和Stein操作员的理论提供了一种通用方法来获得可靠的估计器,(iii)(iii)(iii)保留决策的信息几何形状会产生执行主动推理的自适应剂。在整个过程中,我们强调了这些领域之间的丰富联系。例如,推论借鉴了抽样和优化,并且自适应决策通过推断其反事实后果来评估决策。我们的博览会提供了基本思想的概念概述,而不是技术讨论,可以在本文中的参考文献中找到。
translated by 谷歌翻译