加权有限自动机(WFA)已广泛应用于许多领域。 WFA的经典问题之一是对离散符号序列的概率分布估计。尽管已扩展了WFA以处理连续输入数据,即连续WFA(CWFA),但由于使用基于WFA的模型,如何将密度函数近似于连续随机变量的序列,这是由于限制了模型的表现。以及通过CWFA的近似密度函数的障碍性。在本文中,我们提出了对CWFA模型的非线性扩展,以提高其表现力,我们将其称为非线性连续WFA(NCWFAS)。然后,我们利用所谓的RNADE方法,该方法是基于神经网络的众所周知的密度估计器,并提出了RNADE-NCWFA模型。 RNADE-NCWFA模型通过设计计算密度函数。我们表明,该模型比CWFA无法近似的高斯HMM模型严格表现得更具表现力。从经验上讲,我们使用高斯HMM生成的数据进行了合成实验。我们专注于评估模型估计长度序列的密度(长度长于训练数据)的能力。我们观察到我们的模型在比较基线方法中表现最好。
translated by 谷歌翻译
在本文中,我们在不同研究领域使用的三种模型之间存在联系:来自正式语言和语言学的加权有限自动机〜(WFA),机器学习中使用的经常性神经网络,以及张量网络,包括一组高处的优化技术量子物理学和数值分析中使用的顺序张量。我们首先介绍WFA与张力列车分解,特定形式的张量网络之间的内在关系。该关系允许我们展示由WFA计算的函数的Hankel矩阵的新型低级结构,并设计利用这种结构的有效光谱学习算法来扩展到非常大的Hankel矩阵。我们将解开基本连接在WFA和第二阶逆转神经网络之间〜(2-RNN):在离散符号的序列的情况下,具有线性激活功能的WFA和2-RNN是表现性的。利用该等效结果与加权自动机的经典频谱学习算法相结合,我们介绍了在连续输入向量序列上定义的线性2-RNN的第一可提供学习算法。本算法依赖于Hankel Tensor的低等级子块,可以从中可以从中恢复线性2-RNN的参数。在综合性和现实世界数据的仿真研究中评估了所提出的学习算法的性能。
translated by 谷歌翻译
We propose the tensorizing flow method for estimating high-dimensional probability density functions from the observed data. The method is based on tensor-train and flow-based generative modeling. Our method first efficiently constructs an approximate density in the tensor-train form via solving the tensor cores from a linear system based on the kernel density estimators of low-dimensional marginals. We then train a continuous-time flow model from this tensor-train density to the observed empirical distribution by performing a maximum likelihood estimation. The proposed method combines the optimization-less feature of the tensor-train with the flexibility of the flow-based generative models. Numerical results are included to demonstrate the performance of the proposed method.
translated by 谷歌翻译
Normalizing Flows are generative models which produce tractable distributions where both sampling and density evaluation can be efficient and exact. The goal of this survey article is to give a coherent and comprehensive review of the literature around the construction and use of Normalizing Flows for distribution learning. We aim to provide context and explanation of the models, review current state-of-the-art literature, and identify open questions and promising future directions.
translated by 谷歌翻译
为了克服拓扑限制并提高常规流量架构,吴,K \“ohler和No \'e的表达性引入了随机采样方法的随机标准化流程,该流程与随机取样方法相结合的确定性,可学习的流动变换。在本文中,我们考虑随机标准化流量一个马尔可夫链的观点。特别是,我们通过马尔可夫内核替换过渡密度,并通过氡-Nikodym衍生物建立证据,允许以声音方式结合没有密度的分布。此外,我们概括了从后部分布中抽样的结果逆问题所需。通过数值实施例证明了所提出的条件随机标准化流程的性能。
translated by 谷歌翻译
隐藏的马尔可夫链(HMC)和复发性神经网络(RNN)是预测时间序列的两个知名工具。即使这些解决方案是在不同的社区中独立开发的,但当被认为是概率结构时,它们具有一些相似之处。因此,在本文中,我们首先将HMC和RNN视为生成模型,然后将这两个结构嵌入了共同的生成统一模型(GUM)中。接下来,我们讨论了这些模型表达性的比较研究。为此,我们假设模型是线性和高斯。这些模型产生的概率分布以结构化协方差序列为特征,因此表达性降低到比较结构化协方差序列的集合,这使我们能够要求随机实现理论(SRT)。我们最终提供了可以通过口香糖,HMC或RNN实现给定协方差序列的条件。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
当我们希望将其用作生成模型时,任何显式的功能表示$ f $都会受到两个主要障碍的阻碍:设计$ f $,以便采样快速,并估计$ z = \ int f $ ^{ - 1} f $集成到1。随着$ f $本身变得复杂,这变得越来越复杂。在本文中,我们表明,当通过让网络代表目标密度的累积分布函数并应用积极的基本定理,可以通过神经网络对一维条件密度进行建模时,可以精确地计算出$ z $。 。我们还得出了一种快速算法,用于通过逆变换方法从产生的表示。通过将这些原理扩展到更高的维度,我们介绍了\ textbf {神经逆变换采样器(NITS)},这是一个新颖的深度学习框架,用于建模和从一般,多维,紧凑的概率密度。 NIT是一个高度表达性的密度估计器,具有端到端的可不同性,快速采样以及精确且廉价的可能性评估。我们通过将其应用于现实,高维密度估计任务来证明NIT的适用性:基于CIFAR-10数据集对基于可能性的生成模型,以及基于基准数据集的UCI套件的密度估计,nits可以在其中产生令人信服的结果或超越或超越或超越或超越或超越或超越或超越或超越。艺术状态。
translated by 谷歌翻译
张量分解是从多维非负数据中提取物理有意义的潜在因素的强大工具,并且对诸如图像处理,机器学习和计算机视觉等各个领域的兴趣越来越多。在本文中,我们提出了一种稀疏的非负塔克分解和完成方法,用于在嘈杂的观察结果下恢复潜在的非负数据。在这里,基本的非负数据张量分解为核心张量,几个因子矩阵,所有条目均为无负,并且因子矩阵稀疏。损失函数是由嘈杂观测值的最大似然估计得出的,并且使用$ \ ell_0 $ norm来增强因子矩阵的稀疏性。我们在通用噪声场景下建立了拟议模型的估计器的误差结合,然后将其指定为具有加性高斯噪声,加法拉普拉斯噪声和泊松观测的观测值。我们的理论结果比现有基于张量或基于矩阵的方法更好。此外,最小值的下限显示与对数因子的衍生上限相匹配。合成数据集和现实世界数据集的数值示例证明了提出的非负张量数据完成方法的优越性。
translated by 谷歌翻译
This work considers a computationally and statistically efficient parameter estimation method for a wide class of latent variable models-including Gaussian mixture models, hidden Markov models, and latent Dirichlet allocation-which exploits a certain tensor structure in their low-order observable moments (typically, of second-and third-order). Specifically, parameter estimation is reduced to the problem of extracting a certain (orthogonal) decomposition of a symmetric tensor derived from the moments; this decomposition can be viewed as a natural generalization of the singular value decomposition for matrices. Although tensor decompositions are generally intractable to compute, the decomposition of these specially structured tensors can be efficiently obtained by a variety of approaches, including power iterations and maximization approaches (similar to the case of matrices). A detailed analysis of a robust tensor power method is provided, establishing an analogue of Wedin's perturbation theorem for the singular vectors of matrices. This implies a robust and computationally tractable estimation approach for several popular latent variable models.
translated by 谷歌翻译
Various forms of regularization in learning tasks strive for different notions of simplicity. This paper presents a spectral regularization technique, which attaches a unique inductive bias to sequence modeling based on an intuitive concept of simplicity defined in the Chomsky hierarchy. From fundamental connections between Hankel matrices and regular grammars, we propose to use the trace norm of the Hankel matrix, the tightest convex relaxation of its rank, as the spectral regularizer. To cope with the fact that the Hankel matrix is bi-infinite, we propose an unbiased stochastic estimator for its trace norm. Ultimately, we demonstrate experimental results on Tomita grammars, which exhibit the potential benefits of spectral regularization and validate the proposed stochastic estimator.
translated by 谷歌翻译
本文介绍了一种简单的有效学习算法,用于一般顺序决策。该算法将探索的乐观与模型估计的最大似然估计相结合,因此被命名为OMLE。我们证明,Omle了解了多项式数量的样本中一系列非常丰富的顺序决策问题的近乎最佳策略。这个丰富的类别不仅包括大多数已知的基于模型的基于模型的强化学习(RL)问题(例如表格MDP,计算的MDP,低证人等级问题,表格弱弱/可观察到的POMDP和多步可解码的POMDP),但是同样,许多新的具有挑战性的RL问题,尤其是在可观察到的部分环境中,这些问题以前尚不清楚。值得注意的是,本文解决的新问题包括(1)具有连续观察和功能近似的可观察到的POMDP,在其中我们实现了完全独立于观察空间的第一个样品复杂性; (2)条件良好的低级顺序决策问题(也称为预测状态表示(PSRS)),其中包括并概括了所有已知的可牵引的POMDP示例,这些示例在更固有的表示下; (3)在帆条件下进行一般顺序决策问题,这统一了我们在完全可观察和部分可观察的设置中对基于模型的RL的现有理解。帆条件是由本文确定的,可以将其视为贝尔曼/证人等级的自然概括,以解决部分可观察性。
translated by 谷歌翻译
密度矩阵描述了量子系统的统计状态。它是一种强大的形式主义,代表量子系统的量子和经典不确定性,并表达不同的统计操作,例如测量,系统组合和期望作为线性代数操作。本文探讨了密度矩阵如何用作构建块,以构建机器学习模型,利用它们直接组合线性代数和概率的能力。本文的主要结果之一是表示与随机傅里叶功能耦合的密度矩阵可以近似任意概率分布超过$ \ mathbb {r} ^ n $。基于此发现,该纸张为密度估计,分类和回归构建了不同的模型。这些模型是可疑的,因此可以将它们与其他可分辨率的组件(例如深度学习架构)集成,并使用基于梯度的优化来学习其参数。此外,本文提出了基于估计和模型平均的优化培训策略。该模型在基准任务中进行评估,并报告并讨论结果。
translated by 谷歌翻译
度量的运输提供了一种用于建模复杂概率分布的多功能方法,并具有密度估计,贝叶斯推理,生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt(kr)重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而,此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习(例如,通过最大似然估计)出现的优化问题的属性产生了重大影响。我们提出了一个通用框架,用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件,以使相关的无限维度最小化问题没有伪造的局部最小值,即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布,唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品,我们提出了一种自适应算法,该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计,无可能的推断以及有向图形模型的结构学习,并在一系列样本量之间具有稳定的概括性能。
translated by 谷歌翻译
结构分布,即组合空间的分布,通常用于学习观察到数据的潜在概率表示。然而,缩放这些模型是由高计算和内存复杂度相对于潜在表示的大小的瓶颈。诸如隐藏的马尔可夫模型(HMMS)和概率的无内容语法(PCFG)的常见模型在隐藏状态的数量中需要时间和空间二次和立方。这项工作展示了一种简单的方法来降低大类结构化模型的计算和内存复杂性。我们展示通过将中央推理步骤视为矩阵 - 矢量产品,并使用低秩约束,我们可以通过等级进行模型表达性和速度。用神经参数化结构化模型进行语言建模,复音音乐建模,无监督语法诱导和视频建模的实验表明,我们的方法在提供实用加速度的同时匹配大状态空间的标准模型的准确性。
translated by 谷歌翻译
We propose Multivariate Quantile Function Forecaster (MQF$^2$), a global probabilistic forecasting method constructed using a multivariate quantile function and investigate its application to multi-horizon forecasting. Prior approaches are either autoregressive, implicitly capturing the dependency structure across time but exhibiting error accumulation with increasing forecast horizons, or multi-horizon sequence-to-sequence models, which do not exhibit error accumulation, but also do typically not model the dependency structure across time steps. MQF$^2$ combines the benefits of both approaches, by directly making predictions in the form of a multivariate quantile function, defined as the gradient of a convex function which we parametrize using input-convex neural networks. By design, the quantile function is monotone with respect to the input quantile levels and hence avoids quantile crossing. We provide two options to train MQF$^2$: with energy score or with maximum likelihood. Experimental results on real-world and synthetic datasets show that our model has comparable performance with state-of-the-art methods in terms of single time step metrics while capturing the time dependency structure.
translated by 谷歌翻译
密度估计是统计和机器学习应用中的基本任务。内核密度估计是低维度非参数密度估计的强大工具;但是,其性能在更高的维度上很差。此外,其预测复杂性量表与更多的培训数据点线性线性。本文提出了一种神经密度估计的方法,可以看作是一种核密度估计的一种,但没有高预测计算复杂性。该方法基于密度矩阵,一种用于量子力学的形式主义和自适应傅立叶特征。可以在没有优化的情况下对该方法进行培训,但也可以与深度学习体系结构集成并使用梯度下降进行训练。因此,它可以看作是神经密度估计方法的一种形式。该方法在不同的合成和实际数据集中进行了评估,其性能与最新的神经密度估计方法进行了比较,从而获得了竞争结果。
translated by 谷歌翻译
条件密度估计(CDE)是估算某些输入上的事件概率的任务。神经网络(NN)还可用于计算连续域的输出分布,这可以被视为回归任务的扩展。然而,在不知道其一般形式的信息的情况下,难以明确地近似分布。为了符合任意条件分布,将连续域分离成箱是一种有效的策略,只要我们拥有足够窄的箱和非常大的数据。然而,收集足够的数据通常很难到达,并且在许多情况下,特别是在多变量Cde的诅咒中的诅咒中的那种理想。在本文中,我们展示了使用基于Deconvolution的神经网络框架建模自由形式条件分布的好处,在离散化中应对数据缺陷问题。它具有灵活性的优点,但也利用了解压缩层提供的分层平滑度。我们将我们的方法与许多其他密度估计方法进行比较,并表明我们的解卷积密度网络(DDN)优于许多单变量和多变量任务的竞争方法。 DDN的代码可在https://github.com/nbiclab/ddn上获得。
translated by 谷歌翻译
The framework of normalizing flows provides a general strategy for flexible variational inference of posteriors over latent variables. We propose a new type of normalizing flow, inverse autoregressive flow (IAF), that, in contrast to earlier published flows, scales well to high-dimensional latent spaces. The proposed flow consists of a chain of invertible transformations, where each transformation is based on an autoregressive neural network. In experiments, we show that IAF significantly improves upon diagonal Gaussian approximate posteriors. In addition, we demonstrate that a novel type of variational autoencoder, coupled with IAF, is competitive with neural autoregressive models in terms of attained log-likelihood on natural images, while allowing significantly faster synthesis.
translated by 谷歌翻译