先前创建了以最小消息长度(MML)原理为指导的用于归纳推理的软件库。它包含统计模型的各种(面向对象的)类和子类,可用于从机器学习问题中给定的数据集中推断模型。在这里,在库中考虑并实现了统计模型的转换,以便从面向对象的编程和数学观点具有理想的属性。定义了进行此类转换所需的类功能的子类。
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
A fundamental problem in neural network research, as well as in many other disciplines, is finding a suitable representation of multivariate data, i.e. random vectors. For reasons of computational and conceptual simplicity, the representation is often sought as a linear transformation of the original data. In other words, each component of the representation is a linear combination of the original variables. Well-known linear transformation methods include principal component analysis, factor analysis, and projection pursuit. Independent component analysis (ICA) is a recently developed method in which the goal is to find a linear representation of nongaussian data so that the components are statistically independent, or as independent as possible. Such a representation seems to capture the essential structure of the data in many applications, including feature extraction and signal separation. In this paper, we present the basic theory and applications of ICA, and our recent work on the subject.
translated by 谷歌翻译
我们表明,概率编程系统(PPSS)的标准计算管道可能无效地估计期望,并介绍期望编程的概念以解决这一问题。在预期的编程中,后端推理引擎的目的是直接估计程序的预期返回值,而不是近似其条件分布。这种区别虽然微妙,但使我们能够通过根据我们关心的期望来将计算定制计算来实现对标准PPS计算管道的实质性改进。我们通过扩展PPS图灵以允许自动运行的所谓目标推理来实现我们的期望编程概念,图灵(EPT)中的期望编程(EPT)的特定实例。然后,我们从理论上验证EPT的统计声音,并表明它在实践中提供了可观的经验收益。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
归一化流程模型在简单的基本分布上运行的族裔转换方面,复杂的目标分布。因此,它们可以对许多重要的统计量,尤其是可能性和样本进行可触及的计算。尽管具有这些吸引人的属性,但更复杂的推理任务的计算,例如复杂区域(例如,多层)上的累积分布函数(CDF)仍然具有挑战性。使用蒙特卡洛技术的传统CDF近似值是公正的,但具有无界方差和较低的样品效率。取而代之的是,我们建立在标准化流的差异特性的基础上,并利用差异定理在目标空间中的封闭区域估计CDF,这是由横向范围的流量横向空间的\ emph {boundare}而言。我们描述了该估计值的确定性和随机实例:而确定性变体迭代通过策略性地细化边界来改善估计值,而随机变体则提供了无偏的估计值。我们对流行流架构和UCI基准数据集的实验表明,与传统估计器相比,样本效率的提高显着提高。
translated by 谷歌翻译
我们介绍了一类小说的预计方法,对实际线上的概率分布数据集进行统计分析,具有2-Wassersein指标。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影运算符来限制Wassersein空间中的结果来利用与其弱利米结构密切相关的Wasserstein空间的表示。通过仔细选择切线,我们能够推出快速的经验方法,利用受约束的B样条近似。作为我们方法的副产品,我们还能够为PCA的PCA进行更快的例程来获得分布。通过仿真研究,我们将我们的方法与先前提出的方法进行比较,表明我们预计的PCA具有类似的性能,即使在拼盘下也是极其灵活的。研究了模型的若干理论性质,并证明了渐近一致性。讨论了两个真实世界应用于美国和风速预测的Covid-19死亡率。
translated by 谷歌翻译
我们提供了静态分析,用于发现给定概率程序的可区分或更普遍的平滑部分,并展示如何使用分析来改善路径梯度估计器,这是后验推理和模型学习的最流行方法之一。我们的改进将估计器的范围从可区分模型到非差异性模型的范围,而无需用户手动干预;改进的估计器会使用我们的静态分析自动识别给定概率程序的可区分部分,并将路径梯度估计器应用于已识别的零件,同时使用程序的其余部分使用更通用但效率较低的估计器(称为得分估计器)。我们的分析具有令人惊讶的微妙的声音论点,部分原因是从程序分析设计师的角度看待某些目标平滑性属性的不当行为。例如,某些平滑度属性不能通过函数组成保留,这使得在不牺牲精度的情况下很难分析顺序组成。我们在目标平滑度属性上制定了五个假设,证明了我们在这些假设下的分析的健全性,并表明我们的主要示例满足了这些假设。我们还表明,通过使用分析中的信息,我们的改进梯度估计器满足了重要的可不同性要求,因此,在轻度的规律性条件下,平均计算正确的估计值,即,它返回无偏见的估计值。我们在Pyro语言中使用代表性概率程序进行的实验表明,我们的静态分析能够准确地识别这些程序的平滑部分,并使我们改进的路径梯度估计器利用这些程序中的所有高性能机会。
translated by 谷歌翻译
One often wants to estimate statistical models where the probability density function is known only up to a multiplicative normalization constant. Typically, one then has to resort to Markov Chain Monte Carlo methods, or approximations of the normalization constant. Here, we propose that such models can be estimated by minimizing the expected squared distance between the gradient of the log-density given by the model and the gradient of the log-density of the observed data. While the estimation of the gradient of log-density function is, in principle, a very difficult non-parametric problem, we prove a surprising result that gives a simple formula for this objective function. The density function of the observed data does not appear in this formula, which simplifies to a sample average of a sum of some derivatives of the log-density given by the model. The validity of the method is demonstrated on multivariate Gaussian and independent component analysis models, and by estimating an overcomplete filter set for natural image data.
translated by 谷歌翻译
我们提出了第一近最优量子算法,用于估计欧几里德的规范,与有限均值和协方差的矢量值随机变量的平均值。我们的结果旨在将多元子高斯估计的理论延伸到量子设置。与经典上不同,如果任何单变量估计器都可以在维度中最多的对数开销转换为多变量估计器,则不会在量子设置中证明类似的结果。实际上,当样品复杂性小于尺寸时,Heinrich排除了平均估计问题的量子优势。我们的主要结果是表明,在这种低精度的方案之外,有一个量子估计值优于任何经典估算器。我们的方法比单变量设置大致涉及,大多数量子估计人员依赖于相位估计。我们利用各种额外的算法技术,如幅度放大,伯恩斯坦 - Vazirani算法和量子奇异值转换。我们的分析还使用多元截断统计的浓度不等式。我们以前在文献中出现的两个不同输入模型中的Quantum估算器。第一个提供对随机变量的二进制表示的相干访问,并且它包含经典设置。在第二模型中,随机变量直接编码到量子寄存器的相位中。该模型在许多量子算法中自然出现,但常常具有古典样品通常是无与伦比的。我们将我们的技术调整为这两个设置,我们表明第二种模型严格较弱,以解决平均估计问题。最后,我们描述了我们的算法的几个应用,特别是在测量通勤可观察到的期望值和机器学习领域时。
translated by 谷歌翻译
Derivatives, mostly in the form of gradients and Hessians, are ubiquitous in machine learning. Automatic differentiation (AD), also called algorithmic differentiation or simply "autodiff", is a family of techniques similar to but more general than backpropagation for efficiently and accurately evaluating derivatives of numeric functions expressed as computer programs. AD is a small but established field with applications in areas including computational fluid dynamics, atmospheric sciences, and engineering design optimization. Until very recently, the fields of machine learning and AD have largely been unaware of each other and, in some cases, have independently discovered each other's results. Despite its relevance, general-purpose AD has been missing from the machine learning toolbox, a situation slowly changing with its ongoing adoption under the names "dynamic computational graphs" and "differentiable programming". We survey the intersection of AD and machine learning, cover applications where AD has direct relevance, and address the main implementation techniques. By precisely defining the main differentiation techniques and their interrelationships, we aim to bring clarity to the usage of the terms "autodiff", "automatic differentiation", and "symbolic differentiation" as these are encountered more and more in machine learning settings.
translated by 谷歌翻译
本文分析了机器学习中使用的流行损失函数,称为log-cosh损失函数。已经使用此损失函数发表了许多论文,但迄今为止,文献中尚未介绍统计分析。在本文中,我们介绍了对日志cosh损失的分布函数。我们将其与类似的分布进行比较,称为Cauchy分布,并执行了特征其性质的各种统计程序。特别是,我们检查了其相关的PDF,CDF,似然函数和Fisher信息。并排考虑具有渐近偏置,渐近方差和置信区间的位置参数的MLE的cauchy和COSH分布。我们还提供了来自其他几个损失函数的强大估计器的比较,包括Huber损失函数和等级分散函数。此外,我们检查了对数字-COSH函数在分位数回归中的使用。特别是,我们确定了一个分位数分布函数,可以从中得出最大似然估计量。最后,我们将基于log-cosh的分位数m静态器与稳健的单调性与基于卷积平滑的另一种分位回归方法进行比较。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
Kendall转换是将有序功能转换为单个值之间的成对订单关系的向量。这样,它保留了观察的排名,并以分类形式表示它。这种转化允许需要严格分类输入的方法的概括,尤其是在离散方式发生问题时在少量观察的极限中。特别地,可以直接应用信息理论方法,而不依赖于差分熵或任何附加参数。此外,通过将信息过滤到排名中的信息,Kendall转换以合理的成本导致更好的稳健性,其丢弃了复杂的相互作用,这不太可能被正确估计。在双变量分析中,肯德尔转型可以与流行的非参数方法有关,呈现方法的健全性。本文还展示了其在多变量问题中的效率,并提供了对真实数据的示例分析。
translated by 谷歌翻译
or if the system is intended to service several individual channels in multiplex; (e) Several functions of several variables --in color television the message consists of three functions f (x,y, t), g(x, y, t), h(x, y, t) defined in a three-dimensional continuum --we may also think of these three functions as components of a vector field defined in the region --similarly, several black and white television sources would produce "messages" consisting of a number of functions of three variables; (f) Various combinations also occur, for example in television with an associated audio channel.. A transmitter which operates on the message in some way to produce a signal suitable for transmission over the channel. In telephony this operation consists merely of changing sound pressure into a proportional electrical current. In telegraphy we have an encoding operation which produces a sequence of dots, dashes and spaces on the channel corresponding to the message. In a multiplex PCM system the different speech functions must be sampled, compressed, quantized and encoded, and finally interleaved properly to construct the signal. Vocoder systems, television and frequency modulation are other examples of complex operations applied to the message to obtain the signal.3. The channel is merely the medium used to transmit the signal from transmitter to receiver. It may be a pair of wires, a coaxial cable, a band of radio frequencies, a beam of light, etc. 4. The receiver ordinarily performs the inverse operation of that done by the transmitter, reconstructing the message from the signal.5. The destination is the person (or thing) for whom the message is intended.We wish to consider certain general problems involving communication systems. To do this it is first necessary to represent the various elements involved as mathematical entities, suitably idealized from their physical counterparts. We may roughly classify communication systems into three main categories: discrete, continuous and mixed. By a discrete system we will mean one in which both the message and the signal are a sequence of discrete symbols. A typical case is telegraphy where the message is a sequence of letters and the signal a sequence of dots, dashes and spaces. A continuous system is one in which the message and signal are both treated
translated by 谷歌翻译
我们考虑了使用显微镜或X射线散射技术产生的图像数据自组装的模型的贝叶斯校准。为了说明BCP平衡结构中的随机远程疾病,我们引入了辅助变量以表示这种不确定性。然而,这些变量导致了高维图像数据的综合可能性,通常可以评估。我们使用基于测量运输的可能性方法以及图像数据的摘要统计数据来解决这一具有挑战性的贝叶斯推理问题。我们还表明,可以计算出有关模型参数的数据中的预期信息收益(EIG),而无需额外的成本。最后,我们介绍了基于二嵌段共聚物薄膜自组装和自上而下显微镜表征的ohta-kawasaki模型的数值案例研究。为了进行校准,我们介绍了一些基于域的能量和傅立叶的摘要统计数据,并使用EIG量化了它们的信息性。我们证明了拟议方法研究数据损坏和实验设计对校准结果的影响的力量。
translated by 谷歌翻译
识别空间有趣,不同或对抗性行为的区域的问题是许多涉及分布式多传感器系统的实际应用。在这项工作中,我们开发了一个由多个假设检验的一般框架,以识别此类区域。假定在受监视的环境中假定离散的空间网格。确定与不同假设相关的空间网格点,同时在预先指定的水平控制错误发现率时。使用大型传感器网络获得测量。我们提出了一种新颖的,数据驱动的方法,以基于矩的光谱方法来估计局部错误发现率。我们的方法对基本物理现象的特定空间传播模型不可知。它依靠广泛适用的密度模型来用于本地汇总统计。在两次传感器之间,将位置分配给基于插值的局部错误发现率相关的不同假设相关的区域。我们方法的好处是通过应用在空间传播无线电波的应用中说明的。
translated by 谷歌翻译
这是模型选择和假设检测的边缘似然计算的最新介绍和概述。计算概率模型(或常量比率)的常规规定常数是许多统计数据,应用数学,信号处理和机器学习中的许多应用中的基本问题。本文提供了对主题的全面研究。我们突出了不同技术之间的局限性,优势,连接和差异。还描述了使用不正确的前沿的问题和可能的解决方案。通过理论比较和数值实验比较一些最相关的方法。
translated by 谷歌翻译
本文研究了以$ \ mathbb {r}^d $使用球形协方差矩阵$ \ sigma^2 \ sigma^2 \ mathbf {i} $的$ k $学习中心的样本复杂性。特别是,我们对以下问题感兴趣:最大噪声水平$ \ sigma^2 $是什么,对此样品复杂性基本与从标记的测量值估算中心时相同?为此,我们将注意力限制为问题的贝叶斯公式,其中中心均匀分布在球体上$ \ sqrt {d} \ Mathcal {s}^{d-1} $。我们的主要结果表征了确切的噪声阈值$ \ sigma^2 $,而GMM学习问题(在大系统中限制$ d,k \ to \ infty $)就像从标记的观测值中学习一样容易更加困难。阈值发生在$ \ frac {\ log k} {d} = \ frac12 \ log \ left(1+ \ frac {1} {1} {\ sigma^2} \ right)$,这是添加性白色高斯的能力噪声(AWGN)频道。将$ K $中心的集合作为代码,可以将此噪声阈值解释为最大的噪声水平,AWGN通道上代码的错误概率很小。关于GMM学习问题的先前工作已将中心之间的最小距离确定为确定学习相应GMM的统计难度的关键参数。虽然我们的结果仅是针对中心均匀分布在球体上的GMM的,但他们暗示,也许这是与中心星座相关的解码错误概率作为频道代码确定学习相应GMM的统计难度,而不是仅仅最小距离。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译