尽管对连续数据的归一流流进行了广泛的研究,但直到最近才探索了离散数据的流量。然而,这些先前的模型遭受了与连续流的局限性。最值得注意的是,由于离散函数的梯度不确定或零,因此不能直接优化基于流动的模型。先前的作品近似离散功能的伪级,但不能在基本层面上解决该问题。除此之外,与替代离散算法(例如决策树算法)相比,反向传播可能是计算繁重的。我们的方法旨在减轻计算负担,并通过基于决策树开发离散流程来消除对伪级的需求,这是基于有效的基于树的基于有效的树的方法进行分类和回归的离散数据。我们首先定义了树结构化置换(TSP),该置换量(TSP)紧凑地编码离散数据的排列,其中逆向易于计算;因此,我们可以有效地计算密度值并采样新数据。然后,我们提出了一种决策树算法来构建TSP,该TSP通过新标准在每个节点上学习树结构和排列。我们从经验上证明了我们在多个数据集上方法的可行性。
translated by 谷歌翻译
在共享潜在空间中对齐两个或更多个分布的无监督任务具有许多应用,包括公平表示,批量效果缓解和无监督域适应。现有的基于流动的方法独立估计多个流动,这相当于学习多个完整的生成模型。其他方法需要对抗性学习,这可以是可以计算地昂贵和挑战的优化。因此,我们的目标是在避免对抗性学习的同时联合对齐多个分布。通过从最佳运输(OT)理论的高效对准算法的启发,我们开发了一种简单的迭代方法来构建深层和富有效力的流动。我们的方法将每次迭代分成两个子问题:1)形成分配分配的变化近似,并且2)通过基于已知的OT结果的闭合形式可逆对准映射最小化该变分近似。我们的经验结果证明了这种迭代算法以低计算成本实现了竞争分布对准,同时能够自然地处理两个以上的分布。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
In this paper we prove the so-called "Meek Conjecture". In particular, we show that if a DAG H is an independence map of another DAG G, then there exists a finite sequence of edge additions and covered edge reversals in G such that (1) after each edge modification H remains an independence map of G and ( 2) after all modifications G = H. As shown by Meek (1997), this result has an important consequence for Bayesian approaches to learning Bayesian networks from data: in the limit of large sample size, there exists a twophase greedy search algorithm that-when applied to a particular sparsely-connected search space-provably identifies a perfect map of the generative distribution if that perfect map is a DAG. We provide a new implementation of the search space, using equivalence classes as states, for which all operators used in the greedy search can be scored efficiently using local functions of the nodes in the domain. Finally, using both synthetic and real-world datasets, we demonstrate that the two-phase greedy approach leads to good solutions when learning with finite sample sizes.
translated by 谷歌翻译
尽管在图像生成方面广泛进展,但在应用于无损压缩时,深度生成模型是次优。例如,由于其潜在变量,诸如VAE的模型遭受压缩成本开销,其潜在的变量只能被部分地消除,这些方案诸如位编码,导致单个样本压缩率不良。为了克服这些问题,我们建立了一类新的易旧的无损压缩模型,允许有效的编码和解码:概率电路(PC)。这些是一类神经网络,涉及$ | $ COWS $ COMPUTIONATION单位,支持高效的$ D $特征尺寸的任意子集,从而实现有效的算术编码。我们推出了有效的编码和解码方案,即有时间复杂度$ \ mathcal {o}(\ log(d)\ cdot | p | p |)$,其中天真的方案在$ d $和$ | p | $ ,使方法高度可扩展。经验,我们的PC基(DE)压缩算法比实现类似比特率的神经压缩算法更快地运行5-20倍。通过缩放传统的PC结构学习管道,我们在诸如MNIST之类的图像数据集上实现了最先进的结果。此外,PC可以自然地与现有的神经压缩算法集成,以改善在自然图像数据集上的这些基础模型的性能。我们的结果突出了非标准学习架构可能对神经数据压缩的潜在影响。
translated by 谷歌翻译
Normalizing Flows are generative models which produce tractable distributions where both sampling and density evaluation can be efficient and exact. The goal of this survey article is to give a coherent and comprehensive review of the literature around the construction and use of Normalizing Flows for distribution learning. We aim to provide context and explanation of the models, review current state-of-the-art literature, and identify open questions and promising future directions.
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
在本文中,我们提出了一个基于树张量网状状态的密度估计框架。所提出的方法包括使用Chow-Liu算法确定树拓扑,并获得线性系统通过草图技术定义张量 - 网络组件的线性系统。开发了草图功能的新颖选择,以考虑包含循环的图形模型。提供样品复杂性保证,并通过数值实验进一步证实。
translated by 谷歌翻译
本文介绍了一种具有层次结构的基于流的模型的新方法。所提出的框架被命名为变分流图形(VFG)模型。 VFG通过通过变异推理集成基于流的功能,通过消息通话方案来学习高维数据的表示。通过利用神经网络的表达能力,VFGS使用较低的维度产生数据的表示,从而克服了许多基于流动的模型的缺点,通常需要具有许多涉及许多琐事变量的高维度空间。在VFG模型中介绍了聚合节点,以通过消息传递方案集成前回溯分层信息。最大化数据可能性的证据下限(ELBO)在每个聚合节点中的向前和向后消息都能使一个一致性节点状态对齐。已经开发了算法来通过有关ELBO目标的梯度更新来学习模型参数。聚集节点的一致性使VFGS适用于图形结构的可牵引性推断。除了表示学习和数值推断外,VFG还提供了一种在具有图形潜在结构的数据集上分发建模的新方法。此外,理论研究表明,通过利用隐式可逆基于流动的结构,VFG是通用近似值。凭借灵活的图形结构和出色的过度功率,VFG可以可能用于改善概率推断。在实验中,VFGS在多个数据集上实现了改进的证据下限(ELBO)和似然值。
translated by 谷歌翻译
许多众所周知的矩阵$ Z $与FORMS $ z = x ^ j \ ldots x ^ 1 $相对应的快速变换相关联,其中每个因素$ x ^ \ ell $稀疏和可能结构化。本文研究了这种因素的基本独特性。我们的第一个主要贡献是证明具有所谓的蝴蝶结构的任何$ n \ times n $矩阵承认为$ j $蝴蝶因子(其中$ n = 2 ^ $),并且这些因素可以是通过分层分解方法恢复。这与现有的方法形成对比,其通过梯度下降将蝴蝶因子产品拟合到给定基质的乘积。该提出的方法可以特别应用于检索Hadamard或离散傅里叶变换矩阵的尺寸为2 ^ j $的分解。计算此类构建的成本$ \ mathcal {o}(n ^ 2)$,它是密集矩阵 - 矢量乘法的顺序,而获得的因子化使能快速$ \ mathcal {o}(n \ log n)$矩阵 - 矢量乘法。此分层标识性属性依赖于最近建立的两层和固定支持设置中的简单标识性条件。虽然蝴蝶结构对应于每个因素的固定规定的支撑,但我们的第二款贡献是通过允许的稀疏模式的更多普通家庭获得可识别性结果,同时考虑到不可避免的诽谤歧义。通常,我们通过分层范式展示了分离傅里叶变换矩阵的蝴蝶分解矩阵为2 ^ j $承认为$ 2 $ 2 $-al-dialAlysity的$ 2 $-ad-assity时,将独特的稀疏因子分解为$ j $ factors。关于每个因素。
translated by 谷歌翻译
在任何给定的机器学习问题中,可能有许多模型可以很好地解释数据。但是,大多数学习算法仅返回这些模型中的一种,使从业者没有实用的方法来探索替代模型,这些模型可能具有超出损失函数中可以表达的内容的理想属性。 Rashomon集是所有这些几乎最佳模型的集合。 Rashomon集可能非常复杂,尤其是对于高度非线性功能类,允许复杂的交互项,例如决策树。我们提供了第一种完全列举稀疏决策树的Rashomon设置的技术;实际上,我们的工作提供了针对高度非线性离散功能类别的非平凡问题的所有Rashomon设置的首次列举。这使用户可以在所有近似同样好的模型中对模型选择的前所未有的控制水平。我们在专门的数据结构中表示Rashomon集,该数据结构支持有效的查询和采样。我们显示了Rashomon集的三个应用:1)它可用于研究一组几乎最佳树的重要性(与一棵树相对),2)Rashomon设置的精确度使Rashomon集可以枚举Rashomon集合。平衡的精度和F1得分,以及3)完整数据集的Rashomon集可以用于生产仅使用数据集的子集构建的Rashomon集。因此,我们能够检查新镜头问题的Rashomon集合,使用户能够选择模型,而不是受到仅产生单个模型的算法的摆布。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
稀疏决策树优化是AI自成立以来的最基本问题之一,并且是可解释机器学习核心的挑战。稀疏的决策树优化是计算地的艰难,尽管自1960年代以来稳定的努力,但在过去几年中才突破问题,主要是在找到最佳稀疏决策树的问题上。然而,目前最先进的算法通常需要不切实际的计算时间和内存,以找到一些真实世界数据集的最佳或近最优树,特别是那些具有多个连续值的那些。鉴于这些决策树优化问题的搜索空间是大规模的,我们可以实际上希望找到一个稀疏的决策树,用黑盒机学习模型的准确性竞争吗?我们通过智能猜测策略来解决这个问题,可以应用于基于任何最优分支和绑定的决策树算法。我们表明,通过使用这些猜测,我们可以通过多个数量级来减少运行时间,同时提供所得树木可以偏离黑匣子的准确性和表现力的界限。我们的方法可以猜测如何在最佳决策树错误的持续功能,树的大小和下限上进行换算。我们的实验表明,在许多情况下,我们可以迅速构建符合黑匣子型号精度的稀疏决策树。总结:当您在优化时遇到困难时,就猜测。
translated by 谷歌翻译
我们研究了清单可解放的平均估计问题,而对手可能会破坏大多数数据集。具体来说,我们在$ \ mathbb {r} ^ $和参数$ 0 <\ alpha <\ frac 1 2 $中给出了一个$ $ n $ points的$ t $ points。$ \ alpha $ -flaction的点$ t $是iid来自乖巧的分发$ \ Mathcal {D} $的样本,剩余的$(1- \ alpha)$ - 分数是任意的。目标是输出小型的vectors列表,其中至少一个接近$ \ mathcal {d} $的均值。我们开发新的算法,用于列出可解码的平均值估计,实现几乎最佳的统计保证,运行时间$ O(n ^ {1 + \ epsilon_0} d)$,适用于任何固定$ \ epsilon_0> 0 $。所有先前的此问题算法都有额外的多项式因素在$ \ frac 1 \ alpha $。我们与额外技术一起利用此结果,以获得用于聚类混合物的第一个近几个线性时间算法,用于分开的良好表现良好的分布,几乎匹配谱方法的统计保证。先前的聚类算法本身依赖于$ k $ -pca的应用程序,从而产生$ \ omega(n d k)$的运行时。这标志着近二十年来这个基本统计问题的第一次运行时间改进。我们的方法的起点是基于单次矩阵乘法权重激发电位减少的$ \ Alpha \至1 $制度中的新颖和更简单的近线性时间较强的估计算法。在Diakonikolas等人的迭代多滤波技术的背景下,我们迫切地利用了这种新的算法框架。 '18,'20,提供一种使用一维投影的同时群集和下群点的方法 - 因此,绕过先前算法所需的$ k $ -pca子程序。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
贝叶斯结构学习允许人们对负责生成给定数据的因果定向无环图(DAG)捕获不确定性。在这项工作中,我们提出了结构学习(信任)的可疗法不确定性,这是近似后推理的框架,依赖于概率回路作为我们后验信仰的表示。与基于样本的后近似值相反,我们的表示可以捕获一个更丰富的DAG空间,同时也能够通过一系列有用的推理查询来仔细地理解不确定性。我们从经验上展示了如何将概率回路用作结构学习方法的增强表示,从而改善了推断结构和后部不确定性的质量。有条件查询的实验结果进一步证明了信任的表示能力的实际实用性。
translated by 谷歌翻译
使用通过组成可逆层获得的地图进行标准化模型复杂概率分布。特殊的线性层(例如蒙版和1x1卷积)在现有体系结构中起着关键作用,因为它们在具有可拖动的Jacobians和倒置的同时增加表达能力。我们提出了一个基于蝴蝶层的新的可逆线性层家族,理论上捕获复杂的线性结构,包括排列和周期性,但可以有效地倒置。这种代表力是我们方法的关键优势,因为这些结构在许多现实世界数据集中很常见。根据我们的可逆蝴蝶层,我们构建了一个新的称为蝴蝶流的归一化流量模型。从经验上讲,我们证明蝴蝶不仅可以在MNIST,CIFAR-10和Imagenet 32​​x32等自然图像上实现强密度估计结果,而且还可以在结构化数据集中获得明显更好的对数可能性,例如Galaxy图像和Mimic-III患者群体 - - 同时,在记忆和计算方面比相关基线更有效。
translated by 谷歌翻译
决策森林(森林),尤其是随机森林和梯度促进树木,与许多监督学习场景中的其他方法相比,已经证明了最先进的准确性。尤其是,森林在表格数据中占主导地位,即当特征空间非结构化时,因此信号是特征指数置换的不变性。然而,在存在于多种多样(例如图像,文本和语音)深网(网络)(特别是卷积深网(Convnets))上的结构化数据中,倾向于优于森林。我们猜想至少部分原因是网络的输入不仅仅是特征幅度,也是其索引。相反,天真的森林实施未能明确考虑特征指数。最近提出的森林方法表明,对于每个节点,森林从某些特定分布中隐式采样一个随机矩阵。这些森林像某些类别的网络一样,通过将特征空间划分为对应于线性函数的凸多物体来学习。我们以这种方法为基础,并表明人们可以以多种感知方式选择分布来纳入特征区域。我们在数据上活在三个不同的流形上的数据上证明了经验性能:圆环,图像和时间序列。此外,我们证明了其在多元模拟环境中的强度,并且在预测癫痫患者的手术结果方面也表现出了优越性,并从非运动脑区域的原始立体定向EEG数据中预测运动方向。在所有模拟和真实数据中,歧管随机森林(MORF)算法的表现优于忽略特征空间结构并挑战Convnets的性能。此外,MORF运行迅速,并保持解释性和理论上的理由。
translated by 谷歌翻译
我们提出了一种无监督的树,用于推断I.I.D的基础采样分布。基于拟合添加树的样本,以类似于监督的树木增强的时尚。算法的积分是概率分布的“添加”的新概念,该概率分布导致“残差”的连贯概念,即从观察值中减去概率分布,从后者的采样分布中去除分布结构。我们表明,由于单变量CDF的几种“类似”特性,这些概念通过累积分布函数(CDF)转换和组成自然出现。尽管传统的多元CDF不能保留这些属性,但多元CDF的新定义可以恢复这些属性,从而允许为多元设置制定“添加”和“残差”的概念。然后,这产生了基于添加树合奏的前阶段拟合的无监督算法,从而依次降低了kullback-leibler的差异。该算法允许对拟合密度进行分析评估,并输出可以轻松从中采样的生成模型。我们通过依赖比例的收缩和两阶段的策略来增强算法,该策略分别适合边缘和copula。然后,该算法在多个基准数据集的多元密度估计中竞争性地进行了最新的深度学习方法。
translated by 谷歌翻译