随机分区模型被广泛用于贝叶斯方法中,用于各种聚类任务,例如混合模型,主题模型和社区检测问题。尽管已经对随机分区模型诱导的簇数量进行了广泛的研究,但在很大程度上忽略了有关分区平衡性的另一个重要模型属性。我们通过分析模型如何为具有不同级别平衡度的分区分配概率来定义和理论上研究和理论上研究可交换随机分区模型的平衡性的框架。我们证明,许多现有流行的随机分区模型的“丰富”特征是两个共同假设的必然结果:产品形式的交换性和投影率。我们提出了一种比较随机分区模型的平衡性的原则方法,该模型可以更好地理解哪些模型的工作方式更好,而对于不同的应用程序而言,哪些模型的工作方式更好。我们还介绍了“富裕者”随机分区模型,并说明了它们在实体解决任务中的应用。
translated by 谷歌翻译
Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
translated by 谷歌翻译
离散数据丰富,并且通常作为计数或圆形数据而出现。甚至对于线性回归模型,缀合格前沿和闭合形式的后部通常是不可用的,这需要近似诸如MCMC的后部推理。对于广泛的计数和圆形数据回归模型,我们介绍了能够闭合后部推理的共轭前沿。密钥后和预测功能可通过直接蒙特卡罗模拟来计算。至关重要的是,预测分布是离散的,以匹配数据的支持,并且可以在多个协变量中进行共同评估或模拟。这些工具广泛用途是线性回归,非线性模型,通过基础扩展,以及模型和变量选择。多种仿真研究表明计算,预测性建模和相对于现有替代方案的选择性的显着优势。
translated by 谷歌翻译
我们提出了对学度校正随机块模型(DCSBM)的合适性测试。该测试基于调整后的卡方统计量,用于测量$ n $多项式分布的组之间的平等性,该分布具有$ d_1,\ dots,d_n $观测值。在网络模型的背景下,多项式的数量($ n $)的数量比观测值数量($ d_i $)快得多,与节点$ i $的度相对应,因此设置偏离了经典的渐近学。我们表明,只要$ \ {d_i \} $的谐波平均值生长到无穷大,就可以使统计量在NULL下分配。顺序应用时,该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作,因此在学位上有条件,因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法,即在测试$ K $社区时根据$(k+1)$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量,我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案,因此其效用超出了顺序测试,可用于同时测试DCSBM家族以外的各种替代方案。特别是,我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。
translated by 谷歌翻译
我们考虑有限混合物(MFM)和Dirichlet工艺混合物(DPM)模型的贝叶斯混合物。最近的渐近理论已经确定,DPM高估了大型样本的聚类数量,并且两类模型的估计量对于不指定的群集的数量不一致,但是对有限样本分析的含义尚不清楚。拟合这些模型后的最终报告的估计通常是使用MCMC摘要技术获得的单个代表性聚类,但是尚不清楚这样的摘要估计簇的数量。在这里,我们通过模拟和对基因表达数据的应用进行了研究,发现(i)DPM甚至在有限样本中高估了簇数的数量,但仅在有限的程度上可以使用适当的摘要来纠正,并且(ii)(ii) )错误指定会导致对DPM和MFM中集群数量的高估,但是结果通常仍然可以解释。我们提供了有关MCMC摘要的建议,并建议尽管MFM的渐近性能更具吸引力,这提供了强大的动力来偏爱它们,但使用MFMS和DPMS获得的结果通常在实践中非常相似。
translated by 谷歌翻译
在使用多模式贝叶斯后部分布时,马尔可夫链蒙特卡罗(MCMC)算法难以在模式之间移动,并且默认变分或基于模式的近似推动将低估后不确定性。并且,即使找到最重要的模式,难以评估后部的相对重量。在这里,我们提出了一种使用MCMC,变分或基于模式的模式的并行运行的方法,以便尽可能多地击中多种模式或分离的区域,然后使用贝叶斯堆叠来组合这些用于构建分布的加权平均值的可扩展方法。通过堆叠从多模式后分布的堆叠,最小化交叉验证预测误差的结果,并且代表了比变分推断更好的不确定度,但它不一定是相当于渐近的,以完全贝叶斯推断。我们呈现理论一致性,其中堆叠推断逼近来自未衰退的模型和非混合采样器的真实数据生成过程,预测性能优于完全贝叶斯推断,因此可以被视为祝福而不是模型拼写下的诅咒。我们展示了几个模型家庭的实际实施:潜在的Dirichlet分配,高斯过程回归,分层回归,马蹄素变量选择和神经网络。
translated by 谷歌翻译
Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature.
translated by 谷歌翻译
当可用时,我们继续研究宠物或SPECT等抛光断层凝视的不确定性量化问题。为了解决上述问题,我们将最近提出的非参数后学习技术适应排放断层扫描中泊松型数据的背景。使用这种方法,我们推出了采样算法,这些算法是微不一性的,可扩展的,非常容易实现。此外,我们证明了在小噪声极限中分布产生的样品的条件一致性和紧密性(即,当采集时间趋于无穷大时)并导出必须使用MRI图像的新几何和必要条件。这种情况自然出现在错过的广义泊松模型的可识别性问题的背景下。我们还将我们的方法与贝叶斯马尔可夫链蒙特卡罗采样进行了鲜明对比,基于一个数据增强方案,这在宠物或SPECT的期望最大化算法中非常流行。我们理论上展示了这些数据增强显着增加了马尔可夫链的混合时间。鉴于此,我们的算法似乎在设计复杂性,可扩展性,数值负荷和不确定性评估之间提供合理的权衡。
translated by 谷歌翻译
我们考虑一个预期值排名和选择问题,其中所有K解决方案的仿真输出都取决于常见的不确定输入模型。鉴于输入模型的不确定性是由有限支持的概率单纯捕获的,我们将最佳最佳(MPB)定义为最佳概率最大的解决方案。为了设计有效的采样算法以找到MPB,我们首先得出了一个错误选择MPB的概率的较大偏差率,然后提出最佳计算预算分配(OCBA)问题,以找到最佳的静态采样比率的最佳静态采样率所有解决方案输入模型对最大化下限。我们设计了一系列顺序算法,这些算法应用于可解释和计算有效的采样规则,并证明其采样比达到了随着仿真预算的增加而达到OCBA问题的最佳条件。该算法针对用于上下文排名和选择问题的最新顺序抽样算法进行了基准测试,并证明在查找MPB时具有出色的经验性能。
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
计数示意图(CMS)是一个时间和内存有效的随机数据结构,可根据随机哈希的数据提供令牌数据流(即点查询)中代币频率的估计。 CAI,Mitzenmacher和Adams(\ textit {neurips} 2018)提出了CMS的学习增强版本,称为CMS-DP,它依赖于贝叶斯非参与式(BNP)模型通过dirichlet过程(DP),给定数据,估计点查询作为位置查询后验分布的合适平均功能的估计值给定数据。尽管CMS-DP已被证明可以改善CMS的某些方面,但它具有``建设性的''证明的主要缺点,该证明是基于针对DP先验的论点构建的,即对其他非参数priors不使用的论点。在本文中,我们提出了CMS-DP的``贝叶斯''证明,其主要优点是基于原则上可用的参数,在广泛的非参数先验中,这是由归一化的完全随机措施引起的。该结果导致在Power-Law数据流下开发了一种新颖的学习增强的CMS,称为CMS-PYP,该CMS-PYP依赖于Pitman-Yor流程(PYP)的BNP模型。在这个更一般的框架下,我们应用了CMS-DP的``贝叶斯人''证明的论点,适当地适合PYP先验,以计算鉴于Hashed Data。数据和真实文本数据显示,CMS-PYP在估计低频代币方面优于CMS和CMS-DP,这在文本数据中是至关重要的,并且相对于CMS的变化,它具有竞争力还讨论了为低频代币设计的。还讨论了我们BNP方法扩展到更通用的查询。
translated by 谷歌翻译
对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗(MCMC)算法可以提供后部分布的可靠近似,但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而,这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案,利用类似于乘客(ADMM)优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能,但其高维层的理论行为目前未知。在本文中,我们提出了一个详细的理论研究,该算法之一称为分裂Gibbs采样器。在规律条件下,我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。
translated by 谷歌翻译
利用启发式来评估收敛性和压缩马尔可夫链蒙特卡罗的输出可以在生产的经验逼近时是次优。通常,许多初始状态归因于“燃烧”并移除,而链条的其余部分是“变薄”,如果还需要压缩。在本文中,我们考虑回顾性地从样本路径中选择固定基数的状态的问题,使得由其经验分布提供的近似接近最佳。提出了一种基于核心稳定性差异的贪婪最小化的新方法,这适用于需要重压力的问题。理论结果保障方法的一致性及其有效性在常微分方程的参数推理的具体背景下证明了该效果。软件可在Python,R和Matlab中的Stein细化包中提供。
translated by 谷歌翻译
解决扩大流行病学推断对复杂和异质模型的挑战,我们引入了泊松近似可能性(PAL)方法。 PAL是从有限人口,随机隔室模型的近似滤波方程中得出的,并且较大的人口限制驱动了最大PAL估计器的一致性。我们的理论结果似乎是基于大量的部分观察到的关于大量人群限制的部分随机隔室模型的第一个基于可能性的参数估计一致性结果。与基于仿真的方法(例如近似贝叶斯计算和顺序蒙特卡洛)相比,PALS易于实现,仅涉及基本算术操作,而无需调整参数。并快速评估,不需要模型的模拟,并且具有与人口规模无关的计算成本。通过示例,我们演示了PAL的如何:嵌入延迟的接受粒子马尔可夫链蒙特卡洛中以促进贝叶斯的推断;用于拟合流感的年龄结构化模型,利用Stan的自动分化;并应用于校准麻疹的空间元群模型。
translated by 谷歌翻译
近几十年来,技术进步使得可以收集大数据集。在这种情况下,基于模型的群集是一种非常流行的,灵活和可解释的方法,用于在明确定义的统计框架中进行数据探索。大型数据集的增加之一是缺失值更频繁。但是,传统方式(由于丢弃具有缺失的值或估算方法的观察)不是为聚类目的而设计的。此外,它们很少适用于常规情况,虽然在实践中频繁地缺失,但是当缺失取决于未观察到的数据值时,缺失就缺失(mnar)值,而且可能在观察到的数据值上。本文的目标是通过直接在基于模型的聚类算法内嵌入MNAR数据来提出一种新的方法。我们为数据和缺失数据指示器的联合分布进行了选择模型。它对应于数据分布的混合模型和缺失数据机制的一般Mnar模型,其可以取决于底层类(未知)和/或缺失变量本身的值。导出大量有意义的MNAR子模型,对每个子模型研究了参数的可识别性,这通常是任何MNAR提案的关键问题。考虑EM和随机EM算法估计。最后,我们对合成数据的提议子模型进行了实证评估,我们说明了我们的方法对医疗寄存器的方法,创伤者(R)数据集。
translated by 谷歌翻译
离散状态空间代表了对统计推断的主要计算挑战,因为归一化常数的计算需要在大型或可能的无限集中进行求和,这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发,主要思想是使用离散的Fisher Divergence更新有关模型参数的信念,以代替有问题的棘手的可能性。结果是可以使用标准计算工具(例如Markov Chain Monte Carlo)进行采样的广义后部,从而规避了棘手的归一化常数。分析了广义后验的统计特性,并具有足够的后验一致性和渐近正态性的条件。此外,提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍,在每种情况下,方法论都以低计算成本促进通用的贝叶斯推断。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
机器学习通常以经典的概率理论为前提,这意味着聚集是基于期望的。现在有多种原因可以激励人们将经典概率理论作为机器学习的数学基础。我们系统地检查了一系列强大而丰富的此类替代品,即各种称为光谱风险度量,Choquet积分或Lorentz规范。我们提出了一系列的表征结果,并演示了使这个光谱家族如此特别的原因。在此过程中,我们证明了所有连贯的风险度量的自然分层,从它们通过利用重新安排不变性Banach空间理论的结果来诱导的上层概率。我们凭经验证明了这种新的不确定性方法如何有助于解决实用的机器学习问题。
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
本文研究了主题模型中高维,离散,可能稀疏的混合模型的估计。数据包括在$ n $独立文档中观察到的$ p $单词的多项式计数。在主题模型中,$ p \ times n $预期的单词频率矩阵被认为被分解为$ p \ times k $ word-top-topic矩阵$ a $ a $和a $ k \ times n $ topic-document $ t $ t $ 。由于两个矩阵的列代表属于概率简单的条件概率,因此$ a $的列被视为$ p $ - 二维混合组件,这些混合组件是所有文档共有的,而$ t $的列被视为$ k $二维的混合物特定文档并允许稀疏的权重。主要的兴趣是提供鲜明的,有限的样本,$ \ ell_1 $ norm收敛速率,用于混合物重量$ t $的估计量,当$ a $是已知或未知时。对于已知的$ a $,我们建议MLE估计为$ t $。我们对MLE的非标准分析不仅建立了其$ \ ell_1 $收敛率,而且揭示了一个非凡的属性:MLE,没有额外的正则化,可能完全稀疏,并且包含$ t $的真实零模式。我们进一步表明,MLE既是最佳的最佳选择,又适应了一大批稀疏主题分布中未知的稀疏性。当$ a $未知时,我们通过优化与$ a $ a $的插件的可能性功能来估计$ t $。对于任何满足与$ a $ $ a $的详细条件的估计器$ \ hat {a} $,显示出$ t $的估计器可保留为MLE建立的属性。环境尺寸$ k $和$ p $可以随着样本量而增长。我们的应用是对文档生成分布之间1-Wasserstein距离的估计。我们建议,估计和分析两个概率文档表示之间的新1-Wasserstein距离。
translated by 谷歌翻译