我们研究了一种新型的非参数基于基于纵向数据分析的基于非参数的聚类算法。该算法将天然立方花纹与高斯混合模型(GMM)相结合,可以产生光滑的簇,可以很好地描述基础数据。但是,算法中存在一些缺点:参数估计过程中的高计算复杂性和数值不稳定的方差估计器。因此,为了进一步提高该方法的可用性,我们合并了降低其计算复杂性的方法,我们开发了一种新的,更稳定的方差估计器,并开发了一种新的平滑参数估计过程。我们表明,就聚类和回归性能而言,开发的算法SMIX在合成数据集上的性能优于GMM。我们演示了计算加速器的影响,我们在新框架中正式证明了计算加速器。最后,我们通过使用SMIX来群集垂直大气测量来确定不同的天气状况。
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
信息技术的进步导致了非常大的数据集,通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍,同时保持统计有效性和效率。分裂和征服方法已应用于许多领域,包括分位式流程,回归分析,主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明,如果后者是可行的,所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配,甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。
translated by 谷歌翻译
我们根据功能性隐藏动态地理模型(F-HDGM)的惩罚最大似然估计器(PMLE)提出了一种新型的模型选择算法。这些模型采用经典的混合效应回归结构,该结构具有嵌入式时空动力学,以模拟在功能域中观察到的地理参考数据。因此,感兴趣的参数是该域之间的函数。该算法同时选择了相关的样条基函数和回归变量,这些函数和回归变量用于对响应变量与协变量之间的固定效应关系进行建模。这样,它会自动收缩到功能系数的零部分或无关回归器的全部效果。该算法基于迭代优化,并使用自适应的绝对收缩和选择器操作员(LASSO)惩罚函数,其中未含量的F-HDGM最大likikelihood估计器获得了其中的权重。最大化的计算负担大大减少了可能性的局部二次近似。通过蒙特卡洛模拟研究,我们分析了在不同情况下算法的性能,包括回归器之间的强相关性。我们表明,在我们考虑的所有情况下,受罚的估计器的表现都优于未确定的估计器。我们将该算法应用于一个真实案例研究,其中将意大利伦巴第地区的小时二氧化氮浓度记录记录为具有多种天气和土地覆盖协变量的功能过程。
translated by 谷歌翻译
近几十年来,技术进步使得可以收集大数据集。在这种情况下,基于模型的群集是一种非常流行的,灵活和可解释的方法,用于在明确定义的统计框架中进行数据探索。大型数据集的增加之一是缺失值更频繁。但是,传统方式(由于丢弃具有缺失的值或估算方法的观察)不是为聚类目的而设计的。此外,它们很少适用于常规情况,虽然在实践中频繁地缺失,但是当缺失取决于未观察到的数据值时,缺失就缺失(mnar)值,而且可能在观察到的数据值上。本文的目标是通过直接在基于模型的聚类算法内嵌入MNAR数据来提出一种新的方法。我们为数据和缺失数据指示器的联合分布进行了选择模型。它对应于数据分布的混合模型和缺失数据机制的一般Mnar模型,其可以取决于底层类(未知)和/或缺失变量本身的值。导出大量有意义的MNAR子模型,对每个子模型研究了参数的可识别性,这通常是任何MNAR提案的关键问题。考虑EM和随机EM算法估计。最后,我们对合成数据的提议子模型进行了实证评估,我们说明了我们的方法对医疗寄存器的方法,创伤者(R)数据集。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
我们介绍了一个新型的多层加权网络模型,该模型除了本地信号外,还考虑了全局噪声。该模型类似于多层随机块模型(SBM),但关键区别在于,跨层之间的块之间的相互作用在整个系统中是常见的,我们称之为环境噪声。单个块还以这些固定的环境参数为特征,以表示不属于其他任何地方的成员。这种方法允许将块同时聚类和类型化到信号或噪声中,以便更好地理解其在整个系统中的作用,而现有块模型未考虑。我们采用了分层变异推断的新颖应用来共同检测和区分块类型。我们称此模型为多层加权网络称为随机块(具有)环境噪声模型(SBANM),并开发了相关的社区检测算法。我们将此方法应用于费城神经发育队列中的受试者,以发现与精神病有关的具有共同心理病理学的受试者社区。
translated by 谷歌翻译
高斯混合物模型(GMM)提供了一个简单而原则的框架,具有适用于统计推断的属性。在本文中,我们提出了一种新的基于模型的聚类算法,称为EGMM(证据GMM),在信念函数的理论框架中,以更好地表征集群成员的不确定性。通过代表每个对象的群集成员的质量函数,提出了由所需群集的功率组组成的组件组成的证据高斯混合物分布来对整个数据集进行建模。 EGMM中的参数通过特殊设计的预期最大化(EM)算法估算。还提供了允许自动确定正确数量簇的有效性指数。所提出的EGMM与经典GMM一样简单,但可以为所考虑的数据集生成更有信息的证据分区。合成和真实数据集实验表明,所提出的EGMM的性能比其他代表性聚类算法更好。此外,通过应用多模式脑图像分割的应用也证明了其优势。
translated by 谷歌翻译
Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
translated by 谷歌翻译
引入了涉及高斯流程(GPS)的模型,以同时处理多个功能数据的多任务学习,聚类和预测。该过程充当了功能数据的基于模型的聚类方法,也是对新任务进行后续预测的学习步骤。该模型是将多任务GPS与常见平均过程的混合物实例化。得出了一种用于处理超参数的优化以及超构件对潜在变量和过程的估计的优化。我们建立了明确的公式,用于将平均过程和潜在聚类变量整合到预测分布中,这是两个方面的不确定性。该分布定义为集群特异性GP预测的混合物,在处理组结构数据时,可以增强性能。该模型处理观察的不规则网格,并提供了关于协方差结构的不同假设,用于在任务之间共享其他信息。聚类和预测任务上的性能将通过各种模拟方案和真实数据集进行评估。总体算法称为magmaclust,可公开作为R包。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
海洋充满了称为浮游植物的微型微藻,它们共同负责与陆地上所有植物的光合作用。我们预测他们对变暖海洋的反应的能力取决于了解浮游植物种群的动态如何受环境条件变化的影响。研究浮游植物动力学的一种强大技术是流式细胞仪,它测量每秒成千上万个单个细胞的光学特性。如今,海洋学家能够实时收集流动的细胞仪数据,从而为他们提供了精细的分辨率,可以分配数千公里的浮游植物分布。当前的挑战之一是了解这些大小规模的变化如何与环境条件(例如养分可用性,温度,光线和洋流)有关。在本文中,我们提出了多元回归模型的新型稀疏混合物,以估计随着时间的变化浮游植物的亚群,同时识别预测这些亚种群观察到的变化的特定环境协变量。我们使用合成数据和在2017年春季在东北太平洋进行的海洋学巡游中收集的合成数据和实际观察结果证明了该方法的有用性和解释性。
translated by 谷歌翻译
我们介绍了一类小说的预计方法,对实际线上的概率分布数据集进行统计分析,具有2-Wassersein指标。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影运算符来限制Wassersein空间中的结果来利用与其弱利米结构密切相关的Wasserstein空间的表示。通过仔细选择切线,我们能够推出快速的经验方法,利用受约束的B样条近似。作为我们方法的副产品,我们还能够为PCA的PCA进行更快的例程来获得分布。通过仿真研究,我们将我们的方法与先前提出的方法进行比较,表明我们预计的PCA具有类似的性能,即使在拼盘下也是极其灵活的。研究了模型的若干理论性质,并证明了渐近一致性。讨论了两个真实世界应用于美国和风速预测的Covid-19死亡率。
translated by 谷歌翻译
对未标记的声发射(AE)数据的解释经典依赖于通用聚类方法。虽然过去已经使用了几种外部标准来选择这些算法的超参数,但很少有研究关注能够应对AE数据特异性的聚类方法中专用目标功能的发展。我们研究了如何在混合模型中,尤其是高斯混合模型(GMM)中明确表示簇的爆炸。通过修改此类模型的内部标准,我们提出了第一种聚类方法,能够通过预期最大化过程估算的参数提供有关何时发生簇的信息(ONESET),它们如何生长(动力学)及其通过它们的生长水平及其通过其激活水平时间。这种新的目标函数可容纳AE信号的连续时间戳,从而适应其发生的顺序。该方法称为GMMSEQ,经过实验验证,以表征振动下螺栓结构中的松动现象。与来自五个实验活动的原始流数据数据的三种标准聚类方法的比较表明,GMMSEQ不仅提供了有关簇时间线的有用定性信息,而且还显示出在群集表征方面更好的性能。鉴于制定开放的声学倡议并根据公平原则,数据集和代码可用于复制本文的研究。
translated by 谷歌翻译
学习条件密度和识别影响整个分布的因素是数据驱动应用程序中的重要任务。常规方法主要与摘要统计数据合作,因此不足以进行全面的调查。最近,关于功能回归方法的发展,将密度曲线作为功能结果建模。开发此类模型的一个主要挑战在于非阴性的固有约束和密度结果功能空间的单位积分。为了克服这个基本问题,我们建议Wasserstein分销学习(WDL),这是一个柔性在尺度回归建模框架,始于Wasserstein距离$ W_2 $,作为密度结果空间的适当指标。然后,我们将半参数条件高斯混合模型(SCGMM)作为模型类$ \ mathfrak {f} \ otimes \ Mathcal {t} $作为模型类$ \ mathfrak {scgmm)介绍。生成的度量空间$(\ Mathfrak {f} \ otimes \ Mathcal {t},W_2)$满足所需的约束,并提供密集且封闭的功能子空间。为了拟合所提出的模型,我们基于增强树的大量最小化优化进一步开发了有效的算法。与以前的文献中的方法相比,WDL更好地表征了条件密度的非线性依赖性及其得出的摘要统计。我们通过模拟和现实世界应用来证明WDL框架的有效性。
translated by 谷歌翻译
We develop an optimization algorithm suitable for Bayesian learning in complex models. Our approach relies on natural gradient updates within a general black-box framework for efficient training with limited model-specific derivations. It applies within the class of exponential-family variational posterior distributions, for which we extensively discuss the Gaussian case for which the updates have a rather simple form. Our Quasi Black-box Variational Inference (QBVI) framework is readily applicable to a wide class of Bayesian inference problems and is of simple implementation as the updates of the variational posterior do not involve gradients with respect to the model parameters, nor the prescription of the Fisher information matrix. We develop QBVI under different hypotheses for the posterior covariance matrix, discuss details about its robust and feasible implementation, and provide a number of real-world applications to demonstrate its effectiveness.
translated by 谷歌翻译
我们考虑在离散观察点上测量的功能数据。通常通过额外的噪声测量这种数据。我们在本文中探讨了这种类型数据的因子结构。我们表明潜伏信号可以归因于相应因子模型的公共组件,并且可以通过来自因子模型文献的方法借用方法来估计。我们还表明,在采取这种多变量而不是“功能”的角度之后,可以准确地估计在功能数据分析中发挥关键作用的主成分。除了估计问题之外,我们还解决了对IID噪声的零假设的测试。虽然这个假设在很大程度上在文献中主要是普遍存在的,但我们认为它通常不切实际,并且不受残留分析的支持。
translated by 谷歌翻译
这项工作引入了一种新颖的多变量时间点过程,部分均值行为泊松(PMBP)过程,可以利用以将多变量霍克斯过程适合部分间隔删除的数据,该数据包括在尺寸和间隔子集上的事件时间戳的混合中组成的数据。 - 委员会互补尺寸的事件计数。首先,我们通过其条件强度定义PMBP过程,并导出子临界性的规律性条件。我们展示了鹰过程和MBP过程(Rizoiu等人)是PMBP过程的特殊情况。其次,我们提供了能够计算PMBP过程的条件强度和采样事件历史的数字方案。第三,我们通过使用合成和现实世界数据集来证明PMBP过程的适用性:我们测试PMBP过程的能力,以恢复多变量霍克参数给出鹰过程的样本事件历史。接下来,我们在YouTube流行预测任务上评估PMBP过程,并表明它优于当前最先进的鹰强度过程(Rizoiu等人。(2017b))。最后,在Covid19的策划数据集上,关于国家样本的Covid19每日案例计数和Covid19相关的新闻文章,我们展示了PMBP拟合参数上的聚类使各国的分类能够分类案件和新闻的国家级互动报告。
translated by 谷歌翻译
从各种平台收获的结构点处理数据对机器学习界产生了新的挑战。通过施加矩阵结构以重复观察标记点过程,我们提出了一种新的混合模型的多级标记点过程,用于识别观察到的数据中的潜在异质性。具体地,我们研究了一个矩阵,其条目被标记为Log-Gaussian Cox进程和这种矩阵的簇行。提出了一种有效的半参数期预期 - 解决方案与点流程的功能主成分分析(FPCA)进行了模型估计。通过仿真研究和实际数据分析证明了所提出的框架的有效性。
translated by 谷歌翻译