本文解决了缺少嘈杂和非高斯数据数据的数据的问题。与其他流行的方法相比,一种经典的插补方法,即高斯混合模型的期望最大化(EM)算法,它显示出有趣的特性,例如基于K-Neartivt邻居或通过链式方程式进行多个归纳的方法。然而,已知高斯混合模型对异质数据不舒适,当数据被异常值污染或遵循非高斯分布时,这可能导致估计性能差。为了克服这个问题,研究了一种新的EM算法,用于椭圆形分布的混合物与处理潜在丢失数据的特性。本文表明,此问题减少了在通用假设下的角度高斯分布的混合物的估计(即,每个样品都是从椭圆形分布的混合物中绘制的,对于一个样品而言,这可能是不同的)。在这种情况下,与椭圆形分布的混合物相关的完整数据可能非常适合EM框架,由于其条件分布而缺少数据,这被证明是多元$ t $分布。合成数据的实验结果表明,所提出的算法对异常值是可靠的,可以与非高斯数据一起使用。此外,在现实世界数据集上进行的实验表明,与其他经典插补方法相比,该算法非常有竞争力。
translated by 谷歌翻译
近几十年来,技术进步使得可以收集大数据集。在这种情况下,基于模型的群集是一种非常流行的,灵活和可解释的方法,用于在明确定义的统计框架中进行数据探索。大型数据集的增加之一是缺失值更频繁。但是,传统方式(由于丢弃具有缺失的值或估算方法的观察)不是为聚类目的而设计的。此外,它们很少适用于常规情况,虽然在实践中频繁地缺失,但是当缺失取决于未观察到的数据值时,缺失就缺失(mnar)值,而且可能在观察到的数据值上。本文的目标是通过直接在基于模型的聚类算法内嵌入MNAR数据来提出一种新的方法。我们为数据和缺失数据指示器的联合分布进行了选择模型。它对应于数据分布的混合模型和缺失数据机制的一般Mnar模型,其可以取决于底层类(未知)和/或缺失变量本身的值。导出大量有意义的MNAR子模型,对每个子模型研究了参数的可识别性,这通常是任何MNAR提案的关键问题。考虑EM和随机EM算法估计。最后,我们对合成数据的提议子模型进行了实证评估,我们说明了我们的方法对医疗寄存器的方法,创伤者(R)数据集。
translated by 谷歌翻译
线性和二次判别分析是众所周知的经典方法,但可以严重遭受非高斯分布和/或受污染的数据集,主要是因为潜在的高斯假设并不稳健。为了填补这个差距,本文提出了一种新的强大判别分析,其中每个数据点由其自身的任意椭圆对称(ES)分布和其自身的任意比例参数绘制。这种模型允许可能非常异构,独立但非相同的分布式样本。在推导出新的决策规则之后,显示与最先进的方法相比,最大似然参数估计和分类非常简单,快速且坚固。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
信息技术的进步导致了非常大的数据集,通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍,同时保持统计有效性和效率。分裂和征服方法已应用于许多领域,包括分位式流程,回归分析,主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明,如果后者是可行的,所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配,甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
高斯混合物模型(GMM)提供了一个简单而原则的框架,具有适用于统计推断的属性。在本文中,我们提出了一种新的基于模型的聚类算法,称为EGMM(证据GMM),在信念函数的理论框架中,以更好地表征集群成员的不确定性。通过代表每个对象的群集成员的质量函数,提出了由所需群集的功率组组成的组件组成的证据高斯混合物分布来对整个数据集进行建模。 EGMM中的参数通过特殊设计的预期最大化(EM)算法估算。还提供了允许自动确定正确数量簇的有效性指数。所提出的EGMM与经典GMM一样简单,但可以为所考虑的数据集生成更有信息的证据分区。合成和真实数据集实验表明,所提出的EGMM的性能比其他代表性聚类算法更好。此外,通过应用多模式脑图像分割的应用也证明了其优势。
translated by 谷歌翻译
引入了涉及高斯流程(GPS)的模型,以同时处理多个功能数据的多任务学习,聚类和预测。该过程充当了功能数据的基于模型的聚类方法,也是对新任务进行后续预测的学习步骤。该模型是将多任务GPS与常见平均过程的混合物实例化。得出了一种用于处理超参数的优化以及超构件对潜在变量和过程的估计的优化。我们建立了明确的公式,用于将平均过程和潜在聚类变量整合到预测分布中,这是两个方面的不确定性。该分布定义为集群特异性GP预测的混合物,在处理组结构数据时,可以增强性能。该模型处理观察的不规则网格,并提供了关于协方差结构的不同假设,用于在任务之间共享其他信息。聚类和预测任务上的性能将通过各种模拟方案和真实数据集进行评估。总体算法称为magmaclust,可公开作为R包。
translated by 谷歌翻译
State-of-the-art causal discovery methods usually assume that the observational data is complete. However, the missing data problem is pervasive in many practical scenarios such as clinical trials, economics, and biology. One straightforward way to address the missing data problem is first to impute the data using off-the-shelf imputation methods and then apply existing causal discovery methods. However, such a two-step method may suffer from suboptimality, as the imputation algorithm may introduce bias for modeling the underlying data distribution. In this paper, we develop a general method, which we call MissDAG, to perform causal discovery from data with incomplete observations. Focusing mainly on the assumptions of ignorable missingness and the identifiable additive noise models (ANMs), MissDAG maximizes the expected likelihood of the visible part of observations under the expectation-maximization (EM) framework. In the E-step, in cases where computing the posterior distributions of parameters in closed-form is not feasible, Monte Carlo EM is leveraged to approximate the likelihood. In the M-step, MissDAG leverages the density transformation to model the noise distributions with simpler and specific formulations by virtue of the ANMs and uses a likelihood-based causal discovery algorithm with directed acyclic graph constraint. We demonstrate the flexibility of MissDAG for incorporating various causal discovery algorithms and its efficacy through extensive simulations and real data experiments.
translated by 谷歌翻译
对未标记的声发射(AE)数据的解释经典依赖于通用聚类方法。虽然过去已经使用了几种外部标准来选择这些算法的超参数,但很少有研究关注能够应对AE数据特异性的聚类方法中专用目标功能的发展。我们研究了如何在混合模型中,尤其是高斯混合模型(GMM)中明确表示簇的爆炸。通过修改此类模型的内部标准,我们提出了第一种聚类方法,能够通过预期最大化过程估算的参数提供有关何时发生簇的信息(ONESET),它们如何生长(动力学)及其通过它们的生长水平及其通过其激活水平时间。这种新的目标函数可容纳AE信号的连续时间戳,从而适应其发生的顺序。该方法称为GMMSEQ,经过实验验证,以表征振动下螺栓结构中的松动现象。与来自五个实验活动的原始流数据数据的三种标准聚类方法的比较表明,GMMSEQ不仅提供了有关簇时间线的有用定性信息,而且还显示出在群集表征方面更好的性能。鉴于制定开放的声学倡议并根据公平原则,数据集和代码可用于复制本文的研究。
translated by 谷歌翻译
Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
translated by 谷歌翻译
本文介绍了使用基于补丁的先前分布的图像恢复的新期望传播(EP)框架。虽然Monte Carlo技术典型地用于从难以处理的后分布中进行采样,但它们可以在诸如图像恢复之类的高维推论问题中遭受可扩展性问题。为了解决这个问题,这里使用EP来使用多元高斯密度的产品近似后分布。此外,对这些密度的协方差矩阵施加结构约束允许更大的可扩展性和分布式计算。虽然该方法自然适于处理添加剂高斯观察噪声,但它也可以扩展到非高斯噪声。用于高斯和泊松噪声的去噪,染色和去卷积问题进行的实验说明了这种柔性近似贝叶斯方法的潜在益处,以实现与采样技术相比降低的计算成本。
translated by 谷歌翻译
在本文中,我们解决了用高各向异性定位噪声损坏的多点云的问题。我们的方法遵循高斯混合模型(GMM)重建的广泛使用的框架,预期最大化(EM)算法。现有方法基于空间不变各向同性高斯噪声的隐含假设。然而,在单分子定位显微镜(SMLM)的应用中,在实践中侵犯了这种假设。为了解决这个问题,我们建议介绍一个明确的定位噪声模型,使用GMM从噪声处理中脱颖而出。我们设计了一种随机EM算法,将无噪声数据视为潜在变量,每个EM步骤在闭合型溶液中。我们的方法的第一个优点是处理具有任意考兰的空间变体和各向异性高斯噪声。第二个优点是利用显式噪声模型来施加关于可以从物理传感器获得的噪声的先验知识。我们在各种模拟数据中展示了我们的噪声处理策略提高了高水平各向异性噪声的鲁棒性。我们还展示了我们对真实SMLM数据的方法的表现。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
对于许多应用科学来说,高维数据中缺少值的存在是无处不在的问题。许多可用的数据挖掘和机器学习方法的严重限制是它们无法处理部分缺失的值,因此结合插补和模型估计的集成方法对于下游分析至关重要。引入了一种称为EMFLOW的计算快速算法,该算法通过使用归一化流量(NF)模型,通过在线版本的期望最大化(EM)算法在潜在空间中执行插补,该模型将数据空间映射到潜在空间。提出的EMFLOW算法是迭代的,涉及更新在线EM和NF的参数。就算法收敛的预测准确性和速度而言,提供了高维多元和图像数据集的广泛实验结果,以说明EMFLOW的出色性能。我们为所有实验提供代码。
translated by 谷歌翻译
我们提出了一个强大的框架,以执行线性回归,而功能中缺少条目。通过考虑椭圆形数据分布,特别是多元正常模型,我们能够为缺失条目制定分布并提出一个强大的框架,这最大程度地减少了由于缺失数据的不确定性而造成的最严重的情况。我们表明,所提出的公式自然考虑了不同变量之间的依赖性,最终减少了凸面程序,可以为其提供自定义和可扩展的求解器。除了提供此类求解器的详细分析外,我们还渐近地分析了所提出的框架的行为,并进行了技术讨论以估算所需的输入参数。我们通过对合成,半合成和真实数据进行的实验进行补充,并展示提出的配方如何提高预测准确性和鲁棒性,并优于竞争技术。
translated by 谷歌翻译
缺少价值估算对于现实世界数据科学工作流程至关重要。在线设置中的估算更加困难,因为它需要归纳方法本身能够随着时间的推移而发展。对于实际应用,估算算法应产生符合真实数据分布的避免,处理混合类型的数据,包括序数,布尔和连续变量,并缩放到大型数据集。在这项工作中,我们使用高斯Copula开发了一种新的在线估算算法,用于混合数据。在线高斯Copula模型符合所有Desiderata:其避免符合混合数据的数据分布,当流数据具有变化的分布时的准确性,以及速度(最多级)的精度上的离线对应物匹配。特别是在大规模的数据集上。通过将Copula模型拟合到在线数据,我们还提供了一种新方法,可以使用缺失值检测多变量依赖结构中的变化点。合成和现实世界数据的实验结果验证了所提出的方法的性能。
translated by 谷歌翻译
我们提出了一种新的非参数混合物模型,用于多变量回归问题,灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型,对样本外输入的预测基于与每个观察到的数据点的相似性,从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上,使用平均场变化贝叶斯算法进行后推断,并具有基于随机梯度的优化过程。在与数据大小相比,输入 - 输出关系很复杂,预测分布可能偏向或多模式的情况下,输入相对较高的尺寸,该方法尤其有利。对五个数据集进行的计算研究,其中两个是合成生成的,这说明了我们的高维输入的专家混合物方法的明显优势,在验证指标和视觉检查方面都优于竞争者模型。
translated by 谷歌翻译
具有有限培训数据的多个类协方差矩阵的估计是一个难题。已知样品协方差矩阵(SCM)在与可用的样本数量相比大的变量大量时执行差。为了减少SCM的平均平方误差(MSE),通常使用正则化(收缩)SCM估计器。在这项工作中,我们考虑正规化的SCM(RSCM)估算器,用于将两个不同的目标矩阵结合在一起进行正则化:类的汇总(平均)和缩放标识矩阵。当人口协方差相似时,朝向汇集的SCM正规化是有益的,而对身份矩阵的正规化保证估算者是积极的。我们推导了估算器的MSE最佳调整参数,并提出了一种在课程中遵循(未指定)椭圆分布的假设下进行估计的方法,其中包括有限的第四阶矩。建议耦合RSCMS的MSE性能被仿真评估,并在真实数据上进行正则化判别分析(RDA)分类设置。基于三个不同的真实数据集的结果表示交叉验证的可比性,但在计算时间中具有显着的加速。
translated by 谷歌翻译
近年来,深度学习(DL)方法的流行程度急剧增加,并且在生物医学科学中的监督学习问题中的应用显着增长。但是,现代生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在深入学习的广义线性模型的背景下,对缺失数据进行了正式处理,这是一种监督的DL架构,用于回归和分类问题。我们提出了一种新的体系结构,即\ textit {dlglm},这是第一个能够在训练时在输入功能和响应中灵活地说明忽略和不可忽视的缺失模式之一。我们通过统计模拟证明,我们的方法在没有随机(MNAR)缺失的情况下胜过现有的监督学习任务方法。我们从UCI机器学习存储库中对银行营销数据集进行了案例研究,在该数据集中我们预测客户是否基于电话调查数据订阅了产品。
translated by 谷歌翻译