高斯图形模型(GGM)广泛用于基因组学,生态学,心理测量学等各个领域的探索性数据分析。在高维度的情况下,当变量数量超过观测值数量的数量级时,GGM的估计是一个困难且不稳定的优化问题。变量或变量选择的聚类通常是在GGM估计之前进行的。我们提出了一种新方法,允许同时推断出分层聚类结构和描述层次结构每个级别独立性结构的图。该方法基于解决凸优化问题,该问题结合了图形套索惩罚与融合型套索惩罚。提出了有关真实和合成数据的结果。
translated by 谷歌翻译
We study a multi-factor block model for variable clustering and connect it to the regularized subspace clustering by formulating a distributionally robust version of the nodewise regression. To solve the latter problem, we derive a convex relaxation, provide guidance on selecting the size of the robust region, and hence the regularization weighting parameter, based on the data, and propose an ADMM algorithm for implementation. We validate our method in an extensive simulation study. Finally, we propose and apply a variant of our method to stock return data, obtain interpretable clusters that facilitate portfolio selection and compare its out-of-sample performance with other clustering methods in an empirical study.
translated by 谷歌翻译
我们考虑了从节点观测值估算多个网络拓扑的问题,其中假定这些网络是从相同(未知)随机图模型中绘制的。我们采用图形作为我们的随机图模型,这是一个非参数模型,可以从中绘制出潜在不同大小的图形。图形子的多功能性使我们能够解决关节推理问题,即使对于要恢复的图形包含不同数量的节点并且缺乏整个图形的精确比对的情况。我们的解决方案是基于将最大似然惩罚与Graphon估计方案结合在一起,可用于增强现有网络推理方法。通过引入嘈杂图抽样信息的强大方法,进一步增强了所提出的联合网络和图形估计。我们通过将其性能与合成和实际数据集中的竞争方法进行比较来验证我们提出的方法。
translated by 谷歌翻译
在本文中,我们考虑了一种用于主成分分析(PCA)的新变体,旨在同时捕获因子负载的分组和/或稀疏结构。为了实现这些目标,我们采用非凸截面的正则化,具有自然可调的稀疏性和分组效应,并提出了特征分组和稀疏主组件分析(FGSPCA)。所提出的FGSPCA方法鼓励具有相似值的因子负载,以将特征分组或特征零值组分成特征选择的差异均匀组,从而有助于降低模型的复杂性和增加模型解释。通常,现有的结构化PCA方法需要先验知识来构建正则化项。但是,提出的FGSPCA可以同时捕获因子负载的分组和/或稀疏结构,而无需任何事先信息。为了解决所得的非凸优化问题,我们提出了一种交替的算法,该算法结合了Convex编程,增强的Lagrange方法和坐标下降方法。实验结果证明了新方法在合成和现实世界数据集上的有希望的性能和效率。可以在github {https://github.com/higeeks/fgspca}上找到FGSPCA的R实现。
translated by 谷歌翻译
当节点具有人口统计属性时,概率图形模型中社区结构的推理可能不会与公平约束一致。某些人口统计学可能在某些检测到的社区中过度代表,在其他人中欠代表。本文定义了一个新的$ \ ell_1 $ -regulared伪似然方法,用于公平图形模型选择。特别是,我们假设真正的基础图表​​中存在一些社区或聚类结构,我们寻求从数据中学习稀疏的无向图形及其社区,使得人口统计团体在社区内相当代表。我们的优化方法使用公平的人口统计奇偶校验定义,但框架很容易扩展到其他公平的定义。我们建立了分别,连续和二进制数据的高斯图形模型和Ising模型的提出方法的统计一致性,证明了我们的方法可以以高概率恢复图形及其公平社区。
translated by 谷歌翻译
我们考虑学习底层多变量数据的稀疏无向图的问题。我们专注于稀疏精度矩阵上的图表拉普拉斯相关的约束,它在与图形节点相关联的随机变量之间编码条件依赖性。在这些约束下,精度矩阵的偏差元素是非正(总阳性),并且精度矩阵可能不是全级。我们调查了对广泛使用惩罚的日志似然方法来强制执行总积极性但不是拉普拉斯结构的修改。然后可以从非对角线精密矩阵中提取图拉普拉斯。乘法器(ADMM)算法的交替方向方法被提出和分析了Laplacian相关约束和套索的约束优化以及自适应套索处罚。基于合成数据的数值结果表明,所提出的约束的自适应套索方法显着优于现有的基于拉普拉斯的方法。我们还评估了我们对实际财务数据的方法。
translated by 谷歌翻译
Gaussian graphical models provide a powerful framework for uncovering conditional dependence relationships between sets of nodes; they have found applications in a wide variety of fields including sensor and communication networks, physics, finance, and computational biology. Often, one observes data on the nodes and the task is to learn the graph structure, or perform graphical model selection. While this is a well-studied problem with many popular techniques, there are typically three major practical challenges: i) many existing algorithms become computationally intractable in huge-data settings with tens of thousands of nodes; ii) the need for separate data-driven hyperparameter tuning considerably adds to the computational burden; iii) the statistical accuracy of selected edges often deteriorates as the dimension and/or the complexity of the underlying graph structures increase. We tackle these problems by developing the novel Minipatch Graph (MPGraph) estimator. Our approach breaks up the huge graph learning problem into many smaller problems by creating an ensemble of tiny random subsets of both the observations and the nodes, termed minipatches. We then leverage recent advances that use hard thresholding to solve the latent variable graphical model problem to consistently learn the graph on each minipatch. Our approach is computationally fast, embarrassingly parallelizable, memory efficient, and has integrated stability-based hyperparamter tuning. Additionally, we prove that under weaker assumptions than that of the Graphical Lasso, our MPGraph estimator achieves graph selection consistency. We compare our approach to state-of-the-art computational approaches for Gaussian graphical model selection including the BigQUIC algorithm, and empirically demonstrate that our approach is not only more statistically accurate but also extensively faster for huge graph learning problems.
translated by 谷歌翻译
我们提出了对学度校正随机块模型(DCSBM)的合适性测试。该测试基于调整后的卡方统计量,用于测量$ n $多项式分布的组之间的平等性,该分布具有$ d_1,\ dots,d_n $观测值。在网络模型的背景下,多项式的数量($ n $)的数量比观测值数量($ d_i $)快得多,与节点$ i $的度相对应,因此设置偏离了经典的渐近学。我们表明,只要$ \ {d_i \} $的谐波平均值生长到无穷大,就可以使统计量在NULL下分配。顺序应用时,该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作,因此在学位上有条件,因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法,即在测试$ K $社区时根据$(k+1)$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量,我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案,因此其效用超出了顺序测试,可用于同时测试DCSBM家族以外的各种替代方案。特别是,我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。
translated by 谷歌翻译
学习由有针对性的无环图(DAG)代表的基本休闲结构,这些事件来自完全观察到的事件是因果推理的关键部分,但由于组合和较大的搜索空间,这是一项挑战。最近的一系列发展通过利用代数平等表征,将该组合问题重新生要重现为一个连续的优化问题。但是,这些方法在优化之后遭受了固定阈值的措施,这不是一种灵活而系统的方法,可以排除诱导周期的边缘或错误的发现边缘,其边缘具有由数值精度引起的较小值。在本文中,我们开发了一种数据驱动的DAG结构学习方法,而没有预定义阈值,称为自适应宣传[30],该方法通过在正则化项中对每个参数应用自适应惩罚水平来实现。我们表明,在某些特定条件下,自适应宣传符合Oracle属性。此外,模拟实验结果验证了我们方法的有效性,而没有设置边缘重量的任何间隙。
translated by 谷歌翻译
本文提出了一种基于图形的正则化回归估计器 - 分层特征回归(HFR) - 从机器学习和图论域名的洞察力调动洞察力,以估算线性回归的鲁棒参数。估计器构造一个监督的特征图,该监督特征图沿其边缘分解参数,首先调整常见变化并连续地将特殊性模式结合到拟合过程中。图形结构具有对组靶标的参数收缩的影响,其中收缩程度由肝异常的控制,并且基团组合物以及收缩靶数是内源性的。该方法提供了丰富的资源,以便在数据中的潜在效果结构的视觉探索,并与一系列经验和模拟回归任务的常用正则化技术面板相比,展示了良好的预测精度和多功能性。
translated by 谷歌翻译
我们介绍了一个新型的多层加权网络模型,该模型除了本地信号外,还考虑了全局噪声。该模型类似于多层随机块模型(SBM),但关键区别在于,跨层之间的块之间的相互作用在整个系统中是常见的,我们称之为环境噪声。单个块还以这些固定的环境参数为特征,以表示不属于其他任何地方的成员。这种方法允许将块同时聚类和类型化到信号或噪声中,以便更好地理解其在整个系统中的作用,而现有块模型未考虑。我们采用了分层变异推断的新颖应用来共同检测和区分块类型。我们称此模型为多层加权网络称为随机块(具有)环境噪声模型(SBANM),并开发了相关的社区检测算法。我们将此方法应用于费城神经发育队列中的受试者,以发现与精神病有关的具有共同心理病理学的受试者社区。
translated by 谷歌翻译
在本文中,我们研究了推断空间变化的高斯马尔可夫随机场(SV-GMRF)的问题,其中的目标是学习代表基因之间网络关系的稀疏,特定于上下文的GMRF网络。 SV-GMRF的一个重要应用是推断来自空间分辨转录组学数据集的基因调节网络。当前有关SV-GMRF推断的工作基于正则最大似然估计(MLE),并且由于其高度非线性的性质而受到压倒性的计算成本。为了减轻这一挑战,我们提出了一个简单有效的优化问题,代替了配备强大的统计和计算保证的MLE。我们提出的优化问题在实践中非常有效:我们可以在不到2分钟的时间内解决具有超过200万变量的SV-GMRF的实例。我们将开发的框架应用于研究胶质母细胞瘤中的基因调节网络如何在组织内部空间重新连接,并确定转录因子Hes4和核糖体蛋白的显着活性是表征肿瘤血管周期壁iche中基因表达网络的特征抗性干细胞。
translated by 谷歌翻译
我们考虑使用共享结构估算两个功能无向图形模型之间的差异的问题。在许多应用中,数据自然被认为是随机函数的向量而不是标量的矢量。例如,脑电图(EEG)数据更适当地被视为时间函数。在这样的问题中,不仅可以每个样本测量的函数数量大,而且每个功能都是自身是无限尺寸对象,使估计模型参数具有挑战性。这进一步复杂于曲线通常仅在离散时间点观察到。我们首先定义一个功能差异图,捕获两个功能图形模型之间的差异,并在功能性差分图定义良好时正式表征。然后,我们提出了一种方法,软件,直接估计功能差异图,而不首先估计每个图形。这在各个图形是密集的情况下,这是特别有益的,但差分图是稀疏的。我们表明,融合始终估计功能差图,即使在全面观察和离散的功能路径的高维设置中也是如此。我们通过仿真研究说明了我们方法的有限样本性质。我们还提出了一种竞争方法,该方法是关节功能图形套索,它概括了关节图形套索到功能设置。最后,我们将我们的方法应用于EEG数据,以揭示一群含有酒精使用障碍和对照组的个体之间的功能性脑连接的差异。
translated by 谷歌翻译
来自节点观测集的学习图表代表了一个正式称为图形拓扑推断的突出问题。然而,当前方法通过通常关注推断的单个网络而受到限制,并且他们假设来自所有节点的观察。首先,许多当代设置涉及多个相关网络,而第二个,其次,通常只是观察到剩余剩余隐藏的节点子集的情况。通过这些事实的动机,我们介绍了一种联合图拓扑推理方法,用于模拟隐藏变量的影响。在所观察到的信号在寻求的图表和图表密切相关的假设下,多个网络的联合估计允许我们利用这种关系来提高学习图的质量。此外,我们面临建模隐藏节点影响以最大限度地减少其不利影响的挑战性问题。为了获得可编程方法,我们利用手头的设置的特定结构,并利用不同图之间的相似性,这影响了观察到的和隐藏节点。为了测试所提出的方法,提供了综合和实际图的数值模拟。
translated by 谷歌翻译
我们考虑推断稀疏,高维固定多变量高斯时间序列的条件独立图(CIG)的问题。呈现了一种基于频域的基于洛索的跨组频域制定,基于频域足够的观察时间序列的统计。我们研究了乘法器(ADMM)方法的交替方向方法,以优化稀疏组套索惩罚的对数似然。我们为反向PSD估计的Frobenius规范的收敛条件提供了足够的条件,以在所有频率跨越所有频率的真实值,其中允许使用样本大小增加频率的数量。该结果还产生了收敛速度。我们还基于贝叶斯信息标准对调谐参数的选择进行了经验研究,并说明了利用合成和实际数据的数值示例的方法。
translated by 谷歌翻译
Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
translated by 谷歌翻译
作为估计高维网络的工具,图形模型通常应用于钙成像数据以估计功能性神经元连接,即神经元活动之间的关系。但是,在许多钙成像数据集中,没有同时记录整个神经元的人群,而是部分重叠的块。如(Vinci等人2019年)最初引入的,这导致了图形缝问题,在该问题中,目的是在仅观察到功能的子集时推断完整图的结构。在本文中,我们研究了一种新颖的两步方法来绘制缝的方法,该方法首先使用低级协方差完成技术在估计图结构之前使用低级协方差完成技术划分完整的协方差矩阵。我们介绍了三种解决此问题的方法:阻止奇异价值分解,核标准惩罚和非凸低级别分解。尽管先前的工作已经研究了低级别矩阵的完成,但我们解决了阻碍遗失的挑战,并且是第一个在图形学习背景下研究问题的挑战。我们讨论了两步过程的理论特性,通过证明新颖的l无限 - 基 - 误差界的矩阵完成,以块错失性证明了一种提出的方​​法的图选择一致性。然后,我们研究了所提出的方法在模拟和现实世界数据示例上的经验性能,通过该方法,我们显示了这些方法从钙成像数据中估算功能连通性的功效。
translated by 谷歌翻译
专家(MOE)的混合是一种流行的统计和机器学习模型,由于其灵活性和效率,多年来一直引起关注。在这项工作中,我们将高斯门控的局部MOE(GLOME)和块对基因协方差局部MOE(Blome)回归模型在异质数据中呈现非线性关系,并在高维预测变量之间具有潜在的隐藏图形结构相互作用。这些模型从计算和理论角度提出了困难的统计估计和模型选择问题。本文致力于研究以混合成分数量,高斯平均专家的复杂性以及协方差矩阵的隐藏块 - 基因结构为特征的Glome或Blome模型集合中的模型选择问题。惩罚最大似然估计框架。特别是,我们建立了以弱甲骨文不平等的形式的非反应风险界限,但前提是罚款的下限。然后,在合成和真实数据集上证明了我们的模型的良好经验行为。
translated by 谷歌翻译
多变量功能数据的协方差结构可以高度复杂,特别是如果多变量维度大,则使标准多变量数据的统计方法的扩展到功能数据设置具有挑战性。例如,通过将多变量方法应用于截断的基础扩展系数,最近已经扩展到高斯图形模型。然而,与多变量数据相比的关键难度是协方差操作员紧凑,因此不可逆转。本文中的方法论地解决了多元函数数据的协方差建模的一般问题,特别是特定功能性高斯图形模型。作为第一步,提出了多变量功能数据的协方差运算符的可分离性的新概念,称为部分可分离性,导致这种数据的新型Karhunen-Lo \“Eve型扩展。接下来,示出部分可分离结构是特别有用的,以提供可以用一系列有限维图形模型,每个相同的固定尺寸识别的明确定义的功能高斯图形模型。这通过应用联合图形套索来激发一个简单有效的估计过程。通过在电机任务期间的模拟和分析功能性脑连接的仿真和分析来评估图形模型估计方法的经验性能。通过在电机任务期间的仿真和分析来评估图形模型估计方法的百分比实证性能。
translated by 谷歌翻译
基于添加条件独立性,我们为离散节点变量引入非参数图形模型。添加剂条件独立性是一种三种方式统计关系,其通过满足半石灰阳极公理来利用有条件独立性与有条件的独立性共享类似的性质。基于该关系,我们构建了一种用于离散变量的加性图形模型,其不受诸如诸如Ising模型的参数模型的限制。我们通过惩罚添加精度运算符的离散版本的惩罚估算来开发新的图形模型的估计,并在超高维设置下建立估计器的一致性。随着这些方法的发展,我们还利用离散随机变量的性质来揭示添加剂条件独立性与条件独立性之间的更深层次关系。新的图形模型在某些稀疏条件下减少了条件独立性图形模型。我们进行仿真实验和对HIV抗逆转录病毒治疗数据集的分析,以比较现有的新方法。
translated by 谷歌翻译