网络邻接矩阵的光谱嵌入通常产生大约围绕低维子纤维结构的节点表示。特别地,当从潜在位置模型产生图表时,期望隐藏的子结构出现。此外,网络内的社区存在可能在嵌入中生成特定的特定社区的子多种结构,但是在网络的大多数统计模型中,这不明确地解释。在本文中,提出了一类称为潜在结构块模型(LSBM)的模型来解决这种情况,允许在存在社区特定的一维歧管结构时允许图形聚类。 LSBMS专注于特定的潜伏空间模型,随机点产品图(RDPG),并为每个社区的潜在位置分配潜在的子多种。讨论了来自LSBMS引起的嵌入式的贝叶斯模型,并显示在模拟和现实世界网络数据上具有良好的性能。该模型能够正确地恢复生活在一维歧管中的底层社区,即使当底层曲线的参数形式未知,也可以在各种实际数据上实现显着的结果。
translated by 谷歌翻译
光谱嵌入是可用于获得图形节点的矢量表示的过程。本文提出了称为随机点产品图的潜在网络模型的概括,以允许将这些载体表示的解释为潜在位置估计。需要泛化异化连接(例如,“对立面”)并更普遍地应对负特征值。我们表明,是否使用邻接或归一化的拉普拉斯矩阵,光谱嵌入产生均匀一致的潜在估计,渐近高斯误差(最高可识别性)。标准和混合会员随机块模型是特殊情况,其中潜在的位置只需要k $不同的向量值,代表社区,或以$(k-1)$ - simplex与那些顶点一起生活。在随机块模型下,我们的理论建议使用高斯混合模型(而不是$ k $ -means),并且根据混合成员资格,拟合封闭单纯x的最小卷,此前仅在非负面明确假设下支持的现有建议。在网络安全示例中,在网络安全示例中证明了链路预测(在随机点产品图中)的经验改进(在随机点产品图中),以及露出更丰富的潜在结构(比标准或混合隶属块模型的位置)。
translated by 谷歌翻译
提出了一种新的动态网络模型,称为相互刺激的点处理图(MEG)。 MEG是一种可扩展的网络范围统计模型,用于多达数码标记的点进程,可用于评估未来事件的重要事件时,包括以前未观察到的连接的异常检测。该模型组合了互励磁点过程来估计事件和潜在空间模型之间的依赖性,以推断节点之间的关系。每个网络边缘的强度函数专用于节点特定参数参数,允许跨网络共享信息。这种结构甚至可以估计强度,即使对于未被观察的边缘,这在现实世界中尤其重要,例如网络安全中产生的计算机网络。获得了日志似然的递归形式,用于通过现代梯度上升算法推导快速推理过程。也导出了EM算法。该模型在模拟图和现实世界数据集上进行测试,展示出色的性能。
translated by 谷歌翻译
我们通过证明PABM是GRDPG的一种特殊情况,其中社区对应于潜在矢量的相互正交子空间,我们连接两个随机图模型,即受欢迎程度调整块模型(PABM)和广义随机点产品图(GRDPG)。这种见解使我们能够为PABM构建用于社区检测和参数估计的新算法,并改善了依赖稀疏子空间聚类的现有算法。利用邻接光谱嵌入GRDPG的渐近特性,我们得出了这些算法的渐近特性。特别是,我们证明,随着图形顶点的数量倾向于无穷大,社区检测误差的绝对数量趋于零。仿真实验说明了这些特性。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
随机点产品图(RDPG)是网络的生成模型,其中顶点对应于潜像欧几里德空间中的位置,并且由潜在位置的点产品确定。我们考虑从潜在空间的未知$ 1 $ 1多维二维子段中随机采样潜在位置的RDPG。原则上,限制推理,即利用子苗条结构的程序,应该比不受限制的推断更有效;然而,当子苗条未知时,尚不清楚如何进行限制推理。我们提出了用于歧管学习的技术可用于学习空气的未知子多种,以实现从受限推断的益处。为了说明,我们使用完整的一组顶点来测试1美元的FR \'{e} CHET手段的1美元 - 和2美元的假设,以推断潜伏结构。我们建议测试统计数据,用于使用从估计的潜在位置构造的邻域图上的最短路径距离来部署ISOMAP过程,以估计未知$ 1 $ -dimenmanifold上的弧长。与ISOMAP的常规应用不同,估计的潜在位置不介绍感兴趣的子群。我们将现有的收敛结果扩展到ISOMAP到此设置,并使用它们来证明,随着辅助顶点的数量增加,我们的测试的功率会收敛于当已知子纤维的相应测试的功率。最后,我们将方法应用于推理问题,这是在研究果蝇幼虫蘑菇体的结核时。单变量学习歧管测试拒绝($ P <0.05 $),而多变量环境空间测试没有($ p \ gg0.05 $),说明了识别和利用后续推断的低维结构的值。
translated by 谷歌翻译
随着图形数据变得越来越普遍,在这些复杂的数据域中进行可靠的推论图算法的需求至关重要。在许多感兴趣的情况下,存在对抗数据污染的情况更加复杂。对手的效果通常是以负面影响统计和算法性能的方式改变数据分布。我们在顶点提名的背景下研究这种现象,这是网络数据的半监督信息检索任务。在这里,一系列常见的方法依赖于光谱图嵌入,这些嵌入式既可以提供良好的算法性能和灵活的设置,在该设置中可以实现正则化技术以帮助减轻对手的效果。许多当前的正则化方法依赖于直接网络修剪来有效消除对抗性污染,尽管这种直接修剪通常会导致所得图中的复杂依赖性结构。我们提出了一种在模型空间中运行的新修剪方法,该方法可以解决块结构污染和白噪声污染(污染的分布未知)。与直接修剪相比,该模型修剪更适合理论分析,同时也证明了许多模拟的性能。
translated by 谷歌翻译
光谱嵌入基于其邻接或拉普拉斯矩阵的特征向量的网络节点的矢量表示,并在整个科学中找到了应用程序。许多这样的网络是多部分的,这意味着它们的节点可以分为组,并且同一组的节点永远不会连接。当网络是多部分时,本文证明了通过光谱嵌入获得的节点表示,生存的较高维度环境空间的群体特异性低维子空间附近。因此,我们提出了光谱嵌入后的后续步骤,以在其内在的而不是环境维度中恢复节点表示形式,从而证明在低级别的,不均匀的随机图模型下均匀的一致性。我们的方法自然概括了两分光谱嵌入,其中通过双jaCencency或Bi-Laplacian矩阵的奇异值分解获得了节点表示。
translated by 谷歌翻译
潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体,控制因果混淆,并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体,吉布斯内的大都市是最流行的近似后分布的工具。然而,众所周知,GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵,并且所得到的后绘高度相关。在本文中,我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市,以及学区的教师和工作人员的真正信息共享网络。
translated by 谷歌翻译
我们提出了对学度校正随机块模型(DCSBM)的合适性测试。该测试基于调整后的卡方统计量,用于测量$ n $多项式分布的组之间的平等性,该分布具有$ d_1,\ dots,d_n $观测值。在网络模型的背景下,多项式的数量($ n $)的数量比观测值数量($ d_i $)快得多,与节点$ i $的度相对应,因此设置偏离了经典的渐近学。我们表明,只要$ \ {d_i \} $的谐波平均值生长到无穷大,就可以使统计量在NULL下分配。顺序应用时,该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作,因此在学位上有条件,因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法,即在测试$ K $社区时根据$(k+1)$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量,我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案,因此其效用超出了顺序测试,可用于同时测试DCSBM家族以外的各种替代方案。特别是,我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。
translated by 谷歌翻译
标准GPS为行为良好的流程提供了灵活的建模工具。然而,预计与高斯的偏差有望在现实世界数据集中出现,结构异常值和冲击通常会观察到。在这些情况下,GP可能无法充分建模不确定性,并且可能会过度推动。在这里,我们将GP框架扩展到一类新的时间变化的GP,从而可以直接建模重尾非高斯行为,同时通过非均匀GPS表示的无限混合物保留了可拖动的条件GP结构。有条件的GP结构是通过在潜在转化的输入空间上调节观测值来获得的,并使用L \'{e} Vy过程对潜在转化的随机演变进行建模,该过程允许贝叶斯在后端预测密度和潜在转化中的贝叶斯推断功能。我们为该模型提供了马尔可夫链蒙特卡洛推理程序,并证明了与标准GP相比的潜在好处。
translated by 谷歌翻译
A common approach to modeling networks assigns each node to a position on a low-dimensional manifold where distance is inversely proportional to connection likelihood. More positive manifold curvature encourages more and tighter communities; negative curvature induces repulsion. We consistently estimate manifold type, dimension, and curvature from simply connected, complete Riemannian manifolds of constant curvature. We represent the graph as a noisy distance matrix based on the ties between cliques, then develop hypothesis tests to determine whether the observed distances could plausibly be embedded isometrically in each of the candidate geometries. We apply our approach to data-sets from economics and neuroscience.
translated by 谷歌翻译
我们考虑有限混合物(MFM)和Dirichlet工艺混合物(DPM)模型的贝叶斯混合物。最近的渐近理论已经确定,DPM高估了大型样本的聚类数量,并且两类模型的估计量对于不指定的群集的数量不一致,但是对有限样本分析的含义尚不清楚。拟合这些模型后的最终报告的估计通常是使用MCMC摘要技术获得的单个代表性聚类,但是尚不清楚这样的摘要估计簇的数量。在这里,我们通过模拟和对基因表达数据的应用进行了研究,发现(i)DPM甚至在有限样本中高估了簇数的数量,但仅在有限的程度上可以使用适当的摘要来纠正,并且(ii)(ii) )错误指定会导致对DPM和MFM中集群数量的高估,但是结果通常仍然可以解释。我们提供了有关MCMC摘要的建议,并建议尽管MFM的渐近性能更具吸引力,这提供了强大的动力来偏爱它们,但使用MFMS和DPMS获得的结果通常在实践中非常相似。
translated by 谷歌翻译
贝叶斯方法是由于先验引起的正则化效应,这是对统计学的统计推断的流行选择,该效应可抵消过度拟合。在密度估计的背景下,标准的贝叶斯方法是针对后验预测。通常,后验预测的直接估计是棘手的,因此方法通常诉诸于后验分布作为中间步骤。然而,最近的递归预测copula更新的开发使得无需后近似即可执行可拖动的预测密度估计。尽管这些估计器在计算上具有吸引力,但它们倾向于在非平滑数据分布上挣扎。这在很大程度上是由于可能从中得出所提出的Copula更新的可能性模型的相对限制性形式。为了解决这一缺点,我们考虑了具有自回归似然分解和高斯过程的贝叶斯非参数模型,该模型在Copula更新中产生了数据依赖于数据的带宽参数。此外,我们使用自回归神经网络对带宽进行新的参数化,从而将数据映射到潜在空间中,从而能够捕获数据中更复杂的依赖性。我们的扩展增加了现有的递归贝叶斯密度估计器的建模能力,从而在表格数据集上实现了最新的结果。
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译
我们介绍了一个新型的多层加权网络模型,该模型除了本地信号外,还考虑了全局噪声。该模型类似于多层随机块模型(SBM),但关键区别在于,跨层之间的块之间的相互作用在整个系统中是常见的,我们称之为环境噪声。单个块还以这些固定的环境参数为特征,以表示不属于其他任何地方的成员。这种方法允许将块同时聚类和类型化到信号或噪声中,以便更好地理解其在整个系统中的作用,而现有块模型未考虑。我们采用了分层变异推断的新颖应用来共同检测和区分块类型。我们称此模型为多层加权网络称为随机块(具有)环境噪声模型(SBANM),并开发了相关的社区检测算法。我们将此方法应用于费城神经发育队列中的受试者,以发现与精神病有关的具有共同心理病理学的受试者社区。
translated by 谷歌翻译
网络慷慨地,相似节点的趋势和传递性,连接两个节点的趋势如果它们共享公共邻居,则在网络分析中被混为特性,因为一个机制可以驱动另一个机制。在这里,我们提出了一种能够区分两个机制的生成模型和相应的推理过程。我们的方法基于随机块模型(SBM)的变化,增加了三合一封闭边缘,其推断可以识别负责网络中每个边缘存在的最合理的机制,以及基础社区结构本身。我们展示该方法如何避免通过网络中的三角形形成的单独引起的虚假社区的检测,以及它在与没有三合会的纯版本的纯版本相比,如何提高边缘预测的性能。
translated by 谷歌翻译
给定图形或相似性矩阵,我们考虑了恢复节点之间真实距离的概念以及它们的真实位置的问题。我们证明这可以通过两个步骤完成:矩阵分解,然后进行非线性尺寸降低。这种组合之所以有效,是因为在第一步中获得的点云一直生活在歧管上,其中潜在距离被编码为地球距离。因此,一个非线性降低尺寸的工具,即近似地球距离,可以恢复潜在位置,直至简单的转换。我们详细说明了使用光谱嵌入,其次是ISOMAP的情况,并为其他技术组合提供了令人鼓舞的实验证据。
translated by 谷歌翻译
高斯流程是许多灵活的统计和机器学习模型的关键组成部分。但是,由于需要倒转和存储完整的协方差矩阵,它们表现出立方计算的复杂性和高内存约束。为了解决这个问题,已经考虑了高斯流程专家的混合物,其中数据点被分配给独立专家,从而通过允许基于较小的局部协方差矩阵来降低复杂性。此外,高斯流程专家的混合物大大富含模型的灵活性,从而允许诸如非平稳性,异方差和不连续性等行为。在这项工作中,我们基于嵌套的蒙特卡洛采样器构建了一种新颖的推理方法,以同时推断门控网络和高斯工艺专家参数。与重要性采样相比,这大大改善了推断,尤其是在固定高斯流程不合适的情况下,同时仍然完全平行。
translated by 谷歌翻译
在本文中,我们提出了一种新方法来检测具有归因顶点的无向图中的簇。目的是将不仅在结构连接性方面,而且在属性值方面相似的顶点分组。我们通过创建[6,38]中提出的其他顶点和边缘,将顶点之间的结构和属性相似。然后将增强图嵌入到与其拉普拉斯式相关的欧几里得空间中,在该空间中,应用了修改的K-均值算法以识别簇。修改后的k均值依赖于矢量距离度量,根据每个原始顶点,我们分配了合适的矢量值坐标集,这取决于结构连接性和属性相似性,因此每个原始图顶点都被认为是$ M+1的代表增强图的$顶点,如果$ m $是顶点属性的数量。为了定义坐标矢量,我们基于自适应AMG(代数多机)方法采用了我们最近提出的算法,该方法识别了嵌入欧几里得空间中的坐标方向,以代数平滑的矢量相对于我们的增强图Laplacian,从而扩展了laplacian,从而扩展了坐标。没有属性的图形的先前结果。我们通过与一些知名方法进行比较,分析了我们提出的聚类方法的有效性,这些方法可以免费获得软件实现,并与文献中报告的结果相比,在两种不同类型的广泛使用的合成图上以及在某些现实世界中的图形上。
translated by 谷歌翻译