Graphs的许多模型属于边缘无关的点产品型号的框架。这些模型输出所有节点之间存在的边缘的概率,并且两个节点之间的链路的概率随与节点相关联的矢量的点乘积而增加。最近的工作表明,这些模型无法捕获实际图中的关键结构,特别是异种结构,其中在不同节点之间发生链接。我们提出了一种独立的图形生成模型,它足以捕捉到异源性,B)产生非负嵌入物,这允许在社区方面解释的链接预测,C)有效地在具有梯度的真实图中优化跨熵损失下降。我们的理论结果展示了我们模型的表现力,其能够使用最大程度的线性的多个簇进行准确地重建图表,以及其在数据中捕获异常和精梳性的能力。此外,我们的实验展示了我们模型对多种重要应用任务等多个重要应用程序任务的有效性,例如多标签聚类和链路预测。
translated by 谷歌翻译
我们通过证明PABM是GRDPG的一种特殊情况,其中社区对应于潜在矢量的相互正交子空间,我们连接两个随机图模型,即受欢迎程度调整块模型(PABM)和广义随机点产品图(GRDPG)。这种见解使我们能够为PABM构建用于社区检测和参数估计的新算法,并改善了依赖稀疏子空间聚类的现有算法。利用邻接光谱嵌入GRDPG的渐近特性,我们得出了这些算法的渐近特性。特别是,我们证明,随着图形顶点的数量倾向于无穷大,社区检测误差的绝对数量趋于零。仿真实验说明了这些特性。
translated by 谷歌翻译
Graph AutoCododers(GAE)和变分图自动编码器(VGAE)作为链接预测的强大方法出现。他们的表现对社区探测问题的印象不那么令人印象深刻,根据最近和同意的实验评估,它们的表现通常超过了诸如louvain方法之类的简单替代方案。目前尚不清楚可以通过GAE和VGAE改善社区检测的程度,尤其是在没有节点功能的情况下。此外,不确定是否可以在链接预测上同时保留良好的性能。在本文中,我们表明,可以高精度地共同解决这两个任务。为此,我们介绍和理论上研究了一个社区保留的消息传递方案,通过在计算嵌入空间时考虑初始图形结构和基于模块化的先验社区来掺杂我们的GAE和VGAE编码器。我们还提出了新颖的培训和优化策略,包括引入一个模块化的正规器,以补充联合链路预测和社区检测的现有重建损失。我们通过对各种现实世界图的深入实验验证,证明了方法的经验有效性,称为模块化感知的GAE和VGAE。
translated by 谷歌翻译
光谱聚类是网络中广泛使用的社区检测方法之一。然而,大型网络为其中的特征值分解带来了计算挑战。在本文中,我们研究了从统计角度使用随机草图算法的光谱聚类,在那里我们通常假设网络数据是从随机块模型生成的,这些模型不一定是完整等级的。为此,我们首先使用最近开发的草图算法来获得两个随机谱聚类算法,即基于随机投影和基于随机采样的光谱聚类。然后,我们在群体邻接矩阵的近似误差,错误分类误差和链路概率矩阵的估计误差方面研究得到的算法的理论界限。事实证明,在温和条件下,随机谱聚类算法导致与原始光谱聚类算法相同的理论界。我们还将结果扩展到校正的程度校正的随机块模型。数值实验支持我们的理论发现并显示随机化方法的效率。一个名为rclusct的新R包是开发的,并提供给公众。
translated by 谷歌翻译
图形神经网络(GNN)已在许多图分析任务(例如节点分类和链接预测)上实现了最新结果。然而,事实证明,图形群集等图形上的重要无监督问题对GNN的进步具有更大的抵抗力。图群集的总体目标与GNN中的节点合并相同 - 这是否意味着GNN池方法在聚类图上做得很好?令人惊讶的是,答案是没有的 - 当前的GNN合并方法通常无法恢复群集结构,而在简单的基线(例如应用于学习的表示形式上的K-均值)良好工作的情况下。我们通过仔细设计一组实验来进一步研究,以研究图形结构和属性数据中的不同信噪比情景。为了解决这些方法在聚类中的性能不佳,我们引入了深层模块化网络(DMON),这是一种受群集质量模块化量度启发的无监督池方法,并显示了它如何解决现实世界图的挑战性聚类结构的恢复。同样,在现实世界中,我们表明DMON产生的高质量簇与地面真相标签密切相关,从而实现了最先进的结果,比不同指标的其他合并方法提高了40%以上。
translated by 谷歌翻译
Variational Graph Autoencoders (VGAEs) are powerful models for unsupervised learning of node representations from graph data. In this work, we systematically analyze modeling node attributes in VGAEs and show that attribute decoding is important for node representation learning. We further propose a new learning model, interpretable NOde Representation with Attribute Decoding (NORAD). The model encodes node representations in an interpretable approach: node representations capture community structures in the graph and the relationship between communities and node attributes. We further propose a rectifying procedure to refine node representations of isolated notes, improving the quality of these nodes' representations. Our empirical results demonstrate the advantage of the proposed model when learning graph data in an interpretable approach.
translated by 谷歌翻译
无向网络的混合隶属问题在网络分析中得到了很好的研究近年来。但是,对于定向网络的混合成员资格的更常例案例仍然是一个挑战。在这里,我们提出了一个可解释和可识别的模型:针对定向混合隶属网络定向混合成员资格随机块模型(短路)。 DIMMSB允许邻接矩阵的行节点和列节点可以是不同的,并且这些节点可以在定向网络中具有不同的社区结构。我们还开发了一种有效的谱算法,称为DISP,基于人口邻接矩阵的左右奇异矢量中固有的单纯x结构,以估计定向网络中的两行节点和列节点的混合成员资格。我们以使用精细光谱分析的每个行节点和每个列节点的推断成员载体和每个列节点的误差限制,显示该分辨率在温和条件下是渐近的一致性。我们展示了DISP与模拟定向混合会员网络,指导政治博客网络和论文引文网络的优势。
translated by 谷歌翻译
我们提出了一种凸锥程序,可推断随机点产品图(RDPG)的潜在概率矩阵。优化问题最大化Bernoulli最大似然函数,增加核规范正则化术语。双重问题具有特别良好的形式,与众所周知的SemideFinite程序放松MaxCut问题有关。使用原始双功率条件,我们绑定了原始和双解决方案的条目和等级。此外,我们在轻微的技术假设下绑定了最佳目标值并证明了略微修改模型的概率估计的渐近一致性。我们对合成RDPG的实验不仅恢复了自然集群,而且还揭示了原始数据的下面的低维几何形状。我们还证明该方法在空手道俱乐部图表和合成美国参议图中恢复潜在结构,并且可以扩展到最多几百个节点的图表。
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
网络邻接矩阵的光谱嵌入通常产生大约围绕低维子纤维结构的节点表示。特别地,当从潜在位置模型产生图表时,期望隐藏的子结构出现。此外,网络内的社区存在可能在嵌入中生成特定的特定社区的子多种结构,但是在网络的大多数统计模型中,这不明确地解释。在本文中,提出了一类称为潜在结构块模型(LSBM)的模型来解决这种情况,允许在存在社区特定的一维歧管结构时允许图形聚类。 LSBMS专注于特定的潜伏空间模型,随机点产品图(RDPG),并为每个社区的潜在位置分配潜在的子多种。讨论了来自LSBMS引起的嵌入式的贝叶斯模型,并显示在模拟和现实世界网络数据上具有良好的性能。该模型能够正确地恢复生活在一维歧管中的底层社区,即使当底层曲线的参数形式未知,也可以在各种实际数据上实现显着的结果。
translated by 谷歌翻译
最近的性能(SOTA)用于图表代表学习(GRL)的性能的改进已经以显着的计算资源要求,例如,用于训练,例如,通过背部计算渐变在许多数据时期。同时,单数值分解(SVD)可以找到闭合形式的解决方案以凸出的问题,仅使用少数时代的时期。在本文中,我们为具有适度硬件的人进行了更多计算贸易。我们设计一个计算\ textit {隐式}定义的矩阵的SVD的框架,并将此框架应用于多个GRL任务。对于每个任务,我们导出了SOTA模型的线性近似,其中我们设计(昂贵 - 存储)矩阵$ \ mathbf {m} $和培训模型,通过$ \ mathbf {m}的svd rend-form,以封闭形式$,无需计算$ \ mathbf {m} $的条目。通过在一个步骤中融合到独特的点,并且在没有计算梯度的情况下,我们的模型在文章引文和生物互动网络等各种图表中显示出具有竞争性的经验测试性能。更重要的是,SVD可以初始化更深入的模型,该模型几乎无处不在地是非线性的,但在其参数驻留在超平面上时,虽然线性地行事,但是在超平面上初始化时,则行为。然后,更深入的模型可以在仅几个时期内进行微调。总的来说,我们的程序比现有技术的方法训练数百次,同时竞争经验测试性能。我们开源我们的实施:https://github.com/samihaija/isvd
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
当节点具有人口统计属性时,概率图形模型中社区结构的推理可能不会与公平约束一致。某些人口统计学可能在某些检测到的社区中过度代表,在其他人中欠代表。本文定义了一个新的$ \ ell_1 $ -regulared伪似然方法,用于公平图形模型选择。特别是,我们假设真正的基础图表​​中存在一些社区或聚类结构,我们寻求从数据中学习稀疏的无向图形及其社区,使得人口统计团体在社区内相当代表。我们的优化方法使用公平的人口统计奇偶校验定义,但框架很容易扩展到其他公平的定义。我们建立了分别,连续和二进制数据的高斯图形模型和Ising模型的提出方法的统计一致性,证明了我们的方法可以以高概率恢复图形及其公平社区。
translated by 谷歌翻译
This paper introduces SigMaNet, a generalized Graph Convolutional Network (GCN) capable of handling both undirected and directed graphs with weights not restricted in sign nor magnitude. The cornerstone of SigMaNet is the Sign-Magnetic Laplacian ($L^{\sigma}$), a new Laplacian matrix that we introduce ex novo in this work. $L^{\sigma}$ allows us to bridge a gap in the current literature by extending the theory of spectral GCNs to (directed) graphs with both positive and negative weights. $L^{\sigma}$ exhibits several desirable properties not enjoyed by other Laplacian matrices on which several state-of-the-art architectures are based, among which encoding the edge direction and weight in a clear and natural way that is not negatively affected by the weight magnitude. $L^{\sigma}$ is also completely parameter-free, which is not the case of other Laplacian operators such as, e.g., the Magnetic Laplacian. The versatility and the performance of our proposed approach is amply demonstrated via computational experiments. Indeed, our results show that, for at least a metric, SigMaNet achieves the best performance in 15 out of 21 cases and either the first- or second-best performance in 21 cases out of 21, even when compared to architectures that are either more complex or that, due to being designed for a narrower class of graphs, should -- but do not -- achieve a better performance.
translated by 谷歌翻译
光谱嵌入是可用于获得图形节点的矢量表示的过程。本文提出了称为随机点产品图的潜在网络模型的概括,以允许将这些载体表示的解释为潜在位置估计。需要泛化异化连接(例如,“对立面”)并更普遍地应对负特征值。我们表明,是否使用邻接或归一化的拉普拉斯矩阵,光谱嵌入产生均匀一致的潜在估计,渐近高斯误差(最高可识别性)。标准和混合会员随机块模型是特殊情况,其中潜在的位置只需要k $不同的向量值,代表社区,或以$(k-1)$ - simplex与那些顶点一起生活。在随机块模型下,我们的理论建议使用高斯混合模型(而不是$ k $ -means),并且根据混合成员资格,拟合封闭单纯x的最小卷,此前仅在非负面明确假设下支持的现有建议。在网络安全示例中,在网络安全示例中证明了链路预测(在随机点产品图中)的经验改进(在随机点产品图中),以及露出更丰富的潜在结构(比标准或混合隶属块模型的位置)。
translated by 谷歌翻译
基于观察到的图,对在关系结构数据上应用机器学习技术的兴趣增加了。通常,该图并不能完全代表节点之间的真实关系。在这些设置中,构建以观测图为条件的生成模型可以考虑图形不确定性。各种现有技术要么依赖于限制性假设,无法在样品中保留拓扑特性,要么在较大的图表中昂贵。在这项工作中,我们介绍了用于通过图形构建分布的节点复制模型。随机图的采样是通过替换每个节点的邻居的邻居来进行采样的。采样图保留图形结构的关键特征,而无需明确定位它们。此外,该模型的采样非常简单,并与节点线性缩放。我们在三个任务中显示了复制模型的有用性。首先,在节点分类中,基于节点复制的贝叶斯公式在稀疏数据设置中实现了更高的精度。其次,我们采用建议的模型来减轻对抗攻击对图形拓扑的影响。最后,将模型纳入推荐系统设置,改善了对最新方法的回忆。
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
网络分析一直是揭示大量对象之间关系和交互的强大工具。然而,它在准确识别重要节点节点相互作用的有效性受到快速增长的网络规模的挑战,数据以空前的粒度和规模收集。克服这种高维度的共同智慧是将节点崩溃成较小的群体,并在小组级别进行连通性分析。将努力分为两个阶段不可避免地打开了一致性的差距,并降低了效率。共识学习是通用知识发现的新常态,并具有多个可用的数据源。为此,本文以组合多个数据源来开发同时分组和连接分析的统一框架。该算法还保证了统计上最佳的估计器。
translated by 谷歌翻译
社区检测是网络科学的基本和重要问题,但只有几个基于图形神经网络的社区检测算法,其中无监督的算法几乎是空白的。通过融合具有网络功能的高阶模块化信息,本文首次提出了基于变分AualiCoder重建的社区检测VGGAer,并给出了其非概率版本。他们不需要任何先前的信息。我们精心设计了基于社区检测任务的相应输入功能,解码器和下游任务,这些设计简洁,自然,表现良好(我们的设计下的NMI值得到59.1%-565.9%)。基于一系列具有广泛数据集和先​​进方法的一系列实验,VGAER实现了卓越的性能,并具有更简单的设计竞争力和潜力。最后,我们报告了算法收敛性分析和T-SNE可视化的结果,清楚地描绘了VGAER的稳定性能和强大的网络模块化能力。我们的代码可在https://github.com/qcydm/vgaer提供。
translated by 谷歌翻译
网络研究中最根本的问题之一是社区检测。随机块模型(SBM)是一种流行的模型,具有不同的估计方法,其社区检测一致性结果揭晓。但是,SBM受到强烈假设的限制:同一社区中的所有节点在随机上都是等效的,这可能不适合实际应用。我们引入了成对协变量调整后的随机块模型(PCABM),这是SBM的概括,该模型包含成对协变量信息。我们研究协变量和社区分配系数的最大似然估计。结果表明,在适当的稀疏条件下,协变量和社区分配的系数估计均一致。引入了带有调节的光谱聚类(SCWA),以有效地求解PCABM。在某些条件下,我们得出了SCWA下社区检测的错误限制,并表明它是社区检测一致的。此外,研究了模型的选择,并研究了成对协变量的特征选择,并提出了两种相应的算法。当可访问协变量信息时,PCABM与SBM或学位校正的随机块模型(DCBM)进行比较。
translated by 谷歌翻译