隐藏的社区是最近提出的一个有用的概念,用于社交网络分析。为了处理网络规模的快速增长,在这项工作中,我们从本地角度探讨了隐藏社区的检测,并提出了一种在从原始网络采样的子程目上迭代地检测和提升每个层的新方法。我们首先将根据我们修改的本地频谱方法从单个种子节点展开种子集,并检测初始占主导地位的本地社区。然后,我们暂时删除该社区的成员以及它们与其他节点的连接,并检测剩余子图中的所有邻居社区,包括一些“破坏社区”,该部分仅包含原始网络中的一部分成员。当地社区和邻里社区形成了一个主导层,通过减少这些社区内的边缘权重,我们削弱了这一层的结构来揭示隐藏的层。最终,我们重复整个过程,并且可以迭代地检测并升级包含种子节点的所有社区。理论上我们展示了我们的方法可以避免破碎的社区和当地社区被认为是子图中的一个社区的某些情况,导致对全球隐藏的社区检测方法可能引起的检测不准确。广泛的实验表明,我们的方法可以显着优于为全球隐藏社区检测或多个本地社区检测设计的最先进的基线。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
临床记录经常包括对患者特征的评估,其中可能包括完成各种问卷。这些问卷提供了有关患者当前健康状况的各种观点。捕获这些观点给出的异质性不仅至关重要,而且对开发具有成本效益的技术的临床表型技术的需求增长。填写许多问卷可能是患者的压力,因此昂贵。在这项工作中,我们提出了钴 - 一种基于成本的层选择器模型,用于使用社区检测方法检测表型。我们的目标是最大程度地减少用于构建这些表型的功能的数量,同时保持其质量。我们使用来自慢性耳鸣患者的问卷数据测试我们的模型,并在多层网络结构中代表数据。然后,通过使用基线特征(年龄,性别和治疗前数据)以及确定的表型作为特征来评估该模型。对于某些治疗后变量,使用来自钴的表型作为特征的预测因素优于使用传统聚类方法检测到的表型的预测因素。此外,与仅接受基线特征训练的预测因子相比,使用表型数据预测治疗后数据被证明是有益的。
translated by 谷歌翻译
Most real-world networks suffer from incompleteness or incorrectness, which is an inherent attribute to real-world datasets. As a consequence, those downstream machine learning tasks in complex network like community detection methods may yield less satisfactory results, i.e., a proper preprocessing measure is required here. To address this issue, in this paper, we design a new community attribute based link prediction strategy HAP and propose a two-step community enhancement algorithm with automatic evolution process based on HAP. This paper aims at providing a community enhancement measure through adding links to clarify ambiguous community structures. The HAP method takes the neighbourhood uncertainty and Shannon entropy to identify boundary nodes, and establishes links by considering the nodes' community attributes and community size at the same time. The experimental results on twelve real-world datasets with ground truth community indicate that the proposed link prediction method outperforms other baseline methods and the enhancement of community follows the expected evolution process.
translated by 谷歌翻译
通常,使用网络编码在物理,生物,社会和信息科学中应用程序中复杂系统中实体之间的交互体系结构。为了研究复杂系统的大规模行为,研究网络中的中尺度结构是影响这种行为的构件。我们提出了一种新方法来描述网络中的低率中尺度结构,并使用多种合成网络模型和经验友谊,协作和蛋白质 - 蛋白质相互作用(PPI)网络说明了我们的方法。我们发现,这些网络拥有相对较少的“潜在主题”,可以成功地近似固定的中尺度上网络的大多数子图。我们使用一种称为“网络词典学习”(NDL)的算法,该算法结合了网络采样方法和非负矩阵分解,以学习给定网络的潜在主题。使用一组潜在主题对网络进行编码的能力具有多种应用于网络分析任务的应用程序,例如比较,降解和边缘推理。此外,使用我们的新网络去核和重建(NDR)算法,我们演示了如何通过仅使用直接从损坏的网络中学习的潜在主题来贬低损坏的网络。
translated by 谷歌翻译
图形嵌入是图形节点到一组向量的转换。良好的嵌入应捕获图形拓扑,节点与节点的关系以及有关图,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络中有意义的,可理解的,可理解的压缩表示形式,可用于其他机器学习工具,例如节点分类,社区检测或链接预测。主要的挑战是,需要确保嵌入很好地描述图形的属性。结果,选择最佳嵌入是一项具有挑战性的任务,并且通常需要领域专家。在本文中,我们在现实世界网络和人为生成的网络上进行了一系列广泛的实验,并使用选定的图嵌入算法进行了一系列的实验。根据这些实验,我们制定了两个一般结论。首先,如果需要在运行实验之前选择一种嵌入算法,则Node2Vec是最佳选择,因为它在我们的测试中表现最好。话虽如此,在所有测试中都没有单一的赢家,此外,大多数嵌入算法都具有应该调整并随机分配的超参数。因此,如果可能的话,我们对从业者的主要建议是生成几个问题的嵌入,然后使用一个通用框架,该框架为无监督的图形嵌入比较提供了工具。该框架(最近在文献中引入并在GitHub存储库中很容易获得)将分歧分数分配给嵌入,以帮助区分好的分数和不良的分数。
translated by 谷歌翻译
图形嵌入是将网络的节点转换为一组向量。良好的嵌入应捕获底层图形拓扑和结构,节点到节点关系以及图形,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络的有意义,可以理解的,通常是压缩的。不幸的是,选择最好的嵌入是一个具有挑战性的任务,并且通常需要域名专家。在本文中,我们扩展了评估作者最近引入的图形嵌入的框架。现在,该框架为每个嵌入的嵌入分配两个分数,本地和全局,测量评估嵌入的嵌入的质量,以便分别需要良好地表示网络的全局属性。如果需要,最好的嵌入可以以无监督的方式选择,或者框架可以识别一些值得进一步调查的少数嵌入。该框架灵活,可扩展,可以处理无向/定向,加权/未加权图。
translated by 谷歌翻译
Machine Unerning是在收到删除请求时从机器学习(ML)模型中删除某些培训数据的影响的过程。虽然直接而合法,但从划痕中重新训练ML模型会导致高计算开销。为了解决这个问题,在图像和文本数据的域中提出了许多近似算法,其中SISA是最新的解决方案。它将训练集随机分配到多个碎片中,并为每个碎片训练一个组成模型。但是,将SISA直接应用于图形数据可能会严重损害图形结构信息,从而导致的ML模型实用程序。在本文中,我们提出了Grapheraser,这是一种针对图形数据量身定制的新型机器学习框架。它的贡献包括两种新型的图形分区算法和一种基于学习的聚合方法。我们在五个现实世界图数据集上进行了广泛的实验,以说明Grapheraser的学习效率和模型实用程序。它可以实现2.06 $ \ times $(小数据集)至35.94 $ \ times $(大数据集)未学习时间的改进。另一方面,Grapheraser的实现最高62.5美元\%$更高的F1分数,我们提出的基于学习的聚合方法可达到高达$ 112 \%$ $ F1分数。 github.com/minchen00/graph-unlearning}。}。}
translated by 谷歌翻译
我们研究了流行群体质量指标的潜在偏见,例如电导或模块化。我们提出了一种方法,该方法使用随机和优先附加块模型构造来生成具有预设社区结构的网络,将应用质量指标。这些模型还允许我们生成不同强度的多级结构,这将显示指标是否有利于较大或更少数量的群集。另外,我们提出了另一种质量指标,密度比。我们观察到,即使它们的相对内部和外部连接是相同的,大多数研究的指标也倾向于倾向于倾向于将分区分成较少数量的大集群。发现偏置的度量较少是模块化和密度比。
translated by 谷歌翻译
Influence Maximization (IM) is a classical combinatorial optimization problem, which can be widely used in mobile networks, social computing, and recommendation systems. It aims at selecting a small number of users such that maximizing the influence spread across the online social network. Because of its potential commercial and academic value, there are a lot of researchers focusing on studying the IM problem from different perspectives. The main challenge comes from the NP-hardness of the IM problem and \#P-hardness of estimating the influence spread, thus traditional algorithms for overcoming them can be categorized into two classes: heuristic algorithms and approximation algorithms. However, there is no theoretical guarantee for heuristic algorithms, and the theoretical design is close to the limit. Therefore, it is almost impossible to further optimize and improve their performance. With the rapid development of artificial intelligence, the technology based on Machine Learning (ML) has achieved remarkable achievements in many fields. In view of this, in recent years, a number of new methods have emerged to solve combinatorial optimization problems by using ML-based techniques. These methods have the advantages of fast solving speed and strong generalization ability to unknown graphs, which provide a brand-new direction for solving combinatorial optimization problems. Therefore, we abandon the traditional algorithms based on iterative search and review the recent development of ML-based methods, especially Deep Reinforcement Learning, to solve the IM problem and other variants in social networks. We focus on summarizing the relevant background knowledge, basic principles, common methods, and applied research. Finally, the challenges that need to be solved urgently in future IM research are pointed out.
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
社交网络(SN)是一个由代表它们之间相互作用的群体组成的社会结构。 SNS最近被广泛使用,随后已成为产品推广和信息扩散的合适平台。 SN中的人们直接影响彼此的利益和行为。 SNS中最重要的问题之一是,如果选择将它们作为网络扩散场景的种子节点选择,那么他们可以以级联的方式对网络中的其他节点产生最大影响。有影响力的扩散器是人们,如果他们被选为网络中出版问题中的种子,那么该网络将拥有最多了解该扩散实体的人。这是称为影响最大化(IM)问题的文献中的一个众所周知的问题。尽管已证明这是一个NP完整的问题,并且在多项式时间内没有解决方案,但有人认为它具有子模块化功能的属性,因此可以使用贪婪的算法来解决。提出改善这种复杂性的大多数方法都是基于以下假设:整个图都是可见的。但是,此假设不适合许多真实世界图。进行了这项研究,以扩展使用链接预测技术与伪可见性图的电流最大化方法。为此,将一种称为指数随机图模型(ERGM)的图生成方法用于链接预测。使用斯坦福大学SNAP数据集的数据对所提出的方法进行了测试。根据实验测试,所提出的方法在现实世界图上有效。
translated by 谷歌翻译
局部内在维度(LID)的概念是数据维度分析的重要进步,并在数据挖掘,机器学习和相似性搜索问题中应用了。现有的基于距离的盖估计器设计用于包含欧几里得空间中向量的数据点的表格数据集。在讨论了考虑图嵌入和图形距离的图形结构数据的局限性之后,我们提出了NC-lid,这是一种与盖子相关的新型措施,用于量化最短路径距离相对于自然群落的固有区域的歧视能力。它显示了如何使用该度量来设计嵌入算法的图形图,并通过根据NC-LID值调整了Node2VEC的两个LID弹性变体。我们对NC-LID对大量实际图表的经验分析表明,该措施能够指向Node2VEC嵌入中具有高链路重建错误的节点,而不是节点中心度指标。实验评估还表明,通过在生成的嵌入中更好地保​​留图形结构,提出的盖 - 弹性节点2VEC扩展可以改善节点2VEC。
translated by 谷歌翻译
我们提出了一种新方法,即校准的非参数扫描统计量(CNSS),以更准确地检测大型现实世界图中的异常模式。扫描统计数据可以通过最大化似然比统计量来确定有趣或意外的连接子图;特别是,非参数扫描统计(NPSS)识别具有比预期的单独显着节点比例高的子图。但是,我们表明最近提出的NPSS方法被错误地校准了,无法解释统计量超过子图的多样性。这既可以降低微妙信号的检测能力,又导致检测到的子图的精度降低,即使对于更强的信号也是如此。因此,我们开发了一种重新校准NPSS的新统计方法,正确调整了多个假设测试并考虑了基础图结构。虽然基于随机测试的重新校准在计算上是昂贵的,但我们提出了一种有效的(近似)算法和新的,封闭形式的下限(在零假设下,在给定大小的子尺寸的显着节点的预期最大比例上,没有异常模式)。这些进步,加上最近的核心树分解方法的整合,使CNSS能够扩展到大型现实世界图,并在检测到的子学的准确性方面有了很大的提高。与最先进的对应物相比,证明了对半合成和现实数据集的广泛实验,以验证我们提出的方法的有效性。
translated by 谷歌翻译
社区检测是社会网络分析中最重要而有趣的问题之一。近年来,同时考虑社区检测过程中社交网络的节点的属性和拓扑结构,吸引了许多学者的关注,最近在一些社区检测方法中使用了这一考虑,以增加他们的效率并增强他们的效率寻找有意义和相关社区的表演。但问题是,大多数这些方法都倾向于找到非重叠的社区,而许多现实网络包括在某种程度上经常重叠的社区。为了解决这个问题,在本文中提出了一种称为Mobbo-OCD的进化算法,该算法基于基于多目标生物地理学的优化(BBO),以在同步地考虑中自动查找与节点属性的社交网络中的重叠社区网络中的连接密度和节点属性的相似性。在Mobbo-OCD中,引入称为OLAR的扩展基于轨迹的邻接邻接,以编码和解码重叠的社区。基于OLAR,基于秩的迁移操作员以及新的两相突变策略和新的双点交叉在Mobbo-OCD的演化过程中使用,以有效地将人群引导到进化路径中。为了评估mobbo-ocd的性能,本文提出了一种名为Alpha_Saem的新度量,这是考虑节点属性和链接结构的两个方面,可以评估重叠和非重叠分区的良好。量化评估表明,Mobbo-ocd实现了有利的结果,这些结果非常优于文献中的15个相关群落检测算法的结果。
translated by 谷歌翻译
Network structure evolves with time in the real world, and the discovery of changing communities in dynamic networks is an important research topic that poses challenging tasks. Most existing methods assume that no significant change in the network occurs; namely, the difference between adjacent snapshots is slight. However, great change exists in the real world usually. The great change in the network will result in the community detection algorithms are difficulty obtaining valuable information from the previous snapshot, leading to negative transfer for the next time steps. This paper focuses on dynamic community detection with substantial changes by integrating higher-order knowledge from the previous snapshots to aid the subsequent snapshots. Moreover, to improve search efficiency, a higher-order knowledge transfer strategy is designed to determine first-order and higher-order knowledge by detecting the similarity of the adjacency matrix of snapshots. In this way, our proposal can better keep the advantages of previous community detection results and transfer them to the next task. We conduct the experiments on four real-world networks, including the networks with great or minor changes. Experimental results in the low-similarity datasets demonstrate that higher-order knowledge is more valuable than first-order knowledge when the network changes significantly and keeps the advantage even if handling the high-similarity datasets. Our proposal can also guide other dynamic optimization problems with great changes.
translated by 谷歌翻译
从嘈杂的观察结果中检测网络社区结构的突然变化是统计和机器学习中的一个基本问题。本文介绍了一种称为Spectral-Cusum的在线变更检测算法,以通过广义似然比统计量来检测未知网络结构的变化。我们表征了光谱库过程的平均运行长度(ARL)和预期检测延迟(EDD),并证明其渐近最佳性。最后,我们证明了光谱曲线过程的良好性能,并使用传感器网络数据进行地震事件检测的模拟和真实数据示例将其与多种基线方法进行比较。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译
社交网络通常是使用签名图对社交网络进行建模的,其中顶点与用户相对应,并且边缘具有一个指示用户之间的交互作用的符号。出现的签名图通常包含一个清晰的社区结构,因为该图可以分配到少数极化社区中,每个群落都定义了稀疏切割,并且不可分割地分为较小的极化亚共同体。我们为具有如此清晰的社区结构的签名图提供了本地聚类甲骨文图的小部分。正式地,当图形具有最高度且社区数量最多为$ o(\ log n)$时,则使用$ \ tilde {o}(\ sqrt {n} \ sqrt {n} \ propatatorName {poly}(1/\ varepsilon) )$预处理时间,我们的Oracle可以回答$ \ tilde {o}(\ sqrt {n} \ operatorname {poly}(1/\ varepsilon))$ time的每个成员查询,并且它正确地分类了$(1--1-(1-) \ varepsilon)$ - 顶点W.R.T.的分数一组隐藏的种植地面真实社区。我们的Oracle在仅需要少数顶点需要的聚类信息的应用中是可取的。以前,此类局部聚类牙齿仅因无符号图而闻名。我们对签名图的概括需要许多新的想法,并对随机步行的行为进行了新的光谱分析。我们评估了我们的算法,用于在合成和现实世界数据集上构建这种甲骨文和回答成员资格查询,从而在实践中验证其性能。
translated by 谷歌翻译