Infomap是一种流行的方法,用于检测网络中节点的密度连接的“社区”。要检测此类社区,它建立在标准类型的马尔可夫链和信息理论中的想法。通过在网络上传播的疾病动态的动机,其节点可能具有异质疾病脱模速率,我们将Infomap扩展到吸收随机散步。为此,我们使用吸收缩放的图形,其中边缘权重根据吸收率缩放,以及马尔可夫时间扫描。我们的Infomap的一个扩展之一会聚到Infomap的标准版本,其中吸收率接近$ 0 $。我们发现,使用我们的Infomap扩展检测的社区结构可以从社区结构中显着不同,即一个使用不考虑节点吸收率的方法检测。此外,我们表明,局部动态引起的社区结构可以对环形格网络上的敏感感染恢复(SIR)动力学产生重要意义。例如,我们发现在适度数量的节点具有大的节点吸收率时,爆发持续时间最大化的情况。我们还使用我们的Infomap扩展来研究性接触网络中的社区结构。我们认为社区结构,与网络中无家可归者的不同吸收率相对应,以及对网络上的梅毒动力学的相关影响。我们观察到,当无家可归者人口中的治疗率低于其他人群时,当治疗率较低时,最终爆发规模可能会比其他人口相同。
translated by 谷歌翻译
通常,使用网络编码在物理,生物,社会和信息科学中应用程序中复杂系统中实体之间的交互体系结构。为了研究复杂系统的大规模行为,研究网络中的中尺度结构是影响这种行为的构件。我们提出了一种新方法来描述网络中的低率中尺度结构,并使用多种合成网络模型和经验友谊,协作和蛋白质 - 蛋白质相互作用(PPI)网络说明了我们的方法。我们发现,这些网络拥有相对较少的“潜在主题”,可以成功地近似固定的中尺度上网络的大多数子图。我们使用一种称为“网络词典学习”(NDL)的算法,该算法结合了网络采样方法和非负矩阵分解,以学习给定网络的潜在主题。使用一组潜在主题对网络进行编码的能力具有多种应用于网络分析任务的应用程序,例如比较,降解和边缘推理。此外,使用我们的新网络去核和重建(NDR)算法,我们演示了如何通过仅使用直接从损坏的网络中学习的潜在主题来贬低损坏的网络。
translated by 谷歌翻译
马尔可夫链是一类概率模型,在定量科学中已广泛应用。这部分是由于它们的多功能性,但是可以通过分析探测的便利性使其更加复杂。本教程为马尔可夫连锁店提供了深入的介绍,并探索了它们与图形和随机步行的联系。我们利用从线性代数和图形论的工具来描述不同类型的马尔可夫链的过渡矩阵,特别着眼于探索与这些矩阵相对应的特征值和特征向量的属性。提出的结果与机器学习和数据挖掘中的许多方法有关,我们在各个阶段描述了这些方法。本文并没有本身就成为一项新颖的学术研究,而是提出了一些已知结果的集合以及一些新概念。此外,该教程的重点是向读者提供直觉,而不是正式的理解,并且仅假定对线性代数和概率理论的概念的基本曝光。因此,来自各种学科的学生和研究人员可以访问它。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
来自时间序列数据的因果推断的主要挑战是计算可行性和准确性之间的权衡。在具有缓慢均值逆转的自回旋模型中,由滞后协方差的过程基序激励,我们建议通过成对边缘测量(PEM)推断因果关系网络,即可以轻松地从滞后相关矩阵中计算出来。通过过程基序对协方差和滞后方差的贡献,我们制定了两个pem,这些PEM适合混杂因素和反向因果关系。为了证明PEM的性能,我们考虑了线性随机过程的模拟网络干扰,并表明我们的PEM可以准确有效地推断网络。具体而言,对于略有自相关的时间序列数据,我们的方法获得的准确性高于或类似于Granger因果关系,转移熵和收敛的交叉映射 - 但使用这些方法中的任何一种都比计算时间短得多。我们的快速准确的PEM是用于网络推断的易于实现的方法,具有明确的理论基础。它们为当前范式提供了有希望的替代方案,用于从时间序列数据中推断线性模型,包括Granger因果关系,矢量自动进展和稀疏逆协方差估计。
translated by 谷歌翻译
In recent years, spectral clustering has become one of the most popular modern clustering algorithms. It is simple to implement, can be solved efficiently by standard linear algebra software, and very often outperforms traditional clustering algorithms such as the k-means algorithm. On the first glance spectral clustering appears slightly mysterious, and it is not obvious to see why it works at all and what it really does. The goal of this tutorial is to give some intuition on those questions. We describe different graph Laplacians and their basic properties, present the most common spectral clustering algorithms, and derive those algorithms from scratch by several different approaches. Advantages and disadvantages of the different spectral clustering algorithms are discussed.
translated by 谷歌翻译
We introduce and analyze NetOTC, a procedure for the comparison and soft alignment of weighted networks. Given two networks and a cost function relating their vertices, NetOTC finds an appropriate coupling of their associated random walks having minimum expected cost. The minimizing cost provides a numerical measure of the difference between the networks, while the optimal transport plan itself provides interpretable, probabilistic alignments of the vertices and edges of the two networks. The cost function employed can be based, for example, on vertex degrees, externally defined features, or Euclidean embeddings. Coupling of the full random walks, rather than their stationary distributions, ensures that NetOTC captures local and global information about the given networks. NetOTC applies to networks of different size and structure, and does not the require specification of free parameters. NetOTC respects edges, in the sense that vertex pairs in the given networks are aligned with positive probability only if they are adjacent in the given networks. We investigate a number of theoretical properties of NetOTC that support its use, including metric properties of the minimizing cost and its connection with short- and long-run average cost. In addition, we introduce a new notion of factor for weighted networks, and establish a close connection between factors and NetOTC. Complementing the theory, we present simulations and numerical experiments showing that NetOTC is competitive with, and sometimes superior to, other optimal transport-based network comparison methods in the literature. In particular, NetOTC shows promise in identifying isomorphic networks using a local (degree-based) cost function.
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
随着大型网络在重要领域的相关领域的相关性,例如对疾病传播的联系网络的研究,或社交网络对地缘政治的影响,已经有必要研究可扩展到非常大的网络的机器学习工具,通常包含数百万节点。一种主要类别可扩展算法称为网络表示学习或网络嵌入。这些算法尝试通过首次运行多个随机散步,然后使用观察到的随机步行段中的每对节点的共同数量来学习网络功能(例如〜节点)的表示,以获得一些节点的低维表示欧几里德空间。本文的目的是严格地了解两个主要算法,深途化和Node2VEC的性能,以恢复与地面真理社区的规范网络模型的社区。根据图的稀疏性,我们发现所需的随机步道段的长度,使得相应的观察到的共生窗口能够对底层社区分配的几乎精确恢复。我们证明,考虑到一些固定的共同发生窗口,使用随机散步的Node2Vec与低横向概率的随机散步可以相比,与使用简单随机散步的深度扫视相比,稀疏网络可以成功。此外,如果稀疏参数低,我们提供了证据表明这些算法几乎完全恢复可能不会成功。该分析需要开发用于对具有底层低级结构的随机网络计数的通用工具,这与独立兴趣。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译
通过图形结构表示数据标识在多个数据分析应用中提取信息的最有效方法之一。当调查多模式数据集时,这尤其如此,因为通过各种传感策略收集的记录被考虑并探索。然而,经典曲线图信号处理基于根据热扩散机构配置的信息传播的模型。该系统提供了对多模式数据分析不适用于多模式数据分析的数据属性的若干约束和假设,特别是当考虑从异构源收集的大规模数据集,因此结果的准确性和稳健性可能会受到严重危害。在本文中,我们介绍了一种基于流体扩散的图表定义模型。该方法提高了基于图形的数据分析的能力,以考虑运行方案中现代数据分析的几个问题,从而为对考试记录的记录底层的现象提供了一种精确,多才多艺的,有效地理解平台,以及完全利用记录的多样性提供的潜力,以获得数据的彻底表征及其意义。在这项工作中,我们专注于使用这种流体扩散模型来驱动社区检测方案,即根据节点中的节点中的相似性将多模式数据集分为多个组中。在不同应用场景中测试真正的多模式数据集实现的实验结果表明,我们的方法能够强烈优先于多媒体数据分析中的社区检测的最先进方案。
translated by 谷歌翻译
Kernel matrices, as well as weighted graphs represented by them, are ubiquitous objects in machine learning, statistics and other related fields. The main drawback of using kernel methods (learning and inference using kernel matrices) is efficiency -- given $n$ input points, most kernel-based algorithms need to materialize the full $n \times n$ kernel matrix before performing any subsequent computation, thus incurring $\Omega(n^2)$ runtime. Breaking this quadratic barrier for various problems has therefore, been a subject of extensive research efforts. We break the quadratic barrier and obtain $\textit{subquadratic}$ time algorithms for several fundamental linear-algebraic and graph processing primitives, including approximating the top eigenvalue and eigenvector, spectral sparsification, solving linear systems, local clustering, low-rank approximation, arboricity estimation and counting weighted triangles. We build on the recent Kernel Density Estimation framework, which (after preprocessing in time subquadratic in $n$) can return estimates of row/column sums of the kernel matrix. In particular, we develop efficient reductions from $\textit{weighted vertex}$ and $\textit{weighted edge sampling}$ on kernel graphs, $\textit{simulating random walks}$ on kernel graphs, and $\textit{importance sampling}$ on matrices to Kernel Density Estimation and show that we can generate samples from these distributions in $\textit{sublinear}$ (in the support of the distribution) time. Our reductions are the central ingredient in each of our applications and we believe they may be of independent interest. We empirically demonstrate the efficacy of our algorithms on low-rank approximation (LRA) and spectral sparsification, where we observe a $\textbf{9x}$ decrease in the number of kernel evaluations over baselines for LRA and a $\textbf{41x}$ reduction in the graph size for spectral sparsification.
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
光谱方法通过图矩阵上的特征向量计算在图中提供了一个可拖动的全局框架。 HyperGraph数据(其中实体在任意大小的边缘上相互作用)对矩阵表示构成了挑战,因此对光谱聚类构成了挑战。我们研究了基于超透明型非背带操作员的非均匀超图的光谱聚类。在审查了该操作员及其基本属性的定义之后,我们证明了Ihara-Bass类型的定理,该定理允许在较小的矩阵上进行特征Pair计算,通常可以更快地计算。然后,我们通过线性化信念传播提出了一种交替的算法,用于在超图随机块模型中推断,该算法涉及光谱聚类的步骤,再次使用非背部跟踪操作员。我们提供与该算法相关的证明,这些算法既正式又扩展了几个先前的结果。我们对光谱方法的极限和超图随机块模型中的可检测性提出了几种猜想,并通过对我们研究的操作员的特征因的不接受分析来支持它们。我们在真实和合成数据中执行实验,这些实验证明了当不同尺寸的相互作用带有有关群集结构的不同信息时,超图方法比基于图的方法的好处。
translated by 谷歌翻译
单细胞转录组学的分析通常依赖于聚类细胞,然后进行差异基因表达(DGE)来识别这些簇之间变化的基因。这些离散分析成功地确定了细胞类型和标记。但是,可能无法检测到细胞类型内部和之间的连续变化。我们提出了三种拓扑动机的数学方法,用于无监督的特征选择,这些方法可以同时在多个尺度上同时考虑离散和连续的转录模式。 eigenscores($ \ mathrm {eig} _i $)基于其与图形laplacian的频谱分解在数据中与低频内在图案的对应相对的对应。多尺度拉普拉斯评分(MLS)是一种无监督的方法,用于在数据中定位相关量表并选择在这些相应量表上相干表达的基因。持续的瑞利商(PRQ)采用了配备过滤的数据,允许在分叉过程中具有不同作用的基因(例如伪时间)。我们通过将它们应用于已发布的单细胞转录组数据集来证明这些技术的实用性。该方法验证了先前鉴定的基因并检测具有相干表达模式的其他基因。通过研究基因信号与基础空间的几何形状之间的相互作用,这三种方法给出了基因的多维排名和它们之间关系的可视化。
translated by 谷歌翻译
本文研究了由$ N $-$ N $ TCONOR代表的非二进制对交互估计的社区成员资格,其值为$ \ MATHCAL S $的元素,其中$ N $是节点的数量和$ \ Mathcal S $是节点之间的成对交互的空间。作为信息理论基准,我们研究由非二进制随机块模型生成的数据集,并导致社区成员资格的基本信息标准作为$ n \ to \ idty $。应用程序的示例包括加权网络($ \ mathcal s = \ mathbb r $),链接标记的网络$(\ mathcal s = \ {0,1,1,\ dots,l \} $),多路复用网络$(\ mathcal s = \ {0,1 \} ^ m $)和时间网络($ \ mathcal s = \ {0,1 \} ^ t $)。对于时间互动,我们表明(i)即使是$ t $的少数增加也可能对社区成员的恢复产生了很大影响,(ii)即使对于非常稀疏的数据(例如\ in in inverly degress),甚至可能存在一致的恢复$ t $足够大。我们还提供了几种离线和在线的估计算法,它充分利用了观察到的数据的时间性。我们在数据稀疏性和可识别性的各种假设下分析所提出的估计算法的准确性。数值实验表明,即使是社区分配的初始估计(例如,盲目随机猜测)也会导致在少量迭代之后通过在线算法获得的高精度,并且在非常稀疏的方案中也是如此。
translated by 谷歌翻译
我们介绍了一种新颖的谐波分析,用于在函数上定义的函数,随机步行操作员是基石。作为第一步,我们将随机步行操作员的一组特征向量作为非正交傅里叶类型的功能,用于通过定向图。我们通过将从其Dirichlet能量获得的随机步行操作员的特征向量的变化与其相关的特征值的真实部分连接来发现频率解释。从这个傅立叶基础,我们可以进一步继续,并在有向图中建立多尺度分析。通过将Coifman和MagGioni扩展到定向图,我们提出了一种冗余小波变换和抽取的小波变换。因此,我们对导向图的谐波分析的发展导致我们考虑应用于突出了我们框架效率的指示图的图形上的半监督学习问题和信号建模问题。
translated by 谷歌翻译