对网络中的用户如何根据邻居的意见更新他们的意见的理解吸引了网络科学领域的极大兴趣,并且越来越多的文献认识到了这个问题的重要性。在这篇研究论文中,我们提出了有指导网络中意见形成的新动态模型。在此模型中,每个节点的意见被更新为邻居意见的加权平均值,而权重代表社会影响力。我们将一种新的中心度度量定义为基于影响和整合性的社会影响度量。我们使用两个意见形成模型来衡量这种新方法:(i)degroot模型和(ii)我们自己提出的模型。先前发表的研究没有考虑合格,并且仅考虑计算社会影响时节点的影响。在我们的定义中,与高度和较低程度的节点相关的较低度和高度的节点具有较高的中心性。作为这项研究的主要贡献,我们提出了一种算法,用于在社交网络中找到一小部分节点,该节点可能会对其他节点的观点产生重大影响。关于现实世界数据的实验表明,所提出的算法显着优于先前发布的最新方法。
translated by 谷歌翻译
社交网络(SN)是一个由代表它们之间相互作用的群体组成的社会结构。 SNS最近被广泛使用,随后已成为产品推广和信息扩散的合适平台。 SN中的人们直接影响彼此的利益和行为。 SNS中最重要的问题之一是,如果选择将它们作为网络扩散场景的种子节点选择,那么他们可以以级联的方式对网络中的其他节点产生最大影响。有影响力的扩散器是人们,如果他们被选为网络中出版问题中的种子,那么该网络将拥有最多了解该扩散实体的人。这是称为影响最大化(IM)问题的文献中的一个众所周知的问题。尽管已证明这是一个NP完整的问题,并且在多项式时间内没有解决方案,但有人认为它具有子模块化功能的属性,因此可以使用贪婪的算法来解决。提出改善这种复杂性的大多数方法都是基于以下假设:整个图都是可见的。但是,此假设不适合许多真实世界图。进行了这项研究,以扩展使用链接预测技术与伪可见性图的电流最大化方法。为此,将一种称为指数随机图模型(ERGM)的图生成方法用于链接预测。使用斯坦福大学SNAP数据集的数据对所提出的方法进行了测试。根据实验测试,所提出的方法在现实世界图上有效。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
复杂的网络是代表现实生活系统的图形,这些系统表现出独特的特征,这些特征在纯粹的常规或完全随机的图中未发现。由于基础过程的复杂性,对此类系统的研究至关重要,但具有挑战性。然而,由于大量网络数据的可用性,近几十年来,这项任务变得更加容易。复杂网络中的链接预测旨在估计网络中缺少两个节点之间的链接的可能性。由于数据收集的不完美或仅仅是因为它们尚未出现,因此可能会缺少链接。发现网络数据中实体之间的新关系吸引了研究人员在社会学,计算机科学,物理学和生物学等各个领域的关注。大多数现有研究的重点是无向复杂网络中的链接预测。但是,并非所有现实生活中的系统都可以忠实地表示为无向网络。当使用链接预测算法时,通常会做出这种简化的假设,但不可避免地会导致有关节点之间关系和预测性能中降解的信息的丢失。本文介绍了针对有向网络的明确设计的链接预测方法。它基于相似性范式,该范式最近已证明在无向网络中成功。提出的算法通过在相似性和受欢迎程度上将其建模为不对称性来处理节点关系中的不对称性。鉴于观察到的网络拓扑结构,该算法将隐藏的相似性近似为最短路径距离,并使用边缘权重捕获并取消链接的不对称性和节点的受欢迎程度。在现实生活中评估了所提出的方法,实验结果证明了其在预测各种网络数据类型和大小的丢失链接方面的有效性。
translated by 谷歌翻译
我们通过定义节点的某些局部特征和矢量表示,然后使用它们来通过深层神经网络来学习全球定义的指标和属性,从而提出了用于图形机器学习和网络分析的局部到全球策略。通过通过呼吸优先搜索扩展节点的程度的概念,定义了{\ bf参数中心函数}的一般家族,可以揭示节点的重要性。我们将{\ bf邻居学位频率(NDF)}引入,作为无向图的节点的局部定义嵌入到欧几里得空间中。这引起了节点的矢量标记,该标记编码了节点局部邻域的结构,可用于图同构测试。我们为构造增加了灵活性,以便它也可以处理动态图。之后,广度优先搜索用于将NDF矢量表示形式扩展到两个不同的节点的矩阵表示,其中包含有关节点社区的高阶信息。我们的节点的矩阵表示为我们提供了一种新的方式,可视化节点的形状。此外,我们使用这些矩阵表示来获取特征向量,该特征向量适用于典型的深度学习算法。为了证明这些节点嵌入实际上包含有关节点的一些信息,在一系列示例中,我们表明可以通过将深度学习应用于这些本地特征来学习Pagerank和紧密的中心性。我们的构造足够灵活,可以处理不断发展的图。最后,我们解释了如何适应有向图的构造。
translated by 谷歌翻译
社交媒体广泛用于当今世界。它有助于快速简便地分享信息,使其成为广告产品的良好媒介。由于其巨大的普及,社交媒体网络的影响因素提供了巨大的潜在客户群。但是,决定应该选择哪些影响因素,以便为能够产生低投资的高回报而选择哪些影响因素并不简单。在这项工作中,我们提出了一个基于代理的模型(ABM),可以模拟影响者在各种情景中广告活动的动态,并可以帮助发现最佳的影响者营销策略。我们的系统是一种基于概率的图形的模型,提供了额外的优势,可以将现实世界因素(如顾客对产品,客户行为,愿意支付,品牌的投资盖,影响因素扩散)的兴趣提供额外的优势。产品的性质被广告viz。奢侈品和非奢侈品。利用客户收购成本和转换率作为一个单位经济,我们通过改变产品的性质和客户兴趣来评估不同类型的影响因素的性能。我们的结果举例说明了影响者营销的环境依赖性,并提供了在各种情况下更好地策略的洞察力。例如,我们表明,随着产品的性质因奢侈品而异,名人的表现下降而纳米影响者的性能提高。在客户的兴趣方面,我们发现纳米影响者的表现随着客户利益的减少而下降,而名人的表现则改善。
translated by 谷歌翻译
在本文中,我们提出了一种方法,用于预测社交媒体对等体之间的信任链接,其中一个是在多识别信任建模的人工智能面积。特别是,我们提出了一种数据驱动的多面信任信任建模,该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能:支持更个性化的,从而为用户提供更准确的预测。在信任感知项目推荐任务中说明,我们在大yelp数据集的上下文中评估所提出的框架。然后,我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础,老年人的反思,以说明关于用户组的推理价值,期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
大多数图形神经网络(GNNS)使用传递范例的消息,其中节点特征在输入图上传播。最近的作品指出,从远处节点流动的信息失真,作为限制依赖于长途交互的任务的消息的效率。这种现象称为“过度挤压”,已经启动到图形瓶颈,其中$ k $ -hop邻居的数量以$ k $迅速增长。我们在GNNS中提供了精确描述了GNNS中的过度挤压现象,并分析了它如何从图中的瓶颈引发。为此目的,我们介绍了一种新的基于边缘的组合曲率,并证明了负曲面负责过度挤压问题。我们还提出并通过实验测试了一种基于曲率的曲线图重新挖掘方法,以减轻过度挤压。
translated by 谷歌翻译
Models for the processes by which ideas and influence propagate through a social network have been studied in a number of domains, including the diffusion of medical and technological innovations, the sudden and widespread adoption of various strategies in game-theoretic settings, and the effects of "word of mouth" in the promotion of new products. Motivated by the design of viral marketing strategies, Domingos and Richardson posed a fundamental algorithmic problem for such social network processes: if we can try to convince a subset of individuals to adopt a new product or innovation, and the goal is to trigger a large cascade of further adoptions, which set of individuals should we target?We consider this problem in several of the most widely studied models in social network analysis. The optimization problem of selecting the most influential nodes is NP-hard here. The two conference papers upon which this article is based (KDD 2003 and ICALP 2005) provide the first provable approximation guarantees for efficient algorithms. Using an The present article is an expanded version of two conference papers [51,52], which appeared in KDD 2003 and ICALP 2005, respectively.
translated by 谷歌翻译
社交媒体的回声室是一个重要的问题,可以引起许多负面后果,最近影响对Covid-19的响应。回声室促进病毒的阴谋理论,发现与疫苗犹豫不决,较少遵守面具授权,以及社会疏散的实践。此外,回声室的问题与政治极化等其他相关问题相连,以及误导的传播。回声室被定义为用户网络,用户只与支持其预先存在的信仰和意见的意见相互作用,并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象,并为可能的解决方案提供蓝图。我们调查了相关文献,了解回声室的属性以及它们如何影响个人和社会。此外,我们展示了算法和心理的机制,这导致了回声室的形成。这些机制可以以两种形式表现出:(1)社交媒体推荐系统的偏见和(2)内部偏见,如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的,但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议,以使我们参与其中才能观看更多广告。因此,我们进一步研究了回声室检测和预防的不同计算方法,主要基于推荐系统。
translated by 谷歌翻译
计算特征向量中心(EC)的现有方法倾向于不足以足够强大,以确定EC在低时间复杂度或对大型网络的不可稳定可扩展的情况下,因此实际上不可靠/计算昂贵。因此,开发一种在低计算时间内可扩展的方法是本质的。因此,我们提出了一种深入学习模型,用于识别具有高特征传染媒介中心的节点。在识别具有监督学习方法的高排名节点时,有一些以前的作品,但在现实世界的情况下,没有标记图,因此监督学习方法的部署成为危险,其使用变得不切实际。因此,我们设计了CUL(与无监督的学习)方法,以无监督的方式学习网络中的相对射周分数。为此,我们开发了一种基于编码器解码器的框架,将节点映射到其各自的估计的EC分数。在不同的合成和现实网络上进行了广泛的实验。我们将CUL与类似于过去的工作的EC估算的基线监督方法进行了比较。观察到,即使在训练上训练数量的训练数据集时,CUL也可以在识别比其监督对方的更高的排名节点时提供相对更好的准确度分数。我们还表明,CUL比EC计算的传统基线方法更快且具有较小的运行时间。代码可在https://github.com/codexhammer/cul上获得。
translated by 谷歌翻译
Most real-world networks suffer from incompleteness or incorrectness, which is an inherent attribute to real-world datasets. As a consequence, those downstream machine learning tasks in complex network like community detection methods may yield less satisfactory results, i.e., a proper preprocessing measure is required here. To address this issue, in this paper, we design a new community attribute based link prediction strategy HAP and propose a two-step community enhancement algorithm with automatic evolution process based on HAP. This paper aims at providing a community enhancement measure through adding links to clarify ambiguous community structures. The HAP method takes the neighbourhood uncertainty and Shannon entropy to identify boundary nodes, and establishes links by considering the nodes' community attributes and community size at the same time. The experimental results on twelve real-world datasets with ground truth community indicate that the proposed link prediction method outperforms other baseline methods and the enhancement of community follows the expected evolution process.
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
Influence Maximization (IM) is a classical combinatorial optimization problem, which can be widely used in mobile networks, social computing, and recommendation systems. It aims at selecting a small number of users such that maximizing the influence spread across the online social network. Because of its potential commercial and academic value, there are a lot of researchers focusing on studying the IM problem from different perspectives. The main challenge comes from the NP-hardness of the IM problem and \#P-hardness of estimating the influence spread, thus traditional algorithms for overcoming them can be categorized into two classes: heuristic algorithms and approximation algorithms. However, there is no theoretical guarantee for heuristic algorithms, and the theoretical design is close to the limit. Therefore, it is almost impossible to further optimize and improve their performance. With the rapid development of artificial intelligence, the technology based on Machine Learning (ML) has achieved remarkable achievements in many fields. In view of this, in recent years, a number of new methods have emerged to solve combinatorial optimization problems by using ML-based techniques. These methods have the advantages of fast solving speed and strong generalization ability to unknown graphs, which provide a brand-new direction for solving combinatorial optimization problems. Therefore, we abandon the traditional algorithms based on iterative search and review the recent development of ML-based methods, especially Deep Reinforcement Learning, to solve the IM problem and other variants in social networks. We focus on summarizing the relevant background knowledge, basic principles, common methods, and applied research. Finally, the challenges that need to be solved urgently in future IM research are pointed out.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
结构节点嵌入,向量捕获图中每个节点的局部连接信息,在数据挖掘和机器学习中具有许多应用程序,例如网络对齐和节点分类,群集和异常检测。为了分析有向图的分析,例如交易图,通信网络和社交网络,在结构节点嵌入中捕获定向信息的能力是非常需要的,嵌入式提取方法的可伸缩性也是如此。然而,大多数现有方法仅为无向图设计。因此,我们提出了DigraphWave - 一种可扩展的算法,用于在有向图上提取结构节点嵌入。 DigraphWave嵌入由压缩扩散模式特征组成,它们的增强是两倍,以增加其区分能力。通过证明扩散初始化节点的局部附近的热量上的下限,建立了理论上是合理的扩散时间尺度值,而DigraphWave仅留下两个易于解释的超级标准:嵌入式维度和邻域分辨率指定器。在我们的实验中,两种嵌入的增强功能(称为换位和聚集)被证明会导致对自动形态身份分类的宏F1得分显着提高,而DigraphWave优于所有其他结构性嵌入碱基。此外,digraphwave要么胜过或匹配真实图形数据集上所有基准的性能,在网络对齐任务中显示出特别大的性能增益,同时也可以扩展到具有数百万节点和边缘的图形,比以前的速度快30倍基于扩散模式的方法,并具有一部分内存消耗。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译