能够捕获与特征向量的时间序列的特征是具有多种应用的非常重要的任务,例如分类,聚类或预测。通常,该特征是从线性和非线性时间序列测量获得的特征,其可能存在若干数据相关的缺点。在这项工作中,我们将NetF介绍作为替代特征,包括时间序列的不同复杂网络映射的几种代表性拓扑测量。我们的方法不需要数据预处理,并且无论任何数据特征如何,都适用。探索我们的新颖特征向量,我们能够将映射的网络功能连接到多样化的时间序列模型中固有的属性,显示NetF可以有用的时间数据。此外,我们还展示了我们在聚类合成和基准时间序列组中的方法的适用性,比较其具有更多传统功能的性能,展示了Netf如何实现高精度集群。我们的结果非常有前途,具有来自不同映射方法的网络特征,捕获时间序列的不同属性,将不同且丰富的功能设置为文献。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
网络科学将自己确立为建模时间序列和复杂系统的重要工具。这个建模过程包括将集合或单个时间序列转换为网络。节点可以代表完整的时间序列,段或单个值,而链接定义了所代表部分之间的关​​联或相似性。 R是数据科学,统计和机器学习中使用的主要编程语言之一,并提供许多软件包。但是,没有单个软件包提供将时间序列转换为网络的必要方法。本文介绍了TS2NET,这是一个用于将一个或多个时间序列建模为网络的R软件包。该软件包提供了时间序列距离函数,可以在超级计算机和超级计算机中轻松计算,以处理较大的数据集和方法,以将距离矩阵转换为网络。 TS2NET还提供了将单个时间序列转换为网络的方法,例如复发网络,可见性图和过渡网络。与其他软件包一起,TS2NET允许使用网络科学和图形挖掘工具从时间序列中提取信息。
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
马尔可夫链是一类概率模型,在定量科学中已广泛应用。这部分是由于它们的多功能性,但是可以通过分析探测的便利性使其更加复杂。本教程为马尔可夫连锁店提供了深入的介绍,并探索了它们与图形和随机步行的联系。我们利用从线性代数和图形论的工具来描述不同类型的马尔可夫链的过渡矩阵,特别着眼于探索与这些矩阵相对应的特征值和特征向量的属性。提出的结果与机器学习和数据挖掘中的许多方法有关,我们在各个阶段描述了这些方法。本文并没有本身就成为一项新颖的学术研究,而是提出了一些已知结果的集合以及一些新概念。此外,该教程的重点是向读者提供直觉,而不是正式的理解,并且仅假定对线性代数和概率理论的概念的基本曝光。因此,来自各种学科的学生和研究人员可以访问它。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
图形嵌入是图形节点到一组向量的转换。良好的嵌入应捕获图形拓扑,节点与节点的关系以及有关图,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络中有意义的,可理解的,可理解的压缩表示形式,可用于其他机器学习工具,例如节点分类,社区检测或链接预测。主要的挑战是,需要确保嵌入很好地描述图形的属性。结果,选择最佳嵌入是一项具有挑战性的任务,并且通常需要领域专家。在本文中,我们在现实世界网络和人为生成的网络上进行了一系列广泛的实验,并使用选定的图嵌入算法进行了一系列的实验。根据这些实验,我们制定了两个一般结论。首先,如果需要在运行实验之前选择一种嵌入算法,则Node2Vec是最佳选择,因为它在我们的测试中表现最好。话虽如此,在所有测试中都没有单一的赢家,此外,大多数嵌入算法都具有应该调整并随机分配的超参数。因此,如果可能的话,我们对从业者的主要建议是生成几个问题的嵌入,然后使用一个通用框架,该框架为无监督的图形嵌入比较提供了工具。该框架(最近在文献中引入并在GitHub存储库中很容易获得)将分歧分数分配给嵌入,以帮助区分好的分数和不良的分数。
translated by 谷歌翻译
来自时间序列数据的因果推断的主要挑战是计算可行性和准确性之间的权衡。在具有缓慢均值逆转的自回旋模型中,由滞后协方差的过程基序激励,我们建议通过成对边缘测量(PEM)推断因果关系网络,即可以轻松地从滞后相关矩阵中计算出来。通过过程基序对协方差和滞后方差的贡献,我们制定了两个pem,这些PEM适合混杂因素和反向因果关系。为了证明PEM的性能,我们考虑了线性随机过程的模拟网络干扰,并表明我们的PEM可以准确有效地推断网络。具体而言,对于略有自相关的时间序列数据,我们的方法获得的准确性高于或类似于Granger因果关系,转移熵和收敛的交叉映射 - 但使用这些方法中的任何一种都比计算时间短得多。我们的快速准确的PEM是用于网络推断的易于实现的方法,具有明确的理论基础。它们为当前范式提供了有希望的替代方案,用于从时间序列数据中推断线性模型,包括Granger因果关系,矢量自动进展和稀疏逆协方差估计。
translated by 谷歌翻译
大多数人类活动都需要在正式或非正式团队内部和跨部队进行合作。我们对团队所花费的合作努力与他们的表现有何关系的理解仍然是一个辩论问题。团队合作导致了一个高度相互联系的生态系统,这些生态系统可能是重叠的组件,其中与团队成员和其他团队进行互动执行任务。为了解决这个问题,我们提出了一个图形神经网络模型,旨在预测团队的性能,同时确定确定这种结果的驱动程序。特别是,该模型基于三个架构渠道:拓扑,中心性和上下文,它们捕获了不同因素可能塑造了团队的成功。我们赋予该模型具有两种注意机制,以提高模型性能并允许解释性。第一种机制允许查明团队内部的关键成员。第二种机制使我们能够量化三个驱动程序在确定结果绩效方面的贡献。我们在广泛的域上测试模型性能,其表现优于所考虑的大多数经典和神经基准。此外,我们包括专门设计的合成数据集,以验证该模型如何删除我们的模型胜过基线的预期属性。
translated by 谷歌翻译
我们提出了一种新颖的随机网络模型,称为分形高斯网络(FGN),体现了明确定义和分析的分形结构。在不同的应用中经过经验观察了这种分形结构。 FGN在流行的纯粹随机几何图(A.K.A.Poirson Boolean网络)之间连续插入,以及具有越来越分形行为的随机图。事实上,它们形成了一个参数族的稀疏随机几何图,这是由条形参数化的,该参数化为分形结构的强度。 FGN由高斯乘法混沌(GMC)的潜在空间几何形状,其自身右边的分数正常的规范模型。我们在FGN中渐近地表征了FGN中的预期边缘,三角形,群体和轮辐型图案,揭示了与网络的大小参数的缩放中的不同模式。然后,我们除了作为随机图模型的基本属性之外,还基于观察到的网络数据检测变形的存在和基于观察到的网络数据的参数估计问题的自然问题。我们还通过在FGN的设置中揭开自然随机块模型来探讨社区结构的性别性。最后,我们将我们的结果与FGN的现象学分析证实了可用的科学文献中的空中性的现场,包括用于现实世界大规模网络数据的应用。
translated by 谷歌翻译
通过图形结构表示数据标识在多个数据分析应用中提取信息的最有效方法之一。当调查多模式数据集时,这尤其如此,因为通过各种传感策略收集的记录被考虑并探索。然而,经典曲线图信号处理基于根据热扩散机构配置的信息传播的模型。该系统提供了对多模式数据分析不适用于多模式数据分析的数据属性的若干约束和假设,特别是当考虑从异构源收集的大规模数据集,因此结果的准确性和稳健性可能会受到严重危害。在本文中,我们介绍了一种基于流体扩散的图表定义模型。该方法提高了基于图形的数据分析的能力,以考虑运行方案中现代数据分析的几个问题,从而为对考试记录的记录底层的现象提供了一种精确,多才多艺的,有效地理解平台,以及完全利用记录的多样性提供的潜力,以获得数据的彻底表征及其意义。在这项工作中,我们专注于使用这种流体扩散模型来驱动社区检测方案,即根据节点中的节点中的相似性将多模式数据集分为多个组中。在不同应用场景中测试真正的多模式数据集实现的实验结果表明,我们的方法能够强烈优先于多媒体数据分析中的社区检测的最先进方案。
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
复杂的网络是代表现实生活系统的图形,这些系统表现出独特的特征,这些特征在纯粹的常规或完全随机的图中未发现。由于基础过程的复杂性,对此类系统的研究至关重要,但具有挑战性。然而,由于大量网络数据的可用性,近几十年来,这项任务变得更加容易。复杂网络中的链接预测旨在估计网络中缺少两个节点之间的链接的可能性。由于数据收集的不完美或仅仅是因为它们尚未出现,因此可能会缺少链接。发现网络数据中实体之间的新关系吸引了研究人员在社会学,计算机科学,物理学和生物学等各个领域的关注。大多数现有研究的重点是无向复杂网络中的链接预测。但是,并非所有现实生活中的系统都可以忠实地表示为无向网络。当使用链接预测算法时,通常会做出这种简化的假设,但不可避免地会导致有关节点之间关系和预测性能中降解的信息的丢失。本文介绍了针对有向网络的明确设计的链接预测方法。它基于相似性范式,该范式最近已证明在无向网络中成功。提出的算法通过在相似性和受欢迎程度上将其建模为不对称性来处理节点关系中的不对称性。鉴于观察到的网络拓扑结构,该算法将隐藏的相似性近似为最短路径距离,并使用边缘权重捕获并取消链接的不对称性和节点的受欢迎程度。在现实生活中评估了所提出的方法,实验结果证明了其在预测各种网络数据类型和大小的丢失链接方面的有效性。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
我们介绍了de bruijn图神经网络(DBGNNS),这是一种新颖的时间感知图神经网络体系结构,用于动态图上的时间分辨数据。我们的方法解释了动态图的因果拓扑中展开的时间流行模式,该模式由因果步行确定,即节点可以随着时间的时间影响彼此的链接序列。我们的架构建立在多层de bruijn图的多层上,这是一个迭代的线图结构,其中d de bruijn图中的节点k表示长度k-1的步行,而边缘则表示长度k的步行。我们开发了一个图形神经网络体系结构,该架构利用de bruijn图来实现遵循非马克维亚动力学的消息传递方案,该方案使我们能够在动态图的因果拓扑中学习模式。解决de bruijn图形不同订单k的问题可用于建模相同的数据集,我们进一步应用统计模型选择以确定用于消息传递的最佳图形拓扑。合成和经验数据集的评估表明,DBGNN可以利用动态图中的时间模式,从而大大改善了监督节点分类任务中的性能。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
社交网络(SN)是一个由代表它们之间相互作用的群体组成的社会结构。 SNS最近被广泛使用,随后已成为产品推广和信息扩散的合适平台。 SN中的人们直接影响彼此的利益和行为。 SNS中最重要的问题之一是,如果选择将它们作为网络扩散场景的种子节点选择,那么他们可以以级联的方式对网络中的其他节点产生最大影响。有影响力的扩散器是人们,如果他们被选为网络中出版问题中的种子,那么该网络将拥有最多了解该扩散实体的人。这是称为影响最大化(IM)问题的文献中的一个众所周知的问题。尽管已证明这是一个NP完整的问题,并且在多项式时间内没有解决方案,但有人认为它具有子模块化功能的属性,因此可以使用贪婪的算法来解决。提出改善这种复杂性的大多数方法都是基于以下假设:整个图都是可见的。但是,此假设不适合许多真实世界图。进行了这项研究,以扩展使用链接预测技术与伪可见性图的电流最大化方法。为此,将一种称为指数随机图模型(ERGM)的图生成方法用于链接预测。使用斯坦福大学SNAP数据集的数据对所提出的方法进行了测试。根据实验测试,所提出的方法在现实世界图上有效。
translated by 谷歌翻译
考虑基于AI和ML的决策对这些新兴技术的安全和可接受的使用的决策的社会和道德后果至关重要。公平,特别是保证ML决定不会导致对个人或少数群体的歧视。使用因果关系,可以更好地实现和衡量可靠的公平/歧视,从而更好地实现了敏感属性(例如性别,种族,宗教等)之间的因果关系,仅仅是仅仅是关联,例如性别,种族,宗教等(例如,雇用工作,贷款授予等) )。然而,对因果关系解决公平性的最大障碍是因果模型的不可用(通常表示为因果图)。文献中现有的因果关系方法并不能解决此问题,并假设可获得因果模型。在本文中,我们没有做出这样的假设,并且我们回顾了从可观察数据中发现因果关系的主要算法。这项研究的重点是因果发现及其对公平性的影响。特别是,我们展示了不同的因果发现方法如何导致不同的因果模型,最重要的是,即使因果模型之间的轻微差异如何对公平/歧视结论产生重大影响。通过使用合成和标准公平基准数据集的经验分析来巩固这些结果。这项研究的主要目标是强调因果关系使用因果关系适当解决公平性的因果发现步骤的重要性。
translated by 谷歌翻译
良好的研究努力致力于利用股票预测中的深度神经网络。虽然远程依赖性和混沌属性仍然是在预测未来价格趋势之前降低最先进的深度学习模型的表现。在这项研究中,我们提出了一个新的框架来解决这两个问题。具体地,在将时间序列转换为复杂网络方面,我们将市场价格系列转换为图形。然后,从映射的图表中提取参考时间点和节点权重之间的关联的结构信息以解决关于远程依赖性和混沌属性的问题。我们采取图形嵌入式以表示时间点之间的关联作为预测模型输入。节点重量被用作先验知识,以增强时间关注的学习。我们拟议的框架的有效性通过现实世界股票数据验证,我们的方法在几个最先进的基准中获得了最佳性能。此外,在进行的交易模拟中,我们的框架进一步获得了最高的累积利润。我们的结果补充了复杂网络方法在金融领域的现有应用,并为金融市场中决策支持的投资应用提供了富有识别的影响。
translated by 谷歌翻译