来自时间序列数据的因果推断的主要挑战是计算可行性和准确性之间的权衡。在具有缓慢均值逆转的自回旋模型中,由滞后协方差的过程基序激励,我们建议通过成对边缘测量(PEM)推断因果关系网络,即可以轻松地从滞后相关矩阵中计算出来。通过过程基序对协方差和滞后方差的贡献,我们制定了两个pem,这些PEM适合混杂因素和反向因果关系。为了证明PEM的性能,我们考虑了线性随机过程的模拟网络干扰,并表明我们的PEM可以准确有效地推断网络。具体而言,对于略有自相关的时间序列数据,我们的方法获得的准确性高于或类似于Granger因果关系,转移熵和收敛的交叉映射 - 但使用这些方法中的任何一种都比计算时间短得多。我们的快速准确的PEM是用于网络推断的易于实现的方法,具有明确的理论基础。它们为当前范式提供了有希望的替代方案,用于从时间序列数据中推断线性模型,包括Granger因果关系,矢量自动进展和稀疏逆协方差估计。
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
Infomap是一种流行的方法,用于检测网络中节点的密度连接的“社区”。要检测此类社区,它建立在标准类型的马尔可夫链和信息理论中的想法。通过在网络上传播的疾病动态的动机,其节点可能具有异质疾病脱模速率,我们将Infomap扩展到吸收随机散步。为此,我们使用吸收缩放的图形,其中边缘权重根据吸收率缩放,以及马尔可夫时间扫描。我们的Infomap的一个扩展之一会聚到Infomap的标准版本,其中吸收率接近$ 0 $。我们发现,使用我们的Infomap扩展检测的社区结构可以从社区结构中显着不同,即一个使用不考虑节点吸收率的方法检测。此外,我们表明,局部动态引起的社区结构可以对环形格网络上的敏感感染恢复(SIR)动力学产生重要意义。例如,我们发现在适度数量的节点具有大的节点吸收率时,爆发持续时间最大化的情况。我们还使用我们的Infomap扩展来研究性接触网络中的社区结构。我们认为社区结构,与网络中无家可归者的不同吸收率相对应,以及对网络上的梅毒动力学的相关影响。我们观察到,当无家可归者人口中的治疗率低于其他人群时,当治疗率较低时,最终爆发规模可能会比其他人口相同。
translated by 谷歌翻译
从观察到的数据中推断因果结构在揭示系统的基本动力学方面起着关键作用。本文揭示了一种新的方法,称为多阶段 - 造成结构学习(MS-Castle),以估计在不同时间尺度上发生的线性因果关系的结构。与现有方法不同,MS-Castle明确考虑了多个时间序列之间的即时和滞后相互关系,以不同的尺度表示,呈现固定小波变换和非凸线优化。 MS-Castle将其作为特殊情况融合了一个名为SS-Castle的单个尺度版本,该版本在计算效率,性能和鲁棒性方面相对于合成数据而言是有利的。我们使用MS-Castle研究了Covid-19-19大流行期间15个全球股票市场风险的多阶段因果结构,这说明了MS-Castle如何通过其多尺度分析(优于SS-Castle)提取有意义的信息。我们发现,最持久和最强烈的互动发生在中期决议。此外,我们确定了在经过考虑的时期内推动风险的股票市场:巴西,加拿大和意大利。拟议的方法可以由金融投资者利用,这些投资者取决于其投资视野,可以从因果关系的角度管理股票投资组合中的风险。
translated by 谷歌翻译
我们考虑了从节点观测值估算多个网络拓扑的问题,其中假定这些网络是从相同(未知)随机图模型中绘制的。我们采用图形作为我们的随机图模型,这是一个非参数模型,可以从中绘制出潜在不同大小的图形。图形子的多功能性使我们能够解决关节推理问题,即使对于要恢复的图形包含不同数量的节点并且缺乏整个图形的精确比对的情况。我们的解决方案是基于将最大似然惩罚与Graphon估计方案结合在一起,可用于增强现有网络推理方法。通过引入嘈杂图抽样信息的强大方法,进一步增强了所提出的联合网络和图形估计。我们通过将其性能与合成和实际数据集中的竞争方法进行比较来验证我们提出的方法。
translated by 谷歌翻译
通常,使用网络编码在物理,生物,社会和信息科学中应用程序中复杂系统中实体之间的交互体系结构。为了研究复杂系统的大规模行为,研究网络中的中尺度结构是影响这种行为的构件。我们提出了一种新方法来描述网络中的低率中尺度结构,并使用多种合成网络模型和经验友谊,协作和蛋白质 - 蛋白质相互作用(PPI)网络说明了我们的方法。我们发现,这些网络拥有相对较少的“潜在主题”,可以成功地近似固定的中尺度上网络的大多数子图。我们使用一种称为“网络词典学习”(NDL)的算法,该算法结合了网络采样方法和非负矩阵分解,以学习给定网络的潜在主题。使用一组潜在主题对网络进行编码的能力具有多种应用于网络分析任务的应用程序,例如比较,降解和边缘推理。此外,使用我们的新网络去核和重建(NDR)算法,我们演示了如何通过仅使用直接从损坏的网络中学习的潜在主题来贬低损坏的网络。
translated by 谷歌翻译
我们研究了图结构识别的问题,即在时间序列之间恢复依赖图的图。我们将这些时间序列数据建模为线性随机网络动力学系统状态的组成部分。我们假设部分可观察性,其中仅观察到一个包含网络的节点子集的状态演变。我们设计了一个从观察到的时间序列计算的新功能向量,并证明这些特征是线性可分离的,即存在一个超平面,该超平面将与连接的节点成对相关的特征群体与与断开对相关的节点相关联。这使得可以训练各种分类器进行因果推理的功能。特别是,我们使用这些功能来训练卷积神经网络(CNN)。由此产生的因果推理机制优于最先进的W.R.T.样品复杂性。受过训练的CNN概括了结构上不同的网络(密集或稀疏)和噪声级别的轮廓。值得注意的是,他们在通过合成网络(随机图的实现)训练时也很好地概括了现实世界网络。最后,提出的方法始终以成对的方式重建图,也就是说,通过确定每对相应的时间序列中的每对节点中是否存在边缘或箭头或不存在箭头。这符合大规模系统的框架,在该系统中,网络中所有节点的观察或处理都令人难以置信。
translated by 谷歌翻译
能够捕获与特征向量的时间序列的特征是具有多种应用的非常重要的任务,例如分类,聚类或预测。通常,该特征是从线性和非线性时间序列测量获得的特征,其可能存在若干数据相关的缺点。在这项工作中,我们将NetF介绍作为替代特征,包括时间序列的不同复杂网络映射的几种代表性拓扑测量。我们的方法不需要数据预处理,并且无论任何数据特征如何,都适用。探索我们的新颖特征向量,我们能够将映射的网络功能连接到多样化的时间序列模型中固有的属性,显示NetF可以有用的时间数据。此外,我们还展示了我们在聚类合成和基准时间序列组中的方法的适用性,比较其具有更多传统功能的性能,展示了Netf如何实现高精度集群。我们的结果非常有前途,具有来自不同映射方法的网络特征,捕获时间序列的不同属性,将不同且丰富的功能设置为文献。
translated by 谷歌翻译
A common approach to modeling networks assigns each node to a position on a low-dimensional manifold where distance is inversely proportional to connection likelihood. More positive manifold curvature encourages more and tighter communities; negative curvature induces repulsion. We consistently estimate manifold type, dimension, and curvature from simply connected, complete Riemannian manifolds of constant curvature. We represent the graph as a noisy distance matrix based on the ties between cliques, then develop hypothesis tests to determine whether the observed distances could plausibly be embedded isometrically in each of the candidate geometries. We apply our approach to data-sets from economics and neuroscience.
translated by 谷歌翻译
瞬态现象在多个尺度上协调大脑活性方面起着关键作用,但是,它们的潜在机制在很大程度上仍然未知。因此,神经数据科学的一个关键挑战是表征这些事件期间的网络交互。使用结构性因果模型的形式主义及其图形表示,我们研究了基于信息理论的理论和经验特性,基于信息理论的因果力量测量在反复自发的瞬态事件的背景下。在这种环境中显示了转移熵和动态因果强度的局限性之后,我们引入了一种新颖的度量,相对动态的因果强度,并为其益处提供了理论和经验支持。这些方法应用于模拟和实验记录的神经时间序列,并与我们当前对潜在脑电路的理解相吻合。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
我们合并计算力学的因果状态(预测等同历史)的定义与再现 - 内核希尔伯特空间(RKHS)表示推断。结果是一种广泛适用的方法,可直接从系统行为的观察中迁移因果结构,无论它们是否超过离散或连续事件或时间。结构表示 - 有限或无限状态内核$ \ epsilon $ -Machine - 由减压变换提取,其提供了有效的因果状态及其拓扑。以这种方式,系统动态由用于在因果状态上的随机(普通或部分)微分方程表示。我们介绍了一种算法来估计相关的演化运营商。平行于Fokker-Plank方程,它有效地发展了因果状态分布,并通过RKHS功能映射在原始数据空间中进行预测。我们展示了这些技术,以及他们的预测能力,在离散时间的离散时间离散 - 有限的无限值Markov订单流程,其中有限状态隐藏马尔可夫模型与(i)有限或(ii)不可数 - 无限因果态和(iii)连续时间,由热驱动的混沌流产生的连续值处理。该方法在存在不同的外部和测量噪声水平和非常高的维数据存在下鲁棒地估计因果结构。
translated by 谷歌翻译
本文介绍了一种新型的因果结构,即多尺度非平稳的定向无环图(MN-DAG),该图将DAG概括为时频域。我们的贡献是双重的。首先,通过利用光谱和因果关系的结果,我们揭露了一种新型的概率生成模型,该模型允许根据用户指定的先验对因果图的时间依赖性和多尺度属性进行采样。其次,我们通过随机变异推理(SVI)(称为多阶层非稳态的因果结构学习者(MN-Castle))设计了一种用于估计Mn-DAGS的贝叶斯方法。除了直接观察外,MN-Castle还通过不同时间分辨率的时间序列的总功率谱分解来利用信息。在我们的实验中,我们首先使用所提出的模型根据潜在的MN-DAG生成合成数据,这表明数据生成的数据再现了不同域中时间序列的众所周知的特征。然后,我们将学习方法的MN媒体与基线模型进行比较,该模型在使用不同的多尺度和非平稳设置生成的合成数据上进行了比较,从而证实了MN-Castle的良好性能。最后,我们展示了一些从MN-Castle的应用中得出的一些见解,以研究COVID-19期间7个全球股票市场的因果结构。
translated by 谷歌翻译
大脑中的功能连接通常由加权网络表示,其中节点表示大脑中的位置,并且边缘表示这些位置之间的连接强度。分析这些数据的一个挑战是各个边缘水平的推断并不是特别生物学上的意义;解释在所谓的功能区域或节点组和它们之间的连接级别更有用;这通常被称为神经影像学文献中的“图表感知”推断。然而,汇集功能区域导致信息损失和更低的准确性。另一个挑战是主题内的边缘权重之间的相关性,这使得基于独立假设不可靠的推断。我们通过线性混合效果模型来解决这两种挑战,该挑战涉及功能区域和边缘依赖性,同时仍然建模各个边缘权重,以避免丢失信息。该模型允许将两种群体(例如患者和健康对照)进行比较,无论是在功能区水平和各个边缘水平,都导致生物学上有意义的解释。我们将该模型符合精神分裂症和健康控制的休息状态FMRI数据,获得与精神分裂症文献一致的可解释结果。
translated by 谷歌翻译
Research in Graph Signal Processing (GSP) aims to develop tools for processing data defined on irregular graph domains. In this paper we first provide an overview of core ideas in GSP and their connection to conventional digital signal processing, along with a brief historical perspective to highlight how concepts recently developed in GSP build on top of prior research in other areas. We then summarize recent advances in developing basic GSP tools, including methods for sampling, filtering or graph learning. Next, we review progress in several application areas using GSP, including processing and analysis of sensor network data, biological data, and applications to image processing and machine learning.
translated by 谷歌翻译
了解正规化的作用是统计推理中的核心问题。经验上讲,通过避免对训练数据的过度限制,良好的正则化方案通常会显着提高推断模型的质量。我们在这里考虑的是L 2和L 1的特定情况,最大后验序(MAP)推断的最大后面的成对图形模型。基于对高斯和Potts模型的高斯多变量分布和数值实验的分析计算,我们研究了训练,测试和“生成数据”(带推断模型)的可能性作为正则化强度的函数。我们特别展示了最大值,测试可能性和“生成”的可能性,这量化了所生成的样本的质量,具有显着的闭合值。发现正则化强度的最佳值大致等于在底层交互网络上传入的平方耦合的逆和亚。我们的结果似乎与所考虑的正则化方案产生的数据的真实潜在相互作用的结构无关,并且当考虑地图估计器周围的后部分布的小波动时有效。讨论了与来自同源序列中学到的蛋白质模型的与实证工作的连接。
translated by 谷歌翻译
在许多学科中,动态系统的数据信息预测模型的开发引起了广泛的兴趣。我们提出了一个统一的框架,用于混合机械和机器学习方法,以从嘈杂和部分观察到的数据中识别动态系统。我们将纯数据驱动的学习与混合模型进行比较,这些学习结合了不完善的域知识。我们的公式与所选的机器学习模型不可知,在连续和离散的时间设置中都呈现,并且与表现出很大的内存和错误的模型误差兼容。首先,我们从学习理论的角度研究无内存线性(W.R.T.参数依赖性)模型误差,从而定义了过多的风险和概括误差。对于沿阵行的连续时间系统,我们证明,多余的风险和泛化误差都通过与T的正方形介于T的术语(指定训练数据的时间间隔)的术语界定。其次,我们研究了通过记忆建模而受益的方案,证明了两类连续时间复发性神经网络(RNN)的通用近似定理:两者都可以学习与内存有关的模型误差。此外,我们将一类RNN连接到储层计算,从而将学习依赖性错误的学习与使用随机特征在Banach空间之间进行监督学习的最新工作联系起来。给出了数值结果(Lorenz '63,Lorenz '96多尺度系统),以比较纯粹的数据驱动和混合方法,发现混合方法较少,渴望数据较少,并且更有效。最后,我们从数值上证明了如何利用数据同化来从嘈杂,部分观察到的数据中学习隐藏的动态,并说明了通过这种方法和培训此类模型来表示记忆的挑战。
translated by 谷歌翻译
模拟DAG模型可能表现出属性,也许无意中,使其结构识别和意外地影响结构学习算法。在这里,我们表明边缘方差往往沿着仿制性添加添加剂噪声模型的因果顺序增加。我们将Varsortable介绍为衡量衡量边际差异和因果顺序的秩序之间的协议。对于通常采样的图形和模型参数,我们表明,一些连续结构学习算法的显着性能可以通过高的Varsortable解释,并通过简单的基线方法匹配。然而,这种性能可能不会转移到真实世界的数据,其中VARS使性可能是中等或取决于测量尺度的选择。在标准化数据上,相同的算法无法识别地面真理DAG或其Markov等价类。虽然标准化在边缘方差中删除了模式,但我们表明,数据产生过程,其产生高VILS使性也留下了即使在标准化之后也可以利用不同的协方差模式。我们的调查结果挑战了独立绘制参数的通用基准的重要性。代码可在https://github.com/scriddie/varsortable获得。
translated by 谷歌翻译
This chapter sheds light on the synaptic organization of the brain from the perspective of computational neuroscience. It provides an introductory overview on how to account for empirical data in mathematical models, implement them in software, and perform simulations reflecting experiments. This path is demonstrated with respect to four key aspects of synaptic signaling: the connectivity of brain networks, synaptic transmission, synaptic plasticity, and the heterogeneity across synapses. Each step and aspect of the modeling and simulation workflow comes with its own challenges and pitfalls, which are highlighted and addressed in detail.
translated by 谷歌翻译