我们提出了贝叶斯溢出图(BSG),这是一种学习时间关系,识别关键节点的新方法,并量化了动态系统中多种植体溢出效应的不确定性。BSG通过预测误差差异分解(FEVD)和通过贝叶斯时间序列模型的全面不确定性定量来利用可解释的框架,以根据系统性风险和预测可变性来使时间关系与时间关系进行环境化。预测地平线超参数$ h $允许学习短期和均衡状态网络行为。在各种图和误差规格下识别源和下沉节点的实验显示,针对最先进的贝叶斯网络和深度学习基线的实验表现出显着的性能增长。对现实世界系统的应用还展示了BSG作为探索性分析工具,用于发现间接溢出和量化系统性风险。
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
在对任何预测或政策分析的模拟多变量时间序列中,已经有利于数据中的损失关系。然而,回归分析通常用于相关关系,很少少数研究专注于因果区发现的方差分析。我们首先使用虚构的传染媒介自回归模型建立抵抗效果关系的均衡。在均衡中,从噪声识别长期关系,并且杂散的关系忽略于零。溶液称为因果分布,测量导致所有系列或特定受影响的相对强度。如果一组外源性数据影响其他数据但不反之亦然,那么,在理论上,其他变量的因果分布必须为零。零因果关系的假设试验是决定变量的规则是内源性的。我们的新方法在识别模拟研究中的数据之间的真实损失关系方面具有高精度。我们还应用估算因果因素对气候变化贡献的方法。
translated by 谷歌翻译
本文介绍了一种新型的因果结构,即多尺度非平稳的定向无环图(MN-DAG),该图将DAG概括为时频域。我们的贡献是双重的。首先,通过利用光谱和因果关系的结果,我们揭露了一种新型的概率生成模型,该模型允许根据用户指定的先验对因果图的时间依赖性和多尺度属性进行采样。其次,我们通过随机变异推理(SVI)(称为多阶层非稳态的因果结构学习者(MN-Castle))设计了一种用于估计Mn-DAGS的贝叶斯方法。除了直接观察外,MN-Castle还通过不同时间分辨率的时间序列的总功率谱分解来利用信息。在我们的实验中,我们首先使用所提出的模型根据潜在的MN-DAG生成合成数据,这表明数据生成的数据再现了不同域中时间序列的众所周知的特征。然后,我们将学习方法的MN媒体与基线模型进行比较,该模型在使用不同的多尺度和非平稳设置生成的合成数据上进行了比较,从而证实了MN-Castle的良好性能。最后,我们展示了一些从MN-Castle的应用中得出的一些见解,以研究COVID-19期间7个全球股票市场的因果结构。
translated by 谷歌翻译
结构方程模型(SEM)是一种有效的框架,其原因是通过定向非循环图(DAG)表示的因果关系。最近的进步使得能够从观察数据中实现了DAG的最大似然点估计。然而,在实际场景中,可以不能准确地捕获在推断下面的底层图中的不确定性,其中真正的DAG是不可识别的并且/或观察到的数据集是有限的。我们提出了贝叶斯因果发现网(BCD网),一个变分推理框架,用于估算表征线性高斯SEM的DAG的分布。由于图形的离散和组合性质,开发一个完整的贝叶斯后面是挑战。我们通过表达变分别家庭分析可扩展VI的可扩展VI的关键设计选择,例如1)表达性变分别家庭,2)连续弛豫,使低方差随机优化和3)在潜在变量上具有合适的前置。我们提供了一系列关于实际和合成数据的实验,显示BCD网在低数据制度中的标准因果发现度量上的最大似然方法,例如结构汉明距离。
translated by 谷歌翻译
从观察到的数据中推断因果结构在揭示系统的基本动力学方面起着关键作用。本文揭示了一种新的方法,称为多阶段 - 造成结构学习(MS-Castle),以估计在不同时间尺度上发生的线性因果关系的结构。与现有方法不同,MS-Castle明确考虑了多个时间序列之间的即时和滞后相互关系,以不同的尺度表示,呈现固定小波变换和非凸线优化。 MS-Castle将其作为特殊情况融合了一个名为SS-Castle的单个尺度版本,该版本在计算效率,性能和鲁棒性方面相对于合成数据而言是有利的。我们使用MS-Castle研究了Covid-19-19大流行期间15个全球股票市场风险的多阶段因果结构,这说明了MS-Castle如何通过其多尺度分析(优于SS-Castle)提取有意义的信息。我们发现,最持久和最强烈的互动发生在中期决议。此外,我们确定了在经过考虑的时期内推动风险的股票市场:巴西,加拿大和意大利。拟议的方法可以由金融投资者利用,这些投资者取决于其投资视野,可以从因果关系的角度管理股票投资组合中的风险。
translated by 谷歌翻译
分位数特征选择与相关的多变量时间序列数据一直是一种方法论挑战,是一个公开的问题。在本文中,我们提出了一般的概率方法,用于在分位数特征选择时间序列(QFSTS)模型的名称下进行关节定量时间序列分析中的特征选择。 QFSTS模型是一般的结构时间序列模型,其中每个组件对具有直接解释的时间序列建模产生了添加剂贡献。其灵活性是化合物,用户可以在用户可以为每个次系列添加/扣除组件,并且每个时间序列都可以具有其自身特定的不同大小的价值组件。特征选择是在分位数回归组件中进行的,其中每个时间序列都有自己的同时外部预测器池,允许“垂圈”。通过多变量非对称LAPLACE分布,“峰值板”先前设置,Metropolis-Hastings算法和贝叶斯模型平均技术,开发了创造性的概率方法在扩展到分量时间序列研究区域的特征选择。始终如一地在贝叶斯范式中。与大多数机器学习算法不同,QFSTS模型需要小型数据集训练,快速收敛,并且可在普通的个人计算机上进行可执行。对模拟数据和经验数据的广泛检查确认QFSTS模型具有卓越的性能特征选择,参数估计和预测。
translated by 谷歌翻译
模拟DAG模型可能表现出属性,也许无意中,使其结构识别和意外地影响结构学习算法。在这里,我们表明边缘方差往往沿着仿制性添加添加剂噪声模型的因果顺序增加。我们将Varsortable介绍为衡量衡量边际差异和因果顺序的秩序之间的协议。对于通常采样的图形和模型参数,我们表明,一些连续结构学习算法的显着性能可以通过高的Varsortable解释,并通过简单的基线方法匹配。然而,这种性能可能不会转移到真实世界的数据,其中VARS使性可能是中等或取决于测量尺度的选择。在标准化数据上,相同的算法无法识别地面真理DAG或其Markov等价类。虽然标准化在边缘方差中删除了模式,但我们表明,数据产生过程,其产生高VILS使性也留下了即使在标准化之后也可以利用不同的协方差模式。我们的调查结果挑战了独立绘制参数的通用基准的重要性。代码可在https://github.com/scriddie/varsortable获得。
translated by 谷歌翻译
尽管预测方法的相关性越来越高,但这些算法的因果影响仍然很大程度上是未开发的。这与考虑到,即使在简化因果充足之类的假设下,模型的统计风险也可能与其\ Textit {因果风险}有显着差异。在这里,我们研究了*因果概括* - 从观察到介入分布的概括 - 预测。我们的目标是找到问题的答案:自回归(var)模型在预测统计协会方面的疗效如何与其在干预措施下预测的能力相比?为此,我们介绍了*因果学习理论*预测的框架。使用此框架,我们获得了统计和因果风险之间差异的表征,这有助于识别它们之间的分歧源。在因果充足之下,因果概括的因果概括金额与额外的结构(限制介入介入分配)。该结构允许我们获得统一的收敛界面对VAR模型类的因果概括性。据我们所知,这是第一个为时序设置中因果概念提供理论保障的工作。
translated by 谷歌翻译
Dengue fever is a virulent disease spreading over 100 tropical and subtropical countries in Africa, the Americas, and Asia. This arboviral disease affects around 400 million people globally, severely distressing the healthcare systems. The unavailability of a specific drug and ready-to-use vaccine makes the situation worse. Hence, policymakers must rely on early warning systems to control intervention-related decisions. Forecasts routinely provide critical information for dangerous epidemic events. However, the available forecasting models (e.g., weather-driven mechanistic, statistical time series, and machine learning models) lack a clear understanding of different components to improve prediction accuracy and often provide unstable and unreliable forecasts. This study proposes an ensemble wavelet neural network with exogenous factor(s) (XEWNet) model that can produce reliable estimates for dengue outbreak prediction for three geographical regions, namely San Juan, Iquitos, and Ahmedabad. The proposed XEWNet model is flexible and can easily incorporate exogenous climate variable(s) confirmed by statistical causality tests in its scalable framework. The proposed model is an integrated approach that uses wavelet transformation into an ensemble neural network framework that helps in generating more reliable long-term forecasts. The proposed XEWNet allows complex non-linear relationships between the dengue incidence cases and rainfall; however, mathematically interpretable, fast in execution, and easily comprehensible. The proposal's competitiveness is measured using computational experiments based on various statistical metrics and several statistical comparison tests. In comparison with statistical, machine learning, and deep learning methods, our proposed XEWNet performs better in 75% of the cases for short-term and long-term forecasting of dengue incidence.
translated by 谷歌翻译
跨学科的一个重要问题是发现产生预期结果的干预措施。当可能的干预空间很大时,需要进行详尽的搜索,需要实验设计策略。在这种情况下,编码变量之间的因果关系以及因此对系统的影响,对于有效地确定理想的干预措施至关重要。我们开发了一种迭代因果方法来识别最佳干预措施,这是通过分布后平均值和所需目标平均值之间的差异来衡量的。我们制定了一种主动学习策略,该策略使用从不同干预措施中获得的样本来更新有关基本因果模型的信念,并确定对最佳干预措施最有用的样本,因此应在下一批中获得。该方法采用了因果模型的贝叶斯更新,并使用精心设计的,有因果关系的收购功能优先考虑干预措施。此采集函数以封闭形式进行评估,从而有效优化。理论上以信息理论界限和可证明的一致性结果在理论上基于理论上的算法。我们说明了综合数据和现实世界生物学数据的方法,即来自worturb-cite-seq实验的基因表达数据,以识别诱导特定细胞态过渡的最佳扰动;与几个基线相比,观察到所提出的因果方法可实现更好的样品效率。在这两种情况下,我们都认为因果知情的采集函数尤其优于现有标准,从而允许使用实验明显更少的最佳干预设计。
translated by 谷歌翻译
大脑中的功能连接通常由加权网络表示,其中节点表示大脑中的位置,并且边缘表示这些位置之间的连接强度。分析这些数据的一个挑战是各个边缘水平的推断并不是特别生物学上的意义;解释在所谓的功能区域或节点组和它们之间的连接级别更有用;这通常被称为神经影像学文献中的“图表感知”推断。然而,汇集功能区域导致信息损失和更低的准确性。另一个挑战是主题内的边缘权重之间的相关性,这使得基于独立假设不可靠的推断。我们通过线性混合效果模型来解决这两种挑战,该挑战涉及功能区域和边缘依赖性,同时仍然建模各个边缘权重,以避免丢失信息。该模型允许将两种群体(例如患者和健康对照)进行比较,无论是在功能区水平和各个边缘水平,都导致生物学上有意义的解释。我们将该模型符合精神分裂症和健康控制的休息状态FMRI数据,获得与精神分裂症文献一致的可解释结果。
translated by 谷歌翻译
因果关系是理解世界的科学努力的基本组成部分。不幸的是,在心理学和社会科学中,因果关系仍然是禁忌。由于越来越多的建议采用因果方法进行研究的重要性,我们重新制定了心理学研究方法的典型方法,以使不可避免的因果理论与其余的研究渠道协调。我们提出了一个新的过程,该过程始于从因果发现和机器学习的融合中纳入技术的发展,验证和透明的理论形式规范。然后,我们提出将完全指定的理论模型的复杂性降低到与给定目标假设相关的基本子模型中的方法。从这里,我们确定利息量是否可以从数据中估算出来,如果是的,则建议使用半参数机器学习方法来估计因果关系。总体目标是介绍新的研究管道,该管道可以(a)促进与测试因果理论的愿望兼容的科学询问(b)鼓励我们的理论透明代表作为明确的数学对象,(c)将我们的统计模型绑定到我们的统计模型中该理论的特定属性,因此减少了理论到模型间隙通常引起的规范不足问题,以及(d)产生因果关系和可重复性的结果和估计。通过具有现实世界数据的教学示例来证明该过程,我们以摘要和讨论来结论。
translated by 谷歌翻译
传染病仍然是全世界人类疾病和死亡的主要因素之一,其中许多疾病引起了流行的感染波。特定药物和预防疫苗防止大多数流行病的不可用,这使情况变得更糟。这些迫使公共卫生官员,卫生保健提供者和政策制定者依靠由流行病的可靠预测产生的预警系统。对流行病的准确预测可以帮助利益相关者调整对手的对策,例如疫苗接种运动,人员安排和资源分配,以减少手头的情况,这可以转化为减少疾病影响的影响。不幸的是,大多数过去的流行病(例如,登革热,疟疾,肝炎,流感和最新的Covid-19)表现出非线性和非平稳性特征,这是由于它们基于季节性依赖性变化以及这些流行病的性质的扩散波动而引起的。 。我们使用基于最大的重叠离散小波变换(MODWT)自动回归神经网络分析了各种流行时期时间序列数据集,并将其称为EWNET。 MODWT技术有效地表征了流行时间序列中的非平稳行为和季节性依赖性,并在拟议的集合小波网络框架中改善了自回旋神经网络的预测方案。从非线性时间序列的角度来看,我们探讨了所提出的EWNET模型的渐近平稳性,以显示相关的马尔可夫链的渐近行为。我们还理论上还研究了学习稳定性的效果以及在拟议的EWNET模型中选择隐藏的神经元的选择。从实际的角度来看,我们将我们提出的EWNET框架与以前用于流行病预测的几种统计,机器学习和深度学习模型进行了比较。
translated by 谷歌翻译
我们使用深层部分最小二乘(DPL)来估算单个股票收益的资产定价模型,该模型以灵活而动态的方式利用调理信息,同时将超额回报归因于一小部分统计风险因素。新颖的贡献是解决非线性因子结构,从而推进经验资产定价中深度学习的当前范式,该定价在假设高斯资产回报和因素的假设下使用线性随机折现因子。通过使用预测的最小二乘正方形来共同投影公司特征和资产回报到潜在因素的子空间,并使用深度学习从因子负载到资产回报中学习非线性图。捕获这种非线性风险因素结构的结果是通过线性风险因素暴露和相互作用效应来表征资产回报中的异常情况。因此,深度学习捕获异常值的众所周知的能力,在潜在因素结构中的角色和高阶项在因素风险溢价上的作用。从经验方面来说,我们实施了DPLS因子模型,并表现出比Lasso和Plain Vanilla深度学习模型表现出卓越的性能。此外,由于DPL的更简约的架构,我们的网络培训时间大大减少了。具体而言,在1989年12月至2018年1月的一段时间内使用Russell 1000指数中的3290资产,我们评估了我们的DPLS因子模型,并生成比深度学习大约1.2倍的信息比率。 DPLS解释了变化和定价错误,并确定了最突出的潜在因素和公司特征。
translated by 谷歌翻译
本文提出了标准时间序列回归树建模的扩展,以处理呈现缺失观察,季节性和周期形式的缺失的违规行为的预测因子,以及非静止趋势。在这样做时,这种方法还允许通过未观察的组件来丰富基于树的自动推送中使用的信息集。此外,该稿件还示出了基于集合学习和千克文学中的最新发展来控制过度拟合的相关方法。与基准重采样方法相比,当观察时间段的数量小而有利时,这是强有力的。经验结果表明,通过因子增强树集合的函数预测股票平方返回的好处,通过因子增强树集合,关于更简单的基准。作为副产品,这种方法允许研究经济新闻对股权波动的实时重要性。
translated by 谷歌翻译
最近实现了更准确的短期预测的数据驱动的空气质量预测。尽管取得了成功,但大多数目前的数据驱动解决方案都缺乏适当的模型不确定性的量化,以传达信任预测的程度。最近,在概率深度学习中已经制定了几种估计不确定性的实用工具。但是,在空气质量预测领域的域中没有经验应用和广泛的比较这些工具。因此,这项工作在空气质量预测的真实环境中应用了最先进的不确定性量化。通过广泛的实验,我们描述了培训概率模型,并根据经验性能,信心可靠性,置信度估计和实际适用性评估其预测性不确定性。我们还使用空气质量数据中固有的“自由”对抗培训和利用时间和空间相关性提出改善这些模型。我们的实验表明,所提出的模型比以前的工作更好地在量化数据驱动空气质量预测中的不确定性方面表现出。总体而言,贝叶斯神经网络提供了更可靠的不确定性估计,但可能挑战实施和规模。其他可扩展方法,如深合奏,蒙特卡罗(MC)辍学和随机重量平均-Gaussian(SWAG)可以执行良好,如果正确应用,但具有不同的权衡和性能度量的轻微变化。最后,我们的结果表明了不确定性估计的实际影响,并证明了,实际上,概率模型更适合提出知情决策。代码和数据集可用于\ url {https:/github.com/abdulmajid-murad/deep_probabilistic_forecast}
translated by 谷歌翻译
来自时间序列数据的因果推断的主要挑战是计算可行性和准确性之间的权衡。在具有缓慢均值逆转的自回旋模型中,由滞后协方差的过程基序激励,我们建议通过成对边缘测量(PEM)推断因果关系网络,即可以轻松地从滞后相关矩阵中计算出来。通过过程基序对协方差和滞后方差的贡献,我们制定了两个pem,这些PEM适合混杂因素和反向因果关系。为了证明PEM的性能,我们考虑了线性随机过程的模拟网络干扰,并表明我们的PEM可以准确有效地推断网络。具体而言,对于略有自相关的时间序列数据,我们的方法获得的准确性高于或类似于Granger因果关系,转移熵和收敛的交叉映射 - 但使用这些方法中的任何一种都比计算时间短得多。我们的快速准确的PEM是用于网络推断的易于实现的方法,具有明确的理论基础。它们为当前范式提供了有希望的替代方案,用于从时间序列数据中推断线性模型,包括Granger因果关系,矢量自动进展和稀疏逆协方差估计。
translated by 谷歌翻译
在许多科学应用中出现了从一组共同样本中获得两种(或更多)类型的测量的数据集。此类数据的探索性分析中的一个常见问题是识别有密切相关的不同数据类型的特征组。 Bimodule是来自两种数据类型的特征集的一对(A,B),因此A和B中的特征之间的汇总相关很大。如果A与B中的特征显着相关的特征集合,则BIMODULE(A,B)是稳定的,反之亦然。在本文中,我们提出并研究了基于迭代测试的程序(BSP),以识别Bi-View数据中稳定的双模型。我们进行了一项彻底的模拟研究,以评估BSP的性能,并使用GTEX项目的最新数据提出了表达定量性状基因座(EQTL)分析问题的扩展应用。此外,我们将BSP应用于气候数据,以确定北美地区年温度变化影响降水的区域。
translated by 谷歌翻译