在本文中,我们提出了Beta自回归移动平均模型的五个预测间隔。该模型适用于在间隔$(0,1)$中假设值的建模和预测变量。提出的两个预测间隔是基于近似值,考虑到β分布的正态分布和分位功能。我们还考虑基于自举的预测间隔,即:(i)自举预测错误(BPE)间隔; (ii)偏置校正和加速度(BCA)预测间隔; (iii)基于两种不同的自举计划的引导程序预测值的分位数的百分位预测间隔。根据蒙特卡洛模拟评估了提出的预测间隔。 BCA预测间隔在评估的间隔中提供了最佳性能,显示出较低的覆盖率失真和较小的平均长度。我们应用了我们的方法来预测巴西S \ ao Paulo的Cantareira供水系统的水位。
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
合成孔径雷达(SAR)数据中的异常值(异常值)的存在以及统计图像模型中的错误指定可能导致推断不准确。为了避免此类问题,提出了基于强大的估计过程的瑞利回归模型,作为模拟此类数据的更现实的方法。本文旨在获得瑞利回归模型参数估计量与异常值的存在。提出的方法考虑了加权最大似然法,并使用模拟和测量的SAR图像提交了数值实验。使用蒙特卡洛模拟来评估有限信号长度中提出的可靠估计器性能,对离群值的敏感性和分解点。例如,非稳定估计器显示相对偏置值$ 65 $ - 折叠比损坏信号中强大方法提供的结果大。在灵敏度分析和分解点方面,强大的方案在两种措施的平均绝对值中分别降低了约96美元\%$和$ 10 \%$,以同情非稳定估计器。此外,使用两个SAR数据集比较了所提出的强稳定方案的地面类型和异常检测结果与文献中的竞争方法。
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
共形预测(CP)是一种多功能的非参数框架,用于量化预测问题中的不确定性。在这项工作中,我们通过首次提出可以应用于时间不断发展的表面,将这种方法扩展到在双变量域上定义的时间序列函数的情况。为了获得有意义有效的预测区域,CP必须与准确的预测算法结合使用,因此,我们扩展了希尔伯特空间中自回旋过程的理论理论,以允许具有双变量域的功能。考虑到该主题的新颖性,我们提出了功能自回旋模型(FAR)的估计技术。实施了仿真研究,以研究不同的点预测因子如何影响所得的预测频段。最后,我们探索了真正数据集中拟议方法的利益和限制,在过去的二十年中,每天都会观察到黑海的海平面异常。
translated by 谷歌翻译
中期地平线(几个月到一年)功耗预测是能源部门的主要挑战,特别是当考虑概率预测时。我们提出了一种新的建模方法,该方法包含趋势,季节性和天气条件,作为具有自回归特征的浅神经网络中的解析变量。我们在将其应用于新英格兰的日常电力消耗的一年试验集上获得优异的效果预测。一方面已经验证了实现的电力消耗概率预测的质量,将结果与其他标准进行比较密度预测模型,另一方面,考虑在能量扇区中经常使用的措施,作为弹球损失和CI逆退。
translated by 谷歌翻译
We present a new distribution-free conformal prediction algorithm for sequential data (e.g., time series), called the \textit{sequential predictive conformal inference} (\texttt{SPCI}). We specifically account for the nature that the time series data are non-exchangeable, and thus many existing conformal prediction algorithms based on temporal residuals are not applicable. The main idea is to exploit the temporal dependence of conformity scores; thus, the past conformity scores contain information about future ones. Then we cast the problem of conformal prediction interval as predicting the quantile of a future residual, given a prediction algorithm. Theoretically, we establish asymptotic valid conditional coverage upon extending consistency analyses in quantile regression. Using simulation and real-data experiments, we demonstrate a significant reduction in interval width of \texttt{SPCI} compared to other existing methods under the desired empirical coverage.
translated by 谷歌翻译
有效的决策需要了解预测中固有的不确定性。在回归中,这种不确定性可以通过各种方法估算;然而,许多这些方法对调谐进行费力,产生过度自确性的不确定性间隔,或缺乏敏锐度(给予不精确的间隔)。我们通过提出一种通过定义具有两个不同损失功能的神经网络来捕获回归中的预测分布的新方法来解决这些挑战。具体地,一个网络近似于累积分布函数,第二网络近似于其逆。我们将此方法称为合作网络(CN)。理论分析表明,优化的固定点处于理想化的解决方案,并且该方法是渐近的与地面真理分布一致。凭经验,学习是简单且强大的。我们基准CN对两个合成和六个现实世界数据集的几种常见方法,包括预测来自电子健康记录的糖尿病患者的A1C值,其中不确定是至关重要的。在合成数据中,所提出的方法与基本上匹配地面真理。在真实世界数据集中,CN提高了许多性能度量的结果,包括对数似然估计,平均误差,覆盖估计和预测间隔宽度。
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
最近提出了瑞利回归模型,用于建模合成孔径雷达(SAR)图像像素的振幅值。但是,此类模型的推论基于最大似然估计器,这可能会对较小的信号长度产生偏差。SAR图像的瑞利回归模型通常会考虑到小像素窗口,这可能导致结果不准确。在这封信中,我们介绍了基于以下方面的瑞利回归模型量身定制的偏置调整的估计器;(i)Cox和Snell的方法;(ii)FIRTH的计划;(iii)参数引导法。我们提出了考虑合成和实际SAR数据集的数值实验。偏置调整后的估计器产生几乎公正的估计和准确的建模结果。
translated by 谷歌翻译
在本文中,我们考虑了使用相同的预测精度测试程序在横截面依赖下实现了实现波动率测量的预测评估。在预测实现挥发性时,我们根据增强横截面评估模型的预测精度。在相等预测精度的零假设下,所采用的基准模型是标准的HAR模型,而在非相同的预测精度的替代方案下,预测模型是通过套索缩收估计的增强的HAR模型。我们通过结合测量误差校正以及横截面跳转分量测量来研究预报对模型规范的敏感性。使用数值实现评估模型的样本外预测评估。
translated by 谷歌翻译
我们提出了一种对任何概率基础预测进行核对的原则方法。我们展示了如何通过通过贝叶斯规则合并底部预测和上层时间序列中包含的信息来获得概率对帐。我们在玩具层次结构上说明了我们的方法,展示了我们的框架如何允许对任何基本预测的概率对帐。我们对计数时间序列的时间层次结构进行对帐进行实验,与基于高斯或截短的高斯分布相比,获得了重大改进。
translated by 谷歌翻译
This paper presents a novel probabilistic forecasting method called ensemble conformalized quantile regression (EnCQR). EnCQR constructs distribution-free and approximately marginally valid prediction intervals (PIs), which are suitable for nonstationary and heteroscedastic time series data. EnCQR can be applied on top of a generic forecasting model, including deep learning architectures. EnCQR exploits a bootstrap ensemble estimator, which enables the use of conformal predictors for time series by removing the requirement of data exchangeability. The ensemble learners are implemented as generic machine learning algorithms performing quantile regression, which allow the length of the PIs to adapt to local variability in the data. In the experiments, we predict time series characterized by a different amount of heteroscedasticity. The results demonstrate that EnCQR outperforms models based only on quantile regression or conformal prediction, and it provides sharper, more informative, and valid PIs.
translated by 谷歌翻译
对极端事件的风险评估需要准确估算超出历史观察范围的高分位数。当风险取决于观察到的预测因子的值时,回归技术用于在预测器空间中插值。我们提出的EQRN模型将来自神经网络和极值理论的工具结合到能够在存在复杂预测依赖性的情况下外推的方法中。神经网络自然可以在数据中融合其他结构。我们开发了EQRN的经常性版本,该版本能够在时间序列中捕获复杂的顺序依赖性。我们将这种方法应用于瑞士AARE集水区中洪水风险的预测。它利用从时空和时间上的多个协变量中利用信息,以提供对回报水平和超出概率的一日预测。该输出从传统的极值分析中补充了静态返回水平,并且预测能够适应不断变化的气候中经历的分配变化。我们的模型可以帮助当局更有效地管理洪水,并通过预警系统最大程度地减少其灾难性影响。
translated by 谷歌翻译
已经显示混合方法以在预测任务中以纯粹的统计和纯粹的深度学习方法优于预测,并定量与这些预测(预测间隔)的相关不确定性。一个示例是指数平滑复发性神经网络(ES-RNN),统计预测模型和经常性神经网络变体之间的混合。 ES-RNN在Makridakis-4预测竞争中实现了9.4 \%的绝对错误。这种改进和类似的混合模型的表现主要是仅在单变量数据集上展示。将混合预测方法应用于多变量数据的困难包括($ i $)的高参数调整所涉及的高计算成本,用于与数据中固有的自动关联相关的模型(II $)挑战,以及( $ iii $)在可能难以捕获的协变量之间的复杂依赖(交叉相关)。本文介绍了多变量指数平滑的长短短期记忆(MES-LSTM),对ES-RNN的广义多元扩展,克服了这些挑战。 MES-LSTM利用了矢量化实现。我们在2019年(Covid-19)发病率数据集的几种聚集冠状病毒病中测试MES-LSTM,并发现我们的混合方法在预测准确性和预测间隔建设下对纯统计和深度学习方法进行了一致的,显着改善。
translated by 谷歌翻译
预测时间序列数据代表了数据科学和知识发现研究的新兴领域,其广泛应用程序从股票价格和能源需求预测到早期预测流行病。在过去的五十年中,已经提出了许多统计和机器学习方法,对高质量和可靠预测的需求。但是,在现实生活中的预测问题中,存在基于上述范式之一的模型是可取的。因此,需要混合解决方案来弥合经典预测方法与现代神经网络模型之间的差距。在这种情况下,我们介绍了一个概率自回归神经网络(PARNN)模型,该模型可以处理各种复杂的时间序列数据(例如,非线性,非季节性,远程依赖性和非平稳性)。拟议的PARNN模型是通过建立综合运动平均值和自回归神经网络的融合来构建的,以保持个人的解释性,可伸缩性和``白色盒子样''的预测行为。通过考虑相关的马尔可夫链的渐近行为,获得了渐近平稳性和几何形状的足够条件。与先进的深度学习工具不同,基于预测间隔的PARNN模型的不确定性量化。在计算实验期间,Parnn在各种各样的现实世界数据集中,超过了标准统计,机器学习和深度学习模型(例如,变形金刚,Nbeats,Deepar等),来自宏观经济学,旅游,能源,流行病学和其他人的真实数据集集合 - 期,中期和长期预测。与最先进的预报相比,与最佳方法相比,与最佳方法进行了多重比较,以展示该提案的优越性。
translated by 谷歌翻译
为了进一步开发异构治疗效果的统计推理问题,本文在Breiman(2001)随机林树(RFT)和Wager等人的情况下建立了使用古典的优秀统计属性来参数化非参数问题的(2018)因果树。oLs和基于协变量分数的局部线性间隔的划分,同时保留随机林树木,具有可构造的置信区间和渐近常数特性的优势[athey和Imbens(2016),efron(2014),赌第等(2014年)\ citep {wagert2014Asymptotic},我们根据固定规则提出了一个决策树,根据固定规则与本地样本的多项式估计相结合,我们称之为临时局部线性因果树(QLPRT)和林(QLPRF)。
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
鉴于在过去几十年中对许多发达国家的持续增长成为许多发达国家的持续增长,已经有重大努力解决寿命风险。凯恩斯 - 布莱克·罗克(CBD)模型,其中包括群组效应参数在其拟处设计中,是在更高年龄和寿命风险上最着名的死亡率建模方法之一。本文提出了一种新的混合效应时间序列方法,用于考虑年龄组依赖性和随机队列效应参数的考虑因素。所提出的模型可以透露更多的死亡率数据信息,并提供模型参数不确定性的自然量化,没有预先指定的约束,需要估计群组效应参数所需的预先指定的约束。通过具有经验雄性和女性死亡率数据的两种应用来证明所提出的方法的能力。与在数值例子中使用几个发达国家的几个发达国家的死亡率数据的短期,中期和长期预测中的CBD模型相比,该方法在预测准确性方面表现出显着改进。
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译