梯度增强的树木是竞争获奖,通用,非参数回归器,它们利用顺序模型拟合和梯度下降以最大程度地减少特定的损失函数。最受欢迎的实现是针对单变量回归和分类任务量身定制的,排除了捕获多变量目标互相关并将结构性惩罚应用于预测的可能性。在本文中,我们提出了一种用于拟合多元增强树的计算有效算法。我们表明,当预测相关时,多元树可以胜过单变量。此外,该算法允许任意规范预测,以便可以实施平滑度,一致性和功能关系之类的属性。我们提出了与预测和控制有关的应用程序和数值结果。
translated by 谷歌翻译
我们引入了一种新颖的方式,将增强功能与高斯工艺和混合效应模型相结合。首先,在高斯过程中先前的平均函数的零或线性假设可以放松,并以灵活的非参数方式分组随机效应模型,其次,第二个在大多数增强算法中做出的独立性假设。前者有利于预测准确性和避免模型错误。后者对于有效学习固定效应预测函数和获得概率预测很重要。我们提出的算法也是用于处理培养树木中高心电图分类变量的新颖解决方案。此外,我们提出了一个扩展名,该扩展是使用维奇亚近似为高斯工艺模型缩放到大数据的,该模型依靠新的结果进行协方差参数推断。与几个模拟和现实世界数据集的现有方法相比,我们获得了提高的预测准确性。
translated by 谷歌翻译
PV power forecasting models are predominantly based on machine learning algorithms which do not provide any insight into or explanation about their predictions (black boxes). Therefore, their direct implementation in environments where transparency is required, and the trust associated with their predictions may be questioned. To this end, we propose a two stage probabilistic forecasting framework able to generate highly accurate, reliable, and sharp forecasts yet offering full transparency on both the point forecasts and the prediction intervals (PIs). In the first stage, we exploit natural gradient boosting (NGBoost) for yielding probabilistic forecasts, while in the second stage, we calculate the Shapley additive explanation (SHAP) values in order to fully comprehend why a prediction was made. To highlight the performance and the applicability of the proposed framework, real data from two PV parks located in Southern Germany are employed. Comparative results with two state-of-the-art algorithms, namely Gaussian process and lower upper bound estimation, manifest a significant increase in the point forecast accuracy and in the overall probabilistic performance. Most importantly, a detailed analysis of the model's complex nonlinear relationships and interaction effects between the various features is presented. This allows interpreting the model, identifying some learned physical properties, explaining individual predictions, reducing the computational requirements for the training without jeopardizing the model accuracy, detecting possible bugs, and gaining trust in the model. Finally, we conclude that the model was able to develop complex nonlinear relationships which follow known physical properties as well as human logic and intuition.
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
Function estimation/approximation is viewed from the perspective of numerical optimization in function space, rather than parameter space. A connection is made between stagewise additive expansions and steepestdescent minimization. A general gradient descent "boosting" paradigm is developed for additive expansions based on any fitting criterion. Specific algorithms are presented for least-squares, least absolute deviation, and Huber-M loss functions for regression, and multiclass logistic likelihood for classification. Special enhancements are derived for the particular case where the individual additive components are regression trees, and tools for interpreting such "TreeBoost" models are presented. Gradient boosting of regression trees produces competitive, highly robust, interpretable procedures for both regression and classification, especially appropriate for mining less than clean data. Connections between this approach and the boosting methods of Freund and Shapire and Friedman, Hastie and Tibshirani are discussed.
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
分位数回归是统计学习中的一个基本问题,这是由于需要量化预测中的不确定性或对多样化的人群建模而不过分减少的统计学习。例如,流行病学预测,成本估算和收入预测都可以准确地量化可能的值的范围。因此,在计量经济学,统计和机器学习的多年研究中,已经为这个问题开发了许多模型。而不是提出另一种(新的)算法用于分位数回归,而是采用元观点:我们研究用于汇总任意数量的有条件分位模型的方法,以提高准确性和鲁棒性。我们考虑加权合奏,其中权重不仅可能因单个模型,而且要多于分位数和特征值而变化。我们在本文中考虑的所有模型都可以使用现代深度学习工具包适合,因此可以广泛访问(从实现的角度)和可扩展。为了提高预测分位数的准确性(或等效地,预测间隔),我们开发了确保分位数保持单调排序的工具,并采用保形校准方法。可以使用这些,而无需对原始模型的原始库进行任何修改。我们还回顾了一些围绕分数聚集和相关评分规则的基本理论,并为该文献做出了一些新的结果(例如,在分类或等渗后回归只能提高加权间隔得分的事实)。最后,我们提供了来自两个不同基准存储库的34个数据集的广泛的经验比较套件。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
我们在在线环境中研究了非线性预测,并引入了混合模型,该模型通过端到端体系结构有效地减轻了对手工设计的功能的需求和传统非线性预测/回归方法的手动模型选择问题。特别是,我们使用递归结构从顺序信号中提取特征,同时保留状态信息,即历史记录和增强决策树以产生最终输出。该连接是以端到端方式的,我们使用随机梯度下降共同优化整个体系结构,我们还为此提供了向后的通过更新方程。特别是,我们采用了一个经常性的神经网络(LSTM)来从顺序数据中提取自适应特征,并提取梯度增强机械(Soft GBDT),以进行有效的监督回归。我们的框架是通用的,因此可以使用其他深度学习体系结构进行特征提取(例如RNN和GRU)和机器学习算法进行决策,只要它们是可区分的。我们证明了算法对合成数据的学习行为以及各种现实生活数据集对常规方法的显着性能改进。此外,我们公开分享提出的方法的源代码,以促进进一步的研究。
translated by 谷歌翻译
我们介绍了一类小说的预计方法,对实际线上的概率分布数据集进行统计分析,具有2-Wassersein指标。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影运算符来限制Wassersein空间中的结果来利用与其弱利米结构密切相关的Wasserstein空间的表示。通过仔细选择切线,我们能够推出快速的经验方法,利用受约束的B样条近似。作为我们方法的副产品,我们还能够为PCA的PCA进行更快的例程来获得分布。通过仿真研究,我们将我们的方法与先前提出的方法进行比较,表明我们预计的PCA具有类似的性能,即使在拼盘下也是极其灵活的。研究了模型的若干理论性质,并证明了渐近一致性。讨论了两个真实世界应用于美国和风速预测的Covid-19死亡率。
translated by 谷歌翻译
在智能电网和负载平衡的背景下,每日峰值负荷预测已成为能源行业利益相关者的关键活动。对峰值幅度和时序的理解对于实现峰值剃须等智能电网策略至关重要。本文提出的建模方法利用了高分辨率和低分辨率信息来预测每日峰值需求规模和时序。由此产生的多分辨率建模框架可以适应不同的模型类。本文的主要贡献是一般性和正式介绍多分辨率建模方法,b)关于通过广义添加剂模型和神经网络和C)实验结果的不同决议的建模方法的讨论英国电力市场。结果证实,建议的建模方法的预测性能与低分辨率和高分辨率替代品具有竞争力。
translated by 谷歌翻译
近期不同尺度电力消耗的丰富数据开辟了新的挑战,并强调了新技术的需求,以利用更精细的尺度提供的信息,以便改善更广泛的尺度预测。在这项工作中,我们利用该分层预测问题与多尺度传输学习之间的相似性。我们分别开发了两种分层转移学习方法,分别基于广义添加剂模型和随机林的堆叠,以及专家聚合的使用。我们将这些方法应用于在第一种情况下使用智能仪表数据,以及第二种情况下的区域数据的智能仪表数据将这些方法应用于两种电力负荷预测。对于这两个useCases,我们将我们的方法的表现与基准算法的表演进行比较,我们使用可变重要性分析调查其行为。我们的结果表明了两种方法的兴趣,这导致预测的重大改善。
translated by 谷歌翻译
本文介绍了一个集成预测方法,通过减少特征和模型选择假设来显示M4Competitiation数据集的强劲结果,称为甜甜圈(不利用人为假设)。我们的假设减少,主要由自动生成的功能和更多样化的集合模型组成,显着优于Montero-Manso等人的统计特征的集合方法FForma。 (2020)。此外,我们用长短期内存网络(LSTM)AutoEncoder调查特征提取,并发现此类特征包含传统统计特征方法未捕获的重要信息。合奏加权模型使用LSTM功能和统计功能准确地结合模型。特征重要性和交互的分析表明,单独的统计数据的LSTM特征略有优势。聚类分析表明,不同的基本LSTM功能与大多数统计特征不同。我们还发现,通过使用新模型增强合奏来增加加权模型的解决方案空间是加权模型学习使用的东西,解释了准确性的一部分。最后,我们为集合的最佳组合和选择提供了正式的前后事实分析,通过M4数据集的线性优化量化差异。我们还包括一个简短的证据,模型组合优于模型选择,后者。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
基于预测方法的深度学习已成为时间序列预测或预测的许多应用中的首选方法,通常通常优于其他方法。因此,在过去的几年中,这些方法现在在大规模的工业预测应用中无处不在,并且一直在预测竞赛(例如M4和M5)中排名最佳。这种实践上的成功进一步提高了学术兴趣,以理解和改善深厚的预测方法。在本文中,我们提供了该领域的介绍和概述:我们为深入预测的重要构建块提出了一定深度的深入预测;随后,我们使用这些构建块,调查了最近的深度预测文献的广度。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
我们根据功能性隐藏动态地理模型(F-HDGM)的惩罚最大似然估计器(PMLE)提出了一种新型的模型选择算法。这些模型采用经典的混合效应回归结构,该结构具有嵌入式时空动力学,以模拟在功能域中观察到的地理参考数据。因此,感兴趣的参数是该域之间的函数。该算法同时选择了相关的样条基函数和回归变量,这些函数和回归变量用于对响应变量与协变量之间的固定效应关系进行建模。这样,它会自动收缩到功能系数的零部分或无关回归器的全部效果。该算法基于迭代优化,并使用自适应的绝对收缩和选择器操作员(LASSO)惩罚函数,其中未含量的F-HDGM最大likikelihood估计器获得了其中的权重。最大化的计算负担大大减少了可能性的局部二次近似。通过蒙特卡洛模拟研究,我们分析了在不同情况下算法的性能,包括回归器之间的强相关性。我们表明,在我们考虑的所有情况下,受罚的估计器的表现都优于未确定的估计器。我们将该算法应用于一个真实案例研究,其中将意大利伦巴第地区的小时二氧化氮浓度记录记录为具有多种天气和土地覆盖协变量的功能过程。
translated by 谷歌翻译
我们向Facebook先知推出了一位继任者,为可解释,可扩展和用户友好的预测框架制定了一个行业标准。随着时间序列数据的扩散,可说明的预测仍然是企业和运营决策的具有挑战性的任务。需要混合解决方案来弥合可解释的古典方法与可扩展深层学习模型之间的差距。我们将先知视为这样一个解决方案的前兆。然而,先知缺乏本地背景,这对于预测近期未来至关重要,并且由于其斯坦坦后代而挑战。 NeultProphet是一种基于Pytorch的混合预测框架,并用标准的深度学习方法培训,开发人员可以轻松扩展框架。本地上下文使用自动回归和协变量模块引入,可以配置为经典线性回归或作为神经网络。否则,NeultProphet保留了先知的设计理念,提供了相同的基本模型组件。我们的结果表明,NeultProcrophet在一组生成的时间序列上产生了相当或优质的质量的可解释的预测组件。 NeultProphet在各种各样的现实数据集合中占先知。对于中期预测,NeultProclecrophet将预测精度提高55%至92%。
translated by 谷歌翻译
我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器,称为范围,通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点,从而聚类系数。我们提供了一种算法,用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值,并且在多变量情况下在块坐标血管下降过程中使用它。我们表明,利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点,只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围,也可以在CRAN上提供逻辑回归的版本。
translated by 谷歌翻译