Accurate prediction of battery health is essential for real-world system management and lab-based experiment design. However, building a life-prediction model from different cycling conditions is still a challenge. Large lifetime variability results from both cycling conditions and initial manufacturing variability, and this -- along with the limited experimental resources usually available for each cycling condition -- makes data-driven lifetime prediction challenging. Here, a hierarchical Bayesian linear model is proposed for battery life prediction, combining both individual cell features (reflecting manufacturing variability) with population-wide features (reflecting the impact of cycling conditions on the population average). The individual features were collected from the first 100 cycles of data, which is around 5-10% of lifetime. The model is able to predict end of life with a root mean square error of 3.2 days and mean absolute percentage error of 8.6%, measured through 5-fold cross-validation, overperforming the baseline (non-hierarchical) model by around 12-13%.
translated by 谷歌翻译
通过有效的监控和调整电池操作条件,促进了锂离子电池的寿命和安全性。因此,为电池管理系统上的健康状况(SOH)监测提供快速准确的算法至关重要。由于对电池劣化的复杂性和多种因素的复杂性和多种因素的复杂性,特别是因为不同的劣化过程发生在各种时间尺度,并且它们的相互作用发挥着重要作用。数据驱动方法通过用统计或机器学习模型近似复杂进程来绕过这个问题。本文提出了一种数据驱动方法,在电池劣化的背景下,尽管其简单性和易于计算:多变量分数多项式(MFP)回归。模型从一个耗尽的细胞的历史数据训练,并用于预测其他细胞的SOH。数据的特征在于模拟动态操作条件的载荷变化。考虑了两个假设情景:假设最近的容量测量是已知的,则另一个仅基于标称容量。结果表明,在考虑到电池寿命的电池结束时,通过其历史数据的历史数据受到它们的历史数据的影响,电池的降解行为受到其历史数据的影响。此外,我们提供了一种多因素视角,分析了每个不同因素的影响程度。最后,我们与长期内记忆神经网络和其他来自相同数据集的文献的其他作品进行比较。我们得出结论,MFP回归与当代作品有效和竞争,提供了几种额外的优点。在可解释性,恒定性和可实现性方面。
translated by 谷歌翻译
作为行业4.0时代的一项新兴技术,数字双胞胎因其承诺进一步优化流程设计,质量控制,健康监测,决策和政策制定等,通过全面对物理世界进行建模,以进一步优化流程设计,质量控制,健康监测,决策和政策,因此获得了前所未有的关注。互连的数字模型。在一系列两部分的论文中,我们研究了不同建模技术,孪生启用技术以及数字双胞胎常用的不确定性量化和优化方法的基本作用。第二篇论文介绍了数字双胞胎的关键启示技术的文献综述,重点是不确定性量化,优化方法,开源数据集和工具,主要发现,挑战和未来方向。讨论的重点是当前的不确定性量化和优化方法,以及如何在数字双胞胎的不同维度中应用它们。此外,本文介绍了一个案例研究,其中构建和测试了电池数字双胞胎,以说明在这两部分评论中回顾的一些建模和孪生方法。 GITHUB上可以找到用于生成案例研究中所有结果和数字的代码和预处理数据。
translated by 谷歌翻译
For Prognostics and Health Management (PHM) of Lithium-ion (Li-ion) batteries, many models have been established to characterize their degradation process. The existing empirical or physical models can reveal important information regarding the degradation dynamics. However, there is no general and flexible methods to fuse the information represented by those models. Physics-Informed Neural Network (PINN) is an efficient tool to fuse empirical or physical dynamic models with data-driven models. To take full advantage of various information sources, we propose a model fusion scheme based on PINN. It is implemented by developing a semi-empirical semi-physical Partial Differential Equation (PDE) to model the degradation dynamics of Li-ion-batteries. When there is little prior knowledge about the dynamics, we leverage the data-driven Deep Hidden Physics Model (DeepHPM) to discover the underlying governing dynamic models. The uncovered dynamics information is then fused with that mined by the surrogate neural network in the PINN framework. Moreover, an uncertainty-based adaptive weighting method is employed to balance the multiple learning tasks when training the PINN. The proposed methods are verified on a public dataset of Li-ion Phosphate (LFP)/graphite batteries.
translated by 谷歌翻译
在建立工程基础设施的预测模型时,提出了人群级分析来解决数据稀疏性。利用可解释的层次贝叶斯方法和操作车队数据,域专业知识是自然编码(并适当共享)在不同的子组之间,代表(i)使用型,(ii)组件或(iii)操作条件。具体而言,利用领域专业知识来通过假设(和先前的分布)来限制模型,从而使该方法可以自动共享相似资产之间的信息,从而改善了对风电场中卡车机队和权力预测的生存分析。在每个资产管理示例中,在合并的推理中学习了一组相关的功能,以学习人口模型。当允许子型在层次结构中的不同级别共享相关信息时,参数估计得到改善。反过来,数据不完整的组会自动从数据丰富的组中借用统计强度。统计相关性使知识转移能够通过贝叶斯转移学习,并且可以检查相关性,以告知哪些资产共享有关哪些效果(即参数)的信息。两种案例研究的成功都证明了实践基础设施监测的广泛适用性,因为该方法自然适应了不同原位示例的可解释的车队模型。
translated by 谷歌翻译
有效且准确的剩余使用寿命预测是可靠且安全使用锂离子电池的关键因素。这项工作训练了长期记忆复发性神经网络模型,以从各个周期和电压下排放能力的顺序数据中学习,并作为在不同条件下循环的电池电池的周期寿命预测器。使用前60-80个周期的实验数据,我们的模型在大约80个样本的测试集上实现了有希望的预测准确性。
translated by 谷歌翻译
贝叶斯拉索是在线性回归框架中构建的,并应用了吉布斯采样以估计回归参数。本文开发了一种新的稀疏学习模型,称为贝叶斯套索稀疏(BLS)模型,该模型采用了贝叶斯拉索的层次模型公式。与原始贝叶斯套索的主要区别在于估计程序;BLS方法使用基于II类型最大似然过程的学习算法。与贝叶斯拉索相反,BLS提供了回归参数的稀疏估计值。BLS方法还通过引入内核功能来得出非线性监督学习问题。我们将BLS模型与众所周知的相关矢量机,快速拉普拉斯法,再见套索和套索在模拟和真实数据上进行了比较。数值结果表明,BLS稀疏而精确,尤其是在处理嘈杂和不规则数据集时。
translated by 谷歌翻译
Batteries plays an essential role in modern energy ecosystem and are widely used in daily applications such as cell phones and electric vehicles. For many applications, the health status of batteries plays a critical role in the performance of the system by indicating efficient maintenance and on-time replacement. Directly modeling an individual battery using a computational models based on physical rules can be of low-efficiency, in terms of the difficulties in build such a model and the computational effort of tuning and running it especially on the edge. With the rapid development of sensor technology (to provide more insights into the system) and machine learning (to build capable yet fast model), it is now possible to directly build a data-riven model of the battery health status using the data collected from historical battery data (being possibly local and remote) to predict local battery health status in the future accurately. Nevertheless, most data-driven methods are trained based on the local battery data and lack the ability to extract common properties, such as generations and degradation, in the life span of other remote batteries. In this paper, we utilize a Gaussian process dynamical model (GPDM) to build a data-driven model of battery health status and propose a knowledge transfer method to extract common properties in the life span of all batteries to accurately predict the battery health status with and without features extracted from the local battery. For modern benchmark problems, the proposed method outperform the state-of-the-art methods with significant margins in terms of accuracy and is able to accuracy predict the regeneration process.
translated by 谷歌翻译
越来越多的多元过程数据驱动了熟练工人从这些数据分析,解释和构建模型的需求。多元数据分析在很大程度上依赖于线性代数,优化和统计数据,并且鉴于大多数课程在后三个主题中没有强大的覆盖范围,学生可能会具有挑战性。本文介绍了用于教学,学习和理解潜在变量方法的交互式软件 - 潜在变量演示器(LAVADE)。在此软件中,用户可以与其他回归方法(例如绝对收缩和选择运算符(LASSO),Ridge Remission(RR)和其他回归方法(RR)和其他回归方法(RR)和其他回归方法进行交互式比较潜在变量方法,例如部分最小二乘(PLS)和主组件回归(PCR)。弹性网(en)。 Lavade有助于建立有关选择适当方法,超参数调整和模型系数解释的直觉,从而促进对算法差异的概念理解。该软件包含数据生成方法和三个化学过程数据集,可以比较具有不同复杂性级别的数据集的结果。 Lavade作为开源软件发布,以便其他人可以应用并推进用于教学或研究的工具。
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
电池性能数据集通常是非正常和多色性的。推断出用于模型预测的这些数据集需要注意这些特性。本研究探讨了数据正常性对建筑机械学习模型的影响。在这项工作中,基于树的回归模型和多元线性回归模型每个都是由具有多卷曲性的高度偏斜的非正常数据集构建。有几种技术是必要的,例如数据转换,以实现具有此数据集的良好多个线性回归模型;讨论了最有用的技术。利用这些技术,最佳的多元线性回归模型达到了R ^ 2 = 81.23%,并且没有对本研究中使用的数据集没有多种性效应。基于树的模型在此数据集上执行更好,因为它们是非参数,能够在变量之间处理复杂关系而不受彩细量的影响。我们在使用随机森林时,我们展示了袋装,减少了过度装备。我们最佳的基于树的模型实现了R ^ 2 = 97.73%的准确性。本研究解释了为什么基于树的回归应该作为非正常分布式多元图数据的机器学习模型。
translated by 谷歌翻译
在许多背景下,预测将在给定期间发起特定活动的人口中的个人数量是有用的。例如,将安装软件更新的用户数量,将在网站上使用新功能或将参与A / B测试的客户数量。在实际设置中,在分发时间内,个人存在异质性,直到它们会发起。出于这些原因,假设在连续日期观察到的新人数量是不合适的。鉴于参与初始时期的独特用户数量的观察,我们提出了一种简单但新的贝叶斯方法,用于预测随后将在随后的时间内参与的额外个人的数量。我们说明了该方法在在线实验中预测样本量的性能。
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
无似然方法是对可以模拟的隐式模型执行推断的必不可少的工具,但相应的可能性是棘手的。但是,常见的无可能方法不能很好地扩展到大量模型参数。一种有前途的无可能推理的有前途的方法涉及通过仅根据据信为低维成分提供信息的摘要统计数据来估计低维边缘后期,然后在某种程度上结合了低维近似值。在本文中,我们证明,对于看似直观的汇总统计选择,这种低维近似值在实践中可能是差的。我们描述了一个理想化的低维汇总统计量,原则上适用于边际估计。但是,在实践中很难直接近似理想的选择。因此,我们提出了一种替代的边际估计方法,该方法更容易实施和自动化。考虑到初始选择的低维摘要统计量可能仅对边缘后验位置有用,新方法通过使用所有摘要统计数据来确保全局可识别性来提高性能,从而提高性能使用低维摘要统计量进行精确的低维近似。我们表明,该方法的后部可以分别基于低维和完整的摘要统计数据将其表示为后验分布的对数库。在几个示例中说明了我们方法的良好性能。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
引入了涉及高斯流程(GPS)的模型,以同时处理多个功能数据的多任务学习,聚类和预测。该过程充当了功能数据的基于模型的聚类方法,也是对新任务进行后续预测的学习步骤。该模型是将多任务GPS与常见平均过程的混合物实例化。得出了一种用于处理超参数的优化以及超构件对潜在变量和过程的估计的优化。我们建立了明确的公式,用于将平均过程和潜在聚类变量整合到预测分布中,这是两个方面的不确定性。该分布定义为集群特异性GP预测的混合物,在处理组结构数据时,可以增强性能。该模型处理观察的不规则网格,并提供了关于协方差结构的不同假设,用于在任务之间共享其他信息。聚类和预测任务上的性能将通过各种模拟方案和真实数据集进行评估。总体算法称为magmaclust,可公开作为R包。
translated by 谷歌翻译
美国宇航局的全球生态系统动力学调查(GEDI)是一个关键的气候使命,其目标是推进我们对森林在全球碳循环中的作用的理解。虽然GEDI是第一个基于空间的激光器,明确优化,以测量地上生物质的垂直森林结构预测,这对广泛的观测和环境条件的大量波形数据的准确解释是具有挑战性的。在这里,我们提出了一种新颖的监督机器学习方法来解释GEDI波形和全球标注冠层顶部高度。我们提出了一种基于深度卷积神经网络(CNN)集合的概率深度学习方法,以避免未知效果的显式建模,例如大气噪声。该模型学会提取概括地理区域的强大特征,此外,产生可靠的预测性不确定性估计。最终,我们模型产生的全球顶棚顶部高度估计估计的预期RMSE为2.7米,低偏差。
translated by 谷歌翻译
近年来,在运输电气化方面取得了重大进展。作为主要的储能设备,锂离子电池(LIB)已受到广泛关注。准确地预测健康状况(SOH)不仅可以缓解用户对电池寿命的焦虑,而且还可以为电池管理提供重要信息。本文提出了一种基于视觉变压器(VIT)模型的SOH的预测方法。首先,预定义电压范围的离散充电数据用作输入数据矩阵。然后,电池的循环特征是由VIT捕获的,可以获得可以获得全局特征,并且通过将循环特征与完整连接(FC)层相结合来获得SOH。同时,引入了转移学习(TL),并根据目标任务电池的早期周期数据进一步微调基于源任务电池训练的预测模型,以提供准确的预测。实验表明,与现有的深度学习方法相比,我们的方法可以获得更好的特征表达,从而可以实现更好的预测效果和传递效果。
translated by 谷歌翻译
Hierarchical Bayesian Poisson regression models (HBPRMs) provide a flexible modeling approach of the relationship between predictors and count response variables. The applications of HBPRMs to large-scale datasets require efficient inference algorithms due to the high computational cost of inferring many model parameters based on random sampling. Although Markov Chain Monte Carlo (MCMC) algorithms have been widely used for Bayesian inference, sampling using this class of algorithms is time-consuming for applications with large-scale data and time-sensitive decision-making, partially due to the non-conjugacy of many models. To overcome this limitation, this research develops an approximate Gibbs sampler (AGS) to efficiently learn the HBPRMs while maintaining the inference accuracy. In the proposed sampler, the data likelihood is approximated with Gaussian distribution such that the conditional posterior of the coefficients has a closed-form solution. Numerical experiments using real and synthetic datasets with small and large counts demonstrate the superior performance of AGS in comparison to the state-of-the-art sampling algorithm, especially for large datasets.
translated by 谷歌翻译