机器学习的回归分支纯粹集中于连续值的预测。监督学习分支具有许多基于回归的方法,具有参数和非参数学习模型。在本文中,我们旨在针对与基于距离的回归模型相关的非常微妙的点。所使用的基于距离的模型是K-Nearest邻居回归器,它是一种监督的非参数方法。我们要证明的观点是模型的k参数的效果及其影响指标的波动。我们使用的指标是根平方误差和R平方拟合的优点,其值相对于K值的值表示。
translated by 谷歌翻译
航空车遵循基于纬度,经度和高度的引导方法。该信息可用于计算沿轨迹线的机动车辆的机动状态。这是一个二进制分类问题,可以利用机器学习来解决此类问题。在本文中,我们提出了一种使用线性,距离度量,判别分析和增强合奏监督学习方法来得出机动状态及其预测的方法。我们在结果部分中沿行沿线提供各种指标,从而对适当的算法进行了简短的比较,以预测操纵状态。
translated by 谷歌翻译
洪水是大自然最灾难性的灾难之一,对人类生活,农业,基础设施和社会经济系统造成了不可逆转和巨大的破坏。已经进行了几项有关洪水灾难管理和洪水预测系统的研究。实时对洪水的发作和进展的准确预测是具有挑战性的。为了估计大面积的水位和速度,有必要将数据与计算要求的洪水传播模型相结合。本文旨在减少这种自然灾害的极端风险,并通过使用不同的机器学习模型为洪水提供预测来促进政策建议。这项研究将使用二进制逻辑回归,K-Nearest邻居(KNN),支持向量分类器(SVC)和决策树分类器来提供准确的预测。通过结果,将进行比较分析,以了解哪种模型具有更好的准确性。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
Time Series Forecasting has been an active area of research due to its many applications ranging from network usage prediction, resource allocation, anomaly detection, and predictive maintenance. Numerous publications published in the last five years have proposed diverse sets of objective loss functions to address cases such as biased data, long-term forecasting, multicollinear features, etc. In this paper, we have summarized 14 well-known regression loss functions commonly used for time series forecasting and listed out the circumstances where their application can aid in faster and better model convergence. We have also demonstrated how certain categories of loss functions perform well across all data sets and can be considered as a baseline objective function in circumstances where the distribution of the data is unknown. Our code is available at GitHub: https://github.com/aryan-jadon/Regression-Loss-Functions-in-Time-Series-Forecasting-Tensorflow.
translated by 谷歌翻译
This paper computationally demonstrates a sharp improvement in predictive performance for $k$ nearest neighbors thanks to an efficient forward selection of the predictor variables. We show both simulated and real-world data that this novel repeatedly approaches outperformance regression models under stepwise selection
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
电池性能数据集通常是非正常和多色性的。推断出用于模型预测的这些数据集需要注意这些特性。本研究探讨了数据正常性对建筑机械学习模型的影响。在这项工作中,基于树的回归模型和多元线性回归模型每个都是由具有多卷曲性的高度偏斜的非正常数据集构建。有几种技术是必要的,例如数据转换,以实现具有此数据集的良好多个线性回归模型;讨论了最有用的技术。利用这些技术,最佳的多元线性回归模型达到了R ^ 2 = 81.23%,并且没有对本研究中使用的数据集没有多种性效应。基于树的模型在此数据集上执行更好,因为它们是非参数,能够在变量之间处理复杂关系而不受彩细量的影响。我们在使用随机森林时,我们展示了袋装,减少了过度装备。我们最佳的基于树的模型实现了R ^ 2 = 97.73%的准确性。本研究解释了为什么基于树的回归应该作为非正常分布式多元图数据的机器学习模型。
translated by 谷歌翻译
本文描述了基于RRMSE(相对均方根误差)的权重,以在平均集合投票回归之前的预测值发生。整体回归背后的核心思想是结合几个基本回归模型,以通过数字连续目标变量来提高学习问题的预测性能。合奏投票回归的默认权重设置是统一权重,没有学习任务的领域知识,为预测分配权重是不可能的,这使得很难改善预测。这项工作试图通过实施基于RRMSE的加权函数来改善投票回归的预测。实验表明,与六个流行的回归学习数据集上的其他最先进的合奏回归算法相比,RRMSE投票回归器的预测能够更好地预测。
translated by 谷歌翻译
估计变量的重要性是现代机器学习的重要任务。这有助于评估给定模型中功能的优点。在过去的十年中,已经开发了几种估计变量重要性的技术。在本文中,我们提出了对可变重要性估计的新兴方法的计算和理论探索,即:绝对收缩和选择操作员(LASSO),支持向量机(SVM),预测误差函数(Perf),随机森林(随机森林)( RF)和极端梯度提升(XGBOOST)在不同类型的现实生活和模拟数据上进行了测试。所有这些方法都可以无缝处理回归和分类任务,但是在处理包含丢失值的数据时都失败了。该实现表明,在高度相关数据的情况下,PURD具有最佳性能,紧随其后的是RF。 perf和xgboost是“渴望数据”的方法,它们在小数据尺寸上的性能最差,但在执行时间方面它们是最快的。当数据集中许多冗余功能时,SVM是最合适的。 perf的盈余是其自然截止量的零截止,有助于将正面和负分数分开,所有正分数表明基本和重要的特征,而负面分数表示无用的特征。 RF和Lasso的通用性非常多,尽管它们没有给予最佳效果,但它们几乎可以在所有情况下使用。
translated by 谷歌翻译
KNN分类是一种即兴的学习模式,其中仅当预测测试数据设置适当的K值并从整个训练样本空间搜索K最近邻居时,将它们引用到KNN分类的惰性部分。这一懒散的部分是应用KNN分类的瓶颈问题,因为完全搜索了K最近邻居。在本文中,提出了一步计算来取代KNN分类的惰性部分。一步计算实际上将惰性部分转换为矩阵计算,如下所示。考虑到测试数据,首先应用训练样本以将测试数据与最小二乘损耗功能拟合。然后,通过根据它们对测试数据的影响来加权所有训练样本来生成关系矩阵。最后,采用一个组套索来对关系矩阵进行稀疏学习。以这种方式,设置k值和搜索k最近邻居都集成到统一的计算。此外,提出了一种新的分类规则来改善单步核武器分类的性能。提出的方法是通过实验评估的,并证明了一步核武器分类是有效和有前途的
translated by 谷歌翻译
已经配制了许多预后方法,用于早期发现使用机器学习的PCOS的多囊卵巢综合征。PCOS是二进制分类问题。减少方法对机器学习的性能变得更大,并且使用监督的维度减少方法可以给我们一个新的边缘来解决这个问题。在本文中,我们将不同尺寸的判别分析与线性和二次形式进行不同尺寸,以及二进制分类以及度量。与许多常用的分类算法相比,我们能够达到良好的准确性和判别分析的变化,并且使用二次判别分析达到95.92%的95.92%的测试精度。纸张还提供了具有可视化的数据,以便更深入地了解问题。
translated by 谷歌翻译
Some recent pieces of work in the Machine Learning (ML) literature have demonstrated the usefulness of assessing which observations are hardest to have their label predicted accurately. By identifying such instances, one may inspect whether they have any quality issues that should be addressed. Learning strategies based on the difficulty level of the observations can also be devised. This paper presents a set of meta-features that aim at characterizing which instances of a dataset are hardest to have their label predicted accurately and why they are so, aka instance hardness measures. Both classification and regression problems are considered. Synthetic datasets with different levels of complexity are built and analyzed. A Python package containing all implementations is also provided.
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
通常向用户提出自动模型选择,以选择用于应用给定回归任务的机器学习模型(或方法)。在本文中,我们表明,组合不同的回归模型比选择单个(“最佳”)回归模型可以产生更好的结果,并概述了一种有效的方法,该方法从异质性回归模型集中获得最佳加权凸线性组合。更具体地说,在本文中,在上一篇论文中使用的启发式权重优化被使用凸二次编程的精确优化算法取代。我们证明了直接配方的二次编程公式和具有加权数据点的配方的凸度。新颖的重量优化不仅(更多)精确,而且更有效。我们在本文中开发的方法是通过github-open源实现和提供的。它们可以在常见的硬件上执行,并提供透明且易于解释的接口。结果表明,该方法在一系列数据集上的表现优于模型选择方法,包括来自药物发现应用程序的混合变量类型的数据集。
translated by 谷歌翻译
本文旨在提出和应用机器学习方法,以使用其组件的历史回报数据来分析交易所交易基金(ETF)的回报方向,从而通过交易算法有助于制定投资策略决策。从方法论方面,除了算法误差指标外,还使用来自巴西和美国市场的标准数据集应用了回归和分类模型。在研究结果方面,它们进行了分析并将其与NA \“ Ive”预测和购买和持有技术在同一时期获得的收益进行了比较。就风险和回报而言,模型的性能大多要比控制指标重点是线性回归模型和通过逻辑回归的分类模型,支持向量机(使用LinearsVC模型),高斯天真的贝叶斯和K-Nearest邻居,在某些数据集中,在某些数据集中,回报超过了两次,并且夏普比率高达购买和持有控制模型的比率四倍。
translated by 谷歌翻译
The geographically weighted regression (GWR) is an essential tool for estimating the spatial variation of relationships between dependent and independent variables in geographical contexts. However, GWR suffers from the problem that classical linear regressions, which compose the GWR model, are more prone to be underfitting, especially for significant volume and complex nonlinear data, causing inferior comparative performance. Nevertheless, some advanced models, such as the decision tree and the support vector machine, can learn features from complex data more effectively while they cannot provide explainable quantification for the spatial variation of localized relationships. To address the above issues, we propose a geographically gradient boosting weighted regression model, GWRBoost, that applies the localized additive model and gradient boosting optimization method to alleviate underfitting problems and retains explainable quantification capability for spatially-varying relationships between geographically located variables. Furthermore, we formulate the computation method of the Akaike information score for the proposed model to conduct the comparative analysis with the classic GWR algorithm. Simulation experiments and the empirical case study are applied to prove the efficient performance and practical value of GWRBoost. The results show that our proposed model can reduce the RMSE by 18.3\% in parameter estimation accuracy and AICc by 67.3\% in the goodness of fit.
translated by 谷歌翻译
合奏的基本分支混合合奏在许多机器学习问题,尤其是回归中蓬勃发展。几项研究证实了多样性的重要性。但是,以前的合奏仅考虑在子模型训练阶段的多样性,与单个模型相比,改进有限。相反,本研究从异质模型池中选择和权重子模型。它使用内点过滤线性搜索算法解决了优化问题。这种优化问题创新地将负相关学习作为惩罚项,可以选择多种模型子集。实验结果显示了一些有意义的观点。模型池构造需要不同类别的模型,每个类别都作为子模型为所有可能的参数集。选择每个类的最佳子模型以构建基于NCL的合奏,该集合比子模型的平均值要好得多。此外,与经典常数和非恒定加权方法相比,基于NCL的合奏在几种预测指标中具有重要优势。实际上,由于模型不确定性,很难在事先结论数据集的最佳子模型。但是,我们的方法将获得可比较的精度作为RMSE度量的潜在最佳子模型。总之,这项研究的价值在于它的易用性和有效性,使混合团合奏可以接受多样性和准确性。
translated by 谷歌翻译
Statistical learning is the process of estimating an unknown probabilistic input-output relationship of a system using a limited number of observations. A statistical learning machine (SLM) is the algorithm, function, model, or rule, that learns such a process; and machine learning (ML) is the conventional name of this field. ML and its applications are ubiquitous in the modern world. Systems such as Automatic target recognition (ATR) in military applications, computer aided diagnosis (CAD) in medical imaging, DNA microarrays in genomics, optical character recognition (OCR), speech recognition (SR), spam email filtering, stock market prediction, etc., are few examples and applications for ML; diverse fields but one theory. In particular, ML has gained a lot of attention in the field of cyberphysical security, especially in the last decade. It is of great importance to this field to design detection algorithms that have the capability of learning from security data to be able to hunt threats, achieve better monitoring, master the complexity of the threat intelligence feeds, and achieve timely remediation of security incidents. The field of ML can be decomposed into two basic subfields: \textit{construction} and \textit{assessment}. We mean by \textit{construction} designing or inventing an appropriate algorithm that learns from the input data and achieves a good performance according to some optimality criterion. We mean by \textit{assessment} attributing some performance measures to the constructed ML algorithm, along with their estimators, to objectively assess this algorithm. \textit{Construction} and \textit{assessment} of a ML algorithm require familiarity with different other fields: probability, statistics, matrix theory, optimization, algorithms, and programming, among others.f
translated by 谷歌翻译
最近,在气象学中使用机器学习大大增加了。尽管许多机器学习方法并不是什么新鲜事物,但有关机器学习的大学课程在很大程度上是气象学专业的学生,​​不需要成为气象学家。缺乏正式的教学导致人们认为机器学习方法是“黑匣子”,因此最终用户不愿在每天的工作流程中应用机器学习方法。为了减少机器学习方法的不透明性,并降低了对气象学中机器学习的犹豫,本文对一些最常见的机器学习方法进行了调查。一个熟悉的气象示例用于将机器学习方法背景化,同时还使用普通语言讨论机器学习主题。证明了以下机器学习方法:线性回归;逻辑回归;决策树;随机森林;梯度增强了决策树;天真的贝叶斯;并支持向量机。除了讨论不同的方法外,本文还包含有关通用机器学习过程的讨论以及最佳实践,以使读者能够将机器学习应用于自己的数据集。此外,所有代码(以Jupyter笔记本电脑和Google Colaboratory Notebooks的形式)用于在论文中进行示例,以促进气象学中的机器学习使用。
translated by 谷歌翻译