智能论文笔记

Hardness prediction of age-hardening aluminum alloy based on ensemble learning

Zuo Houchen , Jiang Yongquan , Yang Yan , Liu Baoying , Hu Jie

分类：机器学习

2022-06-16

随着人工智能的快速发展，材料数据库和机器学习的结合促进了材料信息学的进步。因为铝合金在许多领域被广泛使用，因此预测铝合金的性质是很重要的。在本文中，使用Al-Cu-Mg-X（X：Zn，Zr等）合金的数据输入组成，衰老条件（时间和温度）并预测其硬度。分别提出了基于自动机器学习和引入深度神经网络二级学习者的注意机制的集合学习解决方案。实验结果表明，选择正确的二级学习者可以进一步提高模型的预测准确性。该手稿介绍了基于深神经网络的二级学习者的注意机制，并获得了具有更好性能的融合模型。最佳模型的R平方为0.9697，MAE为3.4518hv。

translated by 谷歌翻译

Prediction of superconducting properties of materials based on machine learning models

Jie Hu , Yongquan Jiang , Yang Yan , Houchen Zuo

分类：机器学习

2022-11-06

The application of superconducting materials is becoming more and more widespread. Traditionally, the discovery of new superconducting materials relies on the experience of experts and a large number of "trial and error" experiments, which not only increases the cost of experiments but also prolongs the period of discovering new superconducting materials. In recent years, machine learning has been increasingly applied to materials science. Based on this, this manuscript proposes the use of XGBoost model to identify superconductors; the first application of deep forest model to predict the critical temperature of superconductors; the first application of deep forest to predict the band gap of materials; and application of a new sub-network model to predict the Fermi energy level of materials. Compared with our known similar literature, all the above algorithms reach state-of-the-art. Finally, this manuscript uses the above models to search the COD public dataset and identify 50 candidate superconducting materials with possible critical temperature greater than 90 K.

translated by 谷歌翻译

Click Prediction Boosting via Ensemble Learning Pipelines

Çağatay Demirel , A. Aylin Tokuç , Ahmet Tezcan Tekin

分类：机器学习

2022-06-07

在线旅行社（OTA）的网站在元搜索竞标引擎上宣传。预测酒店将收到的单击数量的给定出价金额的问题是管理元搜索引擎上OTA广告活动的重要一步，因为出价时间的点击次数定义了要生成的成本。在这项工作中，各种回归器都结束了，以提高点击预测性能。按照预处理程序，将功能集分为火车和测试组，具体取决于样品的记录日期。然后，将数据收集进行基于XGBoost的缩小降低，从而大大降低了特征的维度。然后通过将贝叶斯高参数优化应用于XGBoost，LightGBM和SGD模型来找到最佳的高参数。单独测试了十种不同的机器学习模型，并将它们组合在一起以创建合奏模型。提出了三种替代合奏解决方案。相同的测试集用于测试单个和集合模型，46个模型组合的结果表明，堆栈集合模型得出所有的R2分数。总之，整体模型将预测性能提高了约10％。

translated by 谷歌翻译

Machine Learning-based Prediction of Porosity for Concrete Containing Supplementary Cementitious Materials

Chong Cao

分类：机器学习

2021-12-13

孔隙度已被识别为混凝土耐久性特性的关键指标暴露于侵略性环境。本文采用集体学习来预测含有补充水泥材料的高性能混凝土的孔隙率。本研究中使用的混凝土样品的特征在于八种组合物特征，包括W / B比，粘合剂含量，粉煤灰，GGB，过度塑化剂，粗/细骨料比，固化条件和固化天。组装数据库由240个数据记录组成，具有74个独特的混凝土混合设计。所提出的机器学习算法在从数据集中随机选择的180个观察（75％）培训，然后在剩余的60个观察中进行测试（25％）。数值实验表明，回归树集合可以精确地预测其混合组合物的混凝土的孔隙率。梯度提升树木通常在预测准确性方面优于随机森林。对于随机森林，发现基于袋出错的误差的超参数调整策略比K倍交叉验证更有效。

translated by 谷歌翻译

Leak Detection in Natural Gas Pipeline Using Machine Learning Models

Adebayo Oshingbesan

分类：机器学习

2022-09-21

天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要，因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力，然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术，使用回归分类层次模型来检测天然气管道中的泄漏，其中智能模型充当回归器，并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型（梯度提升，决策树，随机森林，支持向量机和人工神经网络）。结果表明，虽然支持向量机和人工神经网络比其他网络更好，但由于其内部复杂性和所使用的数据量，它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的，因为它们可以在大约2小时内检测到标称流量的0.1％的泄漏。所有智能模型在测试阶段中具有高可靠性，错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明，智能模型在泄漏检测问题中的表现相对较好。该结果表明，可以与实时瞬态模型一起使用智能模型，以显着改善泄漏检测结果。

translated by 谷歌翻译

Learning to predict test effectiveness

Morteza Zakeri-Nasrabadi , Saeed Parsa

分类：机器学习

2022-08-20

只要可以预见的是测试代码的固有特征，可以大大降低测试的高成本。本文提供了一种机器学习模型，以预测测试可以在多大程度上覆盖一个名为Coverabeality的新指标。预测模型由四个回归模型的集合组成。学习样本由特征向量组成，其中特征是为类计算的源代码指标。样品由针对其相应类计算的覆盖率值标记。我们提供了一个数学模型，以评估每个班级自动生成的测试套件的尺寸和覆盖范围的测试效果。我们通过引入一种新方法来根据现有源代码指标来定义子计量数来扩展功能空间的大小。使用功能重要性分析在学习的预测模型上，我们按照对测试效果的影响顺序对源代码指标进行排序。结果，我们发现类别严格的循环复杂性是最有影响力的源代码度量。我们对包含大约23,000个类的大型Java项目的预测模型进行的实验表明，平均绝对误差（MAE）为0.032，平均平方误差（MSE）为0.004，R2得分为0.855。与最先进的覆盖范围预测模型相比，我们的模型分别提高了MAE，MSE和R2得分5.78％，2.84％和20.71％。

translated by 谷歌翻译

Evolutionary bagged ensemble learning

Giang Ngo , Rodney Beard , Rohitash Chandra

分类：神经与进化计算 | 人工智能

2022-08-04

合奏学习在机器学习方面取得了成功，比其他学习方法具有重大优势。袋装是一种突出的合奏学习方法，它创建了被称为袋子的数据子组，该数据被单独的机器学习方法（例如决策树）培训。随机森林是学习过程中具有其他功能的袋装的重要例子。 \ textColor {black} {当单个学习者具有较高的偏见时，包装的限制是汇总预测中的高偏置（模型不足）。}进化算法已突出用于优化问题，并且也用于机器学习。进化算法是无梯度的方法，具有多种候选解决方案，可维持创建新解决方案的多样性。在传统的包装合奏学习中，制作了一次袋子，而在培训示例方面，内容是在学习过程中固定的。在我们的论文中，我们提出了进化装袋的合奏学习，我们利用进化算法来发展袋子的内容，以通过迭代袋中提供多样性来增强合奏。结果表明，在某些约束下，我们的进化合奏装袋方法优于几个基准数据集的常规合奏方法（包装和随机森林）。进化装袋可以固有地维持一套不同的行李，而无需牺牲任何数据。

translated by 谷歌翻译

Predicting Lattice Phonon Vibrational Frequencies Using Deep Graph Neural Networks

Nghia Nguyen , Steph-Yves Louis , Lai Wei , Kamal Choudhary , Ming Hu , Jianjun Hu

分类：机器学习

2021-11-10

格子振动频率与许多重要的材料属性有关，例如热和导电性以及超导性。然而，使用密度泛函理论（DFT）方法的振动频率的计算计算过于计算地要求大量的材料筛选样本。在这里，我们提出了一种基于深度的基于神经网络的基于神经网络的算法，用于预测具有高精度的晶体结构的晶振频率。我们的算法使用零填充方案来解决振动频谱的变量尺寸。有关15,000和35552个样本的两个数据集的基准研究表明，汇总$ ^ 2 $分别分别达到0.554和0.724。我们的作品展示了深图神经网络的能力，除了输出尺寸是恒定的状态（DOS）和电子DOS的声子密度之外，还可以学习晶体结构的声光谱性能。

translated by 谷歌翻译

Transfer Learning and Vision Transformer based State-of-Health prediction of Lithium-Ion Batteries

Pengyu Fu , Liang Chu , Zhuoran Hou , Jincheng Hu , Yanjun Huang , Yuanjian Zhang

分类：计算机视觉 | 人工智能

2022-09-07

近年来，在运输电气化方面取得了重大进展。作为主要的储能设备，锂离子电池（LIB）已受到广泛关注。准确地预测健康状况（SOH）不仅可以缓解用户对电池寿命的焦虑，而且还可以为电池管理提供重要信息。本文提出了一种基于视觉变压器（VIT）模型的SOH的预测方法。首先，预定义电压范围的离散充电数据用作输入数据矩阵。然后，电池的循环特征是由VIT捕获的，可以获得可以获得全局特征，并且通过将循环特征与完整连接（FC）层相结合来获得SOH。同时，引入了转移学习（TL），并根据目标任务电池的早期周期数据进一步微调基于源任务电池训练的预测模型，以提供准确的预测。实验表明，与现有的深度学习方法相比，我们的方法可以获得更好的特征表达，从而可以实现更好的预测效果和传递效果。

translated by 谷歌翻译

A unified interpretable intelligent learning diagnosis framework for smart education

Zhifeng Wang , Wenxing Yan , Chunyan Zeng , Shi Dong

分类：人工智能

2022-07-07

智能学习诊断是智能教育的关键引擎，旨在估计学习者当前的知识掌握状态并预测其未来的学习绩效。传统学习诊断方法的重大挑战是无法平衡诊断准确性和解释性。为了解决上述问题，提议的统一可解释的智能学习诊断框架从深度学习的强大表示能力和心理测量的可解释性中受益，实现了学习预测的良好表现，并从三个方面提供了解释性：认知参数，学习者 - 资源响应网络和自我注意机制的权重。在拟议的框架内，本文提出了两通道学习诊断机制LDM-ID以及三通道学习诊断机制LDM-HMI。在两个现实世界数据集和模拟数据集上进行的实验表明，与最先进的模型相比，我们的方法在预测学习者的表现方面具有更高的准确性，并且可以为精确学习资源建议和诸如精确学习资源建议和应用程序提供有价值的教育解释性个性化的学习辅导在智能教育中。

translated by 谷歌翻译

Machine Learning to Predict the Antimicrobial Activity of Cold Atmospheric Plasma-Activated Liquids

Mehmet Akif Ozdemir , Gizem Dilara Ozdemir , Merve Gul , Onan Guren , Utku Kursat Ercan

分类：机器学习

2022-07-25

血浆定义为物质的第四个状态，在高电场下可以在大气压下产生非热血浆。现在众所周知，血浆激活液体（PAL）的强和广谱抗菌作用。机器学习（ML）在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此，在PALS上的ML应用可以提出一种新的观点，以更好地了解各种参数对其抗菌作用的影响。在本文中，通过使用先前获得的数据来定性预测PAL的体外抗菌活性，从而介绍了比较监督的ML模型。进行了文献搜索，并从33个相关文章中收集了数据。在所需的预处理步骤之后，将两种监督的ML方法（即分类和回归）应用于数据以获得微生物灭活（MI）预测。对于分类，MI分为四类，对于回归，MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略，以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明，高参数优化的随机森林分类器（ORFC）和随机森林回归者（ORFR）分别比其他模型进行了分类和回归的模型更好。最后，获得ORFC的最佳测试精度为82.68％，ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外，此类发现可能有助于将来的血浆剂量定义。

translated by 谷歌翻译

Profitable Strategy Design for Trades on Cryptocurrency Markets with Machine Learning Techniques

Mohsen Asgari , Hossein Khasteh

分类：人工智能

2021-05-14

AI和数据驱动的解决方案已应用于不同的领域，并实现了优于和有希望的结果。在这项研究工作中，我们应用了K-Neart最邻居，极端的梯度提升和随机森林分类器来检测三个加密货币市场的趋势问题。我们使用这些分类器来设计一种在这些市场中进行交易的策略。我们在实验中的输入数据包括在单独的测试中使用或没有技术指标的价格数据，以查看使用它们的效果。我们对看不见数据的测试结果非常有前途，并在帮助具有专家系统的投资者利用市场并获利的投资者方面具有巨大的潜力。我们看不见的66天跨度的最高利润因子是1.60。我们还讨论了这些方法的局限性及其对有效市场假设的潜在影响。

translated by 谷歌翻译

Ensemble deep learning: A review

M. A. Ganaie , Minghui Hu , A. K. Malik , M. Tanveer , P. N. Suganthan

分类：机器学习 | 人工智能 | 计算机视觉

2021-04-06

合奏学习结合了几个单独的模型，以获得更好的概括性能。目前，与浅层或传统模型相比，深度学习体系结构表现更好。深度合奏学习模型结合了深度学习模型以及整体学习的优势，使最终模型具有更好的概括性能。本文回顾了最先进的深度合奏模型，因此是研究人员的广泛摘要。合奏模型广泛地分类为包装，增强，堆叠，基于负相关的深度合奏模型，显式/隐式合奏，同质/异质合奏，基于决策融合策略的深层集合模型。还简要讨论了在不同领域中深层集成模型的应用。最后，我们以一些潜在的未来研究方向结束了本文。

translated by 谷歌翻译

A hybrid ensemble method with negative correlation learning for regression

Yun Bai , Ganglin Tian , Yanfei Kang , Suling Jia

分类：机器学习

2021-04-06

合奏的基本分支混合合奏在许多机器学习问题，尤其是回归中蓬勃发展。几项研究证实了多样性的重要性。但是，以前的合奏仅考虑在子模型训练阶段的多样性，与单个模型相比，改进有限。相反，本研究从异质模型池中选择和权重子模型。它使用内点过滤线性搜索算法解决了优化问题。这种优化问题创新地将负相关学习作为惩罚项，可以选择多种模型子集。实验结果显示了一些有意义的观点。模型池构造需要不同类别的模型，每个类别都作为子模型为所有可能的参数集。选择每个类的最佳子模型以构建基于NCL的合奏，该集合比子模型的平均值要好得多。此外，与经典常数和非恒定加权方法相比，基于NCL的合奏在几种预测指标中具有重要优势。实际上，由于模型不确定性，很难在事先结论数据集的最佳子模型。但是，我们的方法将获得可比较的精度作为RMSE度量的潜在最佳子模型。总之，这项研究的价值在于它的易用性和有效性，使混合团合奏可以接受多样性和准确性。

translated by 谷歌翻译

Evaluating State of the Art, Forecasting Ensembles- and Meta-learning Strategies for Model Fusion

Pieter Cawood , Terence van Zyl

分类：机器学习 | 人工智能

2022-03-07

杂交和集合学习技术是改善预测方法的预测能力的流行模型融合技术。通过有限的研究，将这两种有前途的方法结合在一起，本文着重于不同合奏的基础模型池中指数平滑的旋转神经网络（ES-RNN）的实用性。我们将某些最先进的结合技术和算术模型平均作为基准进行比较。我们对M4预测数据集进行了100,000个时间序列，结果表明，基于特征的预测模型平均（FFORFORA）平均是与ES-RNN的晚期数据融合的最佳技术。但是，考虑到M4的每日数据子集，堆叠是处理所有基本模型性能相似的情况下唯一成功的合奏。我们的实验结果表明，与N-Beats作为基准相比，我们达到了艺术的预测结果。我们得出的结论是，模型平均比模型选择和堆叠策略更强大。此外，结果表明，提高梯度对于实施合奏学习策略是优越的。

translated by 谷歌翻译

Heterogeneous Ensemble Learning for Enhanced Crash Forecasts -- A Frequentest and Machine Learning based Stacking Framework

Numan Ahmad , Behram Wali , Asad J. Khattak

分类：机器学习

2022-07-21

多种统计和机器学习方法用于使用机器学习方法在特定道路上建模崩溃频率，通常具有更高的预测准确性。最近，包括堆叠在内的异质集合方法（HEM）已成为更准确和强大的智能技术，并且通常通过提供更可靠和准确的预测来解决模式识别问题。在这项研究中，我们将堆叠的关键下摆方法之一应用于城市和郊区动脉的五个车道段（5T）上的崩溃频率。将堆叠的预测性能与参数统计模型（泊松和负二项式）和三种最先进的机器学习技术（决策树，随机森林和梯度增强）进行了比较，每种技术都被称为基础学习者。通过采用最佳的体重方案通过堆叠结合单个基础学习者，由于规格和预测准确性的差异，各个基础学习者中有偏见的预测问题可以避免。从2013年到2017年收集并集成了包括崩溃，流量和道路清单在内的数据。数据分为培训，验证和测试数据集。统计模型的估计结果表明，除其他因素外，崩溃随着不同类型的车道的密度（每英里数）的增加而增加。各种模型的样本外预测的比较证实了堆叠优于所考虑的替代方法的优越性。从实际的角度来看，堆叠可以提高预测准确性（与仅使用具有特定规范的基本学习者相比）。当系统地应用时，堆叠可以帮助确定更合适的对策。

translated by 谷歌翻译

Tab2vox: CNN-Based Multivariate Multilevel Demand Forecasting Framework by Tabular-To-Voxel Image Conversion

Euna Lee , Myungwoo Nam , Hongchul Lee

分类： (统计)机器学习 | 机器学习

2022-09-21

由于需求受到各种原因的影响，因此有必要将解释变量分解为不同的层次，有效地提取其关系，并在预测中反映它们。特别是，这种上下文信息在需求预测中可能非常有用，并且需求波动或间歇性需求模式。卷积神经网络（CNN）已成功地用于图像中重要信息的许多领域。 CNN之所以强大，是因为它们接受样品作为图像，并使用相邻的体素集以整合多维重要信息并学习重要功能。另一方面，尽管需求重新销售模型已得到改进，但输入数据仍以其表格形式有限，不适合CNN建模。在这项研究中，我们提出了一个TAB2VOX神经体系结构搜索（NAS）模型，作为一种将高维表的SAM-PLA转换为形式良好的3D Voxel图像并将其用于3D CNN网络中的方法。对于每个图像代表句号，与现有的时间序列和使用表格数据以及最新图像转换研究的现有时间序列和机器学习技术相比，从TAB2VOX框架提出的3D CNN预测模型显示出Supe-Rior的性能。

translated by 谷歌翻译

IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective

Li Yang , Abdallah Shami

分类：机器学习

2022-09-16

近年来，随着传感器和智能设备的广泛传播，物联网（IoT）系统的数据生成速度已大大增加。在物联网系统中，必须经常处理，转换和分析大量数据，以实现各种物联网服务和功能。机器学习（ML）方法已显示出其物联网数据分析的能力。但是，将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战，特别是有效的模型选择，设计/调整和更新，这给经验丰富的数据科学家带来了巨大的需求。此外，物联网数据的动态性质可能引入概念漂移问题，从而导致模型性能降解。为了减少人类的努力，自动化机器学习（AUTOML）已成为一个流行的领域，旨在自动选择，构建，调整和更新机器学习模型，以在指定任务上实现最佳性能。在本文中，我们对Automl区域中模型选择，调整和更新过程中的现有方法进行了审查，以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法，在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后，我们讨论并分类了该领域的挑战和研究方向。

translated by 谷歌翻译

A Survey on Ensemble Learning under the Era of Deep Learning

Yongquan Yang , Haijun Lv , Ning Chen

分类：机器学习 | 人工智能

2021-01-21

由于深度学习（主要是深度神经网络）在各种人工智能应用中的主导地位，最近基于深度神经网络（集成深度学习）的合奏学习表明，在改善学习系统的概括方面表现出了重要的表现。但是，由于现代深层神经网络通常具有数百万到数十亿的参数，因此训练多个基础深度学习者和与合奏深层学习者进行测试的时间和空间远大于传统的合奏学习。尽管已经提出了一些快速整体深度学习的算法，以促进某些应用程序中的集合深度学习的部署，但仍需要在特定领域的许多应用程序中取得进一步的进步，在这些领域中，开发时间和计算资源通常受到限制或数据。要处理的是很大的维度。需要解决的紧急问题是如何利用整体深度学习的重要优势，同时减少所需的费用，从而使特定领域的更多应用程序可以从中受益。为了减轻这个问题，必须了解在深度学习时代的合奏学习如何发展。因此，在本文中，我们提出了基本讨论，重点关注已发表的作品，方法，最新进展和传统合奏学习和整体深度学习的不可涉及的数据分析。我们希望本文将有助于实现在深度学习时代，合奏学习未来发展所面临的内在问题和技术挑战。

translated by 谷歌翻译

DCDetector: An IoT terminal vulnerability mining system based on distributed deep ensemble learning under source code representation

Wen Zhou

分类：人工智能

2022-11-29

Context: The IoT system infrastructure platform facility vulnerability attack has become the main battlefield of network security attacks. Most of the traditional vulnerability mining methods rely on vulnerability detection tools to realize vulnerability discovery. However, due to the inflexibility of tools and the limitation of file size, its scalability It is relatively low and cannot be applied to large-scale power big data fields. Objective: The goal of the research is to intelligently detect vulnerabilities in source codes of high-level languages such as C/C++. This enables us to propose a code representation of sensitive sentence-related slices of source code, and to detect vulnerabilities by designing a distributed deep ensemble learning model. Method: In this paper, a new directional vulnerability mining method of parallel ensemble learning is proposed to solve the problem of large-scale data vulnerability mining. By extracting sensitive functions and statements, a sensitive statement library of vulnerable codes is formed. The AST stream-based vulnerability code slice with higher granularity performs doc2vec sentence vectorization on the source code through the random sampling module, obtains different classification results through distributed training through the Bi-LSTM trainer, and obtains the final classification result by voting. Results: This method designs and implements a distributed deep ensemble learning system software vulnerability mining system called DCDetector. It can make accurate predictions by using the syntactic information of the code, and is an effective method for analyzing large-scale vulnerability data. Conclusion: Experiments show that this method can reduce the false positive rate of traditional static analysis and improve the performance and accuracy of machine learning.

translated by 谷歌翻译