我们研究了基于数据的多模型线性推理(软)传感器的问题。多模型线性推论传感器有望提高预测准确性,但模型结构和训练的简单性。多模型推断传感器设计的标准方法由三个单独的步骤组成:1)数据标记(建立单个模型的培训子集),2)数据分类(为模型创建切换逻辑),3)楷模。这个概念有两个主要问题:a)作为步骤2)和3)是单独的,在模型之间切换时可能会发生不连续性; b)作为步骤1)和3)是独立的,数据标记无视所得模型的质量。我们的贡献旨在提到这两个问题,在其中,对于问题a),我们引入了一种新型的基于SVM的模型训练,再加上切换逻辑识别,并且对于问题b),我们建议对数据标记进行直接优化。我们在化学工程领域的一个例子中说明了提出的方法及其好处。
translated by 谷歌翻译
支持向量机(SVM)是众所周知的监督学习算法类别之一。此外,圆锥分段SVM(CS-SVM)是标准二进制SVM的天然多类模拟,因为CS-SVM模型正在处理已知数据点的确切值的情况。本文研究数据点不确定或标记时,研究CS-SVM。对于某些分布已知的属性,使用机会约束的CS-SVM方法来确保对不确定数据的错误分类概率很小。给出了几何解释,以显示CS-SVM的工作原理。最后,我们提出了实验结果,以调查CS-SVM的性能的机会限制。
translated by 谷歌翻译
我们为学习限制建立了混合整数优化的广泛方法论基础。我们提出了一种用于数据驱动决策的端到端管道,其中使用机器学习直接从数据中学习限制和目标,并且培训的模型嵌入在优化配方中。我们利用许多机器学习方法的混合整数优化 - 焦点,包括线性模型,决策树,集合和多层的感知。对多种方法的考虑允许我们捕获决策,上下文变量和结果之间的各种潜在关系。我们还使用观察结果的凸船体来表征决策信任区域,以确保可信的建议并避免推断。我们有效地使用列生成和聚类来纳入这个表示。结合域驱动的约束和客观术语,嵌入式模型和信任区域定义了处方生成的混合整数优化问题。我们将此框架实施为从业者的Python包(OptiCl)。我们展示了化疗优化和世界食物计划规划中的方法。案例研究说明了在生成高质量处方的框架中的框架,由信任区域添加的值,加入多个机器学习方法以及包含多个学习约束的框架。
translated by 谷歌翻译
使热处理可控的一种可能的方法是收集有关产品当前状态的实时信息。通常,感觉设备无法轻松或根本捕获所有相关信息。数字双胞胎在实时模拟中使用虚拟探针缩小了这一差距,并与该过程同步。本文提出了一个基于物理的,数据驱动的数字双框架,用于自动食品处理。我们建议使用设备级别可执行的精益数字双胞胎概念,需要最小的计算负载,数据存储和传感器数据要求。这项研究重点是用于热过程的非侵入性降低模型(ROM)的简约实验设计。在训练数据中表面温度的高标准偏差与ROM测试中的均方根误差之间的高标准偏差之间的相关性($ r = -0.76 $)可以有效地选择训练数据。最佳ROM的平均均方根误差小于代表性测试集的1 kelvin(0.2%平均平均百分比误差)。 SP $ \ $ 1.8E4的仿真速度允许进行设备模型预测控制。拟议的数字双框架旨在适用于行业。通常,一旦在未提供对求解器的根级访问(例如商业仿真软件)中执行该过程的建模,就需要一旦在软件中执行该过程的建模,就需要进行非侵入式降级建模。仅使用一个数据集就可以实现降顺序模型的数据驱动训练,因为使用相关性来预测训练成功。
translated by 谷歌翻译
在化学厂的运行过程中,必须始终保持产品质量,并应最大程度地降低规范产品的生产。因此,必须测量与产品质量相关的过程变量,例如工厂各个部分的材料的温度和组成,并且必须根据测量结果进行适当的操作(即控制)。一些过程变量(例如温度和流速)可以连续,即时测量。但是,其他变量(例如成分和粘度)只能通过从植物中抽样物质后进行耗时的分析来获得。已经提出了软传感器,用于估算从易于测量变量实时获得的过程变量。但是,在未记录的情况下(推断),传统统计软传感器的估计精度(由记录的测量值构成)可能非常差。在这项研究中,我们通过使用动态模拟器来估算植物的内部状态变量,该模拟器可以根据化学工程知识和人工智能(AI)技术估算和预测未记录的情况,称为增强学习,并建议使用使用估计植物的内部状态变量作为软传感器。此外,我们描述了使用此类软传感器的植物操作和控制的前景以及为拟议系统获得必要的预测模型(即模拟器)的方法。
translated by 谷歌翻译
许多现实生活中的优化问题通常包含一个或多个没有明确公式的约束或目标。但是,如果可用数据,这些数据可用于学习约束。清楚地看到了这种方法的好处,但是需要以结构化的方式进行此过程。因此,本文提供了一个使用约束学习(OCL)进行优化的框架,我们认为这将有助于正式化和指导从数据中学习的过程。该框架包括以下步骤:(i)设置概念优化模型,(ii)数据收集和预处理,(iii)选择和培训预测模型,(iv)解决优化模型以及(v)验证和验证和验证和验证改进优化模型。然后,我们根据该框架回顾了最近的OCL文献,并强调了当前的趋势以及未来研究的领域。
translated by 谷歌翻译
质量不足的质量生产可能会对工具,生产下降和低质量产品造成极为昂贵的损害。非常需要自动,快速和廉价的策略来估算质量控制,降低风险和故障预测的重要材料特性。在这项工作中,我们分析了高吞吐量的基于钢的产品。目前,使用手动破坏性测试检查材料质量,该测试缓慢,浪费,仅覆盖一小部分材料。为了获得完整的测试覆盖范围,我们的工业合作者开发了一种非接触式,无创的电磁传感器,以实时测量所有材料。我们的贡献是三个方面:1)我们在受控的实验中表明,传感器可以通过故意改变特性区分钢。 2)对48个钢管进行了全面测量,并对样品进行了其他破坏性测试,以作为地面真理。拟合线性模型可从非侵入性测量中预测通常通过破坏性测试获得的两种关键材料特性(屈服强度和拉伸强度)。在剩余的交叉验证中评估性能。 3)所得模型用于分析用非侵入性传感器测量的〜108 km的处理材料的实际生产数据上的材料特性和与记录的产品故障的关系。该模型实现了出色的性能(F3得分为0.95),预测材料的拉伸强度规格不足。模型预测和记录的产品故障的组合表明,如果大量的估计收益应力值不超出规格,则产品故障的风险很高。我们的分析证明了实时质量控制,风险监控和故障检测的有希望的方向。
translated by 谷歌翻译
能源部门的深度脱碳将需要大量的随机可再生能源渗透和大量的网格资产协调。对于面对这种变化而负责维持电网稳定性和安全性的电力系统运营商来说,这是一个具有挑战性的范式。凭借从复杂数据集中学习并提供有关快速时间尺度的预测解决方案的能力,机器学习(ML)得到了很好的选择,可以帮助克服这些挑战,因为在未来几十年中,电力系统转变。在这项工作中,我们概述了与构建可信赖的ML模型相关的五个关键挑战(数据集生成,数据预处理,模型培训,模型评估和模型嵌入),这些模型从基于物理的仿真数据中学习。然后,我们演示如何将单个模块连接在一起,每个模块都克服了各自的挑战,在机器学习管道中的顺序阶段,如何有助于提高训练过程的整体性能。特别是,我们实施了通过反馈连接学习管道的不同元素的方法,从而在模型培训,绩效评估和重新训练之间“关闭循环”。我们通过学习与拟议的北海风能中心系统的详细模型相关的N-1小信号稳定性边缘来证明该框架,其组成模块的有效性及其反馈连接。
translated by 谷歌翻译
自动数据收集方案的扩散和传感器的进步正在增加我们能够实时监控的数据量。但是,鉴于高注册成本和质量检查所需的时间,数据通常以未标记的形式获得。这正在促进使用主动学习来开发软传感器和预测模型。在生产中,通过评估未标记数据的信息内容来收集标签,而不是进行随机检查以获取产品信息。文献中已经提出了一些有关回归的查询策略框架,但大多数重点都专门用于基于静态池的场景。在这项工作中,我们为基于流的方案提出了一种新的策略,在该方案中,将实例顺序提供给学习者,该实例必须立即决定是否执行质量检查以获取标签或丢弃实例。该方法受到最佳实验设计理论的启发,决策过程的迭代方面是通过对未标记数据点的信息设定阈值来解决的。使用数值模拟和田纳西州伊士曼工艺模拟器评估所提出的方法。结果证实,选择提出的算法建议的示例可以更快地减少预测误差。
translated by 谷歌翻译
天然气管道中的泄漏检测是石油和天然气行业的一个重要且持续的问题。这尤其重要,因为管道是运输天然气的最常见方法。这项研究旨在研究数据驱动的智能模型使用基本操作参数检测天然气管道的小泄漏的能力,然后使用现有的性能指标比较智能模型。该项目应用观察者设计技术,使用回归分类层次模型来检测天然气管道中的泄漏,其中智能模型充当回归器,并且修改后的逻辑回归模型充当分类器。该项目使用四个星期的管道数据流研究了五个智能模型(梯度提升,决策树,随机森林,支持向量机和人工神经网络)。结果表明,虽然支持向量机和人工神经网络比其他网络更好,但由于其内部复杂性和所使用的数据量,它们并未提供最佳的泄漏检测结果。随机森林和决策树模型是最敏感的,因为它们可以在大约2小时内检测到标称流量的0.1%的泄漏。所有智能模型在测试阶段中具有高可靠性,错误警报率为零。将所有智能模型泄漏检测的平均时间与文献中的实时短暂模型进行了比较。结果表明,智能模型在泄漏检测问题中的表现相对较好。该结果表明,可以与实时瞬态模型一起使用智能模型,以显着改善泄漏检测结果。
translated by 谷歌翻译
双支持向量机(TWSVM)和双支持向量回归(TSVR)是新兴有效的机器学习技术,可分别为分类和回归挑战提供了有希望的解决方案。 TWSVM基于该想法来识别两个非平行超平面,将数据指向其各自的类分类。它需要解决两个小型大小的二次编程问题(QPPS)代替求解单个大尺寸QPP在支持向量机(SVM),而TSVR配制在TWSVM的线上,并要求解决两个SVM类问题。虽然这些技术已经有很好的研究进展;关于TSVR的不同变体的比较有限的文献。因此,本综述对TWSVM和TSVR的最近研究同时提到了它们的局限性和优势,对最近的研究提供了严格的分析。首先,首先介绍支持向量机,TWSVM的基本理论,然后专注于TWSVM的各种改进和应用,然后介绍TSVR及其各种增强功能。最后,我们建议未来的研发前景。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
批处理过程显示了几种可变性来源,从原材料的特性到制造过程中不同事件期间变化的初始和不断发展的条件。在本章中,我们将用一个工业示例说明如何使用机器学习来减少这种明显的数据,同时维护过程工程师的相关信息。将提出两个常见的用例:1)自动分析以快速找到批处理过程中的相关性,以及2)轨迹分析以监视和识别异常批次,从而导致过程控制改进。
translated by 谷歌翻译
Variable and feature selection have become the focus of much research in areas of application for which datasets with tens or hundreds of thousands of variables are available. These areas include text processing of internet documents, gene expression array analysis, and combinatorial chemistry. The objective of variable selection is three-fold: improving the prediction performance of the predictors, providing faster and more cost-effective predictors, and providing a better understanding of the underlying process that generated the data. The contributions of this special issue cover a wide range of aspects of such problems: providing a better definition of the objective function, feature construction, feature ranking, multivariate feature selection, efficient search methods, and feature validity assessment methods.
translated by 谷歌翻译
Surrogate models have shown to be an extremely efficient aid in solving engineering problems that require repeated evaluations of an expensive computational model. They are built by sparsely evaluating the costly original model and have provided a way to solve otherwise intractable problems. A crucial aspect in surrogate modelling is the assumption of smoothness and regularity of the model to approximate. This assumption is however not always met in reality. For instance in civil or mechanical engineering, some models may present discontinuities or non-smoothness, e.g., in case of instability patterns such as buckling or snap-through. Building a single surrogate model capable of accounting for these fundamentally different behaviors or discontinuities is not an easy task. In this paper, we propose a three-stage approach for the approximation of non-smooth functions which combines clustering, classification and regression. The idea is to split the space following the localized behaviors or regimes of the system and build local surrogates that are eventually assembled. A sequence of well-known machine learning techniques are used: Dirichlet process mixtures models (DPMM), support vector machines and Gaussian process modelling. The approach is tested and validated on two analytical functions and a finite element model of a tensile membrane structure.
translated by 谷歌翻译
社会偏移和温度筛选已被广泛用于抵消Covid-19大流行,从全世界的学术界,工业和公共主管部门引发极大的兴趣。虽然大多数解决方案分别处理了这些方面,但它们的组合将极大地利用对公共空间的持续监测,并有助于触发有效的对策。这项工作介绍了毫米杀虫雷达和红外成像传感系统,在室内空间中进行了不引人注目的和隐私,在室内空间中进行了不显眼和隐私。 Millitrace-IR通过强大的传感器融合方法,MM波雷达和红外热摄像机结合。它通过在热摄像机图像平面和雷达参考系统中的人体运动中共同跟踪受试者的面,实现了偏移和体温的完全自动测量。此外,毫米itrace-IR执行接触跟踪:热相机传感器可靠地检测体温高的人,随后通过雷达以非侵入方式追踪大型室内区域。进入新房间时,通过深神经网络从雷达反射计算与雷达反射的步态相关的特征,并使用加权的极端学习机作为最终重新识别工具,在其他人之间重新识别一个主题。从实际实施中获得的实验结果,从毫米 - IR的实际实施中展示了距离/轨迹估计的排入量级精度,个人间距离估计(对受试者接近0.2米的受试者有效),以及精确的温度监测(最大误差0.5 {\ deg} c)。此外,毫米itrace-IR通过高精度(95%)的人重新识别,在不到20秒内提供接触跟踪。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
本文介绍了适用于各种实用多机器人应用的分布式算法。在这种多机器人应用中,使命的用户定义目标可以作为一般优化问题投射,而无需每个不同机器人的子任务的明确指南。由于环境未知,未知的机器人动态,传感器非线性等,优化成本函数的分析形式不可用。因此,标准梯度 - 下降样算法不适用于这些问题。为了解决这个问题,我们介绍了一种新的算法,仔细设计每个机器人的子变速功能,优化可以实现整个团队目标。在该转换时,我们提出了一种基于基于认知的自适应优化(CAO)算法的分布式方法,其能够近似每个机器人成本函数的演变并充分优化其决策变量(机器人动作)。后者可以通过在线学习来实现影响特派团目标的特定特定特征。总体而言,低复杂性算法可以简单地结合任何类型的操作约束,是容错的,并且可以适当地解决时变的成本函数。这种方法的基石是它与块坐标血管下降算法相同的收敛特征。该算法在多种方案下的三个异构模拟设置中评估,针对通用和特定于问题的算法。源代码可在\ url {https://github.com/athakapo/a-distributed-plug-lobot-applications}中获得。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译