本文基于从SCADA系统收集的数据,提出了一种新颖灵活的故障预测解决方案。基于数据驱动方法提供两种不同级别的故障预测:(a)通用故障/状态预测和(b)特定故障类预测,通过基于无监督聚类算法和模式识别神经网络的两种基于机器学习的模块实现分别是网络。模型已经在六个光伏(PV)工厂的公园进行了评估,该工厂的功率高达10兆瓦,而且还有三个不同技术品牌的一百个逆变器模块。结果表明,所提出的方法在以下方面是有效的:(a)提前7天预测受试者一般性故障,灵敏度高达95%;(b)预测特定故障类别的损坏,时间从几小时到7天不等。该模型可轻松部署,用于在新的光伏电站和技术上进行在线监测,只需要提供历史SCADA和故障数据,故障分类和逆变器电气数据表。关键词:数据挖掘,故障预测,逆变模块,KeyPerformance指标,丢失生产
translated by 谷歌翻译
考虑到基于语义wiki引擎的平台的演变,可以区分两种主要方法:用于Wiki(OfW)和Wikisfor Ontologies(WfO)的本体。 OfW愿景需要导入现有的本体。它们中的大多数使用基于RDF(资源描述框架)的系统与标准SQL(结构化查询语言)数据库相结合来管理和查询语义数据。但是,关系数据库不是语义数据的理想存储类型。 SMW(SemanticMediaWiki)的更自然的数据模型是RDF,这是一种数据格式,用于在固定数据库表中的图形中组织信息。本文提出了一种基于本体的体系结构,旨在实现这一理念。该体系结构主要包括三层功能体系结构:Web用户界面层,语义层和持久层。
translated by 谷歌翻译
电子健康记录(EHRs)的普及率的提高改变了患者护理的方式。机器学习模型可利用存储在EHR中的丰富的异构和临时数据空间来捕获基础信息并进行临床相关预测。这可用于支持公共卫生活动,如药物警戒,并专门减轻AdverseDrug Events(ADEs)的公共卫生问题。因此,本文的目的是研究处理时态数据的各种方法,以便检测ADE。在回顾现有文献的基础上,对过去10年的11篇文章进行了研究。根据检索的文献,发现主要方法分为5种不同的方法:基于时间抽象,基于图形,学习权重和包含不同长度的时间序列的数据表。为此,EHR是一个有价值的资源,它引领了当前对ADE自动检测的研究。然而,仍存在大量挑战,涉及利用EHR中包含的时间信息来预测ADE的异构数据类型的利用。
translated by 谷歌翻译
在用于检测图像中的曲线的霍夫变换技术的框架中,我们提供了用于在识别算法中成功优化累加器函数的霍夫变换的数量的界限。这种界限是几何论证的结果。当应用于受噪声强烈扰动的合成数据集时,我们还展示了结果的稳健性。附录中讨论的代数方法导致在确切情况下理论兴趣的更好界限。
translated by 谷歌翻译
本文介绍了如何适当采用和调整用于构建基于心电图(ECG)的生物特征认证方案的机器学习(ML)技术的框架。所提出的框架可以帮助研究人员和开发人员基于ECG的生物识别认证机制定义所需数据集的边界,并获得良好的培训数据。为了确定数据集的边界,采用用例分析。基于基于ECG的身份验证的各种应用场景,开发了三种用例(或认证类别)。通过向相应的机器学习方案提供更合格的训练数据,基于ML的ECG生物认证机制的精确性增加了无关紧要。在该框架中利用具有R峰锚定的ECG时间切片技术来获得具有良好质量的ML训练数据。在提出的框架中,引入了四个新的度量指标来评估ML训练和测试数据的质量。此外,开发了一个Matlab工具箱,其中包含所有提出的机制,度量和样本数据以及使用各种ML技术的演示,并且可供公众进一步研究。为了开发基于ML的ECG生物认证,所提出的框架可以指导研究人员准备适当的ML设置和ML训练数据集以及三个识别的用户案例场景。对于采用ML技术在其他研究领域设计新方案的研究人员而言,所提出的框架仍然可用于生成具有良好质量的ML基训练和测试数据集并利用新的测量方法。
translated by 谷歌翻译
数据增加正在机器学习中迅速受到关注。 Syntheticdata可以通过简单的转换或通过数据分布生成。在后一种情况下,主要的挑战是估计新的合成模式。本文研究了在支持向量机的半监督学习框架中,通过凸模式组合生成合成数据的效果及其作为无监督信息的使用,从而避免了标注合成实例的需要。在总共53个二进制分类数据集上执行实验。我们的研究结果表明,这种类型的数据过采样支持半监督学习中众所周知的聚类假设,显示出优秀的结果,可以得到高维数据集和不平衡的学习问题。
translated by 谷歌翻译
天气和大气模式通常是持久的。最简单的天气预报方法是所谓的持久性模型,它假定系统的未来状态与当前状态相似(或相等)。机器学习(ML)模型广泛用于不同的天气预报应用,但它们需要与持久性模型进行比较,以分析它们是否能够为手头的问题提供有竞争力的解决方案。在本文中,我们使用专家混合的概念设计了一种新的模型来预测机场的低能见度。可见性级别被编码为两个不同的分类变量:云高度和跑道视觉高度。该应用中的基础系统大约在90%的情况下停滞不前,标准ML模型未能改善持久性模型的性能。因此,我们不是试图简单地使用ML来击败持久性模型,而是使用这种持久性作为基线并学习通过专注于学习天气波动来改进其结果的神经网络模型。结果表明,该方案优于持续性和其他有序自回归模型,特别是对于较长时间的预测和跑道视觉高度变量。
translated by 谷歌翻译
端到端对话生成取得了有希望的结果,而不使用针对每个任务和语料库特定的手工特征和属性。然而,这种方法的一个致命缺点是它们无法生成信息性话语,因此它限制了它们在一些真实世界的对话应用中的使用。本文试图利用变分生成模型生成多样化和信息化的响应,其中包含对来自对话框架和额外知识的信息的联合注意机制。
translated by 谷歌翻译
独立成分分析(ICA)作为一种数据驱动方法,已成为功能磁共振成像(fMRI)数据分析的有力工具。这种多变量方法的一个缺点是,它与一般的组数据分析不相容。因此,已经提出了各种技术以克服ICA的这种限制。本文提出了一种新的基于ICA的工作流程,用于从fMRI小组研究中提取静止状态网络。经验模式分解(EMD)用于以数据驱动的方式生成参考信号,其可以被合并到ICA(cICA)的约束版本中,这有助于消除ICA的固有模糊性。然后将所提出的工作流程的结果与通过广泛使用的用于fMRI分析的ICA组方法获得的结果进行比较。在本文中,证明由EMS提取的内在模式适合作为cICA的参考,以获得典型的静止状态模式,其与受试者一致。通过将这些参考信号引入ICA,我们的处理流程使其对用户透明,跨越主题的活动模式如何出现。这通常允许在强制执行相似性主题主题和保留个别主题特征之间进行权衡。
translated by 谷歌翻译
文本阅读过程中的眼动可以提供有关阅读障碍的见解。通过眼动仪,我们可以测量眼睛移动的时间,地点和方式与他们阅读的单词的关系。机器学习(ML)算法可以解码该信息并提供差异分析。这项工作开发了DysLexML,一种用于发育性阅读障碍的筛查工具,其应用各种ML算法来分析在儿童的静音阅读期间通过眼睛跟踪记录的固定点。它使用在69个本地Greekspeakers儿童中进行的系统性实地研究中收集的测量结果对其性能进行了相对评估,其中32个被官方政府机构诊断为阅读困难,用于诊断希腊的学习和阅读困难。我们根据统计特性检查了大量特征进化和扫视运动,并确定具有突出预测能力的那些,进行降维。具体来说,DysLexML使用线性SVM实现其最佳性能,精度为97%,具有小的特征集,即扫视长度,短前向移动的数量和多个固定单词的数量。此外,我们分析了噪声对固定位置的影响,并表明DysLexML在存在噪声的情况下是准确和稳健的。这些令人鼓舞的结果为在不太受控制的大规模环境中开发筛查工具奠定了基础,使用廉价的眼动仪,可能会在更早的人口中进行干预。
translated by 谷歌翻译