本文基于从SCADA系统收集的数据,提出了一种新颖灵活的故障预测解决方案。基于数据驱动方法提供两种不同级别的故障预测:(a)通用故障/状态预测和(b)特定故障类预测,通过基于无监督聚类算法和模式识别神经网络的两种基于机器学习的模块实现分别是网络。模型已经在六个光伏(PV)工厂的公园进行了评估,该工厂的功率高达10兆瓦,而且还有三个不同技术品牌的一百个逆变器模块。结果表明,所提出的方法在以下方面是有效的:(a)提前7天预测受试者一般性故障,灵敏度高达95%;(b)预测特定故障类别的损坏,时间从几小时到7天不等。该模型可轻松部署,用于在新的光伏电站和技术上进行在线监测,只需要提供历史SCADA和故障数据,故障分类和逆变器电气数据表。关键词:数据挖掘,故障预测,逆变模块,KeyPerformance指标,丢失生产
translated by 谷歌翻译
常识知识关系对于高级NLU任务至关重要。我们检查CONCEPTNET中表示的这种关系的可学习性,考虑到它们的特定属性,这可以使关系分类变得困难:给定的概念对可以通过多种关系类型链接,并且关系可以具有不同语义类型的多字参数。我们探索了一种开放世界的多标签分类方法,该方法侧重于评估个体关系的分类准确性。在深入研究CONCEPTNET资源的特定属性的基础上,我们研究了不同关系表示和模型变化的影响。我们的分析表明,论证类型的复杂性和相关模糊性是要解决的最重要的挑战。我们设计了自定义评估方法,以解决在未来工作中可以扩展的资源的不完整性。
translated by 谷歌翻译
最近的研究表明,人们食用的环境会影响他们的营养行为。在这项工作中,我们提供自动工具,通过检查每日记录的以自我为中心的照片流来对个人的健康习惯进行个性化分析。具体来说,我们提出了一种新的自动方法,用于食物相关环境的分类,能够对多达15个这样的场景进行分类。通过这种方式,人们可以监控他们的食物摄入量,从而客观地了解他们的日常生活习惯。我们提出了一种模型,用于对在语义层次结构中组织的与食物相关的场景进行分类。此外,我们提供并提供了一个新的自我中心数据集,该数据集由一个由可穿戴相机记录的超过33000个图像组成,我们提出的模型已经过测试。我们的方法获得的准确度和F分数分别为56%和65%,明显优于基线方法。
translated by 谷歌翻译
模式分析通常需要预处理阶段来提取选择特征,以帮助分类,预测或聚类阶段以更好的方式区分或表示数据。这一要求的原因是原始数据复杂且难以处理而无需事先提取或选择适当的特征。本文回顾了不同常用的特征选择和提取方法的理论和动机,并介绍了它们的一些应用。对于这些方法也示出了一些数字实现。最后,比较了方法的选择性和提取方法。
translated by 谷歌翻译
ArCo是意大利文化遗产知识图,由七个词汇网络和1.69亿个三倍体组成,约有82万个文化实体。它与SPARQL端点,用于将目录记录转换为RDF的软件以及丰富的文档材料(测试,评估,操作方法,示例等)共同分发。 ArCo基于意大利文化遗产和活动部(MiBAC)的官方总目录 - 及其相关的编码规则 - 收集和验证(理想情况下)CH管理员提供的所有意大利文化遗产特性(不包括图书馆和档案馆)的目录记录。遍布意大利。我们介绍其结构,设计方法和工具,其增长社区,并描述其重要性,质量和影响。
translated by 谷歌翻译
再生核Hilbert空间(RKHS)是成功用于信号处理,统计和机器学习的许多非参数工具的关键元素。在这项工作中,我们的目标是解决经典的基于RHSHS的技术的三个问题。首先,它们需要先验地知道RKHS,这在许多应用中是不现实的。此外,RKHS的选择会影响解决方案的形状和平滑度,从而影响其性能。其次,RKHS无法应对异质程度的平滑,即功能在其域的某些部分是平滑的但在其他部分中变化很快。 。最后,评估这些方法的解决方案的计算复杂性随着数据点的数量而增长,使得这些技术对于许多应用是不可行的。尽管已经使用内核学习,局部核适应和稀疏性来解决这些问题,但是这些方法中的许多方法都是计算密集型的或者放弃了最优化保证。我们通过利用RKHS中功能的新颖整体表示来解决这些问题,这些功能允许在每个中心使用任意中心和不同的内核。为了解决复杂性问题,我们将函数估计问题写成稀疏函数程序,从而明确地最小化表示的支持,从而导致低复杂性解决方案。尽管它们具有非凸性和无限维度,但我们展示了这些问题可以通过平均而有效地解决,并且我们在模拟和实际数据中说明了这种新方法。
translated by 谷歌翻译
有大量复杂的动态系统对我们的日常生活和社会至关重要但却难以理解,即使今天有可能感知和收集大量的实验数据,它们也是如此复杂和不断发展,以至于它们的动力不太可能将被详细了解。然而,通过计算工具,我们可以尝试最好地利用当前技术和可用数据。我们认为,最有用的模型将在有限的知识或多个假设的背景下考虑系统复杂性和可用数据之间的不平衡。生物细胞的复杂系统是在系统生物学中研究的这种系统的一个主要例子,并且激发了本文提出的方法。它们是作为DARPA快速威胁评估(RTA)计划的一部分而开发的,该计划涉及对影响人体细胞的毒素或药物的作用机制(MoA)的理解。结合使用高斯过程和抽象网络建模,我们提出了三种基本的不同的基于机器学习的方法来学习因果关系,并从高维时间序列数据中合成因果网络。虽然其他类型的数据可用并且已经在我们的RTA工作中进行了分析和整合,但我们关注的是本文中从高通量微阵列实验获得的转录组学(即基因表达)数据,以说明我们的算法的能力和局限性。我们的算法使得不同但总体上相对较少的生物学假设,因此它们适用于其他类型的生物数据,甚至可能适用于其他复杂系统,这些系统具有高维度但不具有生物学性质。
translated by 谷歌翻译
每年都有数百万男女老少被迫离开自己的家园,避免战争,侵犯人权,遭受迫害和自然灾害。 2017年,被迫流离失所者的人数每天达到创纪录的44,400人,年末累计总人数达到6850万,超过了英国的总人口。高达85%的被迫流离失所的人找不到避难所。 - 以及中等收入国家,呼吁在全球范围内增加人道主义援助。为了减少与人权相关的图像分析所需的手工劳动量,我们引入了DisplaceNet,这是一种新的模型,通过将情境的控制水平和传统的卷积神经网络(CNN)分类器整合到一个图像分类框架中,从图像中推断潜在的流离失所者。 。实验结果表明,DisplaceNet实现了高达4%的覆盖率 - 数据集的比例,分类器能够通过单独使用CNN分类器产生预测增益。我们的数据集,代码和训练模型将在线提供:http://github.com/GKalliatakis/D​​isplaceNet。
translated by 谷歌翻译
特定领域的社区问答正在成为专业人士不可或缺的一部分。在这些社区中查找相关问题和答案可以显着提高信息搜索的有效性和效率.StackOverflow是数百名程序员使用的最受欢迎的社区之一。在本文中,我们分析了Stack Overflow中预测知识单元(问题线程)相关性的问题。特别是,我们将问题相关性任务表述为具有四个相关度的多类别分类问题。我们提出了一个超过300Kpairs的大规模数据集。据我们所知,这个数据集是问题相关性的最大域特定数据集。我们提出了收集,清理,处理和保证数据集质量的步骤。建议的数据集Stack Overflow是开发小说解决方案的有用资源,特别是数据饥饿的神经网络模型,用于预测技术社区问题中的相关性 - 讨论论坛。我们采用神经网络架构和传统模型来完成这项任务,有效地利用知识单元不同部分的信息来计算它们之间的相关性。这些模型可用于对新模型进行基准测试,因为它们在我们的任务和非常相似的任务中表现良好。
translated by 谷歌翻译
本文解决了在用户对特定服装项目感兴趣的情况下产生完成服装的建议的问题。所提出的方法基于用于特征提取的暹罗网络,随后是用于学习时尚兼容性测量的全连接网络。由暹罗网络生成的嵌入增强了颜色直方图特征,其动机是颜色在不确定的时尚兼容性中发挥的重要作用。网络的训练被公式化为最大后验(MAP)问题,其中假设拉普拉斯分布用于暹罗网络的滤波器以促进稀疏性并且假设矩阵 - 变量正态分布用于度量网络的权重以充分利用输入单元之间的相关性。每个连接层的。
translated by 谷歌翻译