本文基于从SCADA系统收集的数据,提出了一种新颖灵活的故障预测解决方案。基于数据驱动方法提供两种不同级别的故障预测:(a)通用故障/状态预测和(b)特定故障类预测,通过基于无监督聚类算法和模式识别神经网络的两种基于机器学习的模块实现分别是网络。模型已经在六个光伏(PV)工厂的公园进行了评估,该工厂的功率高达10兆瓦,而且还有三个不同技术品牌的一百个逆变器模块。结果表明,所提出的方法在以下方面是有效的:(a)提前7天预测受试者一般性故障,灵敏度高达95%;(b)预测特定故障类别的损坏,时间从几小时到7天不等。该模型可轻松部署,用于在新的光伏电站和技术上进行在线监测,只需要提供历史SCADA和故障数据,故障分类和逆变器电气数据表。关键词:数据挖掘,故障预测,逆变模块,KeyPerformance指标,丢失生产
translated by 谷歌翻译
排名算法在从搜索引擎到推荐系统的在线平台中起着至关重要的作用。在本文中,我们确定了一个令人惊讶的基于流行度排名的后果:报告给出信号的项目越少,他们共同吸引的总体流量的份额就越高。这种几乎没有更多更为丰富的效果出现在少数不同类别的环境中。项目(例如,左倾新闻来源与右倾新资源)和项目根据其受欢迎程度进行排名。我们从分析中证明,当人们倾向于点击排名靠前的项目并且对项目类别具有异质偏好时,会出现少数更富有的效果。使用模拟,我们分析效果的强度如何随着设置和人类行为的假设而变化。我们还在与人类参与者进行的在线实验中通过实验测试我们的预测。我们的发现对于理解信息的传播具有重要意义。
translated by 谷歌翻译
多语言文本分类(PLC)包括根据一组共同的C类自动分类文档,每个文档用一组语言L中的一种编写,并且比通过其相应的语言特定分类器对每个文档进行天真分类时更准确地进行分类。为了提高给定语言的分类准确度,系统也需要利用其他语言编写的训练样例。我们通过漏斗处理multilabel PLC,这是我们在此提出的一种新的集成学习方法。漏斗包括生成一个两层分类系统,其中所有文档,无论语言如何,都由同一(第二层)分类器分类。对于该分类器,所有文档都表示在一个共同的,与语言无关的特征空间中,该特征空间由第一层语言相关分类器生成的后验概率组成。这允许对任何语言的所有测试文档进行分类,以受益于所有语言的所有培训文档中存在的信息。我们提供了大量的实验,在公开的多语言文本集上运行,其中显示漏斗显着优于许多最先进的基线。所有代码和数据集(invector表单)都是公开的。
translated by 谷歌翻译
我们考虑Nachmani等人最近提出的加权置信传播(WBP)解码器。其中为每个Tanner图表引入了不同的权重,并使用机器学习技术进行了优化。我们的重点是简单缩放模型,这些模型在某些边缘使用相同的权重,以减少存储和计算负担。主要贡献是表明,使用少量参数进行简单缩放通常可以获得与完全参数化相同的增益。此外,提出了WBP的若干培训改进。例如,已经表明,在比特误码率(BER)和新的“软BER”损失方面,最小化平均二进制交叉熵最不是最优的,这可以导致更好的性能。我们还研究参数适配器网络(PAN),它们了解信噪比和WBP参数之间的关系。例如,对于具有高度冗余奇偶校验矩阵的(32,16)Reed-Muller码,训练具有软BER损失的PAN,假设仅使用三个参数进行简单缩放,则提供近似最大似然性能。
translated by 谷歌翻译
我们提出了一个新的概念,即离群值,称为无浓度异常因子,或CFOF。作为主要贡献,我们将异常值得分的概念形式化,并在理论上证明CFOF不会在欧几里德空间中集中任何大的维数。据我们所知,没有其他关于欧几里德距离的数据分析措施的建议,为此提供了它们对浓度效应免疫的理论证据。我们确定了任意大尺度下CFOF分数分布的封闭形式,并表明一个点的CFOF分数取决于它的标准标准分数和数据分布的峰度,从而为这一概念提供了清晰的,统计上有根据的表征。此外,我们利用这种封闭形式提供证据,证明定义不会影响影响其他措施的枢纽问题。我们证明来自每个星团的CFOF异常值的数量与clusterize和kurtosis成正比,这是我们称之为半局部的属性。我们确定半位置表征了现有的基于反向最近邻的异常值定义,从而明确了它们观察到的局部行为的确切性质。我们还正式证明了经典的基于距离和基于密度的异常值集中了有界和无界样本大小以及固定和变量。邻域参数的值。我们介绍了用于检测大型高维数据集中异常值的快速CFOF算法。该算法具有线性成本,支持多分辨率分析,并且非常平行。实验强调,该技术能够有效地处理大量数据集,甚至可以处理大的邻域参数值,以避免集中,并获得良好的准确性。
translated by 谷歌翻译
最近关于空间和时空模型检查的研究提供了新的图像分析方法,其根植于拓扑空间的逻辑方法。医学成像(MI)是这样的方法,其中这些方法显示出潜在的突破性创新。我们的出发点是SLCS,封闭空间的空间逻辑 - 封闭空间是拓扑空间的概括,也包括离散空间结构 - 以及topochecker,一种用于SCS(及其扩展)的模型检查器。我们介绍了逻辑语言ImgQL(“ImageQuery Language”)。 ImgQL使用描述距离和区域相似性的逻辑运算符扩展SLCS。时空模型检查器topochecker相应地增强了最先进的算法,借鉴了计算图像处理,有效地实现了基于距离的操作,即距离变换。基于统计纹理分析的概念,区域之间的相似性由统计相似性算子的定义来定义。我们通过两个磁共振图像分析实例来说明我们的方法:胶质母细胞瘤和水肿的分割,以及直肠癌的分割。
translated by 谷歌翻译
胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性,可变预后和各种异质性组织亚区域,即肿瘤周围水肿/侵入组织,坏死核心,活性和非增强核心。这种内在的异质性也被用于它们的放射性表型,因为它们的子区域通过在多参数磁共振成像(mpMRI)扫描中传播的不同强度分布来描绘,反映了不同的生物学特性。它们的异质形状,范围和位置是其中的一部分。使这些肿瘤难以切除的因素,在某些情况下无法手术。切除肿瘤的数量也是纵向扫描中考虑的一个因素,用于评估表观肿瘤以进行潜在的进展诊断。此外,有越来越多的证据表明,各种肿瘤亚区域的准确分割可以为定量图像分析提供预测患者整体的基础。生存。该研究评估了在国际脑肿瘤分割(BraTS)挑战的最后七个实例(即2012-2018)期间用于mpMRI扫描中的脑肿瘤图像分析的最先进的机器学习(ML)方法。具体而言,我们专注于i)评估术前mpMRI扫描中各种神经胶质瘤亚区的分割,ii)通过肿瘤亚区的纵向生长评估潜在的肿瘤进展,超出RECIST标准的使用,以及iii)预测整体术前mpMRI扫描对经历完全切除的患者的生存率。最后,我们研究了为每个任务确定最佳ML算法的挑战,考虑到除了在每个挑战实例上多样化之外,多机构mpMRI BraTS数据集也是一个不断发展/不断发展的数据集。
translated by 谷歌翻译
本文介绍了PyDCI,一种用Python编写的DistributionalCorrespondence Indexing(DCI)的新实现。 DCI是跨域和跨语言文本分类的转移学习方法,我们已经提供了一个基于JaTeCS(一种用于文本分类的Javaframework)构建的实现(此处称为JaDCI)。 PyDCI是DCI thatexploits scikit-learn和SciPy堆栈的独立版本。我们在这里报告我们为了测试PyDCI而进行的新实验,其中我们使用asbaselines在DCI被原始提出之后出现的新的高性能方法。这些实验表明,由于我们改进了DCI的一些微妙方法,PyDCI优于JaDCI和上述高性能方法,并且在我们测试DCI的两个流行基准测试中提供了最着名的结果,即MultiDomainSentiment (又名MDS - 用于跨域适应)和Webis-CLS-10(用于跨语言适应)。 PyDCI以及代码复制我们的实验,可以通过以下网址获得:http://github.com/AlexMoreo/pydci。
translated by 谷歌翻译
瞬态谱方法为学习潜变量模型的参数提供了强大的工具。尽管它们具有理论吸引力,但由于缺乏模型错误指定的可靠性,这些方法对实际数据的适用性仍然有限。在本文中,我们提出了一种层次化的方法来解决这些限制的时刻方法。我们的方法是基于用近似联合对角化替换先前算法中使用的张量分解步骤。主题建模实验表明,在速度和模型质量方面,我们的方法优于以往的张量分解方法。
translated by 谷歌翻译
我们在五个文档中为Open Information Extraction的任务构建了一个参考。我们暂时解决了出现的一些问题,包括推理和粒度。我们寻求更好地确定任务的要求。我们生成我们的注释指南,指定什么是正确的提取和什么不是。反过来,我们使用此引用来评分现有的OpenIE系统。我们解决了根据参考元组评估系统产生的提取的非平凡问题,并分享了我们的评估结果。在七个比较的提取器中,我们发现MinIE系统的性能。
translated by 谷歌翻译