多语言文本分类(PLC)包括根据一组共同的C类自动分类文档,每个文档用一组语言L中的一种编写,并且比通过其相应的语言特定分类器对每个文档进行天真分类时更准确地进行分类。为了提高给定语言的分类准确度,系统也需要利用其他语言编写的训练样例。我们通过漏斗处理multilabel PLC,这是我们在此提出的一种新的集成学习方法。漏斗包括生成一个两层分类系统,其中所有文档,无论语言如何,都由同一(第二层)分类器分类。对于该分类器,所有文档都表示在一个共同的,与语言无关的特征空间中,该特征空间由第一层语言相关分类器生成的后验概率组成。这允许对任何语言的所有测试文档进行分类,以受益于所有语言的所有培训文档中存在的信息。我们提供了大量的实验,在公开的多语言文本集上运行,其中显示漏斗显着优于许多最先进的基线。所有代码和数据集(invector表单)都是公开的。
translated by 谷歌翻译
本文介绍了PyDCI,一种用Python编写的DistributionalCorrespondence Indexing(DCI)的新实现。 DCI是跨域和跨语言文本分类的转移学习方法,我们已经提供了一个基于JaTeCS(一种用于文本分类的Javaframework)构建的实现(此处称为JaDCI)。 PyDCI是DCI thatexploits scikit-learn和SciPy堆栈的独立版本。我们在这里报告我们为了测试PyDCI而进行的新实验,其中我们使用asbaselines在DCI被原始提出之后出现的新的高性能方法。这些实验表明,由于我们改进了DCI的一些微妙方法,PyDCI优于JaDCI和上述高性能方法,并且在我们测试DCI的两个流行基准测试中提供了最着名的结果,即MultiDomainSentiment (又名MDS - 用于跨域适应)和Webis-CLS-10(用于跨语言适应)。 PyDCI以及代码复制我们的实验,可以通过以下网址获得:http://github.com/AlexMoreo/pydci。
translated by 谷歌翻译
量化是一个估算的任务,给定一组$ \ sigma $的未标记项和一组类$ \ mathcal {C} = \ {c_ {1},\ ldots,c_ {| \ mathcal {C} |} \} $,每个类$ c_ {i} \ in \ mathcal {C} $的$ \ sigma $中的流行度(或“相对频率”)。虽然量化原则上可以通过对$ \ sigma $中的物品进行分类并计算用$ c_ {i} $标记了多少这样的物品来解决,但长期以来已经证明这种“分类和计数”(CC)方法具有次优量化。准确性。因此,量化不再被认为仅仅是分类的副产品,并且已经发展成为其自身的任务。虽然科学界已经投入了大量的精力来设计更准确的量化方法,但它并没有过多地讨论什么属性\ emph {量化评估量度}(EMQ)应该享有什么,以及应该采用哪些EMQs。本文讨论了EMQ可能会或可能不会喜欢的一些有趣的属性,讨论是否(以及何时)每个属性都是可取的,调查到目前为止使用的EMQ,并讨论它们是否喜欢上述属性。作为这项调查的结果,文献中使用的一些EMQ变得非常不合适,而其他EMQ则更接近于量化社区实际需要的内容。然而,显着的结果是没有现有的EMQ满足所有被认为是理想的属性,因此表明需要更多的研究来鉴定(或合成)真正适当的EMQ。
translated by 谷歌翻译
量化是一种监督学习任务,其包括在给定一组C类和未标记项目的集合D的情况下预测C中每个类别c的普遍性(或相关频率)p(c | D)。量化可以通过以下原则来解决:对所有未标记的项目进行分类并计算其中的多少项目归因于每个类别。然而,这种“分类和计数”方法已被证明可以产生次优的量化准确度;这已经将量化确定为其自身的任务,并且产生了为其专门设计的多种方法。我们提出了一种用于量化的循环神经网络架构(我们称之为QuaNet),它遵循分类预测来学习更高阶的“量化嵌入”,然后通过结合简单分类和计数方法的量化预测来改进。我们测试{QuaNet关于情感量化的文本,表明它基本上优于几个最先进的基线。
translated by 谷歌翻译
The automated categorization (or classification) of texts into predefinedcategories has witnessed a booming interest in the last ten years, due to theincreased availability of documents in digital form and the ensuing need toorganize them. In the research community the dominant approach to this problemis based on machine learning techniques: a general inductive processautomatically builds a classifier by learning, from a set of preclassifieddocuments, the characteristics of the categories. The advantages of thisapproach over the knowledge engineering approach (consisting in the manualdefinition of a classifier by domain experts) are a very good effectiveness,considerable savings in terms of expert manpower, and straightforwardportability to different domains. This survey discusses the main approaches totext categorization that fall within the machine learning paradigm. We willdiscuss in detail issues pertaining to three different problems, namelydocument representation, classifier construction, and classifier evaluation.
translated by 谷歌翻译
排名算法在从搜索引擎到推荐系统的在线平台中起着至关重要的作用。在本文中,我们确定了一个令人惊讶的基于流行度排名的后果:报告给出信号的项目越少,他们共同吸引的总体流量的份额就越高。这种几乎没有更多更为丰富的效果出现在少数不同类别的环境中。项目(例如,左倾新闻来源与右倾新资源)和项目根据其受欢迎程度进行排名。我们从分析中证明,当人们倾向于点击排名靠前的项目并且对项目类别具有异质偏好时,会出现少数更富有的效果。使用模拟,我们分析效果的强度如何随着设置和人类行为的假设而变化。我们还在与人类参与者进行的在线实验中通过实验测试我们的预测。我们的发现对于理解信息的传播具有重要意义。
translated by 谷歌翻译
本文基于从SCADA系统收集的数据,提出了一种新颖灵活的故障预测解决方案。基于数据驱动方法提供两种不同级别的故障预测:(a)通用故障/状态预测和(b)特定故障类预测,通过基于无监督聚类算法和模式识别神经网络的两种基于机器学习的模块实现分别是网络。模型已经在六个光伏(PV)工厂的公园进行了评估,该工厂的功率高达10兆瓦,而且还有三个不同技术品牌的一百个逆变器模块。结果表明,所提出的方法在以下方面是有效的:(a)提前7天预测受试者一般性故障,灵敏度高达95%;(b)预测特定故障类别的损坏,时间从几小时到7天不等。该模型可轻松部署,用于在新的光伏电站和技术上进行在线监测,只需要提供历史SCADA和故障数据,故障分类和逆变器电气数据表。关键词:数据挖掘,故障预测,逆变模块,KeyPerformance指标,丢失生产
translated by 谷歌翻译
我们考虑Nachmani等人最近提出的加权置信传播(WBP)解码器。其中为每个Tanner图表引入了不同的权重,并使用机器学习技术进行了优化。我们的重点是简单缩放模型,这些模型在某些边缘使用相同的权重,以减少存储和计算负担。主要贡献是表明,使用少量参数进行简单缩放通常可以获得与完全参数化相同的增益。此外,提出了WBP的若干培训改进。例如,已经表明,在比特误码率(BER)和新的“软BER”损失方面,最小化平均二进制交叉熵最不是最优的,这可以导致更好的性能。我们还研究参数适配器网络(PAN),它们了解信噪比和WBP参数之间的关系。例如,对于具有高度冗余奇偶校验矩阵的(32,16)Reed-Muller码,训练具有软BER损失的PAN,假设仅使用三个参数进行简单缩放,则提供近似最大似然性能。
translated by 谷歌翻译
我们提出了一个新的概念,即离群值,称为无浓度异常因子,或CFOF。作为主要贡献,我们将异常值得分的概念形式化,并在理论上证明CFOF不会在欧几里德空间中集中任何大的维数。据我们所知,没有其他关于欧几里德距离的数据分析措施的建议,为此提供了它们对浓度效应免疫的理论证据。我们确定了任意大尺度下CFOF分数分布的封闭形式,并表明一个点的CFOF分数取决于它的标准标准分数和数据分布的峰度,从而为这一概念提供了清晰的,统计上有根据的表征。此外,我们利用这种封闭形式提供证据,证明定义不会影响影响其他措施的枢纽问题。我们证明来自每个星团的CFOF异常值的数量与clusterize和kurtosis成正比,这是我们称之为半局部的属性。我们确定半位置表征了现有的基于反向最近邻的异常值定义,从而明确了它们观察到的局部行为的确切性质。我们还正式证明了经典的基于距离和基于密度的异常值集中了有界和无界样本大小以及固定和变量。邻域参数的值。我们介绍了用于检测大型高维数据集中异常值的快速CFOF算法。该算法具有线性成本,支持多分辨率分析,并且非常平行。实验强调,该技术能够有效地处理大量数据集,甚至可以处理大的邻域参数值,以避免集中,并获得良好的准确性。
translated by 谷歌翻译
最近关于空间和时空模型检查的研究提供了新的图像分析方法,其根植于拓扑空间的逻辑方法。医学成像(MI)是这样的方法,其中这些方法显示出潜在的突破性创新。我们的出发点是SLCS,封闭空间的空间逻辑 - 封闭空间是拓扑空间的概括,也包括离散空间结构 - 以及topochecker,一种用于SCS(及其扩展)的模型检查器。我们介绍了逻辑语言ImgQL(“ImageQuery Language”)。 ImgQL使用描述距离和区域相似性的逻辑运算符扩展SLCS。时空模型检查器topochecker相应地增强了最先进的算法,借鉴了计算图像处理,有效地实现了基于距离的操作,即距离变换。基于统计纹理分析的概念,区域之间的相似性由统计相似性算子的定义来定义。我们通过两个磁共振图像分析实例来说明我们的方法:胶质母细胞瘤和水肿的分割,以及直肠癌的分割。
translated by 谷歌翻译