基于各种非负矩阵分解(NMF)方法为成本函数添加了新术语,以使模型适应特定任务,例如聚类或保留减少空间中的某些结构属性(例如,局部不变性)。附加的术语主要由高参数加权,以控制整体公式的平衡,以指导优化过程实现目标。结果是一种参数化的NMF方法。但是,NMF方法采用了无监督的方法来估计分解矩阵。因此,不能保证使用新的特征执行预测(例如分类)的能力。这项工作的目的是设计一个进化框架,以学习参数化NMF的超参数,并以监督的方式估算分解矩阵,以更适合分类问题。此外,我们声称,将基于NMF的算法分别应用于不同的类对,而不是将其应用于整个数据集,从而提高了矩阵分解过程的有效性。这导致训练具有不同平衡参数值的多个参数化的NMF算法。采用了交叉验证组合学习框架,并使用遗传算法来识别最佳参数值集。我们对真实和合成数据集进行的实验证明了所提出的方法的有效性。
translated by 谷歌翻译
本文中描述的模型属于专为数据表示和降低尺寸而设计的非负矩阵分解方法的家族。除了保留数据阳性属性外,它还旨在在矩阵分解过程中保留数据结构。这个想法是在NMF成本函数中添加一个惩罚术语,以在原始数据点和转换数据点的成对相似性矩阵之间实现比例关系。新模型的解决方案涉及为系数矩阵得出新的参数化更新方案,这使得在用于群集和分类时可以提高还原数据的质量。将所提出的聚类算法与某些现有的基于NMF的算法以及应用于某些现实生活数据集时的某些基于多种学习的算法进行了比较。获得的结果显示了所提出的算法的有效性。
translated by 谷歌翻译
分类是数据挖掘和机器学习领域中研究最多的任务之一,并且已经提出了文献中的许多作品来解决分类问题,以解决多个知识领域,例如医学,生物学,安全性和遥感。由于没有单个分类器可以为各种应用程序取得最佳结果,因此,一个很好的选择是采用分类器融合策略。分类器融合方法成功的关键点是属于合奏的分类器之间多样性和准确性的结合。借助文献中可用的大量分类模型,一个挑战是选择最终分类系统的最合适的分类器,从而产生了分类器选择策略的需求。我们通过基于一个称为CIF-E(分类器,初始化,健身函数和进化算法)的四步协议的分类器选择和融合的框架来解决这一点。我们按照提出的CIF-E协议实施和评估24种各种集合方法,并能够找到最准确的方法。在文献中最佳方法和许多其他基线中,还进行了比较分析。该实验表明,基于单变量分布算法(UMDA)的拟议进化方法可以超越许多著名的UCI数据集中最新的文献方法。
translated by 谷歌翻译
排名汇总旨在将许多替代品的偏好排名与不同选民的偏替排名组合成单一共识排名。然而,作为各种实际应用的有用模型,它是一个计算上有挑战性的问题。在本文中,我们提出了一种有效的混合进化排名算法来解决完整和部分排名的排名聚集问题。该算法具有基于协调对的语义交叉,并通过有效的增量评估技术加强了较晚的验收本地搜索。进行实验以评估算法,与最先进的算法相比,表明基准实例上具有高度竞争性能。为了展示其实际有用性,算法应用于标签排名,这是一个重要的机器学习任务。
translated by 谷歌翻译
KNN分类是一种即兴的学习模式,其中仅当预测测试数据设置适当的K值并从整个训练样本空间搜索K最近邻居时,将它们引用到KNN分类的惰性部分。这一懒散的部分是应用KNN分类的瓶颈问题,因为完全搜索了K最近邻居。在本文中,提出了一步计算来取代KNN分类的惰性部分。一步计算实际上将惰性部分转换为矩阵计算,如下所示。考虑到测试数据,首先应用训练样本以将测试数据与最小二乘损耗功能拟合。然后,通过根据它们对测试数据的影响来加权所有训练样本来生成关系矩阵。最后,采用一个组套索来对关系矩阵进行稀疏学习。以这种方式,设置k值和搜索k最近邻居都集成到统一的计算。此外,提出了一种新的分类规则来改善单步核武器分类的性能。提出的方法是通过实验评估的,并证明了一步核武器分类是有效和有前途的
translated by 谷歌翻译
本文提出了一种新的方法,称为模块化语法进化(MGE),以验证以下假设,即限制了神经进化的解决方案空间到模块化和简单的神经网络,可以有效地生成较小,更结构化的神经网络,同时提供可接受的(在某些方面)案例优于大型数据集的精度。 MGE还在两个方向上增强了最新的语法演化(GE)方法。首先,MGE的表示是模块化的,因为每个个体都有一组基因,并且每个基因都通过语法规则映射到神经元。其次,所提出的表示形式减轻了GE的两个重要缺点,即表示较低的表示性和弱位置,以生成具有大量神经元的模块化和多层网络。我们使用MGE定义和评估具有和不具有模块化的五种不同形式的结构,并找到没有耦合更有效的单层模块。我们的实验表明,模块化有助于更快地找到更好的神经网络。我们使用了十个具有不同尺寸,功能计数和输出类计数的众所周知的分类基准验证了提出的方法。我们的实验结果表明,MGE相对于现有的神经进化方法提供了卓越的准确性,并且返回分类器比其他机器学习生成的分类器要简单得多。最后,我们从经验上证明,MGE在局部性和可伸缩性属性方面优于其他GE方法。
translated by 谷歌翻译
合奏学习在机器学习方面取得了成功,比其他学习方法具有重大优势。袋装是一种突出的合奏学习方法,它创建了被称为袋子的数据子组,该数据被单独的机器学习方法(例如决策树)培训。随机森林是学习过程中具有其他功能的袋装的重要例子。 \ textColor {black} {当单个学习者具有较高的偏见时,包装的限制是汇总预测中的高偏置(模型不足)。}进化算法已突出用于优化问题,并且也用于机器学习。进化算法是无梯度的方法,具有多种候选解决方案,可维持创建新解决方案的多样性。在传统的包装合奏学习中,制作了一次袋子,而在培训示例方面,内容是在学习过程中固定的。在我们的论文中,我们提出了进化装袋的合奏学习,我们利用进化算法来发展袋子的内容,以通过迭代袋中提供多样性来增强合奏。结果表明,在某些约束下,我们的进化合奏装袋方法优于几个基准数据集的常规合奏方法(包装和随机森林)。进化装袋可以固有地维持一套不同的行李,而无需牺牲任何数据。
translated by 谷歌翻译
聚类算法在决策和明智的自动化过程中发挥着基本作用。由于这些应用的广泛使用,对抗对抗性噪声的这种算法的鲁棒性分析已经成为势在必行的。然而,据我们所知,目前只有少数作品目前解决了这个问题。在尝试填补这一差距,在这项工作中,我们提出了一种黑匣子对抗性攻击,用于制作对抗性样本来测试聚类算法的稳健性。我们将问题作为一个受约束的最小化程序,一般的结构,并且根据她的能力约束,攻击者定制。我们不假设有关受害者聚类算法的内部结构的任何信息,并且我们允许攻击者仅将其查询为服务。在没有任何衍生信息的情况下,我们通过抽象遗传算法(AGA)的自定义方法进行优化。在实验部分中,我们展示了不同单一和集群聚类算法对不同情景的制作的对抗样本的敏感性。此外,我们使用最先进的方法进行了对我们的算法的比较,显示我们能够达到或甚至优于其性能。最后,为了突出生成噪声的一般性质,我们表明我们的攻击即使针对SVMS,随机林和神经网络等监督算法也可转移。
translated by 谷歌翻译
肺炎是儿童死亡率的主要原因之一,尤其是在全球收入的地区。尽管可以通过不太复杂的仪器和药物进行检测和治疗,但肺炎检测仍然是发展中国家的主要关注点。基于计算机辅助的诊断(CAD)系统可在此类国家 /地区使用,因为其运营成本低于专业医疗专家。在本文中,我们使用深度学习的概念和一种元神父算法提出了一个从胸部X射线检测的CAD系统,以检测胸部X射线。我们首先从预先训练的RESNET50中提取深度功能,该功能在目标肺炎数据集上进行了微调。然后,我们提出了一种基于粒子群优化(PSO)的特征选择技术,该技术使用基于内存的适应参数进行了修改,并通过将利他行为纳入代理人而丰富。我们将功能选择方法命名为自适应和利他的PSO(AAPSO)。提出的方法成功地消除了从RESNET50模型获得的非信息性特征,从而提高了整体框架的肺炎检测能力。对公开可用的肺炎数据集进行了广泛的实验和彻底分析,确定了所提出的方法比用于肺炎检测的其他几个框架的优越性。除了肺炎检测外,AAPSO还可以在某些标准的UCI数据集,用于癌症预测的基因表达数据集和COVID-19预测数据集上进行评估。总体结果令人满意,从而确认AAPSO在处理各种现实生活问题方面的实用性。可以在https://github.com/rishavpramanik/aapso上找到此工作的支持源代码
translated by 谷歌翻译
The accuracy of k-nearest neighbor (kNN) classification depends significantly on the metric used to compute distances between different examples. In this paper, we show how to learn a Mahalanobis distance metric for kNN classification from labeled examples. The Mahalanobis metric can equivalently be viewed as a global linear transformation of the input space that precedes kNN classification using Euclidean distances. In our approach, the metric is trained with the goal that the k-nearest neighbors always belong to the same class while examples from different classes are separated by a large margin. As in support vector machines (SVMs), the margin criterion leads to a convex optimization based on the hinge loss. Unlike learning in SVMs, however, our approach requires no modification or extension for problems in multiway (as opposed to binary) classification. In our framework, the Mahalanobis distance metric is obtained as the solution to a semidefinite program. On several data sets of varying size and difficulty, we find that metrics trained in this way lead to significant improvements in kNN classification. Sometimes these results can be further improved by clustering the training examples and learning an individual metric within each cluster. We show how to learn and combine these local metrics in a globally integrated manner.
translated by 谷歌翻译
学习优化在接收器操作特性曲线(AUC)下的区域,近年来引起了不平衡数据的显着关注。虽然有几种AUC优化方法,但由于其成对学习风格,缩放UP OP优化仍然是一个开放问题。最大化大规模数据集中的AUC可以被视为非凸和昂贵的问题。灵感来自成对学习的特征,构建了具有从大型数据集采样的小型数据集的廉价AUC优化任务,以促进原始,大规模和昂贵的AUC优化任务的AUC准确性。本文开发了一种进化的多任务框架(称为EMTAUC),以充分利用构造的便宜和昂贵的任务之间的信息,以获得更高的性能。在EMTAUC中,一个任务是优化来自采样数据集的AUC,另一个任务是从原始数据集中最大化AUC。此外,由于包含有限知识的廉价任务,提出了一种动态调整廉价任务数据结构的策略,以引入更多知识,进入多任务定量的AUC优化环境。在一系列二进制分类数据集上评估所提出的方法的性能。实验结果表明,EMTAUC对单一任务方法和在线方法具有竞争力。可以在HTTPS://github.com/xiaofangxd/emtauc访问EMTAUC的补充材料和源代码。
translated by 谷歌翻译
Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
translated by 谷歌翻译
这项工作提出了一种名为形态学分类器(MC)的新型分类器。 MCS汇总数学形态学和监督学习的概念。该聚集的结果是可能在选择停止标准和结构元件的选择之外地保持类的形状特征的分类器。 MCS基本上基于集合理论,其分类模型可以是数学集本身。在当前的工作中提出了两种类型的形态分类剂,即形态学K-NN(MKNN)和形态扩张分类器(MDC),其证明了方法的可行性。这项工作提供了有关MCS的优势的证据,例如,非常快速的分类时间以及竞争精度率。使用P-Dimensional数据集测试MKNN和MDC的性能。在8个数据集中的5个中,MCS绑定或表现优于14种成熟的分类器。在所有场合,所获得的精度高于所有分类器获得的平均精度。此外,所提出的实施方式利用图形处理单元(GPU)的功率来加速处理。
translated by 谷歌翻译
信息科学的快速发展引起的“维度诅咒”在处理大数据集时可能会产生负面影响。在本文中,我们提出了Sparrow搜索算法(SSA)的一种变体,称为帐篷L \'evy飞行麻雀搜索算法(TFSSA),并使用它来选择包装模式中最佳的特征子集以进行分类。 SSA是最近提出的算法,尚未系统地应用于特征选择问题。通过CEC2020基准函数进行验证后,TFSSA用于选择最佳功能组合,以最大化分类精度并最大程度地减少所选功能的数量。将拟议的TFSSA与文献中的九种算法进行了比较。 9个评估指标用于正确评估和比较UCI存储库中21个数据集上这些算法的性能。此外,该方法应用于冠状病毒病(COVID-19)数据集,分别获得最佳的平均分类精度和特征选择的平均数量,为93.47%和2.1。实验结果证实了所提出的算法在提高分类准确性和减少与其他基于包装器的算法相比的选定特征数量方面的优势。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
Data-driven neighborhood definitions and graph constructions are often used in machine learning and signal processing applications. k-nearest neighbor~(kNN) and $\epsilon$-neighborhood methods are among the most common methods used for neighborhood selection, due to their computational simplicity. However, the choice of parameters associated with these methods, such as k and $\epsilon$, is still ad hoc. We make two main contributions in this paper. First, we present an alternative view of neighborhood selection, where we show that neighborhood construction is equivalent to a sparse signal approximation problem. Second, we propose an algorithm, non-negative kernel regression~(NNK), for obtaining neighborhoods that lead to better sparse representation. NNK draws similarities to the orthogonal matching pursuit approach to signal representation and possesses desirable geometric and theoretical properties. Experiments demonstrate (i) the robustness of the NNK algorithm for neighborhood and graph construction, (ii) its ability to adapt the number of neighbors to the data properties, and (iii) its superior performance in local neighborhood and graph-based machine learning tasks.
translated by 谷歌翻译
Nonnegative Tucker Factorization (NTF) minimizes the euclidean distance or Kullback-Leibler divergence between the original data and its low-rank approximation which often suffers from grossly corruptions or outliers and the neglect of manifold structures of data. In particular, NTF suffers from rotational ambiguity, whose solutions with and without rotation transformations are equally in the sense of yielding the maximum likelihood. In this paper, we propose three Robust Manifold NTF algorithms to handle outliers by incorporating structural knowledge about the outliers. They first applies a half-quadratic optimization algorithm to transform the problem into a general weighted NTF where the weights are influenced by the outliers. Then, we introduce the correntropy induced metric, Huber function and Cauchy function for weights respectively, to handle the outliers. Finally, we introduce a manifold regularization to overcome the rotational ambiguity of NTF. We have compared the proposed method with a number of representative references covering major branches of NTF on a variety of real-world image databases. Experimental results illustrate the effectiveness of the proposed method under two evaluation metrics (accuracy and nmi).
translated by 谷歌翻译
由于更高的维度和困难的班级,机器学习应用中的可用数据变得越来越复杂。根据类重叠,可分离或边界形状,以及组形态,存在各种各样的方法来测量标记数据的复杂性。许多技术可以转换数据才能找到更好的功能,但很少专注于具体降低数据复杂性。大多数数据转换方法主要是治疗维度方面,撇开类标签中的可用信息,当类别在某种方式复杂时,可以有用。本文提出了一种基于AutoEncoder的复杂性减少方法,使用类标签来告知损耗函数关于所生成的变量的充分性。这导致了三个不同的新功能学习者,得分手,斯卡尔和切片机。它们基于Fisher的判别比率,Kullback-Leibler发散和最小二乘支持向量机。它们可以作为二进制分类问题应用作为预处理阶段。跨越27个数据集和一系列复杂性和分类指标的彻底实验表明,课堂上通知的AutoEncoders执行优于4个其他流行的无监督功能提取技术,特别是当最终目标使用数据进行分类任务时。
translated by 谷歌翻译
特征选择是一个棘手的问题,因此实用算法通常折衷对计算时间解的精度。在本文中,我们提出了利用近似,或代理人的多层次的一种新型的多阶段特征选择框架。这种框架允许使用的包装在计算上更多有效的方式方法,显著增加的特征选择的解决方案的质量可以实现的,尤其是在大型数据集。我们设计和评估是一个替代辅助遗传算法(SAGA),它利用这个概念在勘探早期阶段,引导进化搜索。 SAGA只有切换到在最后开发阶段评估原有的功能。我们证明了上限SAGA替代辅助阶段的运行时间是雪上加霜等于包装GA,而且更好地扩展为实例数高位复杂性的归纳算法。我们证明,使用来自UCI ML储存部14个集,在实践中SAGA显著降低与基线相比包装遗传算法(GA)的计算时间,而汇聚成显著精度更高的解决方案。我们的实验表明,SAGA能以接近最优的解决方案不是一个包装GA快三倍到达,平均。我们还展示了旨在防止代理人误导向错误的最优进化搜索进化控制方法的重要性。
translated by 谷歌翻译
张量分解是学习多通道结构和来自高维数据的异质特征的有效工具,例如多视图图像和多通道脑电图(EEG)信号,通常由张量表示。但是,大多数张量分解方法是线性特征提取技术,它们无法在高维数据中揭示非线性结构。为了解决此类问题,已经提出了许多算法,以同时执行线性和非线性特征提取。代表性算法是用于图像群集的图形正则非负矩阵分解(GNMF)。但是,正常的2阶图只能模拟对象的成对相似性,该对象无法充分利用样品的复杂结构。因此,我们提出了一种新型方法,称为HyperGraph Narodarized非负张量分解(HyperNTF),该方法利用超图来编码样品之间的复杂连接,并采用了与最终的典型多形(CP)分解模式相对应的因子矩阵,为低维度表示。关于合成歧管,现实世界图像数据集和脑电图信号的广泛实验,表明HyperNTF在降低,聚类和分类方面优于最先进的方法。
translated by 谷歌翻译