基因表达数据集通常具有高维度,因此需要有效且有效的方法来识别其属性的相对重要性。由于可能的解决方案的搜索空间的大小,属性子集评估特征选择方法往往不适用,因此在这些方案中使用特征对方法。文献中描述的大多数特征排名方法是单变量的方法,因此它们不会检测因子之间的相互作用。在本文中,我们提出了基于成对相关性和成对一致性的两种新的多变量特征排名方法,我们应用于三种基因表达分类问题。我们在统计上证明所提出的方法优于现有技术的状态,特征对方法进行分类方法聚类变化,CHI平方,相关性,信息增益,相关性和意义,以及基于与多目标的相关性和一致性的属性子集评估的特征选择方法进化搜索策略。
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
肾脏是人体的重要器官。它保持体内平衡并通过尿液去除有害物质。肾细胞癌(RCC)是肾癌最常见的形式。大约90%的肾脏癌归因于RCC。最有害的RCC类型是清晰的细胞肾细胞癌(CCRCC),占所有RCC病例的80%。需要早期和准确的CCRCC检测,以防止其他器官进一步扩散该疾病。在本文中,进行了详细的实验,以确定可以在不同阶段诊断CCRCC的重要特征。 CCRCC数据集从癌症基因组图集(TCGA)获得。考虑了从8种流行特征选择方法获得的特征顺序的新型相互信息和集合的特征排名方法。通过使用2个不同的分类器(ANN和SVM)获得的总体分类精度来评估所提出方法的性能。实验结果表明,所提出的特征排名方法能够获得更高的精度(分别使用SVM和NN分别使用SVM和NN),与现有工作相比,使用SVM和NN分别使用SVM和NN进行分类。还要注意的是,在现有TNM系统(由AJCC和UICC提出的)提到的3个区分特征中,我们提出的方法能够选择其中两个(肿瘤的大小,转移状态)作为顶部 - 大多数。这确立了我们提出的方法的功效。
translated by 谷歌翻译
本文提出了一种基于条件互信息(CMI)的新型特征选择方法。提出的高阶条件互信息最大化(HOCMIM)将高阶依赖性纳入特征选择过程中,并且由于其自下而上的推导而具有直接的解释。HOCMIM源自CMI的链膨胀,并表示为最大化优化问题。最大化问题是使用贪婪的搜索过程解决的,该过程加快了整个功能选择过程。实验是在一组基准数据集上运行的(总共20个)。将HOCMIM与两个有监督的学习分类器(支持向量机和K-Nearest邻居)的结果进行比较。HOCMIM在准确性方面取得了最佳效果,并且表明要比高级特征选择的速度快。
translated by 谷歌翻译
颠覆性技术提供无与伦比的机会,为普遍存在医疗保健的许多方面的标识,从通过内容到机器学习(ML)技术来促进普及医疗保健的识别。作为一个强大的工具,ML已被广泛应用于以患者为中心的医疗保健解决方案。为了进一步提高患者护理的质量,在医疗保健设施中通常采用电子健康记录(EHRS)进行分析。由于它们高度非结构化,不平衡,不完整和高维性质,应用AI和ML将AI和ML应用AI和ML分析那些EHRS的重要任务。减少维度是一种常见的数据预处理技术,用于应对高维EHR数据,旨在减少EHR表示的特征的数量,同时提高随后的数据分析的性能,例如,分类。在这项工作中,提出了一种高效的基于滤波器的特征选择方法,即基于曲率的特征选择(CFS)。所提出的CFS应用了Menger曲率的概念,以对给定数据集中的所有功能的重量进行排名。已经在四种众所周知的EHR数据集中评估了所提出的CFS的性能,包括宫颈癌危险因素(CCRFD),乳腺癌助生(BCCDS),乳腺组织(BTDS)和糖尿病视网膜病变(DRDDD)。实验结果表明,所提出的CFS在上述数据集上实现了最先进的性能,而不是传统的PCA和其他最新方法。所提出的方法的源代码在https://github.com/zhemingzuo/cfs上公开提供。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
从大量嘈杂的候选人中选择一小部分信息功能是一个充满挑战的问题,即机器学习和近似贝叶斯计算中的许多应用程序。在实践中,还需要考虑计算信息丰富功能的成本。这对于网络尤为重要,因为单个功能的计算成本可以跨越几个数量级。我们使用两种方法解决了网络模型选择问题的问题。首先,我们调整了九种功能选择方法来说明功能成本。我们为两类网络模型显示,可以通过两个数量级降低成本,而不会极大地影响分类精度(正确识别的模型的比例)。其次,我们使用具有较小网络的Pilot模拟选择了功能。这种方法将计算成本降低了50倍,而不会影响分类精度。为了证明我们的方法的实用性,我们将其应用于三个不同的酵母蛋白相互作用网络,并确定了最合适的重复差异模型。
translated by 谷歌翻译
Variable and feature selection have become the focus of much research in areas of application for which datasets with tens or hundreds of thousands of variables are available. These areas include text processing of internet documents, gene expression array analysis, and combinatorial chemistry. The objective of variable selection is three-fold: improving the prediction performance of the predictors, providing faster and more cost-effective predictors, and providing a better understanding of the underlying process that generated the data. The contributions of this special issue cover a wide range of aspects of such problems: providing a better definition of the objective function, feature construction, feature ranking, multivariate feature selection, efficient search methods, and feature validity assessment methods.
translated by 谷歌翻译
特征选择是数据科学流水线的重要步骤,以减少与大型数据集相关的复杂性。虽然对本主题的研究侧重于优化预测性能,但很少研究在特征选择过程的上下文中调查稳定性。在这项研究中,我们介绍了重复的弹性网技术(租金)进行特色选择。租金使用具有弹性净正常化的广义线性模型的集合,每个训练都培训了训练数据的不同子集。该特征选择基于三个标准评估所有基本模型的重量分布。这一事实导致选择具有高稳定性的特征,从而提高最终模型的稳健性。此外,与已建立的特征选择器不同,租金提供了有关在训练期间难以预测的数据中难以预测的对象的模型解释的有价值信息。在我们的实验中,我们在八个多变量数据集中对六个已建立的特征选择器进行基准测试,用于二进制分类和回归。在实验比较中,租金在预测性能和稳定之间展示了均衡的权衡。最后,我们强调了租金的额外解释价值与医疗保健数据集的探索性后HOC分析。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译
医疗保健数据集通常包含一组高度相关的特征,例如来自同一生物系统的特征。当将功能选择应用于这些数据集以识别最重要的功能时,由于相关功能,由于相关特征而引起的某些多变量特征选择器固有的偏差使这些方法难以区分重要的和无关的特征,并且功能选择过程的结果CAN可以解决。不稳定。已经研究了特征选择合奏,该合奏汇总了多个单个基础特征选择器的结果,已被研究为稳定特征选择结果的一种手段,但不能解决相关特征的问题。我们提出了一个新颖的框架,可以从多元特征选择器中创建特征选择集合,同时考虑了相关特征组产生的偏差,并在预处理步骤中使用团聚层次聚类。这些方法从阿尔茨海默氏病(AD)的研究中应用于两个现实世界数据集,这是一种尚未治愈且尚未完全了解的进行性神经退行性疾病。我们的结果表明,在没有聚类的情况下选择在模型中选择的功能的稳定性有明显的改善,并且这些模型选择的功能与广告文献中的发现保持一致。
translated by 谷歌翻译
信息科学的快速发展引起的“维度诅咒”在处理大数据集时可能会产生负面影响。在本文中,我们提出了Sparrow搜索算法(SSA)的一种变体,称为帐篷L \'evy飞行麻雀搜索算法(TFSSA),并使用它来选择包装模式中最佳的特征子集以进行分类。 SSA是最近提出的算法,尚未系统地应用于特征选择问题。通过CEC2020基准函数进行验证后,TFSSA用于选择最佳功能组合,以最大化分类精度并最大程度地减少所选功能的数量。将拟议的TFSSA与文献中的九种算法进行了比较。 9个评估指标用于正确评估和比较UCI存储库中21个数据集上这些算法的性能。此外,该方法应用于冠状病毒病(COVID-19)数据集,分别获得最佳的平均分类精度和特征选择的平均数量,为93.47%和2.1。实验结果证实了所提出的算法在提高分类准确性和减少与其他基于包装器的算法相比的选定特征数量方面的优势。
translated by 谷歌翻译
相关特征的识别,即确定系统的过程或属性的驱动变量,是对具有大量变量的数据集分析的重要组成部分。量化这些特征相关性的数学严格方法是相互信息。相互信息确定特征在其联合相互依赖与感兴趣的财产方面的相关性。但是,相互信息需要作为输入概率分布,这不能可靠地从连续分布(例如长度或能量)等连续分布中估计。在这里,我们介绍了总累积共同信息(TCMI),这是对相互依赖关系的相关性的度量,该信息将相互信息扩展到基于累积概率分布的连续分布的随机变量。 TCMI是一种非参数,鲁棒和确定性的度量,可促进具有不同基数的特征集之间的比较和排名。 TCMI诱导的排名允许特征选择,即,考虑到数据示例的数量以及一组变量集的基数,识别与感兴趣属性的非线性统计学相关的变量集的识别。我们通过模拟数据评估测量的性能,将其性能与类似的多元依赖性度量进行比较,并在一组标准数据集中证明了我们的功能选择方法的有效性以及材料科学中的典型情况。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
While methods for comparing two learning algorithms on a single data set have been scrutinized for quite some time already, the issue of statistical tests for comparisons of more algorithms on multiple data sets, which is even more essential to typical machine learning studies, has been all but ignored. This article reviews the current practice and then theoretically and empirically examines several suitable tests. Based on that, we recommend a set of simple, yet safe and robust non-parametric tests for statistical comparisons of classifiers: the Wilcoxon signed ranks test for comparison of two classifiers and the Friedman test with the corresponding post-hoc tests for comparison of more classifiers over multiple data sets. Results of the latter can also be neatly presented with the newly introduced CD (critical difference) diagrams.
translated by 谷歌翻译
Multi-objective feature selection is one of the most significant issues in the field of pattern recognition. It is challenging because it maximizes the classification performance and, at the same time, minimizes the number of selected features, and the mentioned two objectives are usually conflicting. To achieve a better Pareto optimal solution, metaheuristic optimization methods are widely used in many studies. However, the main drawback is the exploration of a large search space. Another problem with multi-objective feature selection approaches is the interaction between features. Selecting correlated features has negative effect on classification performance. To tackle these problems, we present a novel multi-objective feature selection method that has several advantages. Firstly, it considers the interaction between features using an advanced probability scheme. Secondly, it is based on the Pareto Archived Evolution Strategy (PAES) method that has several advantages such as simplicity and its speed in exploring the solution space. However, we improve the structure of PAES in such a way that generates the offsprings, intelligently. Thus, the proposed method utilizes the introduced probability scheme to produce more promising offsprings. Finally, it is equipped with a novel strategy that guides it to find the optimum number of features through the process of evolution. The experimental results show a significant improvement in finding the optimal Pareto front compared to state-of-the-art methods on different real-world datasets.
translated by 谷歌翻译
HyperParameter Optimization(HPO)是一种确保机器学习(ML)算法最佳性能的必要步骤。已经开发了几种方法来执行HPO;其中大部分都集中在优化一个性能措施(通常是基于错误的措施),并且在这种单一目标HPO问题上的文献是巨大的。然而,最近似乎似乎侧重于同时优化多个冲突目标的算法。本文提出了对2014年至2020年的文献的系统调查,在多目标HPO算法上发布,区分了基于成逐的算法,Metamodel的算法以及使用两者混合的方法。我们还讨论了用于比较多目标HPO程序和今后的研究方向的质量指标。
translated by 谷歌翻译
Recently, evolutionary multitasking (EMT) has been successfully used in the field of high-dimensional classification. However, the generation of multiple tasks in the existing EMT-based feature selection (FS) methods is relatively simple, using only the Relief-F method to collect related features with similar importance into one task, which cannot provide more diversified tasks for knowledge transfer. Thus, this paper devises a new EMT algorithm for FS in high-dimensional classification, which first adopts different filtering methods to produce multiple tasks and then modifies a competitive swarm optimizer to efficiently solve these related tasks via knowledge transfer. First, a diversified multiple task generation method is designed based on multiple filtering methods, which generates several relevant low-dimensional FS tasks by eliminating irrelevant features. In this way, useful knowledge for solving simple and relevant tasks can be transferred to simplify and speed up the solution of the original high-dimensional FS task. Then, a competitive swarm optimizer is modified to simultaneously solve these relevant FS tasks by transferring useful knowledge among them. Numerous empirical results demonstrate that the proposed EMT-based FS method can obtain a better feature subset than several state-of-the-art FS methods on eighteen high-dimensional datasets.
translated by 谷歌翻译
大多数机器学习方法和算法给出了预测性能的高优先级,这可能并不总是对应于用户的优先级。在许多情况下,从工程到遗传学的不同领域的从业者和研究人员都需要尤其是在例如并非所有属性可用的环境中的结果的解释和可重复性。因此,需要使机器学习算法的输出更加解释,并提供用户可以根据属性可用性选择的“等价”学习者(在预测性能方面)来进行测试和/或利用这些学习者以获取预测/诊断目的。为了解决这些需求,我们建议研究一个组合筛选和包装方法方法的过程,这些过程基于用户指定的学习方法,贪婪地探讨了属性空间,以找到稀疏的学习者库,随后的低数据收集和存储成本。这种新方法(i)提供了可以容易解释的低维网络,并且(ii)基于具有相同预测功率的强大学习者的属性组合的多样性提高结果的潜在可重量。我们称这种算法“稀疏包装算法”(SWAG)。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译