以在线方式进行功能选择的在线流媒体特征选择(OSFS)在处理高维数据方面起着重要作用。在许多真实的应用程序(例如智能医疗平台)中,流媒体功能始终存在一些缺少的数据,这在进行OSFS(即如何在稀疏流式传输功能和标签之间建立不确定的关系)方面提出了至关重要的挑战。不幸的是,现有的OSFS算法从未考虑过这种不确定的关系。为了填补这一空白,我们在本文中提出了一个不确定性(OS2FSU)算法的在线稀疏流媒体特征选择。 OS2FSU由两个主要部分组成:1)潜在因素分析用于预测稀疏流特征中缺少的数据,然后使用划分功能选择,而2)使用模糊逻辑和邻里粗糙集来减轻估计流流之间的不确定性进行功能选择期间的功能和标签。在实验中,将OS2FSU与六个真实数据集中的五种最先进的OSFS算法进行了比较。结果表明,在OSF中遇到丢失的数据时,OS2FSU胜过其竞争对手。
translated by 谷歌翻译
Pawlak粗糙集和邻居粗糙集是两个最常见的粗糙设置理论模型。 Pawlawk可以使用等价类来表示知识,但无法处理连续数据;邻域粗糙集可以处理连续数据,但它失去了使用等价类代表知识的能力。为此,本文介绍了基于格兰拉球计算的粒状粗糙集。颗粒球粗糙集可以同时代表佩皮克粗集,以及邻域粗糙集,以实现两者的统一表示。这使得粒度球粗糙集不仅可以处理连续数据,而且可以使用对知识表示的等价类。此外,我们提出了一种颗粒球粗糙集的实现算法。基准数据集的实验符合证明,由于颗粒球计算的鲁棒性和适应性的组合,与Pawlak粗糙集和传统的邻居粗糙相比,粒状球粗糙集的学习准确性得到了大大提高放。颗粒球粗糙集也优于九流行或最先进的特征选择方法。
translated by 谷歌翻译
本文提出了一种基于条件互信息(CMI)的新型特征选择方法。提出的高阶条件互信息最大化(HOCMIM)将高阶依赖性纳入特征选择过程中,并且由于其自下而上的推导而具有直接的解释。HOCMIM源自CMI的链膨胀,并表示为最大化优化问题。最大化问题是使用贪婪的搜索过程解决的,该过程加快了整个功能选择过程。实验是在一组基准数据集上运行的(总共20个)。将HOCMIM与两个有监督的学习分类器(支持向量机和K-Nearest邻居)的结果进行比较。HOCMIM在准确性方面取得了最佳效果,并且表明要比高级特征选择的速度快。
translated by 谷歌翻译
本文提出了一种基于粗糙集的强大数据挖掘方法,可以同时实现特征选择,分类和知识表示。粗糙集具有良好的解释性,是一种流行的特征选择方法。但效率低,精度低是其主要缺点,限制了其应用能力。在本文中,对应于准确性,首先找到粗糙集的无效,因为过度装备,尤其是在处理噪声属性中,并为属性提出了一个稳健的测量,称为相对重要性。我们提出了“粗糙概念树”的概念用于知识表示和分类。在公共基准数据集上的实验结果表明,所提出的框架达到比七种流行或最先进的特征选择方法更高的精度。
translated by 谷歌翻译
癫痫发作是最重要的神经障碍之一,其早期诊断将有助于临床医生为患者提供准确的治疗方法。脑电图(EEG)信号广泛用于癫痫癫痫发作检测,其提供了关于大脑功能的实质性信息的专家。本文介绍了采用模糊理论和深层学习技术的新型诊断程序。所提出的方法在Bonn大学数据集上进行了评估,具有六个分类组合以及弗赖堡数据集。可以使用可调谐Q小波变换(TQWT)来将EEG信号分解为不同的子带。在特征提取步骤中,从TQWT的不同子带计算了13个不同的模糊熵,并且计算它们的计算复杂性以帮助研究人员选择各种任务的最佳集合。在下文中,采用具有六层的AutoEncoder(AE)用于减少维数。最后,标准自适应神经模糊推理系统(ANFIS)以及其具有蚱蜢优化算法(ANFIS-GOA),粒子群优化(ANFIS-PSO)和育种群优化(ANFIS-BS)方法的变体分类。使用我们所提出的方法,ANFIS-BS方法在弗赖堡数据集上分为两类分为两类和准确度,在两类分类中获得99.46%的准确性,以及弗赖堡数据集的99.28%,达到最先进的两个人的表演。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
模糊或神经模糊系统的主要限制是他们无法处理高维数据集的故障。这主要是由于使用T-Norm,特别是产品或最小(或其更软的版本)。因此,几乎没有任何处理与尺寸超过一百个以上的数据集。在这里,我们提出了一种神经模糊框架,可以处理尺寸甚至超过7000的数据集!在这种情况下,我们提出了一种自适应软培蛋白(ADA-Softmin),其有效地克服了在处理高维问题的同时为现有的模糊系统产生的“数字下溢”和“假最小最小值”的缺点。我们称之为Adaptive Takagi-Sugeno-kang(Adatsk)模糊系统。然后,我们用综合方式装备ADATSK系统以执行特征选择和规则提取。在这种情况下,仅在随后的零件中引入并嵌入了一种新颖的栅极功能,其可以在学习的两个连续阶段中确定有用的特征和规则。与传统的模糊规则基础不同,我们设计增强的模糊规则基础(EN-FRB),该基础(EN-FRB)保持了足够的规则,但不会以模糊神经网络的尺寸呈指数呈指数规则的数量。集成特征选择和规则提取ADATSK(FSRE-ADATSK)系统由三个连续阶段组成:(i)特征选择,(ii)规则提取,和(iii)微调。 FSRE-Adatsk的有效性在19个数据集上展示了五个,其中五个是2000多个维度,包括两个大于7000的尺寸。这可能是第一次模糊系统实现涉及超过7000个输入功能的分类。
translated by 谷歌翻译
肾脏是人体的重要器官。它保持体内平衡并通过尿液去除有害物质。肾细胞癌(RCC)是肾癌最常见的形式。大约90%的肾脏癌归因于RCC。最有害的RCC类型是清晰的细胞肾细胞癌(CCRCC),占所有RCC病例的80%。需要早期和准确的CCRCC检测,以防止其他器官进一步扩散该疾病。在本文中,进行了详细的实验,以确定可以在不同阶段诊断CCRCC的重要特征。 CCRCC数据集从癌症基因组图集(TCGA)获得。考虑了从8种流行特征选择方法获得的特征顺序的新型相互信息和集合的特征排名方法。通过使用2个不同的分类器(ANN和SVM)获得的总体分类精度来评估所提出方法的性能。实验结果表明,所提出的特征排名方法能够获得更高的精度(分别使用SVM和NN分别使用SVM和NN),与现有工作相比,使用SVM和NN分别使用SVM和NN进行分类。还要注意的是,在现有TNM系统(由AJCC和UICC提出的)提到的3个区分特征中,我们提出的方法能够选择其中两个(肿瘤的大小,转移状态)作为顶部 - 大多数。这确立了我们提出的方法的功效。
translated by 谷歌翻译
Mutual Information (MI) based feature selection makes use of MI to evaluate each feature and eventually shortlists a relevant feature subset, in order to address issues associated with high-dimensional datasets. Despite the effectiveness of MI in feature selection, we notice that many state-of-the-art algorithms disregard the so-called unique relevance (UR) of features, and arrive at a suboptimal selected feature subset which contains a non-negligible number of redundant features. We point out that the heart of the problem is that all these MIBFS algorithms follow the criterion of Maximize Relevance with Minimum Redundancy (MRwMR), which does not explicitly target UR. This motivates us to augment the existing criterion with the objective of boosting unique relevance (BUR), leading to a new criterion called MRwMR-BUR. Depending on the task being addressed, MRwMR-BUR has two variants, termed MRwMR-BUR-KSG and MRwMR-BUR-CLF, which estimate UR differently. MRwMR-BUR-KSG estimates UR via a nearest-neighbor based approach called the KSG estimator and is designed for three major tasks: (i) Classification Performance. (ii) Feature Interpretability. (iii) Classifier Generalization. MRwMR-BUR-CLF estimates UR via a classifier based approach. It adapts UR to different classifiers, further improving the competitiveness of MRwMR-BUR for classification performance oriented tasks. The performance of both MRwMR-BUR-KSG and MRwMR-BUR-CLF is validated via experiments using six public datasets and three popular classifiers. Specifically, as compared to MRwMR, the proposed MRwMR-BUR-KSG improves the test accuracy by 2% - 3% with 25% - 30% fewer features being selected, without increasing the algorithm complexity. MRwMR-BUR-CLF further improves the classification performance by 3.8%- 5.5% (relative to MRwMR), and it also outperforms three popular classifier dependent feature selection methods.
translated by 谷歌翻译
从大量嘈杂的候选人中选择一小部分信息功能是一个充满挑战的问题,即机器学习和近似贝叶斯计算中的许多应用程序。在实践中,还需要考虑计算信息丰富功能的成本。这对于网络尤为重要,因为单个功能的计算成本可以跨越几个数量级。我们使用两种方法解决了网络模型选择问题的问题。首先,我们调整了九种功能选择方法来说明功能成本。我们为两类网络模型显示,可以通过两个数量级降低成本,而不会极大地影响分类精度(正确识别的模型的比例)。其次,我们使用具有较小网络的Pilot模拟选择了功能。这种方法将计算成本降低了50倍,而不会影响分类精度。为了证明我们的方法的实用性,我们将其应用于三个不同的酵母蛋白相互作用网络,并确定了最合适的重复差异模型。
translated by 谷歌翻译
机器学习(ML)应用程序的数据量不断增长。不仅是观察的数量,特别是测量变量的数量(特征)增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法(FSM)独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议,但研究人员和定量建模的指导很少,以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献,并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导,我们考虑了四种典型的数据集方案,这些情况挑战ML模型(嘈杂,冗余,不平衡数据和具有比观察特征更多的案例)。绘制早期基准的经验,该基准测试较少的FSMS,我们根据四个标准进行比较方法的性能(预测性能,所选的相关功能数,功能集和运行时的稳定性)。我们发现依赖于随机森林方法的方法,双输入对称相关滤波器(浪费)和联合杂质滤波器(Jim)是给定的数据集方案的良好性候选方法。
translated by 谷歌翻译
Multi-view unsupervised feature selection has been proven to be efficient in reducing the dimensionality of multi-view unlabeled data with high dimensions. The previous methods assume all of the views are complete. However, in real applications, the multi-view data are often incomplete, i.e., some views of instances are missing, which will result in the failure of these methods. Besides, while the data arrive in form of streams, these existing methods will suffer the issues of high storage cost and expensive computation time. To address these issues, we propose an Incremental Incomplete Multi-view Unsupervised Feature Selection method (I$^2$MUFS) on incomplete multi-view streaming data. By jointly considering the consistent and complementary information across different views, I$^2$MUFS embeds the unsupervised feature selection into an extended weighted non-negative matrix factorization model, which can learn a consensus clustering indicator matrix and fuse different latent feature matrices with adaptive view weights. Furthermore, we introduce the incremental leaning mechanisms to develop an alternative iterative algorithm, where the feature selection matrix is incrementally updated, rather than recomputing on the entire updated data from scratch. A series of experiments are conducted to verify the effectiveness of the proposed method by comparing with several state-of-the-art methods. The experimental results demonstrate the effectiveness and efficiency of the proposed method in terms of the clustering metrics and the computational cost.
translated by 谷歌翻译
Selecting a minimal feature set that is maximally informative about a target variable is a central task in machine learning and statistics. Information theory provides a powerful framework for formulating feature selection algorithms -- yet, a rigorous, information-theoretic definition of feature relevancy, which accounts for feature interactions such as redundant and synergistic contributions, is still missing. We argue that this lack is inherent to classical information theory which does not provide measures to decompose the information a set of variables provides about a target into unique, redundant, and synergistic contributions. Such a decomposition has been introduced only recently by the partial information decomposition (PID) framework. Using PID, we clarify why feature selection is a conceptually difficult problem when approached using information theory and provide a novel definition of feature relevancy and redundancy in PID terms. From this definition, we show that the conditional mutual information (CMI) maximizes relevancy while minimizing redundancy and propose an iterative, CMI-based algorithm for practical feature selection. We demonstrate the power of our CMI-based algorithm in comparison to the unconditional mutual information on benchmark examples and provide corresponding PID estimates to highlight how PID allows to quantify information contribution of features and their interactions in feature-selection problems.
translated by 谷歌翻译
机器学习对图像和视频数据的应用通常会产生高维特征空间。有效的功能选择技术确定了一个判别特征子空间,该子空间可降低计算和建模成本,而绩效很少。提出了一种新颖的监督功能选择方法,用于这项工作中的机器学习决策。所得测试分别称为分类和回归问题的判别功能测试(DFT)和相关特征测试(RFT)。 DFT和RFT程序进行了详细描述。此外,我们将DFT和RFT的有效性与几种经典特征选择方法进行了比较。为此,我们使用LENET-5为MNIST和时尚流行数据集获得的深度功能作为说明性示例。其他具有手工制作和基因表达功能的数据集也包括用于性能评估。实验结果表明,DFT和RFT可以在保持较高的决策绩效的同时明确,稳健地选择较低的尺寸特征子空间。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
功能转换旨在通过数学转换现有功能来提取良好的表示(功能)空间。应对维度的诅咒,增强模型概括,克服数据稀疏性并扩大经典模型的可用性至关重要。当前的研究重点是基于领域的知识特征工程或学习潜在表示;然而,这些方法并非完全自动化,不能产生可追溯和最佳的表示空间。在重建机器学习任务的功能空间时,可以同时解决这些限制吗?在这项扩展研究中,我们提出了一个用于特征转化的自优化框架。为了取得更好的性能,我们通过(1)获得高级状态表示来改善初步工作,以使加强代理能够更好地理解当前功能集; (2)解决Q值高估的Q值高估,以学习无偏见和有效的政策。最后,为了使实验比初步工作更具说服力,我们结论是通过五个数据集添加异常检测任务,评估各种状态表示方法,并比较不同的培训策略。广泛的实验和案例研究表明,我们的工作更有效和更高。
translated by 谷歌翻译
不平衡的分类问题成为数据挖掘和机器学习中的重要和具有挑战性问题之一。传统分类器的性能将受到许多数据问题的严重影响,例如类不平衡问题,类重叠和噪声。 Tomek-Link算法仅用于在提出时清理数据。近年来,已经报道了将Tomek-Link算法与采样技术结合起来。 Tomek-Link采样算法可以有效地减少数据上的类重叠,删除难以区分的多数实例,提高算法分类精度。然而,Tomek-Links下面采样算法仅考虑全局彼此的最近邻居并忽略潜在的本地重叠实例。当少数群体实例的数量很小时,取样效果不令人满意,分类模型的性能改善并不明显。因此,在Tomek-Link的基础上,提出了一种多粒度重新标记的取样算法(MGRU)。该算法完全考虑了本地粒度子空间中的数据集的本地信息,并检测数据集中的本地潜在重叠实例。然后,根据全局重新标记的索引值消除重叠的多数实例,这有效地扩展了Tomek-Link的检测范围。仿真结果表明,当我们选择欠采样的最佳全局重新标记索引值时,所提出的下采样算法的分类准确性和泛化性能明显优于其他基线算法。
translated by 谷歌翻译
分类链是一种用于在多标签分类中建模标签依赖性的有效技术。但是,该方法需要标签的固定静态顺序。虽然理论上,任何顺序都足够了,实际上,该订单对最终预测的质量具有大量影响。动态分类链表示每个实例对分类的想法,可以动态选择预测标签的顺序。这种方法的天真实现的复杂性是禁止的,因为它需要训练一系列分类器,以满足标签的每种可能置换。为了有效地解决这个问题,我们提出了一种基于随机决策树的新方法,该方法可以动态地选择每个预测的标签排序。我们凭经验展示了下一个标签的动态选择,通过在否则不变的随机决策树模型下使用静态排序。 %和实验环境。此外,我们还展示了基于极端梯度提升树的替代方法,其允许更具目标的动态分级链训练。我们的结果表明,该变体优于随机决策树和其他基于树的多标签分类方法。更重要的是,动态选择策略允许大大加速培训和预测。
translated by 谷歌翻译
基于规则的分类器,其提取诱导规则的子集,以便在保留可辨别信息的同时有效地学习/挖掘,在人工可解释的人工智能中起着至关重要的作用。但是,在这个大数据的时代,整个数据集上的规则感应是计算密集的。到目前为止,据我们所知,报道了没有针对加速规则诱导的已知方法。这是首先要考虑减少规则感应规模的加速技术的研究。我们提出了一种基于模糊粗略理论的规则感应的加速器;加速器可以避免冗余计算并加速规则分类器的构建。首先,提出基于一致程度的规则感应方法,称为基于一致的基于值(CVR),并用作加速的基础。其次,我们引入了一个被称为关键集的压实的搜索空间,其只包含更新诱导规则所需的关键实例,以减少值。关键集的单调性可确保我们的加速器的可行性。第三,基于密钥集设计了规则感应加速器,从理论上保证将与未被插布的版本的结果相同的结果。具体地,键集的等级保存属性可确保通过加速器和未燃道的方法实现的规则感应之间的一致性。最后,广泛的实验表明,所提出的加速器可以比未被基于规则的分类器方法更快地执行,特别是在具有许多实例的数据集上。
translated by 谷歌翻译
在本文中,正在研究精神任务 - 根脑 - 计算机接口(BCI)的分类,因为这些系统是BCI中的主要调查领域,因为这些系统可以增强具有严重残疾人的人们的生命。 BCI模型的性能主要取决于通过多个通道获得的特征向量的大小。在心理任务分类的情况下,培训样本的可用性最小。通常,特征选择用于通过摆脱无关紧要和多余的功能来增加心理任务分类的比率。本文提出了一种为精神任务分类选择相关和非冗余频谱特征的方法。这可以通过使用四个非常已知的多变量特征选择方法VIZ,BHATTACHARYA的距离,散射矩阵的比率,线性回归和最小冗余和最大相关性。这项工作还涉及对心理任务分类的多元和单变量特征选择的比较分析。在应用上述方法后,研究结果表明了精神任务分类的学习模型的性能的大量改进。此外,通过执行稳健的排名算法和弗里德曼的统计测试来认识所提出的方法的功效,以找到最佳组合并比较功率谱密度和特征选择方法的不同组合。
translated by 谷歌翻译