智能论文笔记

Mutual Information and Ensemble Based Feature Recommender for Renal Cancer Stage Classification

Abhishek Dey , Debayan Goswami , Rahul Roy , Susmita Ghosh , Yu Shrike Zhang , Jonathan H. Chan

分类：机器学习

2022-09-28

肾脏是人体的重要器官。它保持体内平衡并通过尿液去除有害物质。肾细胞癌（RCC）是肾癌最常见的形式。大约90％的肾脏癌归因于RCC。最有害的RCC类型是清晰的细胞肾细胞癌（CCRCC），占所有RCC病例的80％。需要早期和准确的CCRCC检测，以防止其他器官进一步扩散该疾病。在本文中，进行了详细的实验，以确定可以在不同阶段诊断CCRCC的重要特征。 CCRCC数据集从癌症基因组图集（TCGA）获得。考虑了从8种流行特征选择方法获得的特征顺序的新型相互信息和集合的特征排名方法。通过使用2个不同的分类器（ANN和SVM）获得的总体分类精度来评估所提出方法的性能。实验结果表明，所提出的特征排名方法能够获得更高的精度（分别使用SVM和NN分别使用SVM和NN），与现有工作相比，使用SVM和NN分别使用SVM和NN进行分类。还要注意的是，在现有TNM系统（由AJCC和UICC提出的）提到的3个区分特征中，我们提出的方法能够选择其中两个（肿瘤的大小，转移状态）作为顶部 - 大多数。这确立了我们提出的方法的功效。

translated by 谷歌翻译

Multivariate feature ranking of gene expression data

Fernando Jiménez , Gracia Sánchez José Palma , Luis Miralles-Pechuán , Juan Botía

分类：机器学习 | 人工智能

2021-11-03

基因表达数据集通常具有高维度，因此需要有效且有效的方法来识别其属性的相对重要性。由于可能的解决方案的搜索空间的大小，属性子集评估特征选择方法往往不适用，因此在这些方案中使用特征对方法。文献中描述的大多数特征排名方法是单变量的方法，因此它们不会检测因子之间的相互作用。在本文中，我们提出了基于成对相关性和成对一致性的两种新的多变量特征排名方法，我们应用于三种基因表达分类问题。我们在统计上证明所提出的方法优于现有技术的状态，特征对方法进行分类方法聚类变化，CHI平方，相关性，信息增益，相关性和意义，以及基于与多目标的相关性和一致性的属性子集评估的特征选择方法进化搜索策略。

translated by 谷歌翻译

Curvature-based Feature Selection with Application in Classifying Electronic Health Records

Zheming Zuo , Jie Li , Han Xu , Noura Al Moubayed

分类：机器学习 | 人工智能

2021-01-10

颠覆性技术提供无与伦比的机会，为普遍存在医疗保健的许多方面的标识，从通过内容到机器学习（ML）技术来促进普及医疗保健的识别。作为一个强大的工具，ML已被广泛应用于以患者为中心的医疗保健解决方案。为了进一步提高患者护理的质量，在医疗保健设施中通常采用电子健康记录（EHRS）进行分析。由于它们高度非结构化，不平衡，不完整和高维性质，应用AI和ML将AI和ML应用AI和ML分析那些EHRS的重要任务。减少维度是一种常见的数据预处理技术，用于应对高维EHR数据，旨在减少EHR表示的特征的数量，同时提高随后的数据分析的性能，例如，分类。在这项工作中，提出了一种高效的基于滤波器的特征选择方法，即基于曲率的特征选择（CFS）。所提出的CFS应用了Menger曲率的概念，以对给定数据集中的所有功能的重量进行排名。已经在四种众所周知的EHR数据集中评估了所提出的CFS的性能，包括宫颈癌危险因素（CCRFD），乳腺癌助生（BCCDS），乳腺组织（BTDS）和糖尿病视网膜病变（DRDDD）。实验结果表明，所提出的CFS在上述数据集上实现了最先进的性能，而不是传统的PCA和其他最新方法。所提出的方法的源代码在https://github.com/zhemingzuo/cfs上公开提供。

translated by 谷歌翻译

Analyzing the impact of feature selection on the accuracy of heart disease prediction

Muhammad Salman Pathan , Avishek Nag , Muhammad Mohisn Pathan , Soumyabrata Dev

分类：机器学习

2022-06-07

心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中，它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害，准确地诊断为心脏病是一个重要因素。最近，我们看到了非侵入性医学程序的用法，例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术，这些算法和技术被广泛使用，并且在较少的时间以诊断心脏病的准确诊断非常有用。但是，对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加，使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此，这项研究的目的是从高度维数据集中确定最重要的风险因素，这有助于对心脏病的准确分类，并减少并发症。为了进行更广泛的分析，我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明，相关特征对分类精度产生了很大的影响。即使功能减少，与在全功能集中训练的模型相比，分类模型的性能随着训练时间的减少而显着提高。

translated by 谷歌翻译

Cost-based feature selection for network model choice

Louis Raynal , Till Hoffmann , Jukka-Pekka Onnela

分类： (统计)机器学习

2021-01-19

从大量嘈杂的候选人中选择一小部分信息功能是一个充满挑战的问题，即机器学习和近似贝叶斯计算中的许多应用程序。在实践中，还需要考虑计算信息丰富功能的成本。这对于网络尤为重要，因为单个功能的计算成本可以跨越几个数量级。我们使用两种方法解决了网络模型选择问题的问题。首先，我们调整了九种功能选择方法来说明功能成本。我们为两类网络模型显示，可以通过两个数量级降低成本，而不会极大地影响分类精度（正确识别的模型的比例）。其次，我们使用具有较小网络的Pilot模拟选择了功能。这种方法将计算成本降低了50倍，而不会影响分类精度。为了证明我们的方法的实用性，我们将其应用于三个不同的酵母蛋白相互作用网络，并确定了最合适的重复差异模型。

translated by 谷歌翻译

Examining stability of machine learning methods for predicting dementia at early phases of the disease

Sinan Faouri , Mahmood AlBashayreh , Mohammad Azzeh

分类：机器学习 | 人工智能

2022-09-10

痴呆症是一种神经精神脑障碍，通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明，机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积（NWBV）和地图集缩放系数（ASF）收集的收集数据类型，这些数据通常测量并从磁共振成像（MRIS）中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症，但我们无法就这些方法的稳定性得出结论，而这些方法在不同的实验条件下更准确。因此，本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此，使用7种机器学习算法和两种功能还原算法，即信息增益（IG）和主成分分析（PCA）进行大量实验。为了检查这些算法的稳定性，IG的特征选择阈值从20％更改为100％，PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中，都记录了各种分类评估数据。获得的结果表明，在七种算法中，支持向量机和天真的贝叶斯是最稳定的算法，同时更改选择阈值。同样，发现使用IG似乎比使用PCA预测痴呆症更有效。

translated by 谷歌翻译

Predicting Survival of Tongue Cancer Patients by Machine Learning Models

Angelos Vasilopoulos , Nan Miles Xi

分类：机器学习

2022-12-23

Tongue cancer is a common oral cavity malignancy that originates in the mouth and throat. Much effort has been invested in improving its diagnosis, treatment, and management. Surgical removal, chemotherapy, and radiation therapy remain the major treatment for tongue cancer. The survival of patients determines the treatment effect. Previous studies have identified certain survival and risk factors based on descriptive statistics, ignoring the complex, nonlinear relationship among clinical and demographic variables. In this study, we utilize five cutting-edge machine learning models and clinical data to predict the survival of tongue cancer patients after treatment. Five-fold cross-validation, bootstrap analysis, and permutation feature importance are applied to estimate and interpret model performance. The prognostic factors identified by our method are consistent with previous clinical studies. Our method is accurate, interpretable, and thus useable as additional evidence in tongue cancer treatment and management.

translated by 谷歌翻译

Employing Feature Selection Algorithms to Determine the Immune State of Mice with Rheumatoid Arthritis

Brendon K. Colbert , Joslyn L. Mangal , Aleksandr Talitckii , Abhinav P. Acharya , Matthew M. Peet

分类： (统计)机器学习 | 机器学习

2022-07-12

免疫反应是一个动态过程，通过该过程，身体决定抗原是自我还是非自然。这种动态过程的状态由构成该决策过程的炎症和监管参与者的相对平衡和种群定义。免疫疗法的目的，例如因此，类风湿关节炎（RA）是为了使免疫状态偏向于监管参与者，从而在反应中关闭自身免疫性途径。尽管有几种已知的免疫疗法方法，但治疗的有效性将取决于这种干预措施如何改变该状态的演变。不幸的是，此过程不仅取决于该过程的动力学，而且是在干预时的系统状态决定的 - 这种状态在应用治疗之前很难确定即使不是不可能的状态。

translated by 谷歌翻译

High-Order Conditional Mutual Information Maximization for dealing with High-Order Dependencies in Feature Selection

Francisco Souza , Cristiano Premebida , Rui Araújo

分类：机器学习

2022-07-18

本文提出了一种基于条件互信息（CMI）的新型特征选择方法。提出的高阶条件互信息最大化（HOCMIM）将高阶依赖性纳入特征选择过程中，并且由于其自下而上的推导而具有直接的解释。HOCMIM源自CMI的链膨胀，并表示为最大化优化问题。最大化问题是使用贪婪的搜索过程解决的，该过程加快了整个功能选择过程。实验是在一组基准数据集上运行的（总共20个）。将HOCMIM与两个有监督的学习分类器（支持向量机和K-Nearest邻居）的结果进行比较。HOCMIM在准确性方面取得了最佳效果，并且表明要比高级特征选择的速度快。

translated by 谷歌翻译

Deep Learning Based Model for Breast Cancer Subtype Classification

Sheetal Rajpal , Virendra Kumar , Manoj Agarwal , Naveen Kumar

分类：机器学习

2021-11-06

乳腺癌长期以来一直是女性死亡率的着名原因。现在，由于能够记录基因表达数据的RNA测序工具的可用性，现在可以进行诊断，治疗和预后。分子亚型与设计设计有关的临床策略和预后密切相关，本文侧重于使用基因表达数据进行乳腺癌分类为四个亚型，即基础，HER2，亮度和叶。在第1阶段，我们建议了一个基于深度学习的模型，它使用AutoEncoder来减少维度。通过使用AutoEncoder，特征集的大小从20,530个基因表达值减少到500。这种编码的表示被传递给第二阶段的深神经网络，用于将患者分为四个分子癌的四种分子亚型。通过部署阶段1和2的组合网络，我们能够在TCGA乳腺癌数据集上获得0.907的平均10倍测试精度。在整个10个不同的运行过程中，所提出的框架相当强劲，如Boxplot用于分类准确性所示。与文献中报告的相关工作相比，我们取得了竞争的结果。总之，所提出的两级深度学习的模型能够准确地分类四个乳腺癌亚型，突出了自动化的能力推导了紧凑的表现和神经网络分类器正确标记乳腺癌患者的能力。

translated by 谷歌翻译

Stacked Autoencoder Based Multi-Omics Data Integration for Cancer Survival Prediction

Xing Wu , Qiulian Fang

分类：机器学习

2022-07-08

癌症存活预测对于开发个性化治疗和诱导疾病的机制很重要。多词数据的数据整合吸引了人们对癌症研究的广泛兴趣，以提供了解多个遗传水平的癌症进展的信息。然而，由于多派数据的高维和异质性，许多作品受到限制。在本文中，我们提出了一种新的方法，以整合癌症生存预测的多摩学数据，称为堆叠自动编码器的生存预测神经网络（SAESURV-NET）。在TCGA病例的癌症存活预测中，SaesURV-NET通过两阶段的降低策略来解决维数的诅咒，并使用堆叠的自动编码器模型处理多摩斯的异质性。两阶段的降低策略在计算复杂性和信息开发之间取得了平衡。堆叠的自动编码器模型删除了大多数异质性，例如第一组自动编码器中的数据类型和大小，并将多个OMICS数据集成在第二个自动编码器中。该实验表明，SAESURV-NET优于基于单一类型数据以及其他最先进方法的模型。

translated by 谷歌翻译

An Adaptive and Altruistic PSO-based Deep Feature Selection Method for Pneumonia Detection from Chest X-Rays

Rishav Pramanik , Sourodip Sarkar , Ram Sarkar

分类：计算机视觉 | 神经与进化计算

2022-08-06

肺炎是儿童死亡率的主要原因之一，尤其是在全球收入的地区。尽管可以通过不太复杂的仪器和药物进行检测和治疗，但肺炎检测仍然是发展中国家的主要关注点。基于计算机辅助的诊断（CAD）系统可在此类国家 /地区使用，因为其运营成本低于专业医疗专家。在本文中，我们使用深度学习的概念和一种元神父算法提出了一个从胸部X射线检测的CAD系统，以检测胸部X射线。我们首先从预先训练的RESNET50中提取深度功能，该功能在目标肺炎数据集上进行了微调。然后，我们提出了一种基于粒子群优化（PSO）的特征选择技术，该技术使用基于内存的适应参数进行了修改，并通过将利他行为纳入代理人而丰富。我们将功能选择方法命名为自适应和利他的PSO（AAPSO）。提出的方法成功地消除了从RESNET50模型获得的非信息性特征，从而提高了整体框架的肺炎检测能力。对公开可用的肺炎数据集进行了广泛的实验和彻底分析，确定了所提出的方法比用于肺炎检测的其他几个框架的优越性。除了肺炎检测外，AAPSO还可以在某些标准的UCI数据集，用于癌症预测的基因表达数据集和COVID-19预测数据集上进行评估。总体结果令人满意，从而确认AAPSO在处理各种现实生活问题方面的实用性。可以在https://github.com/rishavpramanik/aapso上找到此工作的支持源代码

translated by 谷歌翻译

Deep IDA: A Deep Learning Method for Integrative Discriminant Analysis of Multi-View Data with Feature Ranking -- An Application to COVID-19 severity

Jiuzhou Wang , Sandra E. Safo

分类： (统计)机器学习 | 机器学习

2021-11-18

Covid-19严重程度是由于SARS-COV-2的并发症，但感染的临床过程因个体而异，强调需要更好地了解分子水平的疾病。我们使用从有和没有Covid-19的患者获得的临床和多个分子数据（或视图），他们（或不）被录取为重症监护病房，以阐明Covid-19严重程度。共同关联视图并分离Covid-19组的方法（即，一步法）专注于线性关系。然而，观点和Covid-19患者组之间的关系太复杂，无法通过线性方法来理解。现有的非线性一步法方法不能用于识别签名，以帮助我们了解疾病的复杂性。我们提出了深入的IDA（综合歧视分析）来解决我们兴趣问题的分析挑战。 Deep IDA学习两个或多个视图的非线性投影，从而最大限度地关联视图并在每个视图中分开类，并允许具有可解释的发现的特征排序。与其他最先进的方法相比，我们的申请表明，与其他最先进的方法相比，Deave IDA具有竞争性分类率，并且能够识别有助于了解Covid-19严重程度的分子签名。

translated by 谷歌翻译

Diagnosis and Prognosis of COVID-19 Disease Using Routine Blood Values and LogNNet Neural Network

Mehmet Tahir Huyut , Andrei Velichko

分类：机器学习 | 人工智能

2022-05-20

自2020年2月以来，世界一直在与Covid-19疾病进行激烈的斗争，随着疾病变成大流行，卫生系统受到悲惨的压力。这项研究的目的是使用对LogNNET储层神经网络的向后特征消除算法获得COVID-19的诊断和预后中最有效的常规血值（RBV）。该研究中的第一个数据集由5296例患者组成，具有相同数量的阴性和阳性COVID-19。 Lognnet模型在疾病诊断中的准确率为99.5％，其特征的精度为99.17％，只有平均红细胞血红蛋白浓度，平均性肌张力性血红蛋白和激活的部分凝血酶蛋白时间。第二个数据集由总共3899例COVID-19诊断为医院接受治疗的患者，其中203名患者是严重的患者，3696例患者是温和的患者。该模型以48个特征确定疾病预后的准确率达到94.4％，而仅红细胞沉降率，中性粒细胞计数和C反应性蛋白质特征，精度为82.7％。我们的方法将减少卫生部门的负压力，并帮助医生使用关键特征来了解Covid-19的发病机理。该方法有望在物联网中创建移动健康监控系统。

translated by 谷歌翻译

Predicting Cancer Using Supervised Machine Learning: Mesothelioma

Avishek Choudhury

分类：机器学习 | 人工智能

2021-10-31

背景：胸膜间皮瘤（PM）是一种不寻常的交叉肿瘤，迅速发展肺部胸膜癌症。胸腔间皮瘤是一种常见的间皮瘤，占每年在美国每年诊断的患儿诊断的75％的75％。诊断间皮瘤的诊断需要几个月，价格昂贵。鉴于与PM诊断相关的风险和限制，早期识别这种疾病对于患者健康至关重要。目的：在这项研究中，我们使用人工智能算法推荐最适合MPM的早期诊断和预后的最佳拟合模型。方法：我们回顾性地检索了DICE University，土耳其和应用多层射击（MLP），投票的感知者（vp），克罗尼分类器（CC），内核逻辑回归（KLR），随机梯度体面的SGD），自适应提升（Adaboost），Hoeffding树（VFDT）和支持向量机（S-PEGASOS）的原始估计子梯度求解器。我们根据各自的分类精度，F法测量，精度，召回，均方根误差，接收器特征曲线（ROC）和精密召回，使用与0.05的比较和测试使用配对T检验（校正）进行比较和测试。曲线（中国）。结果：在第1阶段，SGD，Adaboost。 M1，KLR，MLP，VFDT采用最高性能措施产生最佳效果。在第2阶段，Adaboost，分类精度为71.29％，表现优于所有其他算法。发现C-反应蛋白，血小板计数，症状持续时间，性别和胸膜蛋白是最相关的预测因子，可以预测间皮瘤。结论：本研究证实，从活检和想象测试中获得的数据是间皮瘤的强预测因子，但与高成本相关;然而，它们可以以最佳的准确性识别间皮瘤。

translated by 谷歌翻译

A comprehensive survey on computational learning methods for analysis of gene expression data

Nikita Bhandari , Rahee Walambe , Ketan Kotecha , Satyajeet Khare

分类：人工智能 | 机器学习

2022-02-07

包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法，例如微阵列技术和RNA测序产生大量数据。传统上，统计方法用于基因表达数据的比较分析。但是，针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中，我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法，也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化，特征选择和特征提取的方法。最后，详细描述了分类和类发现方法及其评估参数。我们认为，这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。

translated by 谷歌翻译

Comparative study of machine learning and deep learning methods on ASD classification

Ramchandra Rimal , Mitchell Brannon , Yingxin Wang

分类：机器学习 | (统计)机器学习

2022-09-18

研究了自闭症数据集，以确定自闭症和健康组之间的差异。为此，分析了这两组的静止状态功能磁共振成像（RS-FMRI）数据，并创建了大脑区域之间的连接网络。开发了几个分类框架，以区分组之间的连接模式。比较了统计推断和精度的最佳模型，并分析了精度和模型解释性之间的权衡。最后，据报道，分类精度措施证明了我们框架的性能。我们的最佳模型可以以71％的精度将自闭症和健康的患者分类为多站点I数据。

translated by 谷歌翻译

Deep Neural Networks integrating genomics and histopathological images for predicting stages and survival time-to-event in colon cancer

Olalekan Ogundipe , Zeyneb Kurt , Wai Lok Woo

分类：计算机视觉 | 机器学习 | 神经与进化计算

2022-12-13

There exists unexplained diverse variation within the predefined colon cancer stages using only features either from genomics or histopathological whole slide images as prognostic factors. Unraveling this variation will bring about improved in staging and treatment outcome, hence motivated by the advancement of Deep Neural Network libraries and different structures and factors within some genomic dataset, we aggregate atypical patterns in histopathological images with diverse carcinogenic expression from mRNA, miRNA and DNA Methylation as an integrative input source into an ensemble deep neural network for colon cancer stages classification and samples stratification into low or high risk survival groups. The results of our Ensemble Deep Convolutional Neural Network model show an improved performance in stages classification on the integrated dataset. The fused input features return Area under curve Receiver Operating Characteristic curve (AUC ROC) of 0.95 compared with AUC ROC of 0.71 and 0.68 obtained when only genomics and images features are used for the stage's classification, respectively. Also, the extracted features were used to split the patients into low or high risk survival groups. Among the 2548 fused features, 1695 features showed a statistically significant survival probability differences between the two risk groups defined by the extracted features.

translated by 谷歌翻译

Machine Learning Approaches to Predict Breast Cancer: Bangladesh Perspective

Taminul Islam , Arindom Kundu , Nazmul Islam Khan , Choyon Chandra Bonik , Flora Akter , Md Jihadul Islam

分类：机器学习

2022-06-30

如今，乳腺癌已成为近年来最突出的死亡原因之一。在所有恶性肿瘤中，这是全球妇女最常见和主要的死亡原因。手动诊断这种疾病需要大量的时间和专业知识。乳腺癌的检测是耗时的，并且可以通过开发基于机器的乳腺癌预测来减少疾病的传播。在机器学习中，系统可以从先前的实例中学习，并使用各种统计，概率和优化方法从嘈杂或复杂的数据集中找到难以检测的模式。这项工作比较了几种机器学习算法的分类准确性，精度，灵敏度和新近收集的数据集的特异性。在这种工作决策树，随机森林，逻辑回归，天真的贝叶斯和XGBoost中，已经实施了这五种机器学习方法，以在我们的数据集中获得最佳性能。这项研究的重点是找到最佳的算法，该算法可以预测乳腺癌，以最高的准确性。这项工作在效率和有效性方面评估了每种算法数据分类的质量。并与该领域的其他已发表工作相比。实施模型后，本研究达到了最佳模型准确性，在随机森林和XGBoost上达到94％。

translated by 谷歌翻译

Filter Methods for Feature Selection in Supervised Machine Learning Applications -- Review and Benchmark

Konstantin Hopf , Sascha Reifenrath

分类：机器学习 | (统计)机器学习

2021-11-23

机器学习（ML）应用程序的数据量不断增长。不仅是观察的数量，特别是测量变量的数量（特征）增加了持续的数字化。选择最适合预测建模的功能是ML在商业和研究中取得成功的重要杠杆。特征选择方法（FSM）独立于某种ML算法 - 所谓的过滤方法 - 已毫无意义地建议，但研究人员和定量建模的指导很少，以选择典型ML问题的适当方法。本次审查在特征选择基准上综合了大量文献，并评估了58种方法在广泛使用的R环境中的性能。对于具体的指导，我们考虑了四种典型的数据集方案，这些情况挑战ML模型（嘈杂，冗余，不平衡数据和具有比观察特征更多的案例）。绘制早期基准的经验，该基准测试较少的FSMS，我们根据四个标准进行比较方法的性能（预测性能，所选的相关功能数，功能集和运行时的稳定性）。我们发现依赖于随机森林方法的方法，双输入对称相关滤波器（浪费）和联合杂质滤波器（Jim）是给定的数据集方案的良好性候选方法。

translated by 谷歌翻译