Cancer is one of the most challenging diseases because of its complexity, variability, and diversity of causes. It has been one of the major research topics over the past decades, yet it is still poorly understood. To this end, multifaceted therapeutic frameworks are indispensable. \emph{Anticancer peptides} (ACPs) are the most promising treatment option, but their large-scale identification and synthesis require reliable prediction methods, which is still a problem. In this paper, we present an intuitive classification strategy that differs from the traditional \emph{black box} method and is based on the well-known statistical theory of \emph{sparse-representation classification} (SRC). Specifically, we create over-complete dictionary matrices by embedding the \emph{composition of the K-spaced amino acid pairs} (CKSAAP). Unlike the traditional SRC frameworks, we use an efficient \emph{matching pursuit} solver instead of the computationally expensive \emph{basis pursuit} solver in this strategy. Furthermore, the \emph{kernel principal component analysis} (KPCA) is employed to cope with non-linearity and dimension reduction of the feature space whereas the \emph{synthetic minority oversampling technique} (SMOTE) is used to balance the dictionary. The proposed method is evaluated on two benchmark datasets for well-known statistical parameters and is found to outperform the existing methods. The results show the highest sensitivity with the most balanced accuracy, which might be beneficial in understanding structural and chemical aspects and developing new ACPs. The Google-Colab implementation of the proposed method is available at the author's GitHub page (\href{https://github.com/ehtisham-Fazal/ACP-Kernel-SRC}{https://github.com/ehtisham-fazal/ACP-Kernel-SRC}).
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
药物介导的电压门控钾通道(HERG)和电压门控钠通道(NAV1.5)可导致严重的心血管并发症。这种上升的担忧已经反映在药物开发竞技场中,因为许多经批准的药物的常常出现心脏毒性导致他们在某些情况下停止他们的使用,或者在某些情况下,他们从市场上撤回。在药物发现过程的开始时预测潜在的HERG和NAV1.5阻滞剂可以解决这个问题,因此可以降低开发安全药物的时间和昂贵的成本。一种快速且经济高效的方法是在杂草中使用硅预测方法,在药物开发的早期阶段杂草出潜在的Herg和Nav1.5阻滞剂。在这里,我们介绍了两种基于强大的基于2D描述符的基于描述符的QSAR预测模型,用于HERG和NAV1.5责任预测。机器学习模型训练,用于回归,预测药物的效力值,以及三种不同效力截止的多条分类(即1 {\ mu} m,10 {\ mu} m,和30 {\ mu}) M),其中托管 - Herg分类器是随机森林模型的管道,受到8380个独特的分子化合物的大型策级数据集。虽然Toxtree-Nav1.5分类器,凯列化SVM模型的管道,由来自Chembl和Pubchem公开的生物活动数据库的大型手动策划的1550个独特的化合物培训。拟议的HERG诱导者表现优于最先进的发布模型和其他现有工具的大多数指标。此外,我们正在介绍Q4 = 74.9%的第一个NAV1.5责任预测模型,Q2 = 86.7%的二进制分类= 71.2%在173个独特的化合物的外部测试组上进行评估。该项目中使用的策划数据集公开可向研究界提供。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
学习遥感图像的歧管结构对于建模和理解过程是最重要的相关性,以及封装在减少一组信息特征中的高维度,以用于后续分类,回归或解密。歧管学习方法显示出优异的性能来处理高光谱图像(HSI)分析,但除非专门设计,否则它们不能提供明确的嵌入式地图,容易适用于采样超出数据。处理问题的常见假设是高维输入空间和(通常低)潜空间之间的转换是线性的。这是一种特别强烈的假设,特别是当由于数据的众所周知的非线性性质而处理高光谱图像时。为了解决这个问题,提出了一种基于高维模型表示(HDMR)的歧管学习方法,这使得能够将非线性嵌入功能呈现给潜伏空间的采样外部样本。将所提出的方法与其线性对应物一起进行比较,并在代表性齐谱图像的分类精度方面实现了有希望的性能。
translated by 谷歌翻译
耐药性是对全球健康的重大威胁,以及整个疾病和药物发育的临床治疗中的重要疑虑。与药物结合有关的蛋白质中的突变是适应性耐药性的常见原因。因此,对突变如何影响药物和靶蛋白之间的相互作用的定量估计对于药物开发和临床实践来说是至关重要的。已经证明,依赖于分子动力学模拟,Rosetta方案以及机器学习方法的计算方法能够预测对蛋白质突变的配体亲和力变化。然而,严重限制的样本量和重质噪声诱导的过烧和泛化问题已经很广泛地采用了用于研究耐药性的机器学习。在本文中,我们提出了一种稳健的机器学习方法,称为Spldextratees,其可以准确地预测蛋白质突变并鉴定引起抗性突变的配体结合亲和力。特别是,所提出的方法按照易于学习的样本开始的特定方案级别,逐渐融入训练中的特定方案,然后在训练中迭代,然后在样本权重再验计算和模型更新之间迭代。此外,我们计算了基于物理的基于物理的结构特征,为机器学习模型提供了对这种数据有限预测任务的蛋白质的有价值的域知识。该实验证实了提出的方法在三种情况下预测激酶抑制剂抗性的方法,并实现了与分子动力学和Rosetta方法相当的预测准确性,具有较少的计算成本。
translated by 谷歌翻译
鉴定抗微生物肽的靶标是研究先天免疫反应和打击抗生素抗性的基本步骤,更广泛,精确的药物和公共卫生。关于鉴定(I)肽是抗微生物肽(AMP)的统计和计算方法是否有广泛的研究,或者是哪种靶向这些序列(克阳性,革兰氏阴性)的靶序列, 等等。)。尽管存在对此问题的深度学习方法,但大多数都无法处理小型AMP类(抗昆虫,抗寄生虫等)。更重要的是,一些AMP可以有多个目标,前面的方法无法考虑。在这项研究中,我们通过从各种AMP数据库收集和清洁氨基酸来构建多样化和综合的多标签蛋白序列数据库。为了为小类数据集产生有效的表示和特征,我们利用培训的蛋白质语言模型,培训了超过2.5亿蛋白序列。基于此,我们开发了一个端到端的分层多标签深森林框架,HMD-AMP,全面注释放大器。在识别AMP之后,它进一步预测了AMP可以从11个可用类中有效杀死的目标。广泛的实验表明,我们的框架在二进制分类任务和多标签分类任务中占据了最先进的模型,尤其是在次要类上。模型对抗特征和小扰动并产生有前途的结果。我们认为HMD-AMP对不同抗微生物肽的未来湿式实验室调查有助于不同抗菌肽的先天结构性质,并为抗生素进行精确药物构建有前途的实证内衬。
translated by 谷歌翻译
Covid-19(2019年冠状病毒病)的爆发改变了世界。根据世界卫生组织(WHO)的说法,已确认有超过1亿个COVID案件,其中包括超过240万人死亡。早期发现该疾病非常重要,并且已证明使用医学成像,例如胸部X射线(CXR)和胸部计算机断层扫描(CCT)是一个极好的解决方案。但是,此过程要求临床医生在手动和耗时的任务中进行此操作,这在试图加快诊断加快时并不理想。在这项工作中,我们提出了一个基于概率支持向量机(SVM)的集成分类器,以识别肺炎模式,同时提供有关分类可靠性的信息。具体而言,将每个CCT扫描分为立方斑块,并且每个CCT扫描中包含的特征都通过应用核PCA提取。在合奏中使用基本分类器使我们的系统能够识别肺炎模式,无论其尺寸或位置如何。然后,根据每个单个分类的可靠性,将每个单独的贴片的决策组合成一个全局:不确定性越低,贡献越高。在实际情况下评估性能,准确度为97.86%。获得的大型性能和系统的简单性(在CCT图像中使用深度学习将导致巨大的计算成本)证明我们的建议在现实世界中的适用性。
translated by 谷歌翻译
颠覆性技术提供无与伦比的机会,为普遍存在医疗保健的许多方面的标识,从通过内容到机器学习(ML)技术来促进普及医疗保健的识别。作为一个强大的工具,ML已被广泛应用于以患者为中心的医疗保健解决方案。为了进一步提高患者护理的质量,在医疗保健设施中通常采用电子健康记录(EHRS)进行分析。由于它们高度非结构化,不平衡,不完整和高维性质,应用AI和ML将AI和ML应用AI和ML分析那些EHRS的重要任务。减少维度是一种常见的数据预处理技术,用于应对高维EHR数据,旨在减少EHR表示的特征的数量,同时提高随后的数据分析的性能,例如,分类。在这项工作中,提出了一种高效的基于滤波器的特征选择方法,即基于曲率的特征选择(CFS)。所提出的CFS应用了Menger曲率的概念,以对给定数据集中的所有功能的重量进行排名。已经在四种众所周知的EHR数据集中评估了所提出的CFS的性能,包括宫颈癌危险因素(CCRFD),乳腺癌助生(BCCDS),乳腺组织(BTDS)和糖尿病视网膜病变(DRDDD)。实验结果表明,所提出的CFS在上述数据集上实现了最先进的性能,而不是传统的PCA和其他最新方法。所提出的方法的源代码在https://github.com/zhemingzuo/cfs上公开提供。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
由于更高的维度和困难的班级,机器学习应用中的可用数据变得越来越复杂。根据类重叠,可分离或边界形状,以及组形态,存在各种各样的方法来测量标记数据的复杂性。许多技术可以转换数据才能找到更好的功能,但很少专注于具体降低数据复杂性。大多数数据转换方法主要是治疗维度方面,撇开类标签中的可用信息,当类别在某种方式复杂时,可以有用。本文提出了一种基于AutoEncoder的复杂性减少方法,使用类标签来告知损耗函数关于所生成的变量的充分性。这导致了三个不同的新功能学习者,得分手,斯卡尔和切片机。它们基于Fisher的判别比率,Kullback-Leibler发散和最小二乘支持向量机。它们可以作为二进制分类问题应用作为预处理阶段。跨越27个数据集和一系列复杂性和分类指标的彻底实验表明,课堂上通知的AutoEncoders执行优于4个其他流行的无监督功能提取技术,特别是当最终目标使用数据进行分类任务时。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
早期发现癌症是一种挑战性的医学问题。癌症患者的血液血清富含异质分泌脂质结合的细胞内囊泡(EVS),其具有复杂的信息和生物标志物,代表其原产地,目前在液检和癌症筛查领域中研究。振动光谱提供了非侵入性方法,用于评估复杂生物样品中的结构和生物物理性质。在该试点研究中,对来自来自四个不同癌症亚型(结直肠癌,肝细胞癌,乳腺癌和胰腺癌)和五名健康患者(对照组)组成的9例血浆中提取的多种拉曼光谱测量测量。 FTIR(傅里叶变换红外)光谱测量是作为拉曼分析的互补方法,在四个癌症亚型中的两种。 Adaboost随机森林分类器,决策树和支持向量机(SVM)区分癌症EV的基线校正拉曼光谱从健康对照(18 Spectra)的那些,当减少到频谱频率范围时,分类精度高于90% 1800至1940年反厘米,经过50:50培训:测试分裂。 14 Spectra的FTIR分类精度显示了80%的分类准确性。我们的研究结果表明,基本机器学习算法是强大的应用智能工具,以区分癌症患者EVS的复杂振动光谱来自健康患者。这些实验方法将希望作为人工智能辅助早期癌症筛查的有效和有效的液检活动。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
癫痫发作是最重要的神经障碍之一,其早期诊断将有助于临床医生为患者提供准确的治疗方法。脑电图(EEG)信号广泛用于癫痫癫痫发作检测,其提供了关于大脑功能的实质性信息的专家。本文介绍了采用模糊理论和深层学习技术的新型诊断程序。所提出的方法在Bonn大学数据集上进行了评估,具有六个分类组合以及弗赖堡数据集。可以使用可调谐Q小波变换(TQWT)来将EEG信号分解为不同的子带。在特征提取步骤中,从TQWT的不同子带计算了13个不同的模糊熵,并且计算它们的计算复杂性以帮助研究人员选择各种任务的最佳集合。在下文中,采用具有六层的AutoEncoder(AE)用于减少维数。最后,标准自适应神经模糊推理系统(ANFIS)以及其具有蚱蜢优化算法(ANFIS-GOA),粒子群优化(ANFIS-PSO)和育种群优化(ANFIS-BS)方法的变体分类。使用我们所提出的方法,ANFIS-BS方法在弗赖堡数据集上分为两类分为两类和准确度,在两类分类中获得99.46%的准确性,以及弗赖堡数据集的99.28%,达到最先进的两个人的表演。
translated by 谷歌翻译
乳腺癌是女性可能发生的最严重的癌症之一。通过分析组织学图像(HIS)来自动诊断乳腺癌对患者及其预后很重要。他的分类为临床医生提供了对疾病的准确了解,并使他们可以更有效地治疗患者。深度学习(DL)方法已成功地用于各种领域,尤其是医学成像,因为它们有能力自动提取功能。这项研究旨在使用他的乳腺癌对不同类型的乳腺癌进行分类。在这项研究中,我们提出了一个增强的胶囊网络,该网络使用RES2NET块和四个额外的卷积层提取多尺度特征。此外,由于使用了小的卷积内核和RES2NET块,因此所提出的方法具有较少的参数。结果,新方法的表现优于旧方法,因为它会自动学习最佳功能。测试结果表明该模型的表现优于先前的DL方法。
translated by 谷歌翻译
信息科学的快速发展引起的“维度诅咒”在处理大数据集时可能会产生负面影响。在本文中,我们提出了Sparrow搜索算法(SSA)的一种变体,称为帐篷L \'evy飞行麻雀搜索算法(TFSSA),并使用它来选择包装模式中最佳的特征子集以进行分类。 SSA是最近提出的算法,尚未系统地应用于特征选择问题。通过CEC2020基准函数进行验证后,TFSSA用于选择最佳功能组合,以最大化分类精度并最大程度地减少所选功能的数量。将拟议的TFSSA与文献中的九种算法进行了比较。 9个评估指标用于正确评估和比较UCI存储库中21个数据集上这些算法的性能。此外,该方法应用于冠状病毒病(COVID-19)数据集,分别获得最佳的平均分类精度和特征选择的平均数量,为93.47%和2.1。实验结果证实了所提出的算法在提高分类准确性和减少与其他基于包装器的算法相比的选定特征数量方面的优势。
translated by 谷歌翻译
信号或数据的稀疏表示(SR)具有良好的创立理论,具有严格的数学误差界和证明。信号的SR由矩阵的叠加为称为字典的叠加,隐含地减少了维度。培训词典使它们表示具有最小损失的每种信号称为字典学习(DL)。字典学习方法,如最佳方向(MOD)和K-SVD的方法,已成功地用于图像处理中的重建应用,如图像“去噪”,“伪装”等。其他判别k-svd和标签一致的K-SVD等字典学习算法是基于K-SVD的监督学习方法。在我们的经验中,当前方法的一个缺点是,在Telugu OCR数据集等数据集中,分类性能并不令人印象深刻,具有大量的课程和高维度。在这个方向上有所改善,许多研究人员使用统计方法来设计分类词典。本章介绍了统计技术的审查及其在学习歧视性词典中的应用。这里描述的方法的目的是使用稀疏表示来改善分类。在本章中,描述了混合方法,其中生成输入数据的稀疏系数。我们使用一个简单的三层多层Perceptron,背传播培训作为具有输入的稀疏代码的分类器。结果与其他计算密集型方法相当可比。关键词:统计建模,字典学习,歧视性词典,稀疏表示,高斯先前,Cauchy先前,熵,隐马尔可夫模型,混合词典学习
translated by 谷歌翻译
人类生理学中的各种结构遵循特异性形态,通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道,视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像(MRI),计算机断层扫描(CT),光学相干断层扫描(OCT)等医学成像模式(MRI),计算机断层扫描(CT),可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要,因为对结构的分析提供了对疾病诊断,治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果,在过去的二十年中,自动化或半自动化的计算模型已成为医学成像的流行研究领域,迄今为止,许多计算模型已经开发出来。在这项调查中,我们旨在对当前公开可用的数据集,细分算法和评估指标进行全面审查。此外,讨论了当前的挑战和未来的研究方向。
translated by 谷歌翻译
众所周知,诸如超紧凑型矮人(UCDS)和周围地球簇(GCS)的紧凑型恒星系统是已知的,是已经形成这些星系的合并事件的示踪剂。因此,识别这些系统允许研究星系大规模组装,形成和进化。然而,在使用成像数据的缺乏检测UCDS / GCS的光谱信息中非常不确定。在这里,我们的目标是使用6个过滤器中的Fornax Galaxy集群的多波长成像数据训练机器学习模型,将这些对象与前景恒星和背景星系分开,即在6个过滤器中,即u,g,r,i,j和ks。对象的类是高度不平衡的,这对于许多自动分类技术来说是有问题的。因此,我们使用合成少数民族过度采样来处理培训数据的不平衡。然后,我们比较两个分类器,即本地化的广义矩阵学习矢量量化(LGMLVQ)和随机林(RF)。这两种方法都能够以精度识别UCDS / GCS,并召回> 93%,并提供反映每个特征尺寸%(颜色和角度尺寸)的重要性的相关性。这两种方法都检测角度尺寸作为该分类问题的重要标记。虽然U-I和I-KS的颜色指数是最重要的颜色的天文期望,但我们的分析表明,G-R等颜色更具信息,可能是因为发信噪比更高。除了优异的性能之外,LGMLVQ方法允许通过为每个贡献中所证明的数据提供了对每个单独的类,类的代表性样本以及数据的非线性可视化的可能性来实现进一步的解释性。我们得出结论,采用机器学习技术来识别UCDS / GCS可能导致有前途的结果。
translated by 谷歌翻译