Neoplasms (NPs) and neurological diseases and disorders (NDDs) are amongst the major classes of diseases underlying deaths of a disproportionate number of people worldwide. To determine if there exist some distinctive features in the local wiring patterns of protein interactions emerging at the onset of a disease belonging to either of these two classes, we examined 112 and 175 protein interaction networks belonging to NPs and NDDs, respectively. Orbit usage profiles (OUPs) for each of these networks were enumerated by investigating the networks' local topology. 56 non-redundant OUPs (nrOUPs) were derived and used as network features for classification between these two disease classes. Four machine learning classifiers, namely, k-nearest neighbour (KNN), support vector machine (SVM), deep neural network (DNN), random forest (RF) were trained on these data. DNN obtained the greatest average AUPRC (0.988) among these classifiers. DNNs developed on node2vec and the proposed nrOUPs embeddings were compared using 5-fold cross validation on the basis of average values of the six of performance measures, viz., AUPRC, Accuracy, Sensitivity, Specificity, Precision and MCC. It was found that nrOUPs based classifier performed better in all of these six performance measures.
translated by 谷歌翻译
该药物发现​​和开发过程是一个漫长而昂贵的过程,每次药物平均耗资超过10亿美元,需要10 - 15年的时间。为了减少在整个过程中的高水平流失量,在最近十年中,越来越多地将机器学习方法应用于药物发现和发育的各个阶段,尤其是在最早鉴定可药物疾病基因的阶段。在本文中,我们开发了一种新的张量分解模型,以预测用于治疗疾病的潜在药物靶标(基因或蛋白质)。我们创建了一个三维数据张量,该数据张量由1,048个基因靶标,860个疾病和230,0111111111111111111111111111111的证据属性和临床结果,并使用从开放式目标和药物数据库中提取的数据组成。我们用从药物发现的知识图中学到的基因目标表示丰富了数据,并应用了我们提出的方法来预测看不见的基因靶标和疾病对的临床结果。我们设计了三种评估策略来衡量预测性能,并将几个常用的机器学习分类器与贝叶斯矩阵和张量分解方法进行了基准测试。结果表明,合并知识图嵌入可显着提高预测准确性,并与密集的神经网络一起训练张量分解优于所有其他基线。总而言之,我们的框架结合了两种积极研究的机器学习方法,用于疾病目标识别,即张量分解和知识图表示学习,这可能是在数据驱动的药物发现中进一步探索的有希望的途径。
translated by 谷歌翻译
Neglected tropical diseases (NTDs) continue to affect the livelihood of individuals in countries in the Southeast Asia and Western Pacific region. These diseases have been long existing and have caused devastating health problems and economic decline to people in low- and middle-income (developing) countries. An estimated 1.7 billion of the world's population suffer one or more NTDs annually, this puts approximately one in five individuals at risk for NTDs. In addition to health and social impact, NTDs inflict significant financial burden to patients, close relatives, and are responsible for billions of dollars lost in revenue from reduced labor productivity in developing countries alone. There is an urgent need to better improve the control and eradication or elimination efforts towards NTDs. This can be achieved by utilizing machine learning tools to better the surveillance, prediction and detection program, and combat NTDs through the discovery of new therapeutics against these pathogens. This review surveys the current application of machine learning tools for NTDs and the challenges to elevate the state-of-the-art of NTDs surveillance, management, and treatment.
translated by 谷歌翻译
来自最近的研究的日益增长的证据意味着MicroRNA或miRNA可以作为各种复杂人类疾病中的生物标志物。由于湿实验室实验昂贵且耗时,MiRNA疾病协会预测的计算技术近年来引起了很多关注。数据稀缺是建立可靠机器学习模式的主要挑战之一。数据稀缺结合使用预先计算的手工制作输入功能导致了过度装备和数据泄漏的问题。我们通过提出一种基于新的多任务图卷积的方法来克服现有作品的局限性,我们称之为粘基。杀菌允许自动特征提取,同时将知识与五个异质生物信息来源(miRNA /疾病和蛋白质编码基因(PCG)之间的相互作用,多任务设置中的蛋白质编码基因,miRNA家族信息和病理学之间的相互作用。这是一种新颖的视角,并未在之前进行过。为了有效地测试我们模型的泛化能力,我们在标准基准数据集中构建了大规模实验,以及我们提出的更大的独立测试集和案例研究。杀螨物显示出在HMDDV2.0和HMDDV3.0数据集上的5倍CV评估中的至少3%,并且在较大独立的测试集上至少35%,并在最先进的方法上具有看不见的miRNA和疾病。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/cmtt。
translated by 谷歌翻译
包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译
在这个时代,作为医疗的主要重点,这一时刻已经到来了。尽管令人印象深刻,但已经开发出来检测疾病的多种技术。此时,有一些类型的疾病COVID-19,正常烟,偏头痛,肺病,心脏病,肾脏疾病,糖尿病,胃病,胃病,胃病,骨骼疾病,自闭症是非常常见的疾病。在此分析中,我们根据疾病的症状进行了分析疾病症状的预测。我们研究了一系列症状,并接受了人们的调查以完成任务。已经采用了几种分类算法来训练模型。此外,使用性能评估矩阵来衡量模型的性能。最后,我们发现零件分类器超过了其他分类器。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
药物发现和发展是一个复杂和昂贵的过程。正在研究机器学习方法,以帮助提高药物发现管道多个阶段的有效性和速度。其中,使用知识图表(kg)的那些在许多任务中具有承诺,包括药物修复,药物毒性预测和靶基因疾病优先级。在药物发现kg中,包括基因,疾病和药物在内的关键因素被认为是实体,而它们之间的关系表示相互作用。但是,为了构建高质量的KG,需要合适的数据。在这篇综述中,我们详细介绍了适用于构建聚焦KGS的药物发现的公开使用来源。我们的目标是帮助引导机器学习和kg从业者对吸毒者发现领域应用新技术,但是谁可能不熟悉相关的数据来源。通过严格的标准选择数据集,根据包含内部包含的主要信息类型,并基于可以提取的信息来进行分类以构建kg。然后,我们对现有的公共药物发现KGS进行了比较分析,并评估了文献中所选择的激励案例研究。此外,我们还提出了众多和与域及其数据集相关的众多挑战和问题,同时突出了关键的未来研究方向。我们希望本综述将激励KGS在药物发现领域的关键和新兴问题中使用。
translated by 谷歌翻译
在本文中,我们提供了针对深度学习(DL)模型的结构化文献分析,该模型用于支持癌症生物学的推论,并特别强调了多词分析。这项工作着重于现有模型如何通过先验知识,生物学合理性和解释性,生物医学领域的基本特性来解决更好的对话。我们讨论了DL模型的最新进化拱门沿整合先前的生物关系和网络知识的方向,以支持更好的概括(例如途径或蛋白质 - 蛋白质相互作用网络)和解释性。这代表了向模型的基本功能转变,该模型可以整合机械和统计推断方面。我们讨论了在此类模型中整合域先验知识的代表性方法。该论文还为解释性和解释性的当代方法提供了关键的看法。该分析指向编码先验知识和改善解释性之间的融合方向。
translated by 谷歌翻译
在生物学领域中包含高通量技术在近年来产生了大量的生物数据。现在,将这些巨大的数据转化为知识是计算生物学中的主要挑战。传统的数据分析方法未能执行任务。因此,研究人员正在转向基于机器学习的方法,用于分析高维大数据。在机器学习中,一旦使用训练数据集培训模型,它可以应用于独立的测试数据集。在当前时代,深度学习算法进一步促进机器学习在包括植物病毒学的几种生物领域中的应用。考虑到在理解植物病毒学中应用机器学习的重大进展,这一综述突出了关于机器学习的介绍笔记,并全面探讨了机器学习在诊断病毒疾病中的趋势和前景,了解宿主病毒的相互作用和植物病毒的出现。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
痴呆症是一种神经精神脑障碍,通常会在一个或多个脑细胞停止部分或根本停止工作时发生。在疾病的早期阶段诊断这种疾病是从不良后果中挽救生命并为他们提供更好的医疗保健的至关重要的任务。事实证明,机器学习方法在预测疾病早期痴呆症方面是准确的。痴呆的预测在很大程度上取决于通常从归一化的全脑体积(NWBV)和地图集缩放系数(ASF)收集的收集数据类型,这些数据通常测量并从磁共振成像(MRIS)中进行校正。年龄和性别等其他生物学特征也可以帮助诊断痴呆症。尽管许多研究使用机器学习来预测痴呆症,但我们无法就这些方法的稳定性得出结论,而这些方法在不同的实验条件下更准确。因此,本文研究了有关痴呆预测的机器学习算法的性能的结论稳定性。为此,使用7种机器学习算法和两种功能还原算法,即信息增益(IG)和主成分分析(PCA)进行大量实验。为了检查这些算法的稳定性,IG的特征选择阈值从20%更改为100%,PCA尺寸从2到8。这导致了7x9 + 7x7 = 112实验。在每个实验中,都记录了各种分类评估数据。获得的结果表明,在七种算法中,支持向量机和天真的贝叶斯是最稳定的算法,同时更改选择阈值。同样,发现使用IG似乎比使用PCA预测痴呆症更有效。
translated by 谷歌翻译
如今,乳腺癌已成为近年来最突出的死亡原因之一。在所有恶性肿瘤中,这是全球妇女最常见和主要的死亡原因。手动诊断这种疾病需要大量的时间和专业知识。乳腺癌的检测是耗时的,并且可以通过开发基于机器的乳腺癌预测来减少疾病的传播。在机器学习中,系统可以从先前的实例中学习,并使用各种统计,概率和优化方法从嘈杂或复杂的数据集中找到难以检测的模式。这项工作比较了几种机器学习算法的分类准确性,精度,灵敏度和新近收集的数据集的特异性。在这种工作决策树,随机森林,逻辑回归,天真的贝叶斯和XGBoost中,已经实施了这五种机器学习方法,以在我们的数据集中获得最佳性能。这项研究的重点是找到最佳的算法,该算法可以预测乳腺癌,以最高的准确性。这项工作在效率和有效性方面评估了每种算法数据分类的质量。并与该领域的其他已发表工作相比。实施模型后,本研究达到了最佳模型准确性,在随机森林和XGBoost上达到94%。
translated by 谷歌翻译
早期发现癌症是一种挑战性的医学问题。癌症患者的血液血清富含异质分泌脂质结合的细胞内囊泡(EVS),其具有复杂的信息和生物标志物,代表其原产地,目前在液检和癌症筛查领域中研究。振动光谱提供了非侵入性方法,用于评估复杂生物样品中的结构和生物物理性质。在该试点研究中,对来自来自四个不同癌症亚型(结直肠癌,肝细胞癌,乳腺癌和胰腺癌)和五名健康患者(对照组)组成的9例血浆中提取的多种拉曼光谱测量测量。 FTIR(傅里叶变换红外)光谱测量是作为拉曼分析的互补方法,在四个癌症亚型中的两种。 Adaboost随机森林分类器,决策树和支持向量机(SVM)区分癌症EV的基线校正拉曼光谱从健康对照(18 Spectra)的那些,当减少到频谱频率范围时,分类精度高于90% 1800至1940年反厘米,经过50:50培训:测试分裂。 14 Spectra的FTIR分类精度显示了80%的分类准确性。我们的研究结果表明,基本机器学习算法是强大的应用智能工具,以区分癌症患者EVS的复杂振动光谱来自健康患者。这些实验方法将希望作为人工智能辅助早期癌症筛查的有效和有效的液检活动。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
Drug repositioning holds great promise because it can reduce the time and cost of new drug development. While drug repositioning can omit various R&D processes, confirming pharmacological effects on biomolecules is essential for application to new diseases. Biomedical explainability in a drug repositioning model can support appropriate insights in subsequent in-depth studies. However, the validity of the XAI methodology is still under debate, and the effectiveness of XAI in drug repositioning prediction applications remains unclear. In this study, we propose GraphIX, an explainable drug repositioning framework using biological networks, and quantitatively evaluate its explainability. GraphIX first learns the network weights and node features using a graph neural network from known drug indication and knowledge graph that consists of three types of nodes (but not given node type information): disease, drug, and protein. Analysis of the post-learning features showed that node types that were not known to the model beforehand are distinguished through the learning process based on the graph structure. From the learned weights and features, GraphIX then predicts the disease-drug association and calculates the contribution values of the nodes located in the neighborhood of the predicted disease and drug. We hypothesized that the neighboring protein node to which the model gave a high contribution is important in understanding the actual pharmacological effects. Quantitative evaluation of the validity of protein nodes' contribution using a real-world database showed that the high contribution proteins shown by GraphIX are reasonable as a mechanism of drug action. GraphIX is a framework for evidence-based drug discovery that can present to users new disease-drug associations and identify the protein important for understanding its pharmacological effects from a large and complex knowledge base.
translated by 谷歌翻译
生物医学网络是与疾病网络的蛋白质相互作用的普遍描述符,从蛋白质相互作用,一直到医疗保健系统和科学知识。随着代表学习提供强大的预测和洞察的显着成功,我们目睹了表现形式学习技术的快速扩展,进入了这些网络的建模,分析和学习。在这篇综述中,我们提出了一个观察到生物学和医学中的网络长期原则 - 而在机器学习研究中经常出口 - 可以为代表学习提供概念基础,解释其当前的成功和限制,并告知未来进步。我们综合了一系列算法方法,即在其核心利用图形拓扑到将网络嵌入到紧凑的向量空间中,并捕获表示陈述学习证明有用的方式的广度。深远的影响包括鉴定复杂性状的变异性,单细胞的异心行为及其对健康的影响,协助患者的诊断和治疗以及制定安全有效的药物。
translated by 谷歌翻译
病毒感染导致全世界的显着发病率和死亡率。理解特定病毒和人类蛋白质之间的相互作用模式在揭示病毒感染和发病机制的潜在机制方面发挥着至关重要的作用。这可以进一步帮助预防和治疗病毒相关疾病。然而,由于病毒 - 人类相互作用的稀缺数据和大多数病毒的快速突变率,预测新病毒和人体细胞之间的蛋白质 - 蛋白质相互作用的任务是非常挑战性的。我们开发了一种多任务转移学习方法,利用人类互乱组约2400万蛋白序列和相互作用模式的信息来解决小型训练数据集的问题。除了使用手工制作的蛋白质特征,而不是通过深语模型方法从巨大的蛋白质序列来源学习的统计学上丰富的蛋白质表示。此外,我们采用了额外的目的,旨在最大限度地提高观察人蛋白质蛋白质相互作用的可能性。这一附加任务目标充当规律器,还允许纳入域知识来告知病毒 - 人蛋白质 - 蛋白质相互作用预测模型。我们的方法在13个基准数据集中实现了竞争力,以及SAR-COV-2病毒受体的案例研究。实验结果表明,我们所提出的模型有效地用于病毒 - 人和细菌 - 人蛋白质 - 蛋白质 - 蛋白质相互作用预测任务。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/multitastastastastastastastastastask-transfer。
translated by 谷歌翻译
流感病毒迅速变异,可能对公共卫生构成威胁,尤其是对弱势群体的人。在整个历史中,流感A病毒在不同物种之间引起了大流行病。重要的是要识别病毒的起源,以防止爆发的传播。最近,人们对使用机器学习算法来为病毒序列提供快速准确的预测一直引起人们的兴趣。在这项研究中,使用真实的测试数据集和各种评估指标用于评估不同分类学水平的机器学习算法。由于血凝素是免疫反应中的主要蛋白质,因此仅使用血凝素序列并由位置特异性评分基质和单词嵌入来表示。结果表明,5-grams-transformer神经网络是预测病毒序列起源的最有效算法,大约99.54%的AUCPR,98.01%的F1分数和96.60%的MCC,在较高的分类水平上,约94.74%AUCPR,87.41%,87.41%,87.41% %F1分数%和80.79%的MCC在较低的分类水平下。
translated by 谷歌翻译
随着网络攻击和网络间谍活动的增长,如今需要更好,更强大的入侵检测系统(IDS)的需求更加有必要。 ID的基本任务是在检测Internet的攻击方面充当第一道防线。随着入侵者的入侵策略变得越来越复杂且难以检测,研究人员已经开始应用新颖的机器学习(ML)技术来有效地检测入侵者,从而保留互联网用户对整个互联网网络安全的信息和整体信任。在过去的十年中,基于ML和深度学习(DL)架构的侵入检测技术的爆炸激增,这些架构在各种基于网络安全的数据集上,例如DARPA,KDDCUP'99,NSL-KDD,CAIDA,CAIDA,CTU--- 13,UNSW-NB15。在这项研究中,我们回顾了当代文献,并提供了对不同类型的入侵检测技术的全面调查,该技术将支持向量机(SVMS)算法作为分类器。我们仅专注于在网络安全中对两个最广泛使用的数据集进行评估的研究,即KDDCUP'99和NSL-KDD数据集。我们提供了每种方法的摘要,确定了SVMS分类器的作用以及研究中涉及的所有其他算法。此外,我们以表格形式对每种方法进行了批判性综述,突出了所调查的每种方法的性能指标,优势和局限性。
translated by 谷歌翻译