由于安全性和功效,候选药物的批准成功率非常低。越来越多的有关目标,药物分子和适应症的高维信息为ML方法提供了整合多种数据模式并更好地预测临床上有希望的药物靶标的机会。值得注意的是,具有人类遗传学证据的药物靶标被证明具有更好的成功率。但是,最近基于张力分解的方法发现,有关目标和指示的其他信息可能不一定提高预测精度。在这里,我们通过整合从公共可用来源整合的不同类型的人类遗传学证据来支持每个目标指示对来重新审视这种方法。我们使用贝叶斯张量分解来表明,结合了所有可用的人类遗传学证据(罕见疾病,基因负担,常见疾病)的模型可以适度地改善使用单线遗传学证据而不是模型的临床结果预测。我们为预测临床结果成功的不同类型人类遗传学证据的相对预测能力提供了更多的见解。
translated by 谷歌翻译
该药物发现​​和开发过程是一个漫长而昂贵的过程,每次药物平均耗资超过10亿美元,需要10 - 15年的时间。为了减少在整个过程中的高水平流失量,在最近十年中,越来越多地将机器学习方法应用于药物发现和发育的各个阶段,尤其是在最早鉴定可药物疾病基因的阶段。在本文中,我们开发了一种新的张量分解模型,以预测用于治疗疾病的潜在药物靶标(基因或蛋白质)。我们创建了一个三维数据张量,该数据张量由1,048个基因靶标,860个疾病和230,0111111111111111111111111111111的证据属性和临床结果,并使用从开放式目标和药物数据库中提取的数据组成。我们用从药物发现的知识图中学到的基因目标表示丰富了数据,并应用了我们提出的方法来预测看不见的基因靶标和疾病对的临床结果。我们设计了三种评估策略来衡量预测性能,并将几个常用的机器学习分类器与贝叶斯矩阵和张量分解方法进行了基准测试。结果表明,合并知识图嵌入可显着提高预测准确性,并与密集的神经网络一起训练张量分解优于所有其他基线。总而言之,我们的框架结合了两种积极研究的机器学习方法,用于疾病目标识别,即张量分解和知识图表示学习,这可能是在数据驱动的药物发现中进一步探索的有希望的途径。
translated by 谷歌翻译
发现新药是寻求并证明因果关系。作为一种新兴方法利用人类的知识和创造力,数据和机器智能,因果推论具有减少认知偏见并改善药物发现决策的希望。尽管它已经在整个价值链中应用了,但因子推理的概念和实践对许多从业者来说仍然晦涩难懂。本文提供了有关因果推理的非技术介绍,审查了其最新应用,并讨论了在药物发现和开发中采用因果语言的机会和挑战。
translated by 谷歌翻译
药物发现和发展是一个复杂和昂贵的过程。正在研究机器学习方法,以帮助提高药物发现管道多个阶段的有效性和速度。其中,使用知识图表(kg)的那些在许多任务中具有承诺,包括药物修复,药物毒性预测和靶基因疾病优先级。在药物发现kg中,包括基因,疾病和药物在内的关键因素被认为是实体,而它们之间的关系表示相互作用。但是,为了构建高质量的KG,需要合适的数据。在这篇综述中,我们详细介绍了适用于构建聚焦KGS的药物发现的公开使用来源。我们的目标是帮助引导机器学习和kg从业者对吸毒者发现领域应用新技术,但是谁可能不熟悉相关的数据来源。通过严格的标准选择数据集,根据包含内部包含的主要信息类型,并基于可以提取的信息来进行分类以构建kg。然后,我们对现有的公共药物发现KGS进行了比较分析,并评估了文献中所选择的激励案例研究。此外,我们还提出了众多和与域及其数据集相关的众多挑战和问题,同时突出了关键的未来研究方向。我们希望本综述将激励KGS在药物发现领域的关键和新兴问题中使用。
translated by 谷歌翻译
临床试验是药物开发的重要一步,通常是昂贵且耗时的。在计算机试验中,是通过模拟和建模作为替代传统临床试验的临床试验进行数字进行的。在计算机试验中支持AI可以通过创建虚拟队列作为控件来增加案例组的规模。此外,它还可以实现试验设计的自动化和优化,并预测试验成功率。本文在三个主要主题下系统地回顾了论文:临床模拟,个性化预测建模和计算机辅助试验设计。我们专注于如何在这些应用中应用机器学习(ML)。特别是,我们介绍了机器学习问题的公式和每个任务的可用数据源。最后,我们讨论了现实世界中的Silico试验中AI的挑战和机遇。
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
专门的基于变形金刚的模型(例如生物Biobert和Biomegatron)适用于基于公共可用的生物医学语料库的生物医学领域。因此,它们有可能编码大规模的生物学知识。我们研究了这些模型中生物学知识的编码和表示,及其支持癌症精度医学推断的潜在实用性 - 即,对基因组改变的临床意义的解释。我们比较不同变压器基线的性能;我们使用探测来确定针对不同实体的编码的一致性;我们使用聚类方法来比较和对比基因,变异,药物和疾病的嵌入的内部特性。我们表明,这些模型确实确实编码了生物学知识,尽管其中一些模型在针对特定任务的微调中丢失了。最后,我们分析了模型在数据集中的偏见和失衡方面的行为。
translated by 谷歌翻译
在2019年的大流行病(Covid-19)感染SARS-COV-2的小型冠状病病(Covid-19)中,很快就迅速进行了大量的预防和治疗药物研究,但迄今为止,这些努力取得了不成功。我们的目标是利用药物重新淘点的管道优先考虑可重复的药物,系统地整合多个SARS-COV-2和药物相互作用,深图神经网络和基于体外/人口的验证。我们首先通过CTDBase收集涉及Covid-19患者治疗的所有可用药物(n = 3,635)。我们基于病毒诱饵,宿主基因,途径,药物和表型之间的相互作用构建了SARS-COV-2知识图。基于生物相互作用,使用深图神经网络方法来得出候选表示。我们利用临床试验验证药物优先考虑候选药物,然后用它们的遗传谱,体外实验疗效和电子健康记录验证。我们突出了前22名药物,包括阿奇霉素,阿托伐他汀,阿司匹林,对乙酰氨基酚和阿巴替代醇。我们进一步确定了可能协同靶向Covid-19的药物组合。总之,我们证明了广泛的相互作用,深度神经网络和严格验证的整合可以促进Covid-19治疗的候选药物的快速鉴定。这是一个post-poser-review,在科学报告中发布的文章的Pre-Copyedit版本最终经过身份验证版本可在线获取:https://www.researchsquare.com/article/rs-114758/v1
translated by 谷歌翻译
Neglected tropical diseases (NTDs) continue to affect the livelihood of individuals in countries in the Southeast Asia and Western Pacific region. These diseases have been long existing and have caused devastating health problems and economic decline to people in low- and middle-income (developing) countries. An estimated 1.7 billion of the world's population suffer one or more NTDs annually, this puts approximately one in five individuals at risk for NTDs. In addition to health and social impact, NTDs inflict significant financial burden to patients, close relatives, and are responsible for billions of dollars lost in revenue from reduced labor productivity in developing countries alone. There is an urgent need to better improve the control and eradication or elimination efforts towards NTDs. This can be achieved by utilizing machine learning tools to better the surveillance, prediction and detection program, and combat NTDs through the discovery of new therapeutics against these pathogens. This review surveys the current application of machine learning tools for NTDs and the challenges to elevate the state-of-the-art of NTDs surveillance, management, and treatment.
translated by 谷歌翻译
抗微生物抗性(AMR)是日益增长的公共卫生威胁,估计每年造成超过1000万人死亡,在现状预测下,到2050年,全球经济损失了100万亿美元。这些损失主要是由于治疗失败的发病率和死亡率增加,医疗程序中的AMR感染以及归因于AMR的生活质量损失所致。已经提出了许多干预措施来控制AMR的发展并减轻其传播带来的风险。本文回顾了细菌AMR管理和控制的关键方面,这些方面可以利用人工智能,机器学习以及数学和统计建模等数据技术,这些领域在本世纪已经快速发展。尽管数据技术已成为生物医学研究的组成部分,但它们对AMR管理的影响仍然很小。我们概述了使用数据技术来打击AMR,详细介绍了四个互补类别的最新进展:监视,预防,诊断和治疗。我们在生物医学研究,临床实践和“一个健康”背景下使用数据技术提供了有关当前AMR控制方法的概述。我们讨论了数据技术的潜在影响和挑战在高收入和中等收入国家中面临的实施,并建议将这些技术更容易地整合到医疗保健和公共卫生中所需的具体行动,并建议使用具体的行动部门。
translated by 谷歌翻译
改善疾病的护理标准是关于更好的治疗方法,反过来依赖于寻找和开发新药。然而,药物发现是一个复杂且昂贵的过程。通过机器学习的方法采用了利用域固有的互连性质的药物发现知识图的创建。基于图形的数据建模,结合知识图形嵌入式提供了更直观的域表示,适用于推理任务,例如预测缺失链路。一个这样的例子将产生对给定疾病的可能相关基因的排名列表,通常被称为目标发现。因此,这是关键的,即这些预测不仅是相关的,而且是生物学上的有意义的。然而,知识图形可以直接偏向,由于集成的底层数据源,或者由于图形构造中的建模选择,其中的一个结果是某些实体可以在拓扑上超越。我们展示了知识图形嵌入模型可能受到这种结构不平衡的影响,导致无论上下文都要高度排名的密集连接实体。我们在不同的数据集,模型和预测任务中提供对此观察的支持。此外,我们展示了如何通过随机,生物学上无意义的信息扰乱图形拓扑结构以人为地改变基因的等级。这表明这种模型可能会受到实体频率而不是在关系中编码的生物学信息的影响,当实体频率不是基础数据的真实反射时,创建问题。我们的结果突出了数据建模选择的重要性,并强调了从业者在解释模型输出和知识图形组合期间时要注意这些问题。
translated by 谷歌翻译
如今有大量在线文档数据源。缺乏结构和格式之间的差异是自动​​从中提取信息的主要困难,这也对其使用和重复使用产生负面影响。在生物医学领域中,出现了DISNET平台,以通过大规模的异质来源为研究人员提供资源,以获取人类疾病网络范围的信息。具体来说,在该领域中,不仅提供从不同来源提取的信息,而且提供支持它的证据至关重要。本文提出了Eboca,该本体论描述了(i)生物医学领域概念及其之间的关联,以及(ii)支持这些关联的证据;目的是提供一个模式来改善该领域中的证据和生物医学关联的出版和描述。已成功评估了本体论,以确保没有错误,建模陷阱,并符合先前定义的功能要求。来自文本的一部分和自动关联提取子集的测试数据已根据所提出的本体论进行了转换,以创建可用于实际场景中的知识图,并且还用于评估所述本体论。
translated by 谷歌翻译
高注释成本是将现代深度学习架构应用于临床相关的医疗用例的大量瓶颈,这使得新颖算法的需要从未标记的数据中学习。在这项工作中,我们提出了一种自我监督的方法,可以从未标记的医学图像和遗传数据的大型数据集中学习。我们的方法使用对比损耗对准特征空间中的图像和几种遗传模式。我们设计我们的方法,以将每个人的多种模式集成在同一模型端到端,即使当可用的方式因个人而异)也是如此。我们的程序优于所有在所有评估的下游基准任务上表达最先进的自我监督方法。我们还适应基于梯度的可解释性算法,以更好地了解图像和遗传模式之间学习的跨模型关联。最后,我们对我们模型学到的特征进行了基因组关联研究,揭示了图像与遗传数据之间的有趣关系。
translated by 谷歌翻译
To date, there are no effective treatments for most neurodegenerative diseases. Knowledge graphs can provide comprehensive and semantic representation for heterogeneous data, and have been successfully leveraged in many biomedical applications including drug repurposing. Our objective is to construct a knowledge graph from literature to study relations between Alzheimer's disease (AD) and chemicals, drugs and dietary supplements in order to identify opportunities to prevent or delay neurodegenerative progression. We collected biomedical annotations and extracted their relations using SemRep via SemMedDB. We used both a BERT-based classifier and rule-based methods during data preprocessing to exclude noise while preserving most AD-related semantic triples. The 1,672,110 filtered triples were used to train with knowledge graph completion algorithms (i.e., TransE, DistMult, and ComplEx) to predict candidates that might be helpful for AD treatment or prevention. Among three knowledge graph completion models, TransE outperformed the other two (MR = 13.45, Hits@1 = 0.306). We leveraged the time-slicing technique to further evaluate the prediction results. We found supporting evidence for most highly ranked candidates predicted by our model which indicates that our approach can inform reliable new knowledge. This paper shows that our graph mining model can predict reliable new relationships between AD and other entities (i.e., dietary supplements, chemicals, and drugs). The knowledge graph constructed can facilitate data-driven knowledge discoveries and the generation of novel hypotheses.
translated by 谷歌翻译
计算药物重新定位旨在发现销售药物的新治疗疾病,与传统药物开发相比,成本低,开发周期较低,可控性高的优点。由于其易于实现和优异的可扩展性,矩阵分解模型已成为计算药物重新定位的基石技术。然而,矩阵分解模型使用内在产品来表示药物和疾病之间的关联,这缺乏表达能力。此外,在其各自的潜在因子载体上不能暗示药物或疾病的相似性,这不满足常见的药物发现感。因此,在这项工作中提出了用于计算药物重新定位的神经度量分解模型(NMF)。我们新建了药物和疾病的潜在因子载体作为高维坐标系的点,提出了一种广义的欧氏距离,以代表药物和疾病之间的关联,以补偿内部产品的缺点。此外,通过将多种药物(疾病)指标信息嵌入到潜在因子向量的编码空间中,可以反映出药物(疾病)之间的相似性的信息反映在潜在因子向量之间的距离中。最后,我们对两个真实数据集进行了广泛的分析实验,以证明上述改进点和NMF模型的优越性的有效性。
translated by 谷歌翻译
当植物天然产物与药物共容纳时,就会发生药代动力学天然产物 - 药物相互作用(NPDIS)。了解NPDI的机制是防止不良事件的关键。我们构建了一个知识图框架NP-KG,作为迈向药代动力学NPDIS的计算发现的一步。 NP-KG是一个具有生物医学本体论,链接数据和科学文献的全文,由表型知识翻译框架和语义关系提取系统,SEMREP和集成网络和动态推理组成的构建的科学文献的全文。通过路径搜索和元路径发现对药代动力学绿茶和kratom-prug相互作用的案例研究评估NP-KG,以确定与地面真实数据相比的一致性和矛盾信息。完全集成的NP-KG由745,512个节点和7,249,576个边缘组成。 NP-KG的评估导致了一致(绿茶的38.98%,kratom的50%),矛盾(绿茶的15.25%,21.43%,Kratom的21.43%),同等和矛盾的(15.25%)(21.43%,21.43%,21.43% kratom)信息。几种声称的NPDI的潜在药代动力学机制,包括绿茶 - 茶氧化烯,绿茶 - 纳多洛尔,Kratom-Midazolam,Kratom-Quetiapine和Kratom-Venlafaxine相互作用,与已出版的文献一致。 NP-KG是第一个将生物医学本体论与专注于天然产品的科学文献的全文相结合的公斤。我们证明了NP-KG在鉴定涉及酶,转运蛋白和药物的药代动力学相互作用的应用。我们设想NP-KG将有助于改善人机合作,以指导研究人员将来对药代动力学NPDIS进行研究。 NP-KG框架可在https://doi.org/10.5281/zenodo.6814507和https://github.com/sanyabt/np-kg上公开获得。
translated by 谷歌翻译
计算药物重新定位技术是加速药物开发的有效工具。虽然近几十年来这种技术已被广泛使用和成功,但许多现有模型仍然遭受多种缺点,例如矩阵分解模型中的大量未经验证的药物疾病关联和内部产品。这些作品的局限性主要是由于以下两个原因:首先,以前的作品使用负面采样技术将未经验证的毒性疾病关联视为负样本,在现实世界中无效;其次,内部产品缺乏对潜在因子的尺寸之间的交叉信息的建模。在本文中,我们提出了一种用于解决上述缺陷的小说框架,其模拟使用验证和未经验证的毒品疾病关联的毒性疾病关联的联合分布,而无需采用负面采样技术。 PUOS还使用外部产品操作建模了药物和疾病潜在因子的交叉信息。为了全面的比较,我们考虑了7个普遍的基线。两个现实世界数据集中的广泛实验表明,基于6个流行评估指标取得了最佳性能。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
在本文中,我们提供了针对深度学习(DL)模型的结构化文献分析,该模型用于支持癌症生物学的推论,并特别强调了多词分析。这项工作着重于现有模型如何通过先验知识,生物学合理性和解释性,生物医学领域的基本特性来解决更好的对话。我们讨论了DL模型的最新进化拱门沿整合先前的生物关系和网络知识的方向,以支持更好的概括(例如途径或蛋白质 - 蛋白质相互作用网络)和解释性。这代表了向模型的基本功能转变,该模型可以整合机械和统计推断方面。我们讨论了在此类模型中整合域先验知识的代表性方法。该论文还为解释性和解释性的当代方法提供了关键的看法。该分析指向编码先验知识和改善解释性之间的融合方向。
translated by 谷歌翻译
为目标疾病开发新药物是一项耗时且昂贵的任务,药物重新利用已成为药物开发领域的流行话题。随着许多健康索赔数据可用,已经对数据进行了许多研究。现实世界的数据嘈杂,稀疏,并且具有许多混杂因素。此外,许多研究表明,药物的作用在人群中是异质的。近年来已经出现了许多有关估计异构治疗效果(HTE)(HTE)的高级机器学习模型,并已应用于计量经济学和机器学习社区。这些研究将医学和药物开发视为主要应用领域,但是从HTE方法论到药物开发的转化研究有限。我们旨在将HTE方法介绍到医疗保健领域,并在通过基准实验进行医疗保健行政索赔数据进行基准实验时提供可行性考虑。另外,我们希望使用基准实验来展示如何将模型应用于医疗保健研究时如何解释和评估模型。通过将最近的HTE技术引入生物医学信息学社区的广泛读者,我们希望通过机器学习促进广泛采用因果推断。我们还希望提供HTE具有个性化药物有效性的可行性。
translated by 谷歌翻译