开发具有高解释性甚至得出公式以量化生物数据之间关系的模型是一种新兴的需求。我们在这里建议使用基于可解释的神经网络模型的新方法来序列基序和线性公式的框架,称为上下文回归模型。我们表明,该线性模型可以使用具有与深神经网络模型相当的性能的启动子序列来预测基因表达水平。我们发现了一个在基因表达上具有重要调节作用的300个基序的列表,并表明它们对154种不同细胞类型的细胞类型特异性基因表达也有显着贡献。这项工作说明了导致公式代表生物学定律的可能性,这些定律可能不容易阐明。(https://github.com/wang-lab-ucsd/motif_finding_contextual_regression)
translated by 谷歌翻译
人白细胞抗原(HLA)是人类免疫领域的重要分子家族,它通过向T细胞呈现肽来识别外国威胁并触发免疫反应。近年来,诱导特定免疫反应的肿瘤疫苗的合成已成为癌症治疗的最前沿。对肽和HLA之间的结合模式进行计算建模可以极大地加速肿瘤疫苗的发展。但是,大多数预测方法的性能非常有限,他们无法完全利用对现有生物学知识作为建模的基础的分析。在本文中,我们提出了HLA分子肽结合预测的TripHlapan,这是一种新型的PAN特异性预测模型。 Triphlapan通过整合三重编码矩阵,BIGRU +注意模型和转移学习策略来表现强大的预测能力。全面的评估证明了Triphlapan在不同测试环境中预测HLA-I和HLA-II肽结合的有效性。最新数据集进一步证明了HLA-I的预测能力。此外,我们表明Triphlapan在黑色素瘤患者的样本中具有强大的结合重构能力。总之,Triphlapan是预测HLA-I和HLA-II分子肽与肿瘤疫苗合成的强大工具。
translated by 谷歌翻译
蛋白质RNA相互作用对各种细胞活性至关重要。已经开发出实验和计算技术来研究相互作用。由于先前数据库的限制,尤其是缺乏蛋白质结构数据,大多数现有的计算方法严重依赖于序列数据,只有一小部分使用结构信息。最近,alphafold彻底改变了整个蛋白质和生物领域。可预应学,在即将到来的年份,也将显着促进蛋白质-RNA相互作用预测。在这项工作中,我们对该字段进行了彻底的审查,调查绑定站点和绑定偏好预测问题,并覆盖常用的数据集,功能和模型。我们还指出了这一领域的潜在挑战和机遇。本调查总结了过去的RBP-RNA互动领域的发展,并预见到了alphafold时代未来的发展。
translated by 谷歌翻译
Artificial Intelligence (AI) and Machine Learning (ML) are weaving their way into the fabric of society, where they are playing a crucial role in numerous facets of our lives. As we witness the increased deployment of AI and ML in various types of devices, we benefit from their use into energy-efficient algorithms for low powered devices. In this paper, we investigate a scale and medium that is far smaller than conventional devices as we move towards molecular systems that can be utilized to perform machine learning functions, i.e., Molecular Machine Learning (MML). Fundamental to the operation of MML is the transport, processing, and interpretation of information propagated by molecules through chemical reactions. We begin by reviewing the current approaches that have been developed for MML, before we move towards potential new directions that rely on gene regulatory networks inside biological organisms as well as their population interactions to create neural networks. We then investigate mechanisms for training machine learning structures in biological cells based on calcium signaling and demonstrate their application to build an Analog to Digital Converter (ADC). Lastly, we look at potential future directions as well as challenges that this area could solve.
translated by 谷歌翻译
鉴定新型药物靶标相互作用(DTI)是药物发现中的关键和速率限制步骤。虽然已经提出了深入学习模型来加速识别过程,但我们表明最先进的模型无法概括到新颖(即,从未见过的)结构上。我们首先揭示负责此缺点的机制,展示模型如何依赖于利用蛋白质 - 配体二分网络拓扑的捷径,而不是学习节点特征。然后,我们介绍AI-BIND,这是一个与无监督的预训练的基于网络的采样策略相结合的管道,使我们能够限制注释不平衡并改善新型蛋白质和配体的结合预测。我们通过预测具有结合亲和力的药物和天然化合物对SARS-COV-2病毒蛋白和相关的人蛋白质来说明Ai-reat的值。我们还通过自动扩展模拟和与最近的实验证据进行比较来验证这些预测。总体而言,AI-Bind提供了一种强大的高通量方法来识别药物目标组合,具有成为药物发现中强大工具的可能性。
translated by 谷歌翻译
在本文中,我们提供了针对深度学习(DL)模型的结构化文献分析,该模型用于支持癌症生物学的推论,并特别强调了多词分析。这项工作着重于现有模型如何通过先验知识,生物学合理性和解释性,生物医学领域的基本特性来解决更好的对话。我们讨论了DL模型的最新进化拱门沿整合先前的生物关系和网络知识的方向,以支持更好的概括(例如途径或蛋白质 - 蛋白质相互作用网络)和解释性。这代表了向模型的基本功能转变,该模型可以整合机械和统计推断方面。我们讨论了在此类模型中整合域先验知识的代表性方法。该论文还为解释性和解释性的当代方法提供了关键的看法。该分析指向编码先验知识和改善解释性之间的融合方向。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
蛋白质 - 配体相互作用(PLIS)是生化研究的基础,其鉴定对于估计合理治疗设计的生物物理和生化特性至关重要。目前,这些特性的实验表征是最准确的方法,然而,这是非常耗时和劳动密集型的。在这种情况下已经开发了许多计算方法,但大多数现有PLI预测大量取决于2D蛋白质序列数据。在这里,我们提出了一种新颖的并行图形神经网络(GNN),以集成PLI预测的知识表示和推理,以便通过专家知识引导的深度学习,并通过3D结构数据通知。我们开发了两个不同的GNN架构,GNNF是采用不同特种的基础实现,以增强域名认识,而GNNP是一种新颖的实现,可以预测未经分子间相互作用的先验知识。综合评价证明,GNN可以成功地捕获配体和蛋白质3D结构之间的二元相互作用,对于GNNF的测试精度和0.958,用于预测蛋白质 - 配体络合物的活性。这些模型进一步适用于回归任务以预测实验结合亲和力,PIC50对于药物效力和功效至关重要。我们在实验亲和力上达到0.66和0.65的Pearson相关系数,分别在PIC50和GNNP上进行0.50和0.51,优于基于2D序列的模型。我们的方法可以作为可解释和解释的人工智能(AI)工具,用于预测活动,效力和铅候选的生物物理性质。为此,我们通过筛选大型复合库并将我们的预测与实验测量数据进行比较来展示GNNP对SARS-COV-2蛋白靶标的实用性。
translated by 谷歌翻译
由影响它们折叠并因此决定其功能和特征的氨基酸链组成,蛋白质是一类大分子,它们在主要生物过程中起着核心作用,并且是人体组织的结构,功能和调节所必需的。了解蛋白质功能对于治疗和精确医学的发展至关重要,因此可以根据可测量特征对蛋白质进行分类及其功能至关重要。实际上,从其主要结构(称为其主要结构)中对蛋白质特性的自动推断仍然是生物信息学领域中的一个重要开放问题,尤其是考虑到测序技术的最新进展和广泛的已知但未分类的蛋白质具有未知属性。在这项工作中,我们演示和比较了几个深度学习框架的性能,包括新型双向LSTM和卷积模型,这些卷积模型在蛋白质数据库(PDB)的广泛可用的测序数据合作中,结构生物信息信息技术(RCSB),RCSB),RCSB(RCSB),RCSB(RCSB)的研究合作。除了对经典的机器学习方法进行基准测试,包括K-Nearest邻居和多项式回归分类器,对实验数据进行了培训。我们的结果表明,我们的深度学习模型为经典的机器学习方法提供了卓越的性能,卷积体系结构提供了最令人印象深刻的推理性能。
translated by 谷歌翻译
生物医学网络是与疾病网络的蛋白质相互作用的普遍描述符,从蛋白质相互作用,一直到医疗保健系统和科学知识。随着代表学习提供强大的预测和洞察的显着成功,我们目睹了表现形式学习技术的快速扩展,进入了这些网络的建模,分析和学习。在这篇综述中,我们提出了一个观察到生物学和医学中的网络长期原则 - 而在机器学习研究中经常出口 - 可以为代表学习提供概念基础,解释其当前的成功和限制,并告知未来进步。我们综合了一系列算法方法,即在其核心利用图形拓扑到将网络嵌入到紧凑的向量空间中,并捕获表示陈述学习证明有用的方式的广度。深远的影响包括鉴定复杂性状的变异性,单细胞的异心行为及其对健康的影响,协助患者的诊断和治疗以及制定安全有效的药物。
translated by 谷歌翻译
对于大型小分子的大型库,在考虑一系列疾病模型,测定条件和剂量范围时,详尽的组合化学筛选变得不可行。深度学习模型已实现了硅的最终技术,以预测协同得分。但是,药物组合的数据库对协同剂有偏见,这些结果不一定会概括分布不足。我们采用了使用深度学习模型的顺序模型优化搜索来快速发现与癌细胞系相比的协同药物组合,而与详尽的评估相比,筛查要少得多。在仅3轮ML引导的体外实验(包括校准圆圈)之后,我们发现,对高度协同组合进行了查询的一组药物对。进行了另外两轮ML引导实验,以确保趋势的可重复性。值得注意的是,我们重新发现药物组合后来证实将在临床试验中研究。此外,我们发现仅使用结构信息生成的药物嵌入开始反映作用机理。
translated by 谷歌翻译
深度学习的可解释性被广泛用于评估医学成像模型的可靠性,并降低患者建议不准确的风险。对于超过人类绩效的模型,例如从显微镜图像中预测RNA结构,可解释的建模可以进一步用于发现高度非平凡的模式,而这些模式原本是人眼无法察觉的。我们表明,可解释性可以揭示癌组织的微观外观与其基因表达分析之间的联系。尽管从组织学图像中对所有基因进行详尽的分析仍然具有挑战性,但我们估计了癌症分子亚型,生存和治疗反应的众所周知的基因子集的表达值。我们的方法成功地从图像幻灯片中确定了有意义的信息,突出了高基因表达的热点。我们的方法可以帮助表征基因表达如何塑造组织形态,这可能对病理单位中的患者分层有益。该代码可在GitHub上找到。
translated by 谷歌翻译
现代单细胞流量和质量细胞仪技术测量血液或组织样品中单个细胞的几种蛋白质的表达。因此,每个分析的生物样品都由数十万个多维细胞特征向量表示,这会产生高计算成本,以预测每个生物样品与机器学习模型的相关表型。如此大的固定基础性也限制了机器学习模型的可解释性,因为难以跟踪每个单个单个细胞如何影响最终预测。我们建议使用内核平均嵌入来编码每个分类生物样品的细胞景观。尽管我们最重要的目标是制作一个更透明的模型,但我们发现我们的方法与通过简单的线性分类器相比,您的方法获得了可比性或更好的精度。结果,我们的模型包含很少的参数,但仍与具有数百万参数的深度学习模型相似。与深度学习方法相反,我们模型的线性和子选择步骤使解释分类结果变得容易。分析进一步表明,我们的方法可以接受丰富的生物学解释性,以将细胞异质性与临床表型联系起来。
translated by 谷歌翻译
不良事件是药物开发中的一个严重问题,并且已经开发了许多使用机器学习的预测方法。随机的拆分交叉验证是机器学习中模型构建和评估的事实上的标准,但是在不利事件预测中应注意,因为这种方法与现实世界的情况不符。使用时轴的时间拆分被认为适用于现实世界预测。但是,由于缺乏可比的研究,使用时间和随机分裂获得的模型性能差异尚不清楚。为了了解差异,我们使用九种类型的复合信息作为输入,八个不良事件作为目标和六种机器学习算法比较了时间和随机分裂之间的模型性能。在曲线值下,随机分裂显示的面积比八个目标中的六个时间分配比分裂更高。训练和测试数据集的化学空间相似,这表明适用性域的概念不足以解释从分裂中得出的差异。对于蛋白质相互作用,曲线差异下的面积比其他数据集更小。随后的详细分析表明,在时间分配时间内使用基于知识的信息的危险。这些发现表明,在不利事件预测中了解时间和随机分裂之间的差异的重要性,并强烈表明适当使用分裂策略和结果的解释对于不利事件的现实预测是必要的。我们提供本研究中使用的分析代码和数据集(https://github.com/mizuno-group/ae_prediction)。
translated by 谷歌翻译
在DNA序列中定位启动子区域对于生物信息学领域至关重要。这是文学中广泛研究的问题,但尚未完全解决。一些研究人员使用卷积网络提出了显着的结果,允许自动提取来自DNA链的特征。然而,尚未实现可能概括为若干生物的普遍架构,从而要求研究人员寻求新的架构和对每个新的生物体的近似数目。在这项工作中,我们提出了一种基于胶囊网络的多功能架构,可以精确地识别来自七种不同生物,真核和原核的原始DNA数据中的启动子序列。我们的模型是Capsprom,可以帮助在生物之间的学习转移并扩大其适用性。此外,CAPSPROM显示出具有竞争力的结果,克服了七个测试数据集中的五分之一的基线方法(F1分数)。模型和源代码在https://github.com/lauromoraes/capsnet-promoter提供。
translated by 谷歌翻译
发现新药是寻求并证明因果关系。作为一种新兴方法利用人类的知识和创造力,数据和机器智能,因果推论具有减少认知偏见并改善药物发现决策的希望。尽管它已经在整个价值链中应用了,但因子推理的概念和实践对许多从业者来说仍然晦涩难懂。本文提供了有关因果推理的非技术介绍,审查了其最新应用,并讨论了在药物发现和开发中采用因果语言的机会和挑战。
translated by 谷歌翻译
在过去的几十年中,抗体疗法在药物发现和发育方面进行了广泛研究。抗体发现管道中越来越流行的重点是治疗铅的优化步骤。传统方法和计算机方法中均旨在产生具有高结合亲和力的候选者,以针对特定的靶抗原。传统的体外方法使用杂交瘤或噬菌体显示来进行候选选择,以及表面等离子体共振(SPR)进行评估,而在计算机计算方法中,旨在通过在设计过程中纳入数学算法和计算处理能力来降低高成本并提高效率。在本研究中,我们研究了使用深度学习技术在抗体亲和力预测方面描述抗体 - 抗原相互作用的不同设计。虽然其他计算中的其他计算中需要实验确定的晶体结构,但我们的研究对基于序列的模型的能力感兴趣。我们的初步研究达到了与传统方法和其他深度学习方法相比,可满足结合亲和力的预测准确性。为了进一步研究抗体 - 抗原结合特异性,并在现实情况下模拟优化过程,我们引入了成对的预测策略。我们根据基线和成对预测结果进行了分析。由此产生的预测和效率证明了基于序列的方法的可行性和计算效率,以适应可扩展的行业实践。
translated by 谷歌翻译
Molecular and genomic properties are critical in selecting cancer treatments to target individual tumors, particularly for immunotherapy. However, the methods to assess such properties are expensive, time-consuming, and often not routinely performed. Applying machine learning to H&E images can provide a more cost-effective screening method. Dozens of studies over the last few years have demonstrated that a variety of molecular biomarkers can be predicted from H&E alone using the advancements of deep learning: molecular alterations, genomic subtypes, protein biomarkers, and even the presence of viruses. This article reviews the diverse applications across cancer types and the methodology to train and validate these models on whole slide images. From bottom-up to pathologist-driven to hybrid approaches, the leading trends include a variety of weakly supervised deep learning-based approaches, as well as mechanisms for training strongly supervised models in select situations. While results of these algorithms look promising, some challenges still persist, including small training sets, rigorous validation, and model explainability. Biomarker prediction models may yield a screening method to determine when to run molecular tests or an alternative when molecular tests are not possible. They also create new opportunities in quantifying intratumoral heterogeneity and predicting patient outcomes.
translated by 谷歌翻译
Protein subcellular localization is an important factor in normal cellular processes and disease. While many protein localization resources treat it as static, protein localization is dynamic and heavily influenced by biological context. Biological pathways are graphs that represent a specific biological context and can be inferred from large-scale data. We develop graph algorithms to predict the localization of all interactions in a biological pathway as an edge-labeling task. We compare a variety of models including graph neural networks, probabilistic graphical models, and discriminative classifiers for predicting localization annotations from curated pathway databases. We also perform a case study where we construct biological pathways and predict localizations of human fibroblasts undergoing viral infection. Pathway localization prediction is a promising approach for integrating publicly available localization data into the analysis of large-scale biological data.
translated by 谷歌翻译
虽然最近在许多科学领域都变得无处不在,但对其评估的关注较少。对于分子生成模型,最先进的是孤立或与其输入有关的输出。但是,它们的生物学和功能特性(例如配体 - 靶标相互作用)尚未得到解决。在这项研究中,提出了一种新型的生物学启发的基准,用于评估分子生成模型。具体而言,设计了三个不同的参考数据集,并引入了与药物发现过程直接相关的一组指标。特别是我们提出了一个娱乐指标,将药物目标亲和力预测和分子对接应用作为评估生成产量的互补技术。虽然所有三个指标均在测试的生成模型中均表现出一致的结果,但对药物目标亲和力结合和分子对接分数进行了更详细的比较,表明单峰预测器可能会导致关于目标结合在分子水平和多模式方法的错误结论,而多模式的方法是错误的结论。因此优选。该框架的关键优点是,它通过明确关注配体 - 靶标相互作用,将先前的物理化学域知识纳入基准测试过程,从而创建了一种高效的工具,不仅用于评估分子生成型输出,而且还用于丰富富含分子生成的输出。一般而言,药物发现过程。
translated by 谷歌翻译