机器学习在虚拟筛选中显示出巨大的潜力,用于药物发现。目前正在加速基于对接的虚拟筛选的努力不考虑使用其他先前开发的目标的现有数据。为了利用其他目标的知识并利用现有数据,在这项工作中,我们将多任务学习应用于基于对接的虚拟筛选问题。通过两个大型对接数据集,广泛实验结果表明,多任务学习可以实现对接分数预测的更好性能。通过在多个目标上学习知识,由多任务学习训练的模型显示了适应新目标的更好能力。额外的实证研究表明,药物发现中的其他问题,例如实验药物 - 目标亲和预测,也可能受益于多任务学习。我们的结果表明,多任务学习是基于对接的虚拟筛选和加速药物发现过程的有前途的机器学习方法。
translated by 谷歌翻译
Drug development is a wide scientific field that faces many challenges these days. Among them are extremely high development costs, long development times, as well as a low number of new drugs that are approved each year. To solve these problems, new and innovate technologies are needed that make the drug discovery process of small-molecules more time and cost-efficient, and which allow to target previously undruggable target classes such as protein-protein interactions. Structure-based virtual screenings have become a leading contender in this context. In this review, we give an introduction to the foundations of structure-based virtual screenings, and survey their progress in the past few years. We outline key principles, recent success stories, new methods, available software, and promising future research directions. Virtual screenings have an enormous potential for the development of new small-molecule drugs, and are already starting to transform early-stage drug discovery.
translated by 谷歌翻译
蛋白质 - 配体相互作用(PLIS)是生化研究的基础,其鉴定对于估计合理治疗设计的生物物理和生化特性至关重要。目前,这些特性的实验表征是最准确的方法,然而,这是非常耗时和劳动密集型的。在这种情况下已经开发了许多计算方法,但大多数现有PLI预测大量取决于2D蛋白质序列数据。在这里,我们提出了一种新颖的并行图形神经网络(GNN),以集成PLI预测的知识表示和推理,以便通过专家知识引导的深度学习,并通过3D结构数据通知。我们开发了两个不同的GNN架构,GNNF是采用不同特种的基础实现,以增强域名认识,而GNNP是一种新颖的实现,可以预测未经分子间相互作用的先验知识。综合评价证明,GNN可以成功地捕获配体和蛋白质3D结构之间的二元相互作用,对于GNNF的测试精度和0.958,用于预测蛋白质 - 配体络合物的活性。这些模型进一步适用于回归任务以预测实验结合亲和力,PIC50对于药物效力和功效至关重要。我们在实验亲和力上达到0.66和0.65的Pearson相关系数,分别在PIC50和GNNP上进行0.50和0.51,优于基于2D序列的模型。我们的方法可以作为可解释和解释的人工智能(AI)工具,用于预测活动,效力和铅候选的生物物理性质。为此,我们通过筛选大型复合库并将我们的预测与实验测量数据进行比较来展示GNNP对SARS-COV-2蛋白靶标的实用性。
translated by 谷歌翻译
药物目标相互作用(DTI)预测在药物发现中发挥着至关重要的作用,深度学习方法在该领域实现了最先进的性能。我们介绍了DTI预测的深度学习模型(EnsembledLM)的集合。EnsembledLM仅使用化学化合物和蛋白质的序列信息,并且它聚集了来自多个深神经网络的预测。这种方法不仅可以实现戴维斯和基布数据集的最先进的性能,而且还达到了不同生物活动类型和不同蛋白质类的跨域应用中的前沿性能。我们还证明EnsembledLM在新域中实现了良好的性能(Pearson相关系数和一致性索引> 0.8),其中具有大约50%的转移学习数据,即,培训集具有两倍的数据作为测试集。
translated by 谷歌翻译
The process of screening molecules for desirable properties is a key step in several applications, ranging from drug discovery to material design. During the process of drug discovery specifically, protein-ligand docking, or chemical docking, is a standard in-silico scoring technique that estimates the binding affinity of molecules with a specific protein target. Recently, however, as the number of virtual molecules available to test has rapidly grown, these classical docking algorithms have created a significant computational bottleneck. We address this problem by introducing Deep Surrogate Docking (DSD), a framework that applies deep learning-based surrogate modeling to accelerate the docking process substantially. DSD can be interpreted as a formalism of several earlier surrogate prefiltering techniques, adding novel metrics and practical training practices. Specifically, we show that graph neural networks (GNNs) can serve as fast and accurate estimators of classical docking algorithms. Additionally, we introduce FiLMv2, a novel GNN architecture which we show outperforms existing state-of-the-art GNN architectures, attaining more accurate and stable performance by allowing the model to filter out irrelevant information from data more efficiently. Through extensive experimentation and analysis, we show that the DSD workflow combined with the FiLMv2 architecture provides a 9.496x speedup in molecule screening with a <3% recall error rate on an example docking task. Our open-source code is available at https://github.com/ryienh/graph-dock.
translated by 谷歌翻译
Deep learning models that leverage large datasets are often the state of the art for modelling molecular properties. When the datasets are smaller (< 2000 molecules), it is not clear that deep learning approaches are the right modelling tool. In this work we perform an extensive study of the calibration and generalizability of probabilistic machine learning models on small chemical datasets. Using different molecular representations and models, we analyse the quality of their predictions and uncertainties in a variety of tasks (binary, regression) and datasets. We also introduce two simulated experiments that evaluate their performance: (1) Bayesian optimization guided molecular design, (2) inference on out-of-distribution data via ablated cluster splits. We offer practical insights into model and feature choice for modelling small chemical datasets, a common scenario in new chemical experiments. We have packaged our analysis into the DIONYSUS repository, which is open sourced to aid in reproducibility and extension to new datasets.
translated by 谷歌翻译
抗癌药物的发现是偶然的,我们试图介绍开放的分子图学习基准,称为Cantidrug4cancer,这是一个具有挑战性且逼真的基准数据集,可促进可扩展,健壮和可重复的图形机器学习用于抗癌药物发现的机器学习研究。候选物4CANCER数据集涵盖了多个最多的癌症靶标,涵盖了54869个与癌症相关的药物分子,其范围从临床前,临床和FDA批准的范围内。除了构建数据集外,我们还使用描述符和表达性图神经网络进行了有效的药物靶点相互作用(DTI)预测基准的基准实验。实验结果表明,候选物4Cancer在实际应用中对学习分子图和目标提出了重大挑战,这表明将来有机会开发用于治疗癌症的候选药物的研究。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
药物目标亲和力(DTA)预测是药物发现和药物研究的重要任务。 DTA的准确预测可以极大地受益于新药的设计。随着湿实验的昂贵且耗时,DTA预测的监督数据非常有限。这严重阻碍了基于深度学习的方法的应用,这些方法需要大量的监督数据。为了应对这一挑战并提高DTA预测准确性,我们在这项工作中提出了一个具有几种简单但有效的策略的框架:(1)多任务培训策略,该策略将DTA预测和蒙版语言建模(MLM)任务采用配对的药品目标数据集; (2)一种半监督的训练方法,通过利用大规模的未配对分子和蛋白质来赋予药物和靶向代表性学习,这与以前仅利用仅利用预训练的预训练和微调方法,这些方法仅利用前培训和微调方法训练; (3)一个交叉意见模块,以增强药物和靶代表性之间的相互作用。在三个现实世界基准数据集上进行了广泛的实验:BindingDB,Davis和Kiba。结果表明,我们的框架大大优于现有方法,并实现最先进的性能,例如,$ 0.712 $ rmse在bindingdb ic $ _ {50} $测量上,比以前的最佳工作要改善了$ 5 \%。此外,关于特定药物目标结合活动,药物特征可视化和现实世界应用的案例研究证明了我们工作的巨大潜力。代码和数据在https://github.com/qizhipei/smt-dta上发布
translated by 谷歌翻译
药物发现对于保护人免受疾病至关重要。基于目标的筛查是过去几十年来开发新药的最流行方法之一。该方法有效地筛选了候选药物在体外抑制靶蛋白,但由于体内所选药物的活性不足,它通常失败。需要准确的计算方法来弥合此差距。在这里,我们提出了一个新的图形多任务深度学习模型,以识别具有目标抑制性和细胞活性(matic)特性的化合物。在经过精心策划的SARS-COV-2数据集中,提出的Matic模型显示了与传统方法相比,在筛选体内有效化合物方面的优点。接下来,我们探索了模型的解释性,发现目标抑制(体外)或细胞活性(体内)任务的学习特征与分子属性相关性和原子功能专注不同。基于这些发现,我们利用了基于蒙特卡洛的增强性学习生成模型来生成具有体外和体内功效的新型多毛皮化合物,从而弥合了基于靶基于靶基于靶标的药物和基于细胞的药物发现之间的差距。
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
最近,基于深度神经网络(DNN)的药物 - 目标相互作用(DTI)模型以高精度突出显示,具有实惠的计算成本。然而,模型在硅药物发现的实践中仍然是一个具有挑战性的问题。我们提出了两项​​关键策略,以提高DTI模型的概括。首先是通过用神经网络参数化的物理通知方程来预测原子原子对相互作用,并提供蛋白质 - 配体复合物作为其总和的总结合亲和力。通过增强更广泛的绑定姿势和配体来培训数据,我们进一步改善了模型泛化。我们验证了我们的模型,PIGNET,在评分职能(CASF)2016的比较评估中,展示了比以前的方法更优于对接和筛选力。我们的物理信息策略还通过可视化配体副结构的贡献来解释预测的亲和力,为进一步配体优化提供了见解。
translated by 谷歌翻译
虽然最近在许多科学领域都变得无处不在,但对其评估的关注较少。对于分子生成模型,最先进的是孤立或与其输入有关的输出。但是,它们的生物学和功能特性(例如配体 - 靶标相互作用)尚未得到解决。在这项研究中,提出了一种新型的生物学启发的基准,用于评估分子生成模型。具体而言,设计了三个不同的参考数据集,并引入了与药物发现过程直接相关的一组指标。特别是我们提出了一个娱乐指标,将药物目标亲和力预测和分子对接应用作为评估生成产量的互补技术。虽然所有三个指标均在测试的生成模型中均表现出一致的结果,但对药物目标亲和力结合和分子对接分数进行了更详细的比较,表明单峰预测器可能会导致关于目标结合在分子水平和多模式方法的错误结论,而多模式的方法是错误的结论。因此优选。该框架的关键优点是,它通过明确关注配体 - 靶标相互作用,将先前的物理化学域知识纳入基准测试过程,从而创建了一种高效的工具,不仅用于评估分子生成型输出,而且还用于丰富富含分子生成的输出。一般而言,药物发现过程。
translated by 谷歌翻译
现在,我们目睹了深度学习方法在各种蛋白质(或数据集)中的重大进展。但是,缺乏评估不同方法的性能的标准基准,这阻碍了该领域的深度学习进步。在本文中,我们提出了一种称为PEER的基准,这是一种用于蛋白质序列理解的全面和多任务基准。 PEER提供了一组不同的蛋白质理解任务,包括蛋白质功能预测,蛋白质定位预测,蛋白质结构预测,蛋白质 - 蛋白质相互作用预测和蛋白质 - 配体相互作用预测。我们评估每个任务的不同类型的基于序列的方法,包括传统的特征工程方法,不同的序列编码方法以及大规模的预训练蛋白质语言模型。此外,我们还研究了这些方法在多任务学习设置下的性能。实验结果表明,大规模的预训练蛋白质语言模型可实现大多数单个任务的最佳性能,共同训练多个任务进一步提高了性能。该基准的数据集和源代码均可在https://github.com/deepgraphlearning/peer_benchmark上获得
translated by 谷歌翻译
作为药物开发的必要过程,找到可以选择性地与特定蛋白质结合的药物化合物是高度挑战性和昂贵的。代表药物目标相互作用(DTI)强度的药物目标亲和力(DTA)在过去十年中在DTI预测任务中发挥了重要作用。尽管已将深度学习应用于与DTA相关的研究,但现有的解决方案忽略了分子亚结构之间的基本相关性,在分子代表学习药物化合物分子/蛋白质靶标之间。此外,传统方法缺乏DTA预测过程的解释性。这导致缺少分子间相互作用的特征信息,从而影响预测性能。因此,本文提出了一种使用交互式学习和自动编码器机制的DTA预测方法。提出的模型增强了通过药物/蛋白质分子表示学习模块捕获单个分子序列的特征信息的相应能力,并通过交互式信息学习模块补充了分子序列对之间的信息相互作用。 DTA值预测模块融合了药物目标对相互作用信息,以输出DTA的预测值。此外,从理论上讲,本文提出的方法最大化了DTA预测模型联合分布的证据下限(ELBO),从而增强了实际值和预测值之间概率分布的一致性。实验结果证实了相互变压器 - 药物目标亲和力(MT-DTA)的性能比其他比较方法更好。
translated by 谷歌翻译
学习到级别是一种广泛用于信息检索的机器学习技术,最近已应用于基于配体的虚拟筛查问题,以加速新药开发的早期阶段。排名预测模型根据序数关系学习,使其适合从各种环境中集成测定数据。现有的化合物筛选中排名预测的研究通常使用了一种名为RankSVM的学习对方法。但是,尚未将它们与梯度提升决策树(GBDT)基于梯度的学习对级别的方法进行比较或验证,这些方法最近越来越受欢迎。此外,尽管称为归一化折扣累积增益(NDCG)的排名指标被广泛用于信息检索,但它仅确定预测是否比其他模型的预测更好。换句话说,NDCG无法识别何时预测模型比随机结果差。然而,NDCG仍用于使用学习级学习的化合物筛选的性能评估。这项研究使用了具有排名损失函数的GBDT模型,称为Lambdarank和Lambdaloss,用于基于配体的虚拟筛选。使用回归将结果与现有的RankSVM方法和GBDT模型进行比较。我们还提出了一个新的排名指标,标准化的富集折扣累积增益(NEDCG),旨在正确评估排名预测的好处。结果表明,使用GBDT和RankSVM在不同数据集上的GBDT模型优于现有的回归方法。此外,NEDCG表明,回归预测与多户多户数据集中的随机预测相当,这证明了其对更直接评估复合筛选性能的有用性。
translated by 谷歌翻译
SARS-COV-2是一种积极的单链RNA基于大分子,自2022年6月以来,已导致超过630万人死亡。此外,通过封锁扰乱了全球供应链,该病毒对全球经济造成了毁灭性的破坏。为该病毒及其各种变体设计和开发药物至关重要。在本文中,我们使用了一个内部研究框架来重新利用现有的治疗剂,以找到可以治愈COVID-19的药物样生物活性分子。我们使用了从Chembl数据库中检索到的分子的Lipinski规则,以发现针对SARS冠状病毒3Cl蛋白酶的133种吸毒生物活性分子。在标准IC50的基础上,数据集分为三类活动性,无效和中间体。我们的比较分析表明,提出的额外树回收剂(ETR)集成模型改善了结果,同时相对于其他最先进的机器学习模型,可以预测化学化合物的准确生物活性。使用ADMET分析,我们确定了13个具有化学ID的新型生物活性分子187460,190743,222234,222628,222735,222769,222840,222840,222893,2255515,358279,358279,33535,363535,363535,365134 and 422688.88.88.88.88.88.88.88.88.88。 SARS-COV-2 3Cl蛋白酶。这些候选分子进一步研究了结合亲和力。为此,我们进行了分子对接和简短列出的六个具有Chembl IDS 187460、222769、225515、358279、363535和36513的生物活性分子。这些分子可以是SARS-COV-2-2。预计药物学家社区可能会使用这些有希望的化合物进行进一步的体外分析。
translated by 谷歌翻译
人工智能(AI)已被广泛应用于药物发现中,其主要任务是分子财产预测。尽管分子表示学习中AI技术的繁荣,但尚未仔细检查分子性质预测的一些关键方面。在这项研究中,我们对三个代表性模型,即随机森林,莫尔伯特和格罗弗进行了系统比较,该模型分别利用了三个主要的分子表示,扩展连接的指纹,微笑的字符串和分子图。值得注意的是,莫尔伯特(Molbert)和格罗弗(Grover)以自我监督的方式在大规模的无标记分子库中进行了预定。除了常用的分子基准数据集外,我们还组装了一套与阿片类药物相关的数据集进行下游预测评估。我们首先对标签分布和结构分析进行了数据集分析;我们还检查了阿片类药物相关数据集中的活动悬崖问题。然后,我们培训了4,320个预测模型,并评估了学习表示的有用性。此外,我们通过研究统计测试,评估指标和任务设置的效果来探索模型评估。最后,我们将化学空间的概括分解为施加间和支柱内的概括,并测量了预测性能,以评估两种设置下模型的普遍性。通过采取这种喘息,我们反映了分子财产预测的基本关键方面,希望在该领域带来更好的AI技术的意识。
translated by 谷歌翻译
深度生成模型吸引了具有所需特性的分子设计的极大关注。大多数现有模型通过顺序添加原子来产生分子。这通常会使产生的分子与目标性能和低合成可接近性较少。诸如官能团的分子片段与分子性质和合成可接近的比原子更密切相关。在此,我们提出了一种基于片段的分子发生模型,其通过顺序向任何给定的起始分子依次向任何给定的起始分子添加分子片段来设计具有靶性质的新分子。我们模型的一个关键特征是属性控制和片段类型方面的高概括能力。通过以自动回归方式学习各个片段对目标属性的贡献来实现前者。对于后者,我们使用深神经网络,其从两个分子的嵌入载体中预测两个分子的键合概率作为输入。在用金砖石分解方法制备片段文库的同时隐式考虑所生成的分子的高合成可用性。我们表明该模型可以以高成功率同时控制多个目标性质的分子。即使在培训数据很少的财产范围内,它也与看不见的片段同样很好地工作,验证高概括能力。作为一种实际应用,我们证明,在对接得分方面,该模型可以产生具有高结合亲和力的潜在抑制剂,其抗对接得分的3CL-COV-2。
translated by 谷歌翻译