逆合合成是一种将分子转化为潜在反应物的过程,因此鉴定了合成途径。我们提出了一个新颖的生成框架,称为$ \ mathsf {g^2retro} $,用于一步回曲预测。 $ \ mathsf {g^2retro} $模仿合成反应的反向逻辑,也就是说,首先预测反应中心以将靶分子转换为名为合成的片段,然后将合成剂转化为反应剂,然后按照先前的基于半电压的方法转换为反应剂。在预测反应中心时,$ \ mathsf {g^2retro} $定义了一组全面的反应中心类型,并通过考虑多个反应中心候选者来实现预测反应的多样性。在完成合成子时,$ \ mathsf {g^2retro} $部署了一系列子结构附件,以将合成物转换为反应物,该反应物利用了要完成的合成结构的最新结构的整体视图,以及所有所涉及的合成物和所有合成的结构产品结构。在这里,我们证明$ \ mathsf {g^2retro} $能够更好地对基准数据集中最可能的反应物进行优先级,而不是最先进的方法,并且发现了不包括在该方法中基准数据集。
translated by 谷歌翻译
在药物发现中,分子优化是在所需药物性质方面将药物候选改变为更好的阶梯。随着近期人工智能的进展,传统上的体外过程越来越促进了Silico方法。我们以硅方法提出了一种创新的,以通过深生成模型制定分子并制定问题,以便产生优化的分子图。我们的生成模型遵循基于片段的药物设计的关键思想,并通过修改其小碎片来优化分子。我们的模型了解如何识别待优化的碎片以及如何通过学习具有良好和不良性质的分子的差异来修改此类碎片。在优化新分子时,我们的模型将学习信号应用于在片段的预测位置解码优化的片段。我们还将多个这样的模型构造成管道,使得管道中的每个模型能够优化一个片段,因此整个流水线能够在需要时改变多个分子片段。我们将我们的模型与基准数据集的其他最先进的方法进行比较,并证明我们的方法在中等分子相似度约束下具有超过80%的性质改善,在高分子相似度约束下具有超过80%的财产改善。 。
translated by 谷歌翻译
反转合是药物发现的主要任务。通过许多现有方法,它被称为生成图的问题。具体而言,这些方法首先识别反应中心,并相应地打破靶分子以生成合成子。反应物是通过顺序添加到合成图或直接添加正确的离开组来生成反应物。但是,两种策略都遭受了添加原子以来会导致长期的预测顺序,从而增加了产生难度,同时添加离开组只能考虑训练集中的序列,从而导致概括不佳。在本文中,我们提出了一个新颖的端到端图生成模型,用于逆转录合成预测,该模型顺序识别反应中心,生成合成子,并将基序添加到合成子中以生成反应物。由于化学有意义的基序比原子大,比离开组还小,因此与添加原子相比,与添加离开组相比,我们的方法的预测复杂性较低。基准数据集上的实验表明,所提出的模型显着胜过先前的最新算法。
translated by 谷歌翻译
丙酸的主要靶标是递归地将所需分子分解成可用的构件块。现有的基于模板的逆转性方法遵循模板选择刻板印象并遭受有限训练模板,这可以防止它们发现新的反应。为了克服限制,我们提出了一种创新的retrosynesp预测框架,可以撰写超出训练模板的新型模板。据我们所知,这是第一种可以找到用于逆转金属预测的新型模板的方法。此外,我们提出了一种有效的反应物候选候选模型,可以捕获原子级变换信息,并有助于我们的方法优于现有方法,通过大边距。实验结果表明,我们的方法可以在USPTO-50K数据集中生产328个测试反应的新型模板,包括训练模板未涵盖的21个测试反应。
translated by 谷歌翻译
化学反应预测,涉及正向合成和逆合合成预测,是有机合成中的一个基本问题。流行的计算范式将综合预测作为序列到序列翻译问题,其中采用典型的微笑来分子表示。然而,通用微笑忽略了化学反应的特征,其中分子图拓扑在很大程度上从反应物到产物不变,如果直接施加了笑容,则会导致微笑的次优性能。在本文中,我们提出了与根对准的微笑(R-Smiles),该微笑指定了产品和反应物微笑之间的紧密比对以进行更有效的合成预测。由于严格的一对一映射和降低的编辑距离,计算模型很大程度上免于学习复杂的语法,并致力于学习反应的化学知识。我们将提出的R-Smiles与各种最新基准进行比较,并表明它明显优于所有基准,这表明了所提出的方法的优越性。
translated by 谷歌翻译
单步反转合作是逆合合成计划的基石,这是计算机辅助药物发现的至关重要的任务。单步回合合成的目的是确定导致一个反应中靶产物合成的可能反应物。通过将有机分子表示为规范串,现有的基于序列的折叠方法将乘积 - 反应性逆合合成视为序列到序列翻译问题。但是,由于确定性推断,他们中的大多数人都难以识别所需产物的多种化学反应,这与以下事实相矛盾:许多化合物可以通过各种反应类型与不同的反应物组成。在这项工作中,我们旨在增加反应多样性并使用离散的潜在变量产生各种反应物。我们提出了一种基于序列的新方法,即RetrodVcae,该方法将条件变分自动化码器纳入单步回逆转录中,并将离散的潜在变量与生成过程相关联。具体而言,RetroDVCAE使用Gumbel-Softmax分布来近似于潜在反应的分类分布,并生成与变异解码器的多组反应物。实验表明,RetroDVCAE在基准数据集和自制数据集上的最先进基准均优于最先进的基线。定量和定性结果都表明,转化vcae可以在反应类型上对多模式分布进行建模,并产生各种反应物候选物。
translated by 谷歌翻译
We seek to automate the design of molecules based on specific chemical properties. In computational terms, this task involves continuous embedding and generation of molecular graphs. Our primary contribution is the direct realization of molecular graphs, a task previously approached by generating linear SMILES strings instead of graphs. Our junction tree variational autoencoder generates molecular graphs in two phases, by first generating a tree-structured scaffold over chemical substructures, and then combining them into a molecule with a graph message passing network. This approach allows us to incrementally expand molecules while maintaining chemical validity at every step. We evaluate our model on multiple tasks ranging from molecular generation to optimization. Across these tasks, our model outperforms previous state-of-the-art baselines by a significant margin.
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译
逆转合成 - 鉴定一组反应物合成靶分子的方法 - 对材料设计和药物发现至关重要。基于语言模型和图形神经网络的现有机器学习方法取得了令人鼓舞的结果。在本文中,我们提出了一个框架,将基于序列和图形的方法统一为基于能量的模型(EBMS),具有不同的能量功能。本统一的透视通过全面评估性能,提供了对EBM变体的关键洞察。此外,我们在框架内提出了一种新的双重变体,通过限制两个方向之间的协议,通过限制贝叶斯的前后预测来执行一致的训练。此模型可以提高最先进的性能,对于反应类型未知的无模块的方法,提高了9.6%。
translated by 谷歌翻译
分子机器学习的最新进展,特别是深度神经网络,如图形神经网络(GNNS),用于预测结构活动关系(SAR)在计算机辅助药物发现中表达了巨大的潜力。然而,这种深神经网络的适用性受到大量培训数据的限制。为了应对目标任务的有限培训数据,最近已采用对SAR建模的转移学习,从而利用相关任务数据的信息。在这项工作中,与最流行的基于参数的转移学习相比,诸如预先估计的基于流行的传输学习,我们开发了新颖的深度传输学习方法TAC和TAC-FC来利用源域数据并将有用信息传送到目标域。 TAC学习生成可以从一个域概括到另一个域的有效分子特征,并提高目标域中的分类性能。另外,TAC-FC通过掺入新的组分来选择性地学习特征和化合物方识的可转移性来延伸TAC。我们使用来自Pubchem的生物测定筛选数据,并确定了120对生物测定,使得与其无活性化合物相比,每对的活性化合物彼此更类似。总的来说,TAC实现了平均Roc-AUC的最佳性能为0.801;与最佳基线FCN-DMPNA(DT)相比,它显着提高了83%的目标任务的83%的目标任务,平均任务明智的性能提高为7.102%。我们的实验清楚地表明TAC在大量目标任务中对所有基线实现了重大改进。此外,尽管与TAC相比,TAC-FC略微较差的ROC-AUC(0.798 VS 0.801),但与其他方法相比,TAC-FC仍然在PR-AUC和F1方面实现了更好的性能。
translated by 谷歌翻译
它是科学技术的基础,能够预测化学反应及其性质。为实现此类技能,重要的是要培养良好的化学反应表示,或者可以自动从数据中学习此类表示的良好深度学习架构。目前没有普遍和广泛采用的方法,可强健地代表化学反应。大多数现有方法患有一个或多个缺点,例如:(1)缺乏普遍性; (2)缺乏稳健性; (3)缺乏可解释性;或(4)需要过度手动预处理。在这里,我们利用基于图的分子结构表示,以开发和测试一个超图注意神经网络方法,以一次解决反应表示和性能 - 预测问题,减轻了上述缺点。我们使用三个独立数据集化学反应评估三个实验中的这种超照片表示。在所有实验中,基于超图的方法与其他表示和它们相应的化学反应模型相匹配或优于相应的模型,同时产生可解释的多级表示。
translated by 谷歌翻译
这项工作考虑了在属性关系图(ARG)上表示表示的任务。 ARG中的节点和边缘都与属性/功能相关联,允许ARG编码在实际应用中广泛观察到的丰富结构信息。现有的图形神经网络提供了有限的能力,可以在局部结构环境中捕获复杂的相互作用,从而阻碍他们利用ARG的表达能力。我们提出了Motif卷积模块(MCM),这是一种新的基于基线的图表表示技术,以更好地利用本地结构信息。处理连续边缘和节点功能的能力是MCM比现有基于基础图案的模型的优势之一。 MCM以无监督的方式构建了一个主题词汇,并部署了一种新型的主题卷积操作,以提取单个节点的局部结构上下文,然后将其用于通过多层perceptron学习高级节点表示,并在图神经网络中传递消息。与其他图形学习方法进行分类的合成图相比,我们的方法在捕获结构环境方面要好得多。我们还通过将其应用于几个分子基准来证明我们方法的性能和解释性优势。
translated by 谷歌翻译
基于深度学习的分子建模的最新进步令人兴奋地加速硅药发现。可获得血清的生成模型,构建原子原子和键合或逐片键的分子。然而,许多药物发现项目需要固定的支架以存在于所生成的分子中,并纳入该约束仅探讨了该约束。在这里,我们提出了一种基于图形的模型,其自然地支持支架作为生成过程的初始种子,这是可能的,因为它不调节在发电历史上。我们的实验表明,Moler与最先进的方法进行了相当的方法,在无约会的分子优化任务上,并且在基于脚手架的任务上优于它们,而不是比现有方法从培训和样本更快的数量级。此外,我们展示了许多看似小设计选择对整体性能的影响。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
深度生成模型吸引了具有所需特性的分子设计的极大关注。大多数现有模型通过顺序添加原子来产生分子。这通常会使产生的分子与目标性能和低合成可接近性较少。诸如官能团的分子片段与分子性质和合成可接近的比原子更密切相关。在此,我们提出了一种基于片段的分子发生模型,其通过顺序向任何给定的起始分子依次向任何给定的起始分子添加分子片段来设计具有靶性质的新分子。我们模型的一个关键特征是属性控制和片段类型方面的高概括能力。通过以自动回归方式学习各个片段对目标属性的贡献来实现前者。对于后者,我们使用深神经网络,其从两个分子的嵌入载体中预测两个分子的键合概率作为输入。在用金砖石分解方法制备片段文库的同时隐式考虑所生成的分子的高合成可用性。我们表明该模型可以以高成功率同时控制多个目标性质的分子。即使在培训数据很少的财产范围内,它也与看不见的片段同样很好地工作,验证高概括能力。作为一种实际应用,我们证明,在对接得分方面,该模型可以产生具有高结合亲和力的潜在抑制剂,其抗对接得分的3CL-COV-2。
translated by 谷歌翻译
基于结构的药物设计涉及发现具有对蛋白质袋的结构和化学互补性的配体分子。深度生成方法表明了在提出从划痕(De-Novo设计)的新型分子中的承诺,避免了化学空间的详尽虚拟筛选。大多数生成的de-novo模型未能包含详细的配体 - 蛋白质相互作用和3D袋结构。我们提出了一种新的监督模型,在离散的分子空间中与3D姿势共同产生分子图。分子在口袋内部构建原子原子,由来自晶体数据的结构信息引导。我们使用对接基准进行评估我们的模型,并发现引导生成将预测的结合亲和力提高了8%,并在基线上通过10%的药物相似分数提高了预测的结合亲和力。此外,我们的模型提出了具有超过一些已知配体的结合分数的分子,这可能在未来的湿式实验室研究中有用。
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译
需要产生具有所需特性的有效分子的分子产生是基本但具有挑战性的任务。近年来,目睹了原子级自动回归模型的快速发展,这通常构造在添加原子级节点和边缘的顺序动作之后的图表。然而,这些原子级模型忽略了高频子结构,其不仅捕获分子中原子组合的规律而且通常与所需的化学性质相关,因此可以是用于产生高质量分子的次优。在本文中,我们提出了一种方法来自动发现这种常见的子结构,从给定的分子图中呼叫图形件。我们还提出了一种基于图形件产生分子图的图片变形AutoEncoder(GP-VAE)。实验表明,我们的GP-VAE模型不仅可以实现更好的性能,而不是用于分发 - 学习,属性优化和约束性能优化任务,但也是计算效率的最先进的基线。
translated by 谷歌翻译
We discover a robust self-supervised strategy tailored towards molecular representations for generative masked language models through a series of tailored, in-depth ablations. Using this pre-training strategy, we train BARTSmiles, a BART-like model with an order of magnitude more compute than previous self-supervised molecular representations. In-depth evaluations show that BARTSmiles consistently outperforms other self-supervised representations across classification, regression, and generation tasks setting a new state-of-the-art on 11 tasks. We then quantitatively show that when applied to the molecular domain, the BART objective learns representations that implicitly encode our downstream tasks of interest. For example, by selecting seven neurons from a frozen BARTSmiles, we can obtain a model having performance within two percentage points of the full fine-tuned model on task Clintox. Lastly, we show that standard attribution interpretability methods, when applied to BARTSmiles, highlight certain substructures that chemists use to explain specific properties of molecules. The code and the pretrained model are publicly available.
translated by 谷歌翻译
自我监督的神经语言模型最近在有机分子和蛋白质序列的生成设计中发现了广泛的应用,以及用于下游结构分类和功能预测的表示学习。但是,大多数现有的分子设计深度学习模型通常都需要一个大数据集并具有黑盒架构,这使得很难解释其设计逻辑。在这里,我们提出了生成分子变压器(GMTRANSFORMER),这是一种用于分子生成设计的概率神经网络模型。我们的模型建立在最初用于文本处理的空白填充语言模型上,该模型在学习具有高质量生成,可解释性和数据效率的“分子语法”方面具有独特的优势。与其他基线相比,我们的模型在摩西数据集上的基准测试后获得了高新颖性和SCAF。概率生成步骤具有修补分子设计的潜力,因为它们有能力推荐如何通过学习的隐式分子化学指导,并通过解释来修饰现有分子。可以在https://github.com/usccolumbia/gmtransformer上自由访问源代码和数据集
translated by 谷歌翻译