优化所需特性的化学分子在于药物发育的核心。尽管深度生成模型和加强学习方法进行了初步成功,但这些方法主要受到预定义属性函数或通过手动预编译的原始和优化分子的并行数据的限制。在本文中,我们首次制定了作为样式转移问题的分子优化,并提出了一种新的生成模型,可以通过对抗训练策略自动学习两组非并行数据之间的内部差异。我们的模型通过组合辅助引导变分自身额和生成流动技术,可以通过组合辅助引导变分自动化器和经常性流动技术来保存分子内容和分子特性的优化。两种分子优化任务的实验,毒性修饰和合成性改进,证明我们的模型显着优于几种最先进的方法。
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
光酸产生剂(PAG)是在暴露于光线时释放酸($ H ^ + $离子)的化合物。这些化合物是用于制造半导体逻辑和存储芯片的光刻工艺的关键组分。半导体需求的指数增加突出了发现新型光酸发生器的需求。虽然De Novo分子设计使用深度生成模型被广泛用于药物发现和材料设计,但其在创建新颖的光酸发电机的应用构成了几个独特的挑战,例如缺乏房地产标签。在本文中,我们突出了这些挑战,并提出了一种生成的建模方法,该方法利用预先训练的深度自动化器和循环技术的条件生成。在主题专家的帮助下评估了拟议方法的有效性,表明在创建新型光酸生成器之外的应用方法的承诺。
translated by 谷歌翻译
We report a method to convert discrete representations of molecules to and from a multidimensional continuous representation. This model allows us to generate new molecules for efficient exploration and optimization through open-ended spaces of chemical compounds.
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
在药物发现中,分子优化是在所需药物性质方面将药物候选改变为更好的阶梯。随着近期人工智能的进展,传统上的体外过程越来越促进了Silico方法。我们以硅方法提出了一种创新的,以通过深生成模型制定分子并制定问题,以便产生优化的分子图。我们的生成模型遵循基于片段的药物设计的关键思想,并通过修改其小碎片来优化分子。我们的模型了解如何识别待优化的碎片以及如何通过学习具有良好和不良性质的分子的差异来修改此类碎片。在优化新分子时,我们的模型将学习信号应用于在片段的预测位置解码优化的片段。我们还将多个这样的模型构造成管道,使得管道中的每个模型能够优化一个片段,因此整个流水线能够在需要时改变多个分子片段。我们将我们的模型与基准数据集的其他最先进的方法进行比较,并证明我们的方法在中等分子相似度约束下具有超过80%的性质改善,在高分子相似度约束下具有超过80%的财产改善。 。
translated by 谷歌翻译
发现更适合特定目的的新材料是提高人类生活质量的重要问题。这里,提出了一种神经网络,其建议基于对化学语言的深刻理解符合一些所需条件的神经网络(生成的化学变压器,GCT)。 GCT中的注意机制允许更深入地了解超出化学语言本身的局限性的分子结构,这使得语义不连续性稀疏地对角色造成了注意力。通过定量评估所生成的分子的质量,研究了语言模型对逆分子设计问题的重要性。 GCT产生高度现实的化学串,满足化学和语言语法规则。从生成的字符串解析的分子同时满足多个目标属性并因单个条件集而变化。通过加速所需物质发现的过程,这些进展将有助于提高人类生活质量。
translated by 谷歌翻译
We seek to automate the design of molecules based on specific chemical properties. In computational terms, this task involves continuous embedding and generation of molecular graphs. Our primary contribution is the direct realization of molecular graphs, a task previously approached by generating linear SMILES strings instead of graphs. Our junction tree variational autoencoder generates molecular graphs in two phases, by first generating a tree-structured scaffold over chemical substructures, and then combining them into a molecule with a graph message passing network. This approach allows us to incrementally expand molecules while maintaining chemical validity at every step. We evaluate our model on multiple tasks ranging from molecular generation to optimization. Across these tasks, our model outperforms previous state-of-the-art baselines by a significant margin.
translated by 谷歌翻译
通过生成模型生成具有特定化学和生物学特性的新分子已成为药物发现的有希望的方向。但是,现有的方法需要大型数据集进行广泛的培训/微调,在现实世界中通常无法使用。在这项工作中,我们提出了一个新的基于检索的框架,用于可控分子生成。我们使用一系列的示例分子,即(部分)满足设计标准的分子,以引导预先训练的生成模型转向满足给定设计标准的合成分子。我们设计了一种检索机制,该机制将示例分子与输入分子融合在一起,该分子受到一个新的自我监督目标训练,该目标可以预测输入分子的最近邻居。我们还提出了一个迭代改进过程,以动态更新生成的分子和检索数据库,以更好地泛化。我们的方法不可知生成模型,不需要特定于任务的微调。关于从简单设计标准到设计与SARS-COV-2主蛋白酶结合的铅化合物的具有挑战性的现实世界情景的各种任务,我们证明了我们的方法外推出了远远超出检索数据库,并且比检索数据库更高,并且比更高的性能和更广泛的适用性以前的方法。
translated by 谷歌翻译
有效地发现满足各种性能要求的分子可以显着受益药物发现行业。由于搜索整个化学空间是不可行的,因此最近的作品采用了用于目标定向分子产生的生成模型。它们倾向于利用迭代过程,优化每次迭代时的分子发生模型的参数,以产生有望的分子以进一步验证。利用评估来评估每次迭代的产生的分子,为模型优化提供方向。然而,最先前的作品需要大量的昂贵且耗时的评估,例如湿法实验和分子动态模拟,导致缺乏实用性。为了减少迭代过程中的评估,我们提出了一种在潜在空间中的成本效益的演化策略,其优化了分子潜在载波。我们采用预先训练的分子生成模型来映射潜伏和观察空间,利用大规模未标记的分子来学习化学知识。为了进一步减少昂贵的评估数量,我们将一个筛选器预先介绍为评估的代理。我们对多种优化任务进行了广泛的实验,将建议的框架与几种先进技术进行比较,表明所提出的框架更好地实现了更好的评估。
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译
现代生成型号在包括图像或文本生成和化学分子建模的各种任务中获得优异的品质。然而,现有方法往往缺乏通过所要求的属性产生实例的基本能力,例如照片中的人的年龄或产生的分子的重量。包含此类额外的调节因子将需要重建整个架构并从头开始优化参数。此外,难以解除选定的属性,以便仅在将其他属性中执行不变的同时执行编辑。为了克服这些限制,我们提出插件(插件生成网络),这是一种简单而有效的生成技术,可以用作预先训练的生成模型的插件。我们的方法背后的想法是使用基于流的模块将纠缠潜在的潜在表示转换为多维空间,其中每个属性的值被建模为独立的一维分布。因此,插件可以生成具有所需属性的新样本,以及操作现有示例的标记属性。由于潜在代表的解散,我们甚至能够在数据集中的稀有或看不见的属性组合生成样本,例如具有灰色头发的年轻人,有妆容的男性或胡须的女性。我们将插入与GaN和VAE模型组合并将其应用于图像和化学分子建模的条件生成和操纵。实验表明,插件保留了骨干型号的质量,同时添加控制标记属性值的能力。
translated by 谷歌翻译
需要产生具有所需特性的有效分子的分子产生是基本但具有挑战性的任务。近年来,目睹了原子级自动回归模型的快速发展,这通常构造在添加原子级节点和边缘的顺序动作之后的图表。然而,这些原子级模型忽略了高频子结构,其不仅捕获分子中原子组合的规律而且通常与所需的化学性质相关,因此可以是用于产生高质量分子的次优。在本文中,我们提出了一种方法来自动发现这种常见的子结构,从给定的分子图中呼叫图形件。我们还提出了一种基于图形件产生分子图的图片变形AutoEncoder(GP-VAE)。实验表明,我们的GP-VAE模型不仅可以实现更好的性能,而不是用于分发 - 学习,属性优化和约束性能优化任务,但也是计算效率的最先进的基线。
translated by 谷歌翻译
我们解决了受控生成小分子的任务,该任务需要在某些约束(例如,与参考分子相似)下找到具有所需特性的新分子。在这里,我们介绍了Molmim,这是一种用于学习信息丰富且聚集的潜在空间的小分子药物发现的概率自动编码器。 Molmim通过共同信息机(MIM)学习训练,并提供可变长度微笑字符串的固定长度表示。由于编码器模型可以通过无效样品的``孔''来学习表示形式,因此我们在这里提出了训练程序的新型扩展,该过程促进了促进密集的潜在空间,并允许模型从潜在代码的随机扰动中采样有效分子。我们提供了Molmim与几个可变大小和固定尺寸的编码器模型的彻底比较,这表明了Molmim的上一代,如有效性,独特性和新颖性而言。然后,我们利用CMA-E,一种天真的黑盒和无梯度的搜索算法,是Molmim的潜在空间来实现属性引导分子优化的任务。我们实现了最新的单个属性优化任务以及多目标优化的具有挑战性的任务,从而提高了先前的成功率SOTA超过5 \%。我们将强有力的结果归因于莫尔米姆的潜在表示,这些表示在潜在空间中聚集了相似的分子,而CMA-ES通常用作基线优化方法。我们还证明了莫尔米姆在计算有限的制度中有利,使其成为这种情况的有吸引力的模型。
translated by 谷歌翻译
Machine learning methods have been used to accelerate the molecule optimization process. However, efficient search for optimized molecules satisfying several properties with scarce labeled data remains a challenge for machine learning molecule optimization. In this study, we propose MOMO, a multi-objective molecule optimization framework to address the challenge by combining learning of chemical knowledge with Pareto-based multi-objective evolutionary search. To learn chemistry, it employs a self-supervised codec to construct an implicit chemical space and acquire the continues representation of molecules. To explore the established chemical space, MOMO uses multi-objective evolution to comprehensively and efficiently search for similar molecules with multiple desirable properties. We demonstrate the high performance of MOMO on four multi-objective property and similarity optimization tasks, and illustrate the search capability of MOMO through case studies. Remarkably, our approach significantly outperforms previous approaches in optimizing three objectives simultaneously. The results show the optimization capability of MOMO, suggesting to improve the success rate of lead molecule optimization.
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译
Variational autoencoder (VAE) is a popular method for drug discovery and there had been a great deal of architectures and pipelines proposed to improve its performance. But the VAE model itself suffers from deficiencies such as poor manifold recovery when data lie on low-dimensional manifold embedded in higher dimensional ambient space and they manifest themselves in each applications differently. The consequences of it in drug discovery is somewhat under-explored. In this paper, we study how to improve the similarity of the data generated via VAE and the training dataset by improving manifold recovery via a 2-stage VAE where the second stage VAE is trained on the latent space of the first one. We experimentally evaluated our approach using the ChEMBL dataset as well as a polymer datasets. In both dataset, the 2-stage VAE method is able to improve the property statistics significantly from a pre-existing method.
translated by 谷歌翻译
图表无处不在地编码许多域中现实世界对象的关系信息。图形生成的目的是从类似于观察到的图形的分布中生成新图形,由于深度学习模型的最新进展,人们的关注越来越大。在本文中,我们对现有的图形生成文献进行了全面综述,从各种新兴方法到其广泛的应用领域。具体来说,我们首先提出了深图生成的问题,并与几个相关的图形学习任务讨论了它的差异。其次,我们根据模型架构将最新方法分为三类,并总结其生成策略。第三,我们介绍了深图生成的三个关键应用领域。最后,我们重点介绍了深图生成的未来研究中的挑战和机遇。
translated by 谷歌翻译
基于深度学习的分子建模的最新进步令人兴奋地加速硅药发现。可获得血清的生成模型,构建原子原子和键合或逐片键的分子。然而,许多药物发现项目需要固定的支架以存在于所生成的分子中,并纳入该约束仅探讨了该约束。在这里,我们提出了一种基于图形的模型,其自然地支持支架作为生成过程的初始种子,这是可能的,因为它不调节在发电历史上。我们的实验表明,Moler与最先进的方法进行了相当的方法,在无约会的分子优化任务上,并且在基于脚手架的任务上优于它们,而不是比现有方法从培训和样本更快的数量级。此外,我们展示了许多看似小设计选择对整体性能的影响。
translated by 谷歌翻译
深度生成模型吸引了具有所需特性的分子设计的极大关注。大多数现有模型通过顺序添加原子来产生分子。这通常会使产生的分子与目标性能和低合成可接近性较少。诸如官能团的分子片段与分子性质和合成可接近的比原子更密切相关。在此,我们提出了一种基于片段的分子发生模型,其通过顺序向任何给定的起始分子依次向任何给定的起始分子添加分子片段来设计具有靶性质的新分子。我们模型的一个关键特征是属性控制和片段类型方面的高概括能力。通过以自动回归方式学习各个片段对目标属性的贡献来实现前者。对于后者,我们使用深神经网络,其从两个分子的嵌入载体中预测两个分子的键合概率作为输入。在用金砖石分解方法制备片段文库的同时隐式考虑所生成的分子的高合成可用性。我们表明该模型可以以高成功率同时控制多个目标性质的分子。即使在培训数据很少的财产范围内,它也与看不见的片段同样很好地工作,验证高概括能力。作为一种实际应用,我们证明,在对接得分方面,该模型可以产生具有高结合亲和力的潜在抑制剂,其抗对接得分的3CL-COV-2。
translated by 谷歌翻译