Variational autoencoder (VAE) is a popular method for drug discovery and there had been a great deal of architectures and pipelines proposed to improve its performance. But the VAE model itself suffers from deficiencies such as poor manifold recovery when data lie on low-dimensional manifold embedded in higher dimensional ambient space and they manifest themselves in each applications differently. The consequences of it in drug discovery is somewhat under-explored. In this paper, we study how to improve the similarity of the data generated via VAE and the training dataset by improving manifold recovery via a 2-stage VAE where the second stage VAE is trained on the latent space of the first one. We experimentally evaluated our approach using the ChEMBL dataset as well as a polymer datasets. In both dataset, the 2-stage VAE method is able to improve the property statistics significantly from a pre-existing method.
translated by 谷歌翻译
We report a method to convert discrete representations of molecules to and from a multidimensional continuous representation. This model allows us to generate new molecules for efficient exploration and optimization through open-ended spaces of chemical compounds.
translated by 谷歌翻译
发现更适合特定目的的新材料是提高人类生活质量的重要问题。这里,提出了一种神经网络,其建议基于对化学语言的深刻理解符合一些所需条件的神经网络(生成的化学变压器,GCT)。 GCT中的注意机制允许更深入地了解超出化学语言本身的局限性的分子结构,这使得语义不连续性稀疏地对角色造成了注意力。通过定量评估所生成的分子的质量,研究了语言模型对逆分子设计问题的重要性。 GCT产生高度现实的化学串,满足化学和语言语法规则。从生成的字符串解析的分子同时满足多个目标属性并因单个条件集而变化。通过加速所需物质发现的过程,这些进展将有助于提高人类生活质量。
translated by 谷歌翻译
优化所需特性的化学分子在于药物发育的核心。尽管深度生成模型和加强学习方法进行了初步成功,但这些方法主要受到预定义属性函数或通过手动预编译的原始和优化分子的并行数据的限制。在本文中,我们首次制定了作为样式转移问题的分子优化,并提出了一种新的生成模型,可以通过对抗训练策略自动学习两组非并行数据之间的内部差异。我们的模型通过组合辅助引导变分自身额和生成流动技术,可以通过组合辅助引导变分自动化器和经常性流动技术来保存分子内容和分子特性的优化。两种分子优化任务的实验,毒性修饰和合成性改进,证明我们的模型显着优于几种最先进的方法。
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
机器学习的最新进展已使化学特性的准确预测。但是,由于实验上标记化学特性的昂贵性质,该领域中有监督的机器学习方法通常会遇到标签稀缺问题。这项研究修改了最先进的分子生成方法 - 连接树变异自动编码器(JT-VAE),以促进对化学性质预测的半监督学习。此外,我们强迫一些潜在变量承担一致和可解释的目的,例如通过这种部分监督代表毒性。我们利用JT-VAE架构来学习一种可解释的表示形式,适用于使用部分标记的数据集,从分子属性预测到有条件的分子生成的任务最佳。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译
分子的深度生成模型在相关数据集上培训,这些模型培训的流行度非常受欢迎,这些模型用于通过化学空间进行搜索。用于新型功能化合物的逆设计的生成模型的下游效用取决于它们学习分子训练分布的能力。最简单的示例是一种语言模型,采用经常性神经网络的形式,并使用串表示生成分子。更复杂的是图形生成模型,其顺序地构建分子图,通常实现最先进的结果。然而,最近的工作表明,语言模型比曾经的想法更具能力,特别是在低数据制度中。在这项工作中,我们调查了简单语言模型学习分子分布的能力。为此目的,我们通过编译特别复杂的分子分布来介绍几个具有挑战性的生成建模任务。在每个任务上,与两个广泛使用的图形生成模型相比,我们评估语言模型的能力。结果表明,语言模型是强大的生成模型,能够熟练地学习复杂的分子分配 - 并产生比图形模型更好的性能。语言模型可以准确地产生:锌15,多模态分子分布以及Pubchem中最大分子的最高评分罚款的分布。
translated by 谷歌翻译
图形结构数据的深层生成模型为化学合成问题提供了一个新的角度:通过优化直接生成分子图的可区分模型,可以在化学结构的离散和广阔空间中侧键入昂贵的搜索程序。我们介绍了Molgan,这是一种用于小分子图的隐式,无似然生成模型,它规避了对以前基于可能性的方法的昂贵图形匹配程序或节点订购启发式方法的需求。我们的方法适应生成对抗网络(GAN)直接在图形结构数据上操作。我们将方法与增强学习目标结合起来,以鼓励具有特定所需化学特性的分子产生。在QM9化学数据库的实验中,我们证明了我们的模型能够生成接近100%有效化合物。莫尔根(Molgan)与最近使用基于字符串的分子表示(微笑)表示的提案和基于似然的方法直接生成图的方法进行了比较。 https://github.com/nicola-decao/molgan上的代码
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译
光酸产生剂(PAG)是在暴露于光线时释放酸($ H ^ + $离子)的化合物。这些化合物是用于制造半导体逻辑和存储芯片的光刻工艺的关键组分。半导体需求的指数增加突出了发现新型光酸发生器的需求。虽然De Novo分子设计使用深度生成模型被广泛用于药物发现和材料设计,但其在创建新颖的光酸发电机的应用构成了几个独特的挑战,例如缺乏房地产标签。在本文中,我们突出了这些挑战,并提出了一种生成的建模方法,该方法利用预先训练的深度自动化器和循环技术的条件生成。在主题专家的帮助下评估了拟议方法的有效性,表明在创建新型光酸生成器之外的应用方法的承诺。
translated by 谷歌翻译
我们解决了受控生成小分子的任务,该任务需要在某些约束(例如,与参考分子相似)下找到具有所需特性的新分子。在这里,我们介绍了Molmim,这是一种用于学习信息丰富且聚集的潜在空间的小分子药物发现的概率自动编码器。 Molmim通过共同信息机(MIM)学习训练,并提供可变长度微笑字符串的固定长度表示。由于编码器模型可以通过无效样品的``孔''来学习表示形式,因此我们在这里提出了训练程序的新型扩展,该过程促进了促进密集的潜在空间,并允许模型从潜在代码的随机扰动中采样有效分子。我们提供了Molmim与几个可变大小和固定尺寸的编码器模型的彻底比较,这表明了Molmim的上一代,如有效性,独特性和新颖性而言。然后,我们利用CMA-E,一种天真的黑盒和无梯度的搜索算法,是Molmim的潜在空间来实现属性引导分子优化的任务。我们实现了最新的单个属性优化任务以及多目标优化的具有挑战性的任务,从而提高了先前的成功率SOTA超过5 \%。我们将强有力的结果归因于莫尔米姆的潜在表示,这些表示在潜在空间中聚集了相似的分子,而CMA-ES通常用作基线优化方法。我们还证明了莫尔米姆在计算有限的制度中有利,使其成为这种情况的有吸引力的模型。
translated by 谷歌翻译
分子的产生,尤其是从头开始产生3D分子几何形状(即3D \ textit {de Novo} Generation)已成为药物设计中的一项基本任务。现有的基于扩散的3D分子生成方法可能会遭受性能不令人满意的性能,尤其是在产生大分子时。同时,产生的分子缺乏足够的多样性。本文提出了一个新的扩散模型,以应对这两个挑战。首先,原子关系不在分子的3D点云表示中。因此,现有生成模型很难捕获潜在的原子间力和丰富的局部约束。为了应对这一挑战,我们建议增强潜在的原子间力,并进一步涉及双重模棱两可的编码器,以编码不同强度的原子质力。其次,现有的基于扩散的模型基本上是沿数据密度梯度的几何元素。这样的过程在Langevin动力学的中间步骤中缺乏足够的探索。为了解决这个问题,我们在每个扩散/反向步骤中引入了一个分布控制变量,以实施彻底的探索并进一步改善发电多样性。对多个基准测试的广泛实验表明,所提出的模型明显优于无条件和条件生成任务的现有方法。我们还进行案例研究以帮助了解产生分子的理化特性。
translated by 谷歌翻译
图表无处不在地编码许多域中现实世界对象的关系信息。图形生成的目的是从类似于观察到的图形的分布中生成新图形,由于深度学习模型的最新进展,人们的关注越来越大。在本文中,我们对现有的图形生成文献进行了全面综述,从各种新兴方法到其广泛的应用领域。具体来说,我们首先提出了深图生成的问题,并与几个相关的图形学习任务讨论了它的差异。其次,我们根据模型架构将最新方法分为三类,并总结其生成策略。第三,我们介绍了深图生成的三个关键应用领域。最后,我们重点介绍了深图生成的未来研究中的挑战和机遇。
translated by 谷歌翻译
自我监督的神经语言模型最近在有机分子和蛋白质序列的生成设计中发现了广泛的应用,以及用于下游结构分类和功能预测的表示学习。但是,大多数现有的分子设计深度学习模型通常都需要一个大数据集并具有黑盒架构,这使得很难解释其设计逻辑。在这里,我们提出了生成分子变压器(GMTRANSFORMER),这是一种用于分子生成设计的概率神经网络模型。我们的模型建立在最初用于文本处理的空白填充语言模型上,该模型在学习具有高质量生成,可解释性和数据效率的“分子语法”方面具有独特的优势。与其他基线相比,我们的模型在摩西数据集上的基准测试后获得了高新颖性和SCAF。概率生成步骤具有修补分子设计的潜力,因为它们有能力推荐如何通过学习的隐式分子化学指导,并通过解释来修饰现有分子。可以在https://github.com/usccolumbia/gmtransformer上自由访问源代码和数据集
translated by 谷歌翻译
有效地发现满足各种性能要求的分子可以显着受益药物发现行业。由于搜索整个化学空间是不可行的,因此最近的作品采用了用于目标定向分子产生的生成模型。它们倾向于利用迭代过程,优化每次迭代时的分子发生模型的参数,以产生有望的分子以进一步验证。利用评估来评估每次迭代的产生的分子,为模型优化提供方向。然而,最先前的作品需要大量的昂贵且耗时的评估,例如湿法实验和分子动态模拟,导致缺乏实用性。为了减少迭代过程中的评估,我们提出了一种在潜在空间中的成本效益的演化策略,其优化了分子潜在载波。我们采用预先训练的分子生成模型来映射潜伏和观察空间,利用大规模未标记的分子来学习化学知识。为了进一步减少昂贵的评估数量,我们将一个筛选器预先介绍为评估的代理。我们对多种优化任务进行了广泛的实验,将建议的框架与几种先进技术进行比较,表明所提出的框架更好地实现了更好的评估。
translated by 谷歌翻译
In molecular research, simulation \& design of molecules are key areas with significant implications for drug development, material science, and other fields. Current classical computational power falls inadequate to simulate any more than small molecules, let alone protein chains on hundreds of peptide. Therefore these experiment are done physically in wet-lab, but it takes a lot of time \& not possible to examine every molecule due to the size of the search area, tens of billions of dollars are spent every year in these research experiments. Molecule simulation \& design has lately advanced significantly by machine learning models, A fresh perspective on the issue of chemical synthesis is provided by deep generative models for graph-structured data. By optimising differentiable models that produce molecular graphs directly, it is feasible to avoid costly search techniques in the discrete and huge space of chemical structures. But these models also suffer from computational limitations when dimensions become huge and consume huge amount of resources. Quantum Generative machine learning in recent years have shown some empirical results promising significant advantages over classical counterparts.
translated by 谷歌翻译
在本文中,我们通过变异自动编码器(VAE)研究了基于弦的分子生成的问题,这些问题已经为人工智能的各种任务提供了一种流行的生成方法。我们提出了一个简单而有效的想法,以提高VAE的任务绩效。我们的主要思想是在共享单个编码器时维护多个解码器,即它是一种合奏技术。在这里,我们首先发现,由于合奏解码器的偏见在其自动回归推理下严重增加,因此每个解码器都可能没有有效。为了维持集合模型的较小偏见和差异,我们提出的技术是两倍:(a)为每个解码器采样不同的潜在变量(从共享编码器提供的估计平均值和差异)来鼓励解码器的多元化特征(b)在培训期间使用协作损失,以控制使用不同的潜在变量的解码器的汇总质量。在我们的实验中,提出的VAE模型特别表现出色,可从域外分布产生样品。
translated by 谷歌翻译
这项工作引入了3D分子生成的扩散模型,该模型与欧几里得转化一样。我们的e(3)e象扩散模型(EDM)学会了通过均衡网络的扩散过程,该网络共同在连续(原子坐标)和分类特征(原子类型)上共同运行。此外,我们提供了一种概率分析,该分析使用我们的模型接受了分子的可能性计算。在实验上,所提出的方法显着优于先前关于生成样品质量和训练时效率的3D分子生成方法。
translated by 谷歌翻译