在本文中,我们通过变异自动编码器(VAE)研究了基于弦的分子生成的问题,这些问题已经为人工智能的各种任务提供了一种流行的生成方法。我们提出了一个简单而有效的想法,以提高VAE的任务绩效。我们的主要思想是在共享单个编码器时维护多个解码器,即它是一种合奏技术。在这里,我们首先发现,由于合奏解码器的偏见在其自动回归推理下严重增加,因此每个解码器都可能没有有效。为了维持集合模型的较小偏见和差异,我们提出的技术是两倍:(a)为每个解码器采样不同的潜在变量(从共享编码器提供的估计平均值和差异)来鼓励解码器的多元化特征(b)在培训期间使用协作损失,以控制使用不同的潜在变量的解码器的汇总质量。在我们的实验中,提出的VAE模型特别表现出色,可从域外分布产生样品。
translated by 谷歌翻译
我们解决了受控生成小分子的任务,该任务需要在某些约束(例如,与参考分子相似)下找到具有所需特性的新分子。在这里,我们介绍了Molmim,这是一种用于学习信息丰富且聚集的潜在空间的小分子药物发现的概率自动编码器。 Molmim通过共同信息机(MIM)学习训练,并提供可变长度微笑字符串的固定长度表示。由于编码器模型可以通过无效样品的``孔''来学习表示形式,因此我们在这里提出了训练程序的新型扩展,该过程促进了促进密集的潜在空间,并允许模型从潜在代码的随机扰动中采样有效分子。我们提供了Molmim与几个可变大小和固定尺寸的编码器模型的彻底比较,这表明了Molmim的上一代,如有效性,独特性和新颖性而言。然后,我们利用CMA-E,一种天真的黑盒和无梯度的搜索算法,是Molmim的潜在空间来实现属性引导分子优化的任务。我们实现了最新的单个属性优化任务以及多目标优化的具有挑战性的任务,从而提高了先前的成功率SOTA超过5 \%。我们将强有力的结果归因于莫尔米姆的潜在表示,这些表示在潜在空间中聚集了相似的分子,而CMA-ES通常用作基线优化方法。我们还证明了莫尔米姆在计算有限的制度中有利,使其成为这种情况的有吸引力的模型。
translated by 谷歌翻译
Variational autoencoder (VAE) is a popular method for drug discovery and there had been a great deal of architectures and pipelines proposed to improve its performance. But the VAE model itself suffers from deficiencies such as poor manifold recovery when data lie on low-dimensional manifold embedded in higher dimensional ambient space and they manifest themselves in each applications differently. The consequences of it in drug discovery is somewhat under-explored. In this paper, we study how to improve the similarity of the data generated via VAE and the training dataset by improving manifold recovery via a 2-stage VAE where the second stage VAE is trained on the latent space of the first one. We experimentally evaluated our approach using the ChEMBL dataset as well as a polymer datasets. In both dataset, the 2-stage VAE method is able to improve the property statistics significantly from a pre-existing method.
translated by 谷歌翻译
优化所需特性的化学分子在于药物发育的核心。尽管深度生成模型和加强学习方法进行了初步成功,但这些方法主要受到预定义属性函数或通过手动预编译的原始和优化分子的并行数据的限制。在本文中,我们首次制定了作为样式转移问题的分子优化,并提出了一种新的生成模型,可以通过对抗训练策略自动学习两组非并行数据之间的内部差异。我们的模型通过组合辅助引导变分自身额和生成流动技术,可以通过组合辅助引导变分自动化器和经常性流动技术来保存分子内容和分子特性的优化。两种分子优化任务的实验,毒性修饰和合成性改进,证明我们的模型显着优于几种最先进的方法。
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译
发现更适合特定目的的新材料是提高人类生活质量的重要问题。这里,提出了一种神经网络,其建议基于对化学语言的深刻理解符合一些所需条件的神经网络(生成的化学变压器,GCT)。 GCT中的注意机制允许更深入地了解超出化学语言本身的局限性的分子结构,这使得语义不连续性稀疏地对角色造成了注意力。通过定量评估所生成的分子的质量,研究了语言模型对逆分子设计问题的重要性。 GCT产生高度现实的化学串,满足化学和语言语法规则。从生成的字符串解析的分子同时满足多个目标属性并因单个条件集而变化。通过加速所需物质发现的过程,这些进展将有助于提高人类生活质量。
translated by 谷歌翻译
作为药物开发的必要过程,找到可以选择性地与特定蛋白质结合的药物化合物是高度挑战性和昂贵的。代表药物目标相互作用(DTI)强度的药物目标亲和力(DTA)在过去十年中在DTI预测任务中发挥了重要作用。尽管已将深度学习应用于与DTA相关的研究,但现有的解决方案忽略了分子亚结构之间的基本相关性,在分子代表学习药物化合物分子/蛋白质靶标之间。此外,传统方法缺乏DTA预测过程的解释性。这导致缺少分子间相互作用的特征信息,从而影响预测性能。因此,本文提出了一种使用交互式学习和自动编码器机制的DTA预测方法。提出的模型增强了通过药物/蛋白质分子表示学习模块捕获单个分子序列的特征信息的相应能力,并通过交互式信息学习模块补充了分子序列对之间的信息相互作用。 DTA值预测模块融合了药物目标对相互作用信息,以输出DTA的预测值。此外,从理论上讲,本文提出的方法最大化了DTA预测模型联合分布的证据下限(ELBO),从而增强了实际值和预测值之间概率分布的一致性。实验结果证实了相互变压器 - 药物目标亲和力(MT-DTA)的性能比其他比较方法更好。
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
We report a method to convert discrete representations of molecules to and from a multidimensional continuous representation. This model allows us to generate new molecules for efficient exploration and optimization through open-ended spaces of chemical compounds.
translated by 谷歌翻译
深度生成模型吸引了具有所需特性的分子设计的极大关注。大多数现有模型通过顺序添加原子来产生分子。这通常会使产生的分子与目标性能和低合成可接近性较少。诸如官能团的分子片段与分子性质和合成可接近的比原子更密切相关。在此,我们提出了一种基于片段的分子发生模型,其通过顺序向任何给定的起始分子依次向任何给定的起始分子添加分子片段来设计具有靶性质的新分子。我们模型的一个关键特征是属性控制和片段类型方面的高概括能力。通过以自动回归方式学习各个片段对目标属性的贡献来实现前者。对于后者,我们使用深神经网络,其从两个分子的嵌入载体中预测两个分子的键合概率作为输入。在用金砖石分解方法制备片段文库的同时隐式考虑所生成的分子的高合成可用性。我们表明该模型可以以高成功率同时控制多个目标性质的分子。即使在培训数据很少的财产范围内,它也与看不见的片段同样很好地工作,验证高概括能力。作为一种实际应用,我们证明,在对接得分方面,该模型可以产生具有高结合亲和力的潜在抑制剂,其抗对接得分的3CL-COV-2。
translated by 谷歌翻译
现代生成型号在包括图像或文本生成和化学分子建模的各种任务中获得优异的品质。然而,现有方法往往缺乏通过所要求的属性产生实例的基本能力,例如照片中的人的年龄或产生的分子的重量。包含此类额外的调节因子将需要重建整个架构并从头开始优化参数。此外,难以解除选定的属性,以便仅在将其他属性中执行不变的同时执行编辑。为了克服这些限制,我们提出插件(插件生成网络),这是一种简单而有效的生成技术,可以用作预先训练的生成模型的插件。我们的方法背后的想法是使用基于流的模块将纠缠潜在的潜在表示转换为多维空间,其中每个属性的值被建模为独立的一维分布。因此,插件可以生成具有所需属性的新样本,以及操作现有示例的标记属性。由于潜在代表的解散,我们甚至能够在数据集中的稀有或看不见的属性组合生成样本,例如具有灰色头发的年轻人,有妆容的男性或胡须的女性。我们将插入与GaN和VAE模型组合并将其应用于图像和化学分子建模的条件生成和操纵。实验表明,插件保留了骨干型号的质量,同时添加控制标记属性值的能力。
translated by 谷歌翻译
通过生成模型生成具有特定化学和生物学特性的新分子已成为药物发现的有希望的方向。但是,现有的方法需要大型数据集进行广泛的培训/微调,在现实世界中通常无法使用。在这项工作中,我们提出了一个新的基于检索的框架,用于可控分子生成。我们使用一系列的示例分子,即(部分)满足设计标准的分子,以引导预先训练的生成模型转向满足给定设计标准的合成分子。我们设计了一种检索机制,该机制将示例分子与输入分子融合在一起,该分子受到一个新的自我监督目标训练,该目标可以预测输入分子的最近邻居。我们还提出了一个迭代改进过程,以动态更新生成的分子和检索数据库,以更好地泛化。我们的方法不可知生成模型,不需要特定于任务的微调。关于从简单设计标准到设计与SARS-COV-2主蛋白酶结合的铅化合物的具有挑战性的现实世界情景的各种任务,我们证明了我们的方法外推出了远远超出检索数据库,并且比检索数据库更高,并且比更高的性能和更广泛的适用性以前的方法。
translated by 谷歌翻译
单步反转合作是逆合合成计划的基石,这是计算机辅助药物发现的至关重要的任务。单步回合合成的目的是确定导致一个反应中靶产物合成的可能反应物。通过将有机分子表示为规范串,现有的基于序列的折叠方法将乘积 - 反应性逆合合成视为序列到序列翻译问题。但是,由于确定性推断,他们中的大多数人都难以识别所需产物的多种化学反应,这与以下事实相矛盾:许多化合物可以通过各种反应类型与不同的反应物组成。在这项工作中,我们旨在增加反应多样性并使用离散的潜在变量产生各种反应物。我们提出了一种基于序列的新方法,即RetrodVcae,该方法将条件变分自动化码器纳入单步回逆转录中,并将离散的潜在变量与生成过程相关联。具体而言,RetroDVCAE使用Gumbel-Softmax分布来近似于潜在反应的分类分布,并生成与变异解码器的多组反应物。实验表明,RetroDVCAE在基准数据集和自制数据集上的最先进基准均优于最先进的基线。定量和定性结果都表明,转化vcae可以在反应类型上对多模式分布进行建模,并产生各种反应物候选物。
translated by 谷歌翻译
光酸产生剂(PAG)是在暴露于光线时释放酸($ H ^ + $离子)的化合物。这些化合物是用于制造半导体逻辑和存储芯片的光刻工艺的关键组分。半导体需求的指数增加突出了发现新型光酸发生器的需求。虽然De Novo分子设计使用深度生成模型被广泛用于药物发现和材料设计,但其在创建新颖的光酸发电机的应用构成了几个独特的挑战,例如缺乏房地产标签。在本文中,我们突出了这些挑战,并提出了一种生成的建模方法,该方法利用预先训练的深度自动化器和循环技术的条件生成。在主题专家的帮助下评估了拟议方法的有效性,表明在创建新型光酸生成器之外的应用方法的承诺。
translated by 谷歌翻译
需要产生具有所需特性的有效分子的分子产生是基本但具有挑战性的任务。近年来,目睹了原子级自动回归模型的快速发展,这通常构造在添加原子级节点和边缘的顺序动作之后的图表。然而,这些原子级模型忽略了高频子结构,其不仅捕获分子中原子组合的规律而且通常与所需的化学性质相关,因此可以是用于产生高质量分子的次优。在本文中,我们提出了一种方法来自动发现这种常见的子结构,从给定的分子图中呼叫图形件。我们还提出了一种基于图形件产生分子图的图片变形AutoEncoder(GP-VAE)。实验表明,我们的GP-VAE模型不仅可以实现更好的性能,而不是用于分发 - 学习,属性优化和约束性能优化任务,但也是计算效率的最先进的基线。
translated by 谷歌翻译
高通量药物筛查测定法的最新出现引发了机器学习方法的密集开发,包括预测癌细胞系对抗癌药物的敏感性的模型,以及用于生成潜在药物候选者的方法。然而,尚未全面探索具有特定特性的化合物产生具有特定特性和同时建模其功效的概念。为了满足这一需求,我们提出了Vadeers,这是一种基于各种自动编码器的药物功效估算推荐系统。化合物的产生是由具有半监视的高斯混合模型(GMM)的新型自动编码器进行的。先验定义了在潜在空间中的聚类,其中簇与特定的药物特性相关联。此外,Vadeers配备了单元线自动编码器和灵敏度预测网络。该模型结合了抗癌药物的微笑弦表示的数据,它们对蛋白激酶的抑制作用,细胞系生物学特征以及细胞系对药物的敏感性的测量。评估的Vadeers变体在真实和预测的药物敏感性估计之间达到了较高的R = 0.87 Pearson相关性。我们以一种方式训练GMM先验,使潜在空间中的簇通过其抑制作用对应于药物的预计聚类。我们表明,学到的潜在表示和新生成的数据点准确地反映了给定的聚类。总而言之,Vadeers提供了一种全面的药物和细胞系特性模型及其之间的关系,以及引导的新型化合物。
translated by 谷歌翻译
We seek to automate the design of molecules based on specific chemical properties. In computational terms, this task involves continuous embedding and generation of molecular graphs. Our primary contribution is the direct realization of molecular graphs, a task previously approached by generating linear SMILES strings instead of graphs. Our junction tree variational autoencoder generates molecular graphs in two phases, by first generating a tree-structured scaffold over chemical substructures, and then combining them into a molecule with a graph message passing network. This approach allows us to incrementally expand molecules while maintaining chemical validity at every step. We evaluate our model on multiple tasks ranging from molecular generation to optimization. Across these tasks, our model outperforms previous state-of-the-art baselines by a significant margin.
translated by 谷歌翻译
图表无处不在地编码许多域中现实世界对象的关系信息。图形生成的目的是从类似于观察到的图形的分布中生成新图形,由于深度学习模型的最新进展,人们的关注越来越大。在本文中,我们对现有的图形生成文献进行了全面综述,从各种新兴方法到其广泛的应用领域。具体来说,我们首先提出了深图生成的问题,并与几个相关的图形学习任务讨论了它的差异。其次,我们根据模型架构将最新方法分为三类,并总结其生成策略。第三,我们介绍了深图生成的三个关键应用领域。最后,我们重点介绍了深图生成的未来研究中的挑战和机遇。
translated by 谷歌翻译
有效地发现满足各种性能要求的分子可以显着受益药物发现行业。由于搜索整个化学空间是不可行的,因此最近的作品采用了用于目标定向分子产生的生成模型。它们倾向于利用迭代过程,优化每次迭代时的分子发生模型的参数,以产生有望的分子以进一步验证。利用评估来评估每次迭代的产生的分子,为模型优化提供方向。然而,最先前的作品需要大量的昂贵且耗时的评估,例如湿法实验和分子动态模拟,导致缺乏实用性。为了减少迭代过程中的评估,我们提出了一种在潜在空间中的成本效益的演化策略,其优化了分子潜在载波。我们采用预先训练的分子生成模型来映射潜伏和观察空间,利用大规模未标记的分子来学习化学知识。为了进一步减少昂贵的评估数量,我们将一个筛选器预先介绍为评估的代理。我们对多种优化任务进行了广泛的实验,将建议的框架与几种先进技术进行比较,表明所提出的框架更好地实现了更好的评估。
translated by 谷歌翻译