Learning the underlying distribution of molecular graphs and generating high-fidelity samples is a fundamental research problem in drug discovery and material science. However, accurately modeling distribution and rapidly generating novel molecular graphs remain crucial and challenging goals. To accomplish these goals, we propose a novel Conditional Diffusion model based on discrete Graph Structures (CDGS) for molecular graph generation. Specifically, we construct a forward graph diffusion process on both graph structures and inherent features through stochastic differential equations (SDE) and derive discrete graph structures as the condition for reverse generative processes. We present a specialized hybrid graph noise prediction model that extracts the global context and the local node-edge dependency from intermediate graph states. We further utilize ordinary differential equation (ODE) solvers for efficient graph sampling, based on the semi-linear structure of the probability flow ODE. Experiments on diverse datasets validate the effectiveness of our framework. Particularly, the proposed method still generates high-quality molecular graphs in a limited number of steps.
translated by 谷歌翻译
Graph generative models have broad applications in biology, chemistry and social science. However, modelling and understanding the generative process of graphs is challenging due to the discrete and high-dimensional nature of graphs, as well as permutation invariance to node orderings in underlying graph distributions. Current leading autoregressive models fail to capture the permutation invariance nature of graphs for the reliance on generation ordering and have high time complexity. Here, we propose a continuous-time generative diffusion process for permutation invariant graph generation to mitigate these issues. Specifically, we first construct a forward diffusion process defined by a stochastic differential equation (SDE), which smoothly converts graphs within the complex distribution to random graphs that follow a known edge probability. Solving the corresponding reverse-time SDE, graphs can be generated from newly sampled random graphs. To facilitate the reverse-time SDE, we newly design a position-enhanced graph score network, capturing the evolving structure and position information from perturbed graphs for permutation equivariant score estimation. Under the evaluation of comprehensive metrics, our proposed generative diffusion process achieves competitive performance in graph distribution learning. Experimental results also show that GraphGDP can generate high-quality graphs in only 24 function evaluations, much faster than previous autoregressive models.
translated by 谷歌翻译
生成图形结构化数据需要学习图形的基础分布。然而,这是一个具有挑战性的问题,先前的图生成方法要么无法捕获图形的置换率属性,要么无法充分对节点和边缘之间的复杂依赖性进行建模,这对于生成现实世界图(例如分子)至关重要。为了克服此类局限性,我们为具有连续时间框架的图形提出了一种基于分数的新型生成模型。具体而言,我们提出了一个新的图扩散过程,该过程通过随机微分方程(SDE)系统建模节点和边缘的联合分布。然后,我们得出了针对建议的扩散过程量身定制的新的分数匹配目标,以估算关节对数密度相对于每个组件的梯度,并为SDE系统引入一个新的求解器,以从反向扩散过程中有效采样。我们验证了不同数据集的图形生成方法,在该数据集上,它要么在其上取得了比基线显着或竞争性能的。进一步的分析表明,我们的方法能够生成接近训练分布但不违反化学价值规则的分子,从而证明了SDE系统在建模节点边缘关系中的有效性。我们的代码可在https://github.com/harryjo97/gdss上找到。
translated by 谷歌翻译
图表无处不在地编码许多域中现实世界对象的关系信息。图形生成的目的是从类似于观察到的图形的分布中生成新图形,由于深度学习模型的最新进展,人们的关注越来越大。在本文中,我们对现有的图形生成文献进行了全面综述,从各种新兴方法到其广泛的应用领域。具体来说,我们首先提出了深图生成的问题,并与几个相关的图形学习任务讨论了它的差异。其次,我们根据模型架构将最新方法分为三类,并总结其生成策略。第三,我们介绍了深图生成的三个关键应用领域。最后,我们重点介绍了深图生成的未来研究中的挑战和机遇。
translated by 谷歌翻译
这项工作引入了离题,这是一种用于生成具有分类节点和边缘属性图的图形的离散denoising扩散模型。我们的模型定义了一个扩散过程,该过程逐步编辑了具有噪声(添加或删除边缘,更改类别)的图形以及学会恢复此过程的图形变压器网络。有了这两种成分,我们将分布学习将上的分布学习减少到一个简单的分类任务序列。我们通过提出一个新的马尔可夫噪声模型来进一步提高样品质量,该模型在扩散过程中保留节点和边缘类型的边际分布,并通过在每个扩散步骤中添加从嘈杂图中得出的辅助图理论特征。最后,我们提出了一个指导程序,以根据图形级特征调理生成。总体而言,离题可以在分子和非分子数据集上达到最新性能,在平面图数据集上,有效性提高了3倍。特别是,这是第一个模型,将鳞片缩放到包含130万个药物样分子的大型鳄梨调子数据集,而无需使用分子特异性表示,例如微笑或片段。
translated by 谷歌翻译
分子的产生,尤其是从头开始产生3D分子几何形状(即3D \ textit {de Novo} Generation)已成为药物设计中的一项基本任务。现有的基于扩散的3D分子生成方法可能会遭受性能不令人满意的性能,尤其是在产生大分子时。同时,产生的分子缺乏足够的多样性。本文提出了一个新的扩散模型,以应对这两个挑战。首先,原子关系不在分子的3D点云表示中。因此,现有生成模型很难捕获潜在的原子间力和丰富的局部约束。为了应对这一挑战,我们建议增强潜在的原子间力,并进一步涉及双重模棱两可的编码器,以编码不同强度的原子质力。其次,现有的基于扩散的模型基本上是沿数据密度梯度的几何元素。这样的过程在Langevin动力学的中间步骤中缺乏足够的探索。为了解决这个问题,我们在每个扩散/反向步骤中引入了一个分布控制变量,以实施彻底的探索并进一步改善发电多样性。对多个基准测试的广泛实验表明,所提出的模型明显优于无条件和条件生成任务的现有方法。我们还进行案例研究以帮助了解产生分子的理化特性。
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译
这项工作引入了3D分子生成的扩散模型,该模型与欧几里得转化一样。我们的e(3)e象扩散模型(EDM)学会了通过均衡网络的扩散过程,该网络共同在连续(原子坐标)和分类特征(原子类型)上共同运行。此外,我们提供了一种概率分析,该分析使用我们的模型接受了分子的可能性计算。在实验上,所提出的方法显着优于先前关于生成样品质量和训练时效率的3D分子生成方法。
translated by 谷歌翻译
深度学习表现出巨大的生成任务潜力。生成模型是可以根据某些隐含参数随机生成观测值的模型类。最近,扩散模型由于其发电能力而成为一类生成模型。如今,已经取得了巨大的成就。除了计算机视觉,语音产生,生物信息学和自然语言处理外,还需要在该领域探索更多应用。但是,扩散模型具有缓慢生成过程的自然缺点,从而导致许多增强的作品。该调查总结了扩散模型的领域。我们首先说明了两项具有里程碑意义的作品的主要问题-DDPM和DSM。然后,我们提供各种高级技术,以加快扩散模型 - 训练时间表,无训练采样,混合模型以及得分和扩散统一。关于现有模型,我们还根据特定的NFE提供了FID得分的基准和NLL。此外,引入了带有扩散模型的应用程序,包括计算机视觉,序列建模,音频和科学AI。最后,该领域以及局限性和进一步的方向都进行了摘要。
translated by 谷歌翻译
We seek to automate the design of molecules based on specific chemical properties. In computational terms, this task involves continuous embedding and generation of molecular graphs. Our primary contribution is the direct realization of molecular graphs, a task previously approached by generating linear SMILES strings instead of graphs. Our junction tree variational autoencoder generates molecular graphs in two phases, by first generating a tree-structured scaffold over chemical substructures, and then combining them into a molecule with a graph message passing network. This approach allows us to incrementally expand molecules while maintaining chemical validity at every step. We evaluate our model on multiple tasks ranging from molecular generation to optimization. Across these tasks, our model outperforms previous state-of-the-art baselines by a significant margin.
translated by 谷歌翻译
扩散模型是一类深入生成模型,在具有密集理论建立的各种任务上显示出令人印象深刻的结果。尽管与其他最先进的模型相比,扩散模型的样本合成质量和多样性令人印象深刻,但它们仍然遭受了昂贵的抽样程序和次优可能的估计。最近的研究表明,对提高扩散模型的性能的热情非常热情。在本文中,我们对扩散模型的现有变体进行了首次全面综述。具体而言,我们提供了扩散模型的第一个分类法,并将它们分类为三种类型,即采样加速增强,可能性最大化的增强和数据将来增强。我们还详细介绍了其他五个生成模型(即变异自动编码器,生成对抗网络,正常流量,自动回归模型和基于能量的模型),并阐明扩散模型与这些生成模型之间的连接。然后,我们对扩散模型的应用进行彻底研究,包括计算机视觉,自然语言处理,波形信号处理,多模式建模,分子图生成,时间序列建模和对抗性纯化。此外,我们提出了与这种生成模型的发展有关的新观点。
translated by 谷歌翻译
扩散概率模型(DPM)是新兴的强大生成模型。尽管具有高质量的生成性能,但DPM仍然遭受缓慢采样的苦难,因为它们通常需要数百或数千个大型神经网络的顺序函数评估(步骤)来绘制样本。可以将来自DPM的采样视为求解相应的扩散普通微分方程(ODE)。在这项工作中,我们提出了扩散ODE的溶液的精确表述。该公式通过分析计算解决方案的线性部分,而不是将所有术语留给先前工作中采用的黑盒ode求解器。通过应用可变化的更改,可以将解决方案等效地简化为神经网络的指数加权积分。根据我们的公式,我们提出了DPM-Solver,这是一种通过收敛顺序保证的快速专用高阶求解器。 DPM溶剂适用于离散时间和连续时间DPM,而无需进行任何进一步的培训。实验结果表明,DPM-Solver可以在各种数据集上的10至20个功能评估中生成高质量的样本。我们在10个功能评估中实现了4.70 FID,在CIFAR10数据集上进行20个功能评估中的2.87 FID,与以前的各种数据集中的先前最先进的无培训样本器相比,$ 4 \ sim 16 \ times $速度。
translated by 谷歌翻译
We consider the problem of modelling high-dimensional distributions and generating new examples of data with complex relational feature structure coherent with a graph skeleton. The model we propose tackles the problem of generating the data features constrained by the specific graph structure of each data point by splitting the task into two phases. In the first it models the distribution of features associated with the nodes of the given graph, in the second it complements the edge features conditionally on the node features. We follow the strategy of implicit distribution modelling via generative adversarial network (GAN) combined with permutation equivariant message passing architecture operating over the sets of nodes and edges. This enables generating the feature vectors of all the graph objects in one go (in 2 phases) as opposed to a much slower one-by-one generations of sequential models, prevents the need for expensive graph matching procedures usually needed for likelihood-based generative models, and uses efficiently the network capacity by being insensitive to the particular node ordering in the graph representation. To the best of our knowledge, this is the first method that models the feature distribution along the graph skeleton allowing for generations of annotated graphs with user specified structures. Our experiments demonstrate the ability of our model to learn complex structured distributions through quantitative evaluation over three annotated graph datasets.
translated by 谷歌翻译
基于深度学习的分子建模的最新进步令人兴奋地加速硅药发现。可获得血清的生成模型,构建原子原子和键合或逐片键的分子。然而,许多药物发现项目需要固定的支架以存在于所生成的分子中,并纳入该约束仅探讨了该约束。在这里,我们提出了一种基于图形的模型,其自然地支持支架作为生成过程的初始种子,这是可能的,因为它不调节在发电历史上。我们的实验表明,Moler与最先进的方法进行了相当的方法,在无约会的分子优化任务上,并且在基于脚手架的任务上优于它们,而不是比现有方法从培训和样本更快的数量级。此外,我们展示了许多看似小设计选择对整体性能的影响。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
需要产生具有所需特性的有效分子的分子产生是基本但具有挑战性的任务。近年来,目睹了原子级自动回归模型的快速发展,这通常构造在添加原子级节点和边缘的顺序动作之后的图表。然而,这些原子级模型忽略了高频子结构,其不仅捕获分子中原子组合的规律而且通常与所需的化学性质相关,因此可以是用于产生高质量分子的次优。在本文中,我们提出了一种方法来自动发现这种常见的子结构,从给定的分子图中呼叫图形件。我们还提出了一种基于图形件产生分子图的图片变形AutoEncoder(GP-VAE)。实验表明,我们的GP-VAE模型不仅可以实现更好的性能,而不是用于分发 - 学习,属性优化和约束性能优化任务,但也是计算效率的最先进的基线。
translated by 谷歌翻译
图形结构数据的深层生成模型为化学合成问题提供了一个新的角度:通过优化直接生成分子图的可区分模型,可以在化学结构的离散和广阔空间中侧键入昂贵的搜索程序。我们介绍了Molgan,这是一种用于小分子图的隐式,无似然生成模型,它规避了对以前基于可能性的方法的昂贵图形匹配程序或节点订购启发式方法的需求。我们的方法适应生成对抗网络(GAN)直接在图形结构数据上操作。我们将方法与增强学习目标结合起来,以鼓励具有特定所需化学特性的分子产生。在QM9化学数据库的实验中,我们证明了我们的模型能够生成接近100%有效化合物。莫尔根(Molgan)与最近使用基于字符串的分子表示(微笑)表示的提案和基于似然的方法直接生成图的方法进行了比较。 https://github.com/nicola-decao/molgan上的代码
translated by 谷歌翻译
在本文中,我们提出了多分辨率的等级图变分性Autiachoders(MGVAE),第一层级生成模型以多分辨率和等分的方式学习和生成图。在每个分辨率级别,MGVAE采用更高的顺序消息,以便在学习中对图进行编码,同时学习将其分配到互斥的集群中并赋予最终产生潜在分布的层次结构的较低分辨率。然后,MGVAE构造分层生成模型以改变地解码成粗糙的图形的层次。重要的是,我们提出的框架是关于节点排序的端到端排列等级。MGVAE通过多种生成任务实现竞争结果,包括一般图生成,分子产生,无监督的分子表示学习,以预测分子特性,引用图的链路预测,以及基于图的图像生成。
translated by 谷歌翻译
基于AI的分子生成为大量生物医学科学和工程(例如抗体设计,水解酶工程或疫苗开发)提供了一种有希望的方法。由于分子受物理定律的管辖,所以关键的挑战是将先前的信息纳入训练程序中,以产生高质量和现实的分子。我们提出了一种简单而新颖的方法,以引导基于扩散的生成模型培训具有物理和统计的先验信息。这是通过构建物理知情的扩散桥,即保证在固定末端产生给定观察的随机过程来实现的。我们开发了一种基于Lyapunov函数的方法来构建和确定桥梁,并提出了许多有关高质量分子生成和均匀性促进的3D点云生成的信息丰富的先验桥的建议。通过全面的实验,我们表明我们的方法为3D生成任务提供了强大的方法,从而产生具有更好质量和稳定性得分的分子结构,并且具有更高质量的分布点云。
translated by 谷歌翻译
Denoising diffusion probabilistic models and score matching models have proven to be very powerful for generative tasks. While these approaches have also been applied to the generation of discrete graphs, they have, so far, relied on continuous Gaussian perturbations. Instead, in this work, we suggest using discrete noise for the forward Markov process. This ensures that in every intermediate step the graph remains discrete. Compared to the previous approach, our experimental results on four datasets and multiple architectures show that using a discrete noising process results in higher quality generated samples indicated with an average MMDs reduced by a factor of 1.5. Furthermore, the number of denoising steps is reduced from 1000 to 32 steps leading to a 30 times faster sampling procedure.
translated by 谷歌翻译