We consider the problem of modelling high-dimensional distributions and generating new examples of data with complex relational feature structure coherent with a graph skeleton. The model we propose tackles the problem of generating the data features constrained by the specific graph structure of each data point by splitting the task into two phases. In the first it models the distribution of features associated with the nodes of the given graph, in the second it complements the edge features conditionally on the node features. We follow the strategy of implicit distribution modelling via generative adversarial network (GAN) combined with permutation equivariant message passing architecture operating over the sets of nodes and edges. This enables generating the feature vectors of all the graph objects in one go (in 2 phases) as opposed to a much slower one-by-one generations of sequential models, prevents the need for expensive graph matching procedures usually needed for likelihood-based generative models, and uses efficiently the network capacity by being insensitive to the particular node ordering in the graph representation. To the best of our knowledge, this is the first method that models the feature distribution along the graph skeleton allowing for generations of annotated graphs with user specified structures. Our experiments demonstrate the ability of our model to learn complex structured distributions through quantitative evaluation over three annotated graph datasets.
translated by 谷歌翻译
图形生成建模中讨论的最多的一个问题之一是表示的排序。一个解决方案包括使用等分性的生成功能,确保排序不变性。在讨论了这种功能的一些性质之后,我们提出了3G-GaN,这是一个依赖于GAN和等价函数的3级模型。该模型仍在开发中。但是,我们展示了一些鼓励探索性实验,并讨论仍有待解决的问题。
translated by 谷歌翻译
图形结构数据的深层生成模型为化学合成问题提供了一个新的角度:通过优化直接生成分子图的可区分模型,可以在化学结构的离散和广阔空间中侧键入昂贵的搜索程序。我们介绍了Molgan,这是一种用于小分子图的隐式,无似然生成模型,它规避了对以前基于可能性的方法的昂贵图形匹配程序或节点订购启发式方法的需求。我们的方法适应生成对抗网络(GAN)直接在图形结构数据上操作。我们将方法与增强学习目标结合起来,以鼓励具有特定所需化学特性的分子产生。在QM9化学数据库的实验中,我们证明了我们的模型能够生成接近100%有效化合物。莫尔根(Molgan)与最近使用基于字符串的分子表示(微笑)表示的提案和基于似然的方法直接生成图的方法进行了比较。 https://github.com/nicola-decao/molgan上的代码
translated by 谷歌翻译
图表无处不在地编码许多域中现实世界对象的关系信息。图形生成的目的是从类似于观察到的图形的分布中生成新图形,由于深度学习模型的最新进展,人们的关注越来越大。在本文中,我们对现有的图形生成文献进行了全面综述,从各种新兴方法到其广泛的应用领域。具体来说,我们首先提出了深图生成的问题,并与几个相关的图形学习任务讨论了它的差异。其次,我们根据模型架构将最新方法分为三类,并总结其生成策略。第三,我们介绍了深图生成的三个关键应用领域。最后,我们重点介绍了深图生成的未来研究中的挑战和机遇。
translated by 谷歌翻译
我们从光谱的角度解决图形生成问题,首先生成图形laplacian光谱的主要部分,然后构建与这些特征值和特征向量相匹配的图。光谱调节允许直接建模全局和局部图结构,并有助于克服单发图生成器的表达性和模式崩溃问题。我们的新颖的甘(Spectre)称为Spectre,可以使用一声模型来产生比以前可能更大的图。Spectre的表现优于最先进的深度自动回归发电机在建模忠诚方面,同时还避免了昂贵的顺序产生和对节点排序的依赖。一个很好的例子,在相当大的合成和现实图形中,Specter的幽灵比最佳竞争对手的最佳竞争对手的改进是4到170倍,该竞争对手不合适,比自回旋发电机快23至30倍。
translated by 谷歌翻译
这项工作引入了离题,这是一种用于生成具有分类节点和边缘属性图的图形的离散denoising扩散模型。我们的模型定义了一个扩散过程,该过程逐步编辑了具有噪声(添加或删除边缘,更改类别)的图形以及学会恢复此过程的图形变压器网络。有了这两种成分,我们将分布学习将上的分布学习减少到一个简单的分类任务序列。我们通过提出一个新的马尔可夫噪声模型来进一步提高样品质量,该模型在扩散过程中保留节点和边缘类型的边际分布,并通过在每个扩散步骤中添加从嘈杂图中得出的辅助图理论特征。最后,我们提出了一个指导程序,以根据图形级特征调理生成。总体而言,离题可以在分子和非分子数据集上达到最新性能,在平面图数据集上,有效性提高了3倍。特别是,这是第一个模型,将鳞片缩放到包含130万个药物样分子的大型鳄梨调子数据集,而无需使用分子特异性表示,例如微笑或片段。
translated by 谷歌翻译
我们考虑一拍概率解码器,该解码器在分布上映射到集合或图形之前的矢量形状。这些功能可以集成到变分性自动化器(VAE),生成的对抗网络(GAN)或标准化流动中,并在药物发现中具有重要应用。设置和图形生成最常通过生成点(有时是边缘权重)i.i.d.从正态分布,使用变压器层或图形神经网络处理它们以及先前的向量。该架构旨在产生可交换的分布(集合的所有排列同样可能),但由于I.I.D的随机性,难以训练。一代。我们提出了一种新的对抗性定义,并表明,VAES和GAN中的交换性实际上是不必要的。然后,我们引入TOP-N,一个确定性,不可交换的集合创建机制,该创建机制学会从培训参考集中选择最相关的点。 Top-n可以替换i.i.d.在任何VAE或GaN中生成 - 它更容易训练,更好地捕获数据中的复杂依赖关系。 Top-n优于I.I.D在SetMnist重建时生成15%,生成较近合成分子数据集的真正分布的34%的集合,并且能够在经典QM9数据集上培训时产生更多样化的分子。随着一次性生成的改进基础,我们的算法有助于设计更有效的分子生成方法。
translated by 谷歌翻译
Learning the underlying distribution of molecular graphs and generating high-fidelity samples is a fundamental research problem in drug discovery and material science. However, accurately modeling distribution and rapidly generating novel molecular graphs remain crucial and challenging goals. To accomplish these goals, we propose a novel Conditional Diffusion model based on discrete Graph Structures (CDGS) for molecular graph generation. Specifically, we construct a forward graph diffusion process on both graph structures and inherent features through stochastic differential equations (SDE) and derive discrete graph structures as the condition for reverse generative processes. We present a specialized hybrid graph noise prediction model that extracts the global context and the local node-edge dependency from intermediate graph states. We further utilize ordinary differential equation (ODE) solvers for efficient graph sampling, based on the semi-linear structure of the probability flow ODE. Experiments on diverse datasets validate the effectiveness of our framework. Particularly, the proposed method still generates high-quality molecular graphs in a limited number of steps.
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译
最近,在对图形结构数据上应用深度神经网络有很大的成功。然而,大多数工作侧重于节点或图形级监督学习,例如节点,链接或图形分类或节点级无监督学习(例如节点群集)。尽管其应用广泛,但图表级无监督的学习尚未受到很多关注。这可能主要归因于图形的高表示复杂性,可以由n表示!等效邻接矩阵,其中n是节点的数量。在这项工作中,我们通过提出用于图形结构数据的置换不变变化自动码器来解决此问题。我们所提出的模型间接学习以匹配输入和输出图的节点排序,而不施加特定节点排序或执行昂贵的图形匹配。我们展示了我们提出模型对各种图形重建和生成任务的有效性,并评估了下游图形水平分类和回归提取的表示的表现力。
translated by 谷歌翻译
基于深度学习的分子建模的最新进步令人兴奋地加速硅药发现。可获得血清的生成模型,构建原子原子和键合或逐片键的分子。然而,许多药物发现项目需要固定的支架以存在于所生成的分子中,并纳入该约束仅探讨了该约束。在这里,我们提出了一种基于图形的模型,其自然地支持支架作为生成过程的初始种子,这是可能的,因为它不调节在发电历史上。我们的实验表明,Moler与最先进的方法进行了相当的方法,在无约会的分子优化任务上,并且在基于脚手架的任务上优于它们,而不是比现有方法从培训和样本更快的数量级。此外,我们展示了许多看似小设计选择对整体性能的影响。
translated by 谷歌翻译
在本文中,我们提出了多分辨率的等级图变分性Autiachoders(MGVAE),第一层级生成模型以多分辨率和等分的方式学习和生成图。在每个分辨率级别,MGVAE采用更高的顺序消息,以便在学习中对图进行编码,同时学习将其分配到互斥的集群中并赋予最终产生潜在分布的层次结构的较低分辨率。然后,MGVAE构造分层生成模型以改变地解码成粗糙的图形的层次。重要的是,我们提出的框架是关于节点排序的端到端排列等级。MGVAE通过多种生成任务实现竞争结果,包括一般图生成,分子产生,无监督的分子表示学习,以预测分子特性,引用图的链路预测,以及基于图的图像生成。
translated by 谷歌翻译
分子的产生,尤其是从头开始产生3D分子几何形状(即3D \ textit {de Novo} Generation)已成为药物设计中的一项基本任务。现有的基于扩散的3D分子生成方法可能会遭受性能不令人满意的性能,尤其是在产生大分子时。同时,产生的分子缺乏足够的多样性。本文提出了一个新的扩散模型,以应对这两个挑战。首先,原子关系不在分子的3D点云表示中。因此,现有生成模型很难捕获潜在的原子间力和丰富的局部约束。为了应对这一挑战,我们建议增强潜在的原子间力,并进一步涉及双重模棱两可的编码器,以编码不同强度的原子质力。其次,现有的基于扩散的模型基本上是沿数据密度梯度的几何元素。这样的过程在Langevin动力学的中间步骤中缺乏足够的探索。为了解决这个问题,我们在每个扩散/反向步骤中引入了一个分布控制变量,以实施彻底的探索并进一步改善发电多样性。对多个基准测试的广泛实验表明,所提出的模型明显优于无条件和条件生成任务的现有方法。我们还进行案例研究以帮助了解产生分子的理化特性。
translated by 谷歌翻译
Graph generative models have broad applications in biology, chemistry and social science. However, modelling and understanding the generative process of graphs is challenging due to the discrete and high-dimensional nature of graphs, as well as permutation invariance to node orderings in underlying graph distributions. Current leading autoregressive models fail to capture the permutation invariance nature of graphs for the reliance on generation ordering and have high time complexity. Here, we propose a continuous-time generative diffusion process for permutation invariant graph generation to mitigate these issues. Specifically, we first construct a forward diffusion process defined by a stochastic differential equation (SDE), which smoothly converts graphs within the complex distribution to random graphs that follow a known edge probability. Solving the corresponding reverse-time SDE, graphs can be generated from newly sampled random graphs. To facilitate the reverse-time SDE, we newly design a position-enhanced graph score network, capturing the evolving structure and position information from perturbed graphs for permutation equivariant score estimation. Under the evaluation of comprehensive metrics, our proposed generative diffusion process achieves competitive performance in graph distribution learning. Experimental results also show that GraphGDP can generate high-quality graphs in only 24 function evaluations, much faster than previous autoregressive models.
translated by 谷歌翻译
We seek to automate the design of molecules based on specific chemical properties. In computational terms, this task involves continuous embedding and generation of molecular graphs. Our primary contribution is the direct realization of molecular graphs, a task previously approached by generating linear SMILES strings instead of graphs. Our junction tree variational autoencoder generates molecular graphs in two phases, by first generating a tree-structured scaffold over chemical substructures, and then combining them into a molecule with a graph message passing network. This approach allows us to incrementally expand molecules while maintaining chemical validity at every step. We evaluate our model on multiple tasks ranging from molecular generation to optimization. Across these tasks, our model outperforms previous state-of-the-art baselines by a significant margin.
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
基于深度学习的图生成方法具有显着的图形数据建模能力,从而使它们能够解决广泛的现实世界问题。使这些方法能够在生成过程中考虑不同的条件,甚至通过授权它们生成满足所需标准的新图形样本来提高其有效性。本文提出了一种条件深图生成方法,称为SCGG,该方法考虑了特定类型的结构条件。具体而言,我们提出的SCGG模型采用初始子图,并自动重新收获在给定条件子结构之上生成新节点及其相应的边缘。 SCGG的体系结构由图表表示网络和自动回归生成模型组成,该模型是端到端训练的。使用此模型,我们可以解决图形完成,这是恢复缺失的节点及其相关的部分观察图的猖and固有的困难问题。合成数据集和现实世界数据集的实验结果证明了我们方法的优势与最先进的基准相比。
translated by 谷歌翻译
这项工作引入了3D分子生成的扩散模型,该模型与欧几里得转化一样。我们的e(3)e象扩散模型(EDM)学会了通过均衡网络的扩散过程,该网络共同在连续(原子坐标)和分类特征(原子类型)上共同运行。此外,我们提供了一种概率分析,该分析使用我们的模型接受了分子的可能性计算。在实验上,所提出的方法显着优于先前关于生成样品质量和训练时效率的3D分子生成方法。
translated by 谷歌翻译
分子模拟的粗粒度(CG)通过将选定的原子分组为伪珠并大幅加速模拟来简化粒子的表示。但是,这种CG程序会导致信息损失,从而使准确的背景映射,即从CG坐标恢复细粒度(FG)坐标,这是一个长期存在的挑战。受生成模型和e象网络的最新进展的启发,我们提出了一个新型模型,该模型严格嵌入了背态转换的重要概率性质和几何一致性要求。我们的模型将FG的不确定性编码为不变的潜在空间,并通过Equivariant卷积将其解码为FG几何形状。为了标准化该领域的评估,我们根据分子动力学轨迹提供了三个综合基准。实验表明,我们的方法始终恢复更现实的结构,并以显着的边距胜过现有的数据驱动方法。
translated by 谷歌翻译