图形生成建模中讨论的最多的一个问题之一是表示的排序。一个解决方案包括使用等分性的生成功能,确保排序不变性。在讨论了这种功能的一些性质之后,我们提出了3G-GaN,这是一个依赖于GAN和等价函数的3级模型。该模型仍在开发中。但是,我们展示了一些鼓励探索性实验,并讨论仍有待解决的问题。
translated by 谷歌翻译
We consider the problem of modelling high-dimensional distributions and generating new examples of data with complex relational feature structure coherent with a graph skeleton. The model we propose tackles the problem of generating the data features constrained by the specific graph structure of each data point by splitting the task into two phases. In the first it models the distribution of features associated with the nodes of the given graph, in the second it complements the edge features conditionally on the node features. We follow the strategy of implicit distribution modelling via generative adversarial network (GAN) combined with permutation equivariant message passing architecture operating over the sets of nodes and edges. This enables generating the feature vectors of all the graph objects in one go (in 2 phases) as opposed to a much slower one-by-one generations of sequential models, prevents the need for expensive graph matching procedures usually needed for likelihood-based generative models, and uses efficiently the network capacity by being insensitive to the particular node ordering in the graph representation. To the best of our knowledge, this is the first method that models the feature distribution along the graph skeleton allowing for generations of annotated graphs with user specified structures. Our experiments demonstrate the ability of our model to learn complex structured distributions through quantitative evaluation over three annotated graph datasets.
translated by 谷歌翻译
我们考虑一拍概率解码器,该解码器在分布上映射到集合或图形之前的矢量形状。这些功能可以集成到变分性自动化器(VAE),生成的对抗网络(GAN)或标准化流动中,并在药物发现中具有重要应用。设置和图形生成最常通过生成点(有时是边缘权重)i.i.d.从正态分布,使用变压器层或图形神经网络处理它们以及先前的向量。该架构旨在产生可交换的分布(集合的所有排列同样可能),但由于I.I.D的随机性,难以训练。一代。我们提出了一种新的对抗性定义,并表明,VAES和GAN中的交换性实际上是不必要的。然后,我们引入TOP-N,一个确定性,不可交换的集合创建机制,该创建机制学会从培训参考集中选择最相关的点。 Top-n可以替换i.i.d.在任何VAE或GaN中生成 - 它更容易训练,更好地捕获数据中的复杂依赖关系。 Top-n优于I.I.D在SetMnist重建时生成15%,生成较近合成分子数据集的真正分布的34%的集合,并且能够在经典QM9数据集上培训时产生更多样化的分子。随着一次性生成的改进基础,我们的算法有助于设计更有效的分子生成方法。
translated by 谷歌翻译
图表无处不在地编码许多域中现实世界对象的关系信息。图形生成的目的是从类似于观察到的图形的分布中生成新图形,由于深度学习模型的最新进展,人们的关注越来越大。在本文中,我们对现有的图形生成文献进行了全面综述,从各种新兴方法到其广泛的应用领域。具体来说,我们首先提出了深图生成的问题,并与几个相关的图形学习任务讨论了它的差异。其次,我们根据模型架构将最新方法分为三类,并总结其生成策略。第三,我们介绍了深图生成的三个关键应用领域。最后,我们重点介绍了深图生成的未来研究中的挑战和机遇。
translated by 谷歌翻译
图形结构数据的深层生成模型为化学合成问题提供了一个新的角度:通过优化直接生成分子图的可区分模型,可以在化学结构的离散和广阔空间中侧键入昂贵的搜索程序。我们介绍了Molgan,这是一种用于小分子图的隐式,无似然生成模型,它规避了对以前基于可能性的方法的昂贵图形匹配程序或节点订购启发式方法的需求。我们的方法适应生成对抗网络(GAN)直接在图形结构数据上操作。我们将方法与增强学习目标结合起来,以鼓励具有特定所需化学特性的分子产生。在QM9化学数据库的实验中,我们证明了我们的模型能够生成接近100%有效化合物。莫尔根(Molgan)与最近使用基于字符串的分子表示(微笑)表示的提案和基于似然的方法直接生成图的方法进行了比较。 https://github.com/nicola-decao/molgan上的代码
translated by 谷歌翻译
这项工作引入了离题,这是一种用于生成具有分类节点和边缘属性图的图形的离散denoising扩散模型。我们的模型定义了一个扩散过程,该过程逐步编辑了具有噪声(添加或删除边缘,更改类别)的图形以及学会恢复此过程的图形变压器网络。有了这两种成分,我们将分布学习将上的分布学习减少到一个简单的分类任务序列。我们通过提出一个新的马尔可夫噪声模型来进一步提高样品质量,该模型在扩散过程中保留节点和边缘类型的边际分布,并通过在每个扩散步骤中添加从嘈杂图中得出的辅助图理论特征。最后,我们提出了一个指导程序,以根据图形级特征调理生成。总体而言,离题可以在分子和非分子数据集上达到最新性能,在平面图数据集上,有效性提高了3倍。特别是,这是第一个模型,将鳞片缩放到包含130万个药物样分子的大型鳄梨调子数据集,而无需使用分子特异性表示,例如微笑或片段。
translated by 谷歌翻译
我们从光谱的角度解决图形生成问题,首先生成图形laplacian光谱的主要部分,然后构建与这些特征值和特征向量相匹配的图。光谱调节允许直接建模全局和局部图结构,并有助于克服单发图生成器的表达性和模式崩溃问题。我们的新颖的甘(Spectre)称为Spectre,可以使用一声模型来产生比以前可能更大的图。Spectre的表现优于最先进的深度自动回归发电机在建模忠诚方面,同时还避免了昂贵的顺序产生和对节点排序的依赖。一个很好的例子,在相当大的合成和现实图形中,Specter的幽灵比最佳竞争对手的最佳竞争对手的改进是4到170倍,该竞争对手不合适,比自回旋发电机快23至30倍。
translated by 谷歌翻译
最近,在对图形结构数据上应用深度神经网络有很大的成功。然而,大多数工作侧重于节点或图形级监督学习,例如节点,链接或图形分类或节点级无监督学习(例如节点群集)。尽管其应用广泛,但图表级无监督的学习尚未受到很多关注。这可能主要归因于图形的高表示复杂性,可以由n表示!等效邻接矩阵,其中n是节点的数量。在这项工作中,我们通过提出用于图形结构数据的置换不变变化自动码器来解决此问题。我们所提出的模型间接学习以匹配输入和输出图的节点排序,而不施加特定节点排序或执行昂贵的图形匹配。我们展示了我们提出模型对各种图形重建和生成任务的有效性,并评估了下游图形水平分类和回归提取的表示的表现力。
translated by 谷歌翻译
在本文中,我们提出了多分辨率的等级图变分性Autiachoders(MGVAE),第一层级生成模型以多分辨率和等分的方式学习和生成图。在每个分辨率级别,MGVAE采用更高的顺序消息,以便在学习中对图进行编码,同时学习将其分配到互斥的集群中并赋予最终产生潜在分布的层次结构的较低分辨率。然后,MGVAE构造分层生成模型以改变地解码成粗糙的图形的层次。重要的是,我们提出的框架是关于节点排序的端到端排列等级。MGVAE通过多种生成任务实现竞争结果,包括一般图生成,分子产生,无监督的分子表示学习,以预测分子特性,引用图的链路预测,以及基于图的图像生成。
translated by 谷歌翻译
这项工作引入了3D分子生成的扩散模型,该模型与欧几里得转化一样。我们的e(3)e象扩散模型(EDM)学会了通过均衡网络的扩散过程,该网络共同在连续(原子坐标)和分类特征(原子类型)上共同运行。此外,我们提供了一种概率分析,该分析使用我们的模型接受了分子的可能性计算。在实验上,所提出的方法显着优于先前关于生成样品质量和训练时效率的3D分子生成方法。
translated by 谷歌翻译
We propose an algorithm for learning a conditional generative model of a molecule given a target. Specifically, given a receptor molecule that one wishes to bind to, the conditional model generates candidate ligand molecules that may bind to it. The distribution should be invariant to rigid body transformations that act $\textit{jointly}$ on the ligand and the receptor; it should also be invariant to permutations of either the ligand or receptor atoms. Our learning algorithm is based on a continuous normalizing flow. We establish semi-equivariance conditions on the flow which guarantee the aforementioned invariance conditions on the conditional distribution. We propose a graph neural network architecture which implements this flow, and which is designed to learn effectively despite the vast differences in size between the ligand and receptor. We evaluate our method on the CrossDocked2020 dataset, attaining a significant improvement in binding affinity over competing methods.
translated by 谷歌翻译
本文介绍了欧几里德对称的生成模型:E(n)等分反的归一化流量(E-NFS)。为了构建E-NFS,我们采用鉴别性E(n)图神经网络,并将它们集成为微分方程,以获得可逆的等式功能:连续时间归一化流量。我们展示了E-NFS在诸如DW4和LJ13的粒子系统中的文献中的基础和现有方法,以及QM9的分子在对数似然方面。据我们所知,这是第一次流动,共同生成3D中的分子特征和位置。
translated by 谷歌翻译
分子的产生,尤其是从头开始产生3D分子几何形状(即3D \ textit {de Novo} Generation)已成为药物设计中的一项基本任务。现有的基于扩散的3D分子生成方法可能会遭受性能不令人满意的性能,尤其是在产生大分子时。同时,产生的分子缺乏足够的多样性。本文提出了一个新的扩散模型,以应对这两个挑战。首先,原子关系不在分子的3D点云表示中。因此,现有生成模型很难捕获潜在的原子间力和丰富的局部约束。为了应对这一挑战,我们建议增强潜在的原子间力,并进一步涉及双重模棱两可的编码器,以编码不同强度的原子质力。其次,现有的基于扩散的模型基本上是沿数据密度梯度的几何元素。这样的过程在Langevin动力学的中间步骤中缺乏足够的探索。为了解决这个问题,我们在每个扩散/反向步骤中引入了一个分布控制变量,以实施彻底的探索并进一步改善发电多样性。对多个基准测试的广泛实验表明,所提出的模型明显优于无条件和条件生成任务的现有方法。我们还进行案例研究以帮助了解产生分子的理化特性。
translated by 谷歌翻译
基于深度学习的分子建模的最新进步令人兴奋地加速硅药发现。可获得血清的生成模型,构建原子原子和键合或逐片键的分子。然而,许多药物发现项目需要固定的支架以存在于所生成的分子中,并纳入该约束仅探讨了该约束。在这里,我们提出了一种基于图形的模型,其自然地支持支架作为生成过程的初始种子,这是可能的,因为它不调节在发电历史上。我们的实验表明,Moler与最先进的方法进行了相当的方法,在无约会的分子优化任务上,并且在基于脚手架的任务上优于它们,而不是比现有方法从培训和样本更快的数量级。此外,我们展示了许多看似小设计选择对整体性能的影响。
translated by 谷歌翻译
Learning the underlying distribution of molecular graphs and generating high-fidelity samples is a fundamental research problem in drug discovery and material science. However, accurately modeling distribution and rapidly generating novel molecular graphs remain crucial and challenging goals. To accomplish these goals, we propose a novel Conditional Diffusion model based on discrete Graph Structures (CDGS) for molecular graph generation. Specifically, we construct a forward graph diffusion process on both graph structures and inherent features through stochastic differential equations (SDE) and derive discrete graph structures as the condition for reverse generative processes. We present a specialized hybrid graph noise prediction model that extracts the global context and the local node-edge dependency from intermediate graph states. We further utilize ordinary differential equation (ODE) solvers for efficient graph sampling, based on the semi-linear structure of the probability flow ODE. Experiments on diverse datasets validate the effectiveness of our framework. Particularly, the proposed method still generates high-quality molecular graphs in a limited number of steps.
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
生成图形结构化数据需要学习图形的基础分布。然而,这是一个具有挑战性的问题,先前的图生成方法要么无法捕获图形的置换率属性,要么无法充分对节点和边缘之间的复杂依赖性进行建模,这对于生成现实世界图(例如分子)至关重要。为了克服此类局限性,我们为具有连续时间框架的图形提出了一种基于分数的新型生成模型。具体而言,我们提出了一个新的图扩散过程,该过程通过随机微分方程(SDE)系统建模节点和边缘的联合分布。然后,我们得出了针对建议的扩散过程量身定制的新的分数匹配目标,以估算关节对数密度相对于每个组件的梯度,并为SDE系统引入一个新的求解器,以从反向扩散过程中有效采样。我们验证了不同数据集的图形生成方法,在该数据集上,它要么在其上取得了比基线显着或竞争性能的。进一步的分析表明,我们的方法能够生成接近训练分布但不违反化学价值规则的分子,从而证明了SDE系统在建模节点边缘关系中的有效性。我们的代码可在https://github.com/harryjo97/gdss上找到。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
模棱两可的神经网络,其隐藏的特征根据G组作用于数据的表示,表现出训练效率和提高的概括性能。在这项工作中,我们将群体不变和模棱两可的表示学习扩展到无监督的深度学习领域。我们根据编码器框架提出了一种通用学习策略,其中潜在表示以不变的术语和模棱两可的组动作组件分开。关键的想法是,网络学会通过学习预测适当的小组操作来对齐输入和输出姿势以解决重建任务的适当组动作来编码和从组不变表示形式进行编码和解码数据。我们在Equivariant编码器上得出必要的条件,并提出了对任何G(离散且连续的)有效的构造。我们明确描述了我们的旋转,翻译和排列的构造。我们在采用不同网络体系结构的各种数据类型的各种实验中测试了方法的有效性和鲁棒性。
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译