没有标签的预处理分子表示模型是各种应用的基础。常规方法主要是处理2D分子图,并仅专注于2D任务,使其预验证的模型无法表征3D几何形状,因此对于下游3D任务有缺陷。在这项工作中,我们从完整而新颖的意义上处理了3D分子预处理。特别是,我们首先提议采用基于能量的模型作为预处理的骨干,该模型具有实现3D空间对称性的优点。然后,我们为力预测开发了节点级预处理损失,在此过程中,我们进一步利用了Riemann-Gaussian分布,以确保损失为E(3) - 不变,从而实现了更多的稳健性。此外,还利用了图形噪声量表预测任务,以进一步促进最终的性能。我们评估了从两个具有挑战性的3D基准:MD17和QM9的大规模3D数据集GEOM-QM9预测的模型。实验结果支持我们方法对当前最新预处理方法的更好疗效,并验证我们设计的有效性。
translated by 谷歌翻译
由于标记的分子数量有限,预处理分子表示在药物和材料发现中的应用至关重要,但是大多数现有工作都集中在2D分子图上进行预处理。然而,对3D几何结构进行预处理的力量已经较少探索,因此难以找到足够的代理任务,以增强预训练的能力,从而有效地从几何结构中提取基本特征。由3D分子的动态性质激励,其中3D欧几里得空间中分子的连续运动形成平滑的势能表面,我们提出了一个3D坐标,以降级预处理框架来建模这种能量景观。利用SE(3) - 激烈的得分匹配方法,我们提出了SE(3)-DDM,其中坐标定位代理任务有效地归结为分子中成对原子距离的脱氧。我们的全面实验证实了我们提出的方法的有效性和鲁棒性。
translated by 谷歌翻译
分子特性预测是与关键现实影响的深度学习的增长最快的应用之一。包括3D分子结构作为学习模型的输入可以提高它们对许多分子任务的性能。但是,此信息是不可行的,可以以几个现实世界应用程序所需的规模计算。我们建议预先训练模型,以推理仅给予其仅为2D分子图的分子的几何形状。使用来自自我监督学习的方法,我们最大化3D汇总向量和图形神经网络(GNN)的表示之间的相互信息,使得它们包含潜在的3D信息。在具有未知几何形状的分子上进行微调期间,GNN仍然产生隐式3D信息,并可以使用它来改善下游任务。我们表明3D预训练为广泛的性质提供了显着的改进,例如八个量子力学性能的22%的平均MAE。此外,可以在不同分子空间中的数据集之间有效地传送所学习的表示。
translated by 谷歌翻译
自我监督学习(SSL)是一种通过利用数据中固有的监督来学习数据表示的方法。这种学习方法是药物领域的焦点,由于耗时且昂贵的实验,缺乏带注释的数据。使用巨大未标记数据的SSL显示出在分子属性预测方面表现出色的性能,但存在一些问题。 (1)现有的SSL模型是大规模的;在计算资源不足的情况下实现SSL有限制。 (2)在大多数情况下,它们不利用3D结构信息进行分子表示学习。药物的活性与药物分子的结构密切相关。但是,大多数当前模型不使用3D信息或部分使用它。 (3)以前对分子进行对比学习的模型使用置换原子和键的增强。因此,具有不同特征的分子可以在相同的阳性样品中。我们提出了一个新颖的对比学习框架,用于分子属性预测的小规模3D图对比度学习(3DGCL),以解决上述问题。 3DGCL通过不改变药物语义的预训练过程来反映分子的结构来学习分子表示。仅使用1,128个样本用于预训练数据和100万个模型参数,我们在四个回归基准数据集中实现了最先进或可比性的性能。广泛的实验表明,基于化学知识的3D结构信息对于用于财产预测的分子表示学习至关重要。
translated by 谷歌翻译
群体模棱两可(例如,SE(3)均衡性)是科学的关键物理对称性,从经典和量子物理学到计算生物学。它可以在任意参考转换下实现强大而准确的预测。鉴于此,已经为将这种对称性编码为深神经网络而做出了巨大的努力,该网络已被证明可以提高下游任务的概括性能和数据效率。构建模棱两可的神经网络通常会带来高计算成本以确保表现力。因此,如何更好地折衷表现力和计算效率在模棱两可的深度学习模型的设计中起着核心作用。在本文中,我们提出了一个框架来构建可以有效地近似几何量的se(3)等效图神经网络。受差异几何形状和物理学的启发,我们向图形神经网络介绍了局部完整帧,因此可以将以给定订单的张量信息投射到框架上。构建本地框架以形成正常基础,以避免方向变性并确保完整性。由于框架仅是由跨产品操作构建的,因此我们的方法在计算上是有效的。我们在两个任务上评估我们的方法:牛顿力学建模和平衡分子构象的产生。广泛的实验结果表明,我们的模型在两种类型的数据集中达到了最佳或竞争性能。
translated by 谷歌翻译
许多现实世界数据可以建模为3D图,但是完全有效地包含3D信息的学习表示形式具有挑战性。现有方法要么使用部分3D信息,要么遭受过多的计算成本。为了完全有效地合并3D信息,我们提出了一个新的消息传递方案,该方案在1跳社区内运行。我们的方法通过实现全球和本地完整性来确保有关3D图的3D信息的完整性。值得注意的是,我们提出了重要的旋转角度来实现全球完整性。此外,我们证明我们的方法比先前的方法快。我们为我们的方法提供了严格的完整性证明和时间复杂性的分析。由于分子本质上是量子系统,我们通过梳理量子启发的基础函数和提出的消息传递方案来构建\下划线{com} plete {com} plete {com} plete {com} plete {e}。实验结果证明了COMENET的能力和效率,尤其是在数量和尺寸大小的现实数据集上。我们的代码作为DIG库的一部分公开可用(\ url {https://github.com/divelab/dig})。
translated by 谷歌翻译
分子的产生,尤其是从头开始产生3D分子几何形状(即3D \ textit {de Novo} Generation)已成为药物设计中的一项基本任务。现有的基于扩散的3D分子生成方法可能会遭受性能不令人满意的性能,尤其是在产生大分子时。同时,产生的分子缺乏足够的多样性。本文提出了一个新的扩散模型,以应对这两个挑战。首先,原子关系不在分子的3D点云表示中。因此,现有生成模型很难捕获潜在的原子间力和丰富的局部约束。为了应对这一挑战,我们建议增强潜在的原子间力,并进一步涉及双重模棱两可的编码器,以编码不同强度的原子质力。其次,现有的基于扩散的模型基本上是沿数据密度梯度的几何元素。这样的过程在Langevin动力学的中间步骤中缺乏足够的探索。为了解决这个问题,我们在每个扩散/反向步骤中引入了一个分布控制变量,以实施彻底的探索并进一步改善发电多样性。对多个基准测试的广泛实验表明,所提出的模型明显优于无条件和条件生成任务的现有方法。我们还进行案例研究以帮助了解产生分子的理化特性。
translated by 谷歌翻译
学习有效的蛋白质表示在生物学的各种任务中至关重要,例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型,然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性,但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能,尽管蛋白质结构已知是蛋白质功能的决定因素,但尚未探索。在本文中,我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器,以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明,我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论,同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。
translated by 谷歌翻译
3D空间中的空间结构对于确定分子特性是重要的。最近的论文使用几何深度学习来代表分子和预测性质。然而,这些论文在捕获输入原子的远程依赖性时在计算上昂贵;并且尚未考虑外部距离的不均匀性,因此未能学习不同尺度的上下文依赖表示。为了处理这些问题,我们引入了3D变压器,变压器的变型,用于结合3D空间信息的分子表示。 3D变压器在完全连接的图形上运行,在原子之间的直接连接。为了应对外部距离的不均匀性,我们开发了一种多尺度的自我关注模块,利用局部细粒度模式随着越来越多的上下文尺度来利用局部细粒度模式。由于不同尺寸的分子依赖于不同种类的空间特征,我们设计了一种自适应位置编码模块,用于针对小型和大分子采用不同的位置编码方法。最后,为了获得原子嵌入的分子表示,我们提出了一种殷勤最远的点采样算法,该算法在注意分数的帮助下选择一部分原子,克服虚拟节点的障碍和先前的距离 - 优势下采样方法。我们通过三个重要的科学域验证3D变压器:量子化学,物质科学和蛋白质组学。我们的实验表现出对晶体性能预测任务和蛋白质 - 配体结合亲和预测任务的最先进模型的显着改善,并且在量子化学分子数据集中显示了更好或更有竞争的性能。这项工作提供了明确的证据表明,生物化学任务可以从3D分子表示中获得一致的益处,不同的任务需要不同的位置编码方法。
translated by 谷歌翻译
Molecular conformation generation aims to generate three-dimensional coordinates of all the atoms in a molecule and is an important task in bioinformatics and pharmacology. Previous methods usually first predict the interatomic distances, the gradients of interatomic distances or the local structures (e.g., torsion angles) of a molecule, and then reconstruct its 3D conformation. How to directly generate the conformation without the above intermediate values is not fully explored. In this work, we propose a method that directly predicts the coordinates of atoms: (1) the loss function is invariant to roto-translation of coordinates and permutation of symmetric atoms; (2) the newly proposed model adaptively aggregates the bond and atom information and iteratively refines the coordinates of the generated conformation. Our method achieves the best results on GEOM-QM9 and GEOM-Drugs datasets. Further analysis shows that our generated conformations have closer properties (e.g., HOMO-LUMO gap) with the groundtruth conformations. In addition, our method improves molecular docking by providing better initial conformations. All the results demonstrate the effectiveness of our method and the great potential of the direct approach. The code is released at https://github.com/DirectMolecularConfGen/DMCG
translated by 谷歌翻译
抗体设计对于治疗用法和生物学研究很有价值。现有的基于深度学习的方法遇到了几个关键问题:1)互补性区域(CDRS)生成的不完整上下文; 2)无法捕获输入结构的整个3D几何; 3)以自回归方式对CDR序列的效率低下。在本文中,我们提出了多通道等效的注意网络(平均值),这是一个能够共同设计1D序列和CDR的3D结构的端到端模型。要具体,平均值将抗体设计作为条件图翻译问题,通过导入包括靶抗原和抗体的轻链在内的额外组件。然后,平均诉诸于E(3) - 等级信息以及提出的注意机制,以更好地捕获不同组件之间的几何相关性。最后,它通过多轮渐进式完整射击方案来输出1D序列和3D结构,该方案在以前的自动回归方法上具有更高的效率。我们的方法显着超过了序列和结构建模,抗原结合抗体设计和结合亲和力优化的最新模型。具体而言,抗原结合CDR设计的相对改善约为22%,亲和力优化为34%。
translated by 谷歌翻译
偶极矩是一个物理量,指示分子的极性,并通过反映成分原子的电性能和分子的几何特性来确定。大多数用于表示传统图神经网络方法中图表表示的嵌入方式将分子视为拓扑图,从而为识别几何信息的目标造成了重大障碍。与现有的嵌入涉及均值的嵌入不同,该嵌入适当地处理分子的3D结构不同,我们的拟议嵌入直接表达了偶极矩局部贡献的物理意义。我们表明,即使对于具有扩展几何形状的分子并捕获更多的原子相互作用信息,开发的模型甚至可以合理地工作,从而显着改善了预测结果,准确性与AB-Initio计算相当。
translated by 谷歌翻译
使用图神经网络(GNN)提取分子的信息表示,对于AI驱动的药物发现至关重要。最近,图形研究界一直在试图复制自然语言处理预处理的成功,并获得了一些成功。但是,我们发现在许多情况下,自我监督预审计对分子数据的益处可以忽略不计。我们对GNN预处理的关键组成部分进行了彻底的消融研究,包括预处理目标,数据拆分方法,输入特征,预处理数据集量表和GNN体系结构,以决定下游任务的准确性。我们的第一个重要发现是,在许多情况下,自我监督的图表预处理没有统计学上的显着优势。其次,尽管可以通过额外的监督预处理可以观察到改进,但通过更丰富或更平衡的数据拆分,改进可能会减少。第三,实验性超参数对下游任务的准确性具有更大的影响,而不是训练训练的任务。我们假设对分子进行预训练的复杂性不足,从而导致下游任务的可转移知识较低。
translated by 谷歌翻译
建模分子势能表面在科学中至关重要。图神经网络在该领域表现出了巨大的成功,尤其是那些使用旋转等级表示的人。但是,他们要么患有复杂的数学形式,要么缺乏理论支持和设计原则。为了避免使用模棱两可的表示,我们引入了一种新型的本地框架方法来分子表示学习并分析其表现力。借助框架上的框架和模棱两可的向量的投影,GNN可以将原子的局部环境映射到标量表示。也可以在框架上投影在本地环境中传递消息。我们进一步分析了何时以及如何构建此类本地框架。我们证明,当局部环境没有对称性时,局部框架总是存在的,就像分子动力学模拟中一样。对于对称分子,尽管只能构建退化框架,但我们发现,由于自由度降低,在某些常见情况下,局部框架方法仍可能达到高表达能力。仅使用标量表示,我们可以采用现有的简单和强大的GNN体系结构。我们的模型在实验中的表现优于一系列最先进的基线。更简单的体系结构也可以提高更高的可扩展性。与最快的基线相比,我们的模型仅需30%的推理时间。
translated by 谷歌翻译
Molecular dynamics (MD) has long been the de facto choice for simulating complex atomistic systems from first principles. Recently deep learning models become a popular way to accelerate MD. Notwithstanding, existing models depend on intermediate variables such as the potential energy or force fields to update atomic positions, which requires additional computations to perform back-propagation. To waive this requirement, we propose a novel model called DiffMD by directly estimating the gradient of the log density of molecular conformations. DiffMD relies on a score-based denoising diffusion generative model that perturbs the molecular structure with a conditional noise depending on atomic accelerations and treats conformations at previous timeframes as the prior distribution for sampling. Another challenge of modeling such a conformation generation process is that a molecule is kinetic instead of static, which no prior works have strictly studied. To solve this challenge, we propose an equivariant geometric Transformer as the score function in the diffusion process to calculate corresponding gradients. It incorporates the directions and velocities of atomic motions via 3D spherical Fourier-Bessel representations. With multiple architectural improvements, we outperform state-of-the-art baselines on MD17 and isomers of C7O2H10 datasets. This work contributes to accelerating material and drug discovery.
translated by 谷歌翻译
这项工作引入了3D分子生成的扩散模型,该模型与欧几里得转化一样。我们的e(3)e象扩散模型(EDM)学会了通过均衡网络的扩散过程,该网络共同在连续(原子坐标)和分类特征(原子类型)上共同运行。此外,我们提供了一种概率分析,该分析使用我们的模型接受了分子的可能性计算。在实验上,所提出的方法显着优于先前关于生成样品质量和训练时效率的3D分子生成方法。
translated by 谷歌翻译
分子模拟的粗粒度(CG)通过将选定的原子分组为伪珠并大幅加速模拟来简化粒子的表示。但是,这种CG程序会导致信息损失,从而使准确的背景映射,即从CG坐标恢复细粒度(FG)坐标,这是一个长期存在的挑战。受生成模型和e象网络的最新进展的启发,我们提出了一个新型模型,该模型严格嵌入了背态转换的重要概率性质和几何一致性要求。我们的模型将FG的不确定性编码为不变的潜在空间,并通过Equivariant卷积将其解码为FG几何形状。为了标准化该领域的评估,我们根据分子动力学轨迹提供了三个综合基准。实验表明,我们的方法始终恢复更现实的结构,并以显着的边距胜过现有的数据驱动方法。
translated by 谷歌翻译
Graph neural networks have recently achieved great successes in predicting quantum mechanical properties of molecules. These models represent a molecule as a graph using only the distance between atoms (nodes). They do not, however, consider the spatial direction from one atom to another, despite directional information playing a central role in empirical potentials for molecules, e.g. in angular potentials. To alleviate this limitation we propose directional message passing, in which we embed the messages passed between atoms instead of the atoms themselves. Each message is associated with a direction in coordinate space. These directional message embeddings are rotationally equivariant since the associated directions rotate with the molecule. We propose a message passing scheme analogous to belief propagation, which uses the directional information by transforming messages based on the angle between them. Additionally, we use spherical Bessel functions and spherical harmonics to construct theoretically well-founded, orthogonal representations that achieve better performance than the currently prevalent Gaussian radial basis representations while using fewer than 1 /4 of the parameters. We leverage these innovations to construct the directional message passing neural network (DimeNet). DimeNet outperforms previous GNNs on average by 76 % on MD17 and by 31 % on QM9. Our implementation is available online. 1
translated by 谷歌翻译
产生稳定材料的周期性结构是材料设计界的长期挑战。这个任务很难,因为稳定的材料只存在于原子的所有可能的周期性布置的低维子空间中:1)坐标必须位于量子力学限定的局部能量最小,而2)全球稳定性也需要遵循结构不同原子类型之间的复杂,但特定的粘合偏好。现有方法未能纳入这些因素,并且经常缺乏适当的侵略者。我们提出了一种晶体扩散变分性AutoEncoder(CDVAE),其捕获材料稳定性的物理感应偏差。通过从稳定材料的数据分布中学习,解码器在扩散过程中产生材料,其将原子坐标朝向较低能量状态移动并更新原子类型以满足邻居之间的粘接偏好。我们的模型还明确地编码了周期性边界的交互,尊重置换,转换,旋转和周期性修正。我们在三个任务中显着优于过去的方法:1)重建输入结构,2)产生有效,多样化和现实的材料和3)产生优化特定性质的材料。我们还为更广泛的机器学习界提供了几个标准数据集和评估指标。
translated by 谷歌翻译
图神经网络的自我监督学习(SSL)正在成为利用未标记数据的有前途的方式。当前,大多数方法基于从图像域改编的对比度学习,该学习需要视图生成和足够数量的负样本。相比之下,现有的预测模型不需要负面抽样,但缺乏关于借口训练任务设计的理论指导。在这项工作中,我们提出了lagraph,这是基于潜在图预测的理论基础的预测SSL框架。 lagraph的学习目标被推导为自我监督的上限,以预测未观察到的潜在图。除了改进的性能外,Lagraph还为包括基于不变性目标的预测模型的最新成功提供了解释。我们提供了比较毛发与不同领域中相关方法的理论分析。我们的实验结果表明,劳拉在性能方面的优势和鲁棒性对于训练样本量减少了图形级别和节点级任务。
translated by 谷歌翻译