到目前为止,分子科学的深度学习主要集中在2D分子图上。然而,最近,由于其科学意义和在现实世界应用中的重要性,已经进行了将其扩展到3D分子几何形状。 3D距离几何图表示(DG-GR)采用代表3D图几何形状的统一方案(距离)。它与图形的旋转和翻译是不变的,它反映了配对节点相互作用及其通常局部性质,尤其与3D分子几何相关。为了促进分子科学深度学习中3D分子几何形状的融合,我们采用了具有动态注意力的新图形注意网络(GATV2)与DG-GR一起使用,并提出了3D距离几何图形注意网络(DG-GAT)。 GATV2非常适合DG-GR,因为注意力可能因节点和节点之间的距离而异。 ESOL和FREESOLV数据集的DG-GAT的实验结果显示出基于2D分子图的标准图卷积网络的重大改进(分别为31%和38%)。 QM9数据集也是如此。我们的工作证明了基于3D分子几何形状的深度学习的DG-GAT的效用和价值。
translated by 谷歌翻译
许多现实世界数据可以建模为3D图,但是完全有效地包含3D信息的学习表示形式具有挑战性。现有方法要么使用部分3D信息,要么遭受过多的计算成本。为了完全有效地合并3D信息,我们提出了一个新的消息传递方案,该方案在1跳社区内运行。我们的方法通过实现全球和本地完整性来确保有关3D图的3D信息的完整性。值得注意的是,我们提出了重要的旋转角度来实现全球完整性。此外,我们证明我们的方法比先前的方法快。我们为我们的方法提供了严格的完整性证明和时间复杂性的分析。由于分子本质上是量子系统,我们通过梳理量子启发的基础函数和提出的消息传递方案来构建\下划线{com} plete {com} plete {com} plete {com} plete {e}。实验结果证明了COMENET的能力和效率,尤其是在数量和尺寸大小的现实数据集上。我们的代码作为DIG库的一部分公开可用(\ url {https://github.com/divelab/dig})。
translated by 谷歌翻译
偶极矩是一个物理量,指示分子的极性,并通过反映成分原子的电性能和分子的几何特性来确定。大多数用于表示传统图神经网络方法中图表表示的嵌入方式将分子视为拓扑图,从而为识别几何信息的目标造成了重大障碍。与现有的嵌入涉及均值的嵌入不同,该嵌入适当地处理分子的3D结构不同,我们的拟议嵌入直接表达了偶极矩局部贡献的物理意义。我们表明,即使对于具有扩展几何形状的分子并捕获更多的原子相互作用信息,开发的模型甚至可以合理地工作,从而显着改善了预测结果,准确性与AB-Initio计算相当。
translated by 谷歌翻译
通过定向消息传递通过方向消息通过的图形神经网络最近在多个分子特性预测任务上设置了最先进的技术。然而,它们依赖于通常不可用的原子位置信息,并获得它通常非常昂贵甚至不可能。在本文中,我们提出了合成坐标,使得能够使用高级GNN而不需要真正的分子配置。我们提出了两个距离作为合成坐标:使用个性化PageRank的对称变体指定分子配置的粗糙范围和基于图的距离的距离界限。为了利用距离和角度信息,我们提出了一种将正常图形神经网络转换为定向MPNN的方法。我们表明,通过这种转变,我们可以将正常图形神经网络的误差减少55%在锌基准。我们还通过在SMP和DimeNet ++模型中纳入合成坐标,在锌和自由QM9上设定了最新技术。我们的实现可在线获取。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译
事实证明,分子机器学习(ML)对于解决各种分子问题很重要,包括预测蛋白质 - 药物相互作用和血液脑性渗透性。自最近以来,已经为分子ML实施了所谓的图神经网络(GNN),显示出与基于描述符的方法相当或出色的性能。尽管存在各种工具和包装用于将GNN用于分子ML,但新的GNN包装,名为Molgraph(https://github.com/akensert/molgraph),在这项工作中开发了,以创建GNNS与TensorFlow高度兼容的动力和KERAS应用程序编程接口(API)。由于Molgraph专门关注分子ML,因此实施了化学模块,以适应分子图的产生$ \ unicode {x2014} $,然后可以将其输入到GNNS中以用于分子ML。为了验证GNN,它们针对分子数据集以及三个色谱保留时间数据集进行了基准测试。这些基准测试的结果表明,GNN按预期进行。此外,GNN被证明可用于分子识别和改善色谱保留数据的可解释性。
translated by 谷歌翻译
在过去几年中,人们对代表性学习的图形神经网络(GNN)的兴趣不大。GNN提供了一个一般有效的框架,可以从图形结构化数据中学习。但是,GNN通常仅使用一个非常有限的邻域的信息来避免过度光滑。希望为模型提供更多信息。在这项工作中,我们将个性化Pagerank(PPR)的极限分布纳入图形注意力网络(GATS)中,以反映较大的邻居信息,而无需引入过度光滑。从直觉上讲,基于个性化Pagerank的消息聚合对应于无限的许多邻里聚合层。我们表明,对于四个广泛使用的基准数据集,我们的模型优于各种基线模型。我们的实施已在线公开。
translated by 谷歌翻译
我们考虑在编码晶体材料的周期图上的表示形式学习。与常规图不同,周期图由最小单位单元组成,该单元在3D空间中的常规晶格上重复出现。如何有效编码这些周期结构会带来常规图表学习中不存在的独特挑战。除了E(3)不变外,周期性的图表表示还需要定期不变。也就是说,学到的表示形式应该不变,因为它们是人为强加的。此外,需要明确捕获周期性重复模式,因为不同尺寸和方向的晶格可能对应于不同的材料。在这项工作中,我们提出了一个变压器体系结构,称为Matformer,以进行周期性图表学习。我们的拟合器设计为周期性不变,可以明确捕获重复模式。特别是,Matformer通过有效使用相邻细胞中相同原子之间的几何距离来编码周期模式。多个通用基准数据集的实验结果表明,我们的配合器的表现始终超过基线方法。此外,我们的结果证明了定期不变性和对晶体表示学习的明确重复模式编码的重要性。
translated by 谷歌翻译
Graphs are ubiquitous in nature and can therefore serve as models for many practical but also theoretical problems. For this purpose, they can be defined as many different types which suitably reflect the individual contexts of the represented problem. To address cutting-edge problems based on graph data, the research field of Graph Neural Networks (GNNs) has emerged. Despite the field's youth and the speed at which new models are developed, many recent surveys have been published to keep track of them. Nevertheless, it has not yet been gathered which GNN can process what kind of graph types. In this survey, we give a detailed overview of already existing GNNs and, unlike previous surveys, categorize them according to their ability to handle different graph types and properties. We consider GNNs operating on static and dynamic graphs of different structural constitutions, with or without node or edge attributes. Moreover, we distinguish between GNN models for discrete-time or continuous-time dynamic graphs and group the models according to their architecture. We find that there are still graph types that are not or only rarely covered by existing GNN models. We point out where models are missing and give potential reasons for their absence.
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
分子表示学习(MRL)是建立机器学习与化学科学之间联系的关键步骤。特别是,它将分子编码为保留分子结构和特征的数值向量,在其上可以执行下游任务(例如,属性预测)。最近,MRL取得了相当大的进步,尤其是在基于深的分子图学习方法中。在这项调查中,我们系统地回顾了这些基于图的分子表示技术。具体而言,我们首先介绍2D和3D图分子数据集的数据和功能。然后,我们总结了专门为MRL设计的方法,并将其分为四种策略。此外,我们讨论了MRL支持的一些典型化学应用。为了促进该快速发展领域的研究,我们还列出了论文中的基准和常用数据集。最后,我们分享我们对未来研究方向的想法。
translated by 谷歌翻译
A prominent paradigm for graph neural networks is based on the message passing framework. In this framework, information communication is realized only between neighboring nodes. The challenge of approaches that use this paradigm is to ensure efficient and accurate \textit{long distance communication} between nodes, as deep convolutional networks are prone to over-smoothing. In this paper, we present a novel method based on time derivative graph diffusion (TIDE), with a learnable time parameter. Our approach allows to adapt the spatial extent of diffusion across different tasks and network channels, thus enabling medium and long-distance communication efficiently. Furthermore, we show that our architecture directly enables local message passing and thus inherits from the expressive power of local message passing approaches. We show that on widely used graph benchmarks we achieve comparable performance and on a synthetic mesh dataset we outperform state-of-the-art methods like GCN or GRAND by a significant margin.
translated by 谷歌翻译
近年来,图表表示学习越来越多地引起了越来越长的关注,特别是为了在节点和图表水平上学习对分类和建议任务的低维嵌入。为了能够在现实世界中的大规模图形数据上学习表示,许多研究专注于开发不同的抽样策略,以方便培训过程。这里,我们提出了一种自适应图策略驱动的采样模型(GPS),其中通过自适应相关计算实现了本地邻域中每个节点的影响。具体地,邻居的选择是由自适应策略算法指导的,直接贡献到消息聚合,节点嵌入更新和图级读出步骤。然后,我们从各种角度对图表分类任务进行全面的实验。我们所提出的模型在几个重要的基准测试中优于现有的3%-8%,实现了现实世界数据集的最先进的性能。
translated by 谷歌翻译
自我监督学习(SSL)是一种通过利用数据中固有的监督来学习数据表示的方法。这种学习方法是药物领域的焦点,由于耗时且昂贵的实验,缺乏带注释的数据。使用巨大未标记数据的SSL显示出在分子属性预测方面表现出色的性能,但存在一些问题。 (1)现有的SSL模型是大规模的;在计算资源不足的情况下实现SSL有限制。 (2)在大多数情况下,它们不利用3D结构信息进行分子表示学习。药物的活性与药物分子的结构密切相关。但是,大多数当前模型不使用3D信息或部分使用它。 (3)以前对分子进行对比学习的模型使用置换原子和键的增强。因此,具有不同特征的分子可以在相同的阳性样品中。我们提出了一个新颖的对比学习框架,用于分子属性预测的小规模3D图对比度学习(3DGCL),以解决上述问题。 3DGCL通过不改变药物语义的预训练过程来反映分子的结构来学习分子表示。仅使用1,128个样本用于预训练数据和100万个模型参数,我们在四个回归基准数据集中实现了最先进或可比性的性能。广泛的实验表明,基于化学知识的3D结构信息对于用于财产预测的分子表示学习至关重要。
translated by 谷歌翻译
Existing popular methods for semi-supervised learning with Graph Neural Networks (such as the Graph Convolutional Network) provably cannot learn a general class of neighborhood mixing relationships. To address this weakness, we propose a new model, MixHop, that can learn these relationships, including difference operators, by repeatedly mixing feature representations of neighbors at various distances. MixHop requires no additional memory or computational complexity, and outperforms on challenging baselines. In addition, we propose sparsity regularization that allows us to visualize how the network prioritizes neighborhood information across different graph datasets. Our analysis of the learned architectures reveals that neighborhood mixing varies per datasets. 1 We use "like", as graph edges are not axis-aligned.
translated by 谷歌翻译
学习有效的蛋白质表示在生物学的各种任务中至关重要,例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型,然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性,但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能,尽管蛋白质结构已知是蛋白质功能的决定因素,但尚未探索。在本文中,我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器,以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明,我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论,同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。
translated by 谷歌翻译
图形神经网络(GNN)已成为一种学习关系数据的强大技术。由于他们执行的消息传递步骤数量相对有限 - 因此一个较小的接收领域,人们对通过结合基础图的结构方面来提高其表现力引起了极大的兴趣。在本文中,我们探讨了亲和力措施作为图形神经网络中的特征,特别是由随机步行引起的措施,包括有效的阻力,击球和通勤时间。我们根据这些功能提出消息传递网络,并评估其在各种节点和图形属性预测任务上的性能。我们的体系结构具有较低的计算复杂性,而我们的功能对于基础图的排列不变。我们计算的措施使网络可以利用图表的连接性能,从而使我们能够超过相关的基准,用于各种任务,通常具有更少的消息传递步骤。在OGB-LSC-PCQM4MV1的最大公共图形回归数据集之一中,我们在编写时获得了最著名的单模验证MAE。
translated by 谷歌翻译
The field of geometric deep learning has had a profound impact on the development of innovative and powerful graph neural network architectures. Disciplines such as computer vision and computational biology have benefited significantly from such methodological advances, which has led to breakthroughs in scientific domains such as protein structure prediction and design. In this work, we introduce GCPNet, a new geometry-complete, SE(3)-equivariant graph neural network designed for 3D graph representation learning. We demonstrate the state-of-the-art utility and expressiveness of our method on six independent datasets designed for three distinct geometric tasks: protein-ligand binding affinity prediction, protein structure ranking, and Newtonian many-body systems modeling. Our results suggest that GCPNet is a powerful, general method for capturing complex geometric and physical interactions within 3D graphs for downstream prediction tasks. The source code, data, and instructions to train new models or reproduce our results are freely available on GitHub.
translated by 谷歌翻译
近三年来,异质图神经网络(HGNN)吸引了研究的兴趣。大多数现有的HGNN分为两类。一个类是基于元路径的HGNN,要么需要域知识才能手工制作元路径,要么花费大量时间和内存来自动构建元路径。另一个类不依赖元路径结构。它将均匀的卷积图神经网络(Conv-GNN)作为骨架,并通过引入节点型和边缘型依赖性参数将其扩展到异质图。不管元路径依赖性如何,大多数现有的HGNN都采用浅层探测器(例如GCN和GAT)来汇总邻里信息,并且可能有限地捕获高阶邻里信息的能力。在这项工作中,我们提出了两个异构图树网络模型:异质图树卷积网络(HETGTCN)和异质图树注意网络(HETGTAN),它们不依赖元路径来在两个节点特征和图形结构中编码异质性。在三个现实世界的异质图数据上进行了广泛的实验表明,所提出的HETGTCN和HETGTAN具有有效的效率,并且一致地超过了所有最先进的HGNN基准在半监视的节点分类任务上,并且可以深入不受损害的性能。
translated by 谷歌翻译
链接预测是一项重要的任务,在各个域中具有广泛的应用程序。但是,大多数现有的链接预测方法都假定给定的图遵循同质的假设,并设计基于相似性的启发式方法或表示学习方法来预测链接。但是,许多现实世界图是异性图,同义假设不存在,这挑战了现有的链接预测方法。通常,在异性图中,有许多引起链接形成的潜在因素,并且两个链接的节点在一个或两个因素中往往相似,但在其他因素中可能是不同的,导致总体相似性较低。因此,一种方法是学习每个节点的分离表示形式,每个矢量捕获一个因子上的节点的潜在表示,这铺平了一种方法来模拟异性图中的链接形成,从而导致更好的节点表示学习和链接预测性能。但是,对此的工作非常有限。因此,在本文中,我们研究了一个新的问题,该问题是在异性图上进行链接预测的分离表示学习。我们提出了一种新颖的框架分解,可以通过建模链接形成并执行感知因素的消息来学习以促进链接预测来学习解开的表示形式。在13个现实世界数据集上进行的广泛实验证明了Disenlink对异性恋和血友病图的链接预测的有效性。我们的代码可从https://github.com/sjz5202/disenlink获得
translated by 谷歌翻译