对象之间的良好距离和相似性度量的选择对于许多机器学习方法很重要。因此,近年来已经开发了许多度量学习算法,主要用于欧几里得数据,以提高分类或聚类方法的性能。但是,由于难以在归因图之间建立可计算,高效和可区分的距离,尽管社区的浓厚兴趣,但很少开发适合图形的度量学习算法。在本文中,我们通过提出一个新的简单图表学习 - SGML-模型,该模型几乎没有基于简单的图形卷积神经网络-SGCN-和最佳传输理论元素。该模型使我们能够与标记(属性)图的数据库建立适当的距离,以提高简单分类算法(例如$ k $ -nn)的性能。可以快速训练这个距离,同时保持良好的表现,如本文中提出的实验研究所示。
translated by 谷歌翻译
比较图形等结构的对象是许多学习任务中涉及的基本操作。为此,基于最优传输(OT)的Gromov-Wasserstein(GW)距离已被证明可以成功处理相关对象的特定性质。更具体地说,通过节点连接关系,GW在图表上运行,视为特定空间上的概率测量。在OT的核心处是质量守恒的想法,这在两个被认为的图表中的所有节点之间施加了耦合。我们在本文中争辩说,这种财产可能对图形字典或分区学习等任务有害,我们通过提出新的半轻松的Gromov-Wasserstein发散来放松它。除了立即计算福利之外,我们讨论其属性,并表明它可以导致有效的图表字典学习算法。我们经验展示其对图形上的复杂任务的相关性,例如分区,聚类和完成。
translated by 谷歌翻译
本文介绍了一个新颖而通用的框架,以利用最佳运输工具来解决监督标记的图形预测的旗舰任务。我们将问题提出为融合Gromov-Wasserstein(FGW)损失的回归,并提出了一个依靠FGW Barycenter的预测模型,该模型的权重取决于输入。首先,我们基于内核脊回归引入了一个非参数估计量,该估计量得到了理论结果,例如一致性和过量风险绑定。接下来,我们提出了一个可解释的参数模型,其中Barycenter权重用神经网络建模,并进一步学习了FGW Barycenter的图形。数值实验表明了该方法的强度及其在模拟数据上标记的图形空间以及难以实现的代谢识别问题上插值的能力,在这种情况下,它几乎没有工程学才能达到非常好的性能。
translated by 谷歌翻译
在用于图形结构数据的几台机器学习任务中,所考虑的图形可以由不同数量的节点组成。因此,需要设计汇集方法,该方法将不同大小的图形表示聚合到固定大小的表示,其可以用于下游任务,例如图形分类。现有的图形池池方法没有关于图形表示的相似性和其汇总版的保证。在这项工作中,我们通过提出流池来解决这些限制,通过最小化其Wassersein距离,通过最佳地将图形表示的统计数据统计到其汇集的对应物。这是通过对汇集的图形表示来执行Wasserstein梯度流来实现的。我们提出了我们的方法,可以通过任何基础成本考虑表示空间的几何形状。该实施依赖于与最近提出的隐式差异化方案的Wasserstein距离的计算。我们的汇集方法可用于自动分化,可以集成在端到端的深度学习架构中。此外,流量池是不变的,因此可以与GNN中的置换设备提取层组合,以便获得与节点的排序无关的预测。实验结果表明,与现有在图形分类任务中的现有汇集方法相比,我们的方法导致性能增加。
translated by 谷歌翻译
近年来,基于Weisfeiler-Leman算法的算法和神经架构,是一个众所周知的Graph同构问题的启发式问题,它成为具有图形和关系数据的机器学习的强大工具。在这里,我们全面概述了机器学习设置中的算法的使用,专注于监督的制度。我们讨论了理论背景,展示了如何将其用于监督的图形和节点表示学习,讨论最近的扩展,并概述算法的连接(置换 - )方面的神经结构。此外,我们概述了当前的应用和未来方向,以刺激进一步的研究。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
Weisfeiler-Lehman(WL)测试已广泛应用于图内核,指标和神经网络。但是,它仅考虑图的一致性,从而导致结构信息的描述能力较弱。因此,它限制了应用方法的性能提高。另外,WL检验定义的图之间的相似性和距离是粗略的测量。据我们所知,本文首次阐明了这些事实,并定义了我们称为Wasserstein WL子树(WWLS)距离的指标。我们将WL子树引入节点附近的结构信息,并将其分配给每个节点。然后,我们定义一个基于$ l_1 $ - 应用的树编辑距离($ l_1 $ - ted)的新图嵌入空间:$ l_1 $ norm of noce noce node node nord noce node fartial farture varter vectors in space上的差异为$ l_1 $ - 节点。我们进一步提出了一种用于图嵌入的快速算法。最后,我们使用Wasserstein距离来反映$ L_1 $的图形级别。 WWL可以捕获传统指标困难的结构的小变化。我们在几个图形分类和度量验证实验中演示了其性能。
translated by 谷歌翻译
We introduce and analyze NetOTC, a procedure for the comparison and soft alignment of weighted networks. Given two networks and a cost function relating their vertices, NetOTC finds an appropriate coupling of their associated random walks having minimum expected cost. The minimizing cost provides a numerical measure of the difference between the networks, while the optimal transport plan itself provides interpretable, probabilistic alignments of the vertices and edges of the two networks. The cost function employed can be based, for example, on vertex degrees, externally defined features, or Euclidean embeddings. Coupling of the full random walks, rather than their stationary distributions, ensures that NetOTC captures local and global information about the given networks. NetOTC applies to networks of different size and structure, and does not the require specification of free parameters. NetOTC respects edges, in the sense that vertex pairs in the given networks are aligned with positive probability only if they are adjacent in the given networks. We investigate a number of theoretical properties of NetOTC that support its use, including metric properties of the minimizing cost and its connection with short- and long-run average cost. In addition, we introduce a new notion of factor for weighted networks, and establish a close connection between factors and NetOTC. Complementing the theory, we present simulations and numerical experiments showing that NetOTC is competitive with, and sometimes superior to, other optimal transport-based network comparison methods in the literature. In particular, NetOTC shows promise in identifying isomorphic networks using a local (degree-based) cost function.
translated by 谷歌翻译
The accuracy of k-nearest neighbor (kNN) classification depends significantly on the metric used to compute distances between different examples. In this paper, we show how to learn a Mahalanobis distance metric for kNN classification from labeled examples. The Mahalanobis metric can equivalently be viewed as a global linear transformation of the input space that precedes kNN classification using Euclidean distances. In our approach, the metric is trained with the goal that the k-nearest neighbors always belong to the same class while examples from different classes are separated by a large margin. As in support vector machines (SVMs), the margin criterion leads to a convex optimization based on the hinge loss. Unlike learning in SVMs, however, our approach requires no modification or extension for problems in multiway (as opposed to binary) classification. In our framework, the Mahalanobis distance metric is obtained as the solution to a semidefinite program. On several data sets of varying size and difficulty, we find that metrics trained in this way lead to significant improvements in kNN classification. Sometimes these results can be further improved by clustering the training examples and learning an individual metric within each cluster. We show how to learn and combine these local metrics in a globally integrated manner.
translated by 谷歌翻译
Graph AutoCododers(GAE)和变分图自动编码器(VGAE)作为链接预测的强大方法出现。他们的表现对社区探测问题的印象不那么令人印象深刻,根据最近和同意的实验评估,它们的表现通常超过了诸如louvain方法之类的简单替代方案。目前尚不清楚可以通过GAE和VGAE改善社区检测的程度,尤其是在没有节点功能的情况下。此外,不确定是否可以在链接预测上同时保留良好的性能。在本文中,我们表明,可以高精度地共同解决这两个任务。为此,我们介绍和理论上研究了一个社区保留的消息传递方案,通过在计算嵌入空间时考虑初始图形结构和基于模块化的先验社区来掺杂我们的GAE和VGAE编码器。我们还提出了新颖的培训和优化策略,包括引入一个模块化的正规器,以补充联合链路预测和社区检测的现有重建损失。我们通过对各种现实世界图的深入实验验证,证明了方法的经验有效性,称为模块化感知的GAE和VGAE。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
这篇综述的目的是将读者介绍到图表内,以将其应用于化学信息学中的分类问题。图内核是使我们能够推断分子的化学特性的功能,可以帮助您完成诸如寻找适合药物设计的化合物等任务。内核方法的使用只是一种特殊的两种方式量化了图之间的相似性。我们将讨论限制在这种方法上,尽管近年来已经出现了流行的替代方法,但最著名的是图形神经网络。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
图表比较涉及识别图之间的相似性和异化。主要障碍是图形的未知对准,以及缺乏准确和廉价的比较度量。在这项工作中,我们引入过滤器图距离。它是一种基于最佳的传输距离,其通过滤波图信号的概率分布驱动图表比较。这产生了高度灵活的距离,能够在观察到的图表中优先考虑不同的光谱信息,为比较度量提供广泛的选择。我们通过计算图表置换来解决图表对齐问题,该置换最小化了我们的新滤波器距离,这隐含地解决了曲线图比较问题。然后,我们提出了一种新的近似成本函数,这些函数避免了曲线图比较固有的许多计算困难,并且允许利用镜面梯度下降等快速算法,而不会严重牺牲性能。我们终于提出了一种衍生自镜面梯度下降的随机版本的新型算法,其适应对准问题的非凸性,在性能准确性和速度之间提供良好的折衷。图表对准和分类的实验表明,通过滤波图距离所获得的灵活性可以对性能产生显着影响,而近似成本提供的速度差异使得适用于实际设置的框架。
translated by 谷歌翻译
引入了Wasserstein距离的许多变体,以减轻其原始计算负担。尤其是切成薄片的距离(SW),该距离(SW)利用了一维投影,可以使用封闭式的瓦斯汀距离解决方案。然而,它仅限于生活在欧几里得空间中的数据,而Wasserstein距离已被研究和最近在歧管上使用。我们更具体地专门地关注球体,为此定义了新颖的SW差异,我们称之为球形切片 - 拖鞋,这是朝着定义SW差异的第一步。我们的构造明显基于圆圈上瓦斯汀距离的封闭式解决方案,以及新的球形ra径。除了有效的算法和相应的实现外,我们在几个机器学习用例中说明了它的属性,这些用例中,数据的球形表示受到威胁:在球体上的密度估计,变异推理或超球体自动编码器。
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
消息传递神经网络(MPNNS)是由于其简单性和可扩展性而大部分地进行图形结构数据的深度学习的领先架构。不幸的是,有人认为这些架构的表现力有限。本文提出了一种名为Comifariant Subgraph聚合网络(ESAN)的新颖框架来解决这个问题。我们的主要观察是,虽然两个图可能无法通过MPNN可区分,但它们通常包含可区分的子图。因此,我们建议将每个图形作为由某些预定义策略导出的一组子图,并使用合适的等分性架构来处理它。我们为图同构同构同构造的1立维Weisfeiler-Leman(1-WL)测试的新型变体,并在这些新的WL变体方面证明了ESAN的表达性下限。我们进一步证明,我们的方法增加了MPNNS和更具表现力的架构的表现力。此外,我们提供了理论结果,描述了设计选择诸如子图选择政策和等效性神经结构的设计方式如何影响我们的架构的表现力。要处理增加的计算成本,我们提出了一种子图采样方案,可以将其视为我们框架的随机版本。关于真实和合成数据集的一套全面的实验表明,我们的框架提高了流行的GNN架构的表现力和整体性能。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译