Recent work shows that the expressive power of Graph Neural Networks (GNNs) in distinguishing non-isomorphic graphs is exactly the same as that of the Weisfeiler-Lehman (WL) graph test. In particular, they show that the WL test can be simulated by GNNs. However, those simulations involve neural networks for the 'combine' function of size polynomial or even exponential in the number of graph nodes $n$, as well as feature vectors of length linear in $n$. We present an improved simulation of the WL test on GNNs with \emph{exponentially} lower complexity. In particular, the neural network implementing the combine function in each node has only a polylogarithmic number of parameters in $n$, and the feature vectors exchanged by the nodes of GNN consists of only $O(\log n)$ bits. We also give logarithmic lower bounds for the feature vector length and the size of the neural networks, showing the (near)-optimality of our construction.
translated by 谷歌翻译
单调功能和数据集在各种应用中都会出现。我们研究单调数据集的插值问题:输入是带有$ n $点的单调数据集,目标是找到一个大小和深度有效的单调神经网络,具有非负参数和阈值单元,可以插入数据放。我们表明,单调数据集无法通过深度$ 2 $的单调网络插值。另一方面,我们证明,对于每个单调数据集,在$ \ mathbb {r}^d $中$ n $点,存在一个插值的单调网络,该网络的深度为$ 4 $ $ 4 $和size $ o(nd)$。我们的插值结果意味着,每个单调功能超过$ [0,1]^d $可以通过DEPTH-4单调网络任意地近似,从而改善了先前最著名的深度构建$ d+1 $。最后,基于布尔电路复杂性的结果,我们表明,当近似单调函数时,具有正参数的电感偏差会导致神经元数量的超顺式爆炸。
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
我们研究了图形表示学习的量子电路,并提出了等级的量子图电路(EQGCS),作为一类参数化量子电路,具有强大的关系感应偏压,用于学习图形结构数据。概念上,EQGCS作为量子图表表示学习的统一框架,允许我们定义几个有趣的子类,其中包含了现有的提案。就代表性权力而言,我们证明了感兴趣的子类是界限图域中的函数的普遍近似器,并提供实验证据。我们对量子图机学习方法的理论透视开启了许多方向以进行进一步的工作,可能导致具有超出古典方法的能力的模型。
translated by 谷歌翻译
图形神经网络(GNNS)是关于图形机器学习问题的深度学习架构。最近已经表明,GNN的富有效力可以精确地由组合Weisfeiler-Leman算法和有限可变计数逻辑来表征。该对应关系甚至导致了对应于更高维度的WL算法的新的高阶GNN。本文的目的是解释GNN的这些描述性特征。
translated by 谷歌翻译
本文研究了辍学图神经网络(DAVERGNNS),一种旨在克服标准GNN框架的局限性的新方法。在DAMPGNNS中,我们在输入图上执行多个GNN运行,其中一些节点随机且独立地在这些运行中丢弃。然后,我们将这些运行的结果结合起来获得最终结果。我们证明DAMPGNN可以区分无法通过GNN的消息分隔的各种图形邻域。我们导出了确保可靠分布辍学所需的运行数量的理论界限,我们证明了有关DACKGNNS的表现能力和限制的若干特性。我们在实验上验证了我们对表现力的理论结果。此外,我们表明DOWNNNS在已建立的GNN基准上表现得很竞争。
translated by 谷歌翻译
我们研究了用于线性回归的主动采样算法,该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目,并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $,其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $,我们提供了一种基于Lewis权重采样的算法,其使用只需$ \ tilde {o}输出$(1+ \ epsilon)$近似解决方案(d ^ {\ max(1,{p / 2})} / \ mathrm {poly}(\ epsilon))$查询到$ b $。我们表明,这一依赖于$ D $是最佳的,直到对数因素。我们的结果解决了陈和Derezi的最近开放问题,陈和Derezi \'{n} Ski,他们为$ \ ell_1 $ norm提供了附近的最佳界限,以及$ p \中的$ \ ell_p $回归的次优界限(1,2) $。我们还提供了$ O的第一个总灵敏度上限(D ^ {\ max \ {1,p / 2 \} \ log ^ 2 n)$以满足最多的$ p $多项式增长。这改善了Tukan,Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果,我们获得了一个使$ \ tilde o的活动回归算法(d ^ {1+ \ max \ {1,p / 2 \}} / \ mathrm {poly}。 (\ epsilon))$疑问,回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况,我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定(d ^ {(1+ \ sqrt2)/ 2} / \ epsilon ^ c)$和非活跃$ \ tilde o的样本复杂性(d ^ {4-2 \ sqrt 2} / \ epsilon ^ c)$,由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响,使用灵敏度采样改善了各种先前的结果,包括orlicz规范子空间嵌入和鲁棒子空间近似。最后,我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。
translated by 谷歌翻译
近年来,基于Weisfeiler-Leman算法的算法和神经架构,是一个众所周知的Graph同构问题的启发式问题,它成为具有图形和关系数据的机器学习的强大工具。在这里,我们全面概述了机器学习设置中的算法的使用,专注于监督的制度。我们讨论了理论背景,展示了如何将其用于监督的图形和节点表示学习,讨论最近的扩展,并概述算法的连接(置换 - )方面的神经结构。此外,我们概述了当前的应用和未来方向,以刺激进一步的研究。
translated by 谷歌翻译
我们提出了改进的算法,并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中,我们将作为输入作为显式分发$ \ mu $,$ \ varepsilon> 0 $,并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时,众所周知,可能需要许多样本,因此以前的作品已经研究了身份测试,并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文,称为坐标Oracle,并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明,如果一个称为熵的分析属性为可见分布$ \ mu $保留,那么对于任何使用$ \ tilde {o}(n/\ tilde {o}),有一个有效的身份测试算法Varepsilon)$查询坐标Oracle。熵的近似张力是一种经典的工具,用于证明马尔可夫链的最佳混合时间边界用于高维分布,并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega(n/\ varepsilon)$统计下键进行匹配的算法结果补充,以供坐标Oracle下的查询数量。我们还证明了一个计算相变:对于$ \ {+1,-1,-1 \}^n $以上的稀疏抗抗铁磁性模型,在熵失败的近似张力失败的状态下,除非RP = np,否则没有有效的身份测试算法。
translated by 谷歌翻译
图形上的分层聚类是数据挖掘和机器学习中的一项基本任务,并在系统发育学,社交网络分析和信息检索等领域中进行了应用。具体而言,我们考虑了由于Dasgupta引起的层次聚类的最近普及的目标函数。以前(大约)最小化此目标函数的算法需要线性时间/空间复杂性。在许多应用程序中,底层图的大小可能很大,即使使用线性时间/空间算法,也可以在计算上具有挑战性。结果,人们对设计只能使用sublinear资源执行全局计算的算法有浓厚的兴趣。这项工作的重点是在三个经过良好的sublinear计算模型下研究大量图的层次聚类,分别侧重于时空,时间和通信,作为要优化的主要资源:(1)(动态)流模型。边缘作为流,(2)查询模型表示,其中使用邻居和度查询查询图形,(3)MPC模型,其中图边缘通过通信通道连接的几台机器进行了分区。我们在上面的所有三个模型中设计用于层次聚类的sublinear算法。我们算法结果的核心是图表中的剪切方面的视图,这使我们能够使用宽松的剪刀示意图进行分层聚类,同时仅引入目标函数中的较小失真。然后,我们的主要算法贡献是如何在查询模型和MPC模型中有效地构建所需形式的切割稀疏器。我们通过建立几乎匹配的下限来补充我们的算法结果,该界限排除了在每个模型中设计更好的算法的可能性。
translated by 谷歌翻译
我们提出了一个新的图形神经网络,我们称为AgentNet,该网络专为图形级任务而设计。 AgentNet的灵感来自子宫性算法,具有独立于图形大小的计算复杂性。代理Net的体系结构从根本上与已知图神经网络的体系结构不同。在AgentNet中,一些受过训练的\ textit {神经代理}智能地行走图,然后共同决定输出。我们提供了对AgentNet的广泛理论分析:我们表明,代理可以学会系统地探索其邻居,并且AgentNet可以区分某些甚至3-WL无法区分的结构。此外,AgentNet能够将任何两个图形分开,这些图在子图方面完全不同。我们通过在难以辨认的图和现实图形分类任务上进行合成实验来确认这些理论结果。在这两种情况下,我们不仅与标准GNN相比,而且与计算更昂贵的GNN扩展相比。
translated by 谷歌翻译
最近出现了许多子图增强图神经网络(GNN),可证明增强了标准(消息通话)GNN的表达能力。但是,对这些方法之间的相互关系和weisfeiler层次结构的关系有限。此外,当前的方法要么使用给定尺寸的所有子图,要随机均匀地对其进行采样,或者使用手工制作的启发式方法,而不是学习以数据驱动的方式选择子图。在这里,我们提供了一种统一的方法来研究此类体系结构,通过引入理论框架并扩展了亚图增强GNN的已知表达结果。具体而言,我们表明,增加子图的大小总是会增加表达能力,并通过将它们与已建立的$ k \ text { - } \ Mathsf {Wl} $ hierArchy联系起来,从而更好地理解其局限性。此外,我们还使用最近通过复杂的离散概率分布进行反向传播的方法探索了学习对子图进行采样的不同方法。从经验上讲,我们研究了不同子图增强的GNN的预测性能,表明我们的数据驱动体系结构与非DATA驱动的亚图增强图形神经网络相比,在标准基准数据集上提高了对标准基准数据集的预测准确性,同时减少了计算时间。
translated by 谷歌翻译
我们考虑一个标准的分布式优化设置,其中$ n $ machines,每个持有$ d $ -dimension函数$ f_i $,旨在共同最大限度地减少函数$ \ sum_ {i = 1} ^ n f_i(x)$ 。该问题自然地出现在大规模分布式优化中,其中标准解决方案是施加(随机)梯度下降的变体。我们专注于这个问题的通信复杂性:我们的主要结果在$ N $ Machines中提供了需要发送和接收的比特总数的第一个完全无条件的界限,以便在点对点通信下解决这个问题给定的差错。具体来说,我们显示$ \ omega(ND \ log d / n \ varepsilon)$总比特在机器之间传达,找到一个添加剂$ \ epsilon $-xprupmation到$ \ sum_ {i = 1} ^ n f_i(x)$。结果适用于确定性和随机算法,并且重要的是,不需要对算法结构上的假设。在参数值的某些限制下,下限是紧张的,并且通过量化梯度下降的新变种在恒定因子中匹配,我们描述和分析。我们的结果带来了从通信复杂性到分布式优化的工具,这具有进一步应用的潜力。
translated by 谷歌翻译
图形神经网络(GNNS)是图形处理的广泛连接主义模型。它们对每个节点及其邻居进行迭代消息传递操作,以解决分类/群集任务 - 在某些节点或整个图表上 - 无论其订单如何,都会收集所有此类消息。尽管属于该类的各种模型之间的差异,但大多数基于本地聚合机制和直观地采用相同的计算方案,并直观地,本地计算框架主要负责GNN的表现力。在本文中,我们证明了Weisfeiler - Lehman测试在恰好对应于原始GNN模型上定义的展开等价的图表节点上引起了等效关系。因此,原始GNN的表现力的结果可以扩展到一般GNN,其在​​温和条件下可以证明能够以概率和最高的任何精度近似于朝向展开等价的图表中的任何功能。
translated by 谷歌翻译
在这项工作中,我们研究了一个非负矩阵分解的变体,我们希望找到给定输入矩阵的对称分解成稀疏的布尔矩阵。正式说话,给定$ \ mathbf {m} \ in \ mathbb {z} ^ {m \ times m} $,我们想找到$ \ mathbf {w} \ in \ {0,1 \} ^ {m \ times $} $这样$ \ | \ mathbf {m} - \ mathbf {w} \ mathbf {w} ^ \ top \ | _0 $在所有$ \ mathbf {w} $中最小化为$ k $ -parse。这个问题结果表明与恢复线图中的超图以及私人神经网络训练的重建攻击相比密切相关。由于这个问题在最坏的情况下,我们研究了在这些重建攻击的背景下出现的自然平均水平变体:$ \ mathbf {m} = \ mathbf {w} \ mathbf {w} ^ {\ top $ \ mathbf {w} $ \ mathbf {w} $ k $ -parse行的随机布尔矩阵,目标是恢复$ \ mathbf {w} $上列排列。等效,这可以被认为是从其线图中恢复均匀随机的k $ k $。我们的主要结果是基于对$ \ MATHBF {W} $的引导高阶信息的此问题的多项式算法,然后分解适当的张量。我们分析中的关键成分,可能是独立的兴趣,是表示这种矩阵$ \ mathbf {w} $在$ m = \ widetilde {\ omega}(r)时,这一矩阵$ \ mathbf {w} $具有高概率。 $,我们使用Littlewood-Offord理论的工具和二进制Krawtchouk多项式的估算。
translated by 谷歌翻译
图形神经网络(GNN)是旨在处理图表上图和信号的学习模型。最受欢迎,最成功的GNN是基于消息传递方案的基础。在区分两个非同构图时,这种方案固有地具有有限的表达能力。在本文中,我们依靠覆盖空间的理论来充分表征GNN无法区分的图形类别。然后,我们生成任意生成许多无法通过GNN来区分的非同构图,导致GraphCovers数据集。我们还表明,数据集中没有可区分的图的数量随节点的数量增长。最后,我们在几个GNN体系结构上测试GraphCovers数据集,表明它们都无法区分其包含的任何两个图。
translated by 谷歌翻译
我们显示出与错误(LWE)问题的经典学习之间的直接和概念上的简单减少,其连续类似物(Bruna,Regev,Song and Tang,STOC 2021)。这使我们能够将基于LWE的密码学的强大机械带到Clwe的应用中。例如,我们在GAP最短矢量问题的经典最坏情况下获得了Clwe的硬度。以前,这仅在晶格问题的量子最坏情况下才知道。更广泛地说,随着我们在两个问题之间的减少,LWE的未来发展也将适用于CLWE及其下游应用程序。作为一种具体的应用,我们显示了高斯混合物密度估计的硬度结果改善。在此计算问题中,给定样品访问高斯人的混合物,目标是输出估计混合物密度函数的函数。在经典LWE问题的(合理且被广泛相信的)指数硬度下,我们表明高斯混合物密度估计$ \ Mathbb {r}^n $,大约$ \ log n $ gaussian组件给定$ \ mathsf {poly}(poly}(poly}(poly})) n)$样品需要$ n $的时间准分线性。在LWE的(保守)多项式硬度下,我们显示出$ n^{\ epsilon} $高斯的密度估计,对于任何常数$ \ epsilon> 0 $,它可以改善Bruna,Regev,Song和Tang(Stoc 2021) ,在多项式(量子)硬度假设下,他们至少以$ \ sqrt {n} $高斯的表现表现出硬度。我们的关键技术工具是从古典LWE到LWE的缩短,并使用$ k $ -sparse Secrets,其中噪声的乘法增加仅为$ o(\ sqrt {k})$,与环境尺寸$ n $无关。
translated by 谷歌翻译
尽管(消息通话)图形神经网络在图形或一般关系数据上近似置换量等函数方面具有明显的局限性,但更具表现力的高阶图神经网络不会扩展到大图。他们要么在$ k $ - 订单张量子上操作,要么考虑所有$ k $ - 节点子图,这意味着在内存需求中对$ k $的指数依赖,并且不适合图形的稀疏性。通过为图同构问题引入新的启发式方法,我们设计了一类通用的,置换式的图形网络,与以前的体系结构不同,该网络在表达性和可伸缩性之间提供了细粒度的控制,并适应了图的稀疏性。这些体系结构与监督节点和图形级别的标准高阶网络以及回归体系中的标准高阶图网络相比大大减少了计算时间,同时在预测性能方面显着改善了标准图神经网络和图形内核体系结构。
translated by 谷歌翻译
消息传递神经网络(MPNNS)是由于其简单性和可扩展性而大部分地进行图形结构数据的深度学习的领先架构。不幸的是,有人认为这些架构的表现力有限。本文提出了一种名为Comifariant Subgraph聚合网络(ESAN)的新颖框架来解决这个问题。我们的主要观察是,虽然两个图可能无法通过MPNN可区分,但它们通常包含可区分的子图。因此,我们建议将每个图形作为由某些预定义策略导出的一组子图,并使用合适的等分性架构来处理它。我们为图同构同构同构造的1立维Weisfeiler-Leman(1-WL)测试的新型变体,并在这些新的WL变体方面证明了ESAN的表达性下限。我们进一步证明,我们的方法增加了MPNNS和更具表现力的架构的表现力。此外,我们提供了理论结果,描述了设计选择诸如子图选择政策和等效性神经结构的设计方式如何影响我们的架构的表现力。要处理增加的计算成本,我们提出了一种子图采样方案,可以将其视为我们框架的随机版本。关于真实和合成数据集的一套全面的实验表明,我们的框架提高了流行的GNN架构的表现力和整体性能。
translated by 谷歌翻译
Kernel matrices, as well as weighted graphs represented by them, are ubiquitous objects in machine learning, statistics and other related fields. The main drawback of using kernel methods (learning and inference using kernel matrices) is efficiency -- given $n$ input points, most kernel-based algorithms need to materialize the full $n \times n$ kernel matrix before performing any subsequent computation, thus incurring $\Omega(n^2)$ runtime. Breaking this quadratic barrier for various problems has therefore, been a subject of extensive research efforts. We break the quadratic barrier and obtain $\textit{subquadratic}$ time algorithms for several fundamental linear-algebraic and graph processing primitives, including approximating the top eigenvalue and eigenvector, spectral sparsification, solving linear systems, local clustering, low-rank approximation, arboricity estimation and counting weighted triangles. We build on the recent Kernel Density Estimation framework, which (after preprocessing in time subquadratic in $n$) can return estimates of row/column sums of the kernel matrix. In particular, we develop efficient reductions from $\textit{weighted vertex}$ and $\textit{weighted edge sampling}$ on kernel graphs, $\textit{simulating random walks}$ on kernel graphs, and $\textit{importance sampling}$ on matrices to Kernel Density Estimation and show that we can generate samples from these distributions in $\textit{sublinear}$ (in the support of the distribution) time. Our reductions are the central ingredient in each of our applications and we believe they may be of independent interest. We empirically demonstrate the efficacy of our algorithms on low-rank approximation (LRA) and spectral sparsification, where we observe a $\textbf{9x}$ decrease in the number of kernel evaluations over baselines for LRA and a $\textbf{41x}$ reduction in the graph size for spectral sparsification.
translated by 谷歌翻译