We provide a full characterisation of all of the possible group equivariant neural networks whose layers are some tensor power of $\mathbb{R}^{n}$ for three symmetry groups that are missing from the machine learning literature: $O(n)$, the orthogonal group; $SO(n)$, the special orthogonal group; and $Sp(n)$, the symplectic group. In particular, we find a spanning set of matrices for the learnable, linear, equivariant layer functions between such tensor power spaces in the standard basis of $\mathbb{R}^{n}$ when the group is $O(n)$ or $SO(n)$, and in the symplectic basis of $\mathbb{R}^{n}$ when the group is $Sp(n)$. The neural networks that we characterise are simple to implement since our method circumvents the typical requirement when building group equivariant neural networks of having to decompose the tensor power spaces of $\mathbb{R}^{n}$ into irreducible representations. We also describe how our approach generalises to the construction of neural networks that are equivariant to local symmetries. The theoretical background for our results comes from the Schur-Weyl dualities that were established by Brauer in his 1937 paper "On Algebras Which are Connected with the Semisimple Continuous Groups" for each of the three groups in question. We suggest that Schur-Weyl duality is a powerful mathematical concept that could be used to understand the structure of neural networks that are equivariant to groups beyond those considered in this paper.
translated by 谷歌翻译
We show how the Schur-Weyl duality that exists between the partition algebra and the symmetric group results in a stronger theoretical foundation for characterising all of the possible permutation equivariant neural networks whose layers are some tensor power of the permutation representation $M_n$ of the symmetric group $S_n$. In doing so, we unify two separate bodies of literature, and we correct some of the major results that are now widely quoted by the machine learning community. In particular, we find a basis of matrices for the learnable, linear, permutation equivariant layer functions between such tensor power spaces in the standard basis of $M_n$ by using an elegant graphical representation of a basis of set partitions for the partition algebra and its related vector spaces. Also, we show how we can calculate the number of weights that must appear in these layer functions by looking at certain paths through the McKay quiver for $M_n$. Finally, we describe how our approach generalises to the construction of neural networks that are equivariant to local symmetries.
translated by 谷歌翻译
Convolutional neural networks have been extremely successful in the image recognition domain because they ensure equivariance to translations. There have been many recent attempts to generalize this framework to other domains, including graphs and data lying on manifolds. In this paper we give a rigorous, theoretical treatment of convolution and equivariance in neural networks with respect to not just translations, but the action of any compact group. Our main result is to prove that (given some natural constraints) convolutional structure is not just a sufficient, but also a necessary condition for equivariance to the action of a compact group. Our exposition makes use of concepts from representation theory and noncommutative harmonic analysis and derives new generalized convolution formulae.
translated by 谷歌翻译
最近已证明不变性在机器学习模型中是强大的归纳偏见。这样的一类预测模型是张量网络。我们引入了一种新的数值算法来构建在任意离散组的正常矩阵表示的作用下不变的张量的基础。该方法的数量级可以比以前的方法快几个数量级。然后将组不变的张量合并为一个组不变张量火车网络,该网络可用作监督机器学习模型。考虑到特定于问题的不知道,我们将该模型应用于蛋白质结合分类问题,并根据最新的深度学习方法获得了预测准确性。
translated by 谷歌翻译
与小组元素的作用一样,在数学中通常用于分析或利用给定问题设置中固有的对称性。在这里,我们提供有效的量子算法,用于对存储为量子状态的数据进行线性组卷积和互相关。我们的算法的运行时间在组的维度上是对数,因此与经典算法相比,当输入数据作为量子状态和线性操作提供良好的条件时,提供了指数加速。我们的理论框架是出于解决代数问题的量子算法的丰富文献,为量化机器学习和采用小组操作的数值方法中的许多算法开辟了一条途径。
translated by 谷歌翻译
我们为$ S_N $-Quivariant Quantum卷积电路,建立并大大概括了Jordan的置力量子计算(PQC)形式主义的理论框架。我们表明量子电路是傅里叶空间神经架构的自然选择,其在计算$ S_N $ -Fourier系数的矩阵元素中,与在对称组上的最佳已知的经典快速傅里叶变换(FFT)相比计算的超级指数加速。特别是,我们利用Okounkov-Vershik方法来证明Harrow的陈述(Ph.D.论文2005 P.160)在$ \ OperatorName {su}(d)$ - 和$ s_n $-frirep基地之间并建立$ s_n $-arequivariant卷积量子交替使用年轻Jucys-Murphy(YJM)元素的ans {\“a} tze($ s_n $ -cqa)。我们证明了$ s_n $ -cqa是密集的,因此在每美元内表达S_N $-Frirep块,其可以作为潜在的未来量子机器学习和优化应用成为普遍模型。我们的方法提供了另一种方法来证明量子近似优化算法(QAOA)的普遍性,从表示理论的角度来看。我们的框架可以自然地应用于全局$ \ Operatorname {su}(d)$对称性的各种问题。我们展示了数值模拟以展示ANS {\“A} TEE的有效性,以找到标志结构$ j_1 $ - $ j_2 $反铁磁性Heisenberg模型在矩形和矩形状态Kagome格子。我们的工作确定了特定机器学习问题的量子优势,并提供了庆祝的Okounkov-Vershik的表示理论的第一次应用于机器学习和量子物理学。
translated by 谷歌翻译
在本文中,我们涉及在2D点云数据上的旋转设备。我们描述了一种特定的功能,能够近似任何连续旋转等级和置换不变函数。基于这一结果,我们提出了一种新的神经网络架构,用于处理2D点云,我们证明其普遍性地用于近似呈现这些对称的功能。我们还展示了如何扩展架构以接受一组2D-2D对应关系作为Indata,同时保持类似的标准性属性。关于立体视觉中必需基质的估计的实验。
translated by 谷歌翻译
我们提出了E3NN,这是一个通用框架,用于创建E(3)e术训练功能,也称为欧几里得神经网络。E3NN自然地在几何和几何张量上进行操作,这些几何和几何张量描述了3D中的系统,并在坐标系统的变化下可预测地转换。E3NN的核心是诸如张力生产类别或球形谐波函数之类的等效操作,这些功能可以组成,以创建更复杂的模块,例如卷积和注意机制。E3NN的这些核心操作可用于有效地阐明张量球场网络,3D可通道的CNN,Clebsch-Gordan Networks,SE(3)变压器和其他E(3)E(3)Equivariant网络。
translated by 谷歌翻译
我们研究了使用动力学系统的流量图相对于输入指数的某些置换的函数的近似值。这种不变的功能包括涉及图像任务的经过研究的翻译不变性功能,但还包含许多在科学和工程中找到新兴应用程序的置换不变函数。我们证明了通过受控的模棱两可的动态系统的通用近似的足够条件,可以将其视为具有对称约束的深度残留网络的一般抽象。这些结果不仅意味着用于对称函数近似的各种常用神经网络体系结构的通用近似,而且还指导设计具有近似值保证的架构的设计,以保证涉及新对称要求的应用。
translated by 谷歌翻译
我们通过介绍Quiver神经网络的概念来开发一种统一的理论方法来分析各种神经网络连接体系结构。受箭量表示理论的启发,这种方法提供了一种紧凑的方法来捕获复杂的网络体系结构中精心设计的数据流。作为应用程序,我们使用参数空间对称性来证明一种无损模型压缩算法的颤动神经网络,其某些非点线激活称为重新激活。在径向重新恢复激活的情况下,我们证明,使用梯度下降的压缩模型等同于用预计梯度下降训练原始模型。
translated by 谷歌翻译
小组卷积神经网络(G-CNN)是卷积神经网络(CNN)的概括,通过在其体系结构中明确编码旋转和排列,在广泛的技术应用中脱颖而出。尽管G-CNN的成功是由它们的\ emph {emplapicit}对称偏见驱动的,但最近的一项工作表明,\ emph {隐式}对特定体系结构的偏差是理解过度参数化神经网的概​​括的关键。在这种情况下,我们表明,通过梯度下降训练了二进制分类的$ L $ layer全宽线性G-CNN,将二进制分类收敛到具有低级别傅立叶矩阵系数的解决方案,并由$ 2/l $ -schatten矩阵规范正规化。我们的工作严格概括了先前对线性CNN的隐性偏差对线性G-CNN的隐性分析,包括所有有限组,包括非交换组的挑战性设置(例如排列),以及无限组的频段限制G-CNN 。我们通过在各个组上实验验证定理,并在经验上探索更现实的非线性网络,该网络在局部捕获了相似的正则化模式。最后,我们通过不确定性原理提供了对傅立叶空间隐式正则化的直观解释。
translated by 谷歌翻译
我们研究反对称函数的两个基本模型(或\ emph {ans \“ atze}),即表格$ f的函数$ f $(x _ {\ sigma(1)},\ ldots,x _ {\ f $sigma(n)})= \ text {sign}(\ sigma)f(x_1,\ ldots,x_n)$,其中$ \ sigma $是任何置换。这些都是在量子化学的背景下出现的,是基本的建模特定的费米子系统波函数的工具。具体来说,我们考虑了两个流行的反对称ANS \“ atze:Slater代表,它利用了决定因素的交替结构,以及Jastrow Ansatz,它们通过任意对称功能增强了用产品的Slater确定性。我们构建了一个可以更有效地以jastrow形式表达的反对称函数,但是除非有指数(以$ n^2 $为指数)许多术语,否则无法通过Slater决定因素近似。这代表了这两个Ans \“ atze之间的第一个显式定量分离。
translated by 谷歌翻译
在这项工作中,我们开发了一种新的方法,名为局部排列的图形神经网络,它为建立在本地节点邻域,通过子图形的构建图形神经网络的框架,同时使用置换等值更新功能。消息传递神经网络的消息被认为是有效应功率的限制,并且最近过度的方法缺乏可扩展性或需要将结构信息被编码为特征空间。这里呈现的一般框架克服了通过通过受限制表示在子图上操作的与全局排列等值相关的可扩展性问题。此外,我们证明了通过使用限制的陈述没有丧失表情。此外,所提出的框架仅需要选择$ k $-hops,用于创建用于为每层使用的子图和选择的表示空间,这使得该方法在一系列基于图形的域中可以容易地适用。我们通过实验验证了一系列图形基准分类任务的方法,在所有基准上展示了最先进的结果或非常竞争力的结果。此外,我们证明使用本地更新函数的使用在全球方法上提供了GPU存储器的显着改进。
translated by 谷歌翻译
生成建模旨在揭示产生观察到的数据的潜在因素,这些数据通常可以被建模为自然对称性,这些对称性是通过不变和对某些转型定律等效的表现出来的。但是,当前代表这些对称性的方法是在需要构建模棱两可矢量场的连续正式化流中所掩盖的 - 抑制了它们在常规的高维生成建模域(如自然图像)中的简单应用。在本文中,我们专注于使用离散层建立归一化流量。首先,我们从理论上证明了对紧凑空间的紧凑型组的模棱两可的图。我们进一步介绍了三个新的品牌流:$ g $ - 剩余的流量,$ g $ - 耦合流量和$ g $ - inverse自动回旋的回旋流量,可以提升经典的残留剩余,耦合和反向自动性流量,并带有等效的地图, $。从某种意义上说,我们证明$ g $ equivariant的差异性可以通过$ g $ - $ residual流量映射,我们的$ g $ - 剩余流量也很普遍。最后,我们首次在诸如CIFAR-10之类的图像数据集中对我们的理论见解进行了补充,并显示出$ G $ equivariant有限的有限流量,从而提高了数据效率,更快的收敛性和提高的可能性估计。
translated by 谷歌翻译
标准情况被出现为对构成组的身份保留转换的物体表示的理想性质,例如翻译和旋转。然而,由组标准规定的表示的表示的表现仍然不完全理解。我们通过提供封面函数计数定理的概括来解决这个差距,这些定理量化了可以分配给物体的等异点的线性可分离和组不变二进制二分层的数量。我们发现可分离二分法的分数由由组动作固定的空间的尺寸决定。我们展示了该关系如何扩展到卷积,元素 - 明智的非线性和全局和本地汇集等操作。虽然其他操作不会改变可分离二分法的分数,但尽管是高度非线性操作,但是局部汇集减少了分数。最后,我们在随机初始化和全培训的卷积神经网络的中间代表中测试了我们的理论,并找到了完美的协议。
translated by 谷歌翻译
强有力的彩票假说(SLTH)规定了足够过度参数(密集的)神经网络中的子网的存在,当随机初始化并且没有任何培训时,可以实现受过全面训练的目标网络的准确性。 \ citet {da2022 -proving}的最新工作表明,SLTH也可以扩展到翻译模棱两可的网络(即CNNS),具有与密集网络中SLT相同的过多叠加级化。但是,现代神经网络能够不仅纳入翻译对称性,而且开发一般的模棱两可的体系结构(例如旋转和排列)一直是一个有力的设计原理。在本文中,我们将slth推广到保留$ g $(即$ g $ equivariant网络)的函数,并以很高的概率证明,可以修剪随机初始初始初始化的过度透明$ g $ - $ g $ - $ g $ equivariant子网网络近似于固定宽度和深度的另一个完全训练的$ g $ equivariant网络。我们进一步证明,我们规定的过透明方案也是误差耐受性的函数。我们为各个组开发了我们的理论,包括重要的理论,例如欧几里得组的子组$ \ text {e}(n)$和对称组的子群体$ g \ leq \ leq \ mathcal {s} _n _n $ - 允许我们找到用于MLP,CNN,$ \ text {e}(2)$的SLTS,并以$ \ text {e}(2)$ - 通知CNN和置换量表等度性网络作为我们统一框架的特定实例,该框架完全扩展了先前的工作。从经验上讲,我们通过修剪过度叠加的$ \ text {e}(2)$来验证我们的理论,并传达CNN和消息传递GNN,以匹配给定的错误耐受性内受过训练的目标网络的性能。
translated by 谷歌翻译
包括协调性信息,例如位置,力,速度或旋转在计算物理和化学中的许多任务中是重要的。我们介绍了概括了等级图形网络的可控e(3)的等值图形神经网络(Segnns),使得节点和边缘属性不限于不变的标量,而是可以包含相协同信息,例如矢量或张量。该模型由可操纵的MLP组成,能够在消息和更新功能中包含几何和物理信息。通过可操纵节点属性的定义,MLP提供了一种新的Activation函数,以便与可转向功能字段一般使用。我们讨论我们的镜头通过等级的非线性卷曲镜头讨论我们的相关工作,进一步允许我们引脚点点的成功组件:非线性消息聚集在经典线性(可操纵)点卷积上改善;可操纵的消息在最近发送不变性消息的最近的等价图形网络上。我们展示了我们对计算物理学和化学的若干任务的方法的有效性,并提供了广泛的消融研究。
translated by 谷歌翻译
近年来,基于Weisfeiler-Leman算法的算法和神经架构,是一个众所周知的Graph同构问题的启发式问题,它成为具有图形和关系数据的机器学习的强大工具。在这里,我们全面概述了机器学习设置中的算法的使用,专注于监督的制度。我们讨论了理论背景,展示了如何将其用于监督的图形和节点表示学习,讨论最近的扩展,并概述算法的连接(置换 - )方面的神经结构。此外,我们概述了当前的应用和未来方向,以刺激进一步的研究。
translated by 谷歌翻译
群体模棱两可(例如,SE(3)均衡性)是科学的关键物理对称性,从经典和量子物理学到计算生物学。它可以在任意参考转换下实现强大而准确的预测。鉴于此,已经为将这种对称性编码为深神经网络而做出了巨大的努力,该网络已被证明可以提高下游任务的概括性能和数据效率。构建模棱两可的神经网络通常会带来高计算成本以确保表现力。因此,如何更好地折衷表现力和计算效率在模棱两可的深度学习模型的设计中起着核心作用。在本文中,我们提出了一个框架来构建可以有效地近似几何量的se(3)等效图神经网络。受差异几何形状和物理学的启发,我们向图形神经网络介绍了局部完整帧,因此可以将以给定订单的张量信息投射到框架上。构建本地框架以形成正常基础,以避免方向变性并确保完整性。由于框架仅是由跨产品操作构建的,因此我们的方法在计算上是有效的。我们在两个任务上评估我们的方法:牛顿力学建模和平衡分子构象的产生。广泛的实验结果表明,我们的模型在两种类型的数据集中达到了最佳或竞争性能。
translated by 谷歌翻译
线性神经网络层的模棱两可。在这项工作中,我们放宽了肩variance条件,只有在投影范围内才是真实的。特别是,我们研究了投射性和普通的肩那样的关系,并表明对于重要的例子,这些问题实际上是等效的。3D中的旋转组在投影平面上投影起作用。在设计用于过滤2D-2D对应的网络时,我们在实验上研究了旋转肩位的实际重要性。完全模型的模型表现不佳,虽然简单地增加了不变的特征,从而在强大的基线产量中得到了改善,但这似乎并不是由于改善的均衡性。
translated by 谷歌翻译