The principle of equivariance to symmetry transformations enables a theoretically grounded approach to neural network architecture design. Equivariant networks have shown excellent performance and data efficiency on vision and medical imaging problems that exhibit symmetries. Here we show how this principle can be extended beyond global symmetries to local gauge transformations. This enables the development of a very general class of convolutional neural networks on manifolds that depend only on the intrinsic geometry, and which includes many popular methods from equivariant and geometric deep learning.We implement gauge equivariant CNNs for signals defined on the surface of the icosahedron, which provides a reasonable approximation of the sphere. By choosing to work with this very regular manifold, we are able to implement the gauge equivariant convolution using a single conv2d call, making it a highly scalable and practical alternative to Spherical CNNs. Using this method, we demonstrate substantial improvements over previous methods on the task of segmenting omnidirectional images and global climate patterns.
translated by 谷歌翻译
定义网格上卷积的常用方法是将它们作为图形解释并应用图形卷积网络(GCN)。这种GCNS利用各向同性核,因此对顶点的相对取向不敏感,从而对整个网格的几何形状。我们提出了规范的等分性网状CNN,它概括了GCNS施加各向异性仪表等级核。由于产生的特征携带方向信息,我们引入了通过网格边缘并行传输特征来定义的几何消息传递方案。我们的实验验证了常规GCN和其他方法的提出模型的显着提高的表达性。
translated by 谷歌翻译
We introduce Group equivariant Convolutional Neural Networks (G-CNNs), a natural generalization of convolutional neural networks that reduces sample complexity by exploiting symmetries. G-CNNs use G-convolutions, a new type of layer that enjoys a substantially higher degree of weight sharing than regular convolution layers. G-convolutions increase the expressive capacity of the network without increasing the number of parameters. Group convolution layers are easy to use and can be implemented with negligible computational overhead for discrete groups generated by translations, reflections and rotations. G-CNNs achieve state of the art results on CI-FAR10 and rotated MNIST.
translated by 谷歌翻译
我们介绍了CheBlieset,一种对(各向异性)歧管的组成的方法。对基于GRAP和基于组的神经网络的成功进行冲浪,我们利用了几何深度学习领域的最新发展,以推导出一种新的方法来利用数据中的任何各向异性。通过离散映射的谎言组,我们开发由各向异性卷积层(Chebyshev卷积),空间汇集和解凝层制成的图形神经网络,以及全球汇集层。集团的标准因素是通过具有各向异性左不变性的黎曼距离的图形上的等级和不变的运算符来实现的。由于其简单的形式,Riemannian公制可以在空间和方向域中模拟任何各向异性。这种对Riemannian度量的各向异性的控制允许平衡图形卷积层的不变性(各向异性度量)的平衡(各向异性指标)。因此,我们打开大门以更好地了解各向异性特性。此外,我们经验证明了在CIFAR10上的各向异性参数的存在(数据依赖性)甜点。这一关键的结果是通过利用数据中的各向异性属性来获得福利的证据。我们还评估了在STL10(图像数据)和ClimateNet(球面数据)上的这种方法的可扩展性,显示了对不同任务的显着适应性。
translated by 谷歌翻译
我们分析了旋转模糊性在应​​用于球形图像的卷积神经网络(CNN)中的作用。我们比较了被称为S2CNN的组等效网络的性能和经过越来越多的数据增强量的标准非等级CNN。所选的体系结构可以视为相应设计范式的基线参考。我们的模型对投影到球体的MNIST或FashionMnist数据集进行了训练和评估。对于固有旋转不变的图像分类的任务,我们发现,通过大大增加数据增强量和网络的大小,标准CNN可以至少达到与Equivariant网络相同的性能。相比之下,对于固有的等效性语义分割任务,非等级网络的表现始终超过具有较少参数的模棱两可的网络。我们还分析和比较了不同网络的推理潜伏期和培训时间,从而实现了对等效架构和数据扩展之间的详细权衡考虑,以解决实际问题。实验中使用的均衡球网络可在https://github.com/janegerken/sem_seg_s2cnn上获得。
translated by 谷歌翻译
卷积神经网络(CNNS)非常有效,因为它们利用自然图像的固有转换不变性。但是,翻译只是无数的有用空间转换之一。在考虑其他空间的侵犯侵犯性时可以获得相同的效率吗?过去已经考虑过这种广义综合,但以高计算成本为例。我们展示了一个简单和精确的建筑,但标准卷积具有相同的计算复杂性。它由一个恒定的图像扭曲,后跟一个简单的卷积,这是深度学习工具箱中的标准块。通过精心制作的经线,所产生的架构可以使成功的架构成为各种各样的双参数空间转换。我们展示了令人鼓舞的现实情景结果,包括谷歌地球数据集(旋转和缩放)中车辆姿势的估计,并且面部在野外注释的面部地标中的面部姿势(在透视下的3D旋转)。
translated by 谷歌翻译
我们研究小组对称性如何帮助提高端到端可区分计划算法的数据效率和概括,特别是在2D机器人路径计划问题上:导航和操纵。我们首先从价值迭代网络(VIN)正式使用卷积网络进行路径计划,因为它避免了明确构建等价类别并启用端到端计划。然后,我们证明价值迭代可以始终表示为(2D)路径计划的某种卷积形式,并将结果范式命名为对称范围(SYMPLAN)。在实施中,我们使用可进入的卷积网络来合并对称性。我们在导航和操纵方面的算法,具有给定或学习的地图,提高了与非等级同行VIN和GPPN相比,大幅度利润的训练效率和概括性能。
translated by 谷歌翻译
Translating or rotating an input image should not affect the results of many computer vision tasks. Convolutional neural networks (CNNs) are already translation equivariant: input image translations produce proportionate feature map translations. This is not the case for rotations. Global rotation equivariance is typically sought through data augmentation, but patch-wise equivariance is more difficult. We present Harmonic Networks or H-Nets, a CNN exhibiting equivariance to patch-wise translation and 360-rotation. We achieve this by replacing regular CNN filters with circular harmonics, returning a maximal response and orientation for every receptive field patch.H-Nets use a rich, parameter-efficient and fixed computational complexity representation, and we show that deep feature maps within the network encode complicated rotational invariants. We demonstrate that our layers are general enough to be used in conjunction with the latest architectures and techniques, such as deep supervision and batch normalization. We also achieve state-of-the-art classification on rotated-MNIST, and competitive results on other benchmark challenges.
translated by 谷歌翻译
现有的球形卷积神经网络(CNN)框架在计算方面既可以扩展又是旋转等值的。连续的方法捕获旋转模棱两可,但通常在计算上是过时的。离散的方法提供了更有利的计算性能,但付出了损失。我们开发了一个混合离散(迪斯科)组卷积,该卷积同时均具有等效性,并且在计算上可扩展到高分辨率。虽然我们的框架可以应用于任何紧凑的组,但我们专注于球体。我们的迪斯科球形卷积不仅表现出$ \ text {so}(3)$ rotational equivariance,而且还表现出一种渐近$ \ text {so}(3)/\ text {so}(so}(so}(2)$ rotationation eporational ecorivarianciancience,对于许多应用程序(其中$ \ text {so}(n)$是特殊的正交组,代表$ n $ dimensions中的旋转)。通过稀疏的张量实现,我们可以在球体上的像素数量进行线性缩放,以供计算成本和内存使用情况。对于4K球形图像,与最有效的替代替代品量球卷积相比,我们意识到节省了$ 10^9 $的计算成本和$ 10^4 $的内存使用情况。我们将迪斯科球形CNN框架应用于球体上的许多基准密集预测问题,例如语义分割和深度估计,在所有这些问题上,我们都达到了最先进的性能。
translated by 谷歌翻译
事实证明,与对称性的对称性在深度学习研究中是一种强大的归纳偏见。关于网格处理的最新著作集中在各种天然对称性上,包括翻译,旋转,缩放,节点排列和仪表变换。迄今为止,没有现有的体系结构与所有这些转换都不相同。在本文中,我们提出了一个基于注意力的网格数据的架构,该体系结构与上述所有转换相似。我们的管道依赖于相对切向特征的使用:一种简单,有效,等效性的替代品,可作为输入作为输入。有关浮士德和TOSCA数据集的实验证实,我们提出的架构在这些基准测试中的性能提高了,并且确实是对各种本地/全球转换的均等,因此具有强大的功能。
translated by 谷歌翻译
包括协调性信息,例如位置,力,速度或旋转在计算物理和化学中的许多任务中是重要的。我们介绍了概括了等级图形网络的可控e(3)的等值图形神经网络(Segnns),使得节点和边缘属性不限于不变的标量,而是可以包含相协同信息,例如矢量或张量。该模型由可操纵的MLP组成,能够在消息和更新功能中包含几何和物理信息。通过可操纵节点属性的定义,MLP提供了一种新的Activation函数,以便与可转向功能字段一般使用。我们讨论我们的镜头通过等级的非线性卷曲镜头讨论我们的相关工作,进一步允许我们引脚点点的成功组件:非线性消息聚集在经典线性(可操纵)点卷积上改善;可操纵的消息在最近发送不变性消息的最近的等价图形网络上。我们展示了我们对计算物理学和化学的若干任务的方法的有效性,并提供了广泛的消融研究。
translated by 谷歌翻译
现有的等分性神经网络需要先前了解对称组和连续组的离散化。我们建议使用Lie代数(无限发电机)而不是谎言群体。我们的模型,Lie代数卷积网络(L-Chir)可以自动发现对称性,并不需要该组的离散化。我们展示L-CONC可以作为构建任何组的建筑块,以构建任何组的馈电架构。CNN和图表卷积网络都可以用适当的组表示为L-DIV。我们发现L-CONC和物理学之间的直接连接:(1)组不变损失概括场理论(2)欧拉拉格朗法令方程测量鲁棒性,(3)稳定性导致保护法和挪威尔特。这些连接开辟了新的途径用于设计更多普遍等级的网络并将其应用于物理科学中的重要问题
translated by 谷歌翻译
基于2D图像的3D对象的推理由于从不同方向查看对象引起的外观差异很大,因此具有挑战性。理想情况下,我们的模型将是对物体姿势变化的不变或等效的。不幸的是,对于2D图像输入,这通常是不可能的,因为我们没有一个先验模型,即在平面外对象旋转下如何改变图像。唯一的$ \ mathrm {so}(3)$ - 当前存在的模型需要点云输入而不是2D图像。在本文中,我们提出了一种基于Icosahedral群卷积的新型模型体系结构,即通过将输入图像投影到iCosahedron上,以$ \ mathrm {so(3)} $中的理由。由于此投影,该模型大致与$ \ mathrm {so}(3)$中的旋转大致相当。我们将此模型应用于对象构成估计任务,并发现它的表现优于合理的基准。
translated by 谷歌翻译
可进入的模型可以通过在表示理论和特征领域的语言中制定均衡性要求来提供非常通用和灵活的均衡性,这对许多视觉任务都是有效的。但是,由于3D旋转的数学更复杂,因此在2D情况下得出3D旋转模型要困难得多。在这项工作中,我们采用部分差分运算符(PDOS)来模型3D滤波器,并得出了通用的可检测3D CNN,称为PDO-S3DCNNS。我们证明,模棱两可的过滤器受线性约束的约束,可以在各种条件下有效地解决。据我们所知,PDO-S3DCNNS是3D旋转的最通用的CNN,因为它们涵盖了所有$ SO(3)$及其表示的所有常见子组,而现有方法只能应用于特定的组和特定组和表示。广泛的实验表明,我们的模型可以很好地保留在离散域中的均衡性,并且在SHREC'17检索和ISBI 2012分割任务上的表现都超过了以前的网络复杂性。
translated by 谷歌翻译
Steerable convolutional neural networks (CNNs) provide a general framework for building neural networks equivariant to translations and other transformations belonging to an origin-preserving group $G$, such as reflections and rotations. They rely on standard convolutions with $G$-steerable kernels obtained by analytically solving the group-specific equivariance constraint imposed onto the kernel space. As the solution is tailored to a particular group $G$, the implementation of a kernel basis does not generalize to other symmetry transformations, which complicates the development of group equivariant models. We propose using implicit neural representation via multi-layer perceptrons (MLPs) to parameterize $G$-steerable kernels. The resulting framework offers a simple and flexible way to implement Steerable CNNs and generalizes to any group $G$ for which a $G$-equivariant MLP can be built. We apply our method to point cloud (ModelNet-40) and molecular data (QM9) and demonstrate a significant improvement in performance compared to standard Steerable CNNs.
translated by 谷歌翻译
标准情况被出现为对构成组的身份保留转换的物体表示的理想性质,例如翻译和旋转。然而,由组标准规定的表示的表示的表现仍然不完全理解。我们通过提供封面函数计数定理的概括来解决这个差距,这些定理量化了可以分配给物体的等异点的线性可分离和组不变二进制二分层的数量。我们发现可分离二分法的分数由由组动作固定的空间的尺寸决定。我们展示了该关系如何扩展到卷积,元素 - 明智的非线性和全局和本地汇集等操作。虽然其他操作不会改变可分离二分法的分数,但尽管是高度非线性操作,但是局部汇集减少了分数。最后,我们在随机初始化和全培训的卷积神经网络的中间代表中测试了我们的理论,并找到了完美的协议。
translated by 谷歌翻译
本文提出了一种新的点云卷积结构,该结构学习了SE(3) - 等级功能。与现有的SE(3) - 等级网络相比,我们的设计轻巧,简单且灵活,可以合并到一般的点云学习网络中。我们通过为特征地图选择一个非常规域,在模型的复杂性和容量之间取得平衡。我们通过正确离散$ \ mathbb {r}^3 $来完全利用旋转对称性来进一步减少计算负载。此外,我们采用置换层从其商空间中恢复完整的SE(3)组。实验表明,我们的方法在各种任务中实现了可比或卓越的性能,同时消耗的内存和运行速度要比现有工作更快。所提出的方法可以在基于点云的各种实用应用中促进模棱两可的特征学习,并激发现实世界应用的Equivariant特征学习的未来发展。
translated by 谷歌翻译
最新的2D图像压缩方案依赖于卷积神经网络(CNN)的力量。尽管CNN为2D图像压缩提供了有希望的观点,但将此类模型扩展到全向图像并不简单。首先,全向图像具有特定的空间和统计特性,这些特性无法通过当前CNN模型完全捕获。其次,在球体上,基本的数学操作组成了CNN体系结构,例如翻译和采样。在本文中,我们研究了全向图像的表示模型的学习,并建议使用球体的HealPix均匀采样的属性来重新定义用于全向图像的深度学习模型中使用的数学工具。特别是,我们:i)提出了在球体上进行新的卷积操作的定义,以保持经典2D卷积的高表现力和低复杂性; ii)适应标准的CNN技术,例如步幅,迭代聚集和像素改组到球形结构域;然后iii)将我们的新框架应用于全向图像压缩的任务。我们的实验表明,与应用于等应角图像的类似学习模型相比,我们提出的球形溶液可带来更好的压缩增益,可以节省比特率的13.7%。同样,与基于图形卷积网络的学习模型相比,我们的解决方案支持更具表现力的过滤器,这些过滤器可以保留高频并提供压缩图像的更好的感知质量。这样的结果证明了拟议框架的效率,该框架为其他全向视觉任务任务打开了新的研究场所,以在球体歧管上有效实施。
translated by 谷歌翻译
Recent progress in geometric computer vision has shown significant advances in reconstruction and novel view rendering from multiple views by capturing the scene as a neural radiance field. Such approaches have changed the paradigm of reconstruction but need a plethora of views and do not make use of object shape priors. On the other hand, deep learning has shown how to use priors in order to infer shape from single images. Such approaches, though, require that the object is reconstructed in a canonical pose or assume that object pose is known during training. In this paper, we address the problem of how to compute equivariant priors for reconstruction from a few images, given the relative poses of the cameras. Our proposed reconstruction is $SE(3)$-gauge equivariant, meaning that it is equivariant to the choice of world frame. To achieve this, we make two novel contributions to light field processing: we define light field convolution and we show how it can be approximated by intra-view $SE(2)$ convolutions because the original light field convolution is computationally and memory-wise intractable; we design a map from the light field to $\mathbb{R}^3$ that is equivariant to the transformation of the world frame and to the rotation of the views. We demonstrate equivariance by obtaining robust results in roto-translated datasets without performing transformation augmentation.
translated by 谷歌翻译
We observe that despite their hierarchical convolutional nature, the synthesis process of typical generative adversarial networks depends on absolute pixel coordinates in an unhealthy manner. This manifests itself as, e.g., detail appearing to be glued to image coordinates instead of the surfaces of depicted objects. We trace the root cause to careless signal processing that causes aliasing in the generator network. Interpreting all signals in the network as continuous, we derive generally applicable, small architectural changes that guarantee that unwanted information cannot leak into the hierarchical synthesis process. The resulting networks match the FID of StyleGAN2 but differ dramatically in their internal representations, and they are fully equivariant to translation and rotation even at subpixel scales. Our results pave the way for generative models better suited for video and animation. * This work was done during an internship at NVIDIA. 35th Conference on Neural Information Processing Systems (NeurIPS 2021).
translated by 谷歌翻译