森林砍伐已成为气候变化的重要因素,并且由于这一点,分类驱动程序和预测森林砍伐的分割地图都引起了重大兴趣。在这项工作中,我们开发了一种旋转等级卷积神经网络模型,以预测驱动程序并从Landsat 8卫星图像生成砍伐森林事件的分割地图。这优于先前的方法对驱动程序进行分类并预测砍伐森林的分割图,在分割准确度提高了9%的分类精度和7%的改进。另外,该方法预测输入图像旋转下的稳定分割图,这确保了森林砍伐的预测区域不依赖于卫星的旋转方向。
translated by 谷歌翻译
我们开发了一种从2D RGB图像生成3D手网格的旋转等级模型。这保证了当手的输入图像旋转时,所生成的网格经历相应的旋转。此外,这消除了经常通过无旋转标准天例的方法产生的网格中的不希望的变形。通过构建旋转等级模型,通过考虑问题的对称性,我们减少了对非常大的数据集训练的需求,以实现良好的网格重建。编码器在$ \ mathbb {z} ^ {2} $上定义的图像,并将这些映射到组$ c_ {8} $上定义的潜在函数。我们介绍了一种新颖的向量映射函数来将以$ c_ {8} $定义的函数映射到组$ \ mathrm {so}(2)$上定义的潜在点云空间。此外,我们介绍了一种3D投影函数,它从$ \ mathrm {so}(2)$潜空间中学习3D功能。最后,我们使用$ \ mathrm {so}(3)$ arifariant解码器,以确保旋转标准。我们的旋转设备模型优于现实世界数据集的最先进方法,我们证明它可以准确地捕获在输入手的旋转下产生的网格中的形状和姿势。
translated by 谷歌翻译
标准卷积神经网络(CNN)的卷积层与翻译一样。然而,卷积和完全连接的层与其他仿射几何变换并不是等等的或不变的。最近,提出了一类新的CNN,其中CNN的常规层被均衡卷积,合并和批量归一化层代替。 eprovariant神经网络中的最终分类层对于不同的仿射几何变换(例如旋转,反射和翻译)是不变的,并且标量值是通过消除过滤器响应的空间尺寸,使用卷积和向下缩采样的整个网络或平均值来获得。接管过滤器响应。在这项工作中,我们建议整合正交力矩,该矩将功能的高阶统计数据作为编码全局不变性在旋转,反射和翻译中的有效手段。结果,网络的中间层变得模棱两可,而分类层变得不变。出于这个目的,考虑使用最广泛使用的Zernike,伪菜单和正交傅立叶粉刺矩。通过在旋转的MNIST和CIFAR10数据集上集成了组等级CNN(G-CNN)的体系结构中的不变过渡和完全连接的层来评估所提出的工作的有效性。
translated by 谷歌翻译
We introduce Group equivariant Convolutional Neural Networks (G-CNNs), a natural generalization of convolutional neural networks that reduces sample complexity by exploiting symmetries. G-CNNs use G-convolutions, a new type of layer that enjoys a substantially higher degree of weight sharing than regular convolution layers. G-convolutions increase the expressive capacity of the network without increasing the number of parameters. Group convolution layers are easy to use and can be implemented with negligible computational overhead for discrete groups generated by translations, reflections and rotations. G-CNNs achieve state of the art results on CI-FAR10 and rotated MNIST.
translated by 谷歌翻译
基于2D图像的3D对象的推理由于从不同方向查看对象引起的外观差异很大,因此具有挑战性。理想情况下,我们的模型将是对物体姿势变化的不变或等效的。不幸的是,对于2D图像输入,这通常是不可能的,因为我们没有一个先验模型,即在平面外对象旋转下如何改变图像。唯一的$ \ mathrm {so}(3)$ - 当前存在的模型需要点云输入而不是2D图像。在本文中,我们提出了一种基于Icosahedral群卷积的新型模型体系结构,即通过将输入图像投影到iCosahedron上,以$ \ mathrm {so(3)} $中的理由。由于此投影,该模型大致与$ \ mathrm {so}(3)$中的旋转大致相当。我们将此模型应用于对象构成估计任务,并发现它的表现优于合理的基准。
translated by 谷歌翻译
The principle of equivariance to symmetry transformations enables a theoretically grounded approach to neural network architecture design. Equivariant networks have shown excellent performance and data efficiency on vision and medical imaging problems that exhibit symmetries. Here we show how this principle can be extended beyond global symmetries to local gauge transformations. This enables the development of a very general class of convolutional neural networks on manifolds that depend only on the intrinsic geometry, and which includes many popular methods from equivariant and geometric deep learning.We implement gauge equivariant CNNs for signals defined on the surface of the icosahedron, which provides a reasonable approximation of the sphere. By choosing to work with this very regular manifold, we are able to implement the gauge equivariant convolution using a single conv2d call, making it a highly scalable and practical alternative to Spherical CNNs. Using this method, we demonstrate substantial improvements over previous methods on the task of segmenting omnidirectional images and global climate patterns.
translated by 谷歌翻译
Translating or rotating an input image should not affect the results of many computer vision tasks. Convolutional neural networks (CNNs) are already translation equivariant: input image translations produce proportionate feature map translations. This is not the case for rotations. Global rotation equivariance is typically sought through data augmentation, but patch-wise equivariance is more difficult. We present Harmonic Networks or H-Nets, a CNN exhibiting equivariance to patch-wise translation and 360-rotation. We achieve this by replacing regular CNN filters with circular harmonics, returning a maximal response and orientation for every receptive field patch.H-Nets use a rich, parameter-efficient and fixed computational complexity representation, and we show that deep feature maps within the network encode complicated rotational invariants. We demonstrate that our layers are general enough to be used in conjunction with the latest architectures and techniques, such as deep supervision and batch normalization. We also achieve state-of-the-art classification on rotated-MNIST, and competitive results on other benchmark challenges.
translated by 谷歌翻译
Steerable convolutional neural networks (CNNs) provide a general framework for building neural networks equivariant to translations and other transformations belonging to an origin-preserving group $G$, such as reflections and rotations. They rely on standard convolutions with $G$-steerable kernels obtained by analytically solving the group-specific equivariance constraint imposed onto the kernel space. As the solution is tailored to a particular group $G$, the implementation of a kernel basis does not generalize to other symmetry transformations, which complicates the development of group equivariant models. We propose using implicit neural representation via multi-layer perceptrons (MLPs) to parameterize $G$-steerable kernels. The resulting framework offers a simple and flexible way to implement Steerable CNNs and generalizes to any group $G$ for which a $G$-equivariant MLP can be built. We apply our method to point cloud (ModelNet-40) and molecular data (QM9) and demonstrate a significant improvement in performance compared to standard Steerable CNNs.
translated by 谷歌翻译
将对称性作为归纳偏置纳入神经网络体系结构已导致动态建模的概括,数据效率和身体一致性的提高。诸如CNN或e夫神经网络之类的方法使用重量绑定来强制执行对称性,例如偏移不变性或旋转率。但是,尽管物理定律遵守了许多对称性,但实际动力学数据很少符合严格的数学对称性,这是由于嘈杂或不完整的数据或基础动力学系统中的对称性破坏特征。我们探索近似模棱两可的网络,这些网络偏向于保存对称性,但并非严格限制这样做。通过放松的均衡约束,我们发现我们的模型可以胜过两个基线,而在模拟的湍流域和现实世界中的多流射流流中都没有对称性偏差和基线,并且具有过度严格的对称性。
translated by 谷歌翻译
运输网是最近提出的选择框架,可以从很少的专家演示中学习良好的操纵政策。转运蛋白网络如此有效的一个关键原因是,该模型将旋转模棱两可纳入挑选模块,即,该模型立即将学习的挑选知识概括为不同方向上显示的对象。本文提出了一种新颖的运输网络网络,该版本与拾音器和位置方向一样。结果,我们的模型除了像以前一样概括选择知识之外,立即将知识放置在不同的位置方向上。最终,我们的新模型比基线转运蛋白网模型更有效地有效,并且取得成功率更好。
translated by 谷歌翻译
定义网格上卷积的常用方法是将它们作为图形解释并应用图形卷积网络(GCN)。这种GCNS利用各向同性核,因此对顶点的相对取向不敏感,从而对整个网格的几何形状。我们提出了规范的等分性网状CNN,它概括了GCNS施加各向异性仪表等级核。由于产生的特征携带方向信息,我们引入了通过网格边缘并行传输特征来定义的几何消息传递方案。我们的实验验证了常规GCN和其他方法的提出模型的显着提高的表达性。
translated by 谷歌翻译
事实证明,与对称性的对称性在深度学习研究中是一种强大的归纳偏见。关于网格处理的最新著作集中在各种天然对称性上,包括翻译,旋转,缩放,节点排列和仪表变换。迄今为止,没有现有的体系结构与所有这些转换都不相同。在本文中,我们提出了一个基于注意力的网格数据的架构,该体系结构与上述所有转换相似。我们的管道依赖于相对切向特征的使用:一种简单,有效,等效性的替代品,可作为输入作为输入。有关浮士德和TOSCA数据集的实验证实,我们提出的架构在这些基准测试中的性能提高了,并且确实是对各种本地/全球转换的均等,因此具有强大的功能。
translated by 谷歌翻译
从低级视觉理论中出现,可说的过滤器在先前的卷积神经网络上的工作中发现了对应物,等同于僵化的转换。在我们的工作中,我们提出了一种基于球形决策表面的神经元组成的基于馈送的可转向学习方法,并在点云上运行。这种球形神经元是通过欧几里得空间的共形嵌入来获得的,最近在点集的学习表示中被重新审视。为了关注3D几何形状,我们利用球形神经元的等轴测特性,并得出3D可识别性约束。在训练球形神经元以在规范方向上分类点云之后,我们使用四面体基础来使神经元四倍,并构建旋转 - 等级的球形滤波器库。然后,我们应用派生的约束来插值过滤器库输出,从而获得旋转不变的网络。最后,我们使用合成点集和现实世界3D骨架数据来验证我们的理论发现。该代码可在https://github.com/pavlo-melnyk/steerable-3d-neurons上找到。
translated by 谷歌翻译
卷积神经网络(CNN)在翻译下是固有的等分反,但是,它们没有等效的嵌入机制来处理其他变换,例如旋转和规模变化。存在几种方法,使CNN通过设计在其他转换组下变得等效。其中,可操纵的CNN特别有效。然而,这些方法需要将滤波器重新设计标准网络,筛选涉及复杂的分析功能的预定义基的组合。我们通过实验证明,在选择的基础上的这些限制可能导致模型权重,这对主要深度学习任务进行了次优(例如,分类)。此外,这种硬烘焙的显式配方使得难以设计包括异质特征组的复合网络。为了规避此类问题,我们提出了隐含的等级网络(IEN),其通过优化与标准损耗术语相结合的多目标损耗函数来诱导标准CNN模型的不同层的等级。通过在ROT-MNIST上的VGG和RESNET模型的实验,ROT-TINIMAGENET,SCALE-MNIST和STL-10数据集上,我们表明IEN,即使是简单的配方,也要优于可操纵网络。此外,IEN促进了非均相过滤器组的构建,允许CNNS中的通道数量减少超过30%,同时保持与基线的表现。 IEN的功效进一步验证了视觉对象跟踪的难题。我们表明IEN优于最先进的旋转等级跟踪方法,同时提供更快的推理速度。
translated by 谷歌翻译
自动肿瘤或病变分割是用于计算机辅助诊断的医学图像分析的关键步骤。尽管基于卷积神经网络(CNN)的现有方法已经达到了最先进的表现,但医疗肿瘤分割中仍然存在许多挑战。这是因为,尽管人类视觉系统可以有效地检测到2D图像中的对称性,但常规CNN只能利用翻译不变性,忽略医学图像中存在的进一步固有的对称性,例如旋转和反射。为了解决这个问题,我们通过编码那些固有的对称性来学习更精确的表示形式,提出了一个新型的群体模棱两可的分割框架。首先,在每个方向上都设计了基于内核的模棱两可的操作,这使其能够有效地解决现有方法中学习对称性的差距。然后,为了保持全球分割网络,我们设计具有层面对称性约束的独特组层。最后,基于我们的新框架,对现实世界临床数据进行的广泛实验表明,一个群体含量的res-unet(名为GER-UNET)优于其基于CNN的常规对应物,并且在最新的分段方法中优于其最新的分段方法。肝肿瘤分割,COVID-19肺部感染分割和视网膜血管检测的任务。更重要的是,新建的GER-UNET还显示出在降低样品复杂性和过滤器的冗余,升级当前分割CNN和划定器官上的其他医学成像方式上的潜力。
translated by 谷歌翻译
我们开发了一种新类型的模型,以解决通过构建$ \ mathrm {so}^{+}(2,1)$ ecurivariant神经网络来解决多模式光纤的传输效果的任务。该模型利用了已知存在于纤维斑点模式中已知的方位角相关性,并且自然说明了输入和斑点模式之间的空间布置差异。此外,我们使用第二个后处理网络去除圆形伪像,填充间隙并锐化图像,这是由于光纤传输的性质所需的。这种两阶段的方法允许检查由更健壮的身体动机模型产生的预测图像,该模型可能在安全关键的应用程序中或两种模型的输出,从而产生高质量的图像。此外,该模型可以扩展到以前无法实现的成像分辨率,并在256美元\ times 256 $像素图像上显示出来。这是将可训练的参数需求从$ \ MATHCAL {O}(n^4)$提高到$ \ Mathcal {o}(M)$的结果,其中$ n $是像素大小,$ m $是光纤数模式。最后,该模型将在培训数据类别之外的新图像中概括,比以前的模型更好。
translated by 谷歌翻译
由于其在翻译下的增强/不变性,卷积网络成功。然而,在坐标系的旋转取向不会影响数据的含义(例如对象分类)的情况下,诸如图像,卷,形状或点云的可旋转数据需要在旋转下的增强/不变性处理。另一方面,在旋转很重要的情况下是必要的估计/处理旋转(例如运动估计)。最近在所有这些方面的方法和理论方面取得了进展。在这里,我们提供了2D和3D旋转(以及翻译)的现有方法的概述,以及识别它们之间的共性和链接。
translated by 谷歌翻译
模棱两可的神经网络,其隐藏的特征根据G组作用于数据的表示,表现出训练效率和提高的概括性能。在这项工作中,我们将群体不变和模棱两可的表示学习扩展到无监督的深度学习领域。我们根据编码器框架提出了一种通用学习策略,其中潜在表示以不变的术语和模棱两可的组动作组件分开。关键的想法是,网络学会通过学习预测适当的小组操作来对齐输入和输出姿势以解决重建任务的适当组动作来编码和从组不变表示形式进行编码和解码数据。我们在Equivariant编码器上得出必要的条件,并提出了对任何G(离散且连续的)有效的构造。我们明确描述了我们的旋转,翻译和排列的构造。我们在采用不同网络体系结构的各种数据类型的各种实验中测试了方法的有效性和鲁棒性。
translated by 谷歌翻译
合并对称性可以通过定义通过转换相关的数据样本的等效类别来导致高度数据效率和可推广的模型。但是,表征转换如何在输入数据上作用通常很困难,从而限制了模型模型的适用性。我们提出了编码输入空间(例如图像)的学习对称嵌入网络(SENS),我们不知道转换的效果(例如旋转),以在这些操作下以已知方式转换的特征空间。可以通过模棱两可的任务网络端对端训练该网络,以学习明确的对称表示。我们在具有3种不同形式的对称形式的模棱两可的过渡模型的背景下验证了这种方法。我们的实验表明,SENS有助于将模棱两可的网络应用于具有复杂对称表示的数据。此外,相对于全等级和非等价基线的准确性和泛化可以提高准确性和概括。
translated by 谷歌翻译
本文的目的是证明,通过简单地用可符合的CNN替换骨干CNN,可以使旋转更具旋转状态,以使其与翻译和图像旋转一样。实验表明,这种提升是在不降低普通照明和观点匹配序列上的性能的情况下获得的。
translated by 谷歌翻译