In neural networks, it is often desirable to work with various representations of the same space. For example, 3D rotations can be represented with quaternions or Euler angles. In this paper, we advance a definition of a continuous representation, which can be helpful for training deep neural networks. We relate this to topological concepts such as homeomorphism and embedding. We then investigate what are continuous and discontinuous representations for 2D, 3D, and n-dimensional rotations. We demonstrate that for 3D rotations, all representations are discontinuous in the real Euclidean spaces of four or fewer dimensions. Thus, widely used representations such as quaternions and Euler angles are discontinuous and difficult for neural networks to learn. We show that the 3D rotations have continuous representations in 5D and 6D, which are more suitable for learning. We also present continuous representations for the general case of the n dimensional rotation group SO(n). While our main focus is on rotations, we also show that our constructions apply to other groups such as the orthogonal group and similarity transforms. We finally present empirical results, which show that our continuous rotation representations outperform discontinuous ones for several practical problems in graphics and vision, including a simple autoencoder sanity test, a rotation estimator for 3D point clouds, and an inverse kinematics solver for 3D human poses.
translated by 谷歌翻译
使用深度神经网络的所以(3)歧管上的回归旋转是一个重要的尚未解决的问题。欧几里德网络输出空间与非欧几里德的间隙如(3)歧管对向前和后侧通行证的神经网络学习施加了严重的挑战。虽然有几个作品提出了不同的回归型旋转表示,但很少有效地致力于改善后向通过的梯度背交。在本文中,我们提出了一种歧管感知梯度,即直接逆产到深网络权重。利用黎曼梯度和新型投影梯度,我们提出的正规投影歧管梯度(RPMG)有助于网络在各种旋转估计任务中实现新的最先进性能。所提出的梯度层也可以应用于诸如单元球的其他平滑歧管。
translated by 谷歌翻译
数据驱动的字符动画技术依赖于存在正确建立的运动模型,能够描述其丰富的上下文。然而,常用的运动表示通常不能准确地编码运动的完全铰接,或者存在伪影。在这项工作中,我们解决了寻找运动建模的强大姿势表示的根本问题,适用于深色字符动画,可以更好地限制姿势和忠实地捕获与骨骼特征相关的细微差别。我们的表示基于双季度,具有明确定义的操作的数学抽象,它同时编码旋转和位置方向,使得能够围绕根居中的层次结构感知编码。我们证明我们的代表克服了普通的运动伪影,并与其他流行的表现相比评估其性能。我们进行消融研究,以评估可以在学习期间融入的各种损失的影响。利用我们的表示隐含地编码骨架运动属性,我们在包含具有不同比例的数据集上培训一个数据集,而无需将它们重新排列到通用骨架上,这导致待忽略的微妙运动元素。我们表明可以实现光滑和自然的姿势,为迷人的应用铺平道路。
translated by 谷歌翻译
线性神经网络层的模棱两可。在这项工作中,我们放宽了肩variance条件,只有在投影范围内才是真实的。特别是,我们研究了投射性和普通的肩那样的关系,并表明对于重要的例子,这些问题实际上是等效的。3D中的旋转组在投影平面上投影起作用。在设计用于过滤2D-2D对应的网络时,我们在实验上研究了旋转肩位的实际重要性。完全模型的模型表现不佳,虽然简单地增加了不变的特征,从而在强大的基线产量中得到了改善,但这似乎并不是由于改善的均衡性。
translated by 谷歌翻译
在本文中,我们涉及在2D点云数据上的旋转设备。我们描述了一种特定的功能,能够近似任何连续旋转等级和置换不变函数。基于这一结果,我们提出了一种新的神经网络架构,用于处理2D点云,我们证明其普遍性地用于近似呈现这些对称的功能。我们还展示了如何扩展架构以接受一组2D-2D对应关系作为Indata,同时保持类似的标准性属性。关于立体视觉中必需基质的估计的实验。
translated by 谷歌翻译
从低级视觉理论中出现,可说的过滤器在先前的卷积神经网络上的工作中发现了对应物,等同于僵化的转换。在我们的工作中,我们提出了一种基于球形决策表面的神经元组成的基于馈送的可转向学习方法,并在点云上运行。这种球形神经元是通过欧几里得空间的共形嵌入来获得的,最近在点集的学习表示中被重新审视。为了关注3D几何形状,我们利用球形神经元的等轴测特性,并得出3D可识别性约束。在训练球形神经元以在规范方向上分类点云之后,我们使用四面体基础来使神经元四倍,并构建旋转 - 等级的球形滤波器库。然后,我们应用派生的约束来插值过滤器库输出,从而获得旋转不变的网络。最后,我们使用合成点集和现实世界3D骨架数据来验证我们的理论发现。该代码可在https://github.com/pavlo-melnyk/steerable-3d-neurons上找到。
translated by 谷歌翻译
模棱两可的神经网络,其隐藏的特征根据G组作用于数据的表示,表现出训练效率和提高的概括性能。在这项工作中,我们将群体不变和模棱两可的表示学习扩展到无监督的深度学习领域。我们根据编码器框架提出了一种通用学习策略,其中潜在表示以不变的术语和模棱两可的组动作组件分开。关键的想法是,网络学会通过学习预测适当的小组操作来对齐输入和输出姿势以解决重建任务的适当组动作来编码和从组不变表示形式进行编码和解码数据。我们在Equivariant编码器上得出必要的条件,并提出了对任何G(离散且连续的)有效的构造。我们明确描述了我们的旋转,翻译和排列的构造。我们在采用不同网络体系结构的各种数据类型的各种实验中测试了方法的有效性和鲁棒性。
translated by 谷歌翻译
我们的工作重点是开发人类姿势的可学习神经代表,用于先进的AI辅助动画工具。具体而言,我们解决了基于稀疏和可变的用户输入(例如,身体关节子集的位置和/或方向)构建完整静态人姿势的问题。为了解决这个问题,我们提出了一种新型的神经结构,将残留连接与部分指定姿势编码的原型结合在一起,以从学习的潜在空间中创建一个新的完整姿势。我们表明,在准确性和计算效率方面,我们的体系结构的表现优于基准基线。此外,我们开发了一个用户界面,以将我们的神经模型集成到Unity,这是一个实时3D开发平台。此外,我们基于高质量的人类运动捕获数据,介绍了代表静态人类姿势建模问题的两个新数据集,该数据将与模型代码一起公开发布。
translated by 谷歌翻译
深神经网络实施了一系列逐层操作,每个操作都相对容易理解,但是总的总体计算通常很难理解。我们开发了一个简单的想法,可以解释有用表示的逐层结构:每一层的作用是重新格式化信息以减少目标输出的“距离”。我们通过利用最近的指标代表性相似性的工作来形式化“距离”的直观概念,并展示它如何导致几何概念的丰富空间。通过此框架,深度神经网络实施的层计算可以被视为高维表示空间中的路径。我们开发工具以在距离,角度和大地学方面表征这些几何形状。然后,我们提出在CIFAR-10训练的残留网络的三组问题:(1)路径的直线程度如何,以及每层对目标有何贡献? (2)这些特性如何在培训上出现? (3)更广泛的网络与更深的网络采取的路径有多相似?我们通过勾勒出其他方式来结论,这种代表性几何形状可用于理解和解释网络培训,或者规定改善网络体系结构以适合任务。
translated by 谷歌翻译
Deep neural networks can approximate functions on different types of data, from images to graphs, with varied underlying structure. This underlying structure can be viewed as the geometry of the data manifold. By extending recent advances in the theoretical understanding of neural networks, we study how a randomly initialized neural network with piece-wise linear activation splits the data manifold into regions where the neural network behaves as a linear function. We derive bounds on the density of boundary of linear regions and the distance to these boundaries on the data manifold. This leads to insights into the expressivity of randomly initialized deep neural networks on non-Euclidean data sets. We empirically corroborate our theoretical results using a toy supervised learning problem. Our experiments demonstrate that number of linear regions varies across manifolds and the results hold with changing neural network architectures. We further demonstrate how the complexity of linear regions is different on the low dimensional manifold of images as compared to the Euclidean space, using the MetFaces dataset.
translated by 谷歌翻译
Deep Learning has significantly impacted the application of data-to-decision throughout research and industry, however, they lack a rigorous mathematical foundation, which creates situations where algorithmic results fail to be practically invertible. In this paper we present a nearly invertible mapping between $\mathbb{R}^{2^n}$ and $\mathbb{R}^{n+1}$ via a topological connection between $S^{2^n-1}$ and $S^n$. Throughout the paper we utilize the algebra of Multicomplex rotation groups and polyspherical coordinates to define two maps: the first is a contraction from $S^{2^n-1}$ to $\displaystyle \otimes^n_{k=1} SO(2)$, and the second is a projection from $\displaystyle \otimes^n_{k=1} SO(2)$ to $S^{n}$. Together these form a composite map that we call the LG Fibration. In analogy to the generation of Hopf Fibration using Hypercomplex geometry from $S^{(2n-1)} \mapsto CP^n$, our fibration uses Multicomplex geometry to project $S^{2^n-1}$ onto $S^n$. We also investigate the algebraic properties of the LG Fibration, ultimately deriving a distance difference function to determine which pairs of vectors have an invariant inner product under the transformation. The LG Fibration has applications to Machine Learning and AI, in analogy to the current applications of Hopf Fibrations in adaptive UAV control. Furthermore, the ability to invert the LG Fibration for nearly all elements allows for the development of Machine Learning algorithms that may avoid the issues of uncertainty and reproducibility that currently plague contemporary methods. The primary result of this paper is a novel method of nearly invertible geometric dimensional reduction from $S^{2^n-1}$ to $S^n$, which has the capability to extend the research in both mathematics and AI, including but not limited to the fields of homotopy groups of spheres, algebraic topology, machine learning, and algebraic biology.
translated by 谷歌翻译
机器人和计算机视觉问题通常需要处理包括翻译和旋转的刚体运动 - 一起被称为姿势。在一些情况下,姿势的矢量参数化可以是有用的,其中向矩阵Lie组进行外钟映射矢量空间的元素。例如,这些向量表示可以用于优化以及对组的不确定性表示。最常见的映射是矩阵指数,其将Lie代数的元素映射到相关Lie组上。但是,这种选择并不唯一。它以前已经显示了如何表征SO(3),旋转组的所有此类矢量参数化。一些结果也是已知的,其中姿势组也是可以构建包括矩阵指数的映射系列以及凯利转化的系列。我们将这些姿势映射所熟知的众所周知的是在机器人中的4×4表示中,并且还演示了所提出的姿势映射的三个不同示例:(i)姿势插值,(ii)姿势伺服控制,(iii)姿势估计在一个Portcloud对齐问题中。在PointCloud对准问题中,我们的结果导致了一种基于Cayley转换的新算法,我们称之为Cayper。
translated by 谷歌翻译
了解生物和人造网络的运作仍然是一个艰难而重要的挑战。为了确定一般原则,研究人员越来越有兴趣测量培训的大量网络,或者在培训或生物学地适应类似的任务。现在需要一种标准化的分析工具来确定网络级协变量 - 例如架构,解剖脑区和模型生物 - 影响神经表示(隐藏层激活)。在这里,我们通过定义量化代表性异化的广泛的公制空间,为这些分析提供严格的基础。使用本框架,我们根据规范相关分析修改现有的代表性相似度量,以满足三角形不等式,制定致扫描层中的感应偏差的新型度量,并识别使网络表示能够结合到基本上的近似的欧几里德嵌入物。货架机学习方法。我们展示了来自生物学(Allen Institute脑观测所)和深度学习(NAS-BENCH-101)的大规模数据集的这些方法。在这样做时,我们识别在解剖特征和模型性能方面可解释的神经表现之间的关系。
translated by 谷歌翻译
基于2D图像的3D对象的推理由于从不同方向查看对象引起的外观差异很大,因此具有挑战性。理想情况下,我们的模型将是对物体姿势变化的不变或等效的。不幸的是,对于2D图像输入,这通常是不可能的,因为我们没有一个先验模型,即在平面外对象旋转下如何改变图像。唯一的$ \ mathrm {so}(3)$ - 当前存在的模型需要点云输入而不是2D图像。在本文中,我们提出了一种基于Icosahedral群卷积的新型模型体系结构,即通过将输入图像投影到iCosahedron上,以$ \ mathrm {so(3)} $中的理由。由于此投影,该模型大致与$ \ mathrm {so}(3)$中的旋转大致相当。我们将此模型应用于对象构成估计任务,并发现它的表现优于合理的基准。
translated by 谷歌翻译
点云分析没有姿势前导者在真实应用中非常具有挑战性,因为点云的方向往往是未知的。在本文中,我们提出了一个全新的点集学习框架prin,即点亮旋转不变网络,专注于点云分析中的旋转不变特征提取。我们通过密度意识的自适应采样构建球形信号,以处理球形空间中的扭曲点分布。提出了球形Voxel卷积和点重新采样以提取每个点的旋转不变特征。此外,我们将Prin扩展到称为Sprin的稀疏版本,直接在稀疏点云上运行。 Prin和Sprin都可以应用于从对象分类,部分分割到3D特征匹配和标签对齐的任务。结果表明,在随机旋转点云的数据集上,Sprin比无任何数据增强的最先进方法表现出更好的性能。我们还为我们的方法提供了彻底的理论证明和分析,以实现我们的方法实现的点明智的旋转不变性。我们的代码可在https://github.com/qq456cvb/sprin上找到。
translated by 谷歌翻译
包括协调性信息,例如位置,力,速度或旋转在计算物理和化学中的许多任务中是重要的。我们介绍了概括了等级图形网络的可控e(3)的等值图形神经网络(Segnns),使得节点和边缘属性不限于不变的标量,而是可以包含相协同信息,例如矢量或张量。该模型由可操纵的MLP组成,能够在消息和更新功能中包含几何和物理信息。通过可操纵节点属性的定义,MLP提供了一种新的Activation函数,以便与可转向功能字段一般使用。我们讨论我们的镜头通过等级的非线性卷曲镜头讨论我们的相关工作,进一步允许我们引脚点点的成功组件:非线性消息聚集在经典线性(可操纵)点卷积上改善;可操纵的消息在最近发送不变性消息的最近的等价图形网络上。我们展示了我们对计算物理学和化学的若干任务的方法的有效性,并提供了广泛的消融研究。
translated by 谷歌翻译
大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置,可以计算偏差和肢体的俯仰。然而,由于这种旋转轴仍然不观察,因此不能计算沿着肢体沿着肢体至关重要的曲折,这对于诸如体育分析和计算机动画至关重要。在本文中,我们引入了方向关键点,一种用于估计骨骼关节的全位置和旋转的新方法,仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转,我们的方法使用虚拟标记来生成足够的信息,以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48%,并且在15个骨骼旋转中实现了93%的精度。该方法还通过MPJPE在原理数据集上测量,通过MPJPE测量,该方法还改善了当前的最新结果14%,并概括为野外数据集。
translated by 谷歌翻译
刚性变换相关的点云的注册是计算机视觉中的基本问题之一。然而,仍然缺乏在存在噪声存在下对准稀疏和不同采样的观察的实际情况的解决方案。我们在这种情况下接近注册,融合封闭形式的通用Mani-折叠嵌入(UME)方法和深神经网络。这两者组合成一个统一的框架,名为Deepume,训练的端到端并以无人监督的方式。为了在存在大转换的情况下成功提供全球解决方案,我们采用So(3) - 识别的坐标系来学习点云的联合重采样策略等(3) - variant功能。然后通过用于转换估计的几何UME方法来利用这些特征。使用度量进行优化的Dewume参数,旨在克服在对称形状的注册中出现的歧义问题,当考虑嘈杂的场景时。我们表明,我们的混合方法在各种场景中优于最先进的注册方法,并概括到未操作数据集。我们的代码公开提供。
translated by 谷歌翻译
Convolutional neural networks have been extremely successful in the image recognition domain because they ensure equivariance to translations. There have been many recent attempts to generalize this framework to other domains, including graphs and data lying on manifolds. In this paper we give a rigorous, theoretical treatment of convolution and equivariance in neural networks with respect to not just translations, but the action of any compact group. Our main result is to prove that (given some natural constraints) convolutional structure is not just a sufficient, but also a necessary condition for equivariance to the action of a compact group. Our exposition makes use of concepts from representation theory and noncommutative harmonic analysis and derives new generalized convolution formulae.
translated by 谷歌翻译
标准化流是生成模型,其通过从简单的基本分布到复杂的目标分布的可逆性转换提供易于变换的工艺模型。然而,该技术不能直接模拟支持未知的低维歧管的数据,在诸如图像数据之类的现实世界域中的公共发生。最近的补救措施的尝试引入了击败归一化流量的中央好处的几何并发症:精确密度估计。我们通过保形嵌入流量来恢复这种福利,这是一种设计流动与贸易密度的流动的流动的框架。我们争辩说,使用培训保育嵌入的标准流量是模型支持数据的最自然的方式。为此,我们提出了一系列保形构建块,并在具有合成和实际数据的实验中应用它们,以证明流动可以在不牺牲贸易可能性的情况下模拟歧管支持的分布。
translated by 谷歌翻译