变化自动编码器(VAE)的最新进展使学习潜流歧管成为紧凑的谎言组,例如$ SO(d)$。由于这种方法假定数据在于谎言组本身同构的子空间,因此我们在这里研究了该假设如何在图像的背景下通过预测$ d $二维量产生的图像,而$ d $ d $ d $二维构成$ so so so so(d)$。在检查小组和图像空间的不同理论候选者后,我们表明,定义对数据空间的组动作的尝试通常会失败,因为它需要对卷上的更具体的几何约束。使用几何VAE,我们的实验证实了此约束是适当姿势推断的关键,我们讨论了这些结果对应用和未来工作的潜力。
translated by 谷歌翻译
用冷冻电子显微镜(Cryo-EM)溶液中生物分子高分辨率成像的近期突破已经解锁了用于重建分子体积的新门,从而有望在其他人之间进一步进一步进展。尽管有很大的入脚,但Cryo-EM数据分析中的巨大挑战仍然是军团和错综复杂的自然间学科,需要物理学家,结构生物学家,计算机科学家,统计学家和应用数学家的见解。同时,最近的下一代卷重建算法与端到端无监督的深度学习技术相结合的生成建模已经显示了对模拟数据的有希望的结果,但在应用于实验Cryo-EM图像时仍然面临相当大的障碍。鉴于此类方法的增殖并鉴于任务的跨学科性质,我们提出了对高分辨率低分辨率建模领域的最近进步的批判性审查。目前的审查旨在(i)比较和对比这些新方法,而(ii)将它们从透视和使用科学家熟悉的术语呈现出来,在任何五个上述领域中没有Cryo-Em中没有具体的背景。审查始于引言介绍低温 - EM批量重建的深度生成模型的数学和计算挑战,同时概述了这类算法中共享的基线方法。通过这些不同的模型建立了常见的线程编织,我们提供了这些最先进的算法的实际比较,突出了它们的相对优势和劣势以及它们依赖的假设。这使我们能够识别当前方法和途径的瓶颈,以便将来的研究。
translated by 谷歌翻译
我们如何获得世界模型,这些模型在什么以及我们的行动如何影响它方面都在终止代表外界?我们可以通过与世界互动而获得此类模型,并且我们是否可以说明数学逃亡者与他们与脑海中存在的假设现实的关系?随着机器学习不仅朝着包含观察性的代表性,而且介入介入知识的趋势,我们使用代表学习和小组理论的工具研究了这些问题。在假设我们的执行者对世界上作用的假设,我们提出了学习的方法,不仅要学习感官信息的内部表示,而且还以与世界上的行动和过渡相一致的方式来修改我们的感觉表示的行为。我们使用配备有线性作用在其潜在空间上的组表示的自动编码器,该空间对2步重建进行了训练,例如在组表示上执行合适的同构属性。与现有工作相比,我们的方法对组表示的假设更少,并且代理可以从组中采样的转换。我们从理论上激励我们的方法,并从经验上证明它可以学习群体和环境拓扑的正确表示。我们还将其在轨迹预测中的性能与以前的方法进行比较。
translated by 谷歌翻译
基于线性对称性的分解(LSBD)的定义正式化了线性分解表示的概念,但目前尚无量化LSBD的指标。这样的度量对于评估LSBD方法至关重要,并与以前的分解理解相比。我们建议$ \ mathcal {d} _ \ mathrm {lsbd} $,一种数学上的声音指标,用于量化LSBD,并为$ \ mathrm {so}(so}(2)$ groups提供了实践实现。此外,从这个指标中,我们得出了LSBD-VAE,这是一种学习LSBD表示的半监督方法。我们通过证明(1)基于VAE的常见分解方法不学习LSBD表示,(2)LSBD-VAE以及其他最近的方法可以学习LSBD表示,仅需要有限的转换监督,我们可以在转换中学习LSBD表示,从而证明了我们指标的实用性。(3)LSBD表示也实现了现有的分离指标表达的各种理想属性。
translated by 谷歌翻译
在压缩感应中,目标是从线性测量系统不确定的系统中重建信号。因此,需要有关关注信号及其结构的先验知识。此外,在许多情况下,该信号在测量之前具有未知的方向。为了解决此类恢复问题,我们建议使用Equivariant生成模型作为先验,该模型将定向信息封装在其潜在空间中。因此,我们表明,具有未知取向的信号可以通过这些模型的潜在空间的迭代梯度下降来恢复,并提供额外的理论恢复保证。我们构建一个模棱两可的变量自动编码器,并将解码器用作压缩传感的生成性先验。我们在收敛和潜伏期方面讨论了拟议方法的其他潜在收益。
translated by 谷歌翻译
In neural networks, it is often desirable to work with various representations of the same space. For example, 3D rotations can be represented with quaternions or Euler angles. In this paper, we advance a definition of a continuous representation, which can be helpful for training deep neural networks. We relate this to topological concepts such as homeomorphism and embedding. We then investigate what are continuous and discontinuous representations for 2D, 3D, and n-dimensional rotations. We demonstrate that for 3D rotations, all representations are discontinuous in the real Euclidean spaces of four or fewer dimensions. Thus, widely used representations such as quaternions and Euler angles are discontinuous and difficult for neural networks to learn. We show that the 3D rotations have continuous representations in 5D and 6D, which are more suitable for learning. We also present continuous representations for the general case of the n dimensional rotation group SO(n). While our main focus is on rotations, we also show that our constructions apply to other groups such as the orthogonal group and similarity transforms. We finally present empirical results, which show that our continuous rotation representations outperform discontinuous ones for several practical problems in graphics and vision, including a simple autoencoder sanity test, a rotation estimator for 3D point clouds, and an inverse kinematics solver for 3D human poses.
translated by 谷歌翻译
冷冻电子显微镜(Cryo-EM)已成为结构生物学中基本重要性的工具,帮助我们了解生活的基本构建基础。冷冻EM的算法挑战是共同估计未知的3D姿势和来自数百万个极其嘈杂的2D图像的生物分子的3D电子散射潜力。但是,由于其高度计算和内存成本,现有的重建算法无法轻易地与迅速增长的低温EM数据集尺寸保持同步。我们介绍了Cryoai,这是一种用于均匀构象的从头算重建算法,该构型使用基于直接梯度的粒子姿势优化和来自单粒子冷冻EM数据的电子散射电位。冷冻ai结合了一个学识渊博的编码器,该编码器将每个粒子图像的姿势与基于物理的解码器进行汇总,以将每个粒子图像汇总到散射势体积的隐式表示中。该卷存储在傅立叶域中以提高计算效率,并利用现代坐标网络体系结构来提高内存效率。结合对称损耗函数,该框架可在模拟和实验数据中与最先进的冷冻EM求解器达到质量的结果,对于大型数据集而言,一个数量级的阶数级,并且具有明显低的存储器需求现有方法。
translated by 谷歌翻译
模棱两可的神经网络,其隐藏的特征根据G组作用于数据的表示,表现出训练效率和提高的概括性能。在这项工作中,我们将群体不变和模棱两可的表示学习扩展到无监督的深度学习领域。我们根据编码器框架提出了一种通用学习策略,其中潜在表示以不变的术语和模棱两可的组动作组件分开。关键的想法是,网络学会通过学习预测适当的小组操作来对齐输入和输出姿势以解决重建任务的适当组动作来编码和从组不变表示形式进行编码和解码数据。我们在Equivariant编码器上得出必要的条件,并提出了对任何G(离散且连续的)有效的构造。我们明确描述了我们的旋转,翻译和排列的构造。我们在采用不同网络体系结构的各种数据类型的各种实验中测试了方法的有效性和鲁棒性。
translated by 谷歌翻译
大多数现代的潜在变量和概率生成模型,例如变异自动编码器(VAE),即使有无限的数据也无法解决,这些模型也无法解决。此类模型的最新应用表明需要强烈可识别的模型,其中观察结果与唯一的潜在代码相对应。在维持灵活性的同时,取得了进展,最著名的是IVAE(Arxiv:1907.04809 [stat.ml]),该模型排除了许多(但不是全部 - 不确定)。我们构建了一个完整的理论框架,用于分析潜在变量模型的不确定性,并根据生成器函数的属性和潜在变量先验分布精确表征它们。为了说明,我们应用框架以更好地了解最近的可识别性结果的结构。然后,我们研究如何指定强烈识别的潜在变量模型,并构建两个这样的模型。一种是对ivae的直接修饰。另一个想法从最佳运输和导致新颖的模型和连接到最近的工作。
translated by 谷歌翻译
我们研究是否使用两个条件型号$ p(x | z)$和$ q(z | x)$,以使用循环的两个条件型号,我们如何建模联合分配$ p(x,z)$。这是通过观察到深入生成模型的动机,除了可能的型号$ p(x | z)$,通常也使用推理型号$ q(z | x)$来提取表示,但它们通常依赖不表征的先前分配$ P(z)$来定义联合分布,这可能会使后塌和歧管不匹配等问题。为了探讨仅使用$ p(x | z)$和$ q(z | x)$模拟联合分布的可能性,我们研究其兼容性和确定性,对应于其条件分布一致的联合分布的存在和唯一性跟他们。我们为可操作的等价标准开发了一般理论,以实现兼容性,以及足够的确定条件。基于该理论,我们提出了一种新颖的生成建模框架来源,仅使用两个循环条件模型。我们开发方法以实现兼容性和确定性,并使用条件模型适合和生成数据。通过预先删除的约束,Cygen更好地适合数据并捕获由合成和现实世界实验支持的更多代表性特征。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
潜在变量模型(LVM)的无监督学习被广泛用于表示机器学习中的数据。当这样的模型反映了地面真理因素和将它们映射到观察的机制时,有理由期望它们允许在下游任务中进行概括。但是,众所周知,如果不在模型类上施加限制,通常无法实现此类可识别性保证。非线性独立组件分析是如此,其中LVM通过确定性的非线性函数将统计上独立的变量映射到观察。几个伪造解决方案的家庭完全适合数据,但是可以在通用环境中构建与地面真相因素相对应的。但是,最近的工作表明,限制此类模型的功能类别可能会促进可识别性。具体而言,已经提出了在Jacobian矩阵中收集的部分衍生物的函数类,例如正交坐标转换(OCT),它们强加了Jacobian柱的正交性。在目前的工作中,我们证明了这些转换的子类,共形图,是可识别的,并提供了新颖的理论结果,这表明OCT具有防止虚假解决方案家族在通用环境中破坏可识别性的特性。
translated by 谷歌翻译
生成建模旨在揭示产生观察到的数据的潜在因素,这些数据通常可以被建模为自然对称性,这些对称性是通过不变和对某些转型定律等效的表现出来的。但是,当前代表这些对称性的方法是在需要构建模棱两可矢量场的连续正式化流中所掩盖的 - 抑制了它们在常规的高维生成建模域(如自然图像)中的简单应用。在本文中,我们专注于使用离散层建立归一化流量。首先,我们从理论上证明了对紧凑空间的紧凑型组的模棱两可的图。我们进一步介绍了三个新的品牌流:$ g $ - 剩余的流量,$ g $ - 耦合流量和$ g $ - inverse自动回旋的回旋流量,可以提升经典的残留剩余,耦合和反向自动性流量,并带有等效的地图, $。从某种意义上说,我们证明$ g $ equivariant的差异性可以通过$ g $ - $ residual流量映射,我们的$ g $ - 剩余流量也很普遍。最后,我们首次在诸如CIFAR-10之类的图像数据集中对我们的理论见解进行了补充,并显示出$ G $ equivariant有限的有限流量,从而提高了数据效率,更快的收敛性和提高的可能性估计。
translated by 谷歌翻译
我们证明了(a)具有通用近似功能的广泛的深层变量模型的可识别性,并且(b)是通常在实践中使用的变异自动编码器的解码器。与现有工作不同,我们的分析不需要弱监督,辅助信息或潜在空间中的条件。最近,研究了此类模型的可识别性。在这些作品中,主要的假设是,还可以观察到辅助变量$ u $(也称为侧面信息)。同时,几项作品从经验上观察到,这在实践中似乎并不是必需的。在这项工作中,我们通过证明具有通用近似功能的广泛生成(即无监督的)模型来解释这种行为,无需侧面信息$ u $:我们证明了整个生成模型的可识别性$ u $,仅观察数据$ x $。我们考虑的模型与实践中使用的自动编码器体系结构紧密连接,该体系结构利用了潜在空间中的混合先验和编码器中的Relu/Leaky-Relu激活。我们的主要结果是可识别性层次结构,该层次结构显着概括了先前的工作,并揭示了不同的假设如何导致可识别性的“优势”不同。例如,我们最薄弱的结果确定了(无监督的)可识别性,直到仿射转换已经改善了现有工作。众所周知,这些模型具有通用近似功能,而且它们已被广泛用于实践中来学习数据表示。
translated by 谷歌翻译
自动编码是表示学习的一种流行方法。常规的自动编码器采用对称编码编码程序和简单的欧几里得潜在空间,以无监督的方式检测隐藏的低维结构。这项工作介绍了一个图表自动编码器,其中具有不对称编码编码过程,该过程可以包含其他半监督信息,例如类标签。除了增强使用复杂的拓扑结构和几何结构处理数据的能力外,这些模型还可以成功区分附近的数据,但仅与少量监督相交并与歧管相交。此外,该模型仅需要较低的复杂性编码器,例如局部线性投影。我们讨论了此类网络的理论近似能力,基本上取决于数据歧管的固有维度,而不是观测值的维度。我们对合成和现实世界数据的数值实验验证了所提出的模型可以有效地通过附近的多类,但分离不同类别,重叠的歧管和具有非平凡拓扑的歧管的数据。
translated by 谷歌翻译
合并对称性可以通过定义通过转换相关的数据样本的等效类别来导致高度数据效率和可推广的模型。但是,表征转换如何在输入数据上作用通常很困难,从而限制了模型模型的适用性。我们提出了编码输入空间(例如图像)的学习对称嵌入网络(SENS),我们不知道转换的效果(例如旋转),以在这些操作下以已知方式转换的特征空间。可以通过模棱两可的任务网络端对端训练该网络,以学习明确的对称表示。我们在具有3种不同形式的对称形式的模棱两可的过渡模型的背景下验证了这种方法。我们的实验表明,SENS有助于将模棱两可的网络应用于具有复杂对称表示的数据。此外,相对于全等级和非等价基线的准确性和泛化可以提高准确性和概括。
translated by 谷歌翻译
Riemannian geometry provides powerful tools to explore the latent space of generative models while preserving the inherent structure of the data manifold. Lengths, energies and volume measures can be derived from a pullback metric, defined through the immersion that maps the latent space to the data space. With this in mind, most generative models are stochastic, and so is the pullback metric. Manipulating stochastic objects is strenuous in practice. In order to perform operations such as interpolations, or measuring the distance between data points, we need a deterministic approximation of the pullback metric. In this work, we are defining a new metric as the expected length derived from the stochastic pullback metric. We show this metric is Finslerian, and we compare it with the expected pullback metric. In high dimensions, we show that the metrics converge to each other at a rate of $\mathcal{O}\left(\frac{1}{D}\right)$.
translated by 谷歌翻译
在本文中,我们介绍了复杂的功能映射,它将功能映射框架扩展到表面上切线矢量字段之间的共形图。这些地图的一个关键属性是他们的方向意识。更具体地说,我们证明,与连锁两个歧管的功能空间的常规功能映射不同,我们的复杂功能图在面向的切片束之间建立了一个链路,从而允许切线矢量场的稳健和有效地传输。通过首先赋予和利用复杂的结构利用各个形状的切线束,所得到的操作变得自然导向,从而有利于横跨形状保持对应的取向和角度,而不依赖于描述符或额外的正则化。最后,也许更重要的是,我们演示了这些对象如何在功能映射框架内启动几个实际应用。我们表明功能映射及其复杂的对应物可以共同估算,以促进定向保存,规范的管道,前面遭受取向反转对称误差的误差。
translated by 谷歌翻译
我们介绍了CheBlieset,一种对(各向异性)歧管的组成的方法。对基于GRAP和基于组的神经网络的成功进行冲浪,我们利用了几何深度学习领域的最新发展,以推导出一种新的方法来利用数据中的任何各向异性。通过离散映射的谎言组,我们开发由各向异性卷积层(Chebyshev卷积),空间汇集和解凝层制成的图形神经网络,以及全球汇集层。集团的标准因素是通过具有各向异性左不变性的黎曼距离的图形上的等级和不变的运算符来实现的。由于其简单的形式,Riemannian公制可以在空间和方向域中模拟任何各向异性。这种对Riemannian度量的各向异性的控制允许平衡图形卷积层的不变性(各向异性度量)的平衡(各向异性指标)。因此,我们打开大门以更好地了解各向异性特性。此外,我们经验证明了在CIFAR10上的各向异性参数的存在(数据依赖性)甜点。这一关键的结果是通过利用数据中的各向异性属性来获得福利的证据。我们还评估了在STL10(图像数据)和ClimateNet(球面数据)上的这种方法的可扩展性,显示了对不同任务的显着适应性。
translated by 谷歌翻译
我们为高维顺序数据提出了深度潜在的变量模型。我们的模型将潜在空间分解为内容和运动变量。为了模拟多样化的动态,我们将运动空间分成子空间,并为每个子空间引入一个独特的哈密顿运算符。Hamiltonian配方提供可逆动态,学习限制运动路径以保护不变性属性。运动空间的显式分裂将哈密顿人分解成对称组,并提供动态的长期可分离性。这种拆分也意味着可以学习的表示,这很容易解释和控制。我们展示了我们模型来交换两个视频的运动,从给定的图像和无条件序列生成产生各种动作的序列。
translated by 谷歌翻译