深神经网络实施了一系列逐层操作,每个操作都相对容易理解,但是总的总体计算通常很难理解。我们开发了一个简单的想法,可以解释有用表示的逐层结构:每一层的作用是重新格式化信息以减少目标输出的“距离”。我们通过利用最近的指标代表性相似性的工作来形式化“距离”的直观概念,并展示它如何导致几何概念的丰富空间。通过此框架,深度神经网络实施的层计算可以被视为高维表示空间中的路径。我们开发工具以在距离,角度和大地学方面表征这些几何形状。然后,我们提出在CIFAR-10训练的残留网络的三组问题:(1)路径的直线程度如何,以及每层对目标有何贡献? (2)这些特性如何在培训上出现? (3)更广泛的网络与更深的网络采取的路径有多相似?我们通过勾勒出其他方式来结论,这种代表性几何形状可用于理解和解释网络培训,或者规定改善网络体系结构以适合任务。
translated by 谷歌翻译
了解生物和人造网络的运作仍然是一个艰难而重要的挑战。为了确定一般原则,研究人员越来越有兴趣测量培训的大量网络,或者在培训或生物学地适应类似的任务。现在需要一种标准化的分析工具来确定网络级协变量 - 例如架构,解剖脑区和模型生物 - 影响神经表示(隐藏层激活)。在这里,我们通过定义量化代表性异化的广泛的公制空间,为这些分析提供严格的基础。使用本框架,我们根据规范相关分析修改现有的代表性相似度量,以满足三角形不等式,制定致扫描层中的感应偏差的新型度量,并识别使网络表示能够结合到基本上的近似的欧几里德嵌入物。货架机学习方法。我们展示了来自生物学(Allen Institute脑观测所)和深度学习(NAS-BENCH-101)的大规模数据集的这些方法。在这样做时,我们识别在解剖特征和模型性能方面可解释的神经表现之间的关系。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
Recent work has sought to understand the behavior of neural networks by comparing representations between layers and between different trained models. We examine methods for comparing neural network representations based on canonical correlation analysis (CCA). We show that CCA belongs to a family of statistics for measuring multivariate similarity, but that neither CCA nor any other statistic that is invariant to invertible linear transformation can measure meaningful similarities between representations of higher dimension than the number of data points. We introduce a similarity index that measures the relationship between representational similarity matrices and does not suffer from this limitation. This similarity index is equivalent to centered kernel alignment (CKA) and is also closely connected to CCA. Unlike CCA, CKA can reliably identify correspondences between representations in networks trained from different initializations.
translated by 谷歌翻译
本文介绍了一组数字方法,用于在不变(弹性)二阶Sobolev指标的设置中对3D表面进行Riemannian形状分析。更具体地说,我们解决了代表为3D网格的参数化或未参数浸入式表面之间的测量学和地球距离的计算。在此基础上,我们为表面集的统计形状分析开发了工具,包括用于估算Karcher均值并在形状群体上执行切线PCA的方法,以及计算沿表面路径的平行传输。我们提出的方法从根本上依赖于通过使用Varifold Fidelity术语来为地球匹配问题提供轻松的变异配方,这使我们能够在计算未参数化表面之间的地理位置时强制执行重新训练的独立性,同时还可以使我们能够与多用途算法相比,使我们能够将表面与vare表面进行比较。采样或网状结构。重要的是,我们演示了如何扩展放松的变分框架以解决部分观察到的数据。在合成和真实的各种示例中,说明了我们的数值管道的不同好处。
translated by 谷歌翻译
有限维概率单纯x中的聚类分类分布是处理归一化直方图的许多应用中的基本任务。传统上,概率单位的差分几何结构已经通过(i)将Riemannian公制矩阵设定为分类分布的Fisher信息矩阵,或(ii)定义由平滑异化性引起的二元信息 - 几何结构衡量标准,kullback-leibler发散。在这项工作中,我们介绍了群集任务一种新颖的计算型友好框架,用于在几何上建模概率单纯x:{\ em hilbert simplex几何}。在Hilbert Simplex几何形状中,距离是不可分离的Hilbert公制距离,其满足与多光镜边界描述的距离水平集功能的信息单调性的特性。我们表明,Aitchison和Hilbert Simplex的距离分别是关于$ \ ell_2 $和变化规范的标准化对数表示的距离。我们讨论了这些不同的统计建模的利弊,并通过基于基于中心的$ k $ -means和$ k $ -center聚类的基准这些不同的几何形状。此外,由于可以在欧几里德空间的任何有界凸形子集上定义规范希尔伯特距离,因此我们还考虑了与FR \“Obenius和Log-Det分歧相比的相关矩阵的椭圆形的几何形状并研究其聚类性能。
translated by 谷歌翻译
在翻译,旋转和形状下定义形状和形式作为等同类 - 也是规模的,我们将广义添加剂回归扩展到平面曲线和/或地标配置的形状/形式的模型。该模型尊重响应的所得到的商几何形状,采用平方的测量距离作为损耗函数和测地响应函数来将添加剂预测器映射到形状/形状空间。为了拟合模型,我们提出了一种riemannian $ l_2 $ -boosting算法,适用于可能大量可能的参数密集型模型术语,其还产生了自动模型选择。我们通过合适的张量 - 产品分解为形状/形状空间中的(甚至非线性)协变量提供新的直观可解释的可视化。所提出的框架的有用性在于1)的野生和驯养绵羊和2)细胞形式的分析中,在生物物理模型中产生的细胞形式,以及3)在具有反应形状和形式的现实模拟研究中,具有来自a的响应形状和形式在瓶轮廓上的数据集。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
我们介绍了CheBlieset,一种对(各向异性)歧管的组成的方法。对基于GRAP和基于组的神经网络的成功进行冲浪,我们利用了几何深度学习领域的最新发展,以推导出一种新的方法来利用数据中的任何各向异性。通过离散映射的谎言组,我们开发由各向异性卷积层(Chebyshev卷积),空间汇集和解凝层制成的图形神经网络,以及全球汇集层。集团的标准因素是通过具有各向异性左不变性的黎曼距离的图形上的等级和不变的运算符来实现的。由于其简单的形式,Riemannian公制可以在空间和方向域中模拟任何各向异性。这种对Riemannian度量的各向异性的控制允许平衡图形卷积层的不变性(各向异性度量)的平衡(各向异性指标)。因此,我们打开大门以更好地了解各向异性特性。此外,我们经验证明了在CIFAR10上的各向异性参数的存在(数据依赖性)甜点。这一关键的结果是通过利用数据中的各向异性属性来获得福利的证据。我们还评估了在STL10(图像数据)和ClimateNet(球面数据)上的这种方法的可扩展性,显示了对不同任务的显着适应性。
translated by 谷歌翻译
从模型分析和机器学习中的比较到医疗数据集集合中的趋势发现,需要有效地比较和表示具有未知字段的数据集跨越各个字段。我们使用歧管学习来比较不同数据集的固有几何结构,通过比较其扩散操作员,对称阳性定义(SPD)矩阵,这些矩阵与连续的拉普拉斯 - 贝特拉米操作员与离散样品的近似相关。现有方法通常假设已知的数据对齐,并以点数的方式比较此类运算符。取而代之的是,我们利用SPD矩阵的Riemannian几何形状比较了这些操作员并根据log-euclidean Metric的下限定义了新的理论动机距离。我们的框架有助于比较具有不同大小,功能数量和测量方式的数据集中表达的数据歧管的比较。我们的日志 - 欧几里德签名(LES)距离恢复了有意义的结构差异,在各种应用领域的表现都优于竞争方法。
translated by 谷歌翻译
高斯过程可以说是空间统计中最重要的模型类别。他们编码有关建模功能的先前信息,可用于精确或近似贝叶斯推断。在许多应用中,尤其是在物理科学和工程中,以及在诸如地统计和神经科学等领域,对对称性的不变性是人们可以考虑的先前信息的最基本形式之一。高斯工艺与这种对称性的协方差的不变性导致了对此类空间平稳性概念的最自然概括。在这项工作中,我们开发了建设性和实用的技术,用于在在对称的背景下产生的一大批非欧基人空间上构建固定的高斯工艺。我们的技术使(i)以实用的方式计算(i)计算在此类空间上定义的先验和后高斯过程中的协方差内核和(ii)。这项工作分为两部分,每个部分涉及不同的技术考虑:第一部分研究紧凑的空间,而第二部分研究的非紧密空间具有某些结构。我们的贡献使我们研究的非欧亚人高斯流程模型与标准高斯流程软件包中可用的良好计算技术兼容,从而使从业者可以访问它们。
translated by 谷歌翻译
神经切线核是根据无限宽度神经网络的参数分布定义的内核函数。尽管该极限不切实际,但神经切线内核允许对神经网络进行更直接的研究,并凝视着黑匣子的面纱。最近,从理论上讲,Laplace内核和神经切线内核在$ \ Mathbb {S}}^{D-1} $中共享相同的复制核Hilbert空间,暗示了它们的等价。在这项工作中,我们分析了两个内核的实际等效性。我们首先是通过与核的准确匹配,然后通过与高斯过程的后代匹配来进行匹配。此外,我们分析了$ \ mathbb {r}^d $中的内核,并在回归任务中进行实验。
translated by 谷歌翻译
In neural networks, it is often desirable to work with various representations of the same space. For example, 3D rotations can be represented with quaternions or Euler angles. In this paper, we advance a definition of a continuous representation, which can be helpful for training deep neural networks. We relate this to topological concepts such as homeomorphism and embedding. We then investigate what are continuous and discontinuous representations for 2D, 3D, and n-dimensional rotations. We demonstrate that for 3D rotations, all representations are discontinuous in the real Euclidean spaces of four or fewer dimensions. Thus, widely used representations such as quaternions and Euler angles are discontinuous and difficult for neural networks to learn. We show that the 3D rotations have continuous representations in 5D and 6D, which are more suitable for learning. We also present continuous representations for the general case of the n dimensional rotation group SO(n). While our main focus is on rotations, we also show that our constructions apply to other groups such as the orthogonal group and similarity transforms. We finally present empirical results, which show that our continuous rotation representations outperform discontinuous ones for several practical problems in graphics and vision, including a simple autoencoder sanity test, a rotation estimator for 3D point clouds, and an inverse kinematics solver for 3D human poses.
translated by 谷歌翻译
定义网格上卷积的常用方法是将它们作为图形解释并应用图形卷积网络(GCN)。这种GCNS利用各向同性核,因此对顶点的相对取向不敏感,从而对整个网格的几何形状。我们提出了规范的等分性网状CNN,它概括了GCNS施加各向异性仪表等级核。由于产生的特征携带方向信息,我们引入了通过网格边缘并行传输特征来定义的几何消息传递方案。我们的实验验证了常规GCN和其他方法的提出模型的显着提高的表达性。
translated by 谷歌翻译
对称性一直是探索广泛复杂系统的基本工具。在机器学习中,在模型和数据中都探索了对称性。在本文中,我们试图将模型家族架构引起的对称性与该家族的内部数据表示的对称性联系起来。我们通过计算一组基本的对称组来做到这一点,我们称它们称为模型的\ emph {Intertwiner组}。这些中的每一个都来自模型的特定非线性层,不同的非线性导致不同的对称组。这些组以模型的权重更改模型的权重,使模型所代表的基础函数保持恒定,但模型内部数据的内部表示可能会改变。我们通过一系列实验将Intertwiner组连接到模型的数据内部表示,这些实验在具有相同体系结构的模型之间探测隐藏状态之间的相似性。我们的工作表明,网络的对称性在该网络的数据表示中传播到对称性中,从而使我们更好地了解架构如何影响学习和预测过程。最后,我们推测,对于Relu网络,交织组可能会为在隐藏层而不是任意线性组合的激活基础上集中模型可解释性探索的共同实践提供理由。
translated by 谷歌翻译
数据表示的比较是一个复杂的多个方面问题,尚未享受完整的解决方案。我们提出了一种用于比较两个数据表示的方法。我们介绍了表示拓扑分歧(RTD),测量在两点云之间的多尺度拓扑中的异常相同,在点之间的一对一的对应关系。数据点云被允许位于不同的环境空间中。RTD是少数基于TDA的实用方法之一,适用于真实机器学习数据集。实验表明,提议的RTD同意对数据表示相似性的直观评估,对其拓扑结构敏感。我们申请RTD在各种问题的计算机视觉和NLP域中获得神经网络表示的见解:培训动力学分析,数据分配转移,转移学习,集合学习,解剖学评估。
translated by 谷歌翻译
The compositionality and sparsity of high-throughput sequencing data poses a challenge for regression and classification. However, in microbiome research in particular, conditional modeling is an essential tool to investigate relationships between phenotypes and the microbiome. Existing techniques are often inadequate: they either rely on extensions of the linear log-contrast model (which adjusts for compositionality, but is often unable to capture useful signals), or they are based on black-box machine learning methods (which may capture useful signals, but ignore compositionality in downstream analyses). We propose KernelBiome, a kernel-based nonparametric regression and classification framework for compositional data. It is tailored to sparse compositional data and is able to incorporate prior knowledge, such as phylogenetic structure. KernelBiome captures complex signals, including in the zero-structure, while automatically adapting model complexity. We demonstrate on par or improved predictive performance compared with state-of-the-art machine learning methods. Additionally, our framework provides two key advantages: (i) We propose two novel quantities to interpret contributions of individual components and prove that they consistently estimate average perturbation effects of the conditional mean, extending the interpretability of linear log-contrast models to nonparametric models. (ii) We show that the connection between kernels and distances aids interpretability and provides a data-driven embedding that can augment further analysis. Finally, we apply the KernelBiome framework to two public microbiome studies and illustrate the proposed model analysis. KernelBiome is available as an open-source Python package at https://github.com/shimenghuang/KernelBiome.
translated by 谷歌翻译
深度神经网络被广泛用于解决多个科学领域的复杂问题,例如语音识别,机器翻译,图像分析。用于研究其理论特性的策略主要依赖于欧几里得的几何形状,但是在过去的几年中,已经开发了基于Riemannian几何形状的新方法。在某些开放问题的动机中,我们研究了歧管之间的特定地图序列,该序列的最后一个歧管配备了riemannian指标。我们研究了序列的其他歧管和某些相关商的结构引起的槽撤回。特别是,我们表明,最终的riemannian度量的回调到该序列的任何歧管是一个退化的riemannian度量,诱导了伪模空间的结构,我们表明,该伪仪的kolmogorov商均产生了平滑的歧管,这是基础的,这是基础,这是基础的基础。特定垂直束的空间。我们研究了此类序列图的理论属性,最终我们着重于实施实际关注神经网络的流形之间的地图,并介绍了本文第一部分中引入的几何框架的某些应用。
translated by 谷歌翻译
由编码器和解码器组成的自动编码器被广泛用于机器学习,以缩小高维数据的尺寸。编码器将输入数据歧管嵌入到较低的潜在空间中,而解码器表示反向映射,从而提供了潜在空间中的歧管的数据歧管的参数化。嵌入式歧管的良好规律性和结构可以实质性地简化进一步的数据处理任务,例如群集分析或数据插值。我们提出并分析了一种新的正则化,以学习自动编码器的编码器组件:一种损失功能,可倾向于等距,外层平坦的嵌入,并允许自行训练编码器。为了进行训练,假定对于输入歧管上的附近点,他们的本地riemannian距离及其本地riemannian平均水平可以评估。损失函数是通过蒙特卡洛集成计算的,具有不同的采样策略,用于输入歧管上的一对点。我们的主要定理将嵌入图的几何损失函数识别为$ \ gamma $ - 依赖于采样损失功能的限制。使用编码不同明确给定的数据歧管的图像数据的数值测试表明,将获得平滑的歧管嵌入到潜在空间中。由于促进了外部平坦度,这些嵌入足够规律,因此在潜在空间中线性插值可以作为一种可能的后处理。
translated by 谷歌翻译
产品空间的嵌入方法是用于复杂数据结构的低失真和低维表示的强大技术。在这里,我们解决了Euclidean,球形和双曲线产品的产品空间形式的线性分类新问题。首先,我们描述了使用测地仪和黎曼·歧木的线性分类器的新型制剂,其使用大气和黎曼指标在向量空间中推广直线和内部产品。其次,我们证明了$ D $ -dimential空间形式的线性分类器的任何曲率具有相同的表现力,即,它们可以粉碎恰好$ d + 1 $积分。第三,我们在产品空间形式中正式化线性分类器,描述了第一个已知的Perceptron和支持这些空间的传染媒介机分类器,并为感知者建立严格的融合结果。此外,我们证明了vapnik-chervonenkis尺寸在尺寸的产品空间形式的线性分类器的维度为\ {至少} $ d + 1 $。我们支持我们的理论发现,在多个数据集上模拟,包括合成数据,图像数据和单细胞RNA测序(SCRNA-SEQ)数据。结果表明,与相同维度的欧几里德空间中的欧几里德空间中,SCRNA-SEQ数据的低维产品空间形式的分类为SCRNA-SEQ数据提供了$ \ SIM15 \%$的性能改进。
translated by 谷歌翻译