自动编码是表示学习的一种流行方法。常规的自动编码器采用对称编码编码程序和简单的欧几里得潜在空间,以无监督的方式检测隐藏的低维结构。这项工作介绍了一个图表自动编码器,其中具有不对称编码编码过程,该过程可以包含其他半监督信息,例如类标签。除了增强使用复杂的拓扑结构和几何结构处理数据的能力外,这些模型还可以成功区分附近的数据,但仅与少量监督相交并与歧管相交。此外,该模型仅需要较低的复杂性编码器,例如局部线性投影。我们讨论了此类网络的理论近似能力,基本上取决于数据歧管的固有维度,而不是观测值的维度。我们对合成和现实世界数据的数值实验验证了所提出的模型可以有效地通过附近的多类,但分离不同类别,重叠的歧管和具有非平凡拓扑的歧管的数据。
translated by 谷歌翻译
由编码器和解码器组成的自动编码器被广泛用于机器学习,以缩小高维数据的尺寸。编码器将输入数据歧管嵌入到较低的潜在空间中,而解码器表示反向映射,从而提供了潜在空间中的歧管的数据歧管的参数化。嵌入式歧管的良好规律性和结构可以实质性地简化进一步的数据处理任务,例如群集分析或数据插值。我们提出并分析了一种新的正则化,以学习自动编码器的编码器组件:一种损失功能,可倾向于等距,外层平坦的嵌入,并允许自行训练编码器。为了进行训练,假定对于输入歧管上的附近点,他们的本地riemannian距离及其本地riemannian平均水平可以评估。损失函数是通过蒙特卡洛集成计算的,具有不同的采样策略,用于输入歧管上的一对点。我们的主要定理将嵌入图的几何损失函数识别为$ \ gamma $ - 依赖于采样损失功能的限制。使用编码不同明确给定的数据歧管的图像数据的数值测试表明,将获得平滑的歧管嵌入到潜在空间中。由于促进了外部平坦度,这些嵌入足够规律,因此在潜在空间中线性插值可以作为一种可能的后处理。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
众所周知,现代神经网络容易受到对抗例子的影响。为了减轻这个问题,已经提出了一系列强大的学习算法。但是,尽管通过某些方法可以通过某些方法接近稳定的训练误差,但所有现有的算法都会导致较高的鲁棒概括误差。在本文中,我们从深层神经网络的表达能力的角度提供了对这种令人困惑的现象的理论理解。具体而言,对于二进制分类数据,我们表明,对于Relu网络,虽然轻度的过度参数足以满足较高的鲁棒训练精度,但存在持续的稳健概括差距,除非神经网络的大小是指数的,却是指数的。数据维度$ d $。即使数据是线性可分离的,这意味着要实现低清洁概括错误很容易,我们仍然可以证明$ \ exp({\ omega}(d))$下限可用于鲁棒概括。通常,只要它们的VC维度最多是参数数量,我们的指数下限也适用于各种神经网络家族和其他功能类别。此外,我们为网络大小建立了$ \ exp({\ mathcal {o}}(k))$的改进的上限,当数据放在具有内在尺寸$ k $的歧管上时,以实现低鲁棒的概括错误($) k \ ll d $)。尽管如此,我们也有一个下限,相对于$ k $成倍增长 - 维度的诅咒是不可避免的。通过证明网络大小之间的指数分离以实现较低的鲁棒训练和泛化错误,我们的结果表明,鲁棒概括的硬度可能源于实用模型的表现力。
translated by 谷歌翻译
我们使用运输公制(Delon和Desolneux 2020)中的单变量高斯混合物中的任意度量空间$ \ MATHCAL {X} $研究数据表示。我们得出了由称为\ emph {Probabilistic Transfersers}的小神经网络实现的特征图的保证。我们的保证是记忆类型:我们证明了深度约为$ n \ log(n)$的概率变压器和大约$ n^2 $ can bi-h \'{o} lder嵌入任何$ n $ - 点数据集从低度量失真的$ \ Mathcal {x} $,从而避免了维数的诅咒。我们进一步得出了概率的bi-lipschitz保证,可以兑换失真量和随机选择的点与该失真的随机选择点的可能性。如果$ \ MATHCAL {X} $的几何形状足够规律,那么我们可以为数据集中的所有点获得更强的Bi-Lipschitz保证。作为应用程序,我们从Riemannian歧管,指标和某些类型的数据集中获得了神经嵌入保证金组合图。
translated by 谷歌翻译
Several problems in stochastic analysis are defined through their geometry, and preserving that geometric structure is essential to generating meaningful predictions. Nevertheless, how to design principled deep learning (DL) models capable of encoding these geometric structures remains largely unknown. We address this open problem by introducing a universal causal geometric DL framework in which the user specifies a suitable pair of geometries $\mathscr{X}$ and $\mathscr{Y}$ and our framework returns a DL model capable of causally approximating any ``regular'' map sending time series in $\mathscr{X}^{\mathbb{Z}}$ to time series in $\mathscr{Y}^{\mathbb{Z}}$ while respecting their forward flow of information throughout time. Suitable geometries on $\mathscr{Y}$ include various (adapted) Wasserstein spaces arising in optimal stopping problems, a variety of statistical manifolds describing the conditional distribution of continuous-time finite state Markov chains, and all Fr\'echet spaces admitting a Schauder basis, e.g. as in classical finance. Suitable, $\mathscr{X}$ are any compact subset of any Euclidean space. Our results all quantitatively express the number of parameters needed for our DL model to achieve a given approximation error as a function of the target map's regularity and the geometric structure both of $\mathscr{X}$ and of $\mathscr{Y}$. Even when omitting any temporal structure, our universal approximation theorems are the first guarantees that H\"older functions, defined between such $\mathscr{X}$ and $\mathscr{Y}$ can be approximated by DL models.
translated by 谷歌翻译
Deep neural networks can approximate functions on different types of data, from images to graphs, with varied underlying structure. This underlying structure can be viewed as the geometry of the data manifold. By extending recent advances in the theoretical understanding of neural networks, we study how a randomly initialized neural network with piece-wise linear activation splits the data manifold into regions where the neural network behaves as a linear function. We derive bounds on the density of boundary of linear regions and the distance to these boundaries on the data manifold. This leads to insights into the expressivity of randomly initialized deep neural networks on non-Euclidean data sets. We empirically corroborate our theoretical results using a toy supervised learning problem. Our experiments demonstrate that number of linear regions varies across manifolds and the results hold with changing neural network architectures. We further demonstrate how the complexity of linear regions is different on the low dimensional manifold of images as compared to the Euclidean space, using the MetFaces dataset.
translated by 谷歌翻译
In this work we study statistical properties of graph-based algorithms for multi-manifold clustering (MMC). In MMC the goal is to retrieve the multi-manifold structure underlying a given Euclidean data set when this one is assumed to be obtained by sampling a distribution on a union of manifolds $\mathcal{M} = \mathcal{M}_1 \cup\dots \cup \mathcal{M}_N$ that may intersect with each other and that may have different dimensions. We investigate sufficient conditions that similarity graphs on data sets must satisfy in order for their corresponding graph Laplacians to capture the right geometric information to solve the MMC problem. Precisely, we provide high probability error bounds for the spectral approximation of a tensorized Laplacian on $\mathcal{M}$ with a suitable graph Laplacian built from the observations; the recovered tensorized Laplacian contains all geometric information of all the individual underlying manifolds. We provide an example of a family of similarity graphs, which we call annular proximity graphs with angle constraints, satisfying these sufficient conditions. We contrast our family of graphs with other constructions in the literature based on the alignment of tangent planes. Extensive numerical experiments expand the insights that our theory provides on the MMC problem.
translated by 谷歌翻译
Many applications, such as system identification, classification of time series, direct and inverse problems in partial differential equations, and uncertainty quantification lead to the question of approximation of a non-linear operator between metric spaces $\mathfrak{X}$ and $\mathfrak{Y}$. We study the problem of determining the degree of approximation of such operators on a compact subset $K_\mathfrak{X}\subset \mathfrak{X}$ using a finite amount of information. If $\mathcal{F}: K_\mathfrak{X}\to K_\mathfrak{Y}$, a well established strategy to approximate $\mathcal{F}(F)$ for some $F\in K_\mathfrak{X}$ is to encode $F$ (respectively, $\mathcal{F}(F)$) in terms of a finite number $d$ (repectively $m$) of real numbers. Together with appropriate reconstruction algorithms (decoders), the problem reduces to the approximation of $m$ functions on a compact subset of a high dimensional Euclidean space $\mathbb{R}^d$, equivalently, the unit sphere $\mathbb{S}^d$ embedded in $\mathbb{R}^{d+1}$. The problem is challenging because $d$, $m$, as well as the complexity of the approximation on $\mathbb{S}^d$ are all large, and it is necessary to estimate the accuracy keeping track of the inter-dependence of all the approximations involved. In this paper, we establish constructive methods to do this efficiently; i.e., with the constants involved in the estimates on the approximation on $\mathbb{S}^d$ being $\mathcal{O}(d^{1/6})$. We study different smoothness classes for the operators, and also propose a method for approximation of $\mathcal{F}(F)$ using only information in a small neighborhood of $F$, resulting in an effective reduction in the number of parameters involved.
translated by 谷歌翻译
生成的对抗网络(GAN)在无监督学习方面取得了巨大的成功。尽管具有显着的经验表现,但关于gan的统计特性的理论研究有限。本文提供了gan的近似值和统计保证,以估算具有H \“ {o} lder空间密度的数据分布。我们的主要结果表明,如果正确选择了生成器和鉴别器网络架构,则gan是一致的估计器在较强的差异指标下的数据分布(例如Wasserstein-1距离。 ,这不受环境维度的诅咒。我们对低维数据的分析基于具有Lipschitz连续性保证的神经网络的通用近似理论,这可能具有独立的兴趣。
translated by 谷歌翻译
众所周知,进食前馈神经网络的学习速度很慢,并且在深度学习应用中呈现了几十年的瓶颈。例如,广泛用于训练神经网络的基于梯度的学习算法在所有网络参数都必须迭代调整时往往会缓慢起作用。为了解决这个问题,研究人员和从业人员都尝试引入随机性来减少学习要求。基于Igelnik和Pao的原始结构,具有随机输入层的重量和偏见的单层神经网络在实践中取得了成功,但是缺乏必要的理论理由。在本文中,我们开始填补这一理论差距。我们提供了一个(校正的)严格证明,即Igelnik和PAO结构是连续函数在紧凑型域上连续函数的通用近似值,并且近似错误渐近地衰减,例如$ o(1/\ sqrt {n})网络节点。然后,我们将此结果扩展到非反应设置,证明人们可以在$ n $的情况下实现任何理想的近似误差,而概率很大。我们进一步调整了这种随机神经网络结构,以近似欧几里得空间的平滑,紧凑的亚曼叶量的功能,从而在渐近和非催化形式的理论保证中提供了理论保证。最后,我们通过数值实验说明了我们在歧管上的结果。
translated by 谷歌翻译
我们研究了由覆盖在R ^ M中的N维歧管支持的概率措施的近似 - 由可逆流和单层注射部件组成的神经网络。当M <= 3N时,我们显示R ^ n和r ^ m之间的注射流量在可扩展的嵌入物图像中支持的普遍近似措施,这是标准嵌入的适当子集。在这个制度拓扑障碍物中,拓扑障碍能够作为可允许的目标。当m> = 3n + 1时,我们使用称为*清洁技巧*的代数拓扑的论点来证明拓扑障碍物消失和注射般的流动普遍近似任何可分辨率的嵌入。沿途,我们表明,可以在Brehmer et Cranmer 2020中的猜想中建立“反向”可以建立铭刻流动网络的最优性。此外,设计的网络可以简单,它们可以配备其他属性,例如一个新的投影结果。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
无限尺寸空间之间的学习运营商是机器学习,成像科学,数学建模和仿真等广泛应用中出现的重要学习任务。本文研究了利用深神经网络的Lipschitz运营商的非参数估计。 Non-asymptotic upper bounds are derived for the generalization error of the empirical risk minimizer over a properly chosen network class.在假设目标操作员表现出低维结构的情况下,由于训练样本大小增加,我们的误差界限衰减,根据我们估计中的内在尺寸,具有吸引力的快速速度。我们的假设涵盖了实际应用中的大多数情况,我们的结果通过利用操作员估算中的低维结构来产生快速速率。我们还研究了网络结构(例如,网络宽度,深度和稀疏性)对神经网络估计器的泛化误差的影响,并提出了对网络结构的选择来定量地最大化学习效率的一般建议。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
我们引入了一个深度学习模型,该模型通常可以近似于常规条件分布(RCD)。所提出的模型分为三个阶段:首先从给定的度量空间$ \ mathcal {x} $到$ \ mathbb {r}^d $通过功能映射进行线性化输入,然后这些线性化的功能由深层馈电的神经网络处理,然后通过Bahdanau等人引入的注意机制的概率扩展,将网络的输出转换为$ 1 $ -WASSERSTEIN SPACE $ \ MATHCAL {P} _1(\ Mathbb {r}^d)$。 (2014)。我们发现,使用我们的框架构建的模型可以从$ \ mathbb {r}^d $到$ \ mathcal {p} _1(\ mathbb {r}^d)$均匀地在紧凑的集合上近似任何连续功能。当近似$ \ mathcal {p} _1(\ mathbb {r}^d)$ - 有价值的函数时,我们确定了两种避免维数的诅咒的方法。第一个策略描述了$ c(\ mathbb {r}^d,\ mathcal {p} _1(\ mathbb {r}^d))$中的函数,可以在$ \ mathbb {r}的任何紧凑子集上有效地近似地近似^D $。第二种方法描述了$ \ mathbb {r}^d $的紧凑子集,其中最多的$ c(\ mathbb {r}^d,\ mathcal {p} _1 _1(\ mathbb {r}^d))$可以有效地近似。结果经过实验验证。
translated by 谷歌翻译
我们研究了仅当仅可用的嘈杂数据时,重建神经网络反问题的解决方案的问题。我们假设问题可以用无限可逆的无限前向操作员建模。然后,我们将该正向操作员限制为有限维空间,以使逆向Lipschitz连续。对于逆操作员,我们证明存在一个神经网络,该神经网络是操作员的健壮到噪声近似。此外,我们表明可以从适当的干扰培训数据中学到这些神经网络。我们证明了这种方法对实践感兴趣的各种反向问题的可接受性。给出了支持理论发现的数值示例。
translated by 谷歌翻译
保留数据中相似性的自动编码器模型是表示学习中的流行工具。在本文中,我们介绍了几种自动编码器模型,这些模型在从数据空间到潜在空间的映射时可以保留本地距离。我们使用局部距离保留损失,该损失基于连续的K-Nearthiend邻居图,该图已知可以同时捕获所有尺度的拓扑特征。为了提高培训绩效,我们将学习作为约束优化问题,并保存本地距离,作为主要目标和重建精度作为约束。我们将这种方法推广到分层变分自动编码器,从而学习具有几何一致的潜在和数据空间的生成模型。我们的方法在几个标准数据集和评估指标上提供了最先进的性能。
translated by 谷歌翻译
过度参数化的神经网络在复杂数据上具有很大的代表能力,更重要的是产生足够平滑的输出,这对于它们的概括和稳健性至关重要。大多数现有函数近似理论表明,使用足够多的参数,神经网络可以很好地近似于功能值的某些类别的函数。然而,神经网络本身可能是高度平滑的。为了弥合这一差距,我们以卷积残留网络(Rescresnets)为例,并证明大型响应不仅可以在功能值方面近似目标函数,而且还可以表现出足够的一阶平滑度。此外,我们将理论扩展到在低维歧管上支持的近似功能。我们的理论部分证明了在实践中使用深层网络的好处。提供了关于对抗性鲁棒图像分类的数值实验,以支持我们的理论。
translated by 谷歌翻译
估计数据分布的局部内在维度的大多数现有方法不能很好地扩展到高维数据。他们中的许多人依靠非参数最近的邻居方法,该方法受到维度的诅咒。我们试图通过提出一种新的问题来解决这一挑战:使用近似可能性(LIDL)的局部固有维度估计。我们的方法依赖于任意密度估计方法作为其子例程,因此通过利用最新的参数神经方法的进展来避免维度挑战,以进行可能性估计。我们仔细研究了所提出方法的经验特性,将其与我们的理论预测进行了比较,并表明LIDL在此问题的标准基准上产生竞争结果,并将其扩展到数千个维度。更重要的是,我们预计通过密度估计文献的持续进展,这种方法可以进一步改善。
translated by 谷歌翻译