智能论文笔记

Universal Joint Approximation of Manifolds and Densities by Simple Injective Flows

Michael Puthawala , Matti Lassas , Ivan Dokmanić , Maarten de Hoop

分类：机器学习

2021-10-08

我们研究了由覆盖在R ^ M中的N维歧管支持的概率措施的近似 - 由可逆流和单层注射部件组成的神经网络。当M <= 3N时，我们显示R ^ n和r ^ m之间的注射流量在可扩展的嵌入物图像中支持的普遍近似措施，这是标准嵌入的适当子集。在这个制度拓扑障碍物中，拓扑障碍能够作为可允许的目标。当m> = 3n + 1时，我们使用称为*清洁技巧*的代数拓扑的论点来证明拓扑障碍物消失和注射般的流动普遍近似任何可分辨率的嵌入。沿途，我们表明，可以在Brehmer et Cranmer 2020中的猜想中建立“反向”可以建立铭刻流动网络的最优性。此外，设计的网络可以简单，它们可以配备其他属性，例如一个新的投影结果。

translated by 谷歌翻译

Universal Approximation Theorems for Differentiable Geometric Deep Learning

Anastasis Kratsios , Leonie Papon

分类：机器学习

2021-01-13

本文通过引入几何深度学习（GDL）框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型，从而解决了对非欧国人数据进行处理的需求。我们表明，我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反，我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数，任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件，确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现，任何“现实世界”（即有限）数据集始终满足我们的状况，相反，如果目标函数平滑，则任何数据集都满足我们的要求。作为应用，我们确认了以下GDL模型的通用近似功能：Ganea等。（2018）的双波利馈电网络，实施Krishnan等人的体系结构。（2015年）的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了：Meyer等人的SPD-Matrix回归剂的通用扩展/变体。（2011）和Fletcher（2003）的Procrustean回归剂。在欧几里得的环境中，我们的结果暗示了Kidger和Lyons（2020）的近似定理和Yarotsky和Zhevnerchuk（2019）无估计近似率的数据依赖性版本的定量版本。

translated by 谷歌翻译

Do ReLU Networks Have An Edge When Approximating Compactly-Supported Functions?

Anastasis Kratsios , Behnoosh Zamanlooy

分类：机器学习 | 人工智能 | 神经与进化计算

2022-04-24

我们研究了使用前馈神经网络实施其支持集的同时近似紧凑型积分功能的问题。我们的第一个主要结果将这个“结构化”近似问题转录为普遍性问题。我们通过在空间上构建通常的拓扑结构来做到这一点，$ l^1 _ {\ propatatorName {loc}}（\ m athbb {r}^d，\ m athbb {r}^d）locally-intellable-intellable-intellable-intellable-intellable-in紧凑型函数只能通过具有匹配的离散支持的函数来近似于$ l^1 $ norm。我们建立了Relu Feedforwward网络的普遍性，并在此精致拓扑结构中具有双线性池层。因此，我们发现具有双线性池的Relu FeedForward网络可以在实施其离散支持的同时近似紧凑的功能。我们在紧凑型Lipschitz函数的致密亚类中得出了通用近似定理的定量均匀版本。该定量结果表达了通过目标函数的规律性，其基本支持的度量和直径以及输入和输出空间的尺寸来构建此relu网络所需的双线性池层层的深度，宽度和数量。相反，我们表明多项式回归器和分析前馈网络在该空间中并非通用。

translated by 谷歌翻译

Universal Regular Conditional Distributions

Anastasis Kratsios

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2021-05-17

我们引入了一个深度学习模型，该模型通常可以近似于常规条件分布（RCD）。所提出的模型分为三个阶段：首先从给定的度量空间$ \ mathcal {x} $到$ \ mathbb {r}^d $通过功能映射进行线性化输入，然后这些线性化的功能由深层馈电的神经网络处理，然后通过Bahdanau等人引入的注意机制的概率扩展，将网络的输出转换为$ 1 $ -WASSERSTEIN SPACE $ \ MATHCAL {P} _1（\ Mathbb {r}^d）$。（2014）。我们发现，使用我们的框架构建的模型可以从$ \ mathbb {r}^d $到$ \ mathcal {p} _1（\ mathbb {r}^d）$均匀地在紧凑的集合上近似任何连续功能。当近似$ \ mathcal {p} _1（\ mathbb {r}^d）$ - 有价值的函数时，我们确定了两种避免维数的诅咒的方法。第一个策略描述了$ c（\ mathbb {r}^d，\ mathcal {p} _1（\ mathbb {r}^d））$中的函数，可以在$ \ mathbb {r}的任何紧凑子集上有效地近似地近似^D $。第二种方法描述了$ \ mathbb {r}^d $的紧凑子集，其中最多的$ c（\ mathbb {r}^d，\ mathcal {p} _1 _1（\ mathbb {r}^d））$可以有效地近似。结果经过实验验证。

translated by 谷歌翻译

Deep learning architectures for nonlinear operator functions and nonlinear inverse problems

Maarten V. de Hoop , Matti Lassas , Christopher A. Wong

分类：机器学习

2019-12-23

我们为特殊神经网络架构，称为运营商复发性神经网络的理论分析，用于近似非线性函数，其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量，因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此，我们介绍一个类似标准的神经网络架构的新系列，但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析，我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后，我们研究其表示属性以及其近似属性。我们还表明，可以引入明确的正则化，其可以从所述逆问题的数学分析导出，并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后，我们讨论如何将运营商复发网络视为深度学习模拟，以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。

translated by 谷歌翻译

Controlling Wasserstein distances by Kernel norms with application to Compressive Statistical Learning

Titouan Vayer , Rémi Gribonval

分类： (统计)机器学习 | 机器学习

2021-12-01

比较概率分布是许多机器学习算法的关键。最大平均差异（MMD）和最佳运输距离（OT）是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件，可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习（CSL）理论的推动，资源有效的大规模学习的一般框架，其中训练数据总结在单个向量（称为草图）中，该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发，我们介绍了H \“较旧的较低限制的等距属性（H \”较旧的LRIP）并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系，我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证，即概率分布之间的某些特定于特定的特定度量，可以由Wassersein界定距离。

translated by 谷歌翻译

Normalizing Flows: An Introduction and Review of Current Methods

Ivan Kobyzev , Simon J. D. Prince , Marcus A. Brubaker

分类：

2019-08-25

Normalizing Flows are generative models which produce tractable distributions where both sampling and density evaluation can be efficient and exact. The goal of this survey article is to give a coherent and comprehensive review of the literature around the construction and use of Normalizing Flows for distribution learning. We aim to provide context and explanation of the models, review current state-of-the-art literature, and identify open questions and promising future directions.

translated by 谷歌翻译

A Complete Characterisation of ReLU-Invariant Distributions

Jan Macdonald , Stephan Wäldchen

分类：机器学习

2021-12-13

我们提供了在Relu神经网络层的动作下不变的概率分布系列的完整表征。在贝叶斯网络培训期间出现对这些家庭的需求或对训练有素的神经网络的分析，例如，在不确定量化（UQ）或解释的人工智能（XAI）的范围内。我们证明，除非以下三个限制中的至少一个限制，否则不可能存在不变的参数化分布族：首先，网络层具有一个宽度，这对于实际神经网络是不合理的。其次，家庭的概率措施具有有限的支持，基本上适用于采样分布。第三，家庭的参数化不是局部Lipschitz连续，这排除了所有计算可行的家庭。最后，我们表明这些限制是单独必要的。对于三种情况中的每一个，我们可以构建一个不变的家庭，究竟是一个限制之一，但不是另一个。

translated by 谷歌翻译

Deep Neural Network Approximation of Invariant Functions through Dynamical Systems

Qianxiao Li , Ting Lin , Zuowei Shen

分类：机器学习

2022-08-18

我们研究了使用动力学系统的流量图相对于输入指数的某些置换的函数的近似值。这种不变的功能包括涉及图像任务的经过研究的翻译不变性功能，但还包含许多在科学和工程中找到新兴应用程序的置换不变函数。我们证明了通过受控的模棱两可的动态系统的通用近似的足够条件，可以将其视为具有对称约束的深度残留网络的一般抽象。这些结果不仅意味着用于对称函数近似的各种常用神经网络体系结构的通用近似，而且还指导设计具有近似值保证的架构的设计，以保证涉及新对称要求的应用。

translated by 谷歌翻译

On the Stability Properties and the Optimization Landscape of Training Problems with Squared Loss for Neural Networks and General Nonlinear Conic Approximation Schemes

Constantin Christof

分类：机器学习

2020-11-06

我们研究了神经网络中平方损耗训练问题的优化景观和稳定性，但通用非线性圆锥近似方案。据证明，如果认为非线性圆锥近似方案是（以适当定义的意义）比经典线性近似方法更具表现力，并且如果存在不完美的标签向量，则在方位损耗的训练问题必须在其中不稳定感知其解决方案集在训练数据中的标签向量上不连续地取决于标签向量。我们进一步证明对这些不稳定属性负责的效果也是马鞍点出现的原因和杂散的局部最小值，这可能是从全球解决方案的任意遥远的，并且既不训练问题也不是训练问题的不稳定性通常，杂散局部最小值的存在可以通过向目标函数添加正则化术语来克服衡量近似方案中参数大小的目标函数。无论可实现的可实现性是否满足，后一种结果都被证明是正确的。我们表明，我们的分析特别适用于具有可变宽度的自由结插值方案和深层和浅层神经网络的培训问题，其涉及各种激活功能的任意混合（例如，二进制，六骨，Tanh，arctan，软标志， ISRU，Soft-Clip，SQNL，Relu，Lifley Relu，Soft-Plus，Bent Identity，Silu，Isrlu和ELU）。总之，本文的发现说明了神经网络和一般非线性圆锥近似仪器的改进近似特性以直接和可量化的方式与必须解决的优化问题的不期望的性质链接，以便训练它们。

translated by 谷歌翻译

Two-layer neural networks with values in a Banach space

Yury Korolev

分类：机器学习

2021-05-05

我们研究了两层神经网络，其领域和范围是具有可分离性的Banach空间。另外，我们假设图像空间配备了部分顺序，即它是Riesz空间。作为非线性，我们选择了取积极部分的晶格操作；如果$ \ Mathbb r^d $可值的神经网络，这对应于Relu激活函数。我们证明了特定类别功能的蒙特卡洛速率的逆近似定理和直接近似定理，从而扩展了有限维情况的现有结果。在本文的第二部分中，我们从正规化理论的角度研究，通过有限数量的嘈杂观测值在潜在空间上进行签名的措施来找到此类功能的最佳表示的问题。我们讨论称为源条件的规律性条件，并在噪声水平均为零并且样本数量以适当的速度为零时，在Bregman距离中获得代表度量的收敛速率。

translated by 谷歌翻译

Distribution Approximation and Statistical Estimation Guarantees of Generative Adversarial Networks

Minshuo Chen , Wenjing Liao , Hongyuan Zha , Tuo Zhao

分类：机器学习 | (统计)机器学习

2020-02-10

生成的对抗网络（GAN）在无监督学习方面取得了巨大的成功。尽管具有显着的经验表现，但关于gan的统计特性的理论研究有限。本文提供了gan的近似值和统计保证，以估算具有H \“ {o} lder空间密度的数据分布。我们的主要结果表明，如果正确选择了生成器和鉴别器网络架构，则gan是一致的估计器在较强的差异指标下的数据分布（例如Wasserstein-1距离。，这不受环境维度的诅咒。我们对低维数据的分析基于具有Lipschitz连续性保证的神经网络的通用近似理论，这可能具有独立的兴趣。

translated by 谷歌翻译

Indeterminacy in Latent Variable Models: Characterization and Strong Identifiability

Quanhan Xi , Benjamin Bloem-Reddy

分类： (统计)机器学习 | 机器学习

2022-06-02

大多数现代的潜在变量和概率生成模型，例如变异自动编码器（VAE），即使有无限的数据也无法解决，这些模型也无法解决。此类模型的最新应用表明需要强烈可识别的模型，其中观察结果与唯一的潜在代码相对应。在维持灵活性的同时，取得了进展，最著名的是IVAE（Arxiv：1907.04809 [stat.ml]），该模型排除了许多（但不是全部 - 不确定）。我们构建了一个完整的理论框架，用于分析潜在变量模型的不确定性，并根据生成器函数的属性和潜在变量先验分布精确表征它们。为了说明，我们应用框架以更好地了解最近的可识别性结果的结构。然后，我们研究如何指定强烈识别的潜在变量模型，并构建两个这样的模型。一种是对ivae的直接修饰。另一个想法从最佳运输和导致新颖的模型和连接到最近的工作。

translated by 谷歌翻译

The universal approximation theorem for complex-valued neural networks

Felix Voigtlaender

分类：机器学习 | (统计)机器学习

2020-12-06

We generalize the classical universal approximation theorem for neural networks to the case of complex-valued neural networks. Precisely, we consider feedforward networks with a complex activation function $\sigma : \mathbb{C} \to \mathbb{C}$ in which each neuron performs the operation $\mathbb{C}^N \to \mathbb{C}, z \mapsto \sigma(b + w^T z)$ with weights $w \in \mathbb{C}^N$ and a bias $b \in \mathbb{C}$, and with $\sigma$ applied componentwise. We completely characterize those activation functions $\sigma$ for which the associated complex networks have the universal approximation property, meaning that they can uniformly approximate any continuous function on any compact subset of $\mathbb{C}^d$ arbitrarily well. Unlike the classical case of real networks, the set of "good activation functions" which give rise to networks with the universal approximation property differs significantly depending on whether one considers deep networks or shallow networks: For deep networks with at least two hidden layers, the universal approximation property holds as long as $\sigma$ is neither a polynomial, a holomorphic function, or an antiholomorphic function. Shallow networks, on the other hand, are universal if and only if the real part or the imaginary part of $\sigma$ is not a polyharmonic function.

translated by 谷歌翻译

Wassmap: Wasserstein Isometric Mapping for Image Manifold Learning

Keaton Hamm , Nick Henscheid , Shujie Kang

分类：机器学习 | 计算机视觉 | (统计)机器学习

2022-04-13

In this paper, we propose Wasserstein Isometric Mapping (Wassmap), a nonlinear dimensionality reduction technique that provides solutions to some drawbacks in existing global nonlinear dimensionality reduction algorithms in imaging applications. Wassmap represents images via probability measures in Wasserstein space, then uses pairwise Wasserstein distances between the associated measures to produce a low-dimensional, approximately isometric embedding. We show that the algorithm is able to exactly recover parameters of some image manifolds including those generated by translations or dilations of a fixed generating measure. Additionally, we show that a discrete version of the algorithm retrieves parameters from manifolds generated from discrete measures by providing a theoretical bridge to transfer recovery results from functional data to discrete data. Testing of the proposed algorithms on various image data manifolds show that Wassmap yields good embeddings compared with other global and local techniques.

translated by 谷歌翻译

Triangular Flows for Generative Modeling: Statistical Consistency, Smoothness Classes, and Fast Rates

Nicholas J. Irons , Meyer Scetbon , Soumik Pal , Zaid Harchaoui

分类： (统计)机器学习 | 机器学习

2021-12-31

三角形流量，也称为kn \“{o}的Rosenblatt测量耦合，包括用于生成建模和密度估计的归一化流模型的重要构建块，包括诸如实值的非体积保存变换模型的流行自回归流模型（真实的NVP）。我们提出了三角形流量统计模型的统计保证和样本复杂性界限。特别是，我们建立了KN的统计一致性和kullback-leibler估算器的rospblatt的kullback-leibler估计的有限样本会聚率使用实证过程理论的工具测量耦合。我们的结果突出了三角形流动下播放功能类的各向异性几何形状，优化坐标排序，并导致雅各比比流动的统计保证。我们对合成数据进行数值实验，以说明我们理论发现的实际意义。

translated by 谷歌翻译

Small Transformers Compute Universal Metric Embeddings

Anastasis Kratsios , Valentin Debarnot , Ivan Dokmanić

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2022-09-14

我们使用运输公制（Delon和Desolneux 2020）中的单变量高斯混合物中的任意度量空间$ \ MATHCAL {X} $研究数据表示。我们得出了由称为\ emph {Probabilistic Transfersers}的小神经网络实现的特征图的保证。我们的保证是记忆类型：我们证明了深度约为$ n \ log（n）$的概率变压器和大约$ n^2 $ can bi-h \'{o} lder嵌入任何$ n $ - 点数据集从低度量失真的$ \ Mathcal {x} $，从而避免了维数的诅咒。我们进一步得出了概率的bi-lipschitz保证，可以兑换失真量和随机选择的点与该失真的随机选择点的可能性。如果$ \ MATHCAL {X} $的几何形状足够规律，那么我们可以为数据集中的所有点获得更强的Bi-Lipschitz保证。作为应用程序，我们从Riemannian歧管，指标和某些类型的数据集中获得了神经嵌入保证金组合图。

translated by 谷歌翻译

Function Classes for Identifiable Nonlinear Independent Component Analysis

Simon Buchholz , Michel Besserve , Bernhard Schölkopf

分类： (统计)机器学习 | 机器学习

2022-08-12

潜在变量模型（LVM）的无监督学习被广泛用于表示机器学习中的数据。当这样的模型反映了地面真理因素和将它们映射到观察的机制时，有理由期望它们允许在下游任务中进行概括。但是，众所周知，如果不在模型类上施加限制，通常无法实现此类可识别性保证。非线性独立组件分析是如此，其中LVM通过确定性的非线性函数将统计上独立的变量映射到观察。几个伪造解决方案的家庭完全适合数据，但是可以在通用环境中构建与地面真相因素相对应的。但是，最近的工作表明，限制此类模型的功能类别可能会促进可识别性。具体而言，已经提出了在Jacobian矩阵中收集的部分衍生物的函数类，例如正交坐标转换（OCT），它们强加了Jacobian柱的正交性。在目前的工作中，我们证明了这些转换的子类，共形图，是可识别的，并提供了新颖的理论结果，这表明OCT具有防止虚假解决方案家族在通用环境中破坏可识别性的特性。

translated by 谷歌翻译

Sharp Bounds on the Approximation Rates, Metric Entropy, and $n$-widths of Shallow Neural Networks

Jonathan W. Siegel , Jinchao Xu

分类： (统计)机器学习 | 机器学习

2021-01-29

在本文中，我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具，用于估计这些空间的度量熵，近似率和$ n $宽度。首先，我们介绍了平滑参数化词典的概念，并在非线性近似速率，度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典，并且在许多情况下它们的现有结果改善了。接下来，我们提供了一种方法，用于下限度量熵和$ n $ widths的变化空间，其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率，度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。

translated by 谷歌翻译

Normalizing Flows for Probabilistic Modeling and Inference

George Papamakarios , Eric Nalisnick , Danilo Jimenez Rezende , Shakir Mohamed , Balaji Lakshminarayanan

分类：

2019-12-05

Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.

translated by 谷歌翻译