智能论文笔记

Wavelet Score-Based Generative Modeling

Florentin Guth , Simon Coste , Valentin De Bortoli , Stephane Mallat

分类：机器学习 | 计算机视觉 | (统计)机器学习

2022-08-09

基于得分的生成模型（SGM）通过运行时间转移的随机微分方程（SDE）从高斯白噪声中合成新数据样本，其漂移系数取决于某些概率分数。此类SDE的离散化通常需要大量的时间步骤，因此需要高计算成本。这是因为我们通过数学分析的分数的不良条件特性。我们表明，通过将数据分布分配到跨尺度的小波系数的条件概率的产物中，可以将SGMS大大加速。最终的小波得分生成模型（WSGM）在所有尺度上都以相同的时间步长合成小波系数，因此其时间复杂性随着图像大小而线性增长。这在数学上是在高斯分布上证明的，并在相变和自然图像数据集中的物理过程上以数值显示。

translated by 谷歌翻译

Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling

Valentin De Bortoli , James Thornton , Jeremy Heng , Arnaud Doucet

分类： (统计)机器学习 | 机器学习

2021-06-01

逐步应用高斯噪声将复杂的数据分布转换为大约高斯。逆转此动态定义了一种生成模型。当前进通知过程由随机微分方程（SDE），Song等人提供。（2021）证明可以使用分数匹配估计相关反向时间SDE的时间不均匀漂移。这种方法的限制是必须在最终分布到高斯的最终分布必须运行前进时间SDE。相反，解决Schr \“odinger桥问题（SB），即路径空间上的熵正常化的最佳运输问题，产生从有限时间内从数据分布产生样本的扩散。我们存在扩散SB（DSB），原始近似迭代比例拟合（IPF）程序来解决SB问题，并提供理论分析以及生成建模实验。第一个DSB迭代恢复Song等人提出的方法。（2021），使用较短时间的灵活性间隔，随后的DSB迭代减少了前进（RESP。后向）SDE的最终时间边际之间的差异，相对于先前（RESP。数据）分布。除了生成的建模之外，DSB提供了广泛适用的计算最优运输工具流行池算法的连续状态空间模拟（Cuturi，2013）。

translated by 谷歌翻译

Wavelet Conditional Renormalization Group

Tanguy Marchand , Misaki Ozawa , Giulio Biroli , Stéphane Mallat

分类：机器学习

2022-07-11

我们开发了一种多尺度方法，以从实验或模拟中观察到的物理字段或配置的数据集估算高维概率分布。通过这种方式，我们可以估计能量功能（或哈密顿量），并有效地在从统计物理学到宇宙学的各个领域中生成多体系统的新样本。我们的方法 - 小波条件重新归一化组（WC-RG） - 按比例进行估算，以估算由粗粒磁场来调节的“快速自由度”的条件概率的模型。这些概率分布是由与比例相互作用相关的能量函数建模的，并以正交小波为基础表示。 WC-RG将微观能量函数分解为各个尺度上的相互作用能量之和，并可以通过从粗尺度到细度来有效地生成新样品。近相变，它避免了直接估计和采样算法的“临界减速”。理论上通过结合RG和小波理论的结果来解释这一点，并为高斯和$ \ varphi^4 $字段理论进行数值验证。我们表明，多尺度WC-RG基于能量的模型比局部电位模型更通用，并且可以在所有长度尺度上捕获复杂的多体相互作用系统的物理。这是针对反映宇宙学中暗物质分布的弱透镜镜头的，其中包括与长尾概率分布的长距离相互作用。 WC-RG在非平衡系统中具有大量的潜在应用，其中未知基础分布{\ it先验}。最后，我们讨论了WC-RG和深层网络体系结构之间的联系。

translated by 谷歌翻译

Convergence of denoising diffusion models under the manifold hypothesis

Valentin De Bortoli

分类： (统计)机器学习 | 机器学习

2022-08-10

Denoisis扩散模型是最近在图像和音频合成中表现出最新性能的生成模型。这样的模型近似从目标分布到参考密度（通常是高斯）的正向噪声过程的时间反转。尽管有很强的经验结果，但对此类模型的理论分析仍然有限。特别是，所有当前方法都至关重要地假设目标密度允许密度W.R.T.Lebesgue度量。这不涵盖在较低维歧管上支持目标分布或通过某些经验分布给出的设置。在本文中，我们通过在更通用的环境中为扩散模型提供第一个收敛结果来弥合这一差距。特别是，我们在目标数据分布与扩散模型的生成分布之间的订单距离距离距离范围距离上提供了定量界限。

translated by 谷歌翻译

Nonparametric plug-in classifier for multiclass classification of S.D.E. paths

Christophe Denis , Charlotte Dion-Blanc , Eddy Ella Mintsa , Viet-Chi Tran

分类： (统计)机器学习

2022-12-20

We study the multiclass classification problem where the features come from the mixture of time-homogeneous diffusions. Specifically, the classes are discriminated by their drift functions while the diffusion coefficient is common to all classes and unknown. In this framework, we build a plug-in classifier which relies on nonparametric estimators of the drift and diffusion functions. We first establish the consistency of our classification procedure under mild assumptions and then provide rates of cnvergence under different set of assumptions. Finally, a numerical study supports our theoretical findings.

translated by 谷歌翻译

Bayesian imaging using Plug & Play priors: when Langevin meets Tweedie

Rémi Laumont , Valentin de Bortoli , Andrés Almansa , Julie Delon , Alain Durmus , Marcelo Pereyra

分类：计算机视觉 | (统计)机器学习

2021-03-08

自Venkatakrishnan等人的开创性工作以来。 2013年，即插即用（PNP）方法在贝叶斯成像中变得普遍存在。这些方法通过将显式似然函数与预定由图像去噪算法隐式定义的明确定义，导出用于成像中的逆问题的最小均方误差（MMSE）或最大后验误差（MAP）估计器。文献中提出的PNP算法主要不同于他们用于优化或采样的迭代方案。在优化方案的情况下，一些最近的作品能够保证收敛到一个定点，尽管不一定是地图估计。在采样方案的情况下，据我们所知，没有已知的收敛证明。关于潜在的贝叶斯模型和估算器是否具有明确定义，良好的良好，并且具有支持这些数值方案所需的基本规律性属性，还存在重要的开放性问题。为了解决这些限制，本文开发了用于对PNP前锋进行贝叶斯推断的理论，方法和可忽略的会聚算法。我们介绍了两个算法：1）PNP-ULA（未调整的Langevin算法），用于蒙特卡罗采样和MMSE推断; 2）PNP-SGD（随机梯度下降）用于MAP推理。利用Markov链的定量融合的最新结果，我们为这两种算法建立了详细的收敛保证，在现实假设下，在去噪运营商使用的现实假设下，特别注意基于深神经网络的遣散者。我们还表明这些算法大致瞄准了良好的决策理论上最佳的贝叶斯模型。所提出的算法在几种规范问题上证明了诸如图像去纹，染色和去噪，其中它们用于点估计以及不确定的可视化和量化。

translated by 谷歌翻译

Convergence of score-based generative modeling for general data distributions

Holden Lee , Jianfeng Lu , Yixin Tan

分类：机器学习 | (统计)机器学习

2022-09-26

我们为不依赖数据分布满足功能不平等的数据分布或强烈的平滑度假设提供了多项式收敛保证。假设有$ l^2 $准确的分数估计，我们可以为任何有限支撑或足够衰减的尾巴的分布获得Wasserstein距离保证，以及具有进一步平滑度假设的电视保证。

translated by 谷歌翻译

From Denoising Diffusions to Denoising Markov Models

Joe Benton , Yuyang Shi , Valentin De Bortoli , George Deligiannidis , Arnaud Doucet

分类： (统计)机器学习 | 机器学习

2022-11-07

Denoising diffusions are state-of-the-art generative models which exhibit remarkable empirical performance and come with theoretical guarantees. The core idea of these models is to progressively transform the empirical data distribution into a simple Gaussian distribution by adding noise using a diffusion. We obtain new samples whose distribution is close to the data distribution by simulating a "denoising" diffusion approximating the time reversal of this "noising" diffusion. This denoising diffusion relies on approximations of the logarithmic derivatives of the noised data densities, known as scores, obtained using score matching. Such models can be easily extended to perform approximate posterior simulation in high-dimensional scenarios where one can only sample from the prior and simulate synthetic observations from the likelihood. These methods have been primarily developed for data on $\mathbb{R}^d$ while extensions to more general spaces have been developed on a case-by-case basis. We propose here a general framework which not only unifies and generalizes this approach to a wide class of spaces but also leads to an original extension of score matching. We illustrate the resulting class of denoising Markov models on various applications.

translated by 谷歌翻译

State-space deep Gaussian processes with applications

Zheng Zhao

分类： (统计)机器学习

2021-11-24

本论文主要涉及解决深层（时间）高斯过程（DGP）回归问题的状态空间方法。更具体地，我们代表DGP作为分层组合的随机微分方程（SDES），并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP（SS-DGP）模型生成丰富的电视等级，与建模许多不规则信号/功能兼容。此外，由于他们的马尔可道结构，通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀（TME）方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers，其可以渐近地精确地预测随机微分方程（SDES）解决方案的平均值和协方差。此外，TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后，本文具有多种状态 - 空间（深）GPS的应用。这些应用主要包括（i）来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。

translated by 谷歌翻译

Sampling is as easy as learning the score: theory for diffusion models with minimal data assumptions

Sitan Chen , Sinho Chewi , Jerry Li , Yuanzhi Li , Adil Salim , Anru R. Zhang

分类：机器学习

2022-09-22

我们为基于分数的生成模型（SGM）（例如Denoising扩散概率模型（DDPM））提供理论收敛保证，该模型构成了大型现实世界中生成模型的骨干，例如DALL $ \ cdot $ E2。我们的主要结果是，假设有准确的分数估计值，此类SGM可以从本质上有效地从任何现实的数据分布中进行采样。与先前的作品相反，我们的结果（1）以$ l^2 $准确的分数估算（而不是$ l^\ infty $ -CACCRATE）保持；（2）不需要限制性的功能不平等条件，而这些条件排除了实质性的非con虫；（3）在所有相关问题参数中刻度缩放；（4）匹配兰格文扩散离散的最新复杂性保证，前提是得分误差足够小。我们认为这是SGM的经验成功的强有力理论理由。我们还基于严重阻尼的Langevin扩散（CLD）检查SGM。与传统的观点相反，我们提供了证据，表明CLD的使用不会降低SGM的复杂性。

translated by 谷歌翻译

On lower bounds for the bias-variance trade-off

Alexis Derumigny , Johannes Schmidt-Hieber

分类： (统计)机器学习

2020-05-30

对于高维和非参数统计模型，速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到，但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略，以获得对任何估计方差的下限，偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的，并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限，用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中，将抽象的下限应用于几种统计模型，包括高斯白噪声模型，边界估计问题，高斯序列模型和高维线性回归模型。对于这些特定的统计应用，发生不同类型的偏差差异发生，其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡，我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动，以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中，发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用，但是平方偏差的速率和方差不必平衡以实现最小估计速率。

translated by 谷歌翻译

Efficient MCMC Sampling with Dimension-Free Convergence Rate using ADMM-type Splitting

Maxime Vono , Daniel Paulin , Arnaud Doucet

分类： (统计)机器学习

2019-05-23

对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗（MCMC）算法可以提供后部分布的可靠近似，但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而，这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案，利用类似于乘客（ADMM）优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能，但其高维层的理论行为目前未知。在本文中，我们提出了一个详细的理论研究，该算法之一称为分裂Gibbs采样器。在规律条件下，我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。

translated by 谷歌翻译

Optimal transport map estimation in general function spaces

Vincent Divol , Jonathan Niles-Weed , Aram-Alexandre Pooladian

分类： (统计)机器学习

2022-12-07

We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

Learning with little mixing

Ingvar Ziemann , Stephen Tu

分类：机器学习 | (统计)机器学习

2022-06-16

我们在具有Martingale差异噪声的可实现的时间序列框架中学习正方形损失。我们的主要结果是一个快速率的多余风险结合，这表明每当轨迹超收缩条件成立时，依赖数据的最小二乘估计器的风险与燃烧时间后的IID速率订单匹配。相比之下，从依赖数据中学习的许多现有结果都具有有效的样本量，即使在燃烧时间之后，有效的样本量也被基础过程的混合时间降低。此外，我们的结果允许协变量过程表现出远距离相关性，这些相关性大大弱于几何牙齿。我们将这种现象学习称为几乎没有混合的方式，并为其示出了几个示例：$ l^2 $和$ l^{2+\ epsilon} $ norms的有界函数类是等效的，有限的有限态Markov链，各种参数模型，以及一个无限尺寸$ \ ell^2（\ mathbb {n}）$椭圆形的广阔家族。通过将我们的主要结果实例化，以使用广义线性模型过渡对非线性动力学的系统识别，我们仅在多项式燃烧时间后获得了几乎最小的最佳超量风险。

translated by 谷歌翻译

The Voronoigram: Minimax Estimation of Bounded Variation Functions From Scattered Data

Addison J. Hu , Alden Green , Ryan J. Tibshirani

分类： (统计)机器学习 | 机器学习

2022-12-30

We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.

translated by 谷歌翻译

Neural Operator: Learning Maps Between Function Spaces

Nikola Kovachki , Zongyi Li , Burigede Liu , Kamyar Azizzadenesheli , Kaushik Bhattacharya , Andrew Stuart , Anima Anandkumar

分类：机器学习

2021-08-19

神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括，以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似，使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外，我们介绍了四类运算符参数化：基于图形的运算符，低秩运算符，基于多极图形的运算符和傅里叶运算符，并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的：它们在底层函数空间的不同离散化之间共享相同的网络参数，并且可以用于零击超分辨率。在数值上，与现有的基于机器学习的方法，达西流程和Navier-Stokes方程相比，所提出的模型显示出卓越的性能，而与传统的PDE求解器相比，与现有的基于机器学习的方法有关的基于机器学习的方法。

translated by 谷歌翻译

Generative Modelling With Inverse Heat Dissipation

Severi Rissanen , Markus Heinonen , Arno Solin

分类：计算机视觉 | 机器学习 | (统计)机器学习

2022-06-21

尽管扩散模型在图像生成中表现出了巨大的成功，但它们的噪声生成过程并未明确考虑图像的结构，例如它们固有的多尺度性质。受扩散模型的启发和粗到精细建模的可取性，我们提出了一个新模型，该模型通过迭代反转热方程式生成图像，当在图像的2D平面上运行时，PDE局部删除了细尺度信息。在我们的新方法中，正向热方程的解被解释为有向图形模型中的变异近似。我们展示了有希望的图像质量，并指出了在扩散模型中未见的新兴定性特性，例如在神经网络可解释性的图像和各个方面的整体颜色和形状分解。对自然图像的光谱分析将我们的模型定位为扩散模型的一种双重偶，并揭示了其中的隐式感应偏见。

translated by 谷歌翻译

Conditional Simulation Using Diffusion Schrödinger Bridges

Yuyang Shi , Valentin De Bortoli , George Deligiannidis , Arnaud Doucet

分类： (统计)机器学习 | 机器学习

2022-02-27

去核扩散模型最近已成为强大的生成模型类别。它们提供最新的结果，不仅用于无条件模拟，而且还提供了解决在各种反问题中产生的条件模拟问题时。这些模型的一个局限性在于它们在生成时间上是计算密集型的，因为它们需要长期模拟扩散过程。进行无条件的模拟时，Schr \“生成建模的Odinger桥式公式会导致理论上接地的算法缩短生成时间，这与其他提出的加速技术互补。我们将Schr \'Edinger桥式桥式扩展到条件模拟。我们在各种应用程序上演示了这种新颖的方法，包括图像超分辨率，状态空间模型的最佳过滤以及预训练的网络的完善。我们的代码可以在https://github.com/vdeborto/cdsb上找到。

translated by 谷歌翻译

Sparse Continuous Distributions and Fenchel-Young Losses

André F. T. Martins , Marcos Treviso , António Farinhas , Pedro M. Q. Aguiar , Mário A. T. Figueiredo , Mathieu Blondel , Vlad Niculae

分类：机器学习 | 人工智能 | (统计)机器学习

2021-08-04

指数族在机器学习中广泛使用，包括连续和离散域中的许多分布（例如，通过SoftMax变换，Gaussian，Dirichlet，Poisson和分类分布）。这些家庭中的每个家庭的分布都有固定的支持。相比之下，对于有限域而言，最近在SoftMax稀疏替代方案（例如Sparsemax，$ \ alpha $ -entmax和Fusedmax）的稀疏替代方案中导致了带有不同支持的分布。本文基于几种技术贡献，开发了连续分布的稀疏替代方案：首先，我们定义了$ \ omega $ regultion的预测图和任意域的Fenchel-young损失（可能是无限或连续的）。对于线性参数化的家族，我们表明，Fenchel-Young损失的最小化等效于统计的矩匹配，从而概括了指数家族的基本特性。当$ \ omega $是带有参数$ \ alpha $的Tsallis negentropy时，我们将获得````trabormed rompential指数）''，其中包括$ \ alpha $ -entmax和sparsemax和sparsemax（$ \ alpha = 2 $）。对于二次能量函数，产生的密度为$ \ beta $ -Gaussians，椭圆形分布的实例，其中包含特殊情况，即高斯，双重量级，三人级和epanechnikov密度，我们为差异而得出了差异的封闭式表达式， Tsallis熵和Fenchel-Young损失。当$ \ Omega $是总变化或Sobolev正常化程序时，我们将获得Fusedmax的连续版本。最后，我们引入了连续的注意机制，从\ {1、4/3、3/3、3/2、2 \} $中得出有效的梯度反向传播算法。使用这些算法，我们证明了我们的稀疏连续分布，用于基于注意力的音频分类和视觉问题回答，表明它们允许参加时间间隔和紧凑区域。

translated by 谷歌翻译