在本文中,我们考虑从噪声损坏的$ M $二进制测量恢复$ N $尺寸信号,并在假设目标信号具有低生成内在尺寸,即,目标信号可以通过$ l近似生成。$ -lipschitz生成器$ g:\ mathbb {r} ^ k \ lightarrow \ mathbb {r} ^ {n},k \ ll n $。虽然二进制测量模型是高度非线性的,但我们提出了最小二乘解码器并证明,最多可达$ C $,具有很高的概率,最小二乘解码器实现了急剧估计错误$ \ Mathcal {O}(\ SQRT {只要$ m \ geq \ mathcal {o}(k \ log(ln))$,只要$ m \ geq \ mathcal {o}广泛的数值模拟和具有最先进方法的比较显示了最小的方形解码器对噪声和标志翻转是强大的,如我们的理论所示。通过用正确选择的深度和宽度构造Relu网络,我们验证了(大约)的深生成点,这是独立的兴趣。
translated by 谷歌翻译
在本文中,我们提出了预测的梯度下降(PGD)算法,以通过嘈杂的非线性测量值进行信号估计。我们假设未知的$ p $维信号位于$ l $ -Lipschitz连续生成模型的范围内,具有有限的$ k $二维输入。特别是,我们考虑了两种情况,即非线性链接函数是未知或已知的情况。对于未知的非线性,类似于\ cite {liu2020循环},我们做出了次高斯观察结果的假设,并提出了线性最小二乘估计器。我们表明,当没有表示误差并且传感向量为高斯时,大约是$ o(k \ log l)$样品足以确保PGD算法将线性收敛到使用任意初始化的最佳统计率的点。对于已知的非线性,我们假设单调性如\ cite {yang2016sparse}中,并在传感向量上做出更弱的假设并允许表示误差。我们提出了一个非线性最小二乘估计器,该估计量可以保证享有最佳的统计率。提供了相应的PGD算法,并显示出使用任意初始化将线性收敛到估算器。此外,我们在图像数据集上提出了实验结果,以证明我们的PGD算法的性能。
translated by 谷歌翻译
The goal of compressed sensing is to estimate a vector from an underdetermined system of noisy linear measurements, by making use of prior knowledge on the structure of vectors in the relevant domain. For almost all results in this literature, the structure is represented by sparsity in a well-chosen basis. We show how to achieve guarantees similar to standard compressed sensing but without employing sparsity at all. Instead, we suppose that vectors lie near the range of a generative model G : R k → R n . Our main theorem is that, if G is L-Lipschitz, then roughly O(k log L) random Gaussian measurements suffice for an 2/ 2 recovery guarantee. We demonstrate our results using generative models from published variational autoencoder and generative adversarial networks. Our method can use 5-10x fewer measurements than Lasso for the same accuracy.
translated by 谷歌翻译
在本文中,我们研究了主要成分分析的问题,并采用了生成建模假设,采用了一个普通矩阵的通用模型,该模型包括涉及尖峰矩阵恢复和相位检索在内的明显特殊情况。关键假设是,基础信号位于$ l $ -Lipschitz连续生成模型的范围内,该模型具有有限的$ k $二维输入。我们提出了一个二次估计器,并证明它享有顺序的统计率$ \ sqrt {\ frac {k \ log l} {m} {m}} $,其中$ m $是样本的数量。我们还提供了近乎匹配的算法独立的下限。此外,我们提供了经典功率方法的一种变体,该方法将计算的数据投射到每次迭代期间生成模型的范围内。我们表明,在适当的条件下,该方法将指数级的快速收敛到达到上述统计率的点。我们在各种图像数据集上对峰值矩阵和相位检索模型进行实验,并说明了我们方法的性能提高到经典功率方法,并为稀疏主组件分析设计了截断的功率方法。
translated by 谷歌翻译
在Bora等。 (2017年),在测量矩阵为高斯,信号结构是生成神经网络(GNN)的范围的设置中开发了一个数学框架,用于压缩传感保证。此后,当测量矩阵和/或网络权重遵循Subgaussian分布时,对GNNS进行压缩感测的问题进行了广泛的分析。我们超越了高斯的假设,以通过在单一基质的随机行中均匀地采样(包括作为特殊情况下的亚采样傅立叶测量值)来得出的测量矩阵。具体而言,我们证明了使用亚次采样的二型限制感测的第一个已知的限制等轴测保证,并提供了几乎有序的样品复杂性的恢复边界,解决了Scarlett等人的开放问题。 (2022,第10页)。恢复功效的特征是连贯性,这是一个新参数,该参数测量了网络范围与测量矩阵之间的相互作用。我们的方法依赖于子空间计数论点和思想的核心概率。此外,我们提出了一种正规化策略,以使GNN与测量运算符具有有利的连贯性。我们提供令人信服的数值模拟来支持这种正规训练策略:我们的策略产生低相干网络,需要更少的信号回收测量。这与我们的理论结果一起支持连贯性作为自然量,用于表征与亚次采样的生成压缩感测。
translated by 谷歌翻译
在本文中,我们提出了一种均匀抖动的一位量化方案,以进行高维统计估计。该方案包含截断,抖动和量化,作为典型步骤。作为规范示例,量化方案应用于三个估计问题:稀疏协方差矩阵估计,稀疏线性回归和矩阵完成。我们研究了高斯和重尾政权,假定重尾数据的基本分布具有有限的第二或第四刻。对于每个模型,我们根据一位量化的数据提出新的估计器。在高斯次级政权中,我们的估计器达到了对数因素的最佳最小速率,这表明我们的量化方案几乎没有额外的成本。在重尾状态下,虽然我们的估计量基本上变慢,但这些结果是在这种单位量化和重型尾部设置中的第一个结果,或者比现有可比结果表现出显着改善。此外,我们为一位压缩传感和一位矩阵完成的问题做出了巨大贡献。具体而言,我们通过凸面编程将一位压缩感传感扩展到次高斯甚至是重尾传感向量。对于一位矩阵完成,我们的方法与标准似然方法基本不同,并且可以处理具有未知分布的预量化随机噪声。提出了有关合成数据的实验结果,以支持我们的理论分析。
translated by 谷歌翻译
生成的对抗网络(GAN)在无监督学习方面取得了巨大的成功。尽管具有显着的经验表现,但关于gan的统计特性的理论研究有限。本文提供了gan的近似值和统计保证,以估算具有H \“ {o} lder空间密度的数据分布。我们的主要结果表明,如果正确选择了生成器和鉴别器网络架构,则gan是一致的估计器在较强的差异指标下的数据分布(例如Wasserstein-1距离。 ,这不受环境维度的诅咒。我们对低维数据的分析基于具有Lipschitz连续性保证的神经网络的通用近似理论,这可能具有独立的兴趣。
translated by 谷歌翻译
This paper studies the quantization of heavy-tailed data in some fundamental statistical estimation problems, where the underlying distributions have bounded moments of some order. We propose to truncate and properly dither the data prior to a uniform quantization. Our major standpoint is that (near) minimax rates of estimation error are achievable merely from the quantized data produced by the proposed scheme. In particular, concrete results are worked out for covariance estimation, compressed sensing, and matrix completion, all agreeing that the quantization only slightly worsens the multiplicative factor. Besides, we study compressed sensing where both covariate (i.e., sensing vector) and response are quantized. Under covariate quantization, although our recovery program is non-convex because the covariance matrix estimator lacks positive semi-definiteness, all local minimizers are proved to enjoy near optimal error bound. Moreover, by the concentration inequality of product process and covering argument, we establish near minimax uniform recovery guarantee for quantized compressed sensing with heavy-tailed noise.
translated by 谷歌翻译
This paper investigates the stability of deep ReLU neural networks for nonparametric regression under the assumption that the noise has only a finite p-th moment. We unveil how the optimal rate of convergence depends on p, the degree of smoothness and the intrinsic dimension in a class of nonparametric regression functions with hierarchical composition structure when both the adaptive Huber loss and deep ReLU neural networks are used. This optimal rate of convergence cannot be obtained by the ordinary least squares but can be achieved by the Huber loss with a properly chosen parameter that adapts to the sample size, smoothness, and moment parameters. A concentration inequality for the adaptive Huber ReLU neural network estimators with allowable optimization errors is also derived. To establish a matching lower bound within the class of neural network estimators using the Huber loss, we employ a different strategy from the traditional route: constructing a deep ReLU network estimator that has a better empirical loss than the true function and the difference between these two functions furnishes a low bound. This step is related to the Huberization bias, yet more critically to the approximability of deep ReLU networks. As a result, we also contribute some new results on the approximation theory of deep ReLU neural networks.
translated by 谷歌翻译
在压缩感应中,目标是从线性测量系统不确定的系统中重建信号。因此,需要有关关注信号及其结构的先验知识。此外,在许多情况下,该信号在测量之前具有未知的方向。为了解决此类恢复问题,我们建议使用Equivariant生成模型作为先验,该模型将定向信息封装在其潜在空间中。因此,我们表明,具有未知取向的信号可以通过这些模型的潜在空间的迭代梯度下降来恢复,并提供额外的理论恢复保证。我们构建一个模棱两可的变量自动编码器,并将解码器用作压缩传感的生成性先验。我们在收敛和潜伏期方面讨论了拟议方法的其他潜在收益。
translated by 谷歌翻译
我们考虑一个非线性逆问题$ \ mathbf {y} = f(\ mathbf {ax})$,其中观察$ \ mathbf {y} \ in \ mathbb {r} ^ m $ in $ \ mathbf的组件非线性转换\ MathBB {R} ^ M $,$ \ MATHBF {X} \ IN \ MATHBB {R} ^ $是兴趣的信号,$ \ MATHBF {A} $是已知的线性映射。通过正确指定非线性处理功能,可以将该模型统治到许多信号处理问题,包括压缩感测和相位检索。我们本文的主要目标是了解传感矩阵的影响,或更具体地是感测矩阵的频谱,难以从$ \ mathbf {y} $恢复$ \ mathbf {x} $。为了实现这一目标,我们研究了最成功的恢复方法之一的性能,即期望传播算法(EP)。我们为$ \ mathbf {a} $的频谱的尖端定义了一个概念,并显示了在EP性能方面的这一措施的重要性。频谱的刺激是否可以伤害或帮助EP的恢复性能取决于$ F $。我们根据函数$ F $定义某些数量,使我们能够描述谱对EP恢复刺激的影响。基于我们的框架,我们能够表明,例如,在阶段检索问题中,具有尖光频谱的矩阵对于EP更好,而在1位压缩的感测问题中,较少的尖峰(平坦)频谱提供更好的恢复。我们的结果统一并基本上概括了比较子高斯和正交矩阵的现有结果,并为设计最佳感测系统提供平台。
translated by 谷歌翻译
压缩传感一直是依赖线性操作的非常成功的高维信号采集和恢复技术。但是,在存储或处理之前,必须对信号的实际测量进行量化。 1(一个) - 位压缩传感是压缩传感的大量量化版本,在其中,信号的每个线性测量都降低到一个位:测量的符号。一旦收集了足够的测量结果,1位压缩感应中的恢复问题旨在以尽可能准确的方式找到原始信号。恢复问题与学习理论中传统的“半空间学习”问题有关。为了恢复稀疏矢量,从1位测量值中的流行重建方法是二元迭代硬阈值(BIHT)算法。该算法是一种简单的投影次级下降法,尽管该问题的概念性不佳,但已知在经验上均能很好地收敛。 BIHT的收敛性属性在理论上没有合理的理由,除了大量的测量值(即,许多大于$ \ max \ {k^{10},24^{48},k^{3.5}/ k^{3.5}/ \ epsilon \} $,其中$ k $是稀疏性,$ \ epsilon $表示近似错误,甚至该表达式隐藏了其他因素)。在本文中,我们表明,BIHT算法仅通过$ \ tilde {o}收敛(\ frac {k} {\ epsilon})$测量。请注意,这种依赖性对$ k $和$ \ epsilon $对于1位压缩传感中的任何恢复方法都是最佳的。据我们所知,BIHT是唯一需要所有参数($ K $和$ \ epsilon $)中最佳测量值的实用和高效(多项式时间)算法。这也是在适当的结构条件下,梯度下降算法转化为非凸问题的正确解决方案的示例。
translated by 谷歌翻译
我们开发机器以设计有效的可计算和一致的估计,随着观察人数而达到零的估计误差,因为观察的次数增长,当面对可能损坏的答复,除了样本的所有品,除了每种量之外的ALL。作为具体示例,我们调查了两个问题:稀疏回归和主成分分析(PCA)。对于稀疏回归,我们实现了最佳样本大小的一致性$ n \ gtrsim(k \ log d)/ \ alpha ^ $和最佳错误率$ o(\ sqrt {(k \ log d)/(n \ cdot \ alpha ^ 2))$ N $是观察人数,$ D $是尺寸的数量,$ k $是参数矢量的稀疏性,允许在数量的数量中为逆多项式进行逆多项式样品。在此工作之前,已知估计是一致的,当Inliers $ \ Alpha $ IS $ O(1 / \ log \ log n)$,即使是(非球面)高斯设计矩阵时也是一致的。结果在弱设计假设下持有,并且在这种一般噪声存在下仅被D'Orsi等人最近以密集的设置(即一般线性回归)显示。 [DNS21]。在PCA的上下文中,我们在参数矩阵上的广泛尖端假设下获得最佳错误保证(通常用于矩阵完成)。以前的作品可以仅在假设下获得非琐碎的保证,即与最基于的测量噪声以$ n $(例如,具有方差1 / n ^ 2 $的高斯高斯)。为了设计我们的估算,我们用非平滑的普通方(如$ \ ell_1 $ norm或核规范)装备Huber丢失,并以一种新的方法来分析损失的新方法[DNS21]的方法[DNS21]。功能。我们的机器似乎很容易适用于各种估计问题。
translated by 谷歌翻译
在过去的十年中,神经网络在各种各样的反问题中取得了显着的成功,从医学成像到地震分析等学科中的采用促进了他们的收养。但是,这种反问题的高维度同时使当前理论预测,网络应在问题的维度上成倍扩展,无法解释为什么在这些设置中使用的看似很小的网络在实践中也可以正常工作。为了减少理论和实践之间的差距,在本文中提供了一种在具有低复杂性结构的高维置的神经网络近似Lipschitz函数所需的复杂性的一般方法。该方法基于这样的观察,即在\ mathbb {r}^in \ mathbb {r}^{d \ times d} $ in \ mathbb {a} \ in \ mathbb {a} \ in \ mathcal集合$ \ mathcal {S } \ subset \ mathbb {r}^d $中的低维立方体$ [ - m,m]^d $意味着对于任何Lipschitz函数$ f:\ mathcal {s} \ to \ mathbb {r}^p $ ,存在lipschitz函数$ g:[-m,m]^d \ to \ mathbb {r}^p $,使得$ g(\ mathbf {a} \ mathbf {x})= f(\ mathbf {x })$用于所有$ \ mathbf {x} \ in \ mathcal {s} $。因此,如果一个人具有一个近似$ g的神经网络:[-m,m]^d \ to \ mathbb {r}^p $,则可以添加一个图层,以实现JL嵌入$ \ mathbf {A a} $要获得一个近似于$ f的神经网络:\ mathcal {s} \ to \ mathbb {r}^p $。通过将JL嵌入结果与神经网络近似Lipschitz函数的近似结果配对,然后获得了一个结果,这些结果绑定了神经网络所需的复杂性,以近似Lipschitz在高尺寸集合上的功能。最终结果是一个一般的理论框架,然后可以用它来更好地解释比当前理论所允许的更广泛的逆问题中较小的网络的经验成功。
translated by 谷歌翻译
由学习的迭代软阈值算法(Lista)的动机,我们介绍了一种适用于稀疏重建的一般性网络,从少数线性测量。通过在层之间允许各种重量共享度,我们为非常不同的神经网络类型提供统一分析,从复发到网络更类似于标准前馈神经网络。基于训练样本,通过经验风险最小化,我们旨在学习最佳网络参数,从而实现从其低维线性测量的最佳网络。我们通过分析由这种深网络组成的假设类的RadeMacher复杂性来衍生泛化界限,这也考虑了阈值参数。我们获得了对样本复杂性的估计,基本上只取决于参数和深度的数量。我们应用主要结果以获得几个实际示例的特定泛化界限,包括(隐式)字典学习和卷积神经网络的不同算法。
translated by 谷歌翻译
我们在随机特征矩阵的条件数上提供(高概率)界限。特别是,我们表明,如果复杂性比率$ \ frac {n} $ where $ n $是n $ with n $ wore $ n $是$ m $的数量,如$ \ log ^ {-1}( n)$或$ \ log(m)$,然后随机功能矩阵很好。该结果在没有正则化的情况下保持并且依赖于在随机特征矩阵的相关组件之间建立各种浓度界限。另外,我们在随机特征矩阵的受限等距常数上获得界限。我们证明了使用随机特征矩阵的回归问题相关的风险表现出双重下降现象,并且这是条件数的双缩小行为的效果。风险范围包括使用最小二乘问题的underParamedAimed设置和使用最小规范插值问题或稀疏回归问题的过次参数化设置。对于最小二乘或稀疏的回归案例,我们表明风险降低为$ M $和$ N $增加,即使在存在有限或随机噪声时也是如此。风险绑定与文献中的最佳缩放匹配,我们的结果中的常量是显式的,并且独立于数据的维度。
translated by 谷歌翻译
无限尺寸空间之间的学习运营商是机器学习,成像科学,数学建模和仿真等广泛应用中出现的重要学习任务。本文研究了利用深神经网络的Lipschitz运营商的非参数估计。 Non-asymptotic upper bounds are derived for the generalization error of the empirical risk minimizer over a properly chosen network class.在假设目标操作员表现出低维结构的情况下,由于训练样本大小增加,我们的误差界限衰减,根据我们估计中的内在尺寸,具有吸引力的快速速度。我们的假设涵盖了实际应用中的大多数情况,我们的结果通过利用操作员估算中的低维结构来产生快速速率。我们还研究了网络结构(例如,网络宽度,深度和稀疏性)对神经网络估计器的泛化误差的影响,并提出了对网络结构的选择来定量地最大化学习效率的一般建议。
translated by 谷歌翻译
在本文中,我们研究了经验$ \ ell_2 $最小化(erm)的估计性能(标准)阶段检索(NPR),由$ y_k = | \ alpha_k^*x_0 |^2+\ eta_k $,或嘈杂的广义阶段检索(NGPR)以$ y_k = x_0^*a_kx_0 + \ eta_k $,其中$ x_0 \ in \ mathbb {k}^d $是所需的信号,$ n $是样本大小,$ \ eta =(\ eta_1,...,\ eta_n)^\ top $是噪声向量。我们在不同的噪声模式下建立了新的错误界限,我们的证明对$ \ mathbb {k} = \ mathbb {r} $和$ \ mathbb {k} = \ mathbb {c} $有效。在任意噪声向量$ \ eta $下的NPR中,我们得出了一个新的错误$ o \ big(\ | \ eta \ | _ \ | _ \ infty \ sqrt {\ frac {d} {1}^\ top \ eta |} {n} \ big)$,它比当前已知的一个$ o \ big(\ frac {\ | \ eTa \ |} {\ sqrt {\ sqrt {n}} \ big big )$在许多情况下。在NGPR中,我们显示了$ o \ big(\ | \ eta \ | \ frac {\ sqrt {d}}} {n} {n} \ big)$ for nutary $ \ eta $。在这两个问题上,任意噪声的范围立即引起$ \ tilde {o}(\ sqrt {\ frac {d} {n}}}})$,用于次高斯或次指数随机噪声,带有一些常规但不可吻的去除或削弱的假设(例如,独立或均值均值的条件)。此外,我们首次尝试在假定$ l $ -th时刻的重尾随机噪声下进行ERM。为了实现偏见和差异之间的权衡,我们截断了响应并提出了相应的稳健ERM估计器,该估计量具有保证$ \ tilde {o} \ big(\ big [\ sqrt {\ frac {\ frac {d}) {n}} \ big]^{1-1/l} \ big)$在NPR,NGPR中。所有错误都直接扩展到等级$ r $矩阵恢复的更普遍的问题,这些结果得出的结论是,全级框架$ \ {a_k \} _ {k = 1}^n $ in ngpr是比级别1帧$ \ {\ alpha_k \ alpha_k^*\} _ {k = 1}^n $在npr中更强大。提出了广泛的实验结果,以说明我们的理论发现。
translated by 谷歌翻译
监督表示学习的目标是为预测构建有效的数据表示。在高维复杂数据的理想非参数表示的所有特征中,充分性,低维度和脱离是最重要的。我们提出了一种深层缩小方法,以使用这些特征来学习表示表示。提出的方法是对足够降低方法的非参数概括。我们制定理想的表示学习任务是找到非参数表示,该任务最小化了表征条件独立性并促进人口层面的分离的目标函数。然后,我们使用深层神经网络在非参数上估计样品级别的目标表示。我们表明,估计的深度非参数表示是一致的,因为它的过剩风险会收敛到零。我们使用模拟和真实基准数据的广泛数值实验表明,在分类和回归的背景下,所提出的方法比现有的几种降低方法和标准深度学习模型具有更好的性能。
translated by 谷歌翻译
我们考虑由非线性状态等式$ H_ {T + 1} = \ phi(h_t,u_t; \ theta)+ w_t $ toy的稳定系统的问题问题。在这里$ \ theta $是未知的系统动态,$ h_t $是状态,$ u_t $是输入,$ w_t $是附加噪音矢量。我们研究了基于梯度的算法,以了解从单个有限轨迹所获得的样本的系统动态$ \ theta $。如果系统通过稳定输入策略运行,我们表明可以通过I.i.d近似时间依赖的样本。使用混合时间参数通过截断参数示例。然后,我们为经验损失梯度的均匀收敛性开发新的保证。与现有的工作不同,我们的界限是噪声敏感,允许高精度和小样本复杂度学习地面真实动态。我们的结果在一起,促进了稳定政策下的一般非线性系统的高效学习。我们专注于进入明智的非线性激活的保证,并在各种数值实验中验证我们的理论
translated by 谷歌翻译