在最佳恢复中,通过采用与在要学习的功能上的显式模型假设相关联的最坏情况的透视来确定从观察数据的学习功能的任务是确定的。在Hilbert Spaces的框架中工作,本文认为基于近似性的模型假设。它还包含通过$ \ ell_2 $界限的附加误差建模的观察性不准确性。早期的作品已经证明,正规化提供了在这种情况下最佳的算法,但没有完全识别所需的近似参数。本文填补了本地方案和全局方案的差距。在当地的情况下,这增加了Chebyshev中心的确定,Beck和Eldar的半纤维配方(仅限于复杂的设置)被更具直接的方法补充说,观察功能具有正交代表。在所述方法中,所需参数是通过标准方法可以解析的等式的解决方案。在全局方案中,其中线性算法规则,Micchelli等人的作品中的参数难以捉摸。被发现为Semidefinite计划的副产品。另外并且非常令人惊讶地,在具有正交代表的观测功能的情况下,建立任何正则化参数是最佳的。
translated by 谷歌翻译
我们研究了神经网络中平方损耗训练问题的优化景观和稳定性,但通用非线性圆锥近似方案。据证明,如果认为非线性圆锥近似方案是(以适当定义的意义)比经典线性近似方法更具表现力,并且如果存在不完美的标签向量,则在方位损耗的训练问题必须在其中不稳定感知其解决方案集在训练数据中的标签向量上不连续地取决于标签向量。我们进一步证明对这些不稳定属性负责的效果也是马鞍点出现的原因和杂散的局部最小值,这可能是从全球解决方案的任意遥远的,并且既不训练问题也不是训练问题的不稳定性通常,杂散局部最小值的存在可以通过向目标函数添加正则化术语来克服衡量近似方案中参数大小的目标函数。无论可实现的可实现性是否满足,后一种结果都被证明是正确的。我们表明,我们的分析特别适用于具有可变宽度的自由结插值方案和深层和浅层神经网络的培训问题,其涉及各种激活功能的任意混合(例如,二进制,六骨,Tanh,arctan,软标志, ISRU,Soft-Clip,SQNL,Relu,Lifley Relu,Soft-Plus,Bent Identity,Silu,Isrlu和ELU)。总之,本文的发现说明了神经网络和一般非线性圆锥近似仪器的改进近似特性以直接和可量化的方式与必须解决的优化问题的不期望的性质链接,以便训练它们。
translated by 谷歌翻译
我们考虑统计逆学习问题,任务是根据$ AF $的嘈杂点评估估算函数$ F $,其中$ a $是一个线性运算符。函数$ AF $在I.I.D评估。随机设计点$ u_n $,$ n = 1,...,n $由未知的一般概率分布生成。我们认为Tikhonov正规用一般凸起和$ P $-Homenecous罚款功能,并在由惩罚功能引起的对称BREGMAN距离中测量的地面真理的正则化解决方案的集中率。我们获得了Besov Norm处罚的具体率,并在数值上展示了与X射线断层扫描的背景下的观察到的率的对应。
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
In model selection problems for machine learning, the desire for a well-performing model with meaningful structure is typically expressed through a regularized optimization problem. In many scenarios, however, the meaningful structure is specified in some discrete space, leading to difficult nonconvex optimization problems. In this paper, we connect the model selection problem with structure-promoting regularizers to submodular function minimization with continuous and discrete arguments. In particular, we leverage the theory of submodular functions to identify a class of these problems that can be solved exactly and efficiently with an agnostic combination of discrete and continuous optimization routines. We show how simple continuous or discrete constraints can also be handled for certain problem classes and extend these ideas to a robust optimization framework. We also show how some problems outside of this class can be embedded within the class, further extending the class of problems our framework can accommodate. Finally, we numerically validate our theoretical results with several proof-of-concept examples with synthetic and real-world data, comparing against state-of-the-art algorithms.
translated by 谷歌翻译
在这项工作中,我们考虑线性逆问题$ y = ax + \ epsilon $,其中$ a \ colon x \ to y $是可分离的hilbert spaces $ x $和$ y $之间的已知线性运算符,$ x $。 $ x $和$ \ epsilon $中的随机变量是$ y $的零平均随机过程。该设置涵盖成像中的几个逆问题,包括去噪,去束和X射线层析造影。在古典正规框架内,我们专注于正则化功能的情况下未能先验,而是从数据中学习。我们的第一个结果是关于均方误差的最佳广义Tikhonov规则器的表征。我们发现它完全独立于前向操作员$ a $,并仅取决于$ x $的平均值和协方差。然后,我们考虑从两个不同框架中设置的有限训练中学习常规程序的问题:一个监督,根据$ x $和$ y $的样本,只有一个无人监督,只基于$ x $的样本。在这两种情况下,我们证明了泛化界限,在X $和$ \ epsilon $的分发的一些弱假设下,包括子高斯变量的情况。我们的界限保持在无限尺寸的空间中,从而表明更精细和更细的离散化不会使这个学习问题更加困难。结果通过数值模拟验证。
translated by 谷歌翻译
我们在非参数二进制分类的一个对抗性训练问题之间建立了等价性,以及规范器是非识别范围功能的正则化风险最小化问题。由此产生的正常风险最小化问题允许在图像分析和基于图形学习中常常研究的$ L ^ 1 + $(非本地)$ \ Operatorvers {TV} $的精确凸松弛。这种重构揭示了丰富的几何结构,这反过来允许我们建立原始问题的最佳解决方案的一系列性能,包括存在最小和最大解决方案(以合适的意义解释),以及常规解决方案的存在(也以合适的意义解释)。此外,我们突出了对抗性训练和周长最小化问题的联系如何为涉及周边/总变化的正规风险最小化问题提供一种新颖的直接可解释的统计动机。我们的大部分理论结果与用于定义对抗性攻击的距离无关。
translated by 谷歌翻译
内核方法是强大的学习方法,允许执行非线性数据分析。尽管它们很受欢迎,但在大数据方案中,它们的可伸缩性差。已经提出了各种近似方法,包括随机特征近似,以减轻问题。但是,除了内核脊回归外,大多数这些近似内核方法的统计一致性尚不清楚,其中已证明随机特征近似不仅在计算上有效,而且在统计上与最小值最佳收敛速率一致。在本文中,我们通过研究近似KPCA的计算和统计行为之间的权衡,研究了内核主成分分析(KPCA)中随机特征近似的功效。我们表明,与KPCA相比,与KPCA相比,与KPCA相比,近似KPCA在与基于内核函数基于其对相应的特征面积的投影相关的误差方面是有效的。该分析取决于伯恩斯坦类型的不平等现象,对自我偶和式希尔伯特·史克米特(Hilbert-Schmidt)操作员价值u统计量的运营商和希尔伯特·史克米特(Hilbert-Schmidt)规范取决于独立利益。
translated by 谷歌翻译
This paper considers the model problem of reconstructing an object from incomplete frequency samples. Consider a discrete-time signal f ∈ C N and a randomly chosen set of frequencies Ω of mean size τ N . Is it possible to reconstruct f from the partial knowledge of its Fourier coefficients on the set Ω?A typical result of this paper is as follows: for each M > 0, suppose that f obeysthen with probability at least 1 − O(N −M ), f can be reconstructed exactly as the solution to the ℓ 1 minimization problem min g N −1 t=0 |g(t)|, s.t. ĝ(ω) = f (ω) for all ω ∈ Ω.In short, exact recovery may be obtained by solving a convex optimization problem.We give numerical values for α which depends on the desired probability of success; except for the logarithmic factor, the condition on the size of the support is sharp.The methodology extends to a variety of other setups and higher dimensions. For example, we show how one can reconstruct a piecewise constant (one or two-dimensional) object from incomplete frequency samples-provided that the number of jumps (discontinuities) obeys the condition above-by minimizing other convex functionals such as the total-variation of f .
translated by 谷歌翻译
我们考虑在只能计算出L2-核的加权蒙特卡洛估计值时,在L2的一般非线性子集中近似函数的问题。在这种情况下特别感兴趣的是样本复杂性的概念,即以高概率实现规定误差所需的样品点数。该数量的合理最坏情况仅适用于L2的特定子集,例如线性空间或一组稀疏向量。对于更通用的子集,例如张量网络,当前现有的界限非常悲观。通过将模型类限制为最佳近似的邻域,我们可以为样品复杂性得出改善的最差案例边界。当被考虑的邻域是具有正局部覆盖范围的多种歧视时,可以通过切线空间的样品复杂性以及正常空间的样品复杂性和歧管曲率的样品复杂性来估计样品复杂性。
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
对于函数的矩阵或凸起的正半明确度(PSD)的形状约束在机器学习和科学的许多应用中起着核心作用,包括公制学习,最佳运输和经济学。然而,存在很少的功能模型,以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中,我们介绍了用于在PSD锥中的值的函数的内核平方模型,其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理,表明它构成了PSD函数的普遍近似器,并在限定的平等约束的情况下导出特征值界限。然后,我们将结果应用于建模凸起函数,通过执行其Hessian的核心量子表示,并表明可以因此表示任何平滑且强凸的功能。最后,我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。
translated by 谷歌翻译
对于高维和非参数统计模型,速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到,但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略,以获得对任何估计方差的下限,偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的,并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限,用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中,将抽象的下限应用于几种统计模型,包括高斯白噪声模型,边界估计问题,高斯序列模型和高维线性回归模型。对于这些特定的统计应用,发生不同类型的偏差差异发生,其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡,我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动,以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中,发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用,但是平方偏差的速率和方差不必平衡以实现最小估计速率。
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
我们考虑了一个通用的非线性模型,其中信号是未知(可能增加的,可能增加的特征数量)的有限混合物,该特征是由由真实非线性参数参数化的连续字典发出的。在连续或离散设置中使用高斯(可能相关)噪声观察信号。我们提出了一种网格优化方法,即一种不使用参数空间上任何离散化方案的方法来估计特征的非线性参数和混合物的线性参数。我们使用有关离网方法的几何形状的最新结果,在真实的基础非线性参数上给出最小的分离,以便可以构建插值证书函数。还使用尾部界限,用于高斯过程的上流,我们将预测误差限制为高概率。假设可以构建证书函数,我们的预测误差绑定到日志 - 因线性回归模型中LASSO预测器所达到的速率类似。我们还建立了收敛速率,以高概率量化线性和非线性参数的估计质量。
translated by 谷歌翻译
火星是1991年弗里德曼引入的非参数回归的流行方法。火星适合回归数据的简单非线性和非添加功能。我们提出并研究了火星方法的自然套索变体。我们的方法基于通过考虑MARS中的功能的无限维线性组合而获得的凸类功能的最小二乘估计,并施加基于变化的复杂性约束。我们表明我们的估计器可以通过有限维凸优化来计算,并且基于平滑度约束自然地连接到非参数函数估计技术。在一个简单的设计假设下,我们证明了我们的估算仪实现了一定程度上仅依赖于对数的收敛速度,从而在一定程度上避免了通常的维度诅咒。我们使用交叉验证方案实现了用于选择所涉及的调谐参数的方法,并显示与仿真和实际数据设置中的通常的MARS方法相比具有良好的性能。
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译
在机器学习或统计中,通常希望减少高维空间$ \ mathbb {r} ^ d $的数据点样本的维度。本文介绍了一种维度还原方法,其中嵌入坐标是作为半定程序无限尺寸模拟的溶液获得的正半定核的特征向量。这种嵌入是自适应和非线性的。我们对学习内核的弱者和强烈的平滑假设讨论了这个问题。我们的方法的主要特点是在两种情况下存在嵌入坐标的样本延伸公式。该外推公式产生内核矩阵的延伸到数据相关的Mercer内核功能。我们的经验结果表明,与光谱嵌入方法相比,该嵌入方法对异常值的影响更加稳健。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
通过内插机器在信号处理和机器学习中的新兴作用的推动,这项工作考虑了过度参数化矩阵分子的计算方面。在这种情况下,优化景观可能包含虚假的固定点(SSP),其被证明是全级矩阵。这些SSP的存在意味着不可能希望任何全球担保过度参数化矩阵分解。例如,当在SSP上初始化时,梯度流将永远被删除。尽管如此,尽管有这些SSP,我们在这项工作中建立了相应的优势函数的梯度流到全局最小化器,只要其初始化是缺陷并且足够接近可行性问题的可行性集合。我们在数值上观察到,当随机初始化时,通过原始 - 双算法启发的提出梯度流的启发式离散化是成功的。我们的结果与当地的细化方法形成鲜明的对比,该方法需要初始化接近优化问题的最佳集合。更具体地,我们成功避免了SSPS设置的陷阱,因为梯度流始终仍然是缺陷,而不是因为附近没有SSP。后者是本地细化方法的情况。此外,广泛使用的限制性肌肉属性在我们的主要结果中没有作用。
translated by 谷歌翻译