我们得出了存在圆锥映射的固定点的条件,而无需假设函数的可伸缩性。在搜索固定点的干涉映射点的背景下,文献中通常是不可分割的。在应用中,这种映射通过非阴性神经网络近似。但是,事实证明,训练非负网络的过程需要对模型的权重施加人为的限制。但是,在特定的非负数据的情况下,不能说如果映射是非负的,则仅具有非负权重。因此,我们考虑了一般神经网络存在固定点的问题,假设相对于特定锥体有相似条件的条件。这不会放松物理假设,因为即使假设输入和输出是非负的,权重也可以(小)小于零值。这种特性(通常在有关神经网络权重的解释性的论文中发现)导致对与神经网络相关的映射的单调性或可扩展性的假设的削弱。据我们所知,本文是第一个研究这种现象的文章。
translated by 谷歌翻译
In non-smooth stochastic optimization, we establish the non-convergence of the stochastic subgradient descent (SGD) to the critical points recently called active strict saddles by Davis and Drusvyatskiy. Such points lie on a manifold $M$ where the function $f$ has a direction of second-order negative curvature. Off this manifold, the norm of the Clarke subdifferential of $f$ is lower-bounded. We require two conditions on $f$. The first assumption is a Verdier stratification condition, which is a refinement of the popular Whitney stratification. It allows us to establish a reinforced version of the projection formula of Bolte \emph{et.al.} for Whitney stratifiable functions, and which is of independent interest. The second assumption, termed the angle condition, allows to control the distance of the iterates to $M$. When $f$ is weakly convex, our assumptions are generic. Consequently, generically in the class of definable weakly convex functions, the SGD converges to a local minimizer.
translated by 谷歌翻译
我们推导了非负神经网络的固定点的存在条件,这是一个重要的研究目标,了解了涉及自动化器和循环展开技术的现代应用中神经网络的行为。特别是,我们表明,具有非负输入和非负参数的神经网络可以在非线性珀罗尼乌斯理论的框架内被识别为单调和(弱)可扩展的功能。这一事实使我们能够推导出存在非空白神经网络的非空的固定点集的条件,并且这些条件比最近使用凸分析中的参数获得的条件较弱,这通常是基于激活函数的非扩张性的假设。此外,我们证明了单调和弱可伸缩的神经网络的固定点集的形状通常是一个间隔,其为可伸缩网络的情况的点退化。本文的首席结果在数值模拟中验证,我们考虑了一种自动型型网络,首先将角度功率谱压缩在大规模的MIMO系统中,并且第二,从压缩信号重建输入光谱。
translated by 谷歌翻译
最近关于深度学习的研究侧重于极端过度参数化的设置,并表明,当网络宽度大于训练样本大小的高度多项式$ N $和目标错误$ \ epsilon ^ {-1} $,由(随机)梯度下降学习的深度神经网络享受很好的优化和泛化保证。最近,表明,在训练数据的某些边缘假设下,PolyGarithic宽度条件足以使两层Relu网络收敛和概括(Ji和Telgarsky,2019)。但是,是否可以通过这种轻度过度参数化学习深度神经网络仍然是一个开放的问题。在这项工作中,我们肯定地回答了这个问题,并建立了由(随机)梯度下降所培训的深度Relu网络的更尖锐的学习保证。具体而言,在以前的工作中的某些假设下,我们的优化和泛化保证以$ N $和$ \ epsilon ^ { - 1} $持有网络宽度波动力算法。我们的结果推动了对更实际的环境的过度参数化深神经网络的研究。
translated by 谷歌翻译
我们通过严格的数学论点建设性地展示了GNN在紧凑型$ d $维欧几里得网格上的近似频带限制功能中的架构优于NN的架构。我们表明,前者只需要$ \ MATHCAL {m} $采样函数值就可以实现$ o_ {d}的均匀近似错误(2^{ - \ \ m athcal {m} {m}^{1/d/d/d}}}}} $从某种意义上说,这个错误率是最佳的,NNS可能会取得更糟的情况。
translated by 谷歌翻译
贝叶斯神经网络试图将神经网络的强大预测性能与与贝叶斯架构预测产出相关的不确定性的正式量化相结合。然而,它仍然不清楚如何在升入网络的输出空间时,如何赋予网络的参数。提出了一种可能的解决方案,使用户能够为手头的任务提供适当的高斯过程协方差函数。我们的方法构造了网络参数的先前分配,称为ridgelet,它近似于网络的输出空间中的Posited高斯过程。与神经网络和高斯过程之间的连接的现有工作相比,我们的分析是非渐近的,提供有限的样本大小的错误界限。这建立了贝叶斯神经网络可以近似任何高斯过程,其协方差函数是足够规律的任何高斯过程。我们的实验评估仅限于概念验证,在那里我们证明ridgele先前可以在可以提供合适的高斯过程的回归问题之前出现非结构化。
translated by 谷歌翻译
This paper provides estimation and inference methods for an identified set's boundary (i.e., support function) where the selection among a very large number of covariates is based on modern regularized tools. I characterize the boundary using a semiparametric moment equation. Combining Neyman-orthogonality and sample splitting ideas, I construct a root-N consistent, uniformly asymptotically Gaussian estimator of the boundary and propose a multiplier bootstrap procedure to conduct inference. I apply this result to the partially linear model, the partially linear IV model and the average partial derivative with an interval-valued outcome.
translated by 谷歌翻译
We study a general matrix optimization problem with a fixed-rank positive semidefinite (PSD) constraint. We perform the Burer-Monteiro factorization and consider a particular Riemannian quotient geometry in a search space that has a total space equipped with the Euclidean metric. When the original objective f satisfies standard restricted strong convexity and smoothness properties, we characterize the global landscape of the factorized objective under the Riemannian quotient geometry. We show the entire search space can be divided into three regions: (R1) the region near the target parameter of interest, where the factorized objective is geodesically strongly convex and smooth; (R2) the region containing neighborhoods of all strict saddle points; (R3) the remaining regions, where the factorized objective has a large gradient. To our best knowledge, this is the first global landscape analysis of the Burer-Monteiro factorized objective under the Riemannian quotient geometry. Our results provide a fully geometric explanation for the superior performance of vanilla gradient descent under the Burer-Monteiro factorization. When f satisfies a weaker restricted strict convexity property, we show there exists a neighborhood near local minimizers such that the factorized objective is geodesically convex. To prove our results we provide a comprehensive landscape analysis of a matrix factorization problem with a least squares objective, which serves as a critical bridge. Our conclusions are also based on a result of independent interest stating that the geodesic ball centered at Y with a radius 1/3 of the least singular value of Y is a geodesically convex set under the Riemannian quotient geometry, which as a corollary, also implies a quantitative bound of the convexity radius in the Bures-Wasserstein space. The convexity radius obtained is sharp up to constants.
translated by 谷歌翻译
本文分析了有限状态马尔可夫决策过程(MDPS),其不确定参数在紧凑的集合中,并通过基于集合的固定点理论从可靠的MDP产生重新检查。我们将Bellman和政策评估运营商概括为在价值功能空间合同的运营商,并将其表示为\ Emph {Value Operators}。我们将这些值运算符概括为在价值函数集的空间集上,并将其表示为\ emph {基于集合的值运算符}。我们证明,这些基于集合的价值运算符是紧凑型值函数集空间中的收缩。利用集合理论的洞察力,我们将Bellman运算符的矩形条件从经典稳健的MDP文献到\ emph {CONTAMENT条件}的矩形条件,用于通用价值操作员,该算法较弱,可以应用于较大的参数 - 不确定的MDPS集以及动态编程和强化学习中的承包运营商。我们证明,矩形条件和遏制条件都足够确保基于设定的值运算符的固定点集包含其自身的至高无上的元素。对于不确定的MDP参数的凸和紧凑型集,我们显示了经典的鲁棒值函数与基于集合的Bellman运算符的固定点集的最高点之间的等效性。在紧凑型集合中动态更改的MDP参数下,我们证明了值迭代的集合收敛结果,否则可能不会收敛到单个值函数。
translated by 谷歌翻译
了解现代机器学习设置中的概括一直是统计学习理论的主要挑战之一。在这种情况下,近年来见证了各种泛化范围的发展,表明了不同的复杂性概念,例如数据样本和算法输出之间的相互信息,假设空间的可压缩性以及假设空间的分形维度。尽管这些界限从不同角度照亮了手头的问题,但它们建议的复杂性概念似乎似乎无关,从而限制了它们的高级影响。在这项研究中,我们通过速率理论的镜头证明了新的概括界定,并明确地将相互信息,可压缩性和分形维度的概念联系起来。我们的方法包括(i)通过使用源编码概念来定义可压缩性的广义概念,(ii)表明“压缩错误率”可以与预期和高概率相关。我们表明,在“无损压缩”设置中,我们恢复并改善了现有的基于信息的界限,而“有损压缩”方案使我们能够将概括与速率延伸维度联系起来,这是分形维度的特定概念。我们的结果为概括带来了更统一的观点,并打开了几个未来的研究方向。
translated by 谷歌翻译
计算机愿景中的基本问题是一组点对是否是位于两个相机前面的场景的图像。这种场景和相机一起被称为对角对的手性重建。在本文中,我们提供了一个完整的K点对分类,其中存在手性重建。手性重建的存在相当于某些半武装集的非空虚。最多三点对,我们证明了手性重建总是存在,而五个或更多点对没有手性重建的一组是Zariski-Chense。我们表明,对于五个通用点对,手性区域是由27个实线的三方表面上的Schl \“AFLI双六六的线段界定。四点对具有手性重建,除非它们属于两个非通用组合类型,在这种情况下,他们可能或可能不是。
translated by 谷歌翻译
我们认为,从其嘈杂的瞬间信息中,在任何维度上学习$ k $ spike混合物的稀疏力矩问题。我们使用运输距离来测量学习混合物的准确性。先前的算法要么假设某些分离假设,使用更多的恢复力矩,要么在(超级)指数时间内运行。我们针对一维问题的算法(也称为稀疏Hausdorff Moment问题)是经典Prony方法的强大版本,我们的贡献主要在于分析。我们比以前的工作进行了全球和更严格的分析(分析了Prony方法的中间结果的扰动)。有用的技术成分是由Vandermonde矩阵定义的线性系统与Schur多项式之间的连接,这使我们能够提供独立于分离的紧密扰动,并且在其他情况下可能很有用。为了解决高维问题,我们首先通过将1维算法和分析扩展到复数来解决二维问题。我们针对高维情况的算法通过将混合物的1-D投影与随机矢量和一组混合物的一组2D投影来确定每个尖峰的坐标。我们的结果在学习主题模型和高斯混合物中有应用,这意味着改善了样本复杂性结果或在先前的工作中运行时间。
translated by 谷歌翻译
机器学习通常以经典的概率理论为前提,这意味着聚集是基于期望的。现在有多种原因可以激励人们将经典概率理论作为机器学习的数学基础。我们系统地检查了一系列强大而丰富的此类替代品,即各种称为光谱风险度量,Choquet积分或Lorentz规范。我们提出了一系列的表征结果,并演示了使这个光谱家族如此特别的原因。在此过程中,我们证明了所有连贯的风险度量的自然分层,从它们通过利用重新安排不变性Banach空间理论的结果来诱导的上层概率。我们凭经验证明了这种新的不确定性方法如何有助于解决实用的机器学习问题。
translated by 谷歌翻译
我们研究了私人(DP)随机优化(SO),其中包含非Lipschitz连续的离群值和损失函数的数据。迄今为止,DP上的绝大多数工作,因此假设损失是Lipschitz(即随机梯度均匀边界),并且它们的误差界限与损失的Lipschitz参数。尽管此假设很方便,但通常是不现实的:在需要隐私的许多实际问题中,数据可能包含异常值或无限制,导致某些随机梯度具有较大的规范。在这种情况下,Lipschitz参数可能过于较大,从而导致空虚的多余风险范围。因此,在最近的工作[WXDX20,KLZ22]上,我们做出了较弱的假设,即随机梯度已经限制了$ k $ - them-th Moments for Boy $ k \ geq 2 $。与DP Lipschitz上的作品相比,我们的多余风险量表与$ k $ 3的时刻限制,而不是损失的Lipschitz参数,从而在存在异常值的情况下允许速度明显更快。对于凸面和强烈凸出损失函数,我们提供了第一个渐近最佳的过量风险范围(最多可对数因素)。此外,与先前的作品[WXDX20,KLZ22]相反,我们的边界不需要损失函数是可区分的/平滑的。我们还设计了一种加速算法,该算法在线性时间内运行并提高了(与先前的工作相比),并且几乎最佳的过量风险因平滑损失而产生。此外,我们的工作是第一个解决非convex non-lipschitz损失功能的工作,以满足近端不平等现象。这涵盖了一些类别的神经网,以及其他实用模型。我们的近端PL算法几乎具有最佳的多余风险,几乎与强凸的下限相匹配。最后,我们提供了算法的洗牌DP变化,这些变化不需要受信任的策展人(例如,用于分布式学习)。
translated by 谷歌翻译
统计决策问题是统计机器学习的基础。最简单的问题是二进制和多类分类以及类概率估计。其定义的核心是损失函数的选择,这是评估解决方案质量的手段。在本文中,我们从一个新的角度从基本的成分是具有特定结构的凸集,从而系统地开发了此类问题的损失函数理论。损耗函数定义为凸集的支持函数的子级别。因此,它是自动适当的(校准以估计概率)。这种观点提供了三个新颖的机会。它可以发展损失与(反)纳入之间的基本关系,而这似乎以前没有注意到。其次,它可以开发由凸集的计算诱导的损失的演算,从而允许不同损失之间的插值,因此是将损失定制到特定问题的潜在有用的设计工具。在此过程中,我们基于凸组集合的M-sums的现有结果,并大大扩展了现有的结果。第三,透视图导致了一种自然理论的“极性”(或“反向”)损失函数,这些函数源自凸集的极性二元,定义了损失,并形成了VOVK聚合算法的自然通用替代函数。
translated by 谷歌翻译
我们在分布式框架中得出最小值测试错误,其中数据被分成多个机器,并且它们与中央机器的通信仅限于$ b $位。我们研究了高斯白噪声下的$ d $ - 和无限维信号检测问题。我们还得出达到理论下限的分布式测试算法。我们的结果表明,分布式测试受到从根本上不同的现象,这些现象在分布式估计中未观察到。在我们的发现中,我们表明,可以访问共享随机性的测试协议在某些制度中的性能比不进行的测试协议可以更好地表现。我们还观察到,即使仅使用单个本地计算机上可用的信息,一致的非参数分布式测试始终是可能的,即使只有$ 1 $的通信和相应的测试优于最佳本地测试。此外,我们还得出了自适应非参数分布测试策略和相应的理论下限。
translated by 谷歌翻译
In this paper, we consider the geometric landscape connection of the widely studied manifold and factorization formulations in low-rank positive semidefinite (PSD) and general matrix optimization. We establish a sandwich relation on the spectrum of Riemannian and Euclidean Hessians at first-order stationary points (FOSPs). As a result of that, we obtain an equivalence on the set of FOSPs, second-order stationary points (SOSPs) and strict saddles between the manifold and the factorization formulations. In addition, we show the sandwich relation can be used to transfer more quantitative geometric properties from one formulation to another. Similarities and differences in the landscape connection under the PSD case and the general case are discussed. To the best of our knowledge, this is the first geometric landscape connection between the manifold and the factorization formulations for handling rank constraints, and it provides a geometric explanation for the similar empirical performance of factorization and manifold approaches in low-rank matrix optimization observed in the literature. In the general low-rank matrix optimization, the landscape connection of two factorization formulations (unregularized and regularized ones) is also provided. By applying these geometric landscape connections, in particular, the sandwich relation, we are able to solve unanswered questions in literature and establish stronger results in the applications on geometric analysis of phase retrieval, well-conditioned low-rank matrix optimization, and the role of regularization in factorization arising from machine learning and signal processing.
translated by 谷歌翻译
我们为多元分布时间序列的统计分析提出了一个新的自动回归模型。感兴趣的数据包括一系列在真实线的有限间隔内支持的多个概率度量,并由不同的时间瞬间索引。概率度量是在Wasserstein空间中建模为随机对象的。我们通过首先将所有原始措施居中在Lebesgue度量的切线空间中建立自动回归模型,以便它们的Fr \'Echet意味着变为Lebesgue度量。使用迭代的随机函数系统的理论,提供了这种模型解决方案的存在,独特性和平稳性的结果。我们还提出了模型系数的一致估计器。除了对模拟数据的分析外,还用两个实际数据集说明了所提出的模型集,该数据集由不同国家 /地区的年龄分布和巴黎的自行车共享网络制成。最后,由于我们对模型系数施加的正面和有限性约束,这是在这些约束下学习的拟议估计器,因此自然具有稀疏的结构。稀疏性允许在多变量分布时间序列中学习提出的模型在学习时间依赖性图中的应用。
translated by 谷歌翻译
学习优化是一个快速增长的领域,旨在使用机器学习(ML)来解决优化问题或改善现有的优化算法。特别是,图形神经网络(GNN)被认为是用于优化问题的合适ML模型,其变量和约束是置换的 - 例如线性程序(LP)。尽管文献报道了令人鼓舞的数值结果,但本文确定了将GNN应用于解决LP的理论基础。给定LPS的任何尺寸限制,我们构造了一个GNN,该GNN将不同的LP映射到不同的输出。我们表明,正确构建的GNN可以可靠地预测广泛类别中每个LP的可行性,界限和最佳解决方案。我们的证明是基于最近发现的Weisfeiler-Lehman同构测试与GNN之间的联系。为了验证我们的结果,我们培训了一个简单的GNN,并提出了将LP映射到其可行性和解决方案中的准确性。
translated by 谷歌翻译
本文提出了一种研究Banach空间中的广义数据的正规化学习理论,包括代表性定理和收敛定理。广义数据由线性功能和实际标量组成为输入和输出元素,以表示许多工程和物理模型的离散信息。通过延伸经典机器学习,经验性风险由广义数据和损耗函数计算。根据正规化的技术,通过在Banach空间上最小化正则化的经验风险来近似确切的解决方案。通过Banach空间的预示空间中的广义输入数据的相对紧凑性保证近似解决方案的存在和收敛。
translated by 谷歌翻译