全局能量函数$ h:e \ to \ mathbb {r} $在一组微晶体上定义了一个统计系统,产生了gibbs概率度量(softmins)$ \ rho \ rho^\ beta(h)$ for每个反温度$ \ beta = t^{ - 1} $。 Gibbs状态同时以自由能原理和最大渗透原则为特征,在反温度$ \ beta $和平均能量$ {\ cal u}(\ beta)= \ mathbb {e} _ {\ rho rho^ \ beta} [H] $。 Legendre Transform关联了这些不同的变异原理,不幸的是,在高维度中无法处理。全局能量通常以sum $ h(x)= \ sum _ {\ rm a \ subset \ omega} h _ _ {\ rm a}(x_ {| \ rm a})$ {\ rm a}:e _ {\ rm a} \ to \ mathbb {r} $由有限子区域$ {\ rm a} \ subset \ omega $索引,并且该局部结构可用于设计良好的近似近似值,功能。我们表明,通用的信念传播(GBP)算法通过聚合到自由能$ f(\ beta)$的Bethe-Kikuchi近似值来解决局部变异原理的集合,Shannon Entropy $ s(\ cal U )$,以及变量自由能$ {\ cal f}(\ beta)= {\ cal u} - \ beta^{ - 1} s(\ cal u)$,扩展了Yedidia等人的初始通信。这种本地形式的legendre二重性产生了平均能量$ {\ cal u} $和$ \ beta $之间可能的退化关系。
translated by 谷歌翻译
每个已知的人工深神经网络(DNN)都对应于规范Grothendieck的拓扑中的一个物体。它的学习动态对应于此拓扑中的形态流动。层中的不变结构(例如CNNS或LSTMS)对应于Giraud的堆栈。这种不变性应该是对概括属性的原因,即从约束下的学习数据中推断出来。纤维代表语义前类别(Culioli,Thom),在该类别上定义了人工语言,内部逻辑,直觉主义者,古典或线性(Girard)。网络的语义功能是其能够用这种语言表达理论的能力,以回答输出数据中有关输出的问题。语义信息的数量和空间是通过类比与2015年香农和D.Bennequin的Shannon熵的同源解释来定义的。他们概括了Carnap和Bar-Hillel(1952)发现的措施。令人惊讶的是,上述语义结构通过封闭模型类别的几何纤维对象进行了分类,然后它们产生了DNNS及其语义功能的同位不变。故意类型的理论(Martin-Loef)组织了这些物体和它们之间的纤维。 Grothendieck的导数分析了信息内容和交流。
translated by 谷歌翻译
我们考虑由路径可分化的矢量字段驱动的常微分方程(ODES)的流动。路径可微分功能构成了Lipschitz功能的适当子类,其承认保守梯度,与基本微积分规则兼容的广义衍生物的概念。我们的主要结果表明这种流程继承了驾驶矢量字段的路径可分性特性。我们表明,敏感性差分夹杂物给出的衍生物的前进传播为流程提供了保守的雅各比。这允许提出伴随方法的非光滑版本,其可以应用于oDe约束下的积分成本。该结果构成了应用小型步骤第一订单方法的理论基础,以解决具有参数化颂占约束的广泛的非流动优化问题。这通过基于所提出的非流动伴随的小型第一订单方法的汇聚来说明。
translated by 谷歌翻译
Langevin-diffusion形式的随机微分方程已获得了最近的重大作用,这要归功于它们在贝叶斯采样算法中的基本作用和在机器学习中的优化。在后者中,它们是训练过度参数化模型中随机梯度流的概念模型。但是,文献通常假定电势的平滑度,其梯度是漂移项。然而,存在许多问题,对于潜在的功能并非不断差异,因此漂移并不是到处都是lipschitz的连续。在回归问题中,可靠的损失和整流的线性单位来说明这一点。在本文中,我们在适合机器学习设置的假设下展示了有关Langevin型随机差异夹杂物的流动和渐近特性的一些基本结果。特别是,我们显示了溶液的强烈存在,以及规范自由能功能的渐近最小化。
translated by 谷歌翻译
潜在变量模型(LVM)的无监督学习被广泛用于表示机器学习中的数据。当这样的模型反映了地面真理因素和将它们映射到观察的机制时,有理由期望它们允许在下游任务中进行概括。但是,众所周知,如果不在模型类上施加限制,通常无法实现此类可识别性保证。非线性独立组件分析是如此,其中LVM通过确定性的非线性函数将统计上独立的变量映射到观察。几个伪造解决方案的家庭完全适合数据,但是可以在通用环境中构建与地面真相因素相对应的。但是,最近的工作表明,限制此类模型的功能类别可能会促进可识别性。具体而言,已经提出了在Jacobian矩阵中收集的部分衍生物的函数类,例如正交坐标转换(OCT),它们强加了Jacobian柱的正交性。在目前的工作中,我们证明了这些转换的子类,共形图,是可识别的,并提供了新颖的理论结果,这表明OCT具有防止虚假解决方案家族在通用环境中破坏可识别性的特性。
translated by 谷歌翻译
本文是从运动问题的以下非刚性结构的理论研究。可以从参数变形点集的单眼视图计算什么?我们对具有校准和未校准相机的仿射和多项式变形来对待该问题的各种变化。我们表明,通常需要至少三个具有准相同的两种变形的图像,以便具有点结构的有限溶液并计算一些简单的示例。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
The modeling of probability distributions, specifically generative modeling and density estimation, has become an immensely popular subject in recent years by virtue of its outstanding performance on sophisticated data such as images and texts. Nevertheless, a theoretical understanding of its success is still incomplete. One mystery is the paradox between memorization and generalization: In theory, the model is trained to be exactly the same as the empirical distribution of the finite samples, whereas in practice, the trained model can generate new samples or estimate the likelihood of unseen samples. Likewise, the overwhelming diversity of distribution learning models calls for a unified perspective on this subject. This paper provides a mathematical framework such that all the well-known models can be derived based on simple principles. To demonstrate its efficacy, we present a survey of our results on the approximation error, training error and generalization error of these models, which can all be established based on this framework. In particular, the aforementioned paradox is resolved by proving that these models enjoy implicit regularization during training, so that the generalization error at early-stopping avoids the curse of dimensionality. Furthermore, we provide some new results on landscape analysis and the mode collapse phenomenon.
translated by 谷歌翻译
在此备忘录中,我们开发了一般框架,它允许同时研究$ \ MathBB R ^ D $和惠特尼在$ \ Mathbb r的离散和非离散子集附近的insoctry扩展问题附近的标签和未标记的近对准数据问题。^ d $与某些几何形状。此外,我们调查了与集群,维度减少,流形学习,视觉以及最小的能量分区,差异和最小最大优化的相关工作。给出了谐波分析,计算机视觉,歧管学习和与我们工作的信号处理中的众多开放问题。本发明内容中的一部分工作基于纸张中查尔斯Fefferman的联合研究[48],[49],[50],[51]。
translated by 谷歌翻译
通过使用系统理论方法来解决,将隐藏的马尔可夫模型(HMM)降低到一个较小的维度的问题,该问题通过使用系统理论方法来解决相同的边缘,通过利用适当的代数表示概率空间的代数来解决HMM。我们提出了两种算法,这些算法返回由随机投影运算符获得的粗粒等效的HMM:第一返回模型,这些模型可重现给定输出过程的单个时间分布,而在第二个(多时间)分布中,则保留了第二个模型。还原方法不仅利用了观察到的输出的结构,而且还利用了后者的初始条件,每当后者已知或属于给定的子类时。最佳算法是针对一类HMM(即可观察到的)得出的。在一般情况下,我们提出的算法为我们分析的所有示例产生了最小的模型,并猜测它们的最优性。
translated by 谷歌翻译
在本文中,我们研究了多视图几何中基本和基本矩阵估计的5-和7点问题的数值不太稳定性。在这两种情况下,我们表征了末极估计的条件号是无限的呈现不良世界场景。我们还以给定的图像数据表征不良实例。为了达到这些结果,我们提出了一般的框架,用于分析基于Riemannian歧管的多视图几何体中最小问题的调理。综合性和现实世界数据的实验然后揭示了一个引人注目的结论:在结构 - 从 - 动作(SFM)中的随机样本共识(RANSAC)不仅用于过滤输出异常值,而且RANSAC还选择用于良好的良好的图像数据,足够分离我们的理论预测的不良座位。我们的研究结果表明,在未来的工作中,人们可以试图通过仅测试良好的图像数据来加速和增加Ransac的成功。
translated by 谷歌翻译
让F:R ^ N - > R是前馈RELU神经网络。众所周知,对于任何选择参数,F是连续和分段(仿射)线性的。我们为有系统调查提供了一些基础,用于系统的架构如何影响其可能的决策区域的几何和拓扑以进行二进制分类任务。在差分拓扑中顺利函数的经典进展之后,我们首先定义通用,横向relu神经网络的概念,并显示几乎所有的Relu网络都是通用的和横向的。然后,我们在F的域中定义了一个部分取向的线性1-复合物,并识别该复合物的属性,从而产生妨碍决策区域的有界连接分量的障碍物。我们使用该阻塞来证明具有单个隐藏的尺寸层(N + 1)的通用横向Relu网络F:R ^ N - > R的决策区域可以不具有多于一个有界连接的组件。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
我们研究了学习哈密顿$ h $ to precision $ \ varepsilon $的问题,假设我们将获得其gibbs state $ \ rho = \ exp( - \ beta h)/\ operatoratorname {tr}(\ exp(\ exp)( - \ beta h))$在已知的反温度$ \ beta $处。 Anshu,Arunachalam,Kuwahara和Soleimanifar(Nature Physics,2021,Arxiv:2004.07266)最近研究了此问题的样品复杂性(需要$ \ rho $的副本数量)。在高温(低$ \ beta $)制度中,他们的算法具有样品复杂性poly poly $(n,1/\ beta,1/\ varepsilon)$,并且可以用多项式但次优的时间复杂性实现。在本文中,我们研究了更一般的哈密顿人的同样问题。我们展示了如何学习哈密顿量的系数到错误$ \ varepsilon $带有样本复杂性$ s = o(\ log n/(\ beta \ varepsilon)^{2})$和样本大小的时间复杂性,$ o(s n)$。此外,我们证明了匹配的下限,表明我们算法的样品复杂性是最佳的,因此我们的时间复杂性也是最佳的。在附录中,我们证明,几乎可以使用相同的算法来从实时进化的统一$ e^{ - it H} $中学习$ h $,其中具有相似的示例和时间复杂性的小$ t $制度。
translated by 谷歌翻译
在本章中,我们确定了基本的几何结构,这些几何结构是采样,优化,推理和自适应决策问题的基础。基于此识别,我们得出了利用这些几何结构来有效解决这些问题的算法。我们表明,在这些领域中自然出现了广泛的几何理论,范围从测量过程,信息差异,泊松几何和几何整合。具体而言,我们解释了(i)如何利用汉密尔顿系统的符合性几何形状,使我们能够构建(加速)采样和优化方法,(ii)希尔伯特亚空间和Stein操作员的理论提供了一种通用方法来获得可靠的估计器,(iii)(iii)(iii)保留决策的信息几何形状会产生执行主动推理的自适应剂。在整个过程中,我们强调了这些领域之间的丰富联系。例如,推论借鉴了抽样和优化,并且自适应决策通过推断其反事实后果来评估决策。我们的博览会提供了基本思想的概念概述,而不是技术讨论,可以在本文中的参考文献中找到。
translated by 谷歌翻译
We leverage path differentiability and a recent result on nonsmooth implicit differentiation calculus to give sufficient conditions ensuring that the solution to a monotone inclusion problem will be path differentiable, with formulas for computing its generalized gradient. A direct consequence of our result is that these solutions happen to be differentiable almost everywhere. Our approach is fully compatible with automatic differentiation and comes with assumptions which are easy to check, roughly speaking: semialgebraicity and strong monotonicity. We illustrate the scope of our results by considering three fundamental composite problem settings: strongly convex problems, dual solutions to convex minimization problems and primal-dual solutions to min-max problems.
translated by 谷歌翻译
We consider the nonlinear inverse problem of learning a transition operator $\mathbf{A}$ from partial observations at different times, in particular from sparse observations of entries of its powers $\mathbf{A},\mathbf{A}^2,\cdots,\mathbf{A}^{T}$. This Spatio-Temporal Transition Operator Recovery problem is motivated by the recent interest in learning time-varying graph signals that are driven by graph operators depending on the underlying graph topology. We address the nonlinearity of the problem by embedding it into a higher-dimensional space of suitable block-Hankel matrices, where it becomes a low-rank matrix completion problem, even if $\mathbf{A}$ is of full rank. For both a uniform and an adaptive random space-time sampling model, we quantify the recoverability of the transition operator via suitable measures of incoherence of these block-Hankel embedding matrices. For graph transition operators these measures of incoherence depend on the interplay between the dynamics and the graph topology. We develop a suitable non-convex iterative reweighted least squares (IRLS) algorithm, establish its quadratic local convergence, and show that, in optimal scenarios, no more than $\mathcal{O}(rn \log(nT))$ space-time samples are sufficient to ensure accurate recovery of a rank-$r$ operator $\mathbf{A}$ of size $n \times n$. This establishes that spatial samples can be substituted by a comparable number of space-time samples. We provide an efficient implementation of the proposed IRLS algorithm with space complexity of order $O(r n T)$ and per-iteration time complexity linear in $n$. Numerical experiments for transition operators based on several graph models confirm that the theoretical findings accurately track empirical phase transitions, and illustrate the applicability and scalability of the proposed algorithm.
translated by 谷歌翻译
最近引入了通过机制稀疏性进行的解剖,作为一种原则方法,可以在没有监督的情况下提取潜在因素,而当及时关联它们的因果图很少,并且/或当观察到动作并稀少地影响它们时。但是,该理论仅适用于满足特定标准的基础图。在这项工作中,我们介绍了该理论的概括,该理论适用于任何地面图形,并通过与我们称之为一致性的模型的新等价关系进行定性地指定了如何删除学习的表示形式。这种等效性捕获了哪些因素预计将保持纠缠,哪些因素不基于地面图形的特定形式。我们称这种较弱的可识别性部分分解形式。允许在早期作品中提出的完全分解的图形标准可以作为我们理论的特殊情况得出。最后,我们以约束优化的方式执行图形稀疏性,并在模拟中说明了我们的理论和算法。
translated by 谷歌翻译
顺序凸编程(SCP)最近已获得了解决最佳控制问题的有效方法,并已成功应用于多个不同的领域。但是,SCP的理论分析受到了相对有限的关注,并且通常仅限于离散时间配方。在本文中,我们介绍了对连续时间最佳控制问题的相当一般类别的SCP程序的统一分析。除了在连续时间环境中保证收敛的推导外,我们的分析还揭示了两个新的数值和实际见解。首先,我们展示了如何更轻松地考虑歧管型约束,这是对机械系统的最佳控制的定义特征。其次,我们展示了如何通过从间接最佳控制中注入技术来利用我们的理论分析来加速基于SCP的最佳控制方法。
translated by 谷歌翻译