本文是从运动问题的以下非刚性结构的理论研究。可以从参数变形点集的单眼视图计算什么?我们对具有校准和未校准相机的仿射和多项式变形来对待该问题的各种变化。我们表明,通常需要至少三个具有准相同的两种变形的图像,以便具有点结构的有限溶液并计算一些简单的示例。
translated by 谷歌翻译
同态传感是一个最近的代数几何框架,它在给定的线性图集合中研究了线性子空间中点的独特恢复。在坐标投影组成的情况下,它已经成功地解释了这种恢复,这是被称为未标记感应的应用程序中的重要实例,其中模拟了不秩序不正确且缺少值的数据。在本文中,我们提供更严格,更简单的条件,以保证单个空格情况的唯一恢复,将结果扩展到子空间布置的情况,并证明单个子空间中的唯一恢复在噪声下是本地稳定的。我们将结果专注于几个同态感测的示例,例如真实的相位检索和未标记的传感。在这样做的情况下,我们以统一的方式获得了保证这些示例的独特恢复的条件,这些示例通常是通过文献中的各种技术来知道的,以及用于稀疏和未签名版本的未标记感应的新颖条件。同样,我们的噪声结果也意味着未标记的传感中的独特恢复在局部稳定。
translated by 谷歌翻译
在本文中,我们研究了多视图几何中基本和基本矩阵估计的5-和7点问题的数值不太稳定性。在这两种情况下,我们表征了末极估计的条件号是无限的呈现不良世界场景。我们还以给定的图像数据表征不良实例。为了达到这些结果,我们提出了一般的框架,用于分析基于Riemannian歧管的多视图几何体中最小问题的调理。综合性和现实世界数据的实验然后揭示了一个引人注目的结论:在结构 - 从 - 动作(SFM)中的随机样本共识(RANSAC)不仅用于过滤输出异常值,而且RANSAC还选择用于良好的良好的图像数据,足够分离我们的理论预测的不良座位。我们的研究结果表明,在未来的工作中,人们可以试图通过仅测试良好的图像数据来加速和增加Ransac的成功。
translated by 谷歌翻译
我们引入了与针孔摄像机中图像形成相关的代数几何对象的地图集。地图集的节点是代数品种或它们的消失理想,分别通过投影,消除,限制或专业化相互关联。该地图集为研究3D计算机视觉中的问题提供了一个统一的框架。我们通过完全表征来自三角剖分问题的部分地图集来启动地图集的研究。我们以几个空旷的问题和地图集的概括结束。
translated by 谷歌翻译
计算机愿景中的基本问题是一组点对是否是位于两个相机前面的场景的图像。这种场景和相机一起被称为对角对的手性重建。在本文中,我们提供了一个完整的K点对分类,其中存在手性重建。手性重建的存在相当于某些半武装集的非空虚。最多三点对,我们证明了手性重建总是存在,而五个或更多点对没有手性重建的一组是Zariski-Chense。我们表明,对于五个通用点对,手性区域是由27个实线的三方表面上的Schl \“AFLI双六六的线段界定。四点对具有手性重建,除非它们属于两个非通用组合类型,在这种情况下,他们可能或可能不是。
translated by 谷歌翻译
We study the problem of finding elements in the intersection of an arbitrary conic variety in $\mathbb{F}^n$ with a given linear subspace (where $\mathbb{F}$ can be the real or complex field). This problem captures a rich family of algorithmic problems under different choices of the variety. The special case of the variety consisting of rank-1 matrices already has strong connections to central problems in different areas like quantum information theory and tensor decompositions. This problem is known to be NP-hard in the worst-case, even for the variety of rank-1 matrices. Surprisingly, despite these hardness results we give efficient algorithms that solve this problem for "typical" subspaces. Here, the subspace $U \subseteq \mathbb{F}^n$ is chosen generically of a certain dimension, potentially with some generic elements of the variety contained in it. Our main algorithmic result is a polynomial time algorithm that recovers all the elements of $U$ that lie in the variety, under some mild non-degeneracy assumptions on the variety. As corollaries, we obtain the following results: $\bullet$ Uniqueness results and polynomial time algorithms for generic instances of a broad class of low-rank decomposition problems that go beyond tensor decompositions. Here, we recover a decomposition of the form $\sum_{i=1}^R v_i \otimes w_i$, where the $v_i$ are elements of the given variety $X$. This implies new algorithmic results even in the special case of tensor decompositions. $\bullet$ Polynomial time algorithms for several entangled subspaces problems in quantum entanglement, including determining $r$-entanglement, complete entanglement, and genuine entanglement of a subspace. While all of these problems are NP-hard in the worst case, our algorithm solves them in polynomial time for generic subspaces of dimension up to a constant multiple of the maximum possible.
translated by 谷歌翻译
The essential variety is an algebraic subvariety of dimension $5$ in real projective space $\mathbb{R}\mathrm{P}^{8}$ which encodes the relative pose of two calibrated pinhole cameras. The $5$-point algorithm in computer vision computes the real points in the intersection of the essential variety with a linear space of codimension $5$. The degree of the essential variety is $10$, so this intersection consists of 10 complex points in general. We compute the expected number of real intersection points when the linear space is random. We focus on two probability distributions for linear spaces. The first distribution is invariant under the action of the orthogonal group $\mathrm{O}(9)$ acting on linear spaces in $\mathbb{R}\mathrm{P}^{8}$. In this case, the expected number of real intersection points is equal to $4$. The second distribution is motivated from computer vision and is defined by choosing 5 point correspondences in the image planes $\mathbb{R}\mathrm{P}^2\times \mathbb{R}\mathrm{P}^2$ uniformly at random. A Monte Carlo computation suggests that with high probability the expected value lies in the interval $(3.95 - 0.05,\ 3.95 + 0.05)$.
translated by 谷歌翻译
从运动的结构问题涉及从一组二维图像中恢复对象的三维结构。通常,如果提供了足够的图像和图像点,则可以唯一地恢复所有信息,但是存在唯一恢复的情况下是不可能的情况;这些称为关键配置。在本文中,我们使用代数方法来研究两个投影相机的关键配置。我们表明,所有关键配置都位于二次表面上,并确切地分类哪个Quadrics构成关键配置。本文还描述了当独特的重建不可能时不同重建之间的关系。
translated by 谷歌翻译
深度神经网络被广泛用于解决多个科学领域的复杂问题,例如语音识别,机器翻译,图像分析。用于研究其理论特性的策略主要依赖于欧几里得的几何形状,但是在过去的几年中,已经开发了基于Riemannian几何形状的新方法。在某些开放问题的动机中,我们研究了歧管之间的特定地图序列,该序列的最后一个歧管配备了riemannian指标。我们研究了序列的其他歧管和某些相关商的结构引起的槽撤回。特别是,我们表明,最终的riemannian度量的回调到该序列的任何歧管是一个退化的riemannian度量,诱导了伪模空间的结构,我们表明,该伪仪的kolmogorov商均产生了平滑的歧管,这是基础的,这是基础,这是基础的基础。特定垂直束的空间。我们研究了此类序列图的理论属性,最终我们着重于实施实际关注神经网络的流形之间的地图,并介绍了本文第一部分中引入的几何框架的某些应用。
translated by 谷歌翻译
我们研究由线性卷积神经网络(LCN)代表的功能家族。这些函数形成了从输入空间到输出空间的线性地图集的半代数子集。相比之下,由完全连接的线性网络表示的函数家族形成代数集。我们观察到,LCN代表的功能可以通过接受某些因素化的多项式来识别,我们使用此视角来描述网络体系结构对所得功能空间几何形状的影响。我们进一步研究了在LCN上的目标函数的优化,分析了功能空间和参数空间中的临界点,并描述了梯度下降的动态不变性。总体而言,我们的理论预测,LCN的优化参数通常对应于跨层的重复过滤器,或可以分解为重复过滤器的过滤器。我们还进行了数值和符号实验,以说明我们的结果,并对小体系结构的景​​观进行深入分析。
translated by 谷歌翻译
众所周知,具有重新激活函数的完全连接的前馈神经网络可以表示的参数化函数家族恰好是一类有限的分段线性函数。鲜为人知的是,对于Relu神经网络的每个固定架构,参数空间都允许对称的正维空间,因此,在任何给定参数附近的局部功能维度都低于参数维度。在这项工作中,我们仔细地定义了功能维度的概念,表明它在Relu神经网络函数的参数空间中是不均匀的,并继续进行[14]和[5]中的调查 - 何时在功能维度实现其理论时最大。我们还研究了从参数空间到功能空间的实现图的商空间和纤维,提供了断开连接的纤维的示例,功能尺寸为非恒定剂的纤维以及对称组在其上进行非转换的纤维。
translated by 谷歌翻译
潜在变量模型(LVM)的无监督学习被广泛用于表示机器学习中的数据。当这样的模型反映了地面真理因素和将它们映射到观察的机制时,有理由期望它们允许在下游任务中进行概括。但是,众所周知,如果不在模型类上施加限制,通常无法实现此类可识别性保证。非线性独立组件分析是如此,其中LVM通过确定性的非线性函数将统计上独立的变量映射到观察。几个伪造解决方案的家庭完全适合数据,但是可以在通用环境中构建与地面真相因素相对应的。但是,最近的工作表明,限制此类模型的功能类别可能会促进可识别性。具体而言,已经提出了在Jacobian矩阵中收集的部分衍生物的函数类,例如正交坐标转换(OCT),它们强加了Jacobian柱的正交性。在目前的工作中,我们证明了这些转换的子类,共形图,是可识别的,并提供了新颖的理论结果,这表明OCT具有防止虚假解决方案家族在通用环境中破坏可识别性的特性。
translated by 谷歌翻译
每个已知的人工深神经网络(DNN)都对应于规范Grothendieck的拓扑中的一个物体。它的学习动态对应于此拓扑中的形态流动。层中的不变结构(例如CNNS或LSTMS)对应于Giraud的堆栈。这种不变性应该是对概括属性的原因,即从约束下的学习数据中推断出来。纤维代表语义前类别(Culioli,Thom),在该类别上定义了人工语言,内部逻辑,直觉主义者,古典或线性(Girard)。网络的语义功能是其能够用这种语言表达理论的能力,以回答输出数据中有关输出的问题。语义信息的数量和空间是通过类比与2015年香农和D.Bennequin的Shannon熵的同源解释来定义的。他们概括了Carnap和Bar-Hillel(1952)发现的措施。令人惊讶的是,上述语义结构通过封闭模型类别的几何纤维对象进行了分类,然后它们产生了DNNS及其语义功能的同位不变。故意类型的理论(Martin-Loef)组织了这些物体和它们之间的纤维。 Grothendieck的导数分析了信息内容和交流。
translated by 谷歌翻译
支持向量机(SVM)是一种算法,该算法找到了超平面,最佳地将标记的数据点以$ \ mathbb {r} ^ n $分为正面和负类。该分离超平面裕度上的数据点称为支持向量。我们将支持向量的可能配置连接到Radon的定理,这提供了一组点可以分为两个类(正负)的保证,其凸壳相交。如果将正和负支持向量的凸壳投射到分离超平面上,则仅在超平面是最佳的,则投影在至少一个点中相交。此外,通过特定类型的一般位置,我们表明(a)支撑载体的投影凸船体在恰好一个点中相交,(b)支撑载体在扰动下稳定,(c)最多有$ n + 1 $支持向量,(d)每一个高达$ n + 1 $的支持向量是可能的。最后,我们执行研究预期的支持向量数及其配置的计算机模拟,用于随机生成的数据。我们观察到,随着该类型的随机生成的数据增加的距离增加,具有两个支持向量的配置成为最可能的配置。
translated by 谷歌翻译
在此备忘录中,我们开发了一般框架,它允许同时研究$ \ MathBB R ^ D $和惠特尼在$ \ Mathbb r的离散和非离散子集附近的insoctry扩展问题附近的标签和未标记的近对准数据问题。^ d $与某些几何形状。此外,我们调查了与集群,维度减少,流形学习,视觉以及最小的能量分区,差异和最小最大优化的相关工作。给出了谐波分析,计算机视觉,歧管学习和与我们工作的信号处理中的众多开放问题。本发明内容中的一部分工作基于纸张中查尔斯Fefferman的联合研究[48],[49],[50],[51]。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
样本是否足够丰富,至少在本地确定神经网络的参数?为了回答这个问题,我们通过固定其某些权重的值来介绍给定深层神经网络的新局部参数化。这使我们能够定义本地提升操作员,其倒置是高维空间的平滑歧管的图表。Deep Relu神经网络实现的函数由依赖样本的线性操作员组成局部提升。我们从这种方便的表示中得出了局部可识别性的几何必要条件。查看切线空间,几何条件提供了:1/可识别性的尖锐而可测试的必要条件以及2/可识别局部可识别性的尖锐且可测试的足够条件。可以使用反向传播和矩阵等级计算对条件的有效性进行数值测试。
translated by 谷歌翻译
让F:R ^ N - > R是前馈RELU神经网络。众所周知,对于任何选择参数,F是连续和分段(仿射)线性的。我们为有系统调查提供了一些基础,用于系统的架构如何影响其可能的决策区域的几何和拓扑以进行二进制分类任务。在差分拓扑中顺利函数的经典进展之后,我们首先定义通用,横向relu神经网络的概念,并显示几乎所有的Relu网络都是通用的和横向的。然后,我们在F的域中定义了一个部分取向的线性1-复合物,并识别该复合物的属性,从而产生妨碍决策区域的有界连接分量的障碍物。我们使用该阻塞来证明具有单个隐藏的尺寸层(N + 1)的通用横向Relu网络F:R ^ N - > R的决策区域可以不具有多于一个有界连接的组件。
translated by 谷歌翻译
从运动的结构问题涉及从一组二维图像中恢复对象的三维结构。通常,如果提供了足够的图像和图像点,则所有信息都可以唯一恢复,但是存在唯一恢复的某些情况是不可能的;这些称为关键配置。在本文中,我们使用代数方法来研究三个投影相机的关键配置。我们表明,所有关键配置都位于二次曲面的交叉点上,并究竟分类了哪个交叉点构成关键配置。
translated by 谷歌翻译
We present a method for solving two minimal problems for relative camera pose estimation from three views, which are based on three view correspondences of i) three points and one line and the novel case of ii) three points and two lines through two of the points. These problems are too difficult to be efficiently solved by the state of the art Groebner basis methods. Our method is based on a new efficient homotopy continuation (HC) solver framework MINUS, which dramatically speeds up previous HC solving by specializing HC methods to generic cases of our problems. We characterize their number of solutions and show with simulated experiments that our solvers are numerically robust and stable under image noise, a key contribution given the borderline intractable degree of nonlinearity of trinocular constraints. We show in real experiments that i) SIFT feature location and orientation provide good enough point-and-line correspondences for three-view reconstruction and ii) that we can solve difficult cases with too few or too noisy tentative matches, where the state of the art structure from motion initialization fails.
translated by 谷歌翻译