给定非负矩阵分解,$ r $和一个分解等级,$ r $,精确的非负矩阵分解(确切的NMF)将$ r $分解为两个非负矩阵的产品,$ c $和$ r $列,例如$ r = cs^\ top $。文献中的一个中心研究主题是这种分解是独特/可识别的条件,直到琐碎的歧义。在本文中,我们关注部分可识别性,即$ c $和$ s $的列的独特性。我们从化学计量学文献的基于数据的唯一性(DBU)定理开始研究。 DBU定理分析了确切NMF的所有可行解决方案,并依赖于$ C $和$ S $的稀疏条件。我们提供了最近出版的DBU定理限制版本的数学严格定理,仅依靠简单的稀疏性和代数条件:它适用于特定的确切NMF解决方案(与所有可行解决方案相对),并允许我们保证部分单列的独特性,$ c $或$ s $。其次,基于对受限制的DBU定理的几何解释,我们获得了新的局部可识别性结果。我们证明它比受限的DBU定理强,因为使用了精确的NMF进行适当的预处理。这种几何解释还导致我们在$ r = 3 $的情况下取得了另一个部分可识别性结果。第三,我们展示了如何顺序使用部分可识别性结果来确保$ c $和$ s $的更多列的可识别性。我们在几个示例中说明了这些结果,其中包括化学计量学文献的一个示例。
translated by 谷歌翻译
在本文中,我们提出了一个新的低级矩阵分解模型,称为有界的单纯形成矩阵分解(BSSMF)。给定输入矩阵$ x $和一个分解等级$ r $,BSSMF寻找带有$ r $ lum $ $ columns的矩阵$ w $和a矩阵$ h $,带有$ r $行,以便$ x \ lot在$ w $的每一列中,都有边界,也就是说,它们属于给定的间隔,$ h $的列属于概率单纯词,即,$ h $是列随机。 BSSMF概括了非负矩阵分解(NMF)和单纯结构的矩阵分解(SSMF)。当输入矩阵$ x $的条目属于给定间隔时,BSSMF特别适合。例如,当$ x $的行代表图像时,或$ x $是一个额定矩阵,例如在Netflix和Movielens数据集中,其中$ x $的条目属于Interval $ [1,5] $。单纯结构的矩阵$ h $不仅导致易于理解的分解,从而提供了$ x $的列的软聚类,而且暗示着$ wh $的每个列的条目属于与$的列的相同间隔W $。在本文中,我们首先提出了BSSMF的快速算法,即使在$ x $中缺少数据的情况下。然后,我们为BSSMF提供可识别性条件,也就是说,我们提供了BSSMF承认独特分解的条件,直到微不足道的歧义。最后,我们说明了BSSMF对两个应用程序的有效性:在一组图像中提取特征,以及推荐系统的矩阵完成问题。
translated by 谷歌翻译
稀疏矩阵分解是近似矩阵$ \ mathbf {z} $ j $稀疏因素$ \ mathbf {x} ^ {(j)} \ mathbf {x} ^ {(j-1)的乘积的问题} \ ldots \ mathbf {x} ^ {(1)} $。本文旨在鉴于在稀疏限制问题良好地提出的情况下更好地理解,鉴于此问题的可识别性问题。我们提供了将矩阵分解成\ emph {两个}稀疏因素的问题承认唯一的解决方案,最多达到不可避免的置换和缩放等效命令。我们的一般框架考虑了一系列规定的稀疏模式,允许我们捕获更多的稀疏性概念,而不是简单的非零条目的计数。这些条件被证明与精确矩阵分解的基本唯一性有关,以秩一矩阵的总和,具有结构的稀疏性约束。特别地,在固定支持稀疏矩阵分子的情况下,我们基于秩一矩阵完成性为可识别性提供一般的条件,并且我们从它源自完井算法,可以验证是否满足此充分条件,并恢复如果是这种情况,这两个稀疏因素中的条目。伴随文件进一步利用这些条件来导出用于多层稀疏矩阵分解的可识别性特性和理论上声音分解方法,以及与诸如Hadamard或离散傅里叶变换的一些众所周知的快速变换相关联的支持约束。
translated by 谷歌翻译
HottoPixx,由Bittorf等人提出。在NIPS 2012,是一种解决可分离假设下的非负矩阵分子(NMF)问题的算法。可分离的NMFS具有重要的应用程序,例如从文档和超光图像的文件提取主题。在这种应用中,算法对噪声的稳健性是成功的关键。HottoPixx已被证明对噪声具有稳健性,并且可以通过后处理进一步增强其鲁棒性。但是,有一个缺点。HottoPixx及其后处理要求我们估计我们想要在运行之前进行分解的矩阵中涉及的噪声水平,因为它们将其用作输入数据的一部分。噪声级别估计不是一项简单的任务。在本文中,我们克服了这个缺点。我们在没有先前了解噪声水平的情况下,我们介绍了HottoPixx的改进及其后处理。我们表明细化与原始算法具有几乎与噪声相同的稳健性。
translated by 谷歌翻译
恢复来自简单测量的稀疏向量的支持是一个广泛研究的问题,考虑在压缩传感,1位压缩感测和更通用的单一索引模型下。我们考虑这个问题的概括:线性回归的混合物,以及线性分类器的混合物,其中目标是仅使用少量可能嘈杂的线性和1位测量来恢复多个稀疏载体的支持。关键挑战是,来自不同载体的测量是随机混合的。最近也接受了这两个问题。在线性分类器的混合物中,观察结果对应于查询的超平面侧随机未知向量,而在线性回归的混合物中,我们观察在查询的超平面上的随机未知向量的投影。从混合物中回收未知载体的主要步骤是首先识别所有单个组分载体的支持。在这项工作中,我们研究了足以在这两种模型中恢复混合物中所有组件向量的支持的测量数量。我们提供使用$ k,\ log n $和准多项式在$ \ ell $中使用多项式多项式的算法,以恢复在每个人的高概率中恢复所有$ \ ell $未知向量的支持组件是$ k $ -parse $ n $ -dimensional向量。
translated by 谷歌翻译
许多众所周知的矩阵$ Z $与FORMS $ z = x ^ j \ ldots x ^ 1 $相对应的快速变换相关联,其中每个因素$ x ^ \ ell $稀疏和可能结构化。本文研究了这种因素的基本独特性。我们的第一个主要贡献是证明具有所谓的蝴蝶结构的任何$ n \ times n $矩阵承认为$ j $蝴蝶因子(其中$ n = 2 ^ $),并且这些因素可以是通过分层分解方法恢复。这与现有的方法形成对比,其通过梯度下降将蝴蝶因子产品拟合到给定基质的乘积。该提出的方法可以特别应用于检索Hadamard或离散傅里叶变换矩阵的尺寸为2 ^ j $的分解。计算此类构建的成本$ \ mathcal {o}(n ^ 2)$,它是密集矩阵 - 矢量乘法的顺序,而获得的因子化使能快速$ \ mathcal {o}(n \ log n)$矩阵 - 矢量乘法。此分层标识性属性依赖于最近建立的两层和固定支持设置中的简单标识性条件。虽然蝴蝶结构对应于每个因素的固定规定的支撑,但我们的第二款贡献是通过允许的稀疏模式的更多普通家庭获得可识别性结果,同时考虑到不可避免的诽谤歧义。通常,我们通过分层范式展示了分离傅里叶变换矩阵的蝴蝶分解矩阵为2 ^ j $承认为$ 2 $ 2 $-al-dialAlysity的$ 2 $-ad-assity时,将独特的稀疏因子分解为$ j $ factors。关于每个因素。
translated by 谷歌翻译
在此备忘录中,我们开发了一般框架,它允许同时研究$ \ MathBB R ^ D $和惠特尼在$ \ Mathbb r的离散和非离散子集附近的insoctry扩展问题附近的标签和未标记的近对准数据问题。^ d $与某些几何形状。此外,我们调查了与集群,维度减少,流形学习,视觉以及最小的能量分区,差异和最小最大优化的相关工作。给出了谐波分析,计算机视觉,歧管学习和与我们工作的信号处理中的众多开放问题。本发明内容中的一部分工作基于纸张中查尔斯Fefferman的联合研究[48],[49],[50],[51]。
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译
我们探索稀疏优化问题的算法和局限性,例如稀疏线性回归和稳健的线性回归。稀疏线性回归问题的目的是确定少数关键特征,而强大的线性回归问题的目标是确定少量错误的测量值。具体而言,稀疏线性回归问题寻求$ k $ -sparse vector $ x \ in \ mathbb {r}^d $以最小化$ \ | ax-b \ | _2 $,给定输入矩阵$ a \ in \ mathbb in \ mathbb {r}^{n \ times d} $和一个目标向量$ b \ in \ mathbb {r}^n $,而强大的线性回归问题寻求一个$ s $ s $,最多可以忽略$ k $行和a向量$ x $最小化$ \ |(ax-b)_s \ | _2 $。我们首先显示了在[OWZ15]工作上稳健回归构建的近似近似值的双晶格,这意味着稀疏回归的结果相似。我们通过减少$ k $ clique的猜想,进一步显示出稳健回归的精细颗粒硬度。在正面,我们给出了一种鲁棒回归的算法,该算法可实现任意准确的添加误差,并使用运行时与从细粒硬度结果中的下界紧密匹配的运行时,以及与类似运行时稀疏回归的算法。我们的上限和下限都依赖于从鲁棒线性回归到我们引入的稀疏回归的一般减少。我们的算法受到3SUM问题的启发,使用大约最近的邻居数据结构,并且可能具有独立的兴趣来解决稀疏优化问题。例如,我们证明我们的技术也可以用于研究稀疏的PCA问题。
translated by 谷歌翻译
This paper is about a curious phenomenon. Suppose we have a data matrix, which is the superposition of a low-rank component and a sparse component. Can we recover each component individually? We prove that under some suitable assumptions, it is possible to recover both the low-rank and the sparse components exactly by solving a very convenient convex program called Principal Component Pursuit; among all feasible decompositions, simply minimize a weighted combination of the nuclear norm and of the 1 norm. This suggests the possibility of a principled approach to robust principal component analysis since our methodology and results assert that one can recover the principal components of a data matrix even though a positive fraction of its entries are arbitrarily corrupted. This extends to the situation where a fraction of the entries are missing as well. We discuss an algorithm for solving this optimization problem, and present applications in the area of video surveillance, where our methodology allows for the detection of objects in a cluttered background, and in the area of face recognition, where it offers a principled way of removing shadows and specularities in images of faces.
translated by 谷歌翻译
分析大型随机矩阵的浓度是多种领域的常见任务。给定独立的随机变量,许多工具可用于分析随机矩阵,其条目在变量中是线性的,例如基质 - 伯恩斯坦不平等。但是,在许多应用中,我们需要分析其条目是变量中多项式的随机矩阵。这些自然出现在光谱算法的分析中,例如霍普金斯等人。 [Stoc 2016],Moitra-Wein [Stoc 2019];并根据正方形层次结构的总和(例如Barak等。 [FOCS 2016],Jones等。 [焦点2021]。在这项工作中,我们基于Paulin-Mackey-Tropp(概率Annals of Poylibity of Poyliby of 2016],我们提出了一个通用框架来获得此类界限。 Efron-Stein不等式通过另一个简单(但仍然是随机)矩阵的范围来界定随机矩阵的规范,我们将其视为通过“区分”起始矩阵而引起的。通过递归区分,我们的框架减少了分析更简单的矩阵的主要任务。对于Rademacher变量,这些简单的矩阵实际上是确定性的,因此,分析它们要容易得多。对于一般的非拉多巴纳变量,任务减少到标量浓度,这要容易得多。此外,在多项式矩阵的设置中,我们的结果推广了Paulin-Mackey-Tropp的工作。使用我们的基本框架,我们在文献中恢复了简单的“张量网络”和“密集图矩阵”的已知界限。使用我们的一般框架,我们得出了“稀疏图矩阵”的边界,琼斯等人最近才获得。 [焦点2021]使用痕量功率方法的非平地应用,并且是其工作中的核心组成部分。我们希望我们的框架对涉及非线性随机矩阵浓度现象的其他应用有帮助。
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
潜在变量模型(LVM)的无监督学习被广泛用于表示机器学习中的数据。当这样的模型反映了地面真理因素和将它们映射到观察的机制时,有理由期望它们允许在下游任务中进行概括。但是,众所周知,如果不在模型类上施加限制,通常无法实现此类可识别性保证。非线性独立组件分析是如此,其中LVM通过确定性的非线性函数将统计上独立的变量映射到观察。几个伪造解决方案的家庭完全适合数据,但是可以在通用环境中构建与地面真相因素相对应的。但是,最近的工作表明,限制此类模型的功能类别可能会促进可识别性。具体而言,已经提出了在Jacobian矩阵中收集的部分衍生物的函数类,例如正交坐标转换(OCT),它们强加了Jacobian柱的正交性。在目前的工作中,我们证明了这些转换的子类,共形图,是可识别的,并提供了新颖的理论结果,这表明OCT具有防止虚假解决方案家族在通用环境中破坏可识别性的特性。
translated by 谷歌翻译
本文提出了弗兰克 - 沃尔夫(FW)的新变种​​,称为$ k $ fw。标准FW遭受缓慢的收敛性:迭代通常是Zig-zag作为更新方向振荡约束集的极端点。新变种,$ k $ fw,通过在每次迭代中使用两个更强的子问题oracelles克服了这个问题。第一个是$ k $线性优化Oracle($ k $ loo),计算$ k $最新的更新方向(而不是一个)。第二个是$ k $方向搜索($ k $ ds),最大限度地减少由$ k $最新更新方向和之前迭代表示的约束组的目标。当问题解决方案承认稀疏表示时,奥克斯都易于计算,而且$ k $ FW会迅速收敛,以便平滑凸起目标和几个有趣的约束集:$ k $ fw实现有限$ \ frac {4l_f ^ 3d ^} { \ Gamma \ Delta ^ 2} $融合在多台和集团规范球上,以及光谱和核规范球上的线性收敛。数值实验验证了$ k $ fw的有效性,并展示了现有方法的数量级加速。
translated by 谷歌翻译
计算Wassersein BaryCenters(A.K.A.最佳运输重构)是由于数据科学的许多应用,最近引起了相当大的关注的几何问题。虽然存在任何固定维度的多项式时间算法,但所有已知的运行时间都在维度中呈指数级。这是一个开放的问题,无论是这种指数依赖性是否可改进到多项式依赖性。本文证明,除非P = NP,答案是否定的。这揭示了Wassersein的BaryCenter计算的“维度诅咒”,其不会发生最佳运输计算。此外,我们对计算Wassersein的硬度结果延伸到近似计算,看似简单的问题案例,以及在其他最佳运输指标中平均概率分布。
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
众所周知,具有重新激活函数的完全连接的前馈神经网络可以表示的参数化函数家族恰好是一类有限的分段线性函数。鲜为人知的是,对于Relu神经网络的每个固定架构,参数空间都允许对称的正维空间,因此,在任何给定参数附近的局部功能维度都低于参数维度。在这项工作中,我们仔细地定义了功能维度的概念,表明它在Relu神经网络函数的参数空间中是不均匀的,并继续进行[14]和[5]中的调查 - 何时在功能维度实现其理论时最大。我们还研究了从参数空间到功能空间的实现图的商空间和纤维,提供了断开连接的纤维的示例,功能尺寸为非恒定剂的纤维以及对称组在其上进行非转换的纤维。
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
我们提供了通过线性激活的多渠道卷积神经网络中的$ \ ell_2 $标准来最大程度地减少$ \ ell_2 $标准而产生的功能空间表征,并经验测试了我们对使用梯度下降训练的Relu网络的假设。我们将功能空间中的诱导正规化程序定义为实现函数所需的网络权重规范的最小$ \ ell_2 $。对于具有$ C $输出频道和内核尺寸$ K $的两个层线性卷积网络,我们显示以下内容:(a)如果网络的输入是单个渠道,则任何$ k $的诱导正规器都与数字无关输出频道$ c $。此外,我们得出正常化程序是由半决赛程序(SDP)给出的规范。 (b)相比之下,对于多通道输入,仅实现所有矩阵值值线性函数而需要多个输出通道,因此归纳偏置确实取决于$ c $。但是,对于足够大的$ c $,诱导的正规化程序再次由独立于$ c $的SDP给出。特别是,$ k = 1 $和$ k = d $(输入维度)的诱导正规器以封闭形式作为核标准和$ \ ell_ {2,1} $ group-sparse Norm,线性预测指标的傅立叶系数。我们通过对MNIST和CIFAR-10数据集的实验来研究理论结果对从线性和RELU网络上梯度下降的隐式正则化的更广泛的适用性。
translated by 谷歌翻译
We consider a problem of considerable practical interest: the recovery of a data matrix from a sampling of its entries. Suppose that we observe m entries selected uniformly at random from a matrix M . Can we complete the matrix and recover the entries that we have not seen?We show that one can perfectly recover most low-rank matrices from what appears to be an incomplete set of entries. We prove that if the number m of sampled entries obeys m ≥ C n 1.2 r log n for some positive numerical constant C, then with very high probability, most n × n matrices of rank r can be perfectly recovered by solving a simple convex optimization program. This program finds the matrix with minimum nuclear norm that fits the data. The condition above assumes that the rank is not too large. However, if one replaces the 1.2 exponent with 1.25, then the result holds for all values of the rank. Similar results hold for arbitrary rectangular matrices as well. Our results are connected with the recent literature on compressed sensing, and show that objects other than signals and images can be perfectly reconstructed from very limited information.
translated by 谷歌翻译