在依赖添加剂线性组合的模型中,出现了多个右侧(MNNL)的非负平方问题。特别是,它们是大多数非负矩阵分解算法的核心,并且具有许多应用。已知非负约束自然有利于稀疏性,即几乎没有零条目的解决方案。但是,它通常可以进一步增强这种稀疏性很有用,因为它可以提高结果的解释性并有助于减少噪声,从而导致稀疏的MNNL问题。在本文中,与大多数实施稀疏柱或行的大多数作品相反,我们首先引入了稀疏MNNL的新颖配方,并具有矩阵的稀疏性约束。然后,我们提出了一种两步算法来解决这个问题。第一步将稀疏的MNNL划分为子问题,每列的原始问题一列。然后,它使用不同的算法来确切或大约为每个子问题产生一个帕累托正面,即产生一组代表重建误差和稀疏性之间不同权衡的解决方案。第二步选择了这些帕累托前部之间的解决方案,以构建一个稀疏约束矩阵,以最大程度地减少重建误差。我们对面部和高光谱图像进行实验,我们表明我们提出的两步方法比最新的稀疏编码启发式方法提供了更准确的结果。
translated by 谷歌翻译
约束的张量和矩阵分子化模型允许从多道数据中提取可解释模式。因此,对于受约束的低秩近似度的可识别性特性和有效算法是如此重要的研究主题。这项工作涉及低秩近似的因子矩阵的列,以众所周知的和可能的过度顺序稀疏,该模型包括基于字典的低秩近似(DLRA)。虽然早期的贡献集中在候选列字典内的发现因子列,即一稀疏的近似值,这项工作是第一个以大于1的稀疏性解决DLRA。我建议专注于稀疏编码的子问题,在解决DLRA时出现的混合稀疏编码(MSC)以交替的优化策略在解决DLRA时出现。提供了基于稀疏编码启发式的几种算法(贪婪方法,凸起放松)以解决MSC。在模拟数据上评估这些启发式的性能。然后,我展示了如何基于套索来调整一个有效的MSC求解器,以计算高光谱图像处理和化学测量学的背景下的基于词典的基于矩阵分解和规范的多adic分解。这些实验表明,DLRA扩展了低秩近似的建模能力,有助于降低估计方差并提高估计因子的可识别性和可解释性。
translated by 谷歌翻译
深矩阵因子化(深MF)是最新的无监督数据挖掘技术,其灵感来自受约束的低级别近似值。他们旨在提取高维数据集中功能的复杂层次结构。文献中提出的大多数损失函数用于评估深MF模型的质量和基础优化框架不一致,因为在不同层上使用了不同的损失。在本文中,我们引入了深层MF的两个有意义的损失功能,并提出了一个通用框架来解决相应的优化问题。我们通过整合各种约束和正规化(例如稀疏性,非负和最小体积)来说明这种方法的有效性。这些模型已成功应用于合成数据和真实数据,即高光谱的不混合和提取面部特征。
translated by 谷歌翻译
本文提出了弗兰克 - 沃尔夫(FW)的新变种​​,称为$ k $ fw。标准FW遭受缓慢的收敛性:迭代通常是Zig-zag作为更新方向振荡约束集的极端点。新变种,$ k $ fw,通过在每次迭代中使用两个更强的子问题oracelles克服了这个问题。第一个是$ k $线性优化Oracle($ k $ loo),计算$ k $最新的更新方向(而不是一个)。第二个是$ k $方向搜索($ k $ ds),最大限度地减少由$ k $最新更新方向和之前迭代表示的约束组的目标。当问题解决方案承认稀疏表示时,奥克斯都易于计算,而且$ k $ FW会迅速收敛,以便平滑凸起目标和几个有趣的约束集:$ k $ fw实现有限$ \ frac {4l_f ^ 3d ^} { \ Gamma \ Delta ^ 2} $融合在多台和集团规范球上,以及光谱和核规范球上的线性收敛。数值实验验证了$ k $ fw的有效性,并展示了现有方法的数量级加速。
translated by 谷歌翻译
我们考虑具有稀疏限制的缓慢变化回归模型中参数估计问题。我们将问题标制作混合整数优化问题,并证明可以通过新颖的精确放松来完全作为二元凸优化问题的重整。放松利用摩洛队的逆转录的新平等渗透了非凸面目标函数,同时与所有可行的二进制点上的原始目标重合。这使我们能够通过切割平面型算法更有效地更有效地解决问题并以优化的优化。我们开发了一种高度优化的这种算法的实现,这基本上提高了直接实现的渐近计算复杂性。我们进一步开发了一种启发式方法,保证生产可行的解决方案,并且正如我们经验说明的那样,为二进制优化问题产生高质量的热启动解决方案。我们在合成和现实世界数据集上展示了所得算法优于各种度量的可比时期的竞争配方,包括采样超出预测性能,支持恢复精度和假阳性率。该算法使我们能够培训具有10,000个参数的模型,对噪声具有鲁棒,并且能够有效地捕获数据生成过程的潜在缓慢改变支持。
translated by 谷歌翻译
Outier-bubust估计是一个基本问题,已由统计学家和从业人员进行了广泛的研究。在过去的几年中,整个研究领域的融合都倾向于“算法稳定统计”,该统计数据的重点是开发可拖动的异常体 - 固定技术来解决高维估计问题。尽管存在这种融合,但跨领域的研究工作主要彼此断开。本文桥接了有关可认证的异常抗衡器估计的最新工作,该估计是机器人技术和计算机视觉中的几何感知,并在健壮的统计数据中并行工作。特别是,我们适应并扩展了最新结果对可靠的线性回归(适用于<< 50%异常值的低外壳案例)和列表可解码的回归(适用于>> 50%异常值的高淘汰案例)在机器人和视觉中通常发现的设置,其中(i)变量(例如旋转,姿势)属于非convex域,(ii)测量值是矢量值,并且(iii)未知的异常值是先验的。这里的重点是绩效保证:我们没有提出新算法,而是为投入测量提供条件,在该输入测量值下,保证现代估计算法可以在存在异常值的情况下恢复接近地面真相的估计值。这些条件是我们所谓的“估计合同”。除了现有结果的拟议扩展外,我们认为本文的主要贡献是(i)通过指出共同点和差异来统一平行的研究行,(ii)在介绍先进材料(例如,证明总和证明)中的统一行为。对从业者的可访问和独立的演讲,(iii)指出一些即时的机会和开放问题,以发出异常的几何感知。
translated by 谷歌翻译
This paper is about a curious phenomenon. Suppose we have a data matrix, which is the superposition of a low-rank component and a sparse component. Can we recover each component individually? We prove that under some suitable assumptions, it is possible to recover both the low-rank and the sparse components exactly by solving a very convenient convex program called Principal Component Pursuit; among all feasible decompositions, simply minimize a weighted combination of the nuclear norm and of the 1 norm. This suggests the possibility of a principled approach to robust principal component analysis since our methodology and results assert that one can recover the principal components of a data matrix even though a positive fraction of its entries are arbitrarily corrupted. This extends to the situation where a fraction of the entries are missing as well. We discuss an algorithm for solving this optimization problem, and present applications in the area of video surveillance, where our methodology allows for the detection of objects in a cluttered background, and in the area of face recognition, where it offers a principled way of removing shadows and specularities in images of faces.
translated by 谷歌翻译
非负矩阵分解(NMF)模型被广泛用于恢复线性混合的非负数据。当数据是由连续信号采样的数据时,NMF中的因素可能被限制为非负合理函数的样本,这些函数允许相当通用的模型。使用Rational功能(R-NMF)称之为NMF。我们首先表明,在温和的假设下,R-NMF与NMF不同,这在基本上是独特的分解,这在需要恢复地面实际因素(例如盲源分离问题)的应用中至关重要。然后,我们提出了求解R-NMF的不同方法:R-HANLS,R-ANLS和R-NLS方法。从我们的测试中,没有什么方法明显优于其他方法,并且在时间和准确性之间应进行权衡。确实,R-Hanls对于大型问题而言是快速准确的,而R-ANLS更准确,但在时间和内存中都需要更多的资源。 R-NLS非常准确,但仅针对小问题。此外,我们表明R-NMF在各种任务中的表现都优于NMF,包括恢复半合成连续信号,以及实际高光信号的分类问题。
translated by 谷歌翻译
In model selection problems for machine learning, the desire for a well-performing model with meaningful structure is typically expressed through a regularized optimization problem. In many scenarios, however, the meaningful structure is specified in some discrete space, leading to difficult nonconvex optimization problems. In this paper, we connect the model selection problem with structure-promoting regularizers to submodular function minimization with continuous and discrete arguments. In particular, we leverage the theory of submodular functions to identify a class of these problems that can be solved exactly and efficiently with an agnostic combination of discrete and continuous optimization routines. We show how simple continuous or discrete constraints can also be handled for certain problem classes and extend these ideas to a robust optimization framework. We also show how some problems outside of this class can be embedded within the class, further extending the class of problems our framework can accommodate. Finally, we numerically validate our theoretical results with several proof-of-concept examples with synthetic and real-world data, comparing against state-of-the-art algorithms.
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
由于机器学习,统计和科学的应用,多边缘最佳运输(MOT)引起了极大的兴趣。但是,在大多数应用中,MOT的成功受到缺乏有效算法的严重限制。实际上,MOT一般需要在边际K及其支撑大小n的数量中指数时间n。本文开发了一个关于“结构”在poly(n,k)时间中可溶解的一般理论。我们开发了一个统一的算法框架,用于通过表征不同算法所需的“结构”来解决poly(n,k)时间中的MOT,这是根据双重可行性甲骨文的简单变体所需的。该框架有几个好处。首先,它使我们能够证明当前是最流行的MOT算法的Sinkhorn算法比其他算法要在poly(n,k)时间中求解MOT所需的结构更严格。其次,我们的框架使得为给定的MOT问题开发poly(n,k)时间算法变得更加简单。特别是(大约)解决双重可行性Oracle是必要和足够的 - 这更适合标准算法技术。我们通过为三个通用类成本结构类别的poly(n,k)时间算法开发poly(n,k)时间算法来说明这种易用性:(1)图形结构; (2)设定优化结构; (3)低阶和稀疏结构。对于结构(1),我们恢复了Sindhorn具有poly(n,k)运行时的已知结果;此外,我们为计算精确且稀疏的解决方案提供了第一个poly(n,k)时间算法。对于结构(2) - (3),我们给出了第一个poly(n,k)时间算法,甚至用于近似计算。这三个结构一起涵盖了许多MOT的当前应用。
translated by 谷歌翻译
本文介绍了针对非负矩阵分解的新的乘法更新,并使用$ \ beta $ -Divergence和两个因素之一的稀疏正则化(例如,激活矩阵)。众所周知,需要控制另一个因素(字典矩阵)的规范,以避免使用不良的公式。标准实践包括限制字典的列具有单位规范,这导致了非平凡的优化问题。我们的方法利用原始问题对等效规模不变的目标函数的优化进行了重新处理。从那里,我们得出了块状大量最小化算法,这些算法可为$ \ ell_ {1} $ - 正则化或更“激进的” log-regularization提供简单的乘法更新。与其他最先进的方法相反,我们的算法是通用的,因为它们可以应用于任何$ \ beta $ -Divergence(即任何$ \ beta $的任何值),并且它们具有融合保证。我们使用各种数据集报告了与现有的启发式和拉格朗日方法的数值比较:面部图像,音频谱图,高光谱数据和歌曲播放计数。我们表明,我们的方法获得了收敛时类似质量的溶液(相似的目标值),但CPU时间显着减少。
translated by 谷歌翻译
我们探索稀疏优化问题的算法和局限性,例如稀疏线性回归和稳健的线性回归。稀疏线性回归问题的目的是确定少数关键特征,而强大的线性回归问题的目标是确定少量错误的测量值。具体而言,稀疏线性回归问题寻求$ k $ -sparse vector $ x \ in \ mathbb {r}^d $以最小化$ \ | ax-b \ | _2 $,给定输入矩阵$ a \ in \ mathbb in \ mathbb {r}^{n \ times d} $和一个目标向量$ b \ in \ mathbb {r}^n $,而强大的线性回归问题寻求一个$ s $ s $,最多可以忽略$ k $行和a向量$ x $最小化$ \ |(ax-b)_s \ | _2 $。我们首先显示了在[OWZ15]工作上稳健回归构建的近似近似值的双晶格,这意味着稀疏回归的结果相似。我们通过减少$ k $ clique的猜想,进一步显示出稳健回归的精细颗粒硬度。在正面,我们给出了一种鲁棒回归的算法,该算法可实现任意准确的添加误差,并使用运行时与从细粒硬度结果中的下界紧密匹配的运行时,以及与类似运行时稀疏回归的算法。我们的上限和下限都依赖于从鲁棒线性回归到我们引入的稀疏回归的一般减少。我们的算法受到3SUM问题的启发,使用大约最近的邻居数据结构,并且可能具有独立的兴趣来解决稀疏优化问题。例如,我们证明我们的技术也可以用于研究稀疏的PCA问题。
translated by 谷歌翻译
在本文中,我们引入了一种新算法,该算法基于原型分析,用于假设末日成员的线性混合,用于盲目的高光谱脉冲。原型分析是该任务的自然表述。该方法不需要存在纯像素(即包含单个材料的像素),而是将末端成员表示为原始高光谱图像中几个像素的凸组合。我们的方法利用了熵梯度下降策略,(i)比传统的原型分析算法为高光谱脉冲提供更好的解决方案,并且(ii)导致有效的GPU实现。由于运行我们算法的单个实例很快,我们还提出了一个结合机制以及适当的模型选择程序,该过程使我们的方法可鲁棒性到超参数选择,同时保持计算复杂性合理。通过使用六个标准的真实数据集,我们表明我们的方法的表现优于最先进的矩阵分解和最新的深度学习方法。我们还提供开源pytorch实施:https://github.com/inria-thoth/edaa。
translated by 谷歌翻译
在本文中,我们提出了一个新的低级矩阵分解模型,称为有界的单纯形成矩阵分解(BSSMF)。给定输入矩阵$ x $和一个分解等级$ r $,BSSMF寻找带有$ r $ lum $ $ columns的矩阵$ w $和a矩阵$ h $,带有$ r $行,以便$ x \ lot在$ w $的每一列中,都有边界,也就是说,它们属于给定的间隔,$ h $的列属于概率单纯词,即,$ h $是列随机。 BSSMF概括了非负矩阵分解(NMF)和单纯结构的矩阵分解(SSMF)。当输入矩阵$ x $的条目属于给定间隔时,BSSMF特别适合。例如,当$ x $的行代表图像时,或$ x $是一个额定矩阵,例如在Netflix和Movielens数据集中,其中$ x $的条目属于Interval $ [1,5] $。单纯结构的矩阵$ h $不仅导致易于理解的分解,从而提供了$ x $的列的软聚类,而且暗示着$ wh $的每个列的条目属于与$的列的相同间隔W $。在本文中,我们首先提出了BSSMF的快速算法,即使在$ x $中缺少数据的情况下。然后,我们为BSSMF提供可识别性条件,也就是说,我们提供了BSSMF承认独特分解的条件,直到微不足道的歧义。最后,我们说明了BSSMF对两个应用程序的有效性:在一组图像中提取特征,以及推荐系统的矩阵完成问题。
translated by 谷歌翻译
预处理一直是优化和机器学习方面的主食技术。它通常会减少其应用于矩阵的条件数,从而加快优化算法的收敛性。尽管实践中有许多流行的预处理技术,但大多数人缺乏降低病数的理论保证。在本文中,我们研究了最佳对角线预处理的问题,以分别或同时分别或同时缩放其行或列来实现任何全级矩阵的条件数量的最大降低。我们首先将问题重新将问题重新制定为一个准凸出问题,并提供了一种基线一分配算法,该算法在实践中易于实现,其中每次迭代都包含SDP可行性问题。然后,我们建议使用$ o(\ log(\ frac {1} {\ epsilon})))$迭代复杂度提出多项式时间潜在的降低算法,其中每个迭代均由基于Nesterov-todd方向的牛顿更新组成。我们的算法基于该问题的表述,该问题是von Neumann最佳生长问题的广义版本。接下来,我们专注于单方面的最佳对角线预处理问题,并证明它们可以作为标准双SDP问题配方,我们应用了有效的定制求解器并研究我们最佳的对角线预处理的经验性能。我们在大型矩阵上进行的广泛实验表明,与基于启发式的预处理相比,最佳对角线预处理在减少条件数方面的实际吸引力。
translated by 谷歌翻译
In recent years there has been a growing interest in the study of sparse representation of signals. Using an overcomplete dictionary that contains prototype signal-atoms, signals are described by sparse linear combinations of these atoms. Applications that use sparse representation are many and include compression, regularization in inverse problems, feature extraction, and more. Recent activity in this field has concentrated mainly on the study of pursuit algorithms that decompose signals with respect to a given dictionary. Designing dictionaries to better fit the above model can be done by either selecting one from a prespecified set of linear transforms or adapting the dictionary to a set of training signals. Both of these techniques have been considered, but this topic is largely still open. In this paper we propose a novel algorithm for adapting dictionaries in order to achieve sparse signal representations. Given a set of training signals, we seek the dictionary that leads to the best representation for each member in this set, under strict sparsity constraints. We present a new method-the K-SVD algorithm-generalizing the K-means clustering process. K-SVD is an iterative method that alternates between sparse coding of the examples based on the current dictionary and a process of updating the dictionary atoms to better fit the data. The update of the dictionary columns is combined with an update of the sparse representations, thereby accelerating convergence. The K-SVD algorithm is flexible and can work with any pursuit method (e.g., basis pursuit, FOCUSS, or matching pursuit). We analyze this algorithm and demonstrate its results both on synthetic tests and in applications on real image data.
translated by 谷歌翻译
我们研究了估计多元高斯分布中的精度矩阵的问题,其中所有部分相关性都是非负面的,也称为多变量完全阳性的顺序阳性($ \ mathrm {mtp} _2 $)。近年来,这种模型得到了重大关注,主要是由于有趣的性质,例如,无论底层尺寸如何,最大似然估计值都存在于两个观察。我们将此问题作为加权$ \ ell_1 $ -norm正常化高斯的最大似然估计下$ \ mathrm {mtp} _2 $约束。在此方向上,我们提出了一种新颖的预计牛顿样算法,该算法包含精心设计的近似牛顿方向,这导致我们具有与一阶方法相同的计算和内存成本的算法。我们证明提出的预计牛顿样算法会聚到问题的最小值。从理论和实验中,我们进一步展示了我们使用加权$ \ ell_1 $ -norm的制剂的最小化器能够正确地恢复基础精密矩阵的支持,而无需在$ \ ell_1 $ -norm中存在不连贯状态方法。涉及合成和实世界数据的实验表明,我们所提出的算法从计算时间透视比最先进的方法显着更有效。最后,我们在金融时序数据中应用我们的方法,这些数据对于显示积极依赖性,在那里我们在学习金融网络上的模块间值方面观察到显着性能。
translated by 谷歌翻译
We investigate the problem of recovering a partially observed high-rank matrix whose columns obey a nonlinear structure such as a union of subspaces, an algebraic variety or grouped in clusters. The recovery problem is formulated as the rank minimization of a nonlinear feature map applied to the original matrix, which is then further approximated by a constrained non-convex optimization problem involving the Grassmann manifold. We propose two sets of algorithms, one arising from Riemannian optimization and the other as an alternating minimization scheme, both of which include first- and second-order variants. Both sets of algorithms have theoretical guarantees. In particular, for the alternating minimization, we establish global convergence and worst-case complexity bounds. Additionally, using the Kurdyka-Lojasiewicz property, we show that the alternating minimization converges to a unique limit point. We provide extensive numerical results for the recovery of union of subspaces and clustering under entry sampling and dense Gaussian sampling. Our methods are competitive with existing approaches and, in particular, high accuracy is achieved in the recovery using Riemannian second-order methods.
translated by 谷歌翻译