我们研究了估计多元高斯分布中的精度矩阵的问题,其中所有部分相关性都是非负面的,也称为多变量完全阳性的顺序阳性($ \ mathrm {mtp} _2 $)。近年来,这种模型得到了重大关注,主要是由于有趣的性质,例如,无论底层尺寸如何,最大似然估计值都存在于两个观察。我们将此问题作为加权$ \ ell_1 $ -norm正常化高斯的最大似然估计下$ \ mathrm {mtp} _2 $约束。在此方向上,我们提出了一种新颖的预计牛顿样算法,该算法包含精心设计的近似牛顿方向,这导致我们具有与一阶方法相同的计算和内存成本的算法。我们证明提出的预计牛顿样算法会聚到问题的最小值。从理论和实验中,我们进一步展示了我们使用加权$ \ ell_1 $ -norm的制剂的最小化器能够正确地恢复基础精密矩阵的支持,而无需在$ \ ell_1 $ -norm中存在不连贯状态方法。涉及合成和实世界数据的实验表明,我们所提出的算法从计算时间透视比最先进的方法显着更有效。最后,我们在金融时序数据中应用我们的方法,这些数据对于显示积极依赖性,在那里我们在学习金融网络上的模块间值方面观察到显着性能。
translated by 谷歌翻译
众所周知,许多网络系统,例如电网,大脑和舆论动态社交网络,都可以遵守保护法。这种现象的例子包括电网中的基尔乔夫法律和社交网络中的意见共识。网络系统中的保护定律可以建模为$ x = b^{*} y $的平衡方程,其中$ b^{*} $的稀疏模式捕获了网络的连接,$ y,x \在\ mathbb {r}^p $中分别是节点上“电势”和“注入流”的向量。节点电位$ y $会导致跨边缘的流量,并且在节点上注入的流量$ x $是网络动力学的无关紧要的。在几个实用的系统中,网络结构通常是未知的,需要从数据估算。为此,可以访问节点电位$ y $的样本,但只有节点注射$ x $的统计信息。在这个重要问题的激励下,我们研究了$ n $ y $ y $ y $ y $ y $ y $ y $ y $ b^{*} $稀疏结构的估计,假设节点注射$ x $遵循高斯分布,并带有已知的发行协方差$ \ sigma_x $。我们建议在高维度中为此问题的新$ \ ell_ {1} $ - 正则最大似然估计器,网络的大小$ p $大于样本量$ n $。我们表明,此优化问题是目标中的凸,并接受了独特的解决方案。在新的相互不一致的条件下,我们在三重$(n,p,d)$上建立了足够的条件,对于$ b^{*} $的精确稀疏恢复是可能的; $ d $是图的程度。我们还建立了在元素最大,Frobenius和运营商规范中回收$ b^{*} $的保证。最后,我们通过对拟议估计量对合成和现实世界数据的性能进行实验验证来补充这些理论结果。
translated by 谷歌翻译
我们考虑学习底层多变量数据的稀疏无向图的问题。我们专注于稀疏精度矩阵上的图表拉普拉斯相关的约束,它在与图形节点相关联的随机变量之间编码条件依赖性。在这些约束下,精度矩阵的偏差元素是非正(总阳性),并且精度矩阵可能不是全级。我们调查了对广泛使用惩罚的日志似然方法来强制执行总积极性但不是拉普拉斯结构的修改。然后可以从非对角线精密矩阵中提取图拉普拉斯。乘法器(ADMM)算法的交替方向方法被提出和分析了Laplacian相关约束和套索的约束优化以及自适应套索处罚。基于合成数据的数值结果表明,所提出的约束的自适应套索方法显着优于现有的基于拉普拉斯的方法。我们还评估了我们对实际财务数据的方法。
translated by 谷歌翻译
在本文中,我们研究了推断空间变化的高斯马尔可夫随机场(SV-GMRF)的问题,其中的目标是学习代表基因之间网络关系的稀疏,特定于上下文的GMRF网络。 SV-GMRF的一个重要应用是推断来自空间分辨转录组学数据集的基因调节网络。当前有关SV-GMRF推断的工作基于正则最大似然估计(MLE),并且由于其高度非线性的性质而受到压倒性的计算成本。为了减轻这一挑战,我们提出了一个简单有效的优化问题,代替了配备强大的统计和计算保证的MLE。我们提出的优化问题在实践中非常有效:我们可以在不到2分钟的时间内解决具有超过200万变量的SV-GMRF的实例。我们将开发的框架应用于研究胶质母细胞瘤中的基因调节网络如何在组织内部空间重新连接,并确定转录因子Hes4和核糖体蛋白的显着活性是表征肿瘤血管周期壁iche中基因表达网络的特征抗性干细胞。
translated by 谷歌翻译
本文考虑通过最小化Stein损失来估算高维拉普人约束精密矩阵的问题。我们获得了这种估计器存在的必要和充分条件,这归结为检查某些数据相关图是否已连接。我们还在对称沥青损失下的高维设置中证明了一致性。我们表明错误率不依赖于图形稀疏性,或其他类型的结构,并且Laplacian约束足以实现高维一致性。我们的证据利用图拉普拉斯人的性质,以及基于有效图电阻的提出估计的表征。我们通过数值实验验证了我们的理论索赔。
translated by 谷歌翻译
诸如压缩感测,图像恢复,矩阵/张恢复和非负矩阵分子等信号处理和机器学习中的许多近期问题可以作为约束优化。预计的梯度下降是一种解决如此约束优化问题的简单且有效的方法。本地收敛分析将我们对解决方案附近的渐近行为的理解,与全球收敛分析相比,收敛率的较小界限提供了较小的界限。然而,本地保证通常出现在机器学习和信号处理的特定问题领域。此稿件在约束最小二乘范围内,对投影梯度下降的局部收敛性分析提供了统一的框架。该建议的分析提供了枢转局部收敛性的见解,例如线性收敛的条件,收敛区域,精确的渐近收敛速率,以及达到一定程度的准确度所需的迭代次数的界限。为了证明所提出的方法的适用性,我们介绍了PGD的收敛分析的配方,并通过在四个基本问题上的配方的开始延迟应用来证明它,即线性约束最小二乘,稀疏恢复,最小二乘法使用单位规范约束和矩阵完成。
translated by 谷歌翻译
在本文中,我们考虑了使用$ \ ell_1 $ regularized logistic回归的方法来估算与高维iSing模型相关的图形的元学习问题,用于每个节点的邻域选择。我们的目标是在学习新任务中使用从辅助任务中学到的信息来降低其足够的样本复杂性。为此,我们提出了一种新颖的生成模型以及不当的估计方法。在我们的设置中,所有任务均为\ emph {相似}在其\ emph {Random}模型参数和支持中。通过将所有样品从辅助任务汇总到\ emph {不正确}估计一个参数向量,我们可以恢复假定的尺寸很小的真实支持联合,具有很高的概率,具有足够的样品复杂性为$ \ omega(1) $每任务,对于$ k = \ omega(d^3 \ log P)$具有$ p $节点和最大邻域大小$ d $的ISING型号的任务。然后,在对新任务的支持仅限于估计的支持联盟的支持下,我们证明,可以通过降低$ \ omega(d^3 \ log d)$的足够样品复杂性来获得新任务的一致邻居选择。
translated by 谷歌翻译
我们考虑发现$ k $相关的高斯定向的非循环图(DAG)的问题,其中涉及的图形结构共享一致的因果秩序和支持的支持。在多任务学习设置下,我们提出了$ L_1 / L_2 $ -Regularized最大似然估计器(MLE),用于学习$ K $线性结构方程模型。理论上我们表明,通过利用相关任务利用数据来实现联合估算器可以实现比单独的估计更好的采样复杂性来恢复因果秩序(或拓扑阶)。此外,联合估计器能够通过与一些可识别的DAG一起估计它们来恢复不可识别的DAG。最后,我们的分析还显示了联盟支持恢复的协会的一致性。为了允许实际实现,我们设计了一种连续的优化问题,其优化器与联合估计器相同,并且可以通过迭代算法有效地近似。我们验证了实验中联合估计器的理论分析和有效性。
translated by 谷歌翻译
本文提出了弗兰克 - 沃尔夫(FW)的新变种​​,称为$ k $ fw。标准FW遭受缓慢的收敛性:迭代通常是Zig-zag作为更新方向振荡约束集的极端点。新变种,$ k $ fw,通过在每次迭代中使用两个更强的子问题oracelles克服了这个问题。第一个是$ k $线性优化Oracle($ k $ loo),计算$ k $最新的更新方向(而不是一个)。第二个是$ k $方向搜索($ k $ ds),最大限度地减少由$ k $最新更新方向和之前迭代表示的约束组的目标。当问题解决方案承认稀疏表示时,奥克斯都易于计算,而且$ k $ FW会迅速收敛,以便平滑凸起目标和几个有趣的约束集:$ k $ fw实现有限$ \ frac {4l_f ^ 3d ^} { \ Gamma \ Delta ^ 2} $融合在多台和集团规范球上,以及光谱和核规范球上的线性收敛。数值实验验证了$ k $ fw的有效性,并展示了现有方法的数量级加速。
translated by 谷歌翻译
给定数据点之间的一组差异测量值,确定哪种度量表示与输入测量最“一致”或最能捕获数据相关几何特征的度量是许多机器学习算法的关键步骤。现有方法仅限于特定类型的指标或小问题大小,因为在此类问题中有大量的度量约束。在本文中,我们提供了一种活跃的集合算法,即项目和忘记,该算法使用Bregman的预测,以解决许多(可能是指数)不平等约束的度量约束问题。我们提供了\ textsc {project and Hoses}的理论分析,并证明我们的算法会收敛到全局最佳解决方案,并以指数速率渐近地渐近地衰减了当前迭代的$ L_2 $距离。我们证明,使用我们的方法,我们可以解决三种类型的度量约束问题的大型问题实例:一般体重相关聚类,度量近距离和度量学习;在每种情况下,就CPU时间和问题尺寸而言,超越了艺术方法的表现。
translated by 谷歌翻译
我们研究稀疏的线性回归在一个代理网络上,建模为无向图(没有集中式节点)。估计问题被制定为当地套索损失函数的最小化,加上共识约束的二次惩罚 - 后者是获取分布式解决方案方法的工具。虽然在优化文献中广泛研究了基于惩罚的共识方法,但其高维设置中的统计和计算保证仍不清楚。这项工作提供了对此公开问题的答案。我们的贡献是两倍。 First, we establish statistical consistency of the estimator: under a suitable choice of the penalty parameter, the optimal solution of the penalized problem achieves near optimal minimax rate $\mathcal{O}(s \log d/N)$ in $\ell_2 $ -loss,$ s $是稀疏性值,$ d $是环境维度,$ n $是网络中的总示例大小 - 这与集中式采样率相匹配。其次,我们表明,应用于惩罚问题的近端梯度算法,它自然导致分布式实现,线性地收敛到集中统计误差的顺序的公差 - 速率比例为$ \ mathcal {o}( d)$,揭示不可避免的速度准确性困境。数值结果证明了衍生的采样率和收敛速率缩放的紧张性。
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
预处理一直是优化和机器学习方面的主食技术。它通常会减少其应用于矩阵的条件数,从而加快优化算法的收敛性。尽管实践中有许多流行的预处理技术,但大多数人缺乏降低病数的理论保证。在本文中,我们研究了最佳对角线预处理的问题,以分别或同时分别或同时缩放其行或列来实现任何全级矩阵的条件数量的最大降低。我们首先将问题重新将问题重新制定为一个准凸出问题,并提供了一种基线一分配算法,该算法在实践中易于实现,其中每次迭代都包含SDP可行性问题。然后,我们建议使用$ o(\ log(\ frac {1} {\ epsilon})))$迭代复杂度提出多项式时间潜在的降低算法,其中每个迭代均由基于Nesterov-todd方向的牛顿更新组成。我们的算法基于该问题的表述,该问题是von Neumann最佳生长问题的广义版本。接下来,我们专注于单方面的最佳对角线预处理问题,并证明它们可以作为标准双SDP问题配方,我们应用了有效的定制求解器并研究我们最佳的对角线预处理的经验性能。我们在大型矩阵上进行的广泛实验表明,与基于启发式的预处理相比,最佳对角线预处理在减少条件数方面的实际吸引力。
translated by 谷歌翻译
我们考虑使用梯度下降来最大程度地减少$ f(x)= \ phi(xx^{t})$在$ n \ times r $因件矩阵$ x $上,其中$ \ phi是一种基础平稳凸成本函数定义了$ n \ times n $矩阵。虽然只能在合理的时间内发现只有二阶固定点$ x $,但如果$ x $的排名不足,则其排名不足证明其是全球最佳的。这种认证全球最优性的方式必然需要当前迭代$ x $的搜索等级$ r $,以相对于级别$ r^{\ star} $过度参数化。不幸的是,过度参数显着减慢了梯度下降的收敛性,从$ r = r = r = r^{\ star} $的线性速率到$ r> r> r> r> r^{\ star} $,即使$ \ phi $是$ \ phi $强烈凸。在本文中,我们提出了一项廉价的预处理,该预处理恢复了过度参数化的情况下梯度下降回到线性的收敛速率,同时也使在全局最小化器$ x^{\ star} $中可能不良条件变得不可知。
translated by 谷歌翻译
In model selection problems for machine learning, the desire for a well-performing model with meaningful structure is typically expressed through a regularized optimization problem. In many scenarios, however, the meaningful structure is specified in some discrete space, leading to difficult nonconvex optimization problems. In this paper, we connect the model selection problem with structure-promoting regularizers to submodular function minimization with continuous and discrete arguments. In particular, we leverage the theory of submodular functions to identify a class of these problems that can be solved exactly and efficiently with an agnostic combination of discrete and continuous optimization routines. We show how simple continuous or discrete constraints can also be handled for certain problem classes and extend these ideas to a robust optimization framework. We also show how some problems outside of this class can be embedded within the class, further extending the class of problems our framework can accommodate. Finally, we numerically validate our theoretical results with several proof-of-concept examples with synthetic and real-world data, comparing against state-of-the-art algorithms.
translated by 谷歌翻译
监督字典学习(SDL)是一种经典的机器学习方法,同时寻求特征提取和分类任务,不一定是先验的目标。 SDL的目的是学习类歧视性词典,这是一组潜在特征向量,可以很好地解释特征以及观察到的数据的标签。在本文中,我们提供了SDL的系统研究,包括SDL的理论,算法和应用。首先,我们提供了一个新颖的框架,该框架将“提升” SDL作为组合因子空间中的凸问题,并提出了一种低级别的投影梯度下降算法,该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型,并根据高参数制度提供真实参数的全局估计保证。其次,我们被视为一个非convex约束优化问题,我们为SDL提供了有效的块坐标下降算法,该算法可以保证在$ O(\ varepsilon^{ - 1}(\ log)中找到$ \ varepsilon $ - 定位点(\ varepsilon \ varepsilon^{ - 1})^{2})$ iterations。对于相应的生成模型,我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果,这可能是独立的。第三,我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中,以进行不平衡的文档分类。我们还提供了模拟研究,以证明当最佳的重建性和最佳判别词典之间存在差异时,SDL变得更加有效。
translated by 谷歌翻译
目前的论文研究了最小化损失$ f(\ boldsymbol {x})$的问题,而在s $ \ boldsymbol {d} \ boldsymbol {x} \的约束,其中$ s $是一个关闭的集合,凸面或非,$ \ boldsymbol {d} $是熔化参数的矩阵。融合约束可以捕获平滑度,稀疏或更一般的约束模式。为了解决这个通用的问题,我们将Beltrami-Courant罚球方法与近距离原则相结合。后者是通过最小化惩罚目标的推动$ f(\ boldsymbol {x})+ \ frac {\ rho} {2} \ text {dist}(\ boldsymbol {d} \ boldsymbol {x},s)^ 2 $涉及大型调整常量$ \ rho $和$ \ boldsymbol {d} \ boldsymbol {x} $的平方欧几里德距离$ s $。通过最小化大多数代理函数$ f(\ boldsymbol {x},从当前迭代$ \ boldsymbol {x} _n $构建相应的近距离算法的下一个迭代$ \ boldsymbol {x} _ {n + 1} $。 )+ \ frac {\ rho} {2} \ | \ boldsymbol {d} \ boldsymbol {x} - \ mathcal {p} _ {s}(\ boldsymbol {d} \ boldsymbol {x} _n)\ | ^ 2 $。对于固定$ \ rho $和subanalytic损失$ f(\ boldsymbol {x})$和子质约束设置$ s $,我们证明了汇聚点。在更强大的假设下,我们提供了收敛速率并展示线性本地收敛性。我们还构造了一个最陡的下降(SD)变型,以避免昂贵的线性系统解决。为了基准我们的算法,我们比较乘法器(ADMM)的交替方向方法。我们广泛的数值测试包括在度量投影,凸回归,凸聚类,总变化图像去噪和矩阵的投影到良好状态数的问题。这些实验表明了我们在高维问题上最陡的速度和可接受的准确性。
translated by 谷歌翻译
广义自我符合是许多重要学习问题的目标功能中存在的关键属性。我们建立了一个简单的Frank-Wolfe变体的收敛速率,该变体使用开环步数策略$ \ gamma_t = 2/(t+2)$,获得了$ \ Mathcal {o}(1/t)$收敛率对于这类功能,就原始差距和弗兰克 - 沃尔夫差距而言,$ t $是迭代计数。这避免了使用二阶信息或估计以前工作的局部平滑度参数的需求。我们还显示了各种常见病例的收敛速率的提高,例如,当所考虑的可行区域均匀地凸或多面体时。
translated by 谷歌翻译
We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.
translated by 谷歌翻译
我们考虑使用共享结构估算两个功能无向图形模型之间的差异的问题。在许多应用中,数据自然被认为是随机函数的向量而不是标量的矢量。例如,脑电图(EEG)数据更适当地被视为时间函数。在这样的问题中,不仅可以每个样本测量的函数数量大,而且每个功能都是自身是无限尺寸对象,使估计模型参数具有挑战性。这进一步复杂于曲线通常仅在离散时间点观察到。我们首先定义一个功能差异图,捕获两个功能图形模型之间的差异,并在功能性差分图定义良好时正式表征。然后,我们提出了一种方法,软件,直接估计功能差异图,而不首先估计每个图形。这在各个图形是密集的情况下,这是特别有益的,但差分图是稀疏的。我们表明,融合始终估计功能差图,即使在全面观察和离散的功能路径的高维设置中也是如此。我们通过仿真研究说明了我们方法的有限样本性质。我们还提出了一种竞争方法,该方法是关节功能图形套索,它概括了关节图形套索到功能设置。最后,我们将我们的方法应用于EEG数据,以揭示一群含有酒精使用障碍和对照组的个体之间的功能性脑连接的差异。
translated by 谷歌翻译