科恩(Cohen)和彭(Peng)的开创性工作向理论计算机科学界推出了刘易斯(Lewis)的重量抽样,从而产生了快速采样算法的近似值$ d $二维子空间$ \ ell_p $ to $ \ ell_p $ to $ \ ell_p $ to $(1+ \ epsilon)$错误。几项工作将这一重要原始性扩展到其他设置,包括在线核心,滑动窗口和对抗流型模型。但是,这些结果仅适用于\ {1,2 \} $中的$ p \,$ p = 1 $的结果需要一个次优$ \ tilde o(d^2/\ epsilon^2)$样本。在这项工作中,我们设计了第一个几乎最佳的$ \ ell_p $ subspace嵌入在(0,\ infty)$中的所有$ p \ in Online Coreset,滑动窗口和对抗流型模型中的第一个$ p \。在所有三个模型中,我们的算法存储$ \ tilde o(d^{1 \ lor(p/2)}/\ epsilon^2)$行。这回答了[bdmmuwz2020]的主要开放问题的实质性概括,并给出了所有$ p \ notin \ {1,2 \} $的第一个结果。为了我们的结果,我们首先分析了“一击”采样行对其刘易斯重量的采样行采样,带有样品复杂性$ \ tilde o(d^{p/2}/\ epsilon^2)$对于$ p> 2 $。以前,该方案仅具有样品复杂性$ \ tilde o(d^{p/2}/\ epsilon^5)$,而$ \ tilde o(d^{p/2) }/\ epsilon^2)$是否使用了更复杂的递归抽样。递归抽样不能在线实施,因此需要对一击刘易斯重量采样进行分析。我们的分析使用与在线数字线性代数的新颖连接。 [MSSW2018]引入的复杂性参数$ \ mu $,我们显示第一个下限表明对$ \ mu $的线性依赖性是必要的。
translated by 谷歌翻译
我们研究了用于线性回归的主动采样算法,该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目,并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $,其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $,我们提供了一种基于Lewis权重采样的算法,其使用只需$ \ tilde {o}输出$(1+ \ epsilon)$近似解决方案(d ^ {\ max(1,{p / 2})} / \ mathrm {poly}(\ epsilon))$查询到$ b $。我们表明,这一依赖于$ D $是最佳的,直到对数因素。我们的结果解决了陈和Derezi的最近开放问题,陈和Derezi \'{n} Ski,他们为$ \ ell_1 $ norm提供了附近的最佳界限,以及$ p \中的$ \ ell_p $回归的次优界限(1,2) $。我们还提供了$ O的第一个总灵敏度上限(D ^ {\ max \ {1,p / 2 \} \ log ^ 2 n)$以满足最多的$ p $多项式增长。这改善了Tukan,Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果,我们获得了一个使$ \ tilde o的活动回归算法(d ^ {1+ \ max \ {1,p / 2 \}} / \ mathrm {poly}。 (\ epsilon))$疑问,回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况,我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定(d ^ {(1+ \ sqrt2)/ 2} / \ epsilon ^ c)$和非活跃$ \ tilde o的样本复杂性(d ^ {4-2 \ sqrt 2} / \ epsilon ^ c)$,由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响,使用灵敏度采样改善了各种先前的结果,包括orlicz规范子空间嵌入和鲁棒子空间近似。最后,我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。
translated by 谷歌翻译
主动回归考虑了一个线性回归问题,其中学习者会收到大量数据点,但只能观察到少数标签。由于在线算法可以处理增量培训数据并利用低计算成本,因此我们考虑了主动回归问题的在线扩展:学习者一一接收数据点,并立即决定是否应该收集相应的标签。目的是有效地维护收到的数据点的回归,并具有少量的标签查询回归。我们在$ \ ell_p $损失下为此问题提出了新算法,其中$ p \ in [1,2] $。要获得$(1+ \ epsilon)$ - 近似解决方案,我们提出的算法仅需要$ \ tilde {\ Mathcal {o}}(\ epsilon^{ - 2} d \ log(n \ kappa))$查询标签,其中$ n $是数据点的数量,而$ \ kappa $是数据点的数量,称为条件号。数值结果验证了我们的理论结果,并表明我们的方法与离线活性回归算法具有可比性的性能。
translated by 谷歌翻译
大规模监督学习中的共同挑战是如何利用新的增量数据到预先训练的模型,而无需从头开始重新培训模型。受到这个问题的激励,我们重新审视动态最小二乘回归(LSR)的规范问题,其中目标是通过增量训练数据学习线性模型。在此设置,数据和标签$(\ mathbf {a} ^ {(t)},\ mathbf {b} ^ {(t)})\ in \ mathbb {r} ^ {t \ times d} \ times \ MathBB {R} ^ T $以在线方式发展($ t \ gg d $),目标是有效地将(近似)解决方案保持为$ \ min _ {\ mathbf {x} ^ {(t)}} \ | \ mathbf {a} ^ {(t)} \ mathbf {x} ^ {(t)} - \ mathbf {b} ^ {(t)} \ | \ | \ |在$中的所有$ t \。我们的主要结果是一种动态数据结构,它将任意小的恒定近似解,与摊销更新时间$ o(d ^ {1 + o(1)})$,几乎匹配静态的运行时间(草图 - 基于)解决方案。相比之下,对于精确的(甚至$ 1 / \ mathrm {poly}(n)$ - 准确性)解决方案,我们在静态和动态设置之间显示了分离,即动态LSR需要$ \ω(d ^ {2- O(1)})OMV猜想下的摊销更新时间(Henzinger等,STOC'15)。我们的数据结构在概念上简单,易于实施,并且在理论和实践中快速速度,通过对合成和现实世界数据集的实验进行了证实。
translated by 谷歌翻译
We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.
translated by 谷歌翻译
算法高斯化是一种现象,当使用随机素描或采样方法生成较小的大数据集的较小表示时,可能会出现的现象:对于某些任务,已经观察到这些草图表示表现出许多可靠的性能特征,这些性能是在数据样本中出现的,这些性能来自次高斯随机设计,是一个强大的数据分布统计模型。但是,这种现象仅研究了特定的任务和指标,或依靠计算昂贵的方法。我们通过为平均值提供用于高斯数据分布的算法框架来解决这一问题,并证明可以有效构建几乎无法区分的数据草图(与亚高斯随机设计有关的总变化距离)。特别是,依靠最近引入的素描技术称为杠杆得分稀疏(少)嵌入,我们表明一个人可以构造$ n \ times d $矩阵$ a $的$ n \ times d $ sketch of $ n \ times d $ n \ ll n $,几乎与次高斯设计几乎没有区别$ a $中的非零条目的数量。结果,可以直接适用于我们的草图框架,可直接适用于我们的草图框架。我们通过对草图最小二乘正方形的新近似保证进行了说明。
translated by 谷歌翻译
In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].
translated by 谷歌翻译
我们给出了一种基于草图的迭代算法,该算法计算$ 1 +\ varepsilon $近似解决方案,用于脊回归问题$ \ min_x \ | ax-b \ | ax-b \ | _2^2 +\ lambda \ lambda \ | x \ | x \ | _2^2 $ were $ a \ in r^{n \ times d} $带有$ d \ ge n $。我们的算法对于恒定数量的迭代(需要输入量的恒定通过),通过要求素描矩阵仅具有较弱的近似矩阵乘法(AMM)保证,可以改善早期工作(Chowdhury等人)(Chowdhury等人)。在$ \ varepsilon $上,以及恒定的子空间嵌入保证。相反,较早的工作要求素描矩阵具有取决于$ \ varepsilon $的子空间嵌入保证。例如,要在$ 1 $迭代中生产$ 1+\ varepsilon $近似解决方案,需要$ 2 $通过输入,我们的算法需要OSNAP嵌入$ m = o(n \ sigma^2/\ lambda \ lambda \ varepsilon \ varepsilon )带有稀疏参数$ s = o(\ log(n))$的$行,而Chowdhury等人的早期算法。使用相同数量的OSNAP行需要稀疏$ s = o(\ sqrt {\ sigma^2/\ lambda \ varepsilon} \ cdot \ log(n))$,其中$ \ sigma = \ opnorm = \ opnorm {a}是矩阵$ a $的光谱规范。我们还表明,该算法可用于为内核脊回归提供更快的算法。最后,我们表明,我们的算法所需的草图大小实质上对于山脊回归算法的自然框架实质上是最佳的,它通过证明AMM的遗漏素描矩阵上的下限。 AMM的草图大小的下限可能具有独立的兴趣。
translated by 谷歌翻译
聚类是无监督学习中的基本原始,它引发了丰富的计算挑战性推理任务。在这项工作中,我们专注于将$ D $ -dimential高斯混合的规范任务与未知(和可能的退化)协方差集成。最近的作品(Ghosh等人。恢复在高斯聚类实例中种植的某些隐藏结构。在许多类似的推理任务上的工作开始,这些较低界限强烈建议存在群集的固有统计到计算间隙,即群集任务是\ yringit {statistically}可能但没有\ texit {多项式 - 时间}算法成功。我们考虑的聚类任务的一个特殊情况相当于在否则随机子空间中找到种植的超立体载体的问题。我们表明,也许令人惊讶的是,这种特定的聚类模型\ extent {没有展示}统计到计算间隙,即使在这种情况下继续应用上述的低度和SOS下限。为此,我们提供了一种基于Lenstra - Lenstra - Lovasz晶格基础减少方法的多项式算法,该方法实现了$ D + 1 $样本的统计上最佳的样本复杂性。该结果扩展了猜想统计到计算间隙的问题的类问题可以通过“脆弱”多项式算法“关闭”,突出显示噪声在统计到计算间隙的发作中的关键而微妙作用。
translated by 谷歌翻译
我们研究了用$ q $ modes $ a \ in \ mathbb {r}^{n \ times \ ldots \ times n} $的近似给定张量的问题。图$ g =(v,e)$,其中$ | v | = q $,以及张张量的集合$ \ {u_v \ mid v \ in v \} $,以$ g $指定的方式收缩以获取张量$ t $。对于$ u_v $的每种模式,对应于$ v $的边缘事件,尺寸为$ k $,我们希望找到$ u_v $,以便最小化$ t $和$ a $之间的frobenius norm距离。这概括了许多众所周知的张量网络分解,例如张量列,张量环,塔克和PEPS分解。我们大约是二进制树网络$ t'$带有$ o(q)$核的大约$ a $,因此该网络的每个边缘上的尺寸最多是$ \ widetilde {o}(k^{o(dt) } \ cdot q/\ varepsilon)$,其中$ d $是$ g $的最大度,$ t $是其树宽,因此$ \ | a -t'-t'\ | _f^2 \ leq(1 + \ Varepsilon)\ | a -t \ | _f^2 $。我们算法的运行时间为$ o(q \ cdot \ text {nnz}(a)) + n \ cdot \ text {poly}(k^{dt} q/\ varepsilon)$,其中$ \ text {nnz }(a)$是$ a $的非零条目的数量。我们的算法基于一种可能具有独立感兴趣的张量分解的新维度降低技术。我们还开发了固定参数可处理的$(1 + \ varepsilon)$ - 用于张量火车和塔克分解的近似算法,改善了歌曲的运行时间,Woodruff和Zhong(Soda,2019),并避免使用通用多项式系统求解器。我们表明,我们的算法对$ 1/\ varepsilon $具有几乎最佳的依赖性,假设没有$ O(1)$ - 近似算法的$ 2 \至4 $ norm,并且运行时间比蛮力更好。最后,我们通过可靠的损失函数和固定参数可拖动CP分解给出了塔克分解的其他结果。
translated by 谷歌翻译
我们提出了一个算法框架,用于近距离矩阵上的量子启发的经典算法,概括了Tang的突破性量子启发算法开始的一系列结果,用于推荐系统[STOC'19]。由量子线性代数算法和gily \'en,su,low和wiebe [stoc'19]的量子奇异值转换(SVT)框架[SVT)的动机[STOC'19],我们开发了SVT的经典算法合适的量子启发的采样假设。我们的结果提供了令人信服的证据,表明在相应的QRAM数据结构输入模型中,量子SVT不会产生指数量子加速。由于量子SVT框架基本上概括了量子线性代数的所有已知技术,因此我们的结果与先前工作的采样引理相结合,足以概括所有有关取消量子机器学习算法的最新结果。特别是,我们的经典SVT框架恢复并经常改善推荐系统,主成分分析,监督聚类,支持向量机器,低秩回归和半决赛程序解决方案的取消结果。我们还为汉密尔顿低级模拟和判别分析提供了其他取消化结果。我们的改进来自识别量子启发的输入模型的关键功能,该模型是所有先前量子启发的结果的核心:$ \ ell^2 $ -Norm采样可以及时近似于其尺寸近似矩阵产品。我们将所有主要结果减少到这一事实,使我们的简洁,独立和直观。
translated by 谷歌翻译
求解线性系统的迭代方法的收敛速率$ \ mathbf {a} x = b $通常取决于矩阵$ \ mathbf {a} $的条件号。预处理是通过以计算廉价的方式减少该条件号来加速这些方法的常用方式。在本文中,我们通过左或右对角线重构重新审视如何最好地提高$ \ mathbf {a}条件号的数十年。我们在几个方向上取得了这个问题。首先,我们为缩放$ \ mathbf {a} $的经典启发式提供了新的界限(a.k.a.jacobi预处理)。我们证明了这种方法将$ \ MATHBF {a} $的条件号减少到最佳可能缩放的二次因素中。其次,我们为结构化混合包装和覆盖了Semidefinite程序(MPC SDP)提供了一个求解器,它计算$ \ mathbf {a} $ in $ \ widetilde {o}(\ text {nnz}(\ mathbf {a})\ cdot \ text {poly}(\ kappa ^ \ star))$ time;这与在缩放到$ \ widetilde {o}(\ text {poly}(\ kappa ^ \ star))$ factors之后求解线性系统的成本匹配。第三,我们证明了足够一般的宽度无关的MPC SDP求解器将暗示我们考虑的缩放问题的近乎最佳的运行时间,以及与平均调理措施有关的自然变体。最后,我们突出了我们的预处理技术与半随机噪声模型的连接,以及在几种统计回归模型中降低风险的应用。
translated by 谷歌翻译
我们考虑了在高维度中平均分离的高斯聚类混合物的问题。我们是从$ k $身份协方差高斯的混合物提供的样本,使任何两对手段之间的最小成对距离至少为$ \ delta $,对于某些参数$ \ delta> 0 $,目标是恢复这些样本的地面真相聚类。它是分离$ \ delta = \ theta(\ sqrt {\ log k})$既有必要且足以理解恢复良好的聚类。但是,实现这种担保的估计值效率低下。我们提供了在多项式时间内运行的第一算法,几乎符合此保证。更确切地说,我们给出了一种算法,它需要多项式许多样本和时间,并且可以成功恢复良好的聚类,只要分离为$ \ delta = \ oomega(\ log ^ {1/2 + c} k)$ ,任何$ c> 0 $。以前,当分离以k $的分离和可以容忍$ \ textsf {poly}(\ log k)$分离所需的quasi arynomial时间时,才知道该问题的多项式时间算法。我们还将我们的结果扩展到分布的分布式的混合物,该分布在额外的温和假设下满足Poincar \ {e}不等式的分布。我们认为我们相信的主要技术工具是一种新颖的方式,可以隐含地代表和估计分配的​​高度时刻,这使我们能够明确地提取关于高度时刻的重要信息而没有明确地缩小全瞬间张量。
translated by 谷歌翻译
在数值线性代数社区中,建议要获得诸如等级计算等各种问题的几乎最佳边界,找到最大线性独立的列(基础),回归或低秩近似,自然方式是解决尼尔森和尼文森的主要开放问题(Focs,2013)。该问题关于现有的忽略子空间嵌入的草图维度的对数因子,实现了恒因子近似的嵌入。我们展示了如何使用精细的草图技术绕过这个问题,并获得这些问题的最佳或几乎最佳的范围。我们使用的关键技术是基于不确定原理和提取器的Indyk的明确映射,在首次应用已知的漏窃子空间嵌入后,允许我们快速展开载体的质量,以便采样现在有效。由此,我们避免了在使用矩阵Chernoff不平等的界限中是标准的草图维度的对数因子。对于排名计算的基本问题和找到基础,我们的算法改善了张,郭和刘(Jacm,2013),并且在恒因因子和多个(日志日志(n)) - 因子中是最佳的。此外,对于恒定因子回归和低秩近似,我们给出了当前矩阵乘法指数的第一个最佳算法。
translated by 谷歌翻译
我们研究了在存在$ \ epsilon $ - 对抗异常值的高维稀疏平均值估计的问题。先前的工作为此任务获得了该任务的样本和计算有效算法,用于辅助性Subgaussian分布。在这项工作中,我们开发了第一个有效的算法,用于强大的稀疏平均值估计,而没有对协方差的先验知识。对于$ \ Mathbb r^d $上的分布,带有“认证有限”的$ t $ tum-矩和足够轻的尾巴,我们的算法达到了$ o(\ epsilon^{1-1/t})$带有样品复杂性$的错误(\ epsilon^{1-1/t}) m =(k \ log(d))^{o(t)}/\ epsilon^{2-2/t} $。对于高斯分布的特殊情况,我们的算法达到了$ \ tilde o(\ epsilon)$的接近最佳错误,带有样品复杂性$ m = o(k^4 \ mathrm {polylog}(d)(d))/\ epsilon^^ 2 $。我们的算法遵循基于方形的总和,对算法方法的证明。我们通过统计查询和低度多项式测试的下限来补充上限,提供了证据,表明我们算法实现的样本时间 - 错误权衡在质量上是最好的。
translated by 谷歌翻译
数据驱动的算法可以通过从输入的训练样本中学习,可以使其内部结构或参数适应来自未知应用程序特定分布的输入。最近的一些作品将这种方法应用于数值线性代数中的问题,获得了绩效的显着经验增长。然而,尚无理论上的成功解释。在这项工作中,我们证明了这些算法的概括范围,在Gupta和Roughgarden提出的数据驱动算法选择的PAC学习框架内(Sicomp 2017)。我们的主要结果与Indyk等人的基于学习的低级近似算法的脂肪破碎维度紧密匹配(Neurips 2019)。我们的技术是一般的,并为数值线性代数中的许多其他最近提出的数据驱动算法提供了概括,涵盖了基于草图的基于草图的方法和基于多机的方法。这大大扩展了可用的PAC学习分析的数据驱动算法类别。
translated by 谷歌翻译
我们研究基于Krylov子空间的迭代方法,用于在任何Schatten $ p $ Norm中的低级别近似值。在这里,通过矩阵向量产品访问矩阵$ a $ $如此$ \ | a(i -zz^\ top)\ | _ {s_p} \ leq(1+ \ epsilon)\ min_ {u^\ top u = i_k} } $,其中$ \ | m \ | _ {s_p} $表示$ m $的单数值的$ \ ell_p $ norm。对于$ p = 2 $(frobenius norm)和$ p = \ infty $(频谱规范)的特殊情况,musco and Musco(Neurips 2015)获得了基于Krylov方法的算法,该方法使用$ \ tilde {o}(k)(k /\ sqrt {\ epsilon})$ matrix-vector产品,改进na \“ ive $ \ tilde {o}(k/\ epsilon)$依赖性,可以通过功率方法获得,其中$ \ tilde {o} $抑制均可抑制poly $(\ log(dk/\ epsilon))$。我们的主要结果是仅使用$ \ tilde {o}(kp^{1/6}/\ epsilon^{1/3} {1/3})$ matrix $ matrix的算法 - 矢量产品,并为所有$ p \ geq 1 $。为$ p = 2 $工作,我们的限制改进了先前的$ \ tilde {o}(k/\ epsilon^{1/2})$绑定到$ \ tilde {o}(k/\ epsilon^{1/3})$。由于schatten- $ p $和schatten-$ \ infty $ norms在$(1+ \ epsilon)$ pers $ p时相同\ geq(\ log d)/\ epsilon $,我们的界限恢复了Musco和Musco的结果,以$ p = \ infty $。此外,我们证明了矩阵矢量查询$ \ omega的下限(1/\ epsilon^ {1/3})$对于任何固定常数$ p \ geq 1 $,表明令人惊讶的$ \ tilde {\ theta}(1/\ epsilon^{ 1/3})$是常数〜$ k $的最佳复杂性。为了获得我们的结果,我们介绍了几种新技术,包括同时对多个Krylov子空间进行优化,以及针对分区操作员的不平等现象。我们在[1,2] $中以$ p \的限制使用了Araki-lieb-thirring Trace不平等,而对于$ p> 2 $,我们呼吁对安装分区操作员的规范压缩不平等。
translated by 谷歌翻译
The Forster transform is a method of regularizing a dataset by placing it in {\em radial isotropic position} while maintaining some of its essential properties. Forster transforms have played a key role in a diverse range of settings spanning computer science and functional analysis. Prior work had given {\em weakly} polynomial time algorithms for computing Forster transforms, when they exist. Our main result is the first {\em strongly polynomial time} algorithm to compute an approximate Forster transform of a given dataset or certify that no such transformation exists. By leveraging our strongly polynomial Forster algorithm, we obtain the first strongly polynomial time algorithm for {\em distribution-free} PAC learning of halfspaces. This learning result is surprising because {\em proper} PAC learning of halfspaces is {\em equivalent} to linear programming. Our learning approach extends to give a strongly polynomial halfspace learner in the presence of random classification noise and, more generally, Massart noise.
translated by 谷歌翻译
我们提供了新的基于梯度的方法,以便有效解决广泛的病态化优化问题。我们考虑最小化函数$ f:\ mathbb {r} ^ d \ lightarrow \ mathbb {r} $的问题,它是隐含的可分解的,作为$ m $未知的非交互方式的总和,强烈的凸起功能并提供方法这解决了这个问题,这些问题是缩放(最快的对数因子)作为组件的条件数量的平方根的乘积。这种复杂性绑定(我们证明几乎是最佳的)可以几乎指出的是加速梯度方法的几乎是指数的,这将作为$ F $的条件数量的平方根。此外,我们提供了求解该多尺度优化问题的随机异标变体的有效方法。而不是学习$ F $的分解(这将是过度昂贵的),而是我们的方法应用一个清洁递归“大步小步”交错标准方法。由此产生的算法使用$ \ tilde {\ mathcal {o}}(d m)$空间,在数字上稳定,并打开门以更细粒度的了解凸优化超出条件号的复杂性。
translated by 谷歌翻译
元学习或学习学习,寻求设计算法,可以利用以前的经验快速学习新技能或适应新环境。表示学习 - 用于执行元学习的关键工具 - 了解可以在多个任务中传输知识的数据表示,这在数据稀缺的状态方面是必不可少的。尽管最近在Meta-Leature的实践中感兴趣的兴趣,但缺乏元学习算法的理论基础,特别是在学习可转让陈述的背景下。在本文中,我们专注于多任务线性回归的问题 - 其中多个线性回归模型共享常见的低维线性表示。在这里,我们提供了可提供的快速,采样高效的算法,解决了(1)的双重挑战,从多个相关任务和(2)将此知识转移到新的,看不见的任务中的常见功能。两者都是元学习的一般问题的核心。最后,我们通过在学习这些线性特征的样本复杂性上提供信息定理下限来补充这些结果。
translated by 谷歌翻译