分类是机器学习中的常见任务。随机特征(RFS)作为基于内核方法的可扩展学习算法的中心技术,并且最近提出的优化随机特征取决于模型和数据分布,可以显着减少并证明最小化所需的功能数量。但是,现有的对使用优化RF的分类研究在对每个优化的RF进行采样时都遭受了计算硬度。此外,它未能达到其他最先进的内核方法在低噪声条件下实现的指数快速误差速度。为了克服这些放缓,我们在这里构建了一种通过量子机学习加速的优化RF的分类算法(QML),并研究其运行时以阐明整体优势。我们证明,即使使用优化的RFS,我们的算法也可以在低噪声条件下达到指数误差的收敛。同时,我们的算法可以利用由于QML而没有计算硬度的特征数量的显着减少的优势。这些结果发现了QML在基于领先的内核分类算法加速的有前途的应用,而不会破坏其广泛的适用性和指数误差速度。
translated by 谷歌翻译
我们提出了一个算法框架,用于近距离矩阵上的量子启发的经典算法,概括了Tang的突破性量子启发算法开始的一系列结果,用于推荐系统[STOC'19]。由量子线性代数算法和gily \'en,su,low和wiebe [stoc'19]的量子奇异值转换(SVT)框架[SVT)的动机[STOC'19],我们开发了SVT的经典算法合适的量子启发的采样假设。我们的结果提供了令人信服的证据,表明在相应的QRAM数据结构输入模型中,量子SVT不会产生指数量子加速。由于量子SVT框架基本上概括了量子线性代数的所有已知技术,因此我们的结果与先前工作的采样引理相结合,足以概括所有有关取消量子机器学习算法的最新结果。特别是,我们的经典SVT框架恢复并经常改善推荐系统,主成分分析,监督聚类,支持向量机器,低秩回归和半决赛程序解决方案的取消结果。我们还为汉密尔顿低级模拟和判别分析提供了其他取消化结果。我们的改进来自识别量子启发的输入模型的关键功能,该模型是所有先前量子启发的结果的核心:$ \ ell^2 $ -Norm采样可以及时近似于其尺寸近似矩阵产品。我们将所有主要结果减少到这一事实,使我们的简洁,独立和直观。
translated by 谷歌翻译
We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
translated by 谷歌翻译
已经假设量子计算机可以很好地为机器学习中的应用提供很好。在本作工作中,我们分析通过量子内核定义的函数类。量子计算机提供了有效地计算符合难以计算的指数大密度运算符的内部产品。然而,具有指数大的特征空间使得普遍化的问题造成泛化的问题。此外,能够有效地评估高尺寸空间中的内部产品本身不能保证量子优势,因为已经是经典的漫步核可以对应于高或无限的维度再现核Hilbert空间(RKHS)。我们分析量子内核的频谱属性,并发现我们可以期待优势如果其RKHS低维度,并且包含很难经典计算的功能。如果已知目标函数位于该类中,则这意味着量子优势,因为量子计算机可以编码这种电感偏压,而没有同样的方式对功能类进行经典有效的方式。但是,我们表明查找合适的量子内核并不容易,因为内核评估可能需要指数倍数的测量。总之,我们的信息是有点令人发声的:我们猜测量子机器学习模型只有在我们设法将关于传递到量子电路的问题的知识编码的情况下,才能提供加速,同时将相同的偏差置于经典模型。难的。然而,在学习由量子流程生成的数据时,这些情况可能会被典雅地发生,但对于古典数据集来说,它们似乎更难。
translated by 谷歌翻译
已知量子计算机可以在某些专业设置中使用经典的最先进的机器学习方法提供加速。例如,已证明量子内核方法可以在离散对数问题的学习版本上提供指数加速。了解量子模型的概括对于实现实际利益问题的类似加速至关重要。最近的结果表明,量子特征空间的指数大小阻碍了概括。尽管这些结果表明,量子模型在量子数数量较大时无法概括,但在本文中,我们表明这些结果依赖于过度限制性的假设。我们通过改变称为量子内核带宽的超参数来考虑更广泛的模型。我们分析了大量限制,并为可以以封闭形式求解的量子模型的概括提供了明确的公式。具体而言,我们表明,更改带宽的值可以使模型从不能概括到任何目标函数到对准目标的良好概括。我们的分析表明,带宽如何控制内核积分操作员的光谱,从而如何控制模型的电感偏置。我们从经验上证明,我们的理论正确地预测带宽如何影响质量模型在具有挑战性的数据集上的概括,包括远远超出我们理论假设的数据集。我们讨论了结果对机器学习中量子优势的含义。
translated by 谷歌翻译
我们在高斯分布下使用Massart噪声与Massart噪声进行PAC学习半个空间的问题。在Massart模型中,允许对手将每个点$ \ mathbf {x} $的标签与未知概率$ \ eta(\ mathbf {x})\ leq \ eta $,用于某些参数$ \ eta \ [0,1 / 2] $。目标是找到一个假设$ \ mathrm {opt} + \ epsilon $的错误分类错误,其中$ \ mathrm {opt} $是目标半空间的错误。此前已经在两个假设下研究了这个问题:(i)目标半空间是同质的(即,分离超平面通过原点),并且(ii)参数$ \ eta $严格小于$ 1/2 $。在此工作之前,当除去这些假设中的任何一个时,不知道非增长的界限。我们研究了一般问题并建立以下内容:对于$ \ eta <1/2 $,我们为一般半个空间提供了一个学习算法,采用样本和计算复杂度$ d ^ {o_ {\ eta}(\ log(1 / \ gamma) )))}} \ mathrm {poly}(1 / \ epsilon)$,其中$ \ gamma = \ max \ {\ epsilon,\ min \ {\ mathbf {pr} [f(\ mathbf {x})= 1], \ mathbf {pr} [f(\ mathbf {x})= -1] \} \} $是目标半空间$ f $的偏差。现有的高效算法只能处理$ \ gamma = 1/2 $的特殊情况。有趣的是,我们建立了$ d ^ {\ oomega(\ log(\ log(\ log(\ log))}}的质量匹配的下限,而是任何统计查询(SQ)算法的复杂性。对于$ \ eta = 1/2 $,我们为一般半空间提供了一个学习算法,具有样本和计算复杂度$ o_ \ epsilon(1)d ^ {o(\ log(1 / epsilon))} $。即使对于均匀半空间的子类,这个结果也是新的;均匀Massart半个空间的现有算法为$ \ eta = 1/2 $提供可持续的保证。我们与D ^ {\ omega(\ log(\ log(\ log(\ log(\ epsilon))} $的近似匹配的sq下限补充了我们的上限,这甚至可以为同类半空间的特殊情况而保持。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
我们研究了学习单个神经元的基本问题,即$ \ mathbf {x} \ mapsto \ sigma(\ mathbf {w} \ cdot \ cdot \ mathbf {x})$单调激活$ \ sigma $ \ sigma: \ mathbb {r} \ mapsto \ mathbb {r} $,相对于$ l_2^2 $ -loss,在存在对抗标签噪声的情况下。具体来说,我们将在$(\ mathbf {x},y)\ in \ mathbb {r}^d \ times \ times \ mathbb {r} $上给我们从$(\ mathbf {x},y)\ on a发行$ d $中给我们标记的示例。 }^\ ast \ in \ mathbb {r}^d $ achieving $ f(\ mathbf {w}^\ ast)= \ epsilon $,其中$ f(\ mathbf {w})= \ m马理bf {e} (\ mathbf {x},y)\ sim d} [(\ sigma(\ mathbf {w} \ cdot \ mathbf {x}) - y)^2] $。学习者的目标是输出假设向量$ \ mathbf {w} $,以使$ f(\ m athbb {w})= c \,\ epsilon $具有高概率,其中$ c> 1 $是通用常数。作为我们的主要贡献,我们为广泛的分布(包括对数 - 循环分布)和激活功能提供有效的恒定因素近似学习者。具体地说,对于各向同性对数凸出分布的类别,我们获得以下重要的推论:对于逻辑激活,我们获得了第一个多项式时间常数因子近似(即使在高斯分布下)。我们的算法具有样品复杂性$ \ widetilde {o}(d/\ epsilon)$,这在多毛体因子中很紧。对于relu激活,我们给出了一个有效的算法,带有样品复杂性$ \ tilde {o}(d \,\ polylog(1/\ epsilon))$。在我们工作之前,最著名的常数因子近似学习者具有样本复杂性$ \ tilde {\ omega}(d/\ epsilon)$。在这两个设置中,我们的算法很简单,在(正规)$ L_2^2 $ -LOSS上执行梯度散发。我们的算法的正确性取决于我们确定的新结构结果,表明(本质上是基本上)基础非凸损失的固定点大约是最佳的。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
参数化量子电路的优化对于具有变分量子算法(VQAS)的计算任务的应用是必不可少的。然而,VQA的现有优化算法需要过多的量子测量镜头,以估计可观察到的期望值或迭代电路参数的更新,其成本是实际使用的重要障碍。为了解决这个问题,我们开发了一个有效的框架,\ yexit {随机梯度线贝叶斯优化}(SGLBO),用于电路优化,测量镜头较少。通过估计基于随机梯度下降(SGD)更新参数的适当方向,并且进一步利用贝叶斯优化(BO)来估计SGD的每次迭代中的最佳步长,降低测量镜头的成本。我们制定了一个自适应测量射击策略,可在不依赖于精确的期望值估计和许多迭代的情况下可行地实现优化;此外,我们表明,后缀平均技术可以显着降低统计和硬件噪声在VQA的优化中的效果。我们的数值模拟表明,使用这些技术增强的SGLBO可以大大减少所需的测量射击数量,提高优化的准确性,并与VQAS的代表性任务中的其他最先进的优化器相比,增强了噪音的鲁棒性。这些结果建立了一系列量子电路优化器的框架,整合了两种不同的优化方法,SGD和BO,以显着降低测量镜头的成本。
translated by 谷歌翻译
我们提出了第一近最优量子算法,用于估计欧几里德的规范,与有限均值和协方差的矢量值随机变量的平均值。我们的结果旨在将多元子高斯估计的理论延伸到量子设置。与经典上不同,如果任何单变量估计器都可以在维度中最多的对数开销转换为多变量估计器,则不会在量子设置中证明类似的结果。实际上,当样品复杂性小于尺寸时,Heinrich排除了平均估计问题的量子优势。我们的主要结果是表明,在这种低精度的方案之外,有一个量子估计值优于任何经典估算器。我们的方法比单变量设置大致涉及,大多数量子估计人员依赖于相位估计。我们利用各种额外的算法技术,如幅度放大,伯恩斯坦 - Vazirani算法和量子奇异值转换。我们的分析还使用多元截断统计的浓度不等式。我们以前在文献中出现的两个不同输入模型中的Quantum估算器。第一个提供对随机变量的二进制表示的相干访问,并且它包含经典设置。在第二模型中,随机变量直接编码到量子寄存器的相位中。该模型在许多量子算法中自然出现,但常常具有古典样品通常是无与伦比的。我们将我们的技术调整为这两个设置,我们表明第二种模型严格较弱,以解决平均估计问题。最后,我们描述了我们的算法的几个应用,特别是在测量通勤可观察到的期望值和机器学习领域时。
translated by 谷歌翻译
我们提出并分析了算法,以解决用户级差分隐私约束下的一系列学习任务。用户级DP仅保证只保证个人样本的隐私,而是保护用户的整个贡献($ M \ GE 1 $ Samples),而不是对信息泄漏提供更严格但更现实的保护。我们表明,对于高维平均估计,具有平稳损失,随机凸优化和学习假设类别的经验风险最小化,具有有限度量熵,隐私成本随着用户提供的$ O(1 / \ SQRT {M})$减少更多样本。相比之下,在增加用户数量$ N $时,隐私成本以较快的价格降低(1 / n)$率。我们将这些结果与下界相提并论,显示了我们算法的最低限度估计和随机凸优化的算法。我们的算法依赖于私有平均估计的新颖技术,其任意维度与误差缩放为浓度半径$ \ tai $的分布而不是整个范围。
translated by 谷歌翻译
我们认为随机梯度下降及其在繁殖内核希尔伯特空间中二进制分类问题的平均变体。在使用损失函数的一致性属性的传统分析中,众所周知,即使在条件标签概率上假设低噪声状态时,预期的分类误差也比预期风险更慢。因此,最终的速率为sublinear。因此,重要的是要考虑是否可以实现预期分类误差的更快收敛。在最近的研究中,随机梯度下降的指数收敛速率在强烈的低噪声条件下显示,但前提是理论分析仅限于平方损耗函数,这对于二元分类任务来说是不足的。在本文中,我们在随机梯度下降的最后阶段中显示了预期分类误差的指数收敛性,用于在相似的假设下进行一类宽类可区分的凸损失函数。至于平均的随机梯度下降,我们表明相同的收敛速率来自训练的早期阶段。在实验中,我们验证了对$ L_2 $调查的逻辑回归的分析。
translated by 谷歌翻译
我们研究了学习哈密顿$ h $ to precision $ \ varepsilon $的问题,假设我们将获得其gibbs state $ \ rho = \ exp( - \ beta h)/\ operatoratorname {tr}(\ exp(\ exp)( - \ beta h))$在已知的反温度$ \ beta $处。 Anshu,Arunachalam,Kuwahara和Soleimanifar(Nature Physics,2021,Arxiv:2004.07266)最近研究了此问题的样品复杂性(需要$ \ rho $的副本数量)。在高温(低$ \ beta $)制度中,他们的算法具有样品复杂性poly poly $(n,1/\ beta,1/\ varepsilon)$,并且可以用多项式但次优的时间复杂性实现。在本文中,我们研究了更一般的哈密顿人的同样问题。我们展示了如何学习哈密顿量的系数到错误$ \ varepsilon $带有样本复杂性$ s = o(\ log n/(\ beta \ varepsilon)^{2})$和样本大小的时间复杂性,$ o(s n)$。此外,我们证明了匹配的下限,表明我们算法的样品复杂性是最佳的,因此我们的时间复杂性也是最佳的。在附录中,我们证明,几乎可以使用相同的算法来从实时进化的统一$ e^{ - it H} $中学习$ h $,其中具有相似的示例和时间复杂性的小$ t $制度。
translated by 谷歌翻译
套索和山脊是机器学习和统计数据中重要的最小化问题。它们是线性回归的版本,具有平方损耗,其中$ \ theta \ in \ mathbb {r}^d $ of系数的$ \ ell_1 $ -norm(对于lasso)或$ \ ell_2 $ norm(in $ \ ell_2 $ norm)(对于山脊)。我们研究了针对这些最小化问题的$ \ varepsilon $ - 二聚体的量子算法的复杂性。我们表明,对于拉索,我们可以通过加快弗兰克 - 沃尔夫算法的每题来获得$ d $的二次量子加速,而对于ridge来说,最好的量子算法是$ d $的线性,就像$ d $一样最好的古典算法。作为套索的量子下限的副产品,我们还证明了套索的第一个经典下限,该结构紧密地属于polyg因子。
translated by 谷歌翻译
量子计算有可能彻底改变和改变我们的生活和理解世界的方式。该审查旨在提供对量子计算的可访问介绍,重点是统计和数据分析中的应用。我们从介绍了了解量子计算所需的基本概念以及量子和经典计算之间的差异。我们描述了用作量子算法的构建块的核心量子子程序。然后,我们审查了一系列预期的量子算法,以便在统计和机器学习中提供计算优势。我们突出了将量子计算应用于统计问题的挑战和机遇,并讨论潜在的未来研究方向。
translated by 谷歌翻译
众所周知,给定顺滑,界限 - 下面,并且可能的非透露函数,标准梯度的方法可以找到$ \ epsilon $ -stationary积分(渐变范围小于$ \ epsilon $)$ \ mathcal {O}(1 / \ epsilon ^ 2)$迭代。然而,许多重要的非渗透优化问题,例如与培训现代神经网络相关的问题,本质上是不平衡的,使这些结果不适用。在本文中,我们研究了来自Oracle复杂性视点的非透射性优化,其中假设算法仅向各个点处的函数提供访问。我们提供两个主要结果:首先,我们考虑越近$ \ epsilon $ -storationary积分的问题。这也许是找到$ \ epsilon $ -storationary积分的最自然的放松,这在非对象案例中是不可能的。我们证明,对于任何距离和epsilon $小于某些常数,无法有效地实现这种轻松的目标。我们的第二次结果涉及通过减少到平滑的优化来解决非光度非渗透优化的可能性:即,在光滑的近似值对目标函数的平滑近似下应用平滑的优化方法。对于这种方法,我们在温和的假设下证明了oracle复杂性和平滑度之间的固有权衡:一方面,可以非常有效地平滑非光滑非凸函数(例如,通过随机平滑),但具有尺寸依赖性因子在平滑度参数中,在插入标准平滑优化方法时,这会强烈影响迭代复杂性。另一方面,可以用合适的平滑方法消除这些尺寸因子,而是仅通过使平滑过程的Oracle复杂性呈指数大。
translated by 谷歌翻译
在本文中,我们利用过度参数化来设计高维单索索引模型的无规矩算法,并为诱导的隐式正则化现象提供理论保证。具体而言,我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型,信号参数是稀疏向量或低秩对称矩阵,并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性,我们假设协变量的分布是先验的。对于载体和矩阵设置,我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时,我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外,我们的实验结果支持我们的理论调查结果,并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。
translated by 谷歌翻译
现代量子机学习(QML)方法涉及在训练数据集上进行各种优化参数化量子电路,并随后对测试数据集(即,泛化)进行预测。在这项工作中,我们在培训数量为N $培训数据点后,我们在QML中对QML的普遍表现进行了全面的研究。我们表明,Quantum机器学习模型的泛化误差与$ T $培训门的尺寸在$ \ sqrt {t / n} $上缩放。当只有$ k \ ll t $ gates在优化过程中经历了大量变化时,我们证明了泛化误差改善了$ \ sqrt {k / n} $。我们的结果意味着将Unitaries编制到通常使用指数训练数据的量子计算行业的多项式栅极数量,这是一项通常使用指数尺寸训练数据的大量应用程序。我们还表明,使用量子卷积神经网络的相位过渡的量子状态的分类只需要一个非常小的训练数据集。其他潜在应用包括学习量子误差校正代码或量子动态模拟。我们的工作将新的希望注入QML领域,因为较少的培训数据保证了良好的概括。
translated by 谷歌翻译
The workhorse of machine learning is stochastic gradient descent. To access stochastic gradients, it is common to consider iteratively input/output pairs of a training dataset. Interestingly, it appears that one does not need full supervision to access stochastic gradients, which is the main motivation of this paper. After formalizing the "active labeling" problem, which focuses on active learning with partial supervision, we provide a streaming technique that provably minimizes the ratio of generalization error over the number of samples. We illustrate our technique in depth for robust regression.
translated by 谷歌翻译