我们概括了Furst等的“间接学习”技术。 al。,1991年,通过在可分配的分发$ \ mu $学习概念课程,以在统一分布上学习相同的概念类。当$ \ mu $的采样器均包含在目标概念类中,减少成功,在Impagliazzo&Luby的意义上有效地可逆于1989年。我们给出了两种应用。 - 我们展示了AC0 [Q]可以通过任何简洁描述的产品分发来学习。 AC0 [Q]是多项式大小的恒定深度布尔电路的类,或者,而不是,并不计算未绑定的粉丝的Modulo $ Q $ Q。我们的算法在随机的准多项式时间中运行,并使用会员查询。 - 如果在Razborov和Rudich 1997的意义上存在强烈有用的自然属性 - 一种可以区分无随机串和非级别电路复杂性的串的有效算法 - 那么一般多项式的布尔电路就可以在任何有效地学习可在随机多项式时间的可分配分布,给予目标函数的成员资格查询
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
我们连接学习算法和算法自动化证明搜索在命题证明系统中:每一种充分强大,表现良好的命题证明系统$ P $,我们证明以下陈述相当,1.可提供学习:$ P $证明p -size电路通过统一分布的子尺寸尺寸电路与成员资格查询进行了学习。 2.可提供自动性:$ P $证明$ P $可通过非均匀电路在表达P尺寸电路下限的命题公式上自动。在这里,如果I.-III,则$ P $足够强大和表现良好。持有:I. $ P $ P-SIMULATES JE \ v {R} \'ABEK的系统$ WF $(通过调节弱鸽子原则加强扩展弗雷格系统$ EF $); II。 $ P $满足标准证明系统的一些基本属性,P-SIMUTED $ WF $; III。 $ P $可有效地证明一些布尔函数$ H $ H $ H $难以平均为子增长尺寸电路。例如,如果III。保持$ p = wf $,然后项目1和2等同于$ p = wf $。如果在Ne \ Cop Cone $的函数$ H \ IN,这是平均尺寸为2 ^ {n / 4} $的电路,对于每个足够大的$ n $,那么有一个明确的命题证明系统$ p $满意的属性I.-III。,即物品1和2的等价,以$ p $持有。
translated by 谷歌翻译
Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals.Our goal is a broad understanding of the resources required for private learning in terms of samples, computation time, and interaction. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. This result dispels the similarity between learning with noise and private learning (both must be robust to small changes in inputs), since parity is thought to be very hard to learn given random classification noise.Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Therefore, for local private learning algorithms, the similarity to learning with noise is stronger: local learning is equivalent to SQ learning, and SQ algorithms include most known noise-tolerant learning algorithms. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms. Because of the equivalence to SQ learning, this result also separates adaptive and nonadaptive SQ learning.
translated by 谷歌翻译
从样本中学习概率分布的任务在整个自然科学中无处不在。局部量子电路的输出分布构成了一类特别有趣的分布类别,对量子优势提案和各种量子机学习算法都具有关键的重要性。在这项工作中,我们提供了局部量子电路输出分布的可学习性的广泛表征。我们的第一个结果可以深入了解这些分布的有效学习性与有效的可模拟性之间的关系。具体而言,我们证明与Clifford电路相关的密度建模问题可以有效地解决,而对于深度$ d = n^{\ omega(1)} $电路,将单个$ t $ gate注入到电路中,这使这是如此问题很难。该结果表明,有效的模拟性并不意味着有效的可学习性。我们的第二组结果提供了对量子生成建模算法的潜在和局限性的见解。我们首先证明与深度$ d = n^{\ omega(1)} $局部量子电路相关的生成建模问题对于任何学习算法,经典或量子都很难。结果,一个人不能使用量子算法来为此任务获得实际优势。然后,我们证明,对于各种最实际相关的学习算法(包括混合量词古典算法),即使是与深度$ d = \ omega(\ log(n))$ Clifford Circuits相关的生成建模问题也是如此难的。该结果对近期混合量子古典生成建模算法的适用性造成了限制。
translated by 谷歌翻译
尽管经过多年的努力,但在经典数据的情况下,量子机学习社区只能显示出某些人为加密启发的数据集的量子学习优势。在本说明中,我们讨论了发现学习问题的挑战,即量子学习算法可以比任何经典学习算法更快学习,并研究如何识别此类学习问题。具体而言,我们反思了与此问题有关的计算学习理论中的主要概念,并讨论定义的细微变化在概念上意味着显着不同的任务,这可能会导致分离或根本没有分离。此外,我们研究了现有的学习问题,并具有可证明的量子加速,以提炼一组更一般和充分的条件(即``清单''),以表现出在经典学习者和量子学习者之间的分离的学习问题。这些清单旨在简化一个人的方法来证明学习问题或阐明瓶颈的量子加速。最后,为了说明其应用,我们分析了潜在分离的示例(即,当学习问题是从计算分离中或数据来自量子实验时)通过我们的方法的镜头进行分析。
translated by 谷歌翻译
我们提出了两个关于量子计算机精确学习的新结果。首先,我们展示了如何从$ o(k ^ {1.5}(\ log k)^ 2)$统一量子示例的$ o(k ^ {1.5}(\ log k)^ 2)的$ k $ -fourier-sparse $ n $ -fourier-sparse $ n $ k $ -fourier-sparse $ n $ couber boolean函数。这改善了$ \ widetilde {\ theta}(kn)$统一的randuly \ emph {classical}示例(haviv和regev,ccc'15)。此外,我们提供了提高我们的$ \ widetilde {o}(k ^ {1.5})美元的可能方向,通过证明k $-$ -fourier-稀疏的布尔函数的改进,通过提高Chang的Lemma。其次,如果可以使用$ q $量子会员查询可以完全学习概念类$ \ mathcal {c} $,则也可以使用$ o o \ left(\ frac {q ^ 2} {\ logq} \ log | \ mathcal {c} | \右)$ \ emph {classical}会员查询。这通过$ \ log q $ -factor来改善最佳的仿真结果(Servedio和Gortler,Sicomp'04)。
translated by 谷歌翻译
具有数百万参数的过度参数化模型取得了巨大成功。在这项工作中,我们问:至少由于学习者的\ emph {计算}限制,对大型模型的需求至少可以部分原因吗?此外,我们问,这种情况是否加剧了\ emph {robust}学习?我们证明确实可能是这种情况。我们展示了与信息理论学习者所需的学习任务相比,计算有限的学习者需要\ emph {明显更多的模型参数。此外,我们表明,对于健壮的学习可能需要更多的模型参数。特别是,对于计算有限的学习者,我们扩展了Bubeck and Sellke [Neurips'2021]的最新结果,该结果表明,强大的模型可能需要更多的参数,并表明有限学习者可能需要更多的参数数量。然后,我们解决以下相关的问题:我们是否希望通过限制\ emph {fersversaries}来纠正强大计算界限学习的情况,以便为了获得更少的参数获得模型而在计算上进行计算?再次,我们证明这是可能的。具体而言,在Garg,Jha,Mahloujifar和Mahmoody [Alt'2020]的基础上,我们演示了一项学习任务,可以有效,强大地对计算界限的攻击者进行有效,强大的学习,同时对信息理论攻击者需要强大学习者要使用更多参数。
translated by 谷歌翻译
我们表明,具有“低稳定器复杂性”的量子状态可以有效地与HAAR随机区分开。具体而言,给定$ n $ qubit的纯状态$ | \ psi \ rangle $,我们给出了一种有效的算法,以区分$ | \ psi \ rangle $是(i)haar-random或(ii)具有稳定器保真度的状态至少$ \ frac {1} {k} $(即,具有一些稳定器状态的保真度至少$ \ frac {1} {k} $),保证就是其中之一。使用Black-box访问$ | \ psi \ rangle $,我们的算法使用$ o \!\ left(k^{12} \ log(1/\ delta)\ right)$ copies $ | \ psi \ rangle $和$ o \!\ left(n k^{12} \ log(1/\ delta)\ right)$ $时间以概率至少$ 1- \ delta $成功,并且随着访问状态准备统一,以$ | | \ psi \ rangle $(及其倒数),$ o \!\ left(k^{3} \ log(1/\ delta)\ right)$ queries和$ o \!\! log(1/\ delta)\ right)$时间就足够了。作为推论,我们证明$ \ omega(\ log(n))$ $ t $ - 盖特对于任何Clifford+$ t $ circile都是必不可少的,以准备计算上的pseudorandom Quantum Quantum state,这是一种首要的下限。
translated by 谷歌翻译
我们提出了改进的算法,并为身份测试$ n $维分布的问题提供了统计和计算下限。在身份测试问题中,我们将作为输入作为显式分发$ \ mu $,$ \ varepsilon> 0 $,并访问对隐藏分布$ \ pi $的采样甲骨文。目标是区分两个分布$ \ mu $和$ \ pi $是相同的还是至少$ \ varepsilon $ -far分开。当仅从隐藏分布$ \ pi $中访问完整样本时,众所周知,可能需要许多样本,因此以前的作品已经研究了身份测试,并额外访问了各种有条件采样牙齿。我们在这里考虑一个明显弱的条件采样甲骨文,称为坐标Oracle,并在此新模型中提供了身份测试问题的相当完整的计算和统计表征。我们证明,如果一个称为熵的分析属性为可见分布$ \ mu $保留,那么对于任何使用$ \ tilde {o}(n/\ tilde {o}),有一个有效的身份测试算法Varepsilon)$查询坐标Oracle。熵的近似张力是一种经典的工具,用于证明马尔可夫链的最佳混合时间边界用于高维分布,并且最近通过光谱独立性为许多分布族建立了最佳的混合时间。我们将算法结果与匹配的$ \ omega(n/\ varepsilon)$统计下键进行匹配的算法结果补充,以供坐标Oracle下的查询数量。我们还证明了一个计算相变:对于$ \ {+1,-1,-1 \}^n $以上的稀疏抗抗铁磁性模型,在熵失败的近似张力失败的状态下,除非RP = np,否则没有有效的身份测试算法。
translated by 谷歌翻译
可实现和不可知性的可读性的等价性是学习理论的基本现象。与PAC学习和回归等古典设置范围的变种,近期趋势,如对冲强劲和私人学习,我们仍然缺乏统一理论;等同性的传统证据往往是不同的,并且依赖于强大的模型特异性假设,如统一的收敛和样本压缩。在这项工作中,我们给出了第一个独立的框架,解释了可实现和不可知性的可读性的等价性:三行黑箱减少简化,统一,并在各种各样的环境中扩展了我们的理解。这包括没有已知的学报的模型,例如学习任意分布假设或一般损失,以及许多其他流行的设置,例如强大的学习,部分学习,公平学习和统计查询模型。更一般地,我们认为可实现和不可知的学习的等价性实际上是我们调用属性概括的更广泛现象的特殊情况:可以满足有限的学习算法(例如\噪声公差,隐私,稳定性)的任何理想性质假设类(可能在某些变化中)延伸到任何学习的假设类。
translated by 谷歌翻译
我们证明,可以通过恒定的深度统一阈值电路模拟输入长度中具有对数精度的变压器神经网络(以及使用输入长度中的线性空间计算的FeedForward子网络)。因此,此类变压器仅在$ \ mathsf {tc}^0 $中识别形式语言,这是由常数深度,多大小阈值电路定义的语言类。这证明了NLP中的实际主张与计算复杂性理论中的理论猜想之间的联系:“注意就是您需要的一切”(Vaswani等,2017),即,只有在所有有效地计算的情况下,变形金刚都能够进行所有有效的计算可以使用日志空间来解决问题,即$ \ mathsf l = \ mathsf p $。我们还构建了一个可以在任何输入上评估任何恒定深度阈值电路的变压器,证明变形金刚可以遵循$ \ Mathsf {tc}^0 $中表示的说明。
translated by 谷歌翻译
我们研究了利润率的二元和多类分类器的精确积极学习。给定一个$ n $ - 点集$ x \ subset \ mathbb {r}^m $,我们想在$ x $上学习任何未知分类器,其类具有有限的strong convex hull保证金,这是一个扩展SVM保证金的新概念。在标准的主动学习环境中,只有标签查询,在最坏的情况下学习具有强凸额的分类器$ \ gamma $需要$ \ omega \ big(1+ \ frac {1} {\ gamma} {\ gamma} \ big big )^{(M-1)/2} $查询。另一方面,使用更强大的种子查询(一种等价查询的变体),可以通过littlestone's缩小算法在$ o(m \ log n)$ Queries中学习目标分类器;但是,减半在计算上效率低下。在这项工作中,我们表明,通过仔细组合两种类型的查询,可以在时间上学习二进制分类器$ \ operatatorName {poly}(n+m)$,仅使用$ o(m^2 \ log n)$ label查询和$ o \ big(m \ log \ frac {m} {\ gamma} \ big)$ seed queries;结果以$ k!k^2 $乘法开销的价格扩展到$ k $ class分类器。当输入点具有界限的位复杂性时,或者仅一个类具有强凸壳边缘时,相似的结果就成立了。我们通过证明在最坏的情况下任何算法需要$ \ omega \ big(k m \ log \ frac {1} {\ gamma} \ big)$ seed $ seed和标签质量质量来学习$ k $ -Class classifier具有强大的凸壳保证金$ \ gamma $。
translated by 谷歌翻译
我们调查了布尔功能多任务函数多任务的计算效率,这些函数在$ d $二维的超立方体上通过大小$ k \ ll d $在所有任务中共享的功能表示相关。我们提供了一个多项式时间多任务学习算法,用于带有保证金$ \ gamma $的概念类别的概念类别,该算法基于同时增强技术,仅需要$ \ textrm {poly}(k/\ gamma)和$ \ textrm {poly}(k \ log(d)/\ gamma)$样本总共。此外,我们证明了一个计算分离,表明假设存在一个无法在属性效率模型中学习的概念类,我们可以构建另一个可以在属性效率模型中学到的概念类,但不能是多任务。有效学习的 - 多任务学习此概念类要么需要超级顺序的时间复杂性,要么需要更大的样本总数。
translated by 谷歌翻译
我们显示出与错误(LWE)问题的经典学习之间的直接和概念上的简单减少,其连续类似物(Bruna,Regev,Song and Tang,STOC 2021)。这使我们能够将基于LWE的密码学的强大机械带到Clwe的应用中。例如,我们在GAP最短矢量问题的经典最坏情况下获得了Clwe的硬度。以前,这仅在晶格问题的量子最坏情况下才知道。更广泛地说,随着我们在两个问题之间的减少,LWE的未来发展也将适用于CLWE及其下游应用程序。作为一种具体的应用,我们显示了高斯混合物密度估计的硬度结果改善。在此计算问题中,给定样品访问高斯人的混合物,目标是输出估计混合物密度函数的函数。在经典LWE问题的(合理且被广泛相信的)指数硬度下,我们表明高斯混合物密度估计$ \ Mathbb {r}^n $,大约$ \ log n $ gaussian组件给定$ \ mathsf {poly}(poly}(poly}(poly})) n)$样品需要$ n $的时间准分线性。在LWE的(保守)多项式硬度下,我们显示出$ n^{\ epsilon} $高斯的密度估计,对于任何常数$ \ epsilon> 0 $,它可以改善Bruna,Regev,Song和Tang(Stoc 2021) ,在多项式(量子)硬度假设下,他们至少以$ \ sqrt {n} $高斯的表现表现出硬度。我们的关键技术工具是从古典LWE到LWE的缩短,并使用$ k $ -sparse Secrets,其中噪声的乘法增加仅为$ o(\ sqrt {k})$,与环境尺寸$ n $无关。
translated by 谷歌翻译
我们研究了Massart噪声的PAC学习半圆的问题。给定标记的样本$(x,y)$从$ \ mathbb {r} ^ {d} ^ {d} \ times \ times \ {\ pm 1 \} $,这样的例子是任意的和标签$ y $ y $ y $ x $是由按萨塔特对手损坏的目标半空间与翻转概率$ \ eta(x)\ leq \ eta \ leq 1/2 $,目标是用小小的假设计算假设错误分类错误。这个问题的最佳已知$ \ mathrm {poly}(d,1 / \ epsilon)$时间算法实现$ \ eta + \ epsilon $的错误,这可能远离$ \ mathrm {opt} +的最佳界限\ epsilon $,$ \ mathrm {opt} = \ mathbf {e} _ {x \ sim d_x} [\ eta(x)] $。虽然已知实现$ \ mathrm {opt} + O(1)$误差需要超级多项式时间在统计查询模型中,但是在已知的上限和下限之间存在大的间隙。在这项工作中,我们基本上表征了统计查询(SQ)模型中Massart HalfSpaces的有效可读性。具体来说,我们表明,在$ \ mathbb {r} ^ d $中没有高效的sq算法用于学习massart halfpaces ^ d $可以比$ \ omega(\ eta)$更好地实现错误,即使$ \ mathrm {opt} = 2 ^ { - - \ log ^ {c}(d)$,适用于任何通用常量$ c \ in(0,1)$。此外,当噪声上限$ \ eta $接近$ 1/2 $时,我们的错误下限变为$ \ eta - o _ {\ eta}(1)$,其中$ o _ {\ eta}(1)$当$ \ eta $接近$ 1/2 $时,术语达到0美元。我们的结果提供了强有力的证据表明,大规模半空间的已知学习算法几乎是最可能的,从而解决学习理论中的长期开放问题。
translated by 谷歌翻译
我们研究无名概率分布的无分发物业测试和学习问题是超过$ \ mathbb {r} ^ d $的产品分布。对于许多重要的功能,例如半空间,多项式阈值函数,凸集和$ k $ -alternation函数的交叉点,所知的算法具有复杂性,这取决于分配的支持大小,或者仅被证明仅工作对于产品分布的具体例子。我们介绍了一般方法,我们调用DownS采样,解决了这些问题。 Downs采样使用对产品分布的“直线等异仪”的概念,这进一步加强了等偏移,测试和学习之间的连接。使用这种技术,我们在$ \ mathbb {r} ^ d $的产品分布下获得了新的高效分布算法:1。用于函数$ [n] ^ d \的非自适应,单调单调测试的更简单证明\ {0,1 \} $,并改进了对未知产品分布的单调性的样本复杂性,从$ O(d ^ 7)$ [黑色,chakrabarty,&seshadhri,soda 2020]到$ \ widetilde o(d ^ 3)$。 2.多项式禁止学习算法,用于恒定数量的半空间和恒定程度多项式阈值函数。 3. $ \ exp(o(d \ log(dk)))$ - 时间不可知学习算法,以及$ \ exp(o(d \ log(dk)))$ - 样本容差测试仪,用于$的函数K $凸套;和2 ^ {\ widetilde o(d)} $ satmas的单面测试仪,用于凸套。 4. $ \ exp(\ widetilde o(k \ sqrt d))$ - 时间可靠学习算法,以$ k $ -alternation函数,以及具有相同复杂性的基于样本的容忍测试仪。
translated by 谷歌翻译
Recent work shows that the expressive power of Graph Neural Networks (GNNs) in distinguishing non-isomorphic graphs is exactly the same as that of the Weisfeiler-Lehman (WL) graph test. In particular, they show that the WL test can be simulated by GNNs. However, those simulations involve neural networks for the 'combine' function of size polynomial or even exponential in the number of graph nodes $n$, as well as feature vectors of length linear in $n$. We present an improved simulation of the WL test on GNNs with \emph{exponentially} lower complexity. In particular, the neural network implementing the combine function in each node has only a polylogarithmic number of parameters in $n$, and the feature vectors exchanged by the nodes of GNN consists of only $O(\log n)$ bits. We also give logarithmic lower bounds for the feature vector length and the size of the neural networks, showing the (near)-optimality of our construction.
translated by 谷歌翻译
使用差异隐私(DP)学习的大多数工作都集中在每个用户具有单个样本的设置上。在这项工作中,我们考虑每个用户持有M $ Samples的设置,并且在每个用户数据的级别强制执行隐私保护。我们展示了,在这个设置中,我们可以学习少数用户。具体而言,我们表明,只要每个用户收到足够多的样本,我们就可以通过$(\ epsilon,\ delta)$ - dp算法使用$ o(\ log(1 / \ delta)来学习任何私人学习的课程/ \ epsilon)$用户。对于$ \ epsilon $ -dp算法,我们展示我们即使在本地模型中也可以使用$ o _ {\ epsilon}(d)$用户学习,其中$ d $是概率表示维度。在这两种情况下,我们在所需用户数量上显示了几乎匹配的下限。我们的结果的一个关键组成部分是全局稳定性的概括[Bun等,Focs 2020]允许使用公共随机性。在这种轻松的概念下,我们采用相关的采样策略来表明全局稳定性可以在样品数量的多项式牺牲中被提升以任意接近一个。
translated by 谷歌翻译
当前深度学习方法的许多应用程序的警告是需要大规模数据。Kolmogorov复杂性结果提出的一种改进是将最小描述长度原理与计算通用模型应用。我们研究了这种方法原则上可以带来的样品效率的潜在提高。我们使用多项式时间图灵机代表计算上的通用模型和布尔电路,以表示作用于有限精确数字的人工神经网络(ANN)。我们的分析解散了我们的问题与计算复杂性结果之间的直接联系。我们在使用图灵机而不是ANN应用的MDL之间的样品效率上提供了下限和上限。我们的界限取决于要学习的布尔函数的输入的位尺寸。此外,我们重点介绍了电路复杂性的经典开放问题与这些问题的紧密关系之间的密切关系。
translated by 谷歌翻译