我们证明,可以通过恒定的深度统一阈值电路模拟输入长度中具有对数精度的变压器神经网络(以及使用输入长度中的线性空间计算的FeedForward子网络)。因此,此类变压器仅在$ \ mathsf {tc}^0 $中识别形式语言,这是由常数深度,多大小阈值电路定义的语言类。这证明了NLP中的实际主张与计算复杂性理论中的理论猜想之间的联系:“注意就是您需要的一切”(Vaswani等,2017),即,只有在所有有效地计算的情况下,变形金刚都能够进行所有有效的计算可以使用日志空间来解决问题,即$ \ mathsf l = \ mathsf p $。我们还构建了一个可以在任何输入上评估任何恒定深度阈值电路的变压器,证明变形金刚可以遵循$ \ Mathsf {tc}^0 $中表示的说明。
translated by 谷歌翻译
Characterizing the implicit structure of the computation within neural networks is a foundational problem in the area of deep learning interpretability. Can their inner decision process be captured symbolically in some familiar logic? We show that any transformer neural network can be translated into an equivalent fixed-size first-order logic formula which may also use majority quantifiers. The idea is to simulate transformers with highly uniform threshold circuits and leverage known theoretical connections between circuits and logic. Our findings also reveal the surprising fact that the entire transformer computation can be reduced merely to the division of two (large) integers. While our results are most pertinent for transformers, they apply equally to a broader class of neural network architectures, namely those with a fixed-depth uniform computation graph made up of standard neural net components, which includes feedforward and convolutional networks.
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
当前深度学习方法的许多应用程序的警告是需要大规模数据。Kolmogorov复杂性结果提出的一种改进是将最小描述长度原理与计算通用模型应用。我们研究了这种方法原则上可以带来的样品效率的潜在提高。我们使用多项式时间图灵机代表计算上的通用模型和布尔电路,以表示作用于有限精确数字的人工神经网络(ANN)。我们的分析解散了我们的问题与计算复杂性结果之间的直接联系。我们在使用图灵机而不是ANN应用的MDL之间的样品效率上提供了下限和上限。我们的界限取决于要学习的布尔函数的输入的位尺寸。此外,我们重点介绍了电路复杂性的经典开放问题与这些问题的紧密关系之间的密切关系。
translated by 谷歌翻译
本文研究了人工神经网络(NNS)与整流线性单元的表现力。为了将它们作为实际计算的模型,我们介绍了最大仿射算术计划的概念,并显示了它们与NNS之间的等效性有关自然复杂度措施。然后我们使用此结果表明,使用多项式NNS可以解决两个基本组合优化问题,这相当于非常特殊的强多项式时间算法。首先,我们显示,对于带有N $节点的任何无向图形,有一个NN大小$ \ Mathcal {O}(n ^ 3)$,它将边缘权重用为输入,计算最小生成树的值图表。其次,我们显示,对于任何带有$ N $节点和$ M $弧的任何定向图,都有一个尺寸$ \ mathcal {o}(m ^ 2n ^ 2)$,它将电弧容量作为输入和计算最大流量。这些结果尤其尤其暗示,相应的参数优化问题的解决方案可以在多项式空间中编码所有边缘权重或电弧容量的方法,并在多项式时间中进行评估,并且由NN提供这种编码。
translated by 谷歌翻译
自我注意事项是一种旨在在顺序数据中建模远程相互作用的建筑主题,它推动了自然语言处理及其他方面的许多最新突破。这项工作提供了对自我发项模块的归纳偏差的理论分析。我们的重点是严格确定哪些功能和远程依赖性自我注意力障碍更喜欢代表。我们的主要结果表明,有限的 - 标志变压器网络“创建稀疏变量”:单个自我发项头可以代表输入序列的稀疏函数,样品复杂性仅与上下文长度进行对数。为了支持我们的分析,我们提出了合成实验,以探测学习稀疏的布尔功能与变压器的样本复杂性。
translated by 谷歌翻译
Recent work shows that the expressive power of Graph Neural Networks (GNNs) in distinguishing non-isomorphic graphs is exactly the same as that of the Weisfeiler-Lehman (WL) graph test. In particular, they show that the WL test can be simulated by GNNs. However, those simulations involve neural networks for the 'combine' function of size polynomial or even exponential in the number of graph nodes $n$, as well as feature vectors of length linear in $n$. We present an improved simulation of the WL test on GNNs with \emph{exponentially} lower complexity. In particular, the neural network implementing the combine function in each node has only a polylogarithmic number of parameters in $n$, and the feature vectors exchanged by the nodes of GNN consists of only $O(\log n)$ bits. We also give logarithmic lower bounds for the feature vector length and the size of the neural networks, showing the (near)-optimality of our construction.
translated by 谷歌翻译
单调功能和数据集在各种应用中都会出现。我们研究单调数据集的插值问题:输入是带有$ n $点的单调数据集,目标是找到一个大小和深度有效的单调神经网络,具有非负参数和阈值单元,可以插入数据放。我们表明,单调数据集无法通过深度$ 2 $的单调网络插值。另一方面,我们证明,对于每个单调数据集,在$ \ mathbb {r}^d $中$ n $点,存在一个插值的单调网络,该网络的深度为$ 4 $ $ 4 $和size $ o(nd)$。我们的插值结果意味着,每个单调功能超过$ [0,1]^d $可以通过DEPTH-4单调网络任意地近似,从而改善了先前最著名的深度构建$ d+1 $。最后,基于布尔电路复杂性的结果,我们表明,当近似单调函数时,具有正参数的电感偏差会导致神经元数量的超顺式爆炸。
translated by 谷歌翻译
这项调查表明,在算术电路复杂性,结构化矩阵和深度学习的交集中,一定是不完整的(偏见)概述的结果。最近,有一些研究活动在通过结构化的网络中代替神经网络中的非结构化重量矩阵(目的是减少相应的深度学习模型的大小)。这项工作的大部分都是实验性的,在这项调查中,我们将研究问题正式化,并展示了最新的工作如何结合算术电路复杂性,结构化矩阵和深度学习,从本质上回答了这个问题。这项调查针对的是复杂的理论家,他们可能喜欢阅读有关算术电路复杂性中开发的工具如何帮助设计(据我们所知)一个新的结构化矩阵家族,这反过来又非常适合深度学习。但是,我们希望主要对深度学习感兴趣的人们也会欣赏与复杂性理论的联系。
translated by 谷歌翻译
我们概括了Furst等的“间接学习”技术。 al。,1991年,通过在可分配的分发$ \ mu $学习概念课程,以在统一分布上学习相同的概念类。当$ \ mu $的采样器均包含在目标概念类中,减少成功,在Impagliazzo&Luby的意义上有效地可逆于1989年。我们给出了两种应用。 - 我们展示了AC0 [Q]可以通过任何简洁描述的产品分发来学习。 AC0 [Q]是多项式大小的恒定深度布尔电路的类,或者,而不是,并不计算未绑定的粉丝的Modulo $ Q $ Q。我们的算法在随机的准多项式时间中运行,并使用会员查询。 - 如果在Razborov和Rudich 1997的意义上存在强烈有用的自然属性 - 一种可以区分无随机串和非级别电路复杂性的串的有效算法 - 那么一般多项式的布尔电路就可以在任何有效地学习可在随机多项式时间的可分配分布,给予目标函数的成员资格查询
translated by 谷歌翻译
我们连接学习算法和算法自动化证明搜索在命题证明系统中:每一种充分强大,表现良好的命题证明系统$ P $,我们证明以下陈述相当,1.可提供学习:$ P $证明p -size电路通过统一分布的子尺寸尺寸电路与成员资格查询进行了学习。 2.可提供自动性:$ P $证明$ P $可通过非均匀电路在表达P尺寸电路下限的命题公式上自动。在这里,如果I.-III,则$ P $足够强大和表现良好。持有:I. $ P $ P-SIMULATES JE \ v {R} \'ABEK的系统$ WF $(通过调节弱鸽子原则加强扩展弗雷格系统$ EF $); II。 $ P $满足标准证明系统的一些基本属性,P-SIMUTED $ WF $; III。 $ P $可有效地证明一些布尔函数$ H $ H $ H $难以平均为子增长尺寸电路。例如,如果III。保持$ p = wf $,然后项目1和2等同于$ p = wf $。如果在Ne \ Cop Cone $的函数$ H \ IN,这是平均尺寸为2 ^ {n / 4} $的电路,对于每个足够大的$ n $,那么有一个明确的命题证明系统$ p $满意的属性I.-III。,即物品1和2的等价,以$ p $持有。
translated by 谷歌翻译
神经网络(NNS)也很难有效地学习某些问题,例如奇偶校验问题,即使对于这些问题有简单的学习算法。NNS可以自己发现学习算法吗?我们展示了一个NN体系结构,在多项式时期,可以通过恒定尺寸的学习算法来学习以及任何有效的学习算法。例如,在奇偶校验问题上,NN学习和减少行,这是一种可以简单描述的有效算法。我们的体系结构结合了层和卷积重量共享之间的重复分享,即使网络本身可能具有数万亿个节点,也将参数数量降低到常数。在实践中,我们的分析中的常数太大而无法直接有意义,但我们的工作表明,经常性和卷积NNS(RCNN)的协同作用可能比单独的任何一个更强大。
translated by 谷歌翻译
我们研究了图形表示学习的量子电路,并提出了等级的量子图电路(EQGCS),作为一类参数化量子电路,具有强大的关系感应偏压,用于学习图形结构数据。概念上,EQGCS作为量子图表表示学习的统一框架,允许我们定义几个有趣的子类,其中包含了现有的提案。就代表性权力而言,我们证明了感兴趣的子类是界限图域中的函数的普遍近似器,并提供实验证据。我们对量子图机学习方法的理论透视开启了许多方向以进行进一步的工作,可能导致具有超出古典方法的能力的模型。
translated by 谷歌翻译
我们首先部分发展了稳定一致性的数学概念,该概念旨在反映人类的实际一致性。然后,我们将第一和第二个g \“ ODEL不完整定理的概括为稳定为$ 1,2 $ cosististers的正式系统。我们的论点尤其是从第一原理中重新提供了原始不完整定理,使用图灵机器使用Turing Machine语言(可计算)直接构建我们的“ g \ odel句子”,特别是我们不使用对角线引理,也不使用任何元逻辑,而是在集合理论中自然化的证据。在实践中,如此稳定的正式系统可以旨在代表人类的数学输出,以便上述对G \” Odel的著名脱节的形式化,从而阻碍了智力的计算。
translated by 谷歌翻译
从样本中学习概率分布的任务在整个自然科学中无处不在。局部量子电路的输出分布构成了一类特别有趣的分布类别,对量子优势提案和各种量子机学习算法都具有关键的重要性。在这项工作中,我们提供了局部量子电路输出分布的可学习性的广泛表征。我们的第一个结果可以深入了解这些分布的有效学习性与有效的可模拟性之间的关系。具体而言,我们证明与Clifford电路相关的密度建模问题可以有效地解决,而对于深度$ d = n^{\ omega(1)} $电路,将单个$ t $ gate注入到电路中,这使这是如此问题很难。该结果表明,有效的模拟性并不意味着有效的可学习性。我们的第二组结果提供了对量子生成建模算法的潜在和局限性的见解。我们首先证明与深度$ d = n^{\ omega(1)} $局部量子电路相关的生成建模问题对于任何学习算法,经典或量子都很难。结果,一个人不能使用量子算法来为此任务获得实际优势。然后,我们证明,对于各种最实际相关的学习算法(包括混合量词古典算法),即使是与深度$ d = \ omega(\ log(n))$ Clifford Circuits相关的生成建模问题也是如此难的。该结果对近期混合量子古典生成建模算法的适用性造成了限制。
translated by 谷歌翻译
即使在数十年的量子计算开发之后,通常在经典同行中具有指数加速的通常有用量子算法的示例是稀缺的。线性代数定位量子机学习(QML)的量子算法中的最新进展作为这种有用的指数改进的潜在来源。然而,在一个意想不到的发展中,最近一系列的“追逐化”结果同样迅速消除了几个QML算法的指数加速度的承诺。这提出了关键问题是否是其他线性代数QML算法的指数加速度持续存在。在本文中,我们通过该镜头研究了Lloyd,Garnerone和Zanardi的拓扑数据分析算法后面的量子算法方法。我们提供了证据表明,该算法解决的问题通过表明其自然概括与模拟一个清洁量子位模型很难地难以进行棘手的 - 这被广泛认为需要在经典计算机上需要超时时间 - 并且非常可能免疫追逐。基于此结果,我们为等级估计和复杂网络分析等问题提供了许多新的量子算法,以及其经典侵害性的复杂性 - 理论上。此外,我们分析了近期实现的所提出的量子算法的适用性。我们的结果为全面吹嘘和限制的量子计算机提供了许多有用的应用程序,具有古典方法的保证指数加速,恢复了线性代数QML的一些潜力,以成为量子计算的杀手应用之一。
translated by 谷歌翻译
Transformers-based models, such as BERT, have been one of the most successful deep learning models for NLP. Unfortunately, one of their core limitations is the quadratic dependency (mainly in terms of memory) on the sequence length due to their full attention mechanism. To remedy this, we propose, BIGBIRD, a sparse attention mechanism that reduces this quadratic dependency to linear. We show that BIGBIRD is a universal approximator of sequence functions and is Turing complete, thereby preserving these properties of the quadratic, full attention model. Along the way, our theoretical analysis reveals some of the benefits of having O(1) global tokens (such as CLS), that attend to the entire sequence as part of the sparse attention mechanism. The proposed sparse attention can handle sequences of length up to 8x of what was previously possible using similar hardware. As a consequence of the capability to handle longer context, BIGBIRD drastically improves performance on various NLP tasks such as question answering and summarization. We also propose novel applications to genomics data.
translated by 谷歌翻译
大多数-AT是确定联合正常形式(CNF)中输入$ N $的最低价公式的问题至少为2 ^ {n-1} $令人满意的作业。在对概率规划和推论复杂性的各种AI社区中,广泛研究了多数饱和问题。虽然大多数饱满为期40多年来,但自然变体的复杂性保持开放:大多数 - $ k $ SAT,其中输入CNF公式仅限于最多$ k $的子句宽度。我们证明,每辆$ k $,大多数 - $ k $ sat是在p的。事实上,对于任何正整数$ k $和ratic $ \ rho \ in(0,1)$ in(0,1)$与有界分比者,我们给出了算法这可以确定给定的$ k $ -cnf是否至少有$ \ rho \ cdot 2 ^ n $令人满意的分配,在确定性线性时间(而先前的最着名的算法在指数时间中运行)。我们的算法对计算复杂性和推理的复杂性具有有趣的积极影响,显着降低了相关问题的已知复杂性,例如E-Maj-$ K $ Sat和Maj-Maj- $ K $ Sat。在我们的方法中,通过提取在$ k $ -cnf的相应设置系统中发现的向日葵,可以通过提取向日葵来解决阈值计数问题的有效方法。我们还表明,大多数 - $ k $ sat的易腐烂性有些脆弱。对于密切相关的gtmajority-sat问题(我们询问给定公式是否超过2 ^ {n-1} $满足分配),这已知是pp-cleanting的,我们表明gtmajority-$ k $ sat在p for $ k \ le 3 $,但为$ k \ geq 4 $完成np-cleante。这些结果是违反直觉的,因为这些问题的“自然”分类将是PP完整性,因为GTMAJority的复杂性存在显着差异 - $ k $ SAT和MOSTION- $ K $ SAT为所有$ k \ ge 4 $。
translated by 谷歌翻译
In this work we provide efficient distributed protocols for generating shares of random noise, secure against malicious participants. The purpose of the noise generation is to create a distributed implementation of the privacy-preserving statistical databases described in recent papers [14,4,13]. In these databases, privacy is obtained by perturbing the true answer to a database query by the addition of a small amount of Gaussian or exponentially distributed random noise. The computational power of even a simple form of these databases, when the query is just of the form i f (di), that is, the sum over all rows i in the database of a function f applied to the data in row i, has been demonstrated in [4]. A distributed implementation eliminates the need for a trusted database administrator.The results for noise generation are of independent interest. The generation of Gaussian noise introduces a technique for distributing shares of many unbiased coins with fewer executions of verifiable secret sharing than would be needed using previous approaches (reduced by a factor of n). The generation of exponentially distributed noise uses two shallow circuits: one for generating many arbitrarily but identically biased coins at an amortized cost of two unbiased random bits apiece, independent of the bias, and the other to combine bits of appropriate biases to obtain an exponential distribution.
translated by 谷歌翻译
任何涉及一组随机变量的概率模型的主要用途是在其上运行推理和采样查询。经典概率模型中的推理查询是通过计算作为输入的事件的边际或条件概率的计算。当概率模型是顺序的时,涉及复杂语法的更复杂的边际推理查询可能会在计算语言学和NLP等领域中引起人们的关注。在这项工作中,我们解决了在隐藏的马尔可夫模型(HMMS)中计算无上下文语法(CFG)的可能性的问题。我们提供了一种动态算法,用于确切计算无上下文的语法类别的可能性。我们表明问题是NP-HARD,即使输入CFG的歧义性程度小于或等于2。然后我们提出了一种完全多项式随机近似方案(FPRAS)算法,以近似案例的可能性多项式结合的模棱两可的CFG。
translated by 谷歌翻译