我们研究了三个看似不同的组合结构之间的联系 - 在统计和概率理论中的“统一”括号,“在线和分布式学习理论”和“组合MacBeath地区”,或者在离散和计算几何中的MNET。我们表明这三个概念是单一组合物业的表现,可以在沿着VAPNIK-Chervonenkis型理论的统一框架中表达的统一收敛性。这些新连接有助于我们带来来自离散和计算几何的工具,以证明这些对象的改进界限。我们改进的界限有助于获得半个空间的分布式学习的最佳算法,一种改进的分布式凸起脱节问题,以及对大类半代数阈值函数的平滑对手的在线算法的改进的后悔界限。
translated by 谷歌翻译
我们研究数据近似和优化中的关键工具之一:低分配颜色。正式地,给定有限集系统$(x,\ nathcal s)$,两颜色的$ \ chi的\ emph {vrionpancy}:x \ to \ to \ to \ { - 1,1 \} $定义为$ \ max_ {s \ in \ Mathcal s} | {\ chi(s)} | $,其中$ \ chi(s)= \ sum \ limits_ {x \ in s} \ chi(x)$。我们提出了一种随机算法,对于任何$ d> 0 $和$(x,\ mathcal s)$,带有双重粉碎功能$ \ pi^*(k)= o(k^d)$,返回带有预期的着色差异$ o \ left({\ sqrt {| x |^{1-1/d} \ log | \ mathcal s |}}}} \ right)$(此绑定是紧密的)时间$ \ tilde o \ left({{ | \ Mathcal S | \ CDOT | X |^{1/d}+| X |^{2+1/d}}} \ right)$,在$ o \ left的先前最佳时间(| \ Mathcal)改进s | \ cdot | x |^3 \ right)$至少为$ | x |^{2-1/d} $时,当$ | \ | \ Mathcal S | \ geq | x | $。该设置包括许多几何类别,有界双VC维度的家庭等。直接的结果,我们获得了一种改进的算法来构建子分数大小的$ \ varepsilon $ approximations。我们的方法使用原始偶重新升高,通过对随机更新的权重进行了改进的分析,并通过匹配度的匹配数低 - 计算几何形状的基本结构。特别是,我们获得了相同的$ | x |^{2-1/d} $ factor factor factor factor facter intherting the Match of crotsing number $ o \ left的施工时间({| x |^{1-1/d} } \ right)$,这是自1980年代以来的第一个改进。所提出的算法非常简单,这使得首次有可能具有近乎最佳差异的颜色,并且在高于$ 2 $的尺寸的抽象和几何套装系统中,对于抽象和几何设置系统的近似近似值。
translated by 谷歌翻译
令$ \ mathscr {f} _ {n,d} $为所有函数的类$ f:\ { - { - 1,1 \}^n \ to [-1,1] $ to $ n $ dipermensional discement to [-1,1] $超级立方体最多$ d $。在本文的第一部分中,我们证明了学习$ \ mathscr {f} _ {n,d} $的任何(确定性或随机)算法带有$ l_2 $ -accuracy $ \ varepsilon $至少需要$ \ omega( (1- \ sqrt {\ varepsilon})2^d \ log n)$ queries for tomy $ n $,从而将锋利性确定为$ n \ to \ fty \ fty \ infty $ y iffty $,eSkenazis and Ivanisvili(2021)(2021) 。为此,我们表明$ l_2 $ - 包装数字$ \ Mathsf {m}(\ Mathscr {f} _ {n,d},\ | \ cdot \ | _ {l_2},\ varepsilon)$概念类$ \ mathscr {f} _ {n,d} $满足双面估计$$ c(1- \ varepsilon)2^d \ log n \ log n \ leq \ log \ log \ mathsf {m mathsf {m}(\ mathscr) } _ {n,d},\ | \ cdot \ | _ {l_2},\ varepsilon)\ leq \ frac {2^{cd} \ log n} {\ varepsilon^4} $ n $ ,其中$ c,c> 0 $是通用常数。在本文的第二部分中,我们提出了一个对数上限,以实现有界近似多项式类别的随机查询复杂性,其傅立叶光谱集中在很少的子集上。作为应用程序,我们证明了学习给定程度的近似作者所需的随机查询数量的新估计值,具有快速衰减的傅立叶尾巴和给定尺寸的恒定深度电路的功能。最后,我们获得了学习多项式类$ \ mathscr {f} _ {n,d} $所需的查询数量的界限,而在查询和随机示例模型中没有错误。
translated by 谷歌翻译
Boosting是一种著名的机器学习方法,它基于将弱和适度不准确假设与强烈而准确的假设相结合的想法。我们研究了弱假设属于界限能力类别的假设。这个假设的灵感来自共同的惯例,即虚弱的假设是“易于学习的类别”中的“人数规则”。 (Schapire和Freund〜 '12,Shalev-Shwartz和Ben-David '14。)正式,我们假设弱假设类别具有有界的VC维度。我们关注两个主要问题:(i)甲骨文的复杂性:产生准确的假设需要多少个弱假设?我们设计了一种新颖的增强算法,并证明它绕过了由Freund和Schapire('95,'12)的经典下限。虽然下限显示$ \ omega({1}/{\ gamma^2})$弱假设有时是必要的,而有时则需要使用$ \ gamma $ -margin,但我们的新方法仅需要$ \ tilde {o}({1})({1}) /{\ gamma})$弱假设,前提是它们属于一类有界的VC维度。与以前的增强算法以多数票汇总了弱假设的算法不同,新的增强算法使用了更复杂(“更深”)的聚合规则。我们通过表明复杂的聚合规则实际上是规避上述下限是必要的,从而补充了这一结果。 (ii)表现力:通过提高有限的VC类的弱假设可以学习哪些任务?可以学到“遥远”的复杂概念吗?为了回答第一个问题,我们{介绍组合几何参数,这些参数捕获增强的表现力。}作为推论,我们为认真的班级的第二个问题提供了肯定的答案,包括半空间和决策树桩。一路上,我们建立并利用差异理论的联系。
translated by 谷歌翻译
K-MEDIAN和K-MEACE是聚类算法的两个最受欢迎的目标。尽管有密集的努力,但对这些目标的近似性很好地了解,特别是在$ \ ell_p $ -metrics中,仍然是一个重大的开放问题。在本文中,我们在$ \ ell_p $ -metrics中显着提高了文献中已知的近似因素的硬度。我们介绍了一个名为Johnson覆盖假说(JCH)的新假设,这大致断言设定系统上的良好的Max K-Coverage问题难以近似于1-1 / e,即使是成员图形设置系统是Johnson图的子图。然后,我们展示了Cohen-Addad和Karthik引入的嵌入技术的概括(Focs'19),JCH意味着K-MEDIAN和K-MERION在$ \ ell_p $ -metrics中的近似结果的近似值的硬度为近距离对于一般指标获得的人。特别地,假设JCH我们表明很难近似K-Meator目标:$ \ Bullet $离散情况:$ \ ell_1 $ 3.94 - $ \ ell_2中的1.73因素为1.73倍$$ - 这分别在UGC下获得了1.56和1.17的先前因子。 $ \ bullet $持续案例:$ \ ell_1 $ 2210 - $ \ ell_2 $的$ \ ell_1 $ 210。$ \ ell_2 $-metric;这在UGC下获得的$ \ ell_2 $的$ \ ell_2 $的先前因子提高了1.07。对于K-Median目标,我们还获得了类似的改进。此外,我们使用Dinure等人的工作证明了JCH的弱版本。 (Sicomp'05)在超图顶点封面上,恢复Cohen-Addad和Karthik(Focs'19 Focs'19)上面的所有结果(近)相同的不可识别因素,但现在在标准的NP $ \ NEQ $ P假设下(代替UGC)。
translated by 谷歌翻译
学习曲线将学习算法的预期误差绘制为标记输入样本数量的函数。它们被机器学习实践者广泛使用,以衡量算法的性能,但是经典的PAC学习理论无法解释其行为。在本文中,我们介绍了一种称为VCL维度的新组合表征,该表征改进并完善了Bousquet等人的最新结果。 (2021)。我们的表征通过提供细粒度的边界来展示学习曲线的结构,并表明对于有限VCL的类,可以将衰减的速率分解为仅取决于假设类别和指数成分的线性组件,该成分是指数的成分。还取决于目标分布。特别是,VCL维度的细微差别意味着比Bousquet等人的边界更强大的下限。 (2021年),比经典的“无免费午餐”下界强。 VCL表征解决了Antos and Lugosi(1998)研究的一个开放问题,他们询问在哪些情况下存在这种下限。作为推论,我们在$ \ mathbb {r}^d $中恢复了其下限,并以原则性的方式也适用于其他情况。最后,为了对我们的工作以及与传统PAC学习界的比较提供另一个观点,我们还以一种更接近PAC环境的语言展示了结果的替代表述。
translated by 谷歌翻译
我们考虑在对抗环境中的强大学习模型。学习者获得未腐败的培训数据,并访问可能受到测试期间对手影响的可能腐败。学习者的目标是建立一个强大的分类器,该分类器将在未来的对抗示例中进行测试。每个输入的对手仅限于$ k $可能的损坏。我们将学习者 - 对手互动建模为零和游戏。该模型与Schmidt等人的对抗示例模型密切相关。 (2018); Madry等。 (2017)。我们的主要结果包括对二进制和多类分类的概括界限,以及实现的情况(回归)。对于二元分类设置,我们都拧紧Feige等人的概括。 (2015年),也能够处理无限假设类别。样本复杂度从$ o(\ frac {1} {\ epsilon^4} \ log(\ frac {| h |} {\ delta})$ to $ o \ big(\ frac {1} { epsilon^2}(kvc(h)\ log^{\ frac {3} {2}+\ alpha}(kvc(h))+\ log(\ frac {1} {\ delta} {\ delta})\ big)\ big)\ big)$ for任何$ \ alpha> 0 $。此外,我们将算法和概括从二进制限制到多类和真实价值的案例。一路上,我们获得了脂肪震惊的尺寸和$ k $ fold的脂肪的尺寸和Rademacher复杂性的结果最大值的功能类别;这些可能具有独立的兴趣。对于二进制分类,Feige等人(2015年)使用遗憾的最小化算法和Erm Oracle作为黑匣子;我们适应了多类和回归设置。该算法为我们提供了给定培训样本中的球员的近乎最佳政策。
translated by 谷歌翻译
在这项工作中,我们调查了Steinke和Zakynthinou(2020)的“条件互信息”(CMI)框架的表现力,以及使用它来提供统一框架,用于在可实现的环境中证明泛化界限。我们首先证明可以使用该框架来表达任何用于从一类界限VC维度输出假设的任何学习算法的非琐碎(但是次优)界限。我们证明了CMI框架在用于学习半个空间的预期风险上产生最佳限制。该结果是我们的一般结果的应用,显示稳定的压缩方案Bousquet al。 (2020)尺寸$ k $有统一有限的命令$ o(k)$。我们进一步表明,适当学习VC类的固有限制与恒定的CMI存在适当的学习者的存在,并且它意味着对Steinke和Zakynthinou(2020)的开放问题的负面分辨率。我们进一步研究了价值最低限度(ERMS)的CMI的级别$ H $,并表明,如果才能使用有界CMI输出所有一致的分类器(版本空间),只有在$ H $具有有界的星号(Hanneke和杨(2015)))。此外,我们证明了一般性的减少,表明“休假”分析通过CMI框架表示。作为推论,我们研究了Haussler等人提出的一包图算法的CMI。 (1994)。更一般地说,我们表明CMI框架是通用的,因为对于每一项一致的算法和数据分布,当且仅当其评估的CMI具有样品的载位增长时,预期的风险就会消失。
translated by 谷歌翻译
我们研究神经网络表达能力的基本限制。给定两组$ f $,$ g $的实值函数,我们首先证明了$ f $中的功能的一般下限,可以在$ l^p(\ mu)$ norm中通过$ g中的功能近似$,对于任何$ p \ geq 1 $和任何概率度量$ \ mu $。下限取决于$ f $的包装数,$ f $的范围以及$ g $的脂肪震动尺寸。然后,我们实例化了$ g $对应于分段的馈电神经网络的情况,并详细描述了两组$ f $:h {\“ o} lder balls和多变量单调函数。除了匹配(已知或新的)上限与日志因素外,我们的下限还阐明了$ l^p $ Norm或SUP Norm中近似之间的相似性或差异,解决了Devore等人的开放问题(2021年))。我们的证明策略与SUP Norm案例不同,并使用了Mendelson(2002)的关键概率结果。
translated by 谷歌翻译
We first prove that Littlestone classes, those which model theorists call stable, characterize learnability in a new statistical model: a learner in this new setting outputs the same hypothesis, up to measure zero, with probability one, after a uniformly bounded number of revisions. This fills a certain gap in the literature, and sets the stage for an approximation theorem characterizing Littlestone classes in terms of a range of learning models, by analogy to definability of types in model theory. We then give a complete analogue of Shelah's celebrated (and perhaps a priori untranslatable) Unstable Formula Theorem in the learning setting, with algorithmic arguments taking the place of the infinite.
translated by 谷歌翻译
我们研究了顺序预测和在线minimax遗憾的问题,并在一般损失函数下具有随机生成的特征。我们介绍了一个预期的最坏情况下的概念minimax遗憾,它概括并涵盖了先前已知的minimax遗憾。对于这种极匹马的遗憾,我们通过随机全局顺序覆盖的新颖概念建立了紧密的上限。我们表明,对于VC-Dimension $ \ Mathsf {Vc} $和$ I.I.D. $生成的长度$ t $的假设类别,随机全局顺序覆盖的基数可以在上限上限制高概率(WHP) e^{o(\ mathsf {vc} \ cdot \ log^2 t)} $。然后,我们通过引入一种称为Star-Littlestone维度的新复杂度度量来改善这种束缚,并显示与Star-Littlestone dimension $ \ Mathsf {Slsf {sl} $类别的类别允许订单的随机全局顺序覆盖$ e^{o(\ Mathsf) {sl} \ cdot \ log t)} $。我们进一步建立了具有有限脂肪的数字的真实有价值类的上限。最后,通过应用固定设计的Minimax遗憾的信息理论工具,我们为预期的最坏情况下的Minimax遗憾提供了下限。我们通过在预期的最坏情况下对对数损失和一般可混合损失的遗憾建立紧密的界限来证明我们的方法的有效性。
translated by 谷歌翻译
考虑到数据在几个方之间分配的学习任务,沟通是当事方希望最大程度地减少的基本资源之一。我们提出了一种分布式增强算法,该算法具有有限的噪声。我们的算法类似于经典的增强算法,尽管它配备了一种新组件,灵感来自Impagliazzo的硬核Lemma \ cite {Impagliazzo1995hard},并在算法中添加了健壮性质量。我们还通过证明对任何渐近上更大的噪声的弹性是无法通过沟通效率算法来实现的,从而补充了这一结果。
translated by 谷歌翻译
我们派生并分析了一种用于估计有限簇树中的所有分裂的通用,递归算法以及相应的群集。我们进一步研究了从内核密度估计器接收级别设置估计时该通用聚类算法的统计特性。特别是,我们推出了有限的样本保证,一致性,收敛率以及用于选择内核带宽的自适应数据驱动策略。对于这些结果,我们不需要与H \“{o}连续性等密度的连续性假设,而是仅需要非参数性质的直观几何假设。
translated by 谷歌翻译
可实现和不可知性的可读性的等价性是学习理论的基本现象。与PAC学习和回归等古典设置范围的变种,近期趋势,如对冲强劲和私人学习,我们仍然缺乏统一理论;等同性的传统证据往往是不同的,并且依赖于强大的模型特异性假设,如统一的收敛和样本压缩。在这项工作中,我们给出了第一个独立的框架,解释了可实现和不可知性的可读性的等价性:三行黑箱减少简化,统一,并在各种各样的环境中扩展了我们的理解。这包括没有已知的学报的模型,例如学习任意分布假设或一般损失,以及许多其他流行的设置,例如强大的学习,部分学习,公平学习和统计查询模型。更一般地,我们认为可实现和不可知的学习的等价性实际上是我们调用属性概括的更广泛现象的特殊情况:可以满足有限的学习算法(例如\噪声公差,隐私,稳定性)的任何理想性质假设类(可能在某些变化中)延伸到任何学习的假设类。
translated by 谷歌翻译
A classical result in learning theory shows the equivalence of PAC learnability of binary hypothesis classes and the finiteness of VC dimension. Extending this to the multiclass setting was an open problem, which was settled in a recent breakthrough result characterizing multiclass PAC learnability via the DS dimension introduced earlier by Daniely and Shalev-Shwartz. In this work we consider list PAC learning where the goal is to output a list of $k$ predictions. List learning algorithms have been developed in several settings before and indeed, list learning played an important role in the recent characterization of multiclass learnability. In this work we ask: when is it possible to $k$-list learn a hypothesis class? We completely characterize $k$-list learnability in terms of a generalization of DS dimension that we call the $k$-DS dimension. Generalizing the recent characterization of multiclass learnability, we show that a hypothesis class is $k$-list learnable if and only if the $k$-DS dimension is finite.
translated by 谷歌翻译
我们介绍了可以由具有Maxout单位的人造馈电神经网络表示的功能线性区域的数量。排名kaxout单元是一个函数,计算$ k $线性函数的最大值。对于具有单层Maxout单元的网络,线性区域对应于Minkowski多型的上顶点。我们根据热带超曲面的交点或部分Minkowski总和的上面数,以及任何输入维度的区域数,任何单位数量,任何等级,任何等级,任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,以及任何等级,在有和没有偏见的情况下。基于这些结果,我们还为具有多层的网络获得了渐近的上限。
translated by 谷歌翻译
众所周知,现代神经网络容易受到对抗例子的影响。为了减轻这个问题,已经提出了一系列强大的学习算法。但是,尽管通过某些方法可以通过某些方法接近稳定的训练误差,但所有现有的算法都会导致较高的鲁棒概括误差。在本文中,我们从深层神经网络的表达能力的角度提供了对这种令人困惑的现象的理论理解。具体而言,对于二进制分类数据,我们表明,对于Relu网络,虽然轻度的过度参数足以满足较高的鲁棒训练精度,但存在持续的稳健概括差距,除非神经网络的大小是指数的,却是指数的。数据维度$ d $。即使数据是线性可分离的,这意味着要实现低清洁概括错误很容易,我们仍然可以证明$ \ exp({\ omega}(d))$下限可用于鲁棒概括。通常,只要它们的VC维度最多是参数数量,我们的指数下限也适用于各种神经网络家族和其他功能类别。此外,我们为网络大小建立了$ \ exp({\ mathcal {o}}(k))$的改进的上限,当数据放在具有内在尺寸$ k $的歧管上时,以实现低鲁棒的概括错误($) k \ ll d $)。尽管如此,我们也有一个下限,相对于$ k $成倍增长 - 维度的诅咒是不可避免的。通过证明网络大小之间的指数分离以实现较低的鲁棒训练和泛化错误,我们的结果表明,鲁棒概括的硬度可能源于实用模型的表现力。
translated by 谷歌翻译
我们研究了Massart噪声的PAC学习半圆的问题。给定标记的样本$(x,y)$从$ \ mathbb {r} ^ {d} ^ {d} \ times \ times \ {\ pm 1 \} $,这样的例子是任意的和标签$ y $ y $ y $ x $是由按萨塔特对手损坏的目标半空间与翻转概率$ \ eta(x)\ leq \ eta \ leq 1/2 $,目标是用小小的假设计算假设错误分类错误。这个问题的最佳已知$ \ mathrm {poly}(d,1 / \ epsilon)$时间算法实现$ \ eta + \ epsilon $的错误,这可能远离$ \ mathrm {opt} +的最佳界限\ epsilon $,$ \ mathrm {opt} = \ mathbf {e} _ {x \ sim d_x} [\ eta(x)] $。虽然已知实现$ \ mathrm {opt} + O(1)$误差需要超级多项式时间在统计查询模型中,但是在已知的上限和下限之间存在大的间隙。在这项工作中,我们基本上表征了统计查询(SQ)模型中Massart HalfSpaces的有效可读性。具体来说,我们表明,在$ \ mathbb {r} ^ d $中没有高效的sq算法用于学习massart halfpaces ^ d $可以比$ \ omega(\ eta)$更好地实现错误,即使$ \ mathrm {opt} = 2 ^ { - - \ log ^ {c}(d)$,适用于任何通用常量$ c \ in(0,1)$。此外,当噪声上限$ \ eta $接近$ 1/2 $时,我们的错误下限变为$ \ eta - o _ {\ eta}(1)$,其中$ o _ {\ eta}(1)$当$ \ eta $接近$ 1/2 $时,术语达到0美元。我们的结果提供了强有力的证据表明,大规模半空间的已知学习算法几乎是最可能的,从而解决学习理论中的长期开放问题。
translated by 谷歌翻译
我们在高斯分布下使用Massart噪声与Massart噪声进行PAC学习半个空间的问题。在Massart模型中,允许对手将每个点$ \ mathbf {x} $的标签与未知概率$ \ eta(\ mathbf {x})\ leq \ eta $,用于某些参数$ \ eta \ [0,1 / 2] $。目标是找到一个假设$ \ mathrm {opt} + \ epsilon $的错误分类错误,其中$ \ mathrm {opt} $是目标半空间的错误。此前已经在两个假设下研究了这个问题:(i)目标半空间是同质的(即,分离超平面通过原点),并且(ii)参数$ \ eta $严格小于$ 1/2 $。在此工作之前,当除去这些假设中的任何一个时,不知道非增长的界限。我们研究了一般问题并建立以下内容:对于$ \ eta <1/2 $,我们为一般半个空间提供了一个学习算法,采用样本和计算复杂度$ d ^ {o_ {\ eta}(\ log(1 / \ gamma) )))}} \ mathrm {poly}(1 / \ epsilon)$,其中$ \ gamma = \ max \ {\ epsilon,\ min \ {\ mathbf {pr} [f(\ mathbf {x})= 1], \ mathbf {pr} [f(\ mathbf {x})= -1] \} \} $是目标半空间$ f $的偏差。现有的高效算法只能处理$ \ gamma = 1/2 $的特殊情况。有趣的是,我们建立了$ d ^ {\ oomega(\ log(\ log(\ log(\ log))}}的质量匹配的下限,而是任何统计查询(SQ)算法的复杂性。对于$ \ eta = 1/2 $,我们为一般半空间提供了一个学习算法,具有样本和计算复杂度$ o_ \ epsilon(1)d ^ {o(\ log(1 / epsilon))} $。即使对于均匀半空间的子类,这个结果也是新的;均匀Massart半个空间的现有算法为$ \ eta = 1/2 $提供可持续的保证。我们与D ^ {\ omega(\ log(\ log(\ log(\ log(\ epsilon))} $的近似匹配的sq下限补充了我们的上限,这甚至可以为同类半空间的特殊情况而保持。
translated by 谷歌翻译
在本文中,我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具,用于估计这些空间的度量熵,近似率和$ n $宽度。首先,我们介绍了平滑参数化词典的概念,并在非线性近似速率,度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典,并且在许多情况下它们的现有结果改善了。接下来,我们提供了一种方法,用于下限度量熵和$ n $ widths的变化空间,其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率,度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。
translated by 谷歌翻译