我们研究了基础模型的能力,以了解可转让给新的看不见的课程的分类的表现。文献中最近的结果表明,单个分类器在许多课程中学到的表示在少量学习问题上具有竞争力,这些问题是由专为这些问题设计的特殊用途算法学习的表示。在本文中,我们基于最近观察到的现象提供了对这种行为的解释,即通过共同计量的分类网络学习的特征显示有趣的聚类属性,称为神经崩溃。理论上,我们在理论上展示了神经崩溃的展示给来自培训类的新样本,更重要的是 - 对于新课程,允许基础模型提供在转移学习中良好工作的特征地图,具体地,少量拍摄设置。
translated by 谷歌翻译
We study the ability of foundation models to learn representations for classification that are transferable to new, unseen classes. Recent results in the literature show that representations learned by a single classifier over many classes are competitive on few-shot learning problems with representations learned by special-purpose algorithms designed for such problems. We offer an explanation for this phenomenon based on the concept of class-features variability collapse, which refers to the training dynamics of deep classification networks where the feature embeddings of samples belonging to the same class tend to concentrate around their class means. More specifically, we examine the few-shot error of the learned feature map, which is the classification error of the nearest class-center classifier using centers learned from a small number of random samples from each class. Assuming that the classes appearing in the data are selected independently from a distribution, we show that the few-shot error generalizes from the training data to unseen test data, and we provide an upper bound on the expected few-shot error for new classes (selected from the same distribution) using the average few-shot error for the source classes. Additionally, we show that the few-shot error on the training data can be upper bounded using the degree of class-features variability collapse. This suggests that foundation models can provide feature maps that are transferable to new downstream tasks even with limited data available.
translated by 谷歌翻译
文献中的最新结果表明,经过分类训练的神经网络的倒数第二层(倒数第二层)表示,展示了一种称为神经崩溃的聚类特性(NC)。我们研究训练深神经网络时,随机梯度下降(SGD)的隐式偏见,有利于低深度溶液。我们表征了有效深度的概念,该概念测量了使用最近级中心分类器可分离样品嵌入的第一层。此外,我们假设和经验表明,SGD隐含地选择了小有效深度的神经网络。其次,尽管即使不可能进行概括,但神经崩溃也会出现 - 我们认为,中间层中的\ emph {可分离性}与概括有关。我们得出了一个基于将网络的有效深度与与部分损坏的标签相同的数据集进行比较最小深度的限制。值得注意的是,这种结合提供了对测试性能的非平凡估计。最后,我们从经验上表明,在增加数据中随机标签的数量时,受过训练的神经网络的有效深度会单调增加。
translated by 谷歌翻译
自我监督学习中的最新作品通过依靠对比度学习范式来推动最先进的工作,该范式通过推动正面对或从同一班级中的类似示例来学习表示形式,同时将负面对截然不同。尽管取得了经验的成功,但理论基础是有限的 - 先前的分析假设鉴于同一类标签的正对有条件独立性,但是最近的经验应用使用了密切相关的正对(即同一图像的数据增强)。我们的工作分析了对比度学习,而无需在数据上使用增强图的新概念假设正对的有条件独立性。此图中的边缘连接相同数据的增强,而地面实际类别自然形成了连接的子图。我们提出了在人口增强图上执行光谱分解的损失,并且可以简洁地作为对神经净表示的对比学习目标。最小化此目标会导致在线性探针评估下具有可证明准确性的功能。通过标准的概括范围,在最大程度地减少训练对比度损失时,这些准确性也可以保证。从经验上讲,我们目标所学的功能可以匹配或胜过基准视觉数据集上的几个强基线。总的来说,这项工作为对比度学习提供了首次可证明的分析,在该学习中,线性探针评估的保证可以适用于现实的经验环境。
translated by 谷歌翻译
了解深度神经网络的泛化是深度学习中最重要的任务之一。虽然已经取得了很大进展,但理论错误界限仍然往往与经验观察结果不同。在这项工作中,我们开发基于保证金的泛化界,其中边距是在从训练分布中采样的独立随机子集之间的最佳运输成本标准化。特别地,最佳运输成本可以被解释为方差的概念,其捕获学习特征空间的结构特性。我们的界限强大地预测了在大规模数据集上给定培训数据和网络参数的泛化误差。从理论上讲,我们表明特征的浓度和分离在泛化中起着至关重要的作用,支持文献中的经验结果。该代码可用于\ url {https:/github.com/chingyaoc/kv-margin}。
translated by 谷歌翻译
The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized?In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network.On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.
translated by 谷歌翻译
模型不足的元学习(MAML)已越来越流行,对于可以通过一个或几个随机梯度下降步骤迅速适应新任务的训练模型。但是,与标准的非自适应学习(NAL)相比,MAML目标更难优化,并且几乎没有理解MAML在各种情况下的溶液的快速适应性方面的改善。我们通过线性回归设置进行分析解决此问题,该设置由简单而艰难的任务组成,其中硬度与梯度下降在任务上收敛的速率有关。具体而言,我们证明,为了使MAML比NAL获得可观的收益,(i)任务之间的硬度必须有一定的差异,并且(ii)艰苦任务的最佳解决方案必须与中心远离远离中心。简单任务最佳解决方案的中心。我们还提供数值和分析结果,表明这些见解适用于两层神经网络。最后,我们提供了很少的图像分类实验,可以支持我们何时使用MAML的见解,并强调培训MAML对实践中的艰巨任务的重要性。
translated by 谷歌翻译
分发概括是将模型从实验室转移到现实世界时的关键挑战之一。现有努力主要侧重于源和目标域之间建立不变的功能。基于不变的功能,源域上的高性能分类可以在目标域上同样良好。换句话说,不变的功能是\ emph {transcorable}。然而,在实践中,没有完全可转换的功能,并且一些算法似乎学习比其他算法更学习“更可转移”的特征。我们如何理解和量化此类\ EMPH {可转录性}?在本文中,我们正式定义了一种可以量化和计算域泛化的可转换性。我们指出了与域之间的常见差异措施的差异和连接,例如总变化和Wassersein距离。然后,我们证明我们可以使用足够的样本估计我们的可转换性,并根据我们的可转移提供目标误差的新上限。经验上,我们评估现有算法学习的特征嵌入的可转换性,以获得域泛化。令人惊讶的是,我们发现许多算法并不完全学习可转让的功能,尽管很少有人仍然可以生存。鉴于此,我们提出了一种用于学习可转移功能的新算法,并在各种基准数据集中测试,包括RotationMnist,PACS,Office和Wilds-FMOW。实验结果表明,该算法在许多最先进的算法上实现了一致的改进,证实了我们的理论发现。
translated by 谷歌翻译
在本文中,我们考虑了多任务表示(MTR)的框架学习的目标是使用源任务来学习降低求解目标任务的样本复杂性的表示形式。我们首先回顾MTR理论的最新进展,并表明它们可以在此框架内进行分析时为流行的元学习算法提供新颖的见解。特别是,我们重点介绍了实践中基于梯度和基于度量的算法之间的根本差异,并提出了理论分析来解释它。最后,我们使用派生的见解来通过新的基于光谱的正则化项来提高元学习方法的性能,并通过对少量分类基准的实验研究确认其效率。据我们所知,这是将MTR理论的最新学习范围付诸实践的第一项贡献,以实现几乎没有射击分类的任务。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
神经崩溃的概念是指在各种规范分类问题中经验观察到的几种新兴现象。在训练深度神经网络的终端阶段,同一类的所有示例的特征嵌入往往会崩溃为单一表示,而不同类别的特征往往会尽可能分开。通常通过简化的模型(称为无约束的特征表示)来研究神经崩溃,其中假定模型具有“无限表达性”,并且可以将每个数据点映射到任何任意表示。在这项工作中,我们提出了不受约束的功能表示的更现实的变体,该变体考虑到了网络的有限表达性。经验证据表明,嘈杂数据点的记忆导致神经崩溃的降解(扩张)。使用记忆 - 稀释(M-D)现象的模型,我们展示了一种机制,通过该机制,不同的损失导致嘈杂数据上受过训练的网络的不同性能。我们的证据揭示了为什么标签平滑性(经验观察到产生正则化效果的跨凝性的修改)导致分类任务的概括改善的原因。
translated by 谷歌翻译
深入学习在现代分类任务中取得了许多突破。已经提出了众多架构用于不同的数据结构,但是当涉及丢失功能时,跨熵损失是主要的选择。最近,若干替代损失已经看到了深度分类器的恢复利益。特别是,经验证据似乎促进了方形损失,但仍然缺乏理论效果。在这项工作中,我们通过系统地研究了在神经切线内核(NTK)制度中的过度分化的神经网络的表现方式来促进对分类方面损失的理论理解。揭示了关于泛化误差,鲁棒性和校准错误的有趣特性。根据课程是否可分离,我们考虑两种情况。在一般的不可分类案例中,为错误分类率和校准误差建立快速收敛速率。当类是可分离的时,错误分类率改善了速度快。此外,经过证明得到的余量被证明是低于零的较低,提供了鲁棒性的理论保证。我们希望我们的调查结果超出NTK制度并转化为实际设置。为此,我们对实际神经网络进行广泛的实证研究,展示了合成低维数据和真实图像数据中方损的有效性。与跨熵相比,方形损耗具有可比的概括误差,但具有明显的鲁棒性和模型校准的优点。
translated by 谷歌翻译
机器学习(ML)鲁棒性和域的概括从根本上相关:它们基本上涉及对抗和自然设置下的数据分布变化。一方面,最近的研究表明,更健壮的(受对抗训练)模型更为普遍。另一方面,缺乏对其基本联系的理论理解。在本文中,我们探讨了考虑到不同因素(例如规范正规化和数据增强)(DA)等不同因素的正则化和域转移性之间的关系。我们提出了一个一般的理论框架,证明涉及模型函数类正则化的因素是相对域可传递性的足够条件。我们的分析意味着``鲁棒性''既不必需,也不足以使其可转移性;而正规化是理解域可转移性的更基本的观点。然后,我们讨论流行的DA协议(包括对抗性培训),并显示何时可以将其视为功能在某些条件下进行类正则化并因此改善了概括。我们进行了广泛的实验以验证我们的理论发现,并显示了几个反例,其中鲁棒性和概括在不同的数据集上呈负相关。
translated by 谷歌翻译
We introduce a tunable loss function called $\alpha$-loss, parameterized by $\alpha \in (0,\infty]$, which interpolates between the exponential loss ($\alpha = 1/2$), the log-loss ($\alpha = 1$), and the 0-1 loss ($\alpha = \infty$), for the machine learning setting of classification. Theoretically, we illustrate a fundamental connection between $\alpha$-loss and Arimoto conditional entropy, verify the classification-calibration of $\alpha$-loss in order to demonstrate asymptotic optimality via Rademacher complexity generalization techniques, and build-upon a notion called strictly local quasi-convexity in order to quantitatively characterize the optimization landscape of $\alpha$-loss. Practically, we perform class imbalance, robustness, and classification experiments on benchmark image datasets using convolutional-neural-networks. Our main practical conclusion is that certain tasks may benefit from tuning $\alpha$-loss away from log-loss ($\alpha = 1$), and to this end we provide simple heuristics for the practitioner. In particular, navigating the $\alpha$ hyperparameter can readily provide superior model robustness to label flips ($\alpha > 1$) and sensitivity to imbalanced classes ($\alpha < 1$).
translated by 谷歌翻译
最近的工作表明,不同体系结构的卷积神经网络学会按照相同的顺序对图像进行分类。为了理解这种现象,我们重新审视了过度参数的深度线性网络模型。我们的分析表明,当隐藏层足够宽时,该模型参数的收敛速率沿数据的较大主组件的方向呈指数级数,该方向由由相应的奇异值控制的速率。我们称这种收敛模式主成分偏差(PC偏置)。从经验上讲,我们展示了PC偏差如何简化线性和非线性网络的学习顺序,在学习的早期阶段更为突出。然后,我们将结果与简单性偏见进行比较,表明可以独立看到这两个偏见,并以不同的方式影响学习顺序。最后,我们讨论了PC偏差如何解释早期停止及其与PCA的联系的一些好处,以及为什么深网与随机标签更慢地收敛。
translated by 谷歌翻译
噪声对比度估计的最新研究表明,从经验上讲,从理论上讲,尽管在对比度损失中拥有更多的“负样本”,但最初在阈值中提高了下游分类的性能,但由于“碰撞覆盖“贸易”,它都会损害下游性能-离开。但是,对比度学习中固有的现象是如此吗?我们在一个简单的理论环境中显示,通过从基础潜在类采样(由Saunshi等人引入(ICML 2019)),产生正对,表明表示(人口)对比度损失的下游性能实际上确实确实确实如此。不会随着负样本的数量降低。一路上,我们在框架中给出了最佳表示形式的结构表征,以进行噪声对比估计。我们还为CIFAR-10和CIFAR-100数据集的理论结果提供了经验支持。
translated by 谷歌翻译
随着Papyan等人最近对“神经崩溃(NC)”现象的观察,已经采取了各种努力来对其进行建模和分析。神经崩溃描述,在深层分类器网络中,与训练数据相关的最终隐藏层的类特征倾向于崩溃到各自的类功能均值。因此,将最后一层分类器的行为简化为最近级中心决策规则的行为。在这项工作中,我们分析了有助于从头开始对这种现象进行建模的原理,并展示他们如何建立对试图解释NC的最近提出的模型的共同理解。我们希望我们的分析对建模NC和有助于与神经网络的概括能力建立联系的多方面观点。最后,我们通过讨论进一步研究的途径并提出潜在的研究问题来得出结论。
translated by 谷歌翻译
We consider the problem of data classification where the training set consists of just a few data points. We explore this phenomenon mathematically and reveal key relationships between the geometry of an AI model's feature space, the structure of the underlying data distributions, and the model's generalisation capabilities. The main thrust of our analysis is to reveal the influence on the model's generalisation capabilities of nonlinear feature transformations mapping the original data into high, and possibly infinite, dimensional spaces.
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译