随着Papyan等人最近对“神经崩溃(NC)”现象的观察,已经采取了各种努力来对其进行建模和分析。神经崩溃描述,在深层分类器网络中,与训练数据相关的最终隐藏层的类特征倾向于崩溃到各自的类功能均值。因此,将最后一层分类器的行为简化为最近级中心决策规则的行为。在这项工作中,我们分析了有助于从头开始对这种现象进行建模的原理,并展示他们如何建立对试图解释NC的最近提出的模型的共同理解。我们希望我们的分析对建模NC和有助于与神经网络的概括能力建立联系的多方面观点。最后,我们通过讨论进一步研究的途径并提出潜在的研究问题来得出结论。
translated by 谷歌翻译
神经塌陷是指表征类嵌入和分类器重量的几何形状的显着结构特性,当经过零训练误差以外的训练时,深网被发现。但是,这种表征仅适用于平衡数据。因此,我们在这里询问是否可以使阶级失衡不变。为此,我们采用了不受限制的功能模型(UFM),这是一种用于研究神经塌陷的最新理论模型,并引入了单纯形编码标签的插值(SELI)作为神经崩溃现象的不变特征。具体而言,我们证明了UFM的跨凝结损失和消失的正则化,无论阶级失衡如何,嵌入和分类器总是插入单纯形编码的标签矩阵,并且其单个几何形状都由同一标签矩阵矩阵矩阵的SVD因子确定。然后,我们对合成和真实数据集进行了广泛的实验,这些实验确认了与SELI几何形状的收敛。但是,我们警告说,融合会随着不平衡的增加而恶化。从理论上讲,我们通过表明与平衡的情况不同,当存在少数民族时,山脊规范化在调整几何形状中起着至关重要的作用。这定义了新的问题,并激发了对阶级失衡对一阶方法融合其渐近优先解决方案的速率的影响的进一步研究。
translated by 谷歌翻译
当训练过度参数化的深网以进行分类任务时,已经广泛观察到,学到的功能表现出所谓的“神经崩溃”现象。更具体地说,对于倒数第二层的输出特征,对于每个类,课堂内特征会收敛到其平均值,而不同类别的手段表现出一定的紧密框架结构,这也与最后一层的分类器对齐。由于最后一层的特征归一化成为现代表示学习中的一种常见实践,因此,在这项工作中,我们从理论上证明了归一化特征的神经崩溃现象是合理的。基于不受约束的特征模型,我们通过限制球体上的所有特征和分类器来简化多级分类任务中的经验损失函数。在这种情况下,我们分析了riemannian优化问题在球体的产物上的非概念景观,从而显示出良性的全球景观,因为唯一的全球最小化器是神经崩溃的解决方案,而所有其他关键点是严格的鞍座。实用深网的实验结果证实了我们的理论,并证明可以通过特征归一化更快地学习更好的表示。
translated by 谷歌翻译
训练深层神经网络进行分类任务的现代策略包括优化网络的权重,即使训练错误消失了,以进一步将训练损失推向零。最近,在此训练程序中凭经验观察到了一种称为“神经崩溃”(NC)的现象。具体而言,已经表明,课堂样品的学习特征(倒数第二层的输出)融合到它们的平均值,不同类别的平均值表现出一定的紧密框架结构,这也与最后一层的重量对齐。最近的论文表明,当使用正则化交叉渗透损失优化简化的“无约束特征模型”(UFM)时,具有这种结构的最小化。在本文中,我们进一步分析并扩展了UFM。首先,我们研究了正规化MSE损失的UFM,并表明最小化器的特征比在跨膜片情况下具有更精致的结构。这也影响了权重的结构。然后,我们通过向模型添加另一层权重以及依赖非线性来扩展UFM并概括我们先前的结果。最后,我们从经验上证明了非线性扩展UFM在对实用网络发生的NC现象进行建模时的实用性。
translated by 谷歌翻译
神经崩溃的概念是指在各种规范分类问题中经验观察到的几种新兴现象。在训练深度神经网络的终端阶段,同一类的所有示例的特征嵌入往往会崩溃为单一表示,而不同类别的特征往往会尽可能分开。通常通过简化的模型(称为无约束的特征表示)来研究神经崩溃,其中假定模型具有“无限表达性”,并且可以将每个数据点映射到任何任意表示。在这项工作中,我们提出了不受约束的功能表示的更现实的变体,该变体考虑到了网络的有限表达性。经验证据表明,嘈杂数据点的记忆导致神经崩溃的降解(扩张)。使用记忆 - 稀释(M-D)现象的模型,我们展示了一种机制,通过该机制,不同的损失导致嘈杂数据上受过训练的网络的不同性能。我们的证据揭示了为什么标签平滑性(经验观察到产生正则化效果的跨凝性的修改)导致分类任务的概括改善的原因。
translated by 谷歌翻译
Modern deep neural networks have achieved superhuman performance in tasks from image classification to game play. Surprisingly, these various complex systems with massive amounts of parameters exhibit the same remarkable structural properties in their last-layer features and classifiers across canonical datasets. This phenomenon is known as "Neural Collapse," and it was discovered empirically by Papyan et al. \cite{Papyan20}. Recent papers have theoretically shown the global solutions to the training network problem under a simplified "unconstrained feature model" exhibiting this phenomenon. We take a step further and prove the Neural Collapse occurrence for deep linear network for the popular mean squared error (MSE) and cross entropy (CE) loss. Furthermore, we extend our research to imbalanced data for MSE loss and present the first geometric analysis for Neural Collapse under this setting.
translated by 谷歌翻译
标签 - 不平衡和组敏感分类中的目标是优化相关的指标,例如平衡错误和相同的机会。经典方法,例如加权交叉熵,在训练深网络到训练(TPT)的终端阶段时,这是超越零训练误差的训练。这种观察发生了最近在促进少数群体更大边值的直观机制之后开发启发式替代品的动力。与之前的启发式相比,我们遵循原则性分析,说明不同的损失调整如何影响边距。首先,我们证明,对于在TPT中训练的所有线性分类器,有必要引入乘法,而不是添加性的Logit调整,以便对杂项边缘进行适当的变化。为了表明这一点,我们发现将乘法CE修改的连接到成本敏感的支持向量机。也许是违反,我们还发现,在培训开始时,相同的乘法权重实际上可以损害少数群体。因此,虽然在TPT中,添加剂调整无效,但我们表明它们可以通过对乘法重量的初始负效应进行抗衡来加速会聚。通过这些发现的动机,我们制定了矢量缩放(VS)丢失,即捕获现有技术作为特殊情况。此外,我们引入了对群体敏感分类的VS损失的自然延伸,从而以统一的方式处理两种常见类型的不平衡(标签/组)。重要的是,我们对最先进的数据集的实验与我们的理论见解完全一致,并确认了我们算法的卓越性能。最后,对于不平衡的高斯 - 混合数据,我们执行泛化分析,揭示平衡/标准错误和相同机会之间的权衡。
translated by 谷歌翻译
文献中的最新结果表明,经过分类训练的神经网络的倒数第二层(倒数第二层)表示,展示了一种称为神经崩溃的聚类特性(NC)。我们研究训练深神经网络时,随机梯度下降(SGD)的隐式偏见,有利于低深度溶液。我们表征了有效深度的概念,该概念测量了使用最近级中心分类器可分离样品嵌入的第一层。此外,我们假设和经验表明,SGD隐含地选择了小有效深度的神经网络。其次,尽管即使不可能进行概括,但神经崩溃也会出现 - 我们认为,中间层中的\ emph {可分离性}与概括有关。我们得出了一个基于将网络的有效深度与与部分损坏的标签相同的数据集进行比较最小深度的限制。值得注意的是,这种结合提供了对测试性能的非平凡估计。最后,我们从经验上表明,在增加数据中随机标签的数量时,受过训练的神经网络的有效深度会单调增加。
translated by 谷歌翻译
我们研究了基础模型的能力,以了解可转让给新的看不见的课程的分类的表现。文献中最近的结果表明,单个分类器在许多课程中学到的表示在少量学习问题上具有竞争力,这些问题是由专为这些问题设计的特殊用途算法学习的表示。在本文中,我们基于最近观察到的现象提供了对这种行为的解释,即通过共同计量的分类网络学习的特征显示有趣的聚类属性,称为神经崩溃。理论上,我们在理论上展示了神经崩溃的展示给来自培训类的新样本,更重要的是 - 对于新课程,允许基础模型提供在转移学习中良好工作的特征地图,具体地,少量拍摄设置。
translated by 谷歌翻译
尽管过度参数化的模型已经在许多机器学习任务上表现出成功,但与培训不同的测试分布的准确性可能会下降。这种准确性下降仍然限制了在野外应用机器学习的限制。同时,重要的加权是一种处理分配转移的传统技术,已被证明在经验和理论上对过度参数化模型的影响较小甚至没有影响。在本文中,我们提出了重要的回火来改善决策界限,并为过度参数化模型取得更好的结果。从理论上讲,我们证明在标签移位和虚假相关设置下,组温度的选择可能不同。同时,我们还证明正确选择的温度可以解脱出少数群体崩溃的分类不平衡。从经验上讲,我们使用重要性回火来实现最严重的小组分类任务的最新结果。
translated by 谷歌翻译
尽管自我监督学习(SSL)方法取得了经验成功,但尚不清楚其表示的哪些特征导致了高下游精度。在这项工作中,我们表征了SSL表示应该满足的属性。具体而言,我们证明了必要和充分的条件,因此,对于给出的数据增强的任何任务,在该表示形式上训练的所需探针(例如,线性或MLP)具有完美的准确性。这些要求导致一个统一的概念框架,用于改善现有的SSL方法并得出新方法。对于对比度学习,我们的框架规定了对以前的方法(例如使用不对称投影头)的简单但重大改进。对于非对比度学习,我们使用框架来得出一个简单新颖的目标。我们所得的SSL算法在标准基准测试上的表现优于基线,包括Imagenet线性探测的SHAV+多螺旋桨。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
深入学习在现代分类任务中取得了许多突破。已经提出了众多架构用于不同的数据结构,但是当涉及丢失功能时,跨熵损失是主要的选择。最近,若干替代损失已经看到了深度分类器的恢复利益。特别是,经验证据似乎促进了方形损失,但仍然缺乏理论效果。在这项工作中,我们通过系统地研究了在神经切线内核(NTK)制度中的过度分化的神经网络的表现方式来促进对分类方面损失的理论理解。揭示了关于泛化误差,鲁棒性和校准错误的有趣特性。根据课程是否可分离,我们考虑两种情况。在一般的不可分类案例中,为错误分类率和校准误差建立快速收敛速率。当类是可分离的时,错误分类率改善了速度快。此外,经过证明得到的余量被证明是低于零的较低,提供了鲁棒性的理论保证。我们希望我们的调查结果超出NTK制度并转化为实际设置。为此,我们对实际神经网络进行广泛的实证研究,展示了合成低维数据和真实图像数据中方损的有效性。与跨熵相比,方形损耗具有可比的概括误差,但具有明显的鲁棒性和模型校准的优点。
translated by 谷歌翻译
噪声对比度估计的最新研究表明,从经验上讲,从理论上讲,尽管在对比度损失中拥有更多的“负样本”,但最初在阈值中提高了下游分类的性能,但由于“碰撞覆盖“贸易”,它都会损害下游性能-离开。但是,对比度学习中固有的现象是如此吗?我们在一个简单的理论环境中显示,通过从基础潜在类采样(由Saunshi等人引入(ICML 2019)),产生正对,表明表示(人口)对比度损失的下游性能实际上确实确实确实如此。不会随着负样本的数量降低。一路上,我们在框架中给出了最佳表示形式的结构表征,以进行噪声对比估计。我们还为CIFAR-10和CIFAR-100数据集的理论结果提供了经验支持。
translated by 谷歌翻译
随着科学和工程的越来越多的数据驱动,优化的作用已经扩展到几乎触及数据分析管道的每个阶段,从信号和数据获取到建模和预测。实践中遇到的优化问题通常是非convex。尽管挑战因问题而异,但非概念性的一个共同来源是数据或测量模型中的非线性。非线性模型通常表现出对称性,创建具有多种等效解决方案的复杂,非凸客观的景观。然而,简单的方法(例如,梯度下降)在实践中通常表现出色。这项调查的目的是突出一类可进行的非概念问题,可以通过对称性的镜头来理解。这些问题表现出特征性的几何结构:局部最小化是单个“地面真实”解决方案的对称副本,而其他关键点出现在地面真理的对称副本的平衡叠加上,并在破坏对称性的方向上表现出负曲率。该结构使有效的方法获得了全局最小化。我们讨论了由于成像,信号处理和数据分析中广泛的问题而引起的这种现象的示例。我们强调了对称性在塑造客观景观中的关键作用,并讨论旋转和离散对称性的不同作用。该区域充满了观察到的现象和开放问题。我们通过强调未来研究的方向结束。
translated by 谷歌翻译
We study the ability of foundation models to learn representations for classification that are transferable to new, unseen classes. Recent results in the literature show that representations learned by a single classifier over many classes are competitive on few-shot learning problems with representations learned by special-purpose algorithms designed for such problems. We offer an explanation for this phenomenon based on the concept of class-features variability collapse, which refers to the training dynamics of deep classification networks where the feature embeddings of samples belonging to the same class tend to concentrate around their class means. More specifically, we examine the few-shot error of the learned feature map, which is the classification error of the nearest class-center classifier using centers learned from a small number of random samples from each class. Assuming that the classes appearing in the data are selected independently from a distribution, we show that the few-shot error generalizes from the training data to unseen test data, and we provide an upper bound on the expected few-shot error for new classes (selected from the same distribution) using the average few-shot error for the source classes. Additionally, we show that the few-shot error on the training data can be upper bounded using the degree of class-features variability collapse. This suggests that foundation models can provide feature maps that are transferable to new downstream tasks even with limited data available.
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
自我监督的学习(SSL)推测,投入和成对的积极关系足以学习有意义的表示。尽管SSL最近达到了一个里程碑:在许多模式下,胜过监督的方法\点,理论基础是有限的,特定于方法的,并且未能向从业者提供原则上的设计指南。在本文中,我们提出了一个统一的框架,这些框架是在光谱歧管学习的掌舵下,以解决这些局限性。通过这项研究的过程,我们将严格证明Vic​​reg,Simclr,Barlowtwins等。对应于诸如Laplacian eigenmaps,多维缩放等方面的同名光谱方法。然后,此统一将使我们能够获得(i)每种方法的闭合形式的最佳表示,(ii)每种方法的线性态度中的封闭形式的最佳网络参数,(iii)在期间使用的成对关系的影响对每个数量和下游任务性能的培训,以及最重要的是,(iv)分别针对全球和局部光谱嵌入方法的对比度和非对抗性方法之间的第一个理论桥梁,暗示了每种方法的益处和限制。例如,(i)如果成对关系与下游任务一致,则可以成功采用任何SSL方法并将恢复监督方法,但是在低数据状态下,Vicreg的不变性超参数应该很高; (ii)如果成对关系与下游任务未对准,则与SIMCLR或BARLOWTWINS相比,具有小型不变性高参数的VICREG。
translated by 谷歌翻译