重要性加权是一种处理分销班次的经典技术。然而,事先工作呈现出强大的实证和理论证据,证明重要性重量对过度分辨的神经网络没有影响。重要性加权与过度分辨率的神经网络的培训真正不相容吗?我们的论文在负面回答。我们表明重要的权重不是因为过度分辨率,而是因为使用像物流或交叉熵损失等指数尾损失。作为一种补救措施,我们表明多项式尾损失恢复了重要性重量在校正过度分配模型中的分布换档的影响。我们表征了梯度下降的行为,其具有过度分辨的线性模型的重要性加权多项式损耗,并且理论上证明了在标签换档设置中使用多环尾损失的优点。令人惊讶的是,我们的理论表明,使用通过以指数来引入经典无偏的重要性重量而获得的权重可以提高性能。最后,我们展示了我们对亚潜班班和标签移位数据集的神经网络实验的分析的实际价值。重新重复时,我们的损耗函数可以在测试精度的高达9%的跨熵优先于重复的交叉熵。我们的损耗功能还提供了与校正分配换档的最先进的方法可比或甚至超过的测试精度。
translated by 谷歌翻译
标签 - 不平衡和组敏感分类中的目标是优化相关的指标,例如平衡错误和相同的机会。经典方法,例如加权交叉熵,在训练深网络到训练(TPT)的终端阶段时,这是超越零训练误差的训练。这种观察发生了最近在促进少数群体更大边值的直观机制之后开发启发式替代品的动力。与之前的启发式相比,我们遵循原则性分析,说明不同的损失调整如何影响边距。首先,我们证明,对于在TPT中训练的所有线性分类器,有必要引入乘法,而不是添加性的Logit调整,以便对杂项边缘进行适当的变化。为了表明这一点,我们发现将乘法CE修改的连接到成本敏感的支持向量机。也许是违反,我们还发现,在培训开始时,相同的乘法权重实际上可以损害少数群体。因此,虽然在TPT中,添加剂调整无效,但我们表明它们可以通过对乘法重量的初始负效应进行抗衡来加速会聚。通过这些发现的动机,我们制定了矢量缩放(VS)丢失,即捕获现有技术作为特殊情况。此外,我们引入了对群体敏感分类的VS损失的自然延伸,从而以统一的方式处理两种常见类型的不平衡(标签/组)。重要的是,我们对最先进的数据集的实验与我们的理论见解完全一致,并确认了我们算法的卓越性能。最后,对于不平衡的高斯 - 混合数据,我们执行泛化分析,揭示平衡/标准错误和相同机会之间的权衡。
translated by 谷歌翻译
过度参数化模型即使与传统的减轻失衡技术结合使用,在存在数据失衡的情况下也无法很好地概括。本文着重于分类数据集,其中一小部分人口(少数​​)可能包含与类标签相关的功能。对于跨凝结损失修饰和代表性高斯混合模型的参数家族,我们在最严重的组误差上得出了非反应泛化的边界,该误差揭示了不同的超参数的作用。具体而言,我们证明,在适当调整后,最近提出的VS-Loss学会了一个模型,即使伪造的特征很强,也对少数群体也是公平的。另一方面,替代性启发式方法,例如加权CE和LA-loss,可能会急剧失败。与以前的作品相比,我们的界限适用于更多的通用模型,它们是非吸血管的,即使在极端不平衡的情况下,它们也适用。
translated by 谷歌翻译
尽管过度参数化的模型已经在许多机器学习任务上表现出成功,但与培训不同的测试分布的准确性可能会下降。这种准确性下降仍然限制了在野外应用机器学习的限制。同时,重要的加权是一种处理分配转移的传统技术,已被证明在经验和理论上对过度参数化模型的影响较小甚至没有影响。在本文中,我们提出了重要的回火来改善决策界限,并为过度参数化模型取得更好的结果。从理论上讲,我们证明在标签移位和虚假相关设置下,组温度的选择可能不同。同时,我们还证明正确选择的温度可以解脱出少数群体崩溃的分类不平衡。从经验上讲,我们使用重要性回火来实现最严重的小组分类任务的最新结果。
translated by 谷歌翻译
良性过度拟合,即插值模型在存在嘈杂数据的情况下很好地推广的现象,首先是在接受梯度下降训练的神经网络模型中观察到的。为了更好地理解这一经验观察,我们考虑了通过梯度下降训练的两层神经网络的概括误差,后者是随机初始化后的逻辑损失。我们假设数据来自分离良好的集体条件对数符合分布,并允许训练标签的持续部分被对手损坏。我们表明,在这种情况下,神经网络表现出良性过度拟合:它们可以驱动到零训练错误,完美拟合所有嘈杂的训练标签,并同时达到最小值最佳测试错误。与以前需要线性或基于内核预测的良性过度拟合的工作相反,我们的分析在模型和学习动力学基本上是非线性的环境中。
translated by 谷歌翻译
最新工作的一条有影响力的线重点关注的是针对可分离的线性分类的非规范梯度学习程序的泛化特性,并具有指数级的损失函数。这种方法概括地概括的能力归因于它们对大幅度预测指标的隐含偏见,无论是渐近的还是有限的时间。我们为此概括提供了另一个统一的解释,并将其与优化目标的两个简单属性相关联,我们将其称为可实现性和自我限制性。我们介绍了通过这些特性的不受约束随机凸优化的一般设置,并通过算法稳定性镜头分析梯度方法的概括。在这种更广泛的环境中,我们获得了梯度下降和随机梯度下降的尖锐稳定性边界,这些梯度下降即使适用于大量梯度步骤,并使用它们来得出这些算法的通用泛化界限。最后,作为一般边界的直接应用,我们返回使用可分离数据的线性分类设置,并为梯度下降和随机梯度下降建立了几种新颖的测试损失和测试精度界限,用于各种尾巴衰减速率的多种损耗函数。在某些情况下,我们的界限显着改善了文献中现有的概括误差界限。
translated by 谷歌翻译
尽管已经提出了广泛的技术来解决分配变化,但对$ \ textit {undSampled} $数据集进行的简单培训基线通常可以在几个流行的基准中实现接近最新的准确性。这是令人惊讶的,因为抛弃多数群体数据的底样采样算法。为了理解这种现象,我们询问学习是否从根本上受到缺乏少数群体样本的限制。我们证明,在非参数二进制分类的情况下确实是这种情况。我们的结果表明,在最坏的情况下,算法不能胜过实体采样,除非火车和测试分布之间存在高度重叠(在现实世界数据集中不太可能是这种情况),或者如果算法利用其他结构关于分配变化。特别是,在标签偏移的情况下,我们表明始终有一种最小值最佳采样算法。在群体循环的情况下,我们表明,当组分布之间的重叠很小时,有一种最小值的底样采样算法。我们还对标签移位数据集进行了实验案例研究,并发现与我们的理论相一致,可靠的神经网络分类器的测试准确性受少数样本的数量限制。
translated by 谷歌翻译
我们检查了在未注册的逻辑回归问题上的梯度下降,并在线性可分离数据集上具有均匀的线性预测指标。我们显示了预测变量收敛到最大边缘(硬边缘SVM)解决方案的方向。结果还推广到其他单调的损失函数,在无穷大时降低了损失功能,多级问题,并在某个受限的环境中训练在深网中的重量层。此外,我们表明这种融合非常慢,只有在损失本身的融合中的对数。这可以有助于解释即使训练错误为零,并且训练损失非常小,并且正如我们所显示的,即使验证损失增加了,也可以继续优化逻辑或跨透明度损失的好处。我们的方法还可以帮助理解隐式正则化n更复杂的模型以及其他优化方法。
translated by 谷歌翻译
现代神经网络通常具有很大的表现力,并且可以接受训练以使培训数据过高,同时仍能达到良好的测试性能。这种现象被称为“良性过度拟合”。最近,从理论角度出现了一系列研究“良性过度拟合”的作品。但是,它们仅限于线性模型或内核/随机特征模型,并且仍然缺乏关于何时以及如何在神经网络中发生过度拟合的理论理解。在本文中,我们研究了训练两层卷积神经网络(CNN)的良性过度拟合现象。我们表明,当信噪比满足一定条件时,通过梯度下降训练的两层CNN可以实现任意小的训练和测试损失。另一方面,当这种情况无法成立时,过度拟合就会有害,并且获得的CNN只能实现恒定的测试损失。这些共同证明了由信噪比驱动的良性过度拟合和有害过度拟合之间的急剧过渡。据我们所知,这是第一部精确地表征良性过度拟合在训练卷积神经网络中的条件的工作。
translated by 谷歌翻译
我们束缚了使用梯度流训练的深度线性网络的多余风险。在先前用于建立最小$ \ ell_2 $ -norm interpolant的风险范围的设置中,我们表明随机初始化的深线性网络可以紧密近似甚至匹配已知的范围,即最小$ \ ell_2 $ - norm interpolant。我们的分析还表明,插值深线性模型具有与最小$ \ ell_2 $ -Norm解决方案完全相同的条件差异。由于噪声仅通过条件差异影响多余的风险,因此这意味着深度并不能提高算法“隐藏噪声”的能力。我们的模拟验证了我们边界的各个方面反映了简单数据分布的典型行为。我们还发现,在具有Relu网络的模拟中也可以看到类似的现象,尽管情况更加细微。
translated by 谷歌翻译
Learned classifiers should often possess certain invariance properties meant to encourage fairness, robustness, or out-of-distribution generalization. However, multiple recent works empirically demonstrate that common invariance-inducing regularizers are ineffective in the over-parameterized regime, in which classifiers perfectly fit (i.e. interpolate) the training data. This suggests that the phenomenon of ``benign overfitting," in which models generalize well despite interpolating, might not favorably extend to settings in which robustness or fairness are desirable. In this work we provide a theoretical justification for these observations. We prove that -- even in the simplest of settings -- any interpolating learning rule (with arbitrarily small margin) will not satisfy these invariance properties. We then propose and analyze an algorithm that -- in the same setting -- successfully learns a non-interpolating classifier that is provably invariant. We validate our theoretical observations on simulated data and the Waterbirds dataset.
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译
在这项工作中,我们在两层relu网络中提供了特征学习过程的表征,这些网络在随机初始化后通过梯度下降对逻辑损失进行了训练。我们考虑使用输入功能的XOR样函数生成的二进制标签的数据。我们允许不断的培训标签被对手破坏。我们表明,尽管线性分类器并不比随机猜测我们考虑的分布更好,但通过梯度下降训练的两层relu网络达到了接近标签噪声速率的概括误差。我们开发了一种新颖的证明技术,该技术表明,在初始化时,绝大多数神经元充当随机特征,仅与有用特征无关紧要,而梯度下降动力学则“放大”这些弱,随机的特征到强,有用的特征。
translated by 谷歌翻译
当数据自然分配到通过基础图的代理商之间,分散学习提供了隐私和沟通效率。通过过度参数化的学习设置,在该设置中,在该设置中训练了零训练损失,我们研究了分散学习的分散学习算法和概括性能,并在可分离的数据上下降。具体而言,对于分散的梯度下降(DGD)和各种损失函数,在无穷大(包括指数损失和逻辑损失)中渐近为零,我们得出了新的有限时间泛化界限。这补充了一长串最近的工作,该工作研究了概括性能和梯度下降的隐含偏见,而不是可分离的数据,但迄今为止,梯度下降的偏见仅限于集中学习方案。值得注意的是,我们的概括范围匹配其集中式同行。这背后的关键和独立感兴趣的是,在一类自我结合的损失方面建立了关于训练损失和DGD的传记率的新界限。最后,在算法方面,我们设计了改进的基于梯度的例程,可分离数据,并在经验上证明了训练和概括性能方面的加速命令。
translated by 谷歌翻译
成功的深度学习模型往往涉及培训具有比训练样本数量更多的参数的神经网络架构。近年来已经广泛研究了这种超分子化的模型,并且通过双下降现象和通过优化景观的结构特性,从统计的角度和计算视角都建立了过分统计化的优点。尽管在过上分层的制度中深入学习架构的显着成功,但也众所周知,这些模型对其投入中的小对抗扰动感到高度脆弱。即使在普遍培训的情况下,它们在扰动输入(鲁棒泛化)上的性能也会比良性输入(标准概括)的最佳可达到的性能更糟糕。因此,必须了解如何从根本上影响稳健性的情况下如何影响鲁棒性。在本文中,我们将通过专注于随机特征回归模型(具有随机第一层权重的两层神经网络)来提供超分度化对鲁棒性的作用的精确表征。我们考虑一个制度,其中样本量,输入维度和参数的数量彼此成比例地生长,并且当模型发生前列地训练时,可以为鲁棒泛化误差导出渐近精确的公式。我们的发达理论揭示了过分统计化对鲁棒性的非竞争效果,表明对于普遍训练的随机特征模型,高度公正化可能会损害鲁棒泛化。
translated by 谷歌翻译
“良性过度装备”,分类器记住嘈杂的培训数据仍然达到良好的概括性表现,在机器学习界造成了很大的关注。为了解释这种令人惊讶的现象,一系列作品在过度参数化的线性回归,分类和内核方法中提供了理论典范。然而,如果在对逆势实例存在下仍发生良性的过度,则尚不清楚,即欺骗分类器的微小和有意的扰动的例子。在本文中,我们表明,良性过度确实发生在对抗性培训中,是防御对抗性实例的原则性的方法。详细地,我们证明了在$ \ ell_p $普发的扰动下的子高斯数据的混合中的普遍培训的线性分类器的风险限制。我们的结果表明,在中度扰动下,尽管过度禁止嘈杂的培训数据,所以发生前列训练的线性分类器可以实现近乎最佳的标准和对抗性风险。数值实验验证了我们的理论发现。
translated by 谷歌翻译
本文研究了具有对抗性误差的强大一位压缩感应的二进制分类。假设该模型过度分配,并且感兴趣的参数有效稀疏。adaboost被考虑,并且通过其与MAX - $ \ ell_1 $ -Margin-Scressifir的关系,派生预测错误界限。开发的理论是一般的,并且允许重型的特征分布,只需要一个薄弱的时刻假设和抗浓缩条件。当特征满足小偏差下限时,示出了改善的收敛速率。特别是,结果提供了解释为什么内插对抗性噪声对于分类问题可以是无害的。模拟说明了所提出的理论。
translated by 谷歌翻译
事实证明,知识蒸馏是使用教师模型的预测来改善学生模型的一项有效技术。但是,最近的工作表明,在数据中的亚组中,平均效率的提高并不统一,尤其是在稀有亚组和类别上的准确性通常可能以准确性为代价。为了在可能遵循长尾分配的课程中保持强劲的表现,我们开发了蒸馏技术,这些技术是为了改善学生最差的级别表现而定制的。具体来说,我们为教师和学生介绍了不同组合的强大优化目标,并进一步允许在整体准确性和强大的最差目标之间进行任何权衡训练。我们从经验上表明,与其他基线方法相比,我们强大的蒸馏技术不仅可以实现更好的最差级别性能,而且还可以改善整体性能和最差的级别性能之间的权衡。从理论上讲,我们提供有关在目标培训健壮学生时使一名好老师的见解。
translated by 谷歌翻译
We introduce a tunable loss function called $\alpha$-loss, parameterized by $\alpha \in (0,\infty]$, which interpolates between the exponential loss ($\alpha = 1/2$), the log-loss ($\alpha = 1$), and the 0-1 loss ($\alpha = \infty$), for the machine learning setting of classification. Theoretically, we illustrate a fundamental connection between $\alpha$-loss and Arimoto conditional entropy, verify the classification-calibration of $\alpha$-loss in order to demonstrate asymptotic optimality via Rademacher complexity generalization techniques, and build-upon a notion called strictly local quasi-convexity in order to quantitatively characterize the optimization landscape of $\alpha$-loss. Practically, we perform class imbalance, robustness, and classification experiments on benchmark image datasets using convolutional-neural-networks. Our main practical conclusion is that certain tasks may benefit from tuning $\alpha$-loss away from log-loss ($\alpha = 1$), and to this end we provide simple heuristics for the practitioner. In particular, navigating the $\alpha$ hyperparameter can readily provide superior model robustness to label flips ($\alpha > 1$) and sensitivity to imbalanced classes ($\alpha < 1$).
translated by 谷歌翻译
神经网络模型的最新成功揭示了一种令人惊讶的统计现象:完全拟合噪声数据的统计模型可以很好地推广到看不见的测试数据。了解$ \ textit {良性过拟合} $的这种现象吸引了强烈的理论和经验研究。在本文中,我们考虑插值两层线性神经网络在平方损失上梯度流训练,当协变量满足亚高斯和抗浓度的特性时,在平方损耗上训练,并在多余的风险上获得界限,并且噪声是独立和次级高斯的。。通过利用最新的结果来表征该估计器的隐性偏见,我们的边界强调了初始化质量的作用以及数据协方差矩阵在实现低过量风险中的特性。
translated by 谷歌翻译