多级分类是机器学习应用中最常见的任务之一,其中数据由许多类标签之一标记。已经提出了许多损失功能,包括多级分类,包括两个众所周知的分类,即跨熵(CE)损失和CRAMMER-歌手(CS)损失(AKA。SVM损失)。虽然CS丢失广泛用于传统机器学习任务,但CE损失通常是多级深度学习任务的默认选择。还有CS损失和CE损失的最高$ k $ Vally,提出促进学习分类器,以实现更好的高度K $准确性。尽管如此,它仍然仍然不清楚这些不同损失之间的关系,这阻碍了我们对不同情景期望的理解。在本文中,我们通过提出新的损失函数,提出了CS / CE损失的统一视图,以及它们平滑的顶级k $型号,这些损失函数可以比CS / CE损失更好,当给定的标签信息不完整时和吵。通过利用分布稳健的优化(DRO)框架来定义名为{标签分布稳健的(LDR)丢失}的新的平滑损失函数以将不确定性模拟给定标签信息中的不确定性,其中捕获了真正类标签的不确定性使用通过函数规则化的每个标签的分布权重。
translated by 谷歌翻译
In this paper, we present a simple yet effective method (ABSGD) for addressing the data imbalance issue in deep learning. Our method is a simple modification to momentum SGD where we leverage an attentional mechanism to assign an individual importance weight to each gradient in the mini-batch. Unlike many existing heuristic-driven methods for tackling data imbalance, our method is grounded in {\it theoretically justified distributionally robust optimization (DRO)}, which is guaranteed to converge to a stationary point of an information-regularized DRO problem. The individual-level weight of a sampled data is systematically proportional to the exponential of a scaled loss value of the data, where the scaling factor is interpreted as the regularization parameter in the framework of information-regularized DRO. Compared with existing class-level weighting schemes, our method can capture the diversity between individual examples within each class. Compared with existing individual-level weighting methods using meta-learning that require three backward propagations for computing mini-batch stochastic gradients, our method is more efficient with only one backward propagation at each iteration as in standard deep learning methods. To balance between the learning of feature extraction layers and the learning of the classifier layer, we employ a two-stage method that uses SGD for pretraining followed by ABSGD for learning a robust classifier and finetuning lower layers. Our empirical studies on several benchmark datasets demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译
最近的作品揭示了设计损失功能的基本范式,该损失功能与骨料损失不同。单个损失衡量样本上模型的质量,而总损失结合了每个训练样本的个体损失/分数。两者都有一个共同的过程,将一组单个值集合到单个数值值。排名顺序反映了设计损失时个人价值观之间最基本的关系。此外,可以将损失分解成单个术语的合奏的可分解性成为组织损失/得分的重要特性。这项调查对机器学习中的基于等级的可分解损失进行了系统的全面审查。具体而言,我们提供了损失功能的新分类法,遵循总损失和个人损失的观点。我们确定聚合器以形成此类损失,这是集合功能的示例。我们将基于等级的分解损失组织为八类。遵循这些类别,我们回顾有关基于等级的总损失和基于等级的个人损失的文献。我们描述了这些损失的一般公式,并将其与现有的研究主题联系起来。我们还建议未来的研究方向涵盖基于等级的可分解损失的未开发,剩余和新兴问题。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
标签 - 不平衡和组敏感分类中的目标是优化相关的指标,例如平衡错误和相同的机会。经典方法,例如加权交叉熵,在训练深网络到训练(TPT)的终端阶段时,这是超越零训练误差的训练。这种观察发生了最近在促进少数群体更大边值的直观机制之后开发启发式替代品的动力。与之前的启发式相比,我们遵循原则性分析,说明不同的损失调整如何影响边距。首先,我们证明,对于在TPT中训练的所有线性分类器,有必要引入乘法,而不是添加性的Logit调整,以便对杂项边缘进行适当的变化。为了表明这一点,我们发现将乘法CE修改的连接到成本敏感的支持向量机。也许是违反,我们还发现,在培训开始时,相同的乘法权重实际上可以损害少数群体。因此,虽然在TPT中,添加剂调整无效,但我们表明它们可以通过对乘法重量的初始负效应进行抗衡来加速会聚。通过这些发现的动机,我们制定了矢量缩放(VS)丢失,即捕获现有技术作为特殊情况。此外,我们引入了对群体敏感分类的VS损失的自然延伸,从而以统一的方式处理两种常见类型的不平衡(标签/组)。重要的是,我们对最先进的数据集的实验与我们的理论见解完全一致,并确认了我们算法的卓越性能。最后,对于不平衡的高斯 - 混合数据,我们执行泛化分析,揭示平衡/标准错误和相同机会之间的权衡。
translated by 谷歌翻译
基于深度学习的分类中特征表示的主要挑战之一是设计表现出强大歧视力的适当损失功能。经典的SoftMax损失并不能明确鼓励对特征的歧视性学习。研究的一个流行方向是将边缘纳入良好的损失中,以实施额外的课内紧凑性和阶层间的可分离性,但是,这是通过启发式手段而不是严格的数学原则来开发的。在这项工作中,我们试图通过将原则优化目标提出为最大的利润率来解决这一限制。具体而言,我们首先将类别的边缘定义为级别间的可分离性的度量,而样品边缘是级别的紧凑性的度量。因此,为了鼓励特征的歧视性表示,损失函数应促进类和样品的最大可能边缘。此外,我们得出了广义的保证金软损失,以得出现有基于边缘的损失的一般结论。这个原则性的框架不仅提供了新的观点来理解和解释现有的基于保证金的损失,而且还提供了新的见解,可以指导新工具的设计,包括样本保证金正则化和最大的平衡案例的最大保证金损失,和零中心的正则化案例。实验结果证明了我们的策略对各种任务的有效性,包括视觉分类,分类不平衡,重新识别和面部验证。
translated by 谷歌翻译
在现代分类任务中,标签数量越来越大,实际上遇到的数据集的大小也越来越大。随着班级数量的增加,阶级的歧义和阶级失衡变得越来越有问题,以达到高顶级1的准确性。同时,TOP-K指标(允许K猜测的指标)变得流行,尤其是用于性能报告。然而,提出为深度学习量身定制的Top-K损失仍然是一个挑战,无论是理论上还是实际的。在本文中,我们引入了由Top-K校准损失的最新发展启发的随机TOP-K铰链损失。我们的建议基于在灵活的“扰动优化器”框架上的Top-K操作员建筑的平滑。我们表明,在平衡数据集的情况下,我们的损失函数的性能非常出色,同时,与最先进的TOP-K损失函数相比,计算时间明显低。此外,我们为不平衡案例提出了一个简单的损失变体。在重尾数据集上的实验表明,我们的损失函数显着优于其他基线损失函数。
translated by 谷歌翻译
We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We provide convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. We propose an efficient first-order algorithm with bisection search to solve the dual reformulation. We demonstrate that our proposed algorithm finds $\delta$-optimal solution of the new DRO formulation with computation cost $\tilde{O}(\delta^{-3})$ and memory cost $\tilde{O}(\delta^{-2})$, and the computation cost further improves to $\tilde{O}(\delta^{-2})$ when the loss function is smooth. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance and light computational speed.
translated by 谷歌翻译
由于课堂之间不可避免的语义歧义,TOP-K错误已成为大规模分类基准测试的流行指标。有关TOP-K优化的现有文献通常集中于TOP-K目标的优化方法,同时忽略了度量本身的局限性。在本文中,我们指出,顶级目标缺乏足够的歧视,因此诱导的预测可能使完全无关的标签成为最高等级。为了解决此问题,我们开发了一个新颖的度量标准,名为Top-K曲线(AUTKC)下的部分区域。理论分析表明,AUTKC具有更好的歧视能力,其贝叶斯最佳分数函数可以在条件概率方面给出正确的顶级排名。这表明AUTKC不允许无关标签出现在顶部列表中。此外,我们提出了一个经验替代风险最小化框架,以优化拟议的指标。从理论上讲,我们提出(1)贝叶斯最佳分数函数的渔民一致性的足够条件; (2)在简单的超参数设置下对类不敏感的概括上限。最后,四个基准数据集的实验结果验证了我们提出的框架的有效性。
translated by 谷歌翻译
本文重点介绍了解决光滑非凸强凹入最小问题的随机方法,这导致了由于其深度学习中的潜在应用而受到越来越长的关注(例如,深度AUC最大化,分布鲁棒优化)。然而,大多数现有算法在实践中都很慢,并且它们的分析围绕到几乎静止点的收敛。我们考虑利用Polyak-\ L Ojasiewicz(PL)条件来设计更快的随机算法,具有更强的收敛保证。尽管已经用于设计许多随机最小化算法的PL条件,但它们对非凸敏最大优化的应用仍然罕见。在本文中,我们提出并分析了基于近端的跨越时代的方法的通用框架,许多众所周知的随机更新嵌入。以{\ BF原始物镜差和二元间隙}的方式建立快速收敛。与现有研究相比,(i)我们的分析基于一个新的Lyapunov函数,包括原始物理差距和正则化功能的二元间隙,(ii)结果更加全面,提高了更好的依赖性的速率不同假设下的条件号。我们还开展深层和非深度学习实验,以验证我们的方法的有效性。
translated by 谷歌翻译
在本文中,我们提出了一种实用的在线方法,用于解决具有非凸面目标的一类分布稳健优化(DRO),这在机器学习中具有重要应用,以改善神经网络的稳健性。在文献中,大多数用于解决DRO的方法都基于随机原始方法。然而,DRO的原始方法患有几个缺点:(1)操纵对应于数据尺寸的高维双变量是昂贵的; (2)他们对网上学习不友好,其中数据顺序地发表。为了解决这些问题,我们考虑一类具有KL发散正则化的Dual变量的DRO,将MIN-MAX问题转换为组成最小化问题,并提出了无需较大的批量批量的无需线在线随机方法。我们建立了所提出的方法的最先进的复杂性,而无需多达\ L Ojasiewicz(PL)条件。大规模深度学习任务(i)的实证研究表明,我们的方法可以将培训加速超过2次,而不是基线方法,并在带有$ \ SIM $ 265K图像的大型数据集上节省培训时间。 (ii)验证DRO对实证数据集上的经验风险最小化(ERM)的最高表现。独立兴趣,所提出的方法也可用于解决与最先进的复杂性的随机成分问题家族。
translated by 谷歌翻译
Many datasets are biased, namely they contain easy-to-learn features that are highly correlated with the target class only in the dataset but not in the true underlying distribution of the data. For this reason, learning unbiased models from biased data has become a very relevant research topic in the last years. In this work, we tackle the problem of learning representations that are robust to biases. We first present a margin-based theoretical framework that allows us to clarify why recent contrastive losses (InfoNCE, SupCon, etc.) can fail when dealing with biased data. Based on that, we derive a novel formulation of the supervised contrastive loss (epsilon-SupInfoNCE), providing more accurate control of the minimal distance between positive and negative samples. Furthermore, thanks to our theoretical framework, we also propose FairKL, a new debiasing regularization loss, that works well even with extremely biased data. We validate the proposed losses on standard vision datasets including CIFAR10, CIFAR100, and ImageNet, and we assess the debiasing capability of FairKL with epsilon-SupInfoNCE, reaching state-of-the-art performance on a number of biased datasets, including real instances of biases in the wild.
translated by 谷歌翻译
尽管过度参数化的模型已经在许多机器学习任务上表现出成功,但与培训不同的测试分布的准确性可能会下降。这种准确性下降仍然限制了在野外应用机器学习的限制。同时,重要的加权是一种处理分配转移的传统技术,已被证明在经验和理论上对过度参数化模型的影响较小甚至没有影响。在本文中,我们提出了重要的回火来改善决策界限,并为过度参数化模型取得更好的结果。从理论上讲,我们证明在标签移位和虚假相关设置下,组温度的选择可能不同。同时,我们还证明正确选择的温度可以解脱出少数群体崩溃的分类不平衡。从经验上讲,我们使用重要性回火来实现最严重的小组分类任务的最新结果。
translated by 谷歌翻译
在本文中,我们提出了适用于深度学习的单向和双向部分AUC(PAUC)最大化的系统和高效的基于梯度的方法。我们通过使用分布强大的优化(DRO)来定义每个单独的积极数据的损失,提出了PAUC替代目标的新公式。我们考虑了两种DRO的配方,其中一种是基于条件 - 价值风险(CVAR),该风险(CVAR)得出了PAUC的非平滑但精确的估计器,而另一个基于KL差异正则DRO产生不确定的dro。但是PAUC的平滑(软)估计器。对于单向和双向PAUC最大化,我们提出了两种算法,并证明了它们分别优化其两种配方的收敛性。实验证明了所提出的算法对PAUC最大化的有效性,以对各种数据集进行深度学习。
translated by 谷歌翻译
ROC曲线下的区域(又称AUC)是评估分类器不平衡数据的性能的选择。 AUC最大化是指通过直接最大化其AUC分数来学习预测模型的学习范式。它已被研究了二十年来,其历史可以追溯到90年代后期,从那时起,大量工作就致力于最大化。最近,对大数据和深度学习的深度最大化的随机AUC最大化已受到越来越多的关注,并对解决现实世界中的问题产生了巨大的影响。但是,据我们所知,没有对AUC最大化的相关作品进行全面调查。本文旨在通过回顾过去二十年来审查文献来解决差距。我们不仅给出了文献的整体看法,而且还提供了从配方到算法和理论保证的不同论文的详细解释和比较。我们还确定并讨论了深度AUC最大化的剩余和新兴问题,并就未来工作的主题提供建议。
translated by 谷歌翻译
我们考虑为多类分类任务生产公平概率分类器的问题。我们以“投射”预先培训(且可能不公平的)分类器在满足目标群体对要求的一组模型上的“投影”来提出这个问题。新的投影模型是通过通过乘法因子后处理预训练的分类器的输出来给出的。我们提供了一种可行的迭代算法,用于计算投影分类器并得出样本复杂性和收敛保证。与最先进的基准测试的全面数值比较表明,我们的方法在准确性权衡曲线方面保持了竞争性能,同时在大型数据集中达到了有利的运行时。我们还在具有多个类别,多个相互保护组和超过1M样本的开放数据集上评估了我们的方法。
translated by 谷歌翻译
NDCG是标准化的折扣累积增益,是信息检索和机器学习中广泛使用的排名指标。但是,仍然缺乏最大化NDCG的有效且可证明的随机方法,尤其是对于深层模型。在本文中,我们提出了一种优化NDCG及其最高$ K $变体的原则方法。首先,我们制定了一个新颖的组成优化问题,以优化NDCG替代物,以及一个新型的双层构图优化问题,用于优化顶部$ K $ NDCG代理。然后,我们开发有效的随机算法,并为非凸目标提供可证明的收敛保证。与现有的NDCG优化方法不同,我们的算法量表的均量复杂性与迷你批量大小,而不是总项目的数量。为了提高深度学习的有效性,我们通过使用初始热身和停止梯度操作员进一步提出实用策略。多个数据集的实验结果表明,我们的方法在NDCG方面优于先前的排名方法。据我们所知,这是首次提出随机算法以优化具有可证明的收敛保证的NDCG。我们提出的方法在https://libauc.org/的libauc库中实现。
translated by 谷歌翻译
当训练过度参数化的深网以进行分类任务时,已经广泛观察到,学到的功能表现出所谓的“神经崩溃”现象。更具体地说,对于倒数第二层的输出特征,对于每个类,课堂内特征会收敛到其平均值,而不同类别的手段表现出一定的紧密框架结构,这也与最后一层的分类器对齐。由于最后一层的特征归一化成为现代表示学习中的一种常见实践,因此,在这项工作中,我们从理论上证明了归一化特征的神经崩溃现象是合理的。基于不受约束的特征模型,我们通过限制球体上的所有特征和分类器来简化多级分类任务中的经验损失函数。在这种情况下,我们分析了riemannian优化问题在球体的产物上的非概念景观,从而显示出良性的全球景观,因为唯一的全球最小化器是神经崩溃的解决方案,而所有其他关键点是严格的鞍座。实用深网的实验结果证实了我们的理论,并证明可以通过特征归一化更快地学习更好的表示。
translated by 谷歌翻译
学习算法的目标之一是补充和减轻人类决策者的负担。算法可以自行预测的专家延期设置,也可以将决定推迟到下游专家有助于实现这一目标。这种环境的一个基本方面是需要学习改善人类弱点的互补预测因子,而不是学习预测因素以优化平均错误。在这项工作中,我们提供了对专家延期中学习补充预测指标的好处的第一个理论分析。为了有效地学习此类预测因素,我们考虑了一个始终如一的替代损失功能的家族,以延期专家并分析其理论特性。最后,我们设计的主动学习方案需要最少的人类专家预测数据,以学习准确的延期系统。
translated by 谷歌翻译
深入学习在现代分类任务中取得了许多突破。已经提出了众多架构用于不同的数据结构,但是当涉及丢失功能时,跨熵损失是主要的选择。最近,若干替代损失已经看到了深度分类器的恢复利益。特别是,经验证据似乎促进了方形损失,但仍然缺乏理论效果。在这项工作中,我们通过系统地研究了在神经切线内核(NTK)制度中的过度分化的神经网络的表现方式来促进对分类方面损失的理论理解。揭示了关于泛化误差,鲁棒性和校准错误的有趣特性。根据课程是否可分离,我们考虑两种情况。在一般的不可分类案例中,为错误分类率和校准误差建立快速收敛速率。当类是可分离的时,错误分类率改善了速度快。此外,经过证明得到的余量被证明是低于零的较低,提供了鲁棒性的理论保证。我们希望我们的调查结果超出NTK制度并转化为实际设置。为此,我们对实际神经网络进行广泛的实证研究,展示了合成低维数据和真实图像数据中方损的有效性。与跨熵相比,方形损耗具有可比的概括误差,但具有明显的鲁棒性和模型校准的优点。
translated by 谷歌翻译