由于课堂之间不可避免的语义歧义,TOP-K错误已成为大规模分类基准测试的流行指标。有关TOP-K优化的现有文献通常集中于TOP-K目标的优化方法,同时忽略了度量本身的局限性。在本文中,我们指出,顶级目标缺乏足够的歧视,因此诱导的预测可能使完全无关的标签成为最高等级。为了解决此问题,我们开发了一个新颖的度量标准,名为Top-K曲线(AUTKC)下的部分区域。理论分析表明,AUTKC具有更好的歧视能力,其贝叶斯最佳分数函数可以在条件概率方面给出正确的顶级排名。这表明AUTKC不允许无关标签出现在顶部列表中。此外,我们提出了一个经验替代风险最小化框架,以优化拟议的指标。从理论上讲,我们提出(1)贝叶斯最佳分数函数的渔民一致性的足够条件; (2)在简单的超参数设置下对类不敏感的概括上限。最后,四个基准数据集的实验结果验证了我们提出的框架的有效性。
translated by 谷歌翻译
近年来,已取得了巨大进展,以通过半监督学习(SSL)来纳入未标记的数据来克服效率低下的监督问题。大多数最先进的模型是基于对未标记的数据追求一致的模型预测的想法,该模型被称为输入噪声,这称为一致性正则化。尽管如此,对其成功的原因缺乏理论上的见解。为了弥合理论和实际结果之间的差距,我们在本文中提出了SSL的最坏情况一致性正则化技术。具体而言,我们首先提出了针对SSL的概括,该概括由分别在标记和未标记的训练数据上观察到的经验损失项组成。在这种界限的激励下,我们得出了一个SSL目标,该目标可最大程度地减少原始未标记的样本与其多重增强变体之间最大的不一致性。然后,我们提供了一种简单但有效的算法来解决提出的最小问题,从理论上证明它会收敛到固定点。五个流行基准数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
ROC曲线(AUC)下的面积是机器学习的关键指标,它评估了所有可能的真实正率(TPR)和假阳性率(FPRS)的平均性能。基于以下知识:熟练的分类器应同时拥抱高的TPR和低FPR,我们转向研究一个更通用的变体,称为双向部分AUC(TPAUC),其中只有$ \ Mathsf {Tpr} \ ge ge ge ge \ alpha,\ mathsf {fpr} \ le \ beta $包含在该区域中。此外,最近的工作表明,TPAUC与现有的部分AUC指标基本上不一致,在该指标中,只有FPR范围受到限制,为寻求解决方案以利用高TPAUC开辟了一个新问题。在此激励的情况下,我们在本文中提出了优化该新指标的第一个试验。本课程的关键挑战在于难以通过端到端随机训练进行基于梯度的优化,即使有适当的替代损失选择。为了解决这个问题,我们提出了一个通用框架来构建替代优化问题,该问题支持有效的端到端培训,并深入学习。此外,我们的理论分析表明:1)替代问题的目标函数将在轻度条件下实现原始问题的上限,2)优化替代问题会导致TPAUC的良好概括性能,并且具有很高的可能性。最后,对几个基准数据集的实证研究表达了我们框架的功效。
translated by 谷歌翻译
最近提出的协作度量学习(CML)范式由于其简单性和有效性引起了人们对推荐系统(RS)领域的广泛兴趣。通常,CML的现有文献在很大程度上取决于\ textit {负抽样}策略,以减轻成对计算的耗时负担。但是,在这项工作中,通过进行理论分析,我们发现负抽样会导致对概括误差的偏差估计。具体而言,我们表明,基于抽样的CML将在概括性结合中引入一个偏差项,该术语是由per-use \ textit {total方差}(TV)量化的,在负面采样和地面真相分布引起的分布之间。这表明,即使有足够大的训练数据,优化基于采样的CML损耗函数也不能确保小概括误差。此外,我们表明偏见术语将消失,而无需负面抽样策略。在此激励的情况下,我们提出了一种有效的替代方案,而没有对CML进行负面采样的cml,name \ textit {无抽样协作度量学习}(SFCML),以消除实际意义上的采样偏见。最后,超过七个基准数据集的全面实验表达了所提出的算法的优势。
translated by 谷歌翻译
Traditional machine learning follows a close-set assumption that the training and test set share the same label space. While in many practical scenarios, it is inevitable that some test samples belong to unknown classes (open-set). To fix this issue, Open-Set Recognition (OSR), whose goal is to make correct predictions on both close-set samples and open-set samples, has attracted rising attention. In this direction, the vast majority of literature focuses on the pattern of open-set samples. However, how to evaluate model performance in this challenging task is still unsolved. In this paper, a systematic analysis reveals that most existing metrics are essentially inconsistent with the aforementioned goal of OSR: (1) For metrics extended from close-set classification, such as Open-set F-score, Youden's index, and Normalized Accuracy, a poor open-set prediction can escape from a low performance score with a superior close-set prediction. (2) Novelty detection AUC, which measures the ranking performance between close-set and open-set samples, ignores the close-set performance. To fix these issues, we propose a novel metric named OpenAUC. Compared with existing metrics, OpenAUC enjoys a concise pairwise formulation that evaluates open-set performance and close-set performance in a coupling manner. Further analysis shows that OpenAUC is free from the aforementioned inconsistency properties. Finally, an end-to-end learning method is proposed to minimize the OpenAUC risk, and the experimental results on popular benchmark datasets speak to its effectiveness.
translated by 谷歌翻译
Precision-Recall曲线(AUPRC)下区域的随机优化是机器学习的关键问题。尽管已经对各种算法进行了广泛研究以进行AUPRC优化,但仅在多Query情况下保证了概括。在这项工作中,我们介绍了随机AUPRC优化的一次性概括中的第一个试验。对于更庞大的概括范围,我们专注于算法依赖性概括。我们目的地都有算法和理论障碍。从算法的角度来看,我们注意到,仅当采样策略偏见时,大多数现有随机估计器才会偏向,并且由于不可兼容性而不稳定。为了解决这些问题,我们提出了一个具有卓越稳定性的采样率不变的无偏随机估计器。最重要的是,AUPRC优化是作为组成优化问题配制的,并提出了随机算法来解决此问题。从理论的角度来看,算法依赖性概括分析的标准技术不能直接应用于这种列表的组成优化问题。为了填补这一空白,我们将模型稳定性从实例损失扩展到列表损失,并弥合相应的概括和稳定性。此外,我们构建状态过渡矩阵以描述稳定性的复发,并通过矩阵频谱简化计算。实际上,关于三个图像检索数据集的实验结果谈到了我们框架的有效性和健全性。
translated by 谷歌翻译
最近的作品揭示了设计损失功能的基本范式,该损失功能与骨料损失不同。单个损失衡量样本上模型的质量,而总损失结合了每个训练样本的个体损失/分数。两者都有一个共同的过程,将一组单个值集合到单个数值值。排名顺序反映了设计损失时个人价值观之间最基本的关系。此外,可以将损失分解成单个术语的合奏的可分解性成为组织损失/得分的重要特性。这项调查对机器学习中的基于等级的可分解损失进行了系统的全面审查。具体而言,我们提供了损失功能的新分类法,遵循总损失和个人损失的观点。我们确定聚合器以形成此类损失,这是集合功能的示例。我们将基于等级的分解损失组织为八类。遵循这些类别,我们回顾有关基于等级的总损失和基于等级的个人损失的文献。我们描述了这些损失的一般公式,并将其与现有的研究主题联系起来。我们还建议未来的研究方向涵盖基于等级的可分解损失的未开发,剩余和新兴问题。
translated by 谷歌翻译
We introduce a tunable loss function called $\alpha$-loss, parameterized by $\alpha \in (0,\infty]$, which interpolates between the exponential loss ($\alpha = 1/2$), the log-loss ($\alpha = 1$), and the 0-1 loss ($\alpha = \infty$), for the machine learning setting of classification. Theoretically, we illustrate a fundamental connection between $\alpha$-loss and Arimoto conditional entropy, verify the classification-calibration of $\alpha$-loss in order to demonstrate asymptotic optimality via Rademacher complexity generalization techniques, and build-upon a notion called strictly local quasi-convexity in order to quantitatively characterize the optimization landscape of $\alpha$-loss. Practically, we perform class imbalance, robustness, and classification experiments on benchmark image datasets using convolutional-neural-networks. Our main practical conclusion is that certain tasks may benefit from tuning $\alpha$-loss away from log-loss ($\alpha = 1$), and to this end we provide simple heuristics for the practitioner. In particular, navigating the $\alpha$ hyperparameter can readily provide superior model robustness to label flips ($\alpha > 1$) and sensitivity to imbalanced classes ($\alpha < 1$).
translated by 谷歌翻译
预测到优化的框架在许多实际设置中都是基础:预测优化问题的未知参数,然后使用参数的预测值解决该问题。与参数的预测误差相反,在这种环境中的自然损失函数是考虑预测参数引起的决策成本。最近在Elmachtoub和Grigas(2022)中引入了此损失函数,并被称为智能预测 - 优化(SPO)损失。在这项工作中,我们试图提供有关在SPO损失的背景下,预测模型在训练数据中概括的预测模型的性能如何。由于SPO损失是非凸面和非lipschitz,因此不适用推导概括范围的标准结果。我们首先根据natarajan维度得出界限,在多面体可行区域中,在极端点数中最大程度地比对数扩展,但是,在一般凸的可行区域中,对决策维度具有线性依赖性。通过利用SPO损耗函数的结构和可行区域的关键特性,我们将其表示为强度属性,我们可以显着提高对决策和特征维度的依赖。我们的方法和分析依赖于围绕有问题的预测的利润,这些预测不会产生独特的最佳解决方案,然后在修改后的利润率SPO损失函数的背景下提供了概括界限,而SPO损失函数是Lipschitz的连续。最后,我们表征了强度特性,并表明可以有效地计算出具有显式极端表示的强凸体和多面体的修饰的SPO损耗。
translated by 谷歌翻译
学习算法的目标之一是补充和减轻人类决策者的负担。算法可以自行预测的专家延期设置,也可以将决定推迟到下游专家有助于实现这一目标。这种环境的一个基本方面是需要学习改善人类弱点的互补预测因子,而不是学习预测因素以优化平均错误。在这项工作中,我们提供了对专家延期中学习补充预测指标的好处的第一个理论分析。为了有效地学习此类预测因素,我们考虑了一个始终如一的替代损失功能的家族,以延期专家并分析其理论特性。最后,我们设计的主动学习方案需要最少的人类专家预测数据,以学习准确的延期系统。
translated by 谷歌翻译
标签 - 不平衡和组敏感分类中的目标是优化相关的指标,例如平衡错误和相同的机会。经典方法,例如加权交叉熵,在训练深网络到训练(TPT)的终端阶段时,这是超越零训练误差的训练。这种观察发生了最近在促进少数群体更大边值的直观机制之后开发启发式替代品的动力。与之前的启发式相比,我们遵循原则性分析,说明不同的损失调整如何影响边距。首先,我们证明,对于在TPT中训练的所有线性分类器,有必要引入乘法,而不是添加性的Logit调整,以便对杂项边缘进行适当的变化。为了表明这一点,我们发现将乘法CE修改的连接到成本敏感的支持向量机。也许是违反,我们还发现,在培训开始时,相同的乘法权重实际上可以损害少数群体。因此,虽然在TPT中,添加剂调整无效,但我们表明它们可以通过对乘法重量的初始负效应进行抗衡来加速会聚。通过这些发现的动机,我们制定了矢量缩放(VS)丢失,即捕获现有技术作为特殊情况。此外,我们引入了对群体敏感分类的VS损失的自然延伸,从而以统一的方式处理两种常见类型的不平衡(标签/组)。重要的是,我们对最先进的数据集的实验与我们的理论见解完全一致,并确认了我们算法的卓越性能。最后,对于不平衡的高斯 - 混合数据,我们执行泛化分析,揭示平衡/标准错误和相同机会之间的权衡。
translated by 谷歌翻译
We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We provide convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. We propose an efficient first-order algorithm with bisection search to solve the dual reformulation. We demonstrate that our proposed algorithm finds $\delta$-optimal solution of the new DRO formulation with computation cost $\tilde{O}(\delta^{-3})$ and memory cost $\tilde{O}(\delta^{-2})$, and the computation cost further improves to $\tilde{O}(\delta^{-2})$ when the loss function is smooth. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance and light computational speed.
translated by 谷歌翻译
研究神经网络中重量扰动的敏感性及其对模型性能的影响,包括泛化和鲁棒性,是一种积极的研究主题,因为它对模型压缩,泛化差距评估和对抗攻击等诸如模型压缩,泛化差距评估和对抗性攻击的广泛机器学习任务。在本文中,我们在重量扰动下的鲁棒性方面提供了前馈神经网络的第一积分研究和分析及其在体重扰动下的泛化行为。我们进一步设计了一种新的理论驱动损失功能,用于培训互动和强大的神经网络免受重量扰动。进行实证实验以验证我们的理论分析。我们的结果提供了基本洞察,以表征神经网络免受重量扰动的泛化和鲁棒性。
translated by 谷歌翻译
深入学习在现代分类任务中取得了许多突破。已经提出了众多架构用于不同的数据结构,但是当涉及丢失功能时,跨熵损失是主要的选择。最近,若干替代损失已经看到了深度分类器的恢复利益。特别是,经验证据似乎促进了方形损失,但仍然缺乏理论效果。在这项工作中,我们通过系统地研究了在神经切线内核(NTK)制度中的过度分化的神经网络的表现方式来促进对分类方面损失的理论理解。揭示了关于泛化误差,鲁棒性和校准错误的有趣特性。根据课程是否可分离,我们考虑两种情况。在一般的不可分类案例中,为错误分类率和校准误差建立快速收敛速率。当类是可分离的时,错误分类率改善了速度快。此外,经过证明得到的余量被证明是低于零的较低,提供了鲁棒性的理论保证。我们希望我们的调查结果超出NTK制度并转化为实际设置。为此,我们对实际神经网络进行广泛的实证研究,展示了合成低维数据和真实图像数据中方损的有效性。与跨熵相比,方形损耗具有可比的概括误差,但具有明显的鲁棒性和模型校准的优点。
translated by 谷歌翻译
NDCG是标准化的折扣累积增益,是信息检索和机器学习中广泛使用的排名指标。但是,仍然缺乏最大化NDCG的有效且可证明的随机方法,尤其是对于深层模型。在本文中,我们提出了一种优化NDCG及其最高$ K $变体的原则方法。首先,我们制定了一个新颖的组成优化问题,以优化NDCG替代物,以及一个新型的双层构图优化问题,用于优化顶部$ K $ NDCG代理。然后,我们开发有效的随机算法,并为非凸目标提供可证明的收敛保证。与现有的NDCG优化方法不同,我们的算法量表的均量复杂性与迷你批量大小,而不是总项目的数量。为了提高深度学习的有效性,我们通过使用初始热身和停止梯度操作员进一步提出实用策略。多个数据集的实验结果表明,我们的方法在NDCG方面优于先前的排名方法。据我们所知,这是首次提出随机算法以优化具有可证明的收敛保证的NDCG。我们提出的方法在https://libauc.org/的libauc库中实现。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
在有限的数据分布漂移下证明模型性能的鲁棒性最近引起了分布鲁棒性的保护。但是,现有技术要么对可以认证的模型类别和损失功能做出了强有力的假设,例如通过Lipschitz的梯度连续性表达的平滑度,要么需要解决复杂的优化问题。结果,这些技术的更广泛应用当前受其可伸缩性和灵活性的限制 - 这些技术通常不会扩展到具有现代深神经网络的大规模数据集,或者无法处理可能不太平滑的损失功能,例如0-1损失。在本文中,我们着重于证明黑框模型和有限损失功能的分配鲁棒性的问题,并根据Hellinger距离提出了一个新颖的认证框架。我们的认证技术缩放到Imagenet规模的数据集,复杂的模型以及各种损失功能。然后,我们专注于通过这种可伸缩性和灵活性启用的一个特定应用程序,即,对大型神经网络和损失功能(例如准确性和AUC)的跨域概括进行认证。我们在许多数据集上实验验证了我们的认证方法,从Imagenet(从Imagenet)提供了第一个非易变认证的偏置概括到较小的分类任务,我们能够与最先进的任务进行比较艺术并表明我们的方法的性能要好得多。
translated by 谷歌翻译
We explore the ability of overparameterized shallow ReLU neural networks to learn Lipschitz, non-differentiable, bounded functions with additive noise when trained by Gradient Descent (GD). To avoid the problem that in the presence of noise, neural networks trained to nearly zero training error are inconsistent in this class, we focus on the early-stopped GD which allows us to show consistency and optimal rates. In particular, we explore this problem from the viewpoint of the Neural Tangent Kernel (NTK) approximation of a GD-trained finite-width neural network. We show that whenever some early stopping rule is guaranteed to give an optimal rate (of excess risk) on the Hilbert space of the kernel induced by the ReLU activation function, the same rule can be used to achieve minimax optimal rate for learning on the class of considered Lipschitz functions by neural networks. We discuss several data-free and data-dependent practically appealing stopping rules that yield optimal rates.
translated by 谷歌翻译
最近关于使用嘈杂标签的学习的研究通过利用小型干净数据集来显示出色的性能。特别是,基于模型不可知的元学习的标签校正方法进一步提高了性能,通过纠正了嘈杂的标签。但是,标签错误矫予没有保障措施,导致不可避免的性能下降。此外,每个训练步骤都需要至少三个背部传播,显着减慢训练速度。为了缓解这些问题,我们提出了一种强大而有效的方法,可以在飞行中学习标签转换矩阵。采用转换矩阵使分类器对所有校正样本持怀疑态度,这减轻了错误的错误问题。我们还介绍了一个双头架构,以便在单个反向传播中有效地估计标签转换矩阵,使得估计的矩阵紧密地遵循由标签校正引起的移位噪声分布。广泛的实验表明,我们的方法在训练效率方面表现出比现有方法相当或更好的准确性。
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译