ROC(AUROC)和精密召回曲线(AUPRC)的区域是用于评估不平衡问题的分类性能的常见度量。与AUROC相比,AUPRC是一个更合适的度量,用于高度不平衡的数据集。虽然已经广泛研究了Auroc的随机优化,但Auprc的原则随机优化已经很少被探索。在这项工作中,我们提出了一个原则的技术方法来优化Auprc进行深度学习。我们的方法是基于最大化平均精度(AP),这是Auprc的一个非偏见点估计器。我们将目标分为{\ IT依赖的组成函数}的总和,内部函数取决于外层的随机变量。通过利用随机成分优化的最新进展,我们提出了具有{\ IT可提供的收敛保证的皂的适应性和非自适应随机算法。图像和图表数据集的广泛实验结果表明,我们所提出的方法在AUPRC方面占据了对不平衡问题的现有方法。据我们所知,我们的工作代表了第一次尝试使用可提供的融合优化AUPRC。 SOAP已在Libauc库中在〜\ URL {https://libauc.org/}中实现。
translated by 谷歌翻译
在本文中,我们提出了适用于深度学习的单向和双向部分AUC(PAUC)最大化的系统和高效的基于梯度的方法。我们通过使用分布强大的优化(DRO)来定义每个单独的积极数据的损失,提出了PAUC替代目标的新公式。我们考虑了两种DRO的配方,其中一种是基于条件 - 价值风险(CVAR),该风险(CVAR)得出了PAUC的非平滑但精确的估计器,而另一个基于KL差异正则DRO产生不确定的dro。但是PAUC的平滑(软)估计器。对于单向和双向PAUC最大化,我们提出了两种算法,并证明了它们分别优化其两种配方的收敛性。实验证明了所提出的算法对PAUC最大化的有效性,以对各种数据集进行深度学习。
translated by 谷歌翻译
NDCG是标准化的折扣累积增益,是信息检索和机器学习中广泛使用的排名指标。但是,仍然缺乏最大化NDCG的有效且可证明的随机方法,尤其是对于深层模型。在本文中,我们提出了一种优化NDCG及其最高$ K $变体的原则方法。首先,我们制定了一个新颖的组成优化问题,以优化NDCG替代物,以及一个新型的双层构图优化问题,用于优化顶部$ K $ NDCG代理。然后,我们开发有效的随机算法,并为非凸目标提供可证明的收敛保证。与现有的NDCG优化方法不同,我们的算法量表的均量复杂性与迷你批量大小,而不是总项目的数量。为了提高深度学习的有效性,我们通过使用初始热身和停止梯度操作员进一步提出实用策略。多个数据集的实验结果表明,我们的方法在NDCG方面优于先前的排名方法。据我们所知,这是首次提出随机算法以优化具有可证明的收敛保证的NDCG。我们提出的方法在https://libauc.org/的libauc库中实现。
translated by 谷歌翻译
在本文中,我们研究了多块最小双重双层优化问题,其中上层是非凸线的最小值最小值目标,而下层级别是一个强烈的凸目标,并且有多个双重变量块和下层级别。问题。由于交织在一起的多块最小双重双重结构,每次迭代处的计算成本可能高高,尤其是在大量块中。为了应对这一挑战,我们提出了一种单循环随机随机算法,该算法需要在每次迭代时仅恒定数量的块进行更新。在对问题的一些温和假设下,我们建立了$ \ Mathcal {o}(1/\ Epsilon^4)$的样本复杂性,用于查找$ \ epsilon $ - 稳定点。这匹配了在一般无偏见的随机甲骨文模型下求解随机非convex优化的最佳复杂性。此外,我们在多任务深度AUC(ROC曲线下)最大化和多任务深度部分AUC最大化中提供了两种应用。实验结果验证了我们的理论,并证明了我们方法对数百个任务问题的有效性。
translated by 谷歌翻译
In this paper, we present a simple yet effective method (ABSGD) for addressing the data imbalance issue in deep learning. Our method is a simple modification to momentum SGD where we leverage an attentional mechanism to assign an individual importance weight to each gradient in the mini-batch. Unlike many existing heuristic-driven methods for tackling data imbalance, our method is grounded in {\it theoretically justified distributionally robust optimization (DRO)}, which is guaranteed to converge to a stationary point of an information-regularized DRO problem. The individual-level weight of a sampled data is systematically proportional to the exponential of a scaled loss value of the data, where the scaling factor is interpreted as the regularization parameter in the framework of information-regularized DRO. Compared with existing class-level weighting schemes, our method can capture the diversity between individual examples within each class. Compared with existing individual-level weighting methods using meta-learning that require three backward propagations for computing mini-batch stochastic gradients, our method is more efficient with only one backward propagation at each iteration as in standard deep learning methods. To balance between the learning of feature extraction layers and the learning of the classifier layer, we employ a two-stage method that uses SGD for pretraining followed by ABSGD for learning a robust classifier and finetuning lower layers. Our empirical studies on several benchmark datasets demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译
在本文中,我们提出了一种实用的在线方法,用于解决具有非凸面目标的一类分布稳健优化(DRO),这在机器学习中具有重要应用,以改善神经网络的稳健性。在文献中,大多数用于解决DRO的方法都基于随机原始方法。然而,DRO的原始方法患有几个缺点:(1)操纵对应于数据尺寸的高维双变量是昂贵的; (2)他们对网上学习不友好,其中数据顺序地发表。为了解决这些问题,我们考虑一类具有KL发散正则化的Dual变量的DRO,将MIN-MAX问题转换为组成最小化问题,并提出了无需较大的批量批量的无需线在线随机方法。我们建立了所提出的方法的最先进的复杂性,而无需多达\ L Ojasiewicz(PL)条件。大规模深度学习任务(i)的实证研究表明,我们的方法可以将培训加速超过2次,而不是基线方法,并在带有$ \ SIM $ 265K图像的大型数据集上节省培训时间。 (ii)验证DRO对实证数据集上的经验风险最小化(ERM)的最高表现。独立兴趣,所提出的方法也可用于解决与最先进的复杂性的随机成分问题家族。
translated by 谷歌翻译
X-fisk是一个介绍的术语,以代表组成量度或目标家族,其中每个数据点与一组数据点显式或隐式进行比较,以定义风险函数。它包括许多广泛使用的措施或目标在一定的召回水平上的精确度,对比目标等处于最高$ K $的位置。尽管在机器学习,计算机视觉,信息检索等文献中已经研究了这些措施/目标及其优化算法,但优化了这些措施/目标在深度学习方面遇到了一些独特的挑战。在这份技术报告中,我们通过重点关注其算法基础,调查了最近对深X风险优化(DXO)的严格努力。我们介绍了一类技术,以优化X风险以进行深度学习。我们分别将DXO分别属于非凸端优化的非凸优化问题的三个特殊家族,分别分别属于Min-Max优化,非凸组成优化和非Convex Bilevel优化。对于每个问题家族,我们提出了一些强大的基线算法及其复杂性,这将激发进一步的研究以改善现有结果。关于提出的结果和未来研究的讨论在最后进行。在www.libauc.org的libauc库中实现了用于优化各种X风险的有效算法。
translated by 谷歌翻译
ROC曲线下的区域(又称AUC)是评估分类器不平衡数据的性能的选择。 AUC最大化是指通过直接最大化其AUC分数来学习预测模型的学习范式。它已被研究了二十年来,其历史可以追溯到90年代后期,从那时起,大量工作就致力于最大化。最近,对大数据和深度学习的深度最大化的随机AUC最大化已受到越来越多的关注,并对解决现实世界中的问题产生了巨大的影响。但是,据我们所知,没有对AUC最大化的相关作品进行全面调查。本文旨在通过回顾过去二十年来审查文献来解决差距。我们不仅给出了文献的整体看法,而且还提供了从配方到算法和理论保证的不同论文的详细解释和比较。我们还确定并讨论了深度AUC最大化的剩余和新兴问题,并就未来工作的主题提供建议。
translated by 谷歌翻译
本文研究了一系列组成函数的随机优化,其中每个汇总的内部函数与相应的求和指数耦合。我们将这个问题家族称为有限和耦合的组成优化(FCCO)。它在机器学习中具有广泛的应用,用于优化非凸或凸组成措施/目标,例如平均精度(AP),p-norm推动,列表排名损失,邻居组成分析(NCA),深度生存分析,深层可变模型等等,这应该得到更精细的分析。然而,现有的算法和分析在一个或其他方面受到限制。本文的贡献是为非凸和凸目标的简单随机算法提供全面的收敛分析。我们的关键结果是通过使用带有微型批次的基于移动平均的估计器,通过并行加速提高了Oracle的复杂性。我们的理论分析还展示了通过对外部和内部水平相等大小的批量来改善实际实现的新见解。关于AP最大化,NCA和P-norm推动的数值实验证实了该理论的某些方面。
translated by 谷歌翻译
In this paper, we tackle a novel federated learning (FL) problem for optimizing a family of X-risks, to which no existing FL algorithms are applicable. In particular, the objective has the form of $\mathbb E_{z\sim S_1} f(\mathbb E_{z'\sim S_2} \ell(w; z, z'))$, where two sets of data $S_1, S_2$ are distributed over multiple machines, $\ell(\cdot)$ is a pairwise loss that only depends on the prediction outputs of the input data pairs $(z, z')$, and $f(\cdot)$ is possibly a non-linear non-convex function. This problem has important applications in machine learning, e.g., AUROC maximization with a pairwise loss, and partial AUROC maximization with a compositional loss. The challenges for designing an FL algorithm lie in the non-decomposability of the objective over multiple machines and the interdependency between different machines. To address the challenges, we propose an active-passive decomposition framework that decouples the gradient's components with two types, namely active parts and passive parts, where the active parts depend on local data that are computed with the local model and the passive parts depend on other machines that are communicated/computed based on historical models and samples. Under this framework, we develop two provable FL algorithms (FeDXL) for handling linear and nonlinear $f$, respectively, based on federated averaging and merging. We develop a novel theoretical analysis to combat the latency of the passive parts and the interdependency between the local model parameters and the involved data for computing local gradient estimators. We establish both iteration and communication complexities and show that using the historical samples and models for computing the passive parts do not degrade the complexities. We conduct empirical studies of FeDXL for deep AUROC and partial AUROC maximization, and demonstrate their performance compared with several baselines.
translated by 谷歌翻译
Precision-Recall曲线(AUPRC)下区域的随机优化是机器学习的关键问题。尽管已经对各种算法进行了广泛研究以进行AUPRC优化,但仅在多Query情况下保证了概括。在这项工作中,我们介绍了随机AUPRC优化的一次性概括中的第一个试验。对于更庞大的概括范围,我们专注于算法依赖性概括。我们目的地都有算法和理论障碍。从算法的角度来看,我们注意到,仅当采样策略偏见时,大多数现有随机估计器才会偏向,并且由于不可兼容性而不稳定。为了解决这些问题,我们提出了一个具有卓越稳定性的采样率不变的无偏随机估计器。最重要的是,AUPRC优化是作为组成优化问题配制的,并提出了随机算法来解决此问题。从理论的角度来看,算法依赖性概括分析的标准技术不能直接应用于这种列表的组成优化问题。为了填补这一空白,我们将模型稳定性从实例损失扩展到列表损失,并弥合相应的概括和稳定性。此外,我们构建状态过渡矩阵以描述稳定性的复发,并通过矩阵频谱简化计算。实际上,关于三个图像检索数据集的实验结果谈到了我们框架的有效性和健全性。
translated by 谷歌翻译
ROC曲线(AUROC)下的区域已大力应用于分类不平衡,此外,与深度学习技术相结合。但是,没有现有的工作为同行选择适当的深度AUROC最大化技术提供合理的信息。在这项工作中,我们从三个方面填补了这一空白。 (i)我们基准具有各种损失函数,具有不同的算法选择,用于深度AUROC优化问题。我们研究了两类损失功能:成对损失和复合损失,其中包括10个损失函数。有趣的是,我们发现综合损失是一种创新的损失函数类别,比训练收敛和测试概括视角的成对损失表现出更具竞争力的性能。然而,带有更损坏的标签的数据有利于成对的对称损失。 (ii)此外,我们基准并强调了基本算法选择,例如正采样率,正则化,归一化/激活和优化器。主要发现包括:较高的阳性采样率可能对深度AUROC最大化有益;不同的数据集有利于不同的正规化权重;适当的归一化技术,例如Sigmoid和$ \ ell_2 $得分归一化,可以提高模型性能。 (iii)为了优化方面,我们基于成对和复合损失的SGD型,动量类型和ADAM型优化器。我们的发现表明,尽管从训练的角度来看,亚当型方法更具竞争力,但从测试角度来看,它并不优于其他方法。
translated by 谷歌翻译
本文重点介绍了解决光滑非凸强凹入最小问题的随机方法,这导致了由于其深度学习中的潜在应用而受到越来越长的关注(例如,深度AUC最大化,分布鲁棒优化)。然而,大多数现有算法在实践中都很慢,并且它们的分析围绕到几乎静止点的收敛。我们考虑利用Polyak-\ L Ojasiewicz(PL)条件来设计更快的随机算法,具有更强的收敛保证。尽管已经用于设计许多随机最小化算法的PL条件,但它们对非凸敏最大优化的应用仍然罕见。在本文中,我们提出并分析了基于近端的跨越时代的方法的通用框架,许多众所周知的随机更新嵌入。以{\ BF原始物镜差和二元间隙}的方式建立快速收敛。与现有研究相比,(i)我们的分析基于一个新的Lyapunov函数,包括原始物理差距和正则化功能的二元间隙,(ii)结果更加全面,提高了更好的依赖性的速率不同假设下的条件号。我们还开展深层和非深度学习实验,以验证我们的方法的有效性。
translated by 谷歌翻译
已经对蜘蛛/莎拉/风暴等方差降低技术进行了广泛的研究,以提高随机非凸优化的收敛速率,这些优化通常维护和更新跨迭代中单个函数的估计器序列。 {\如果我们需要在迭代中跟踪多个功能映射,但是只有访问$ \ Mathcal {o}的随机样品(1)$在每次迭代时$ functional映射?}在解决一个新兴的家族时,有一个重要的应用程序以$ \ sum_ {i = 1}^m f_i(g_i(\ mathbf {w}))的形式形式的耦合组合优化问题,其中$ g_i $可通过随机甲骨文访问$ g_i $。关键问题是跟踪和估计$ \ mathbf g(\ mathbf {w})=(g_1(\ mathbf {w}),\ ldots,g_m(\ mathbf {w})$ $ \ mathbf g(\ mathbf {w})$具有$ m $块,只允许探测$ \ mathcal {o}(1)$块才能达到其随机值和雅各布人。为了提高解决这些问题的复杂性,我们提出了一种新型随机方法,称为多块单个探针差异(MSVR)估计器,以跟踪$ \ mathbf g(\ mathbf {w})$的序列。它的灵感来自风暴,但引入了定制的误差校正术语,不仅可以减轻所选块的随机样品中的噪声,而且还可以减轻那些未进行采样的块中的噪声。在MSVR估计器的帮助下,我们开发了几种算法来解决上述组成问题,并在具有非convex/convex/convex/strank strank convex目标的各种设置中具有改善的复杂性。我们的结果在几个方面都改善了先前的结果,包括样本复杂性和对强凸参数的依赖。多任务深度AUC最大化的经验研究表明,使用新估计器的性能更好。
translated by 谷歌翻译
亚当是训练深神经网络的最具影响力的自适应随机算法之一,即使在简单的凸面设置中,它也被指出是不同的。许多尝试,例如降低自适应学习率,采用较大的批量大小,结合了时间去相关技术,寻求类似的替代物,\ textit {etc。},以促进Adam-type算法融合。与现有方法相反,我们引入了另一种易于检查的替代条件,这仅取决于基础学习率的参数和历史二阶时刻的组合,以确保通用ADAM的全球融合以解决大型融合。缩放非凸随机优化。这种观察结果以及这种足够的条件,对亚当的差异产生了更深刻的解释。另一方面,在实践中,无需任何理论保证,广泛使用了迷你ADAM和分布式ADAM。我们进一步分析了分布式系统中的批次大小或节点的数量如何影响亚当的收敛性,从理论上讲,这表明迷你批次和分布式亚当可以通过使用较大的迷你批量或较大的大小来线性地加速节点的数量。最后,我们应用了通用的Adam和Mini Batch Adam,具有足够条件来求解反例并在各种真实世界数据集上训练多个神经网络。实验结果完全符合我们的理论分析。
translated by 谷歌翻译
在本文中,我们从优化的角度研究了对比度学习,旨在分析和解决现有的对比学习方法的基本问题,这些方法依靠大批量大小或大型矢量词典。我们考虑了对比度学习的全球目标,该目标将每个正对与锚点的所有负对对比。从优化的角度来看,我们解释了为什么诸如SIMCLR之类的现有方法需要大批量大小才能获得令人满意的结果。为了消除此类要求,我们提出了一种记忆有效的随机优化算法,用于求解名为SOGCLR的对比度学习的全局目标。我们表明,在足够数量的迭代次数之后,在合理条件下,其优化误差可以忽略不计,或者对于稍有不同的全局对比目标而减少。从经验上讲,我们证明具有小批量大小的SOGCLR(例如256)可以在Imagenet-1k上的自我监督学习任务上获得与具有较大批量大小(例如8192)的SIMCLR相似的性能。我们还试图证明所提出的优化技术是通用的,可以应用于解决其他对比损失,例如双峰对比度学习的双向对比损失。提出的方法是在我们开源的图书馆libauc(www.libauc.org)中实现的。
translated by 谷歌翻译
在这个扩展的抽象,我们将介绍和讨论的机会和挑战AUC最大化(又名\下划线{\ BF d}由一个新的深度学习方法所带来的EEP \下划线{\ BF A} UC \下划线{\ BF中号} aximization或{\ BF DAM})对于医学图像分类。由于AUC(ROC曲线下面积又名)是一个标准的性能度量医用图像的分类,因此直接优化AUC可以实现用于学习比最小化传统损耗函数(例如,交叉熵损失)深神经网络具有更好的性能。最近,出现了采用深AUC最大化为大型医疗图像分类的一种趋势。在本文中,我们将通过突出讨论这些最近的研究结果(一)通过随机非凸优化算法大坝带来的进步; (ii)在各种医用图像的分类问题的有希望的结果。然后,我们将讨论医学图像分类DAM的挑战和机遇从三个方面,功能学,大规模优化,学习值得信赖的AI模式。
translated by 谷歌翻译
非凸优化的传统分析通常取决于平滑度的假设,即要求梯度为Lipschitz。但是,最近的证据表明,这种平滑度条件并未捕获一些深度学习目标功能的特性,包括涉及复发性神经网络和LSTM的函数。取而代之的是,他们满足了更轻松的状况,并具有潜在的无界光滑度。在这个轻松的假设下,从理论和经验上表明,倾斜的SGD比香草具有优势。在本文中,我们表明,在解决此类情况时,剪辑对于ADAM型算法是不可或缺的:从理论上讲,我们证明了广义标志GD算法可以获得与带有剪辑的SGD相似的收敛速率,但根本不需要显式剪辑。一端的这个算法家族恢复了符号,另一端与受欢迎的亚当算法非常相似。我们的分析强调了动量在分析符号类型和ADAM型算法中发挥作用的关键作用:它不仅降低了噪声的影响,因此在先前的符号分析中消除了大型迷你批次的需求显着降低了无界平滑度和梯度规范的影响。我们还将这些算法与流行的优化器进行了比较,在一组深度学习任务上,观察到我们可以在击败其他人的同时匹配亚当的性能。
translated by 谷歌翻译
尽管深度神经网络(DNNS)成功地超过了时间序列数据(例如移动健康),但由于与图像和文本数据相比,由于其独特的特征,如何训练如何训练稳健的DNN为时间序列域而言知之甚少。 。在本文中,我们提出了一个新颖的算法框架,称为时间序列(RO-TS)的强大训练,以创建适合时间序列分类任务的强大DNN。具体而言,我们通过根据基于全局对齐内核(GAK)距离测量的时间序列输入来明确推理鲁棒性标准,从而在模型参数上提出了最小值优化问题。我们还使用gak和动态时间扭曲(DTW),使用求和结构比对时间序列对齐的求和结构来展示我们的公式的普遍性和优势。这个问题是一个组成的最低 - 最大优化问题家族的实例,这是具有挑战性的,并且没有明确的理论保证。我们为这个优化问题家族提出了一种原则的随机组成交流梯度下降(SCAGDA)算法。与需要近似距离度量计算的时间序列的传统方法不同,SCAGDA使用移动平均值接近基于GAK的距离。我们理论上分析了SCAGDA的收敛速率,并为基于GAK的距离的估计提供了强有力的理论支持。我们对现实世界基准测试的实验表明,与对抗性训练相比,使用依赖数据增强或损失函数的新定义的对抗训练相比,RO-TS会创建更强大的DNN。我们还证明了GAK在欧几里得距离上对时间序列数据的重要性。 RO-TS算法的源代码可在https://github.com/tahabelkhouja/robust-training-for-time-series上获得
translated by 谷歌翻译
最近,模型 - 不可知的元学习(MAML)已经获得了巨大的关注。然而,MAML的随机优化仍然不成熟。 MAML的现有算法利用“剧集”思想,通过对每个迭代的每个采样任务进行采样和一些数据点来更新元模型。但是,它们不一定能够以恒定的小批量大小保证收敛,或者需要在每次迭代时处理大量任务,这对于持续学习或跨设备联合学习不可行,其中仅提供少量任务每次迭代或每轮。本文通过(i)提出了与消失收敛误差的有效的基于内存的随机算法提出了基于存储的基于存储器的随机算法,这只需要采样恒定数量的任务和恒定数量的每次迭代数据样本; (ii)提出基于通信的分布式内存基于存储器的MAML算法,用于跨设备(带客户端采样)和跨筒仓(无客户采样)设置中的个性化联合学习。理论结果显着改善了MAML的优化理论,实证结果也证实了理论。
translated by 谷歌翻译