基于余弦的softmax损失显着改善了深度识别网络的性能。然而,这些损失总是包括敏感的高参数,这可能使训练过程不稳定,并且为特定数据集设置合适的超参数是非常非常的。这通过直接设计自适应训练深度神经网络的梯度来解决这一挑战。我们首先通过分析它们的梯度来调查和统一以前的cosinesoftmax损失。这种统一的观点激发了我们一种新的梯度,称为P2SGrad(概率 - 相似度梯度),它利用余弦相似性而非分类概率直接更新测试指标以更新神经网络参数.P2SGrad是自适应的,超参数自由的,使培训过程更有效,更快捷。我们在三个面部识别基准,LFW,MegaFace和IJB-C上评估我们的P2SGrad。结果表明,P2SGrad在训练中是稳定的,对噪声具有鲁棒性,并且在所有三个基准测试中都达到了最先进的性能。
translated by 谷歌翻译