智能论文笔记

Imbalance Trouble: Revisiting Neural-Collapse Geometry

Christos Thrampoulidis , Ganesh R. Kini , Vala Vakilian , Tina Behnia

分类：机器学习 | (统计)机器学习

2022-08-10

神经塌陷是指表征类嵌入和分类器重量的几何形状的显着结构特性，当经过零训练误差以外的训练时，深网被发现。但是，这种表征仅适用于平衡数据。因此，我们在这里询问是否可以使阶级失衡不变。为此，我们采用了不受限制的功能模型（UFM），这是一种用于研究神经塌陷的最新理论模型，并引入了单纯形编码标签的插值（SELI）作为神经崩溃现象的不变特征。具体而言，我们证明了UFM的跨凝结损失和消失的正则化，无论阶级失衡如何，嵌入和分类器总是插入单纯形编码的标签矩阵，并且其单个几何形状都由同一标签矩阵矩阵矩阵的SVD因子确定。然后，我们对合成和真实数据集进行了广泛的实验，这些实验确认了与SELI几何形状的收敛。但是，我们警告说，融合会随着不平衡的增加而恶化。从理论上讲，我们通过表明与平衡的情况不同，当存在少数民族时，山脊规范化在调整几何形状中起着至关重要的作用。这定义了新的问题，并激发了对阶级失衡对一阶方法融合其渐近优先解决方案的速率的影响的进一步研究。

translated by 谷歌翻译

在本文中，我们提出了一个自然的单个偏好（IP）稳定性的概念，该概念要求每个数据点平均更接近其自身集群中的点，而不是其他群集中的点。我们的概念可以从几个角度的动机，包括游戏理论和算法公平。我们研究了与我们提出的概念有关的几个问题。我们首先表明，确定给定数据集通常允许进行IP稳定的聚类通常是NP-HARD。结果，我们探索了在某些受限度量空间中查找IP稳定聚类的有效算法的设计。我们提出了一种poly Time算法，以在实际线路上找到满足精确IP稳定性的聚类，并有效地算法来找到针对树度量的IP稳定2聚类。我们还考虑放松稳定性约束，即，与其他任何集群相比，每个数据点都不应太远。在这种情况下，我们提供具有不同保证的多时间算法。我们在实际数据集上评估了一些算法和几种标准聚类方法。

translated by 谷歌翻译

我们介绍了$（p，q）$ - 公平集群问题。在这个问题中，我们给出了一组点数$ p $和不同重量函数的集合$ w $。我们想找到一个群集，最小化$ \ ell_q $ -norm的$ \ ell_p $-norm的$ \ ell_p $ -norms的$ p $从中心。这概括了各种聚类问题，包括社会博览会$ k $ -Median和$ k $ - emeans，并且与其他问题紧密相连，如Densest $ K $ -subgraph和Min $ K $ -Union。我们利用凸编程技术来估计$（p，q）$ - 为$ p $和$ q $的不同价值观达到公平的聚类问题。当$ p \ geq q $时，我们得到$ o（k ^ {（pq）/（2pq）}）$，它几乎匹配$ k ^ {\ omega（（pq）/（pq））} $低于基于Min $ K $ -Union和其他问题的猜想硬度的束缚。当$ q \ geq p $时，我们得到一个近似，它与界限$ p，q $的输入的大小无关，也与最近的$ o相匹配（（\ log n /（\ log \ log n）） ^ {1 / p}）$ - $（p，\ infty）$ - makarychev和vakilian（colt 2021）的公平聚类。

translated by 谷歌翻译