在许多数据挖掘和机器学习任务(包括降低维度降低,离群检测,相似性搜索和子空间群集)中,对内在维度(ID)的准确估计至关重要。但是,由于它们的收敛性通常需要数百个点的样本量(即邻域尺寸),因此现有的ID估计方法可能仅对数据组成的应用程序组成的应用程序有限。在本文中,我们提出了一个局部ID估计策略,即使对于“紧密”的地方,稳定的策略也只有20个样本。估计器基于最新的固有维度(局部固有维度(LID))的极端价值理论模型,在样品成员之间的所有可用成对距离上应用MLE技术。我们的实验结果表明,我们提出的估计技术可以实现明显更小的方差,同时保持可比的偏见水平,而样本量比最先进的估计器小得多。
translated by 谷歌翻译