我们展示了第一种可能的子线性记忆草图,它可以解决近似的近邻搜索问题。特别是,我们开发了一个在线草图算法,它可以将$ N $向量压缩成一个小型草图,由一小部分计数器组成,其大小标度为$ O(N ^ {b} \ log ^ 2 {N})$,其中$ b < 1 $取决于近邻搜索的稳定性。该草图足以识别具有高概率的顶级$ v $近邻。据我们所知,这是第一个破坏线性内存($ O(N)$)障碍的近邻搜索算法。我们通过将基于局部敏感性散列(LSH)的估计(尤其是最近发布的ACE算法)与压缩感知和重击电技术相结合,实现了子线性存储器。我们提供强有力的理论保证;特别是,我们的分析揭示了近邻搜索设置中的内存准确性权衡以及压缩感知中稀疏性的作用,这可能是独立的兴趣。大力评估我们的框架,我们在Google plus图表上的朋友推荐任务上称为RACE(重复ACE)数据结构,其中包含超过100,000个高维向量。 RACE提供的压缩比基于随机投影的替代方案更好,这是理论上的优势,这是令人惊讶的。我们预计RACE将为近邻搜索提供新的理论视角,并为高速数据挖掘,物联网(IoT)等应用提供新方法。
translated by 谷歌翻译