K-means++ is an important algorithm to choose initial cluster centers for the k-means clustering algorithm. In this work, we present a new algorithm that can solve the $k$-means++ problem with near optimal running time. Given $n$ data points in $\mathbb{R}^d$, the current state-of-the-art algorithm runs in $\widetilde{O}(k )$ iterations, and each iteration takes $\widetilde{O}(nd k)$ time. The overall running time is thus $\widetilde{O}(n d k^2)$. We propose a new algorithm \textsc{FastKmeans++} that only takes in $\widetilde{O}(nd + nk^2)$ time, in total.
translated by 谷歌翻译
本文展示了如何适应$ k $ -MEANS问题的几种简单和经典的基于采样的算法,以使用离群值设置。最近,Bhaskara等人。 (Neurips 2019)展示了如何将古典$ K $ -MEANS ++算法适应与异常值的设置。但是,他们的算法需要输出$ o(\ log(k)\ cdot z)$ outiers,其中$ z $是true Outliers的数量,以匹配$ o(\ log k)$ - 近似值的$ k的近似保证$ -Means ++。在本文中,我们以他们的想法为基础,并展示了如何适应几个顺序和分布式的$ k $ - 均值算法,但使用离群值来设置,但具有更强的理论保证:我们的算法输出$(1+ \ VAREPSILON)z $ OUTLIERS Z $ OUTLIERS在实现$ o(1 / \ varepsilon)$ - 近似目标函数的同时。在顺序世界中,我们通过改编Lattanzi和Sohler的最新算法来实现这一目标(ICML 2019)。在分布式设置中,我们适应了Guha等人的简单算法。 (IEEE Trans。知道和数据工程2003)以及Bahmani等人的流行$ K $ -Means $ \ | $。 (PVLDB 2012)。我们技术的理论应用是一种具有运行时间$ \ tilde {o}(nk^2/z)$的算法,假设$ k \ ll z \ ll n $。这与Omacle模型中此问题的$ \ Omega(NK^2/z)$的匹配下限相互补。
translated by 谷歌翻译
内核密度估计(KDE)在机器学习中脱颖而出。问题是按以下方式定义的:给定的内核函数$ f(x,y)$和一组点$ \ {x_1,x_2,x_2,\ cdots,x_n \} \ subset \ subset \ mathbb {r}^d $,我们想计算$ \ frac {1} {n} \ sum_ {i = 1}^{n} f(x_i,y)$ for任何查询点$ y \ in \ mathbb {r}^d $。最近,将数据结构用于有效KDE的趋势越来越大。但是,提出的KDE数据结构集中在静态设置上。 KDE数据结构在动态变化的数据分布上的鲁棒性没有解决。在这项工作中,我们专注于具有对对抗性查询的KDE数据结构的动态维护。特别是,我们提供了KDE数据结构的理论框架。在我们的框架中,KDE数据结构仅需要次级空间。此外,我们的数据结构支持sublinear时间中数据集的动态更新。此外,我们可以在均匀时间内使用潜在的对手进行自适应查询。
translated by 谷歌翻译
在线二手匹配是在线算法中的一个基本问题。目的是匹配两组顶点,以最大化边缘权重的总和,在该顶点中,对于一组顶点,每个顶点及其相应的边缘重量以序列形式出现。当前,在实际的建议系统或搜索引擎中,权重是由用户的深度表示与项目深度表示之间的内部产品决定的。标准的在线匹配需要支付$ nd $的时间来线性扫描所有$ n $项目,计算重量(假设每个表示向量都有长度$ d $),然后根据权重决定匹配。但是,实际上,$ n $可能很大,例如在在线电子商务平台中。因此,改善计算权重的时间是一个实践意义的问题。在这项工作中,我们为大约计算权重的理论基础提供了基础。我们表明,借助我们提出的随机数据结构,可以在额定时间内计算权重,同时仍保留匹配算法的竞争比率。
translated by 谷歌翻译
深度学习的成功以巨大的计算和能源成本,而训练大规模过度参数的神经网络的可伸缩性正成为AI进步的真正障碍。尽管传统反向传播通过梯度不错的传统反向传播的流行和低成本,但在理论和实践中,SGD在非凸面设置中具有高度的收敛速度。为了减轻这一成本,最近的工作提议采用替代性(牛顿型)培训方法,但收敛速度更快,尽管其每题成本更高。对于具有$ m = \ mathrm {poly}(n)$参数的典型神经网络,$ n $ datapoints in $ \ mathbb {r}^d $ of $ n $ datapoints的输入批次, Weinstein,ITCS'2021]需要$ \ sim mnd + n^3 $每次迭代。在本文中,我们提出了一种新颖的培训方法,它仅需要$ m^{1- \ alpha} n d + n^3 $摊销时间在同一过度叠加机制中,其中$ \ alpha \ in(0.01,1)$是某些固定常数。此方法依赖于神经网络的新替代视图,作为一组二进制搜索树,每个迭代都对应于修改树中节点的一小部分。我们认为,这种观点将在DNN的设计和分析中进一步应用。
translated by 谷歌翻译
在设计聚类算法时,初始中心的选择对于学习簇的质量至关重要。在本文中,我们基于数据的构建,我们开发了一种新的初始化方案,称为$ k $ -Median问题(例如图形引起的离散空间),基于数据的构造。从树中,我们提出了一种新颖有效的搜索算法,用于良好的初始中心,随后可用于本地搜索算法。我们提出的HST初始化可以产生与另一种流行初始化方法$ K $ -Median ++的初始中心,具有可比的效率。 HST初始化也可以扩展到差异隐私(DP)的设置,以生成私人初始中心。我们表明,应用DP本地搜索后,我们的私有HST初始化会改善对近似错误的先前结果,并在小因素内接近下限。实验证明了理论的合理性,并证明了我们提出的方法的有效性。我们的方法也可以扩展到$ k $ -MEANS问题。
translated by 谷歌翻译
我们提供了一个新的双标准$ \ tilde {o}(\ log ^ 2 k)$竞争算法,可解释$ k $ -means群集。最近解释了$ k $ -means最近由Dasgupta,Frost,Moshkovitz和Rashtchian(ICML 2020)引入。它由易于解释和理解(阈值)决策树或图表描述。可解释的$ k $ -means集群的成本等于其集群成本的总和;每个群集的成本等于从群集中点到该群集的中心的平方距离之和。我们的随机双标准算法构造了一个阈值决策树,将数据设置为$(1+ \ delta)k $群集(其中$ \ delta \ In(0,1)$是算法的参数)。此群集的成本是大多数$ \ tilde {o}(1 / \ delta \ cdot \ log ^ 2 k)$乘以最佳不受约束$ k $ -means群集的成本。我们表明这一界限几乎是最佳的。
translated by 谷歌翻译
The k-means method is a widely used clustering technique that seeks to minimize the average squared distance between points in the same cluster. Although it offers no accuracy guarantees, its simplicity and speed are very appealing in practice. By augmenting k-means with a simple, randomized seeding technique, we obtain an algorithm that is O(log k)-competitive with the optimal clustering. Experiments show our augmentation improves both the speed and the accuracy of k-means, often quite dramatically.
translated by 谷歌翻译
Arthur和Vassilvitskii的著名$ K $ -MEANS ++算法[SODA 2007]是解决实践中$ K $ - 英镑问题的最流行方式。该算法非常简单:它以随机的方式均匀地对第一个中心进行采样,然后始终将每个$ K-1 $中心的中心取样与迄今为止最接近最接近中心的平方距离成比例。之后,运行了劳埃德的迭代算法。已知$ k $ -Means ++算法可以返回预期的$ \ theta(\ log K)$近似解决方案。在他们的开创性工作中,Arthur和Vassilvitskii [Soda 2007]询问了其以下\ emph {greedy}的保证:在每一步中,我们采样了$ \ ell $候选中心,而不是一个,然后选择最小化新的中心成本。这也是$ k $ -Means ++在例如中实现的方式。流行的Scikit-Learn库[Pedregosa等人; JMLR 2011]。我们为贪婪的$ k $ -Means ++提供几乎匹配的下限和上限:我们证明它是$ o(\ ell^3 \ log^3 k)$ - 近似算法。另一方面,我们证明了$ \ omega的下限(\ ell^3 \ log^3 k / \ log^2(\ ell \ log k))$。以前,只有$ \ omega(\ ell \ log k)$下限是已知的[bhattacharya,eube,r \“ ogllin,schmidt; esa 2020),并且没有已知的上限。
translated by 谷歌翻译
In this paper, we propose Adam-Hash: an adaptive and dynamic multi-resolution hashing data-structure for fast pairwise summation estimation. Given a data-set $X \subset \mathbb{R}^d$, a binary function $f:\mathbb{R}^d\times \mathbb{R}^d\to \mathbb{R}$, and a point $y \in \mathbb{R}^d$, the Pairwise Summation Estimate $\mathrm{PSE}_X(y) := \frac{1}{|X|} \sum_{x \in X} f(x,y)$. For any given data-set $X$, we need to design a data-structure such that given any query point $y \in \mathbb{R}^d$, the data-structure approximately estimates $\mathrm{PSE}_X(y)$ in time that is sub-linear in $|X|$. Prior works on this problem have focused exclusively on the case where the data-set is static, and the queries are independent. In this paper, we design a hashing-based PSE data-structure which works for the more practical \textit{dynamic} setting in which insertions, deletions, and replacements of points are allowed. Moreover, our proposed Adam-Hash is also robust to adaptive PSE queries, where an adversary can choose query $q_j \in \mathbb{R}^d$ depending on the output from previous queries $q_1, q_2, \dots, q_{j-1}$.
translated by 谷歌翻译
主动回归考虑了一个线性回归问题,其中学习者会收到大量数据点,但只能观察到少数标签。由于在线算法可以处理增量培训数据并利用低计算成本,因此我们考虑了主动回归问题的在线扩展:学习者一一接收数据点,并立即决定是否应该收集相应的标签。目的是有效地维护收到的数据点的回归,并具有少量的标签查询回归。我们在$ \ ell_p $损失下为此问题提出了新算法,其中$ p \ in [1,2] $。要获得$(1+ \ epsilon)$ - 近似解决方案,我们提出的算法仅需要$ \ tilde {\ Mathcal {o}}(\ epsilon^{ - 2} d \ log(n \ kappa))$查询标签,其中$ n $是数据点的数量,而$ \ kappa $是数据点的数量,称为条件号。数值结果验证了我们的理论结果,并表明我们的方法与离线活性回归算法具有可比性的性能。
translated by 谷歌翻译
基于中心的聚类(例如,$ k $ -means,$ k $ -Medians)和使用线性子空间的聚类是两种最受欢迎的技术,可以将真实数据分配到较小的群集中。但是,当数据由敏感人群组组成时,不同敏感组的每点的聚集成本显着不同,可能会导致与公平相关的危害(例如,服务质量不同)。社会公平聚类的目的是最大程度地降低所有组中每点聚类的最大成本。在这项工作中,我们提出了一个统一的框架,以解决社会公平的基于中心的聚类和线性子空间聚类,并为这些问题提供实用,高效的近似算法。我们进行了广泛的实验,以表明在多个基准数据集上,我们的算法要么紧密匹配或超越最先进的基线。
translated by 谷歌翻译
我们在$ d $ dimensional Euclidean Space中研究私人$ k $ -Median和$ k $ -means聚集问题。通过利用树的嵌入,我们提供了一种有效且易于实现的算法,该算法在非私人方法的经验上具有竞争力。我们证明我们的方法计算一个最多$ o(d^{3/2} \ log n)\ cdot opt + o(k d^2 \ log^2 n / \ epsilon^2)$的解决方案,其中$ \ Epsilon $是隐私担保。 (使用标准尺寸缩小技术可以用$ o(\ log k)$替换尺寸项,$ d $。)尽管最坏的案例保证比最先进的私人聚类方法的状态更糟糕,但算法是我们建议是实用的,以接近线性的方式运行,$ \ tilde {o}(nkd)$,时间和比例为数千万分。我们还表明,我们的方法适合在大规模分布式计算环境中并行化。特别是我们表明,我们的私人算法可以在sublinear内存制度中的对数MPC弹奏数中实现。最后,我们通过经验评估来补充理论分析,证明了该算法与其他隐私聚类基线相比的效率和准确性。
translated by 谷歌翻译
大规模监督学习中的共同挑战是如何利用新的增量数据到预先训练的模型,而无需从头开始重新培训模型。受到这个问题的激励,我们重新审视动态最小二乘回归(LSR)的规范问题,其中目标是通过增量训练数据学习线性模型。在此设置,数据和标签$(\ mathbf {a} ^ {(t)},\ mathbf {b} ^ {(t)})\ in \ mathbb {r} ^ {t \ times d} \ times \ MathBB {R} ^ T $以在线方式发展($ t \ gg d $),目标是有效地将(近似)解决方案保持为$ \ min _ {\ mathbf {x} ^ {(t)}} \ | \ mathbf {a} ^ {(t)} \ mathbf {x} ^ {(t)} - \ mathbf {b} ^ {(t)} \ | \ | \ |在$中的所有$ t \。我们的主要结果是一种动态数据结构,它将任意小的恒定近似解,与摊销更新时间$ o(d ^ {1 + o(1)})$,几乎匹配静态的运行时间(草图 - 基于)解决方案。相比之下,对于精确的(甚至$ 1 / \ mathrm {poly}(n)$ - 准确性)解决方案,我们在静态和动态设置之间显示了分离,即动态LSR需要$ \ω(d ^ {2- O(1)})OMV猜想下的摊销更新时间(Henzinger等,STOC'15)。我们的数据结构在概念上简单,易于实施,并且在理论和实践中快速速度,通过对合成和现实世界数据集的实验进行了证实。
translated by 谷歌翻译
Clustering is a fundamental problem in many areas, which aims to partition a given data set into groups based on some distance measure, such that the data points in the same group are similar while that in different groups are dissimilar. Due to its importance and NP-hardness, a lot of methods have been proposed, among which evolutionary algorithms are a class of popular ones. Evolutionary clustering has found many successful applications, but all the results are empirical, lacking theoretical support. This paper fills this gap by proving that the approximation performance of the GSEMO (a simple multi-objective evolutionary algorithm) for solving the three popular formulations of clustering, i.e., $k$-center, $k$-median and $k$-means, can be theoretically guaranteed. Furthermore, we prove that evolutionary clustering can have theoretical guarantees even when considering fairness, which tries to avoid algorithmic bias, and has recently been an important research topic in machine learning.
translated by 谷歌翻译
Kernel matrices, as well as weighted graphs represented by them, are ubiquitous objects in machine learning, statistics and other related fields. The main drawback of using kernel methods (learning and inference using kernel matrices) is efficiency -- given $n$ input points, most kernel-based algorithms need to materialize the full $n \times n$ kernel matrix before performing any subsequent computation, thus incurring $\Omega(n^2)$ runtime. Breaking this quadratic barrier for various problems has therefore, been a subject of extensive research efforts. We break the quadratic barrier and obtain $\textit{subquadratic}$ time algorithms for several fundamental linear-algebraic and graph processing primitives, including approximating the top eigenvalue and eigenvector, spectral sparsification, solving linear systems, local clustering, low-rank approximation, arboricity estimation and counting weighted triangles. We build on the recent Kernel Density Estimation framework, which (after preprocessing in time subquadratic in $n$) can return estimates of row/column sums of the kernel matrix. In particular, we develop efficient reductions from $\textit{weighted vertex}$ and $\textit{weighted edge sampling}$ on kernel graphs, $\textit{simulating random walks}$ on kernel graphs, and $\textit{importance sampling}$ on matrices to Kernel Density Estimation and show that we can generate samples from these distributions in $\textit{sublinear}$ (in the support of the distribution) time. Our reductions are the central ingredient in each of our applications and we believe they may be of independent interest. We empirically demonstrate the efficacy of our algorithms on low-rank approximation (LRA) and spectral sparsification, where we observe a $\textbf{9x}$ decrease in the number of kernel evaluations over baselines for LRA and a $\textbf{41x}$ reduction in the graph size for spectral sparsification.
translated by 谷歌翻译
我们考虑培训多层过参数化神经网络的问题,以最大限度地减少损失函数引起的经验风险。在过度参数化的典型设置中,网络宽度$ M $远大于数据维度$ D $和培训数量$ N $($ m = \ mathrm {poly}(n,d)$),其中诱导禁止的大量矩阵$ w \ in \ mathbb {r} ^ {m \ times m} $每层。天真地,一个人必须支付$ O(m ^ 2)$时间读取权重矩阵并评估前向和后向计算中的神经网络功能。在这项工作中,我们展示了如何降低每个迭代的培训成本,具体而言,我们提出了一个仅在初始化阶段使用M ^ 2美元的框架,并且在$ M $的情况下实现了每次迭代的真正子种化成本。 ,$ m ^ {2- \ oomga(1)} $次迭代。为了获得此结果,我们利用各种技术,包括偏移的基于Relu的稀释器,懒惰的低级维护数据结构,快速矩阵矩阵乘法,张量的草图技术和预处理。
translated by 谷歌翻译
条件梯度方法(CGM)广泛用于现代机器学习。 CGM的整体运行时间通常由两部分组成:迭代次数和每次迭代的成本。大多数努力侧重于减少迭代的数量,作为减少整体运行时间的手段。在这项工作中,我们专注于改善CGM的迭代成本。大多数CGM中的瓶颈步骤是最大内部产品搜索(MAXIP),需要在参数上线性扫描。在实践中,发现近似的maxip数据结构是有用的启发式。然而,理论上,关于近似的MAIPIP数据结构和CGM的组合,没有任何内容。在这项工作中,我们通过提供一个正式的框架来肯定地回答这个问题,以将临时敏感散列类型近似maxip数据结构与CGM算法组合起来。结果,我们展示了第一算法,其中每个迭代的成本在参数的数量中,对于许多基本优化算法,例如Frank-Wolfe,emergorithm和政策梯度。
translated by 谷歌翻译
在使用提供明确定义的隐私保证的用户数据时,至关重要。在这项工作中,我们旨在与第三方私下操纵和分享整个稀疏数据集。实际上,差异隐私已成为隐私的黄金标准,但是,当涉及到稀疏数据集时,作为我们的主要结果之一,我们证明\ emph {any}与最初的私人机制有差异化的私人机制数据集注定要拥有非常薄弱的隐私保证。因此,我们需要选择其他隐私概念,例如$ k $ - 匿名性更好地在这种情况下保存实用程序。在这项工作中,我们介绍了$ k $ - 匿名的变体,我们称之为平滑$ k $ - 匿名和设计简单算法,可有效地提供平滑的$ k $ - 匿名性。我们进一步执行经验评估以支持我们的理论保证,并表明我们的算法改善了匿名数据下游机器学习任务的性能。
translated by 谷歌翻译
我们研究了用于线性回归的主动采样算法,该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目,并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $,其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $,我们提供了一种基于Lewis权重采样的算法,其使用只需$ \ tilde {o}输出$(1+ \ epsilon)$近似解决方案(d ^ {\ max(1,{p / 2})} / \ mathrm {poly}(\ epsilon))$查询到$ b $。我们表明,这一依赖于$ D $是最佳的,直到对数因素。我们的结果解决了陈和Derezi的最近开放问题,陈和Derezi \'{n} Ski,他们为$ \ ell_1 $ norm提供了附近的最佳界限,以及$ p \中的$ \ ell_p $回归的次优界限(1,2) $。我们还提供了$ O的第一个总灵敏度上限(D ^ {\ max \ {1,p / 2 \} \ log ^ 2 n)$以满足最多的$ p $多项式增长。这改善了Tukan,Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果,我们获得了一个使$ \ tilde o的活动回归算法(d ^ {1+ \ max \ {1,p / 2 \}} / \ mathrm {poly}。 (\ epsilon))$疑问,回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况,我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定(d ^ {(1+ \ sqrt2)/ 2} / \ epsilon ^ c)$和非活跃$ \ tilde o的样本复杂性(d ^ {4-2 \ sqrt 2} / \ epsilon ^ c)$,由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响,使用灵敏度采样改善了各种先前的结果,包括orlicz规范子空间嵌入和鲁棒子空间近似。最后,我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。
translated by 谷歌翻译