We consider the problem of federated learning in a one-shot setting in which there are $m$ machines, each observing $n$ sample functions from an unknown distribution on non-convex loss functions. Let $F:[-1,1]^d\rightarrow\mathbb{R}$ be the expected loss function with respect to this unknown distribution. The goal is to find an estimate of the minimizer of $F$. Based on its observations, each machine generates a signal of bounded length $B$ and sends it to a server. The server collects signals of all machines and outputs an estimate of the minimizer of $F$. We show that the expected loss of any algorithm is lower bounded by $\max\big(1/(\sqrt{n}(mB)^{1/d}), 1/\sqrt{mn}\big)$, up to a logarithmic factor. We then prove that this lower bound is order optimal in $m$ and $n$ by presenting a distributed learning algorithm, called Multi-Resolution Estimator for Non-Convex loss function (MRE-NC), whose expected loss matches the lower bound for large $mn$ up to polylogarithmic factors.
translated by 谷歌翻译
我们重新审视耐受分发测试的问题。也就是说,给出来自未知分发$ P $超过$ \ {1,\ dots,n \} $的样本,它是$ \ varepsilon_1 $ -close到或$ \ varepsilon_2 $ -far从引用分发$ q $(总变化距离)?尽管过去十年来兴趣,但在极端情况下,这个问题很好。在无噪声设置(即,$ \ varepsilon_1 = 0 $)中,样本复杂性是$ \ theta(\ sqrt {n})$,强大的域大小。在频谱的另一端时,当$ \ varepsilon_1 = \ varepsilon_2 / 2 $时,样本复杂性跳转到勉强su​​blinear $ \ theta(n / \ log n)$。然而,非常少于中级制度。我们充分地表征了分发测试中的公差价格,作为$ N $,$ varepsilon_1 $,$ \ varepsilon_2 $,最多一个$ \ log n $ factor。具体来说,我们显示了\ [\ tilde \ theta \ left的样本复杂性(\ frac {\ sqrt {n}} {\ varepsilon_2 ^ {2}} + \ frac {n} {\ log n} \ cdot \ max \左\ {\ frac {\ varepsilon_1} {\ varepsilon_2 ^ 2},\ left(\ frac {\ varepsilon_1} {\ varepsilon_2 ^ 2} \右)^ {\!\!\!2} \ \ \} \右) ,\]提供两个先前已知的案例之间的顺利折衷。我们还为宽容的等价测试问题提供了类似的表征,其中$ p $和$ q $均未赘述。令人惊讶的是,在这两种情况下,对样本复杂性的主数量是比率$ \ varepsilon_1 / varepsilon_2 ^ 2 $,而不是更直观的$ \ varepsilon_1 / \ varepsilon_2 $。特别是技术兴趣是我们的下限框架,这涉及在以往的工作中处理不对称所需的新颖近似性理论工具,从而缺乏以前的作品。
translated by 谷歌翻译
In large-scale distributed learning, security issues have become increasingly important. Particularly in a decentralized environment, some computing units may behave abnormally, or even exhibit Byzantine failures-arbitrary and potentially adversarial behavior. In this paper, we develop distributed learning algorithms that are provably robust against such failures, with a focus on achieving optimal statistical performance. A main result of this work is a sharp analysis of two robust distributed gradient descent algorithms based on median and trimmed mean operations, respectively. We prove statistical error rates for three kinds of population loss functions: strongly convex, nonstrongly convex, and smooth non-convex. In particular, these algorithms are shown to achieve order-optimal statistical error rates for strongly convex losses. To achieve better communication efficiency, we further propose a median-based distributed algorithm that is provably robust, and uses only one communication round. For strongly convex quadratic loss, we show that this algorithm achieves the same optimal error rate as the robust distributed gradient descent algorithms.
translated by 谷歌翻译
We study discrete distribution estimation under user-level local differential privacy (LDP). In user-level $\varepsilon$-LDP, each user has $m\ge1$ samples and the privacy of all $m$ samples must be preserved simultaneously. We resolve the following dilemma: While on the one hand having more samples per user should provide more information about the underlying distribution, on the other hand, guaranteeing the privacy of all $m$ samples should make the estimation task more difficult. We obtain tight bounds for this problem under almost all parameter regimes. Perhaps surprisingly, we show that in suitable parameter regimes, having $m$ samples per user is equivalent to having $m$ times more users, each with only one sample. Our results demonstrate interesting phase transitions for $m$ and the privacy parameter $\varepsilon$ in the estimation risk. Finally, connecting with recent results on shuffled DP, we show that combined with random shuffling, our algorithm leads to optimal error guarantees (up to logarithmic factors) under the central model of user-level DP in certain parameter regimes. We provide several simulations to verify our theoretical findings.
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
我们提出并分析了算法,以解决用户级差分隐私约束下的一系列学习任务。用户级DP仅保证只保证个人样本的隐私,而是保护用户的整个贡献($ M \ GE 1 $ Samples),而不是对信息泄漏提供更严格但更现实的保护。我们表明,对于高维平均估计,具有平稳损失,随机凸优化和学习假设类别的经验风险最小化,具有有限度量熵,隐私成本随着用户提供的$ O(1 / \ SQRT {M})$减少更多样本。相比之下,在增加用户数量$ N $时,隐私成本以较快的价格降低(1 / n)$率。我们将这些结果与下界相提并论,显示了我们算法的最低限度估计和随机凸优化的算法。我们的算法依赖于私有平均估计的新颖技术,其任意维度与误差缩放为浓度半径$ \ tai $的分布而不是整个范围。
translated by 谷歌翻译
我们研究了在通信约束下的分布式平均值估计和优化问题。我们提出了一个相关的量化协议,该协议的误差保证中的主项取决于数据点的平均偏差,而不仅仅是它们的绝对范围。该设计不需要关于数据集的集中属性的任何先验知识,这是在以前的工作中获得这种依赖所必需的。我们表明,在分布式优化算法中应用提出的协议作为子规则会导致更好的收敛速率。我们还在轻度假设下证明了我们的方案的最佳性。实验结果表明,我们提出的算法在各种任务方面优于现有的平均估计协议。
translated by 谷歌翻译
在本文中,我们研究了时间速度与非IID数据的协作学习模型中学习过程的交流次数之间的权衡,其中多个代理与可能不同的环境互动,他们希望学习一个目标。汇总环境。我们在匪徒理论中使用一个基本问题,称为多臂匪徒中最佳ARM识别作为传递以下概念信息的工具:对非IID数据的协作学习比在IID数据上更加困难。特别是,我们显示以下内容:a)非IID数据设置中的加速度可能小于$ 1 $(即放缓)。当回合$ r = o(1)$的数量时,我们将至少需要多项式数量的代理(就武器数量而言)来实现大于$ 1 $的加速。这与IID数据设置形成鲜明对比,在$ r \ ge 2 $中,无论代理数量如何,加速度总是至少$ 1 $。 b)学习过程中的适应性无济于事。这与IID数据设置形成鲜明对比,为了实现相同的速度,最佳的非自适应算法需要比最佳自适应算法要大得多。在技​​术空间中,我们进一步开发了Arxiv:1904.03293中引入的广义消除技术。我们表明,在使用复杂的硬输入分布并直接证明自适应算法的下限时,分配类别的隐式表示非常有用。
translated by 谷歌翻译
在这项工作中,我们研究了联合学习框架内的经验风险最小化(ERM),其中,中央服务器使用存储在$ M $客户端的培训数据最小化ERM目标函数。在此设置中,联合平均(Fedave)算法是用于确定$ \ epsilon $-uppations解决的钉钉。类似于标准优化算法,FEDAVE的收敛分析仅依赖于优化参数中的损耗功能的平滑度。但是,损失函数通常在训练数据中通常非常顺利。为了利用这种额外的平滑度,我们提出了联邦低级梯度下降(FEDLRGD)算法。由于数据的平滑度引起损耗函数上的近似低等级结构,因此我们的方法首先在服务器和客户端之间执行几轮通信,以便学习服务器可以用于近似客户端梯度的权重。然后,我们的方法使用不精确的渐变下降来解决服务器处的ERM问题。为了表明FedLRGD可以对Fedave具有卓越的性能,我们向Cenferated Oracle复杂性概念作为规范Oracle复杂性的对应物。在损失函数的一些假设下,例如,参数中的强凸,$ \ eta $ -h \“数据中的较旧的平滑度等,我们证明了Fedlrgd尺度的联邦Oracle复杂性,如$ \ phi m(p / \ epsilon)^ {\ theta(d / \ eta)} $和fedave尺度如$ \ phi m(p / \ epsilon)^ {3/4} $(忽略次级主导因子),其中$ \ phi \ GG 1 $是一种“通信到计算率”,$ P $ IS参数维度,$ D $是数据维度。然后,我们显示,当$ D $小而损失函数足够平滑时DATA,FEDLRGD在联合Oracle复杂性中击败了Fedave。最后,在分析FEDLRGD的过程中,我们还在潜在变量模型的低秩近似建立了结果。
translated by 谷歌翻译
我们使用对单个的,相同的$ d $维状态的相同副本进行的测量来研究量子断层扫描和阴影断层扫描的问题。我们首先因Haah等人而重新审视已知的下限。 (2017年)在痕量距离上具有准确性$ \ epsilon $的量子断层扫描,当测量选择与先前观察到的结果无关(即它们是非适应性的)时。我们简要地证明了这一结果。当学习者使用具有恒定结果数量的测量值时,这会导致更强的下限。特别是,这严格确定了民间传说的最佳性``Pauli phymography''算法的样本复杂性。我们还得出了$ \ omega(r^2 d/\ epsilon^2)$和$ \ omega(r^2 d/\ epsilon^2)的新颖界限( R^2 d^2/\ epsilon^2)$用于学习排名$ r $状态,分别使用任意和恒定的结果测量,在非适应性情况下。除了样本复杂性,对于学习量子的实际意义,是一种实际意义的资源状态是算法使用的不同测量值的数量。我们将下限扩展到学习者从固定的$ \ exp(o(d))$测量的情况下进行自适应测量的情况。这特别意味着适应性。没有使用可有效实现的单拷贝测量结果给我们任何优势。在目标是预测给定的可观察到给定序列的期望值的情况下,我们还获得了类似的界限,该任务被称为阴影层析成像。在适应性的情况下单拷贝测量可通过多项式大小的电路实现,我们证明了基于计算给定可观察物的样本平均值的直接策略是最佳的。
translated by 谷歌翻译
We consider distributed linear bandits where $M$ agents learn collaboratively to minimize the overall cumulative regret incurred by all agents. Information exchange is facilitated by a central server, and both the uplink and downlink communications are carried over channels with fixed capacity, which limits the amount of information that can be transmitted in each use of the channels. We investigate the regret-communication trade-off by (i) establishing information-theoretic lower bounds on the required communications (in terms of bits) for achieving a sublinear regret order; (ii) developing an efficient algorithm that achieves the minimum sublinear regret order offered by centralized learning using the minimum order of communications dictated by the information-theoretic lower bounds. For sparse linear bandits, we show a variant of the proposed algorithm offers better regret-communication trade-off by leveraging the sparsity of the problem.
translated by 谷歌翻译
最大信息系数(MIC)是一个强大的统计量,可以识别变量之间的依赖性。但是,它可以应用于敏感数据,并且发布可能会泄漏私人信息。作为解决方案,我们提出算法以提供差异隐私的方式近似麦克风。我们表明,经典拉普拉斯机制的自然应用产生的精度不足。因此,我们介绍了MICT统计量,这是一种新的MIC近似值,与差异隐私更加兼容。我们证明MICS是麦克风的一致估计器,我们提供了两个差异性私有版本。我们对各种真实和合成数据集进行实验。结果表明,私人微统计数据极大地超过了拉普拉斯机制的直接应用。此外,对现实世界数据集的实验显示出准确性,当样本量至少适中时可用。
translated by 谷歌翻译
本文着重于随机鞍点问题的分布式优化。本文的第一部分专门针对平滑(强)(强)(强)凹形鞍点问题以及实现这些结合的近乎最佳算法的平滑(强)凸出的凹点鞍点问题的平滑(强)凸出的(强)凸出的凸出鞍点问题。接下来,我们提出了一种新的联合算法,用于分布式鞍点问题 - 额外的步骤本地SGD。对新方法的理论分析是针对强烈凸出的凹形和非convex-non-concave问题进行的。在本文的实验部分中,我们在实践中显示了方法的有效性。特别是,我们以分布方式训练甘恩。
translated by 谷歌翻译
我们提出了一种在异质环境中联合学习的沟通有效方法。在存在$ k $不同的数据分布的情况下,系统异质性反映了,每个用户仅从$ k $分布中的一个中采样数据。所提出的方法只需要在用户和服务器之间进行一次通信,从而大大降低了通信成本。此外,提出的方法通过在样本量方面实现最佳的于点错误(MSE)率,即在异质环境中提供强大的学习保证相同的数据分布,前提是,每个用户的数据点数量高于我们从系统参数方面明确表征的阈值。值得注意的是,这是可以实现的,而无需任何了解基础分布,甚至不需要任何分布数量$ k $。数值实验说明了我们的发现并强调了所提出的方法的性能。
translated by 谷歌翻译
为了在带宽洪泛环境(例如无线网络)中启用大规模的机器学习,最近在设计借助通信压缩的帮助下,最近在设计沟通效率的联合学习算法方面取得了重大进展。另一方面,隐私保护,尤其是在客户层面上,是另一个重要的避税,在存在高级通信压缩技术的情况下尚未同时解决。在本文中,我们提出了一个统一的框架,以通过沟通压缩提高私人联邦学习的沟通效率。利用通用压缩操作员和局部差异隐私,我们首先检查了一种简单的算法,该算法将压缩直接应用于差异私密的随机梯度下降,并确定其局限性。然后,我们为私人联合学习提出了一个统一的框架Soteriafl,该框架适应了一般的局部梯度估计剂家庭,包括流行的随机方差减少梯度方法和最先进的变化压缩方案。我们在隐私,公用事业和沟通复杂性方面提供了其性能权衡的全面表征,在这种情况下,Soterafl被证明可以在不牺牲隐私或实用性的情况下实现更好的沟通复杂性,而不是其他私人联合联盟学习算法而没有沟通压缩。
translated by 谷歌翻译
我们考虑一个标准的分布式优化设置,其中$ n $ machines,每个持有$ d $ -dimension函数$ f_i $,旨在共同最大限度地减少函数$ \ sum_ {i = 1} ^ n f_i(x)$ 。该问题自然地出现在大规模分布式优化中,其中标准解决方案是施加(随机)梯度下降的变体。我们专注于这个问题的通信复杂性:我们的主要结果在$ N $ Machines中提供了需要发送和接收的比特总数的第一个完全无条件的界限,以便在点对点通信下解决这个问题给定的差错。具体来说,我们显示$ \ omega(ND \ log d / n \ varepsilon)$总比特在机器之间传达,找到一个添加剂$ \ epsilon $-xprupmation到$ \ sum_ {i = 1} ^ n f_i(x)$。结果适用于确定性和随机算法,并且重要的是,不需要对算法结构上的假设。在参数值的某些限制下,下限是紧张的,并且通过量化梯度下降的新变种在恒定因子中匹配,我们描述和分析。我们的结果带来了从通信复杂性到分布式优化的工具,这具有进一步应用的潜力。
translated by 谷歌翻译
我们研究了小组测试问题,其目标是根据合并测试的结果,确定一组k感染的人,这些k含有稀有疾病,这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程:恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计,我们给出了一个新的信息理论下限,这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计,我们确定解决相关检测问题所需的确切测试数量(目的是区分小组测试实例和纯噪声),改善Truong,Aldridge和Scarlett的上限和下限(2020)。对于两个小组测试模型,我们还研究了计算有效(多项式时间)推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是,我们的证据与Iliopoulos和Zadik(2021)相反,后者预测了Bernoulli设计中没有计算统计差距。
translated by 谷歌翻译
本文研究了以$ \ mathbb {r}^d $使用球形协方差矩阵$ \ sigma^2 \ sigma^2 \ mathbf {i} $的$ k $学习中心的样本复杂性。特别是,我们对以下问题感兴趣:最大噪声水平$ \ sigma^2 $是什么,对此样品复杂性基本与从标记的测量值估算中心时相同?为此,我们将注意力限制为问题的贝叶斯公式,其中中心均匀分布在球体上$ \ sqrt {d} \ Mathcal {s}^{d-1} $。我们的主要结果表征了确切的噪声阈值$ \ sigma^2 $,而GMM学习问题(在大系统中限制$ d,k \ to \ infty $)就像从标记的观测值中学习一样容易更加困难。阈值发生在$ \ frac {\ log k} {d} = \ frac12 \ log \ left(1+ \ frac {1} {1} {\ sigma^2} \ right)$,这是添加性白色高斯的能力噪声(AWGN)频道。将$ K $中心的集合作为代码,可以将此噪声阈值解释为最大的噪声水平,AWGN通道上代码的错误概率很小。关于GMM学习问题的先前工作已将中心之间的最小距离确定为确定学习相应GMM的统计难度的关键参数。虽然我们的结果仅是针对中心均匀分布在球体上的GMM的,但他们暗示,也许这是与中心星座相关的解码错误概率作为频道代码确定学习相应GMM的统计难度,而不是仅仅最小距离。
translated by 谷歌翻译
分布式平均值估计(DME)是联邦学习中的一个中央构建块,客户将本地梯度发送到参数服务器,以平均和更新模型。由于通信限制,客户经常使用有损压缩技术来压缩梯度,从而导致估计不准确。当客户拥有多种网络条件(例如限制的通信预算和数据包损失)时,DME更具挑战性。在这种情况下,DME技术通常会导致估计误差显着增加,从而导致学习绩效退化。在这项工作中,我们提出了一种名为Eden的强大DME技术,该技术自然会处理异质通信预算和数据包损失。我们为伊甸园提供了有吸引力的理论保证,并通过经验进行评估。我们的结果表明,伊甸园对最先进的DME技术持续改进。
translated by 谷歌翻译
我们研究拜占庭的协作学习,其中$ N $节点寻求统称为彼此的本地数据。数据分发可能因一个节点而异。没有信任节点,$ f <n $节点可以行为任意。我们证明,协作学习相当于新的协议形式,我们称之为平均协议。在这个问题中,节点以初始向量启动每个初始向量,并寻求大致达成一个普通的向量,它接近诚实节点初始向量的平均值。我们为平均协议提供了两个异步解决方案,每个我们都证明了根据一些维度的最佳状态。首先,基于最小直径平均,需要$ n \ geq 6f + 1 $,但实现了渐近的最佳平均常量达到乘法常量。其次,基于可靠的广播和坐标 - 明智的均值,实现最佳的拜占庭恢复力,即$ N \ GEQ 3F + 1 $。这些算法中的每一个都会引发最佳的拜占庭协作学习协议。特别是,我们的等价会产生新的不可能性定理,就任何协作学习算法在对抗性和异构环境中实现的内容。
translated by 谷歌翻译