我们考虑一个多代理网络,其中每个节点具有随机(本地)成本函数,这取决于该节点的决策变量和随机变量,并且进一步的相邻节点的判定变量是成对受约束的。网络具有总体目标函数,其在节点处的本地成本函数的预期值ack,以及网络的总体目标是将该聚合目标函数的最小化解决方案最小化为所有成对约束。这将在节点级别使用分散的信息和本地计算来实现,其中仅具有相邻节点允许的压缩信息的交换。该文件开发算法,并在节点上获得两个不同型号的本地信息可用性模型的性能界限:(i)样本反馈,其中每个节点可以直接访问局部随机变量的样本,以评估其本地成本,(ii)babrit反馈,其中无随机变量的样本不可用,但只有每个节点可用的两个随机点处的本地成本函数的值可用。对于两种模型,具有邻居之间的压缩通信,我们开发了分散的骑马点算法,从没有通信压缩的那些没有不同(符号意义)的表现;具体而言,我们表明,与全局最小值和违反约束的偏差是由$ \ mathcal {o}的大约限制(t ^ { - \ frac {1} {2}})$和$ \ mathcal {o} (t ^ { - \ frac {1} {4}})分别为$ t $是迭代次数。本文中提供的数值例子证实了这些界限并证明了所提出的方法的通信效率。
translated by 谷歌翻译
我们研究了多智能经纪增强学习的政策评估问题,其中一组代理商,共同观察到的国家和私人本地行动和奖励,协作,以通过连接的无向网络通过本地计算和通信学习给定策略的价值函数。各种大型多种代理系统中出现此问题,包括电网,智能交通系统,无线传感器网络和多代理机器人。当状态动作空间的尺寸大时,广泛使用具有线性函数近似的时间差异学习。在本文中,我们开发了一种新的分布式时间差异学习算法,量化其有限时间性能。我们的算法将分布式随机原始方法与基于同型的方法进行了自适应调整学习率的方法,以便通过从因果导轨轨迹中采用新鲜的在线样本来最小化平均投影的Bellman误差。我们明确考虑了采样的Markovian性质,并改善了从$ O(1 / \ sqrt {t})$到〜$ o(1 / t)$的最佳已知的有限时间误差,其中$ t $迭代的总数。
translated by 谷歌翻译
This paper considers the distributed online convex optimization problem with time-varying constraints over a network of agents. This is a sequential decision making problem with two sequences of arbitrarily varying convex loss and constraint functions. At each round, each agent selects a decision from the decision set, and then only a portion of the loss function and a coordinate block of the constraint function at this round are privately revealed to this agent. The goal of the network is to minimize the network-wide loss accumulated over time. Two distributed online algorithms with full-information and bandit feedback are proposed. Both dynamic and static network regret bounds are analyzed for the proposed algorithms, and network cumulative constraint violation is used to measure constraint violation, which excludes the situation that strictly feasible constraints can compensate the effects of violated constraints. In particular, we show that the proposed algorithms achieve $\mathcal{O}(T^{\max\{\kappa,1-\kappa\}})$ static network regret and $\mathcal{O}(T^{1-\kappa/2})$ network cumulative constraint violation, where $T$ is the time horizon and $\kappa\in(0,1)$ is a user-defined trade-off parameter. Moreover, if the loss functions are strongly convex, then the static network regret bound can be reduced to $\mathcal{O}(T^{\kappa})$. Finally, numerical simulations are provided to illustrate the effectiveness of the theoretical results.
translated by 谷歌翻译
在分散的学习中,节点网络协作以最小化通常是其本地目标的有限总和的整体目标函数,并结合了非平滑的正则化术语,以获得更好的泛化能力。分散的随机近端梯度(DSPG)方法通常用于培训这种类型的学习模型,而随机梯度的方差延迟了收敛速率。在本文中,我们提出了一种新颖的算法,即DPSVRG,通过利用方差减少技术来加速分散的训练。基本思想是在每个节点中引入估计器,该节点周期性地跟踪本地完整梯度,以校正每次迭代的随机梯度。通过将分散的算法转换为具有差异减少的集中内隙近端梯度算法,并控制错误序列的界限,我们证明了DPSVRG以o(1 / t)$的速率收敛于一般凸起目标加上非平滑术语以$ t $作为迭代的数量,而dspg以$ o(\ frac {1} {\ sqrt {t}})$汇聚。我们对不同应用,网络拓扑和学习模型的实验表明,DPSVRG会收敛于DSPG的速度要快得多,DPSVRG的损耗功能与训练时期顺利降低。
translated by 谷歌翻译
这项工作审查了旨在在通信约束下运行的自适应分布式学习策略。我们考虑一个代理网络,必须从持续观察流数据来解决在线优化问题。代理商实施了分布式合作策略,其中允许每个代理商与其邻居执行本地信息交换。为了应对通信约束,必须不可避免地压缩交换信息。我们提出了一种扩散策略,昵称为ACTC(适应 - 压缩 - 然后组合),其依赖于以下步骤:i)每个代理执行具有恒定步长大小的单独随机梯度更新的适应步骤; ii)一种压缩步骤,它利用最近引入的随机压缩操作员;和III)每个代理组合从其邻居接收的压缩更新的组合步骤。这项工作的区别要素如下。首先,我们专注于自适应策略,其中常数(而不是递减)阶梯大小对于实时响应非间断变化至关重要。其次,我们考虑一般的指导图表和左随机组合政策,使我们能够增强拓扑和学习之间的相互作用。第三,与对所有个人代理的成本职能承担强大的凸起的相关作品相比,我们只需要在网络水平的强大凸起,即使单个代理具有强凸的成本,剩余的代理商也不满足凸起成本。第四,我们专注于扩散(而不是共识)战略。在压缩信息的苛刻设置下,建立ACTC迭代在所需的优化器周围波动,在相邻代理之间交换的比特方面取得了显着的节省。
translated by 谷歌翻译
本文着重于通过分散网络的在线内核学习。网络中的每个代理都会在本地接收连续流数据,并协同工作以学习一个非线性预测函数,该功能在复制的内核希尔伯特空间中相对于所有代理的总瞬时成本而言是最佳的。为了规避传统在线内核学习中维度问题的诅咒,我们利用随机功能(RF)映射将非参数内核学习问题转换为RF空间中的固定长度参数。然后,我们建议通过线性化ADMM(ODKLA)有效地解决在线分散的内核内核学习问题,提出一个名为在线分散内核学习的新颖学习框架。为了进一步提高沟通效率,我们在通信阶段添加了量化和审查策略,并开发了量化和通信的ODKLA(QC-ODKLA)算法。从理论上讲,我们证明了Odkla和Qc-odkla都可以在$ t $ time插槽上实现最佳的Sublinear后悔$ \ Mathcal {O}(\ sqrt {t})$。通过数值实验,我们评估了所提出方法的学习效率,沟通和计算效率。
translated by 谷歌翻译
Enhancing resilience in distributed networks in the face of malicious agents is an important problem for which many key theoretical results and applications require further development and characterization. This work focuses on the problem of distributed optimization in multi-agent cyberphysical systems, where a legitimate agent's dynamic is influenced both by the values it receives from potentially malicious neighboring agents, and by its own self-serving target function. We develop a new algorithmic and analytical framework to achieve resilience for the class of problems where stochastic values of trust between agents exist and can be exploited. In this case we show that convergence to the true global optimal point can be recovered, both in mean and almost surely, even in the presence of malicious agents. Furthermore, we provide expected convergence rate guarantees in the form of upper bounds on the expected squared distance to the optimal value. Finally, we present numerical results that validate the analytical convergence guarantees we present in this paper even when the malicious agents compose the majority of agents in the network.
translated by 谷歌翻译
该工作研究限制了随机函数是凸的,并表示为随机函数的组成。问题是在公平分类,公平回归和排队系统设计的背景下出现的。特别令人感兴趣的是甲骨文提供组成函数的随机梯度的大规模设置,目标是用最小对Oracle的调用来解决问题。由于组成形式,Oracle提供的随机梯度不会产生目标或约束梯度的无偏估计。取而代之的是,我们通过跟踪内部函数评估来构建近似梯度,从而导致准差鞍点算法。我们证明,所提出的算法几乎可以肯定地找到最佳和可行的解决方案。我们进一步确定所提出的算法需要$ \ MATHCAL {O}(1/\ EPSILON^4)$数据样本,以便获得$ \ epsilon $ -Approximate-approximate-apptroximate Pointal点,同时也确保零约束违反。该结果与无约束问题的随机成分梯度下降方法的样品复杂性相匹配,并改善了受约束设置的最著名样品复杂性结果。在公平分类和公平回归问题上测试了所提出的算法的功效。数值结果表明,根据收敛速率,所提出的算法优于最新算法。
translated by 谷歌翻译
Bilevel programming has recently received attention in the literature, due to a wide range of applications, including reinforcement learning and hyper-parameter optimization. However, it is widely assumed that the underlying bilevel optimization problem is solved either by a single machine or in the case of multiple machines connected in a star-shaped network, i.e., federated learning setting. The latter approach suffers from a high communication cost on the central node (e.g., parameter server) and exhibits privacy vulnerabilities. Hence, it is of interest to develop methods that solve bilevel optimization problems in a communication-efficient decentralized manner. To that end, this paper introduces a penalty function based decentralized algorithm with theoretical guarantees for this class of optimization problems. Specifically, a distributed alternating gradient-type algorithm for solving consensus bilevel programming over a decentralized network is developed. A key feature of the proposed algorithm is to estimate the hyper-gradient of the penalty function via decentralized computation of matrix-vector products and few vector communications, which is then integrated within our alternating algorithm to give the finite-time convergence analysis under different convexity assumptions. Owing to the generality of this complexity analysis, our result yields convergence rates for a wide variety of consensus problems including minimax and compositional optimization. Empirical results on both synthetic and real datasets demonstrate that the proposed method works well in practice.
translated by 谷歌翻译
我们在限制下研究了一阶优化算法,即使用每个维度的$ r $ bits预算进行量化下降方向,其中$ r \ in(0,\ infty)$。我们提出了具有收敛速率的计算有效优化算法,与信息理论性能匹配:(i):(i)具有访问精确梯度甲骨文的平稳且强烈的符合目标,以及(ii)一般凸面和非平滑目标访问嘈杂的亚级别甲骨文。这些算法的关键是一种多项式复杂源编码方案,它在量化它之前将矢量嵌入随机子空间中。这些嵌入使得具有很高的概率,它们沿着转换空间的任何规范方向的投影很小。结果,量化这些嵌入,然后对原始空间进行逆变换产生一种源编码方法,具有最佳的覆盖效率,同时仅利用每个维度的$ r $ bits。我们的算法保证了位预算$ r $的任意值的最佳性,其中包括次线性预算制度($ r <1 $),以及高预算制度($ r \ geq 1 $),虽然需要$ o \ left(n^2 \右)$乘法,其中$ n $是尺寸。我们还提出了使用Hadamard子空间对这种编码方案的有效放松扩展以显着提高梯度稀疏方案的性能。数值模拟验证我们的理论主张。我们的实现可在https://github.com/rajarshisaha95/distoptconstrocncomm上获得。
translated by 谷歌翻译
我们考虑分散的优化问题,其中许多代理通过在基础通信图上交换来最大程度地减少其本地功能的平均值。具体而言,我们将自己置于异步模型中,其中只有一个随机部分在每次迭代时执行计算,而信息交换可以在所有节点之间进行,并以不对称的方式进行。对于此设置,我们提出了一种算法,该算法结合了整个网络上梯度跟踪和差异的差异。这使每个节点能够跟踪目标函数梯度的平均值。我们的理论分析表明,在预期混合矩阵的轻度连通性条件下,当局部目标函数强烈凸面时,算法会汇聚。特别是,我们的结果不需要混合矩阵是双随机的。在实验中,我们研究了一种广播机制,该机制将信息从计算节点传输到其邻居,并确认我们方法在合成和现实世界数据集上的线性收敛性。
translated by 谷歌翻译
在分散的优化中,通信网络的节点每个都具有局部目标函数,并使用基于八卦的方法进行通信,以最大程度地减少这些每节点函数的平均值。尽管同步算法受到图表中的一些慢节点或边缘的影响(\ emph {straggler问题}),但众所周知,它们的异步对应物很难参数化。实际上,到目前为止,它们针对具有异质通信和计算延迟的网络的收敛属性已经违反了分析。在本文中,我们使用\ emph {Continuized}框架来分析具有延迟的网络中的异步算法。我们的方法对收敛时间及其对网络中异质延迟的依赖性的精确表征。我们的连续框架受益于连续和离散世界中最好的:它适用的算法基于事件驱动的更新。因此,它们本质上是离散的,因此很容易实现。然而,他们的分析本质上是连续的,部分依赖于延迟的ODE理论。此外,我们的算法实现了\ emph {异步加速}:它们的收敛速率受到局部延迟加权的网络图的特征控制,而不是以前的分析中的网络范围最差的延迟。因此,我们的方法享有改善对散乱者的鲁棒性。
translated by 谷歌翻译
分散和联合学习的关键挑战之一是设计算法,这些算法有效地处理跨代理商的高度异构数据分布。在本文中,我们在数据异质性下重新审视分散的随机梯度下降算法(D-SGD)的分析。我们在D-SGD的收敛速率上展示了新数量的关键作用,称为\ emph {邻居异质性}。通过结合通信拓扑结构和异质性,我们的分析阐明了这两个分散学习中这两个概念之间的相互作用较低。然后,我们认为邻里的异质性提供了一种自然标准,可以学习数据依赖性拓扑结构,以减少(甚至可以消除)数据异质性对D-SGD收敛时间的有害影响。对于与标签偏度分类的重要情况,我们制定了学习这样一个良好拓扑的问题,例如我们使用Frank-Wolfe算法解决的可拖动优化问题。如一组模拟和现实世界实验所示,我们的方法提供了一种设计稀疏拓扑的方法,可以在数据异质性下平衡D-SGD的收敛速度和D-SGD的触电沟通成本。
translated by 谷歌翻译
近年来,分散的学习不仅是大规模机器学习的强大工具,而且还用于保留隐私。分散学习的主要挑战之一是,每个节点持有的数据分布在统计上是异质的。为了应对这一挑战,提出了称为边缘传感器学习(ECL)的原始二重算法,并在实验上证明对数据分布的异质性是可靠的。但是,仅当目标函数是凸的时,才提供ECL的收敛速率,并且在目标函数为非convex的标准机器学习设置中尚未显示。此外,尚未研究ECL对数据分布的异质性强大的直观原因。在这项工作中,我们首先研究了ECL和八卦算法之间的关系,并表明ECL的更新公式可以被视为纠正八卦算法中的局部随机梯度。然后,我们提出了包含ECL作为特殊情况的广义ECL(G-ECL),并在(强)凸和非凸面设置中提供G-ECL的收敛速率,这不取决于该设置数据分布的异质性。通过合成实验,我们证明了G-ECL和ECL的数值结果与G-ECL的收敛速率一致。
translated by 谷歌翻译
遗憾已被广泛用作评估分布式多代理系统在线优化算法的性能的首选指标。但是,与代理相关的数据/模型变化可以显着影响决策,并需要在代理之间达成共识。此外,大多数现有的作品都集中在开发(强烈或非严格地)凸出的方法上,对于一般非凸损失的分布式在线优化中的遗憾界限,几乎没有得到很少的结果。为了解决这两个问题,我们提出了一种新型的综合遗憾,并使用新的基于网络的基于遗憾的度量标准来评估分布式在线优化算法。我们具体地定义了复合遗憾的静态和动态形式。通过利用我们的综合遗憾的动态形式,我们开发了一种基于共识的在线归一化梯度(CONGD)的伪convex损失方法,事实证明,它显示了与最佳器路径变化的规律性术语有关的透明性行为。对于一般的非凸损失,我们首先阐明了基于最近进步的分布式在线非凸学习的遗憾,因此没有确定性算法可以实现sublinear的遗憾。然后,我们根据离线优化的Oracle开发了分布式的在线非凸优化(Dinoco),而无需进入梯度。迪诺科(Dinoco)被证明是统一的遗憾。据我们所知,这是对一般分布在线非convex学习的第一个遗憾。
translated by 谷歌翻译
在本文中,我们处理了一个通用分布式约束的在线学习问题,并在随着时间变化的网络上进行了隐私,其中考虑了一类不可分配的目标功能。在此设置下,每个节点仅控制全球决策变量的一部分,所有节点的目标是在时间范围内协作最小化全球目标,同时保证传输信息的安全性。对于此类问题,我们首先设计了一种新颖的通用算法框架,称为DPSDA,使用Laplace机制和双重平均方法的随机变体进行了差异性私有分布式在线学习。然后,我们建议在此框架下提出两种算法,称为DPSDA-C和DPSDA-PS。理论结果表明,两种算法都达到了预期的遗憾上度上限$ \ MATHCAL {O}(\ sqrt {t})$当目标函数是凸的时,它符合通过切割边缘算法来实现的最佳效用。最后,数值实验在现实世界和随机生成的数据集上都验证了我们算法的有效性。
translated by 谷歌翻译
非平滑的有限和最小化是机器学习中的一个基本问题。本文开发了一种具有随机重新洗牌的分布式随机近端梯度算法,以解决随着时变多代理网络的有限和最小化。目标函数是可分辨率凸起功能的总和和非平滑的正则化。网络中的每个代理通过本地信息更新具有恒定步长大小的局部变量,并协作以寻求最佳解决方案。我们证明了所提出的算法产生的局部变量估计实现共识,并且与$ \ mathcal {o}(\ frac {1} {t} + \ frac {1} {\SQRT {T}})$收敛率。此外,本文通过选择足够的阶梯尺寸,可以任意地小的目标函数的稳态误差。最后,提供了一些比较仿真来验证所提出的算法的收敛性能。
translated by 谷歌翻译
当数据自然分配到通过基础图的代理商之间,分散学习提供了隐私和沟通效率。通过过度参数化的学习设置,在该设置中,在该设置中训练了零训练损失,我们研究了分散学习的分散学习算法和概括性能,并在可分离的数据上下降。具体而言,对于分散的梯度下降(DGD)和各种损失函数,在无穷大(包括指数损失和逻辑损失)中渐近为零,我们得出了新的有限时间泛化界限。这补充了一长串最近的工作,该工作研究了概括性能和梯度下降的隐含偏见,而不是可分离的数据,但迄今为止,梯度下降的偏见仅限于集中学习方案。值得注意的是,我们的概括范围匹配其集中式同行。这背后的关键和独立感兴趣的是,在一类自我结合的损失方面建立了关于训练损失和DGD的传记率的新界限。最后,在算法方面,我们设计了改进的基于梯度的例程,可分离数据,并在经验上证明了训练和概括性能方面的加速命令。
translated by 谷歌翻译
通过使多个代理在缺乏中央协调员的情况下合作解决全球优化问题,分散的随机优化在像机器学习,控制和传感器网络这样的多种多样的领域中,人们的注意力越来越多。由于相关数据通常包含敏感信息,例如用户位置和个人身份,因此在实施分散的随机优化时,隐私保护已成为至关重要的需求。在本文中,我们提出了一种分散的随机优化算法,即使在存在与量化幅度成正比的积极量化误差的情况下,该算法也能够保证可证明的收敛精度。该结果同时适用于凸面和非凸目标函数,使我们能够利用积极的量化方案来混淆共享信息,因此可以在不失去可证明的优化精度的情况下进行隐私保护。实际上,通过使用将任何值量化为三个数值级别的任何值的{随机}三元量化方案,我们在分散的随机优化中实现了基于量化的严格差异隐私,以前尚未报告。结合提出的量化方案,提出的算法首次确保了分散的随机优化中的严格差异隐私,而不会失去可证明的收敛精度。分布式估计问题以及基准计算机学习数据集上分散学习的数值实验的仿真结果证实了所提出方法的有效性。
translated by 谷歌翻译
机器学习已开始在许多应用中发挥核心作用。这些应用程序中的许多应用程序通常还涉及由于设计约束(例如多元系统)或计算/隐私原因(例如,在智能手机数据上学习),这些数据集分布在多个计算设备/机器上。这样的应用程序通常需要以分散的方式执行学习任务,其中没有直接连接到所有节点的中央服务器。在现实世界中的分散设置中,由于设备故障,网络攻击等,节点容易出现未发现的故障,这可能会崩溃非稳固的学习算法。本文的重点是在发生拜占庭失败的节点的存在下对分散学习的鲁棒化。拜占庭故障模型允许故障节点任意偏离其预期行为,从而确保设计最健壮的算法的设计。但是,与分布式学习相反,对分散学习中拜占庭式的弹性的研究仍处于起步阶段。特别是,现有的拜占庭式分散学习方法要么不能很好地扩展到大规模的机器学习模型,要么缺乏统计收敛性可确保有助于表征其概括错误。在本文中,引入了一个可扩展的,拜占庭式的分散的机器学习框架,称为拜占庭的分散梯度下降(桥梁)。本文中还提供了强烈凸出问题和一类非凸问题的算法和统计收敛保证。此外,使用大规模的分散学习实验来确定桥梁框架是可扩展的,并且为拜占庭式弹性凸和非convex学习提供了竞争结果。
translated by 谷歌翻译