在存在对抗数据攻击的情况下,我们研究在线和分布式方案中的强大平均估计。在每个时间步骤中,网络中的每个代理都会收到一个潜在损坏的数据点,其中数据点最初是独立的,并且是随机变量的相同分布的样本。我们建议所有代理商在线和分发算法,以渐近地估计平均值。我们将估计值的错误结合和收敛属性提供给我们算法下的真实均值。基于网络拓扑,我们进一步评估了每个代理商在合并邻居的数据和仅在本地观察中学习之间的融合率的权衡。
translated by 谷歌翻译
我们研究以分布式和在线方式估算未知参数的问题。现有在分布式在线学习的工作通常专注于渐近分析,或者为后悔提供界限。但是,这些结果可能不会直接转化为有限的时间段数后学习模型的误差的界限。在本文中,我们提出了一种分布式的在线估计算法,该算法使网络中的每个代理都可以通过与邻居进行通信来提高其估计精度。我们在估计误差上提供了非反应界限,利用了基础模型的统计特性。我们的分析表明,估计错误和通信成本之间的权衡。此外,我们的分析使我们能够确定可以停止通信的时间(由于与通信相关的成本),同时达到所需的估计准确性。我们还提供了一个数值示例来验证我们的结果。
translated by 谷歌翻译
Enhancing resilience in distributed networks in the face of malicious agents is an important problem for which many key theoretical results and applications require further development and characterization. This work focuses on the problem of distributed optimization in multi-agent cyberphysical systems, where a legitimate agent's dynamic is influenced both by the values it receives from potentially malicious neighboring agents, and by its own self-serving target function. We develop a new algorithmic and analytical framework to achieve resilience for the class of problems where stochastic values of trust between agents exist and can be exploited. In this case we show that convergence to the true global optimal point can be recovered, both in mean and almost surely, even in the presence of malicious agents. Furthermore, we provide expected convergence rate guarantees in the form of upper bounds on the expected squared distance to the optimal value. Finally, we present numerical results that validate the analytical convergence guarantees we present in this paper even when the malicious agents compose the majority of agents in the network.
translated by 谷歌翻译
在本文中,我们提出了一种一阶分布式优化算法,该算法对拜占庭式失败 - 肢体和潜在的对抗性行为非常强大,在该行为中,所有参与的药物都容易发生失败。我们随着时间的推移将每个代理的状态建模为两国马尔可夫链,该链在不同时间时指示拜占庭或可信赖的行为。我们在任何给定时间均未设置对拜占庭代理的最大数量的限制。我们根据三层防御设计我们的方法:1)时间稳健聚集,2)空间稳健聚集和3)梯度归一化。我们研究了两个用于随机优化的设置,即样品平均近似值和随机近似。我们提供了强烈凸出和平滑非凸成本功能的方法的收敛保证。
translated by 谷歌翻译
我们研究了在随机代理网络中的多功能加固学习(MARL)。目标是找到最大化(折扣)全球奖励的本地化政策。通常,可扩展性在此设置中是一个挑战,因为全局状态/动作空间的大小可以是代理的数量的指数。在依赖性是静态,固定和局部,例如,在固定的,时不变的底层图形的邻居之间,才知道可扩展算法。在这项工作中,我们提出了一个可扩展的演员评论家框架,适用于依赖关系可以是非本地和随机的设置,并提供有限误差绑定,显示了收敛速度如何取决于网络中的信息速度。另外,作为我们分析的副产物,我们获得了一般随机近似方案的新型有限时间收敛结果,以及具有状态聚合的时间差异学习,其超出了网络系统中的Marl的设置。
translated by 谷歌翻译
本文涉及一种计算代理网络,旨在以分布式方式解决在线优化问题,即通过本地计算和通信,没有任何中央协调员。我们提出了具有自适应动量估计(GTADAM)分布式算法的梯度跟踪,其将梯度跟踪机制与梯度的第一和二阶动量估计相结合。该算法在线设置中分析了具有Lipschitz连续梯度的强凸起成本函数的在线设置。我们为动态遗憾提供了一个与初始条件相关的术语的动态遗憾的上限,以及与客观函数的时间变化有关的另一个术语。此外,在静态设置中保证了线性收敛速率。在从图像分类中,在(移动)目标定位问题上和随机优化设置中的时变分类问题测试该算法。在来自多智能经验学习的这些数值实验中,GTADAM优于最先进的分布式优化方法。
translated by 谷歌翻译
我们考虑使用具有规避风险的代理商的在线随机游戏,其目标是学习最佳决策,以最大程度地减少产生高昂成本的风险。具体而言,我们使用处于风险的条件值(CVAR)作为一种风险度量,代理可以以仅选择其选定动作的成本值的形式使用Bandit反馈来估算。由于成本函数的分布取决于所有通常无法观察的代理的行为,因此它们本身是未知的,因此,成本的CVAR值很难计算。为了应对这一挑战,我们提出了一种新的避免在线风险的学习算法,该算法依赖于使用CVAR值计算的CVAR梯度的单点零级估计,这些算法是通过适当采样成本函数估算的CVAR值。我们表明,该算法以很高的可能性实现了子线性的遗憾。我们还提出了该算法的两种变体,以提高性能。第一个变体依赖于一种新的采样策略,该策略使用上一个迭代中的样本来提高CVAR值的估计精度。第二个变体采用残留反馈,该反馈使用上一个迭代中的CVAR值来减少CVAR梯度估计的方差。我们从理论上分析了这些变体的收敛属性,并说明了它们在在线市场问题上的表现,我们将其模拟为ournot游戏。
translated by 谷歌翻译
在这里,我们重新审视线性二次估计的经典问题,即估计线性动力系统从嘈杂测量的轨迹。当测量噪声是高斯时,庆祝的卡尔曼滤波器提供了最佳估计器,但是当一个人偏离这种假设时,广泛众所周知,众所周知会破裂。当噪音重尾时。许多临时启发式机启发式就是处理异常值的实践中。在开创性的工作中,Schick和Mitter在测量噪声是高斯的已知无穷无尽的扰动时给予了可证明的保证,并提出了一个可以获得类似的禁令的重要担保的重要问题。在这项工作中,我们给出了一个真正强大的过滤器:当甚至恒定的测量分数都存在对比腐败时,我们给出了线性二次估计的第一个强化保证。该框架可以模拟重型且甚至是非静止噪声过程。我们的算法在与知道损坏位置的最佳算法竞争的意义上强调了卡尔曼过滤器。我们的作品处于挑战性的贝叶斯环境,其中测量数量与我们需要估计的复杂性缩放。此外,在线性动态系统中过去信息随时间衰减。我们开发了一套新技术,以强大地提取不同时间步长和不同时间尺度的信息。
translated by 谷歌翻译
非平滑的有限和最小化是机器学习中的一个基本问题。本文开发了一种具有随机重新洗牌的分布式随机近端梯度算法,以解决随着时变多代理网络的有限和最小化。目标函数是可分辨率凸起功能的总和和非平滑的正则化。网络中的每个代理通过本地信息更新具有恒定步长大小的局部变量,并协作以寻求最佳解决方案。我们证明了所提出的算法产生的局部变量估计实现共识,并且与$ \ mathcal {o}(\ frac {1} {t} + \ frac {1} {\SQRT {T}})$收敛率。此外,本文通过选择足够的阶梯尺寸,可以任意地小的目标函数的稳态误差。最后,提供了一些比较仿真来验证所提出的算法的收敛性能。
translated by 谷歌翻译
线性时间流(LTI)系统的识别在控制和增强学习中起重要作用。文献中都对渐近时间和有限的离线系统识别进行了充分研究。对于在线系统识别,最近提出了具有反向体验重播(SGD RER)的随机梯度下降的想法,其中数据序列存储在几个缓冲区中,随机分脱水量(SGD)更新在每个缓冲区中向后进行,以使每个缓冲区向后进行。打破数据点之间的时间依赖关系。在这项工作的启发下,我们研究了通过多代理网络分布LTI系统的在线系统识别。我们将代理视为相同的LTI系统,网络目标是通过利用代理之间的通信共同估计系统参数。我们提出了DSGD-RER,SGD-RER算法的分布式变体,理论上表征了相对于网络大小的估计误差的改善。随着网络大小的增长,我们的数值实验证明了估计误差的减少。
translated by 谷歌翻译
培训期间的对抗性攻击能够强烈影响多功能增强学习算法的性能。因此,非常希望增加现有算法,使得消除对抗对协作网络的对抗性攻击的影响,或者至少有界限。在这项工作中,我们考虑一个完全分散的网络,每个代理商收到本地奖励并观察全球州和行动。我们提出了一种基于弹性共识的演员 - 批评算法,其中每个代理估计了团队平均奖励和价值函数,并将关联的参数向量传送到其立即邻居。我们表明,在拜占庭代理人的存在下,其估算和通信策略是完全任意的,合作社的估计值会融合到有概率一体的有界共识值,条件是在附近的最多有$ H $拜占庭代理商每个合作社和网络都是$(2h + 1)$ - 强大。此外,我们证明,合作社的政策在其团队平均目标函数的局部最大化器周围汇聚在其团队平均目标函数的概率上,这是对渐关节转移变得稳定的普发因子的政策。
translated by 谷歌翻译
在共享数据的统计学习和分析中,在联合学习和元学习等平台上越来越广泛地采用,有两个主要问题:隐私和鲁棒性。每个参与的个人都应该能够贡献,而不会担心泄露一个人的敏感信息。与此同时,系统应该在恶意参与者的存在中插入损坏的数据。最近的算法在学习中,学习共享数据专注于这些威胁中的一个,使系统容易受到另一个威胁。我们弥合了这个差距,以获得估计意思的规范问题。样品。我们介绍了素数,这是第一算法,实现了各种分布的隐私和鲁棒性。我们通过新颖的指数时间算法进一步补充了这一结果,提高了素数的样本复杂性,实现了近最优保证并匹配(非鲁棒)私有平均估计的已知下限。这证明没有额外的统计成本同时保证隐私和稳健性。
translated by 谷歌翻译
We study the fundamental task of outlier-robust mean estimation for heavy-tailed distributions in the presence of sparsity. Specifically, given a small number of corrupted samples from a high-dimensional heavy-tailed distribution whose mean $\mu$ is guaranteed to be sparse, the goal is to efficiently compute a hypothesis that accurately approximates $\mu$ with high probability. Prior work had obtained efficient algorithms for robust sparse mean estimation of light-tailed distributions. In this work, we give the first sample-efficient and polynomial-time robust sparse mean estimator for heavy-tailed distributions under mild moment assumptions. Our algorithm achieves the optimal asymptotic error using a number of samples scaling logarithmically with the ambient dimension. Importantly, the sample complexity of our method is optimal as a function of the failure probability $\tau$, having an additive $\log(1/\tau)$ dependence. Our algorithm leverages the stability-based approach from the algorithmic robust statistics literature, with crucial (and necessary) adaptations required in our setting. Our analysis may be of independent interest, involving the delicate design of a (non-spectral) decomposition for positive semi-definite matrices satisfying certain sparsity properties.
translated by 谷歌翻译
在本文中,我们研究了一群代理的旨在通过流数据进行协作地学习共同的静态潜在函数的问题。我们提出了一种轻量级分布式高斯进程回归(GPR)算法,该算法是在通信,计算和内存中的代理有限能力的认识。每个代理使用本地流数据独立地运行基于代理的GPR,以预测感兴趣的测试点;然后,该代理协作执行分布式GPR,以获得通过常见的稀疏测试点集的全局预测;最后,每个代理的融合来自分布式GPR的结果与基于代理的GPR来改进其预测。通过量化预测方差和错误中的瞬态和稳态性能,我们表明,有限的代理商通信在帕累托的意义上提高了学习表演。Monte Carlo仿真进行了评估发达的算法。
translated by 谷歌翻译
我们研究了多智能经纪增强学习的政策评估问题,其中一组代理商,共同观察到的国家和私人本地行动和奖励,协作,以通过连接的无向网络通过本地计算和通信学习给定策略的价值函数。各种大型多种代理系统中出现此问题,包括电网,智能交通系统,无线传感器网络和多代理机器人。当状态动作空间的尺寸大时,广泛使用具有线性函数近似的时间差异学习。在本文中,我们开发了一种新的分布式时间差异学习算法,量化其有限时间性能。我们的算法将分布式随机原始方法与基于同型的方法进行了自适应调整学习率的方法,以便通过从因果导轨轨迹中采用新鲜的在线样本来最小化平均投影的Bellman误差。我们明确考虑了采样的Markovian性质,并改善了从$ O(1 / \ sqrt {t})$到〜$ o(1 / t)$的最佳已知的有限时间误差,其中$ t $迭代的总数。
translated by 谷歌翻译
对于多种代理的动力学物理耦合的任务,例如,在合作操作中,各个代理之间的协调变得至关重要,这需要确切的相互作用动力学知识。通常使用集中式估计器来解决此问题,这可能会对整个系统的灵活性和鲁棒性产生负面影响。为了克服这一缺点,我们提出了一个新颖的分布式学习框架,用于使用贝叶斯原理进行合作操作的典范任务。仅使用局部状态信息,每个代理都会获得对象动力学和掌握运动学的估计。这些本地估计是使用动态平均共识组合的。由于该方法的概率基础很强,因此对象动力学和掌握运动学的每个估计都伴随着一种不确定性的度量,该度量允许以高概率保证有界的预测误差。此外,贝叶斯原理直接允许迭代学习以持续的复杂性,以便可以在实时应用程序中在线使用所提出的学习方法。该方法的有效性在模拟的合作操作任务中得到了证明。
translated by 谷歌翻译
合作匪徒问题越来越多地成为其在大规模决策中的应用。然而,对此问题的大多数研究专注于具有完美通信的环境,而在大多数现实世界分布式设置中,通信通常是随机网络,具有任意损坏和延迟。在本文中,我们在三个典型的真实沟通场景下研究了合作匪徒学习,即(a)通过随机时变网络的消息传递,(b)通过随机延迟的网络瞬时奖励共享(c )通过对冲损坏的奖励来传递消息,包括拜占庭式沟通。对于每个环境中的每一个,我们提出了实现竞争性能的分散算法,以及在发生的群体后悔的近乎最佳保证。此外,在具有完美通信的环境中,我们提出了一种改进的延迟更新算法,其优于各种网络拓扑的现有最先进的算法。最后,我们在集团后悔呈现紧密的网络依赖性最低限度。我们所提出的算法很简单,以实现和获得竞争性的经验性能。
translated by 谷歌翻译
本文考虑由马尔可夫噪声和一般共识型交互驱动的新型多代理线性随机近似算法,其中每个代理根据其本地随机近似过程演变,这取决于其邻居的信息。代理中的互连结构由时变的指向图描述。虽然已经研究了代理中的互连(至少在期望)中描述了基于协商的随机近似算法的收敛性,但是当互连矩阵简单地是随机时的情况,较少是已知的。对于任何相关的相互作用矩阵是随机的均匀强连接的图形序列,纸张导出平均误差上的有限时间界限,定义为算法从相关常微分方程的独特平衡点偏差。对于互连矩阵是随机的互连矩阵的情况,平衡点可以是在没有通信的情况下所有代理的局部均衡的任何未指明的凸起组合。考虑具有恒定和时差阶梯尺寸的情况。在需要凸起组合的情况下,任何对相邻代理之间的直平均值和相互作用可以是单向的,因此纸张不能以分布式方式实现双随机矩阵,提出了一种推挽和型分布式随机近似算法,通过利用随机矩阵的共识型算法利用分析和发展推送算法的新颖性,为时变梯度尺寸案例提供了其有限时间绑定。
translated by 谷歌翻译
本文研究了协同多智能体增强学习(MARL)的分布式政策梯度,在通信网络上的代理人旨在找到最佳政策,以最大限度地提高所有代理人的当地返回的平均值。由于政策梯度的非凹形性能函数,用于凸面问题的现有分布式随机优化方法不能直接用于Marl中的政策梯度。本文提出了一种具有方差减少和渐变跟踪的分布式策略梯度,以解决政策梯度的高差,并利用重要的重量来解决采样过程中的非静止问题。然后,我们在平均平均固定间隙上提供一个上限,这取决于迭代的数量,迷你批量大小,秒钟大小,问题参数和网络拓扑。我们进一步建立了样本和通信复杂性,以获得$ \ epsilon $-upprymate静止点。对MARL控制问题的数值实验进行了验证了所提出算法的有效性。
translated by 谷歌翻译
本文研究了多功能网络网络中分散的多武装强盗问题。当他们面对一套常见的M武器并分享每个ARM奖励的相同均值,问题是由N代理同时解决的。每个代理可以从其邻居接收信息,其中代理之间的邻居关系由其顶点代表代理的定向图描述,并且其定向边缘描绘了邻居关系。针对每个试剂提出了一种完全分散的多武装强盗算法,其曲折了经典共识算法和上置信算法(UCB)算法。结果表明,该算法保证了每个代理,以实现比邻居图强烈连接的经典UCB更好的对数渐近遗憾。如果邻居图无向,则可以进一步提高遗憾。
translated by 谷歌翻译