现代的元强化学习(META-RL)方法主要基于模型 - 不合时宜的元学习开发,该方法在跨任务中执行策略梯度步骤以最大程度地提高策略绩效。但是,在元RL中,梯度冲突问题仍然很少了解,这可能导致遇到不同任务时的性能退化。为了应对这一挑战,本文提出了一种新颖的个性化元素RL(PMETA-RL)算法,该算法汇总了特定任务的个性化政策,以更新用于所有任务的元政策,同时保持个性化的政策,以最大程度地提高每个任务的平均回报在元政策的约束下任务。我们还提供了表格设置下的理论分析,该分析证明了我们的PMETA-RL算法的收敛性。此外,我们将所提出的PMETA-RL算法扩展到基于软参与者批评的深网络版本,使其适合连续控制任务。实验结果表明,所提出的算法在健身房和Mujoco套件上的其他以前的元rl算法都优于其他以前的元素算法。
translated by 谷歌翻译
机器学习模型已在移动网络中部署,以处理来自不同层的数据,以实现自动化网络管理和设备的智能。为了克服集中式机器学习的高度沟通成本和严重的隐私问题,已提出联合学习(FL)来实现网络设备之间的分布式机器学习。虽然在FL中广泛研究了计算和通信限制,但仍未探索设备存储对FL性能的影响。如果没有有效有效的数据选择政策来过滤设备上的大量流媒体数据,经典FL可能会遭受更长的模型训练时间(超过$ 4 \ times $)和显着的推理准确性(超过$ 7 \%\%$),则遭受了损失,观察到了。在我们的实验中。在这项工作中,我们迈出了第一步,考虑使用有限的在设备存储的FL的在线数据选择。我们首先定义了一个新的数据评估度量,以在FL中进行数据选择:在设备数据样本上,局部梯度在所有设备的数据上投影到全球梯度上。我们进一步设计\ textbf {ode},一个\ textbf {o} nline \ textbf {d} ata s \ textbf {e textbf {e} fl for f for fl f textbf {o}的框架,用于协作网络设备,以协作存储有价值的数据示例,并保证用于快速的理论保证同时提高模型收敛并增强最终模型精度。一项工业任务(移动网络流量分类)和三个公共任务(综合任务,图像分类,人类活动识别)的实验结果显示了ODE的显着优势,而不是最先进的方法。特别是,在工业数据集上,ODE的成就高达$ 2.5 \ times $ $加速的培训时间和6美元的最终推理准确性增加,并且在实践环境中对各种因素都有强大的态度。
translated by 谷歌翻译
联合学习(FL)是一个新的分布式机器学习框架,可以在不收集用户的私人数据的情况下获得可靠的协作培训。但是,由于FL的频繁沟通和平均聚合策略,他们会遇到挑战统计多样性数据和大规模模型。在本文中,我们提出了一个个性化的FL框架,称为基于Tensor分解的个性化联合学习(TDPFED),在该框架中,我们设计了一种具有张力的线性层和卷积层的新颖的张力局部模型,以降低交流成本。 TDPFED使用双级损失函数来通过控制个性化模型和张力的本地模型之间的差距来使全球模型学习的个性化模型优化。此外,有效的分布式学习策略和两种不同的模型聚合策略是为拟议的TDPFED框架设计的。理论融合分析和彻底的实验表明,我们提出的TDPFED框架在降低交流成本的同时实现了最新的性能。
translated by 谷歌翻译
协作多代理增强学习(MARL)已在许多实际应用中广泛使用,在许多实际应用中,每个代理商都根据自己的观察做出决定。大多数主流方法在对分散的局部实用程序函数进行建模时,将每个局部观察结果视为完整的。但是,他们忽略了这样一个事实,即可以将局部观察信息进一步分为几个实体,只有一部分实体有助于建模推理。此外,不同实体的重要性可能会随着时间而变化。为了提高分散政策的性能,使用注意机制用于捕获本地信息的特征。然而,现有的注意模型依赖于密集的完全连接的图,并且无法更好地感知重要状态。为此,我们提出了一个稀疏的状态MARL(S2RL)框架,该框架利用稀疏的注意机制将无关的信息丢弃在局部观察中。通过自我注意力和稀疏注意机制估算局部效用函数,然后将其合并为标准的关节价值函数和中央评论家的辅助关节价值函数。我们将S2RL框架设计为即插即用的模块,使其足够一般,可以应用于各种方法。关于Starcraft II的广泛实验表明,S2RL可以显着提高许多最新方法的性能。
translated by 谷歌翻译
关键字斑点(KWS)旨在将特定的唤醒单词与其他信号区分开,以精确有效地为不同的用户区分。最近的工作利用各种深层网络来培训KWS模型,并以所有用户的语音数据集中培训,而无需考虑数据隐私。联合KWS(FEDKW)可以作为解决方案而无需直接共享用户的数据。但是,少量数据,不同的用户习惯和各种口音可能导致致命问题,例如过度拟合或体重差异。因此,我们提出了几种策略,以鼓励该模型不要过度适合FEDKW中的用户特定信息。具体而言,我们首先提出了一种对抗性学习策略,该策略会根据适合过度的本地模型更新下载的全局模型,并明确鼓励全球模型捕获用户不变的信息。此外,我们提出了一种自适应的本地培训策略,让客户拥有更多的培训数据和更多统一的班级分布执行更多的本地更新步骤。同等地,这种策略可以削弱那些数据较少资格的用户的负面影响。我们提出的fedkws-UI可以在FEDKWS中明确和隐含地学习用户不变信息。对联邦Google语音命令的大量实验结果验证了FEDKWS-UI的有效性。
translated by 谷歌翻译
由于客户之间缺乏数据和统计多样性,联合学习从模型过度适应的巨大挑战面临巨大的挑战。为了应对这些挑战,本文提出了一种新型的个性化联合学习方法,该方法通过贝叶斯变异推断为pfedbayes。为了减轻过度拟合,将重量不确定性引入了客户和服务器的神经网络。为了实现个性化,每个客户端通过平衡私有数据的构建错误以及其KL Divergence与服务器的全局分布来更新其本地分布参数。理论分析给出了平均泛化误差的上限,并说明了概括误差的收敛速率是最小到对数因子的最佳选择。实验表明,所提出的方法在个性化模型上的表现优于其他高级个性化方法,例如Pfedbayes在MNIST,FMNIST和NON-I.I.I.D下,Pfedbayes的表现分别超过其他SOTA算法的其他SOTA算法的表现为1.25%,0.42%和11.71%。有限的数据。
translated by 谷歌翻译
众所周知,深度损失景观的黑森州对深度学习的优化,概括甚至稳健性至关重要。最近的著作从经验上发现,深度学习中的Hessian Spectrum具有两个组成的结构,该结构由少数大型特征值和大量近零特征值组成。但是,Hessian频谱背后的理论机制或数学基本上仍未探索。据我们所知,我们是第一个证明训练有素的深度神经网络的黑石谱展示了简单的强力结构。受统计物理理论和天然蛋白质的光谱分析的启发,我们提供了一种最大的内部理论解释,以解释为什么幂律结构存在并暗示蛋白质演化和深神经网络训练之间的光谱平行。通过有助于广泛的实验,我们进一步使用幂律频谱框架作为探索深度学习的多种新型行为的有用工具。
translated by 谷歌翻译
联合学习(FL)是一种在不获取客户私有数据的情况下培训全球模型的协同机器学习技术。 FL的主要挑战是客户之间的统计多样性,客户设备之间的计算能力有限,以及服务器和客户之间的过度沟通开销。为解决这些挑战,我们提出了一种通过最大化FEDMAC的相关性稀疏个性化联合学习计划。通过将近似的L1-norm和客户端模型与全局模型之间的相关性结合到标准流失函数中,提高了统计分集数据的性能,并且与非稀疏FL相比,网络所需的通信和计算负载减少。收敛分析表明,FEDMAC中的稀疏约束不会影响全球模型的收敛速度,理论结果表明,FEDMAC可以实现良好的稀疏个性化,这比基于L2-NOM的个性化方法更好。实验,我们展示了与最先进的个性化方法相比的这种稀疏个性化建筑的益处(例如,FEDMAC分别达到98.95%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,99.37%,高精度,FMNIST,CIFAR-100和非IID变体下的合成数据集)。
translated by 谷歌翻译
矩阵分解(MF)已广泛应用于建议系统中的协作过滤。它的贝叶斯变体可以得出用户和项目嵌入的后验分布,并且对稀疏评分更强大。但是,贝叶斯方法受到其后验参数的更新规则的限制,这是由于先验和可能性的结合。变量自动编码器(VAE)可以通过捕获后验参数和数据之间的复杂映射来解决此问题。但是,当前对合作过滤的VAE的研究仅根据明确的数据信息考虑映射,而隐含嵌入信息则被忽略了。在本文中,我们首先从两个观点(以用户为导向和面向项目的观点)得出了贝叶斯MF模型的贝叶斯MF模型的较低界限(ELBO)。根据肘部,我们提出了一个基于VAE的贝叶斯MF框架。它不仅利用数据,还利用嵌入信息来近似用户项目联合分布。正如肘部所建议的那样,近似是迭代的,用户和项目嵌入彼此的编码器的交叉反馈。更具体地说,在上一个迭代中采样的用户嵌入被馈送到项目端编码器中,以估计当前迭代处的项目嵌入的后验参数,反之亦然。该估计还可以关注交叉食品的嵌入式,以进一步利用有用的信息。然后,解码器通过当前重新采样的用户和项目嵌入方式通过矩阵分解重建数据。
translated by 谷歌翻译
Learning with noisy labels is a vital topic for practical deep learning as models should be robust to noisy open-world datasets in the wild. The state-of-the-art noisy label learning approach JoCoR fails when faced with a large ratio of noisy labels. Moreover, selecting small-loss samples can also cause error accumulation as once the noisy samples are mistakenly selected as small-loss samples, they are more likely to be selected again. In this paper, we try to deal with error accumulation in noisy label learning from both model and data perspectives. We introduce mean point ensemble to utilize a more robust loss function and more information from unselected samples to reduce error accumulation from the model perspective. Furthermore, as the flip images have the same semantic meaning as the original images, we select small-loss samples according to the loss values of flip images instead of the original ones to reduce error accumulation from the data perspective. Extensive experiments on CIFAR-10, CIFAR-100, and large-scale Clothing1M show that our method outperforms state-of-the-art noisy label learning methods with different levels of label noise. Our method can also be seamlessly combined with other noisy label learning methods to further improve their performance and generalize well to other tasks. The code is available in https://github.com/zyh-uaiaaaa/MDA-noisy-label-learning.
translated by 谷歌翻译