Neural network pruning has been a well-established compression technique to enable deep learning models on resource-constrained devices. The pruned model is usually specialized to meet specific hardware platforms and training tasks (defined as deployment scenarios). However, existing pruning approaches rely heavily on training data to trade off model size, efficiency, and accuracy, which becomes ineffective for federated learning (FL) over distributed and confidential datasets. Moreover, the memory- and compute-intensive pruning process of most existing approaches cannot be handled by most FL devices with resource limitations. In this paper, we develop FedTiny, a novel distributed pruning framework for FL, to obtain specialized tiny models for memory- and computing-constrained participating devices with confidential local data. To alleviate biased pruning due to unseen heterogeneous data over devices, FedTiny introduces an adaptive batch normalization (BN) selection module to adaptively obtain an initially pruned model to fit deployment scenarios. Besides, to further improve the initial pruning, FedTiny develops a lightweight progressive pruning module for local finer pruning under tight memory and computational budgets, where the pruning policy for each layer is gradually determined rather than evaluating the overall deep model structure. Extensive experimental results demonstrate the effectiveness of FedTiny, which outperforms state-of-the-art baseline approaches, especially when compressing deep models to extremely sparse tiny models.
translated by 谷歌翻译
联合学习(FL)可以从云到资源限制的边缘设备分发机器学习工作负载。遗憾的是,当前的深网络不仅对边缘设备的推理和培训造成了太重,而且对于在带宽约束网络上传送更新,也太大了。在本文中,我们开发,实施和实验验证了所谓的联合动态稀疏训练(FEDDST)的新型FL框架,通过该训练可以通过该培训和培训复杂的神经网络,在设备上计算和网络内通信中具有基本上提高的效率。在FEDDST的核心是一个动态过程,可以从目标完整网络中提取和列出稀疏子网。通过这个方案,“两只鸟类用一块石头杀死:”而不是完整的模型,每个客户端都会对自己的稀疏网络进行有效的培训,并且在设备和云之间仅传输稀疏网络。此外,我们的结果表明,在流动训练期间的动态稀疏性更灵活地容纳比固定的共用稀疏面具的局部异质性。此外,动态稀疏性自然地引入了培训动态的“时间自化效应”,即使通过密集训练也会提高流程。在一个现实和挑战的非I.I.D。 FL Setting,FEDDST始终如一地优于我们的实验中的竞争算法:例如,在非IID CIFAR-10上的任何固定上传数据帽时,在给定相同的上传数据帽时,它会在FedVGM上获得令人印象深刻的精度优势;即使在上传数据帽2倍,也可以进一步展示FEDDST的疗效,即使FEDAVGM为2X,即使将FEDAVGM提供精度差距也会保持3%。代码可用:https://github.com/bibikar/feddst。
translated by 谷歌翻译
当可用的硬件无法满足内存和计算要求以有效地训练高性能的机器学习模型时,需要妥协训练质量或模型复杂性。在联合学习(FL)中,节点是比传统服务器级硬件更具限制的数量级,并且通常是电池供电的,严重限制了可以在此范式下训练的模型的复杂性。尽管大多数研究都集中在设计更好的聚合策略上以提高收敛速度并减轻FL的沟通成本,但更少的努力致力于加快设备培训。这样的阶段重复数百次(即每回合)并可能涉及数千个设备,这是培训联合模型所需的大部分时间,以及客户端的全部能源消耗。在这项工作中,我们介绍了第一个研究在FL工作负载中培训时间引入稀疏性时出现的独特方面的研究。然后,我们提出了Zerofl,该框架依赖于高度稀疏的操作来加快设备训练。与通过将最先进的稀疏训练框架适应FL设置相比,接受Zerofl和95%稀疏性训练的模型高达2.3%的精度。
translated by 谷歌翻译
高效联合学习是在边缘设备上培训和部署AI模型的关键挑战之一。然而,在联合学习中维护数据隐私提出了几种挑战,包括数据异质性,昂贵的通信成本和有限的资源。在本文中,我们通过(a)通过基于本地客户端的深度增强学习引入突出参数选择代理的上述问题,并在中央服务器上聚合所选择的突出参数,(b)分割正常的深度学习模型〜 (例如,CNNS)作为共享编码器和本地预测器,并通过联合学习训练共享编码器,同时通过本地自定义预测器将其知识传送到非IID客户端。所提出的方法(a)显着降低了联合学习的通信开销,并加速了模型推断,而方法(b)则在联合学习中解决数据异质性问题。此外,我们利用梯度控制机制来校正客户之间的梯度异质性。这使得训练过程更稳定并更快地收敛。实验表明,我们的方法产生了稳定的训练过程,并与最先进的方法相比实现了显着的结果。在培训VGG-11时,我们的方法明显降低了通信成本最高108 GB,并在培训Reset-20时需要7.6美元的通信开销,同时通过减少高达39.7 \%$ 39.7 \%$ vgg- 11.
translated by 谷歌翻译
客户的计算和通信能力有限,在资源有限的边缘节点上对联邦学习(FL)提出了重大挑战。解决此问题的一种潜在解决方案是部署现成的稀疏学习算法,该算法在每个客户端对二进制稀疏面膜进行训练,并期望训练一致的稀疏服务器掩码。但是,正如我们在本文中调查的那样,与使用密集的模型相比,这种天真的部署与FL相比,尤其是在低客户资源预算的情况下,其准确性下降了。特别是,我们的调查表明,对客户的训练有素的面具之间存在严重的共识,这阻止了服务器面罩上的收敛,并可能导致模型性能大大下降。基于这样的关键观察,我们提出了联合彩票意识到的稀疏狩猎(Flash),这是一个统一的稀疏学习框架,可以使服务器以稀疏的子模型赢得彩票,从而在高度资源有限的客户设置下可以极大地提高性能。此外,为了解决设备异质性的问题,我们利用我们的发现来提出异性恋,在此,客户可以根据其设备资源限制拥有不同的目标稀疏预算。各种数据集(IID和非IID)上有多个模型的广泛实验评估显示了我们模型的优势,最多可屈服$ \ Mathord {\ sim} 10.1 \%$ $提高精度,$ \ mathord {\ sim} 10.26 \ times与现有替代方案相比,在类似的高参数设置中,沟通成本少于$较少。
translated by 谷歌翻译
在存在数据掠夺性保存问题的情况下,有效地在许多设备和资源限制上(尤其是在边缘设备上)的有效部署深度神经网络是最具挑战性的问题之一。传统方法已经演变为改善单个全球模型,同时保持每个本地培训数据分散(即数据杂质性),或者培训一个曾经是一个曾经是一个曾经是的网络,该网络支持多样化的建筑设置,以解决配备不同计算功能的异质系统(即模型杂种)。但是,很少的研究同时考虑了这两个方向。在这项工作中,我们提出了一个新颖的框架来考虑两种情况,即超级网训练联合会(FEDSUP),客户在该场景中发送和接收一条超级网,其中包含从本身中采样的所有可能的体系结构。它的灵感来自联邦学习模型聚合阶段(FL)中平均参数的启发,类似于超级网训练中的体重分享。具体而言,在FedSup框架中,训练单射击模型中广泛使用的重量分享方法与联邦学习的平均(FedAvg)结合在一起。在我们的框架下,我们通过将子模型发送给广播阶段的客户来降低沟通成本和培训间接费用,提出有效的算法(电子馈SUP)。我们展示了几种增强FL环境中超网训练的策略,并进行广泛的经验评估。结果框架被证明为在几个标准基准上的数据和模型杂质性的鲁棒性铺平了道路。
translated by 谷歌翻译
自动语音识别模型需要大量的语音数据进行培训,并且此类数据的收集通常会导致隐私问题。联合学习已被广泛使用,被认为是一种有效的分散技术,通过协作学习共享的预测模型,同时将数据保留在不同客户端设备上。但是,客户设备上有限的计算和通信资源给大型模型带来了实际困难。为了克服此类挑战,我们建议联合修剪以在联合环境下训练还原模型,同时与完整模型相比保持相似的性能。此外,与集中式培训相比,还可以利用大量客户数据来改善修剪结果。我们探索不同的修剪方案,并提供了我们方法有效性的经验证据。
translated by 谷歌翻译
联合学习是一种强大的分布式学习方案,它允许许多边缘设备在不共享数据的情况下协作训练模型。但是,培训是边缘设备的资源密集型,而有限的网络带宽通常是主要的瓶颈。先前的工作通常通过将模型或消息凝结成紧凑的格式(例如,通过梯度压缩或蒸馏)来克服约束。相比之下,我们提出了Progfered,这是第一个渐进式培训框架,用于有效有效的联盟学习。它固有地降低了计算和双向通信成本,同时保持最终模型的强劲性能。从理论上讲,我们证明了渐进式的渐近率与完整模型上的标准培训相同。在包括CNN(VGG,Resnet,Convnets)和U-Nets在内的广泛体系结构以及从简单分类到医疗图像细分的各种任务的广泛结果表明,我们的高效培训方法可节省高达$ 20 \%的计算至$ 63 \%$ $汇聚型号的通信成本。由于我们的方法也与先前的压缩工作相称,因此我们可以通过结合这些技术来实现广泛的权衡,显示出最高$ 50 \ times $的通信仅为$ 0.1 \%\%$ $ $ $。代码可从https://github.com/a514514772/progfed获得。
translated by 谷歌翻译
最近联合学习(FL)范式的潜在假设是本地模型通常与全局模型共享与全局模型相同的网络架构,这对于具有不同的硬件和基础架构的移动和IOT设备变得不切实际。可扩展的联合学习框架应该解决配备不同计算和通信功能的异构客户端。为此,本文提出了一种新的联合模型压缩框架,它将异构低级模型分配给客户端,然后将它们聚合到全局全级模型中。我们的解决方案使得能够培训具有不同计算复杂性的异构本地模型,并汇总单个全局模型。此外,FEDHM不仅降低了设备的计算复杂性,而且还通过使用低秩模型来降低通信成本。广泛的实验结果表明,我们提出的\ System在测试顶-1精度(平均精度4.6%的精度增益)方面优于现行修剪的液体方法,在各种异构流域下较小的型号尺寸(平均较小为1.5倍) 。
translated by 谷歌翻译
分布式深度学习框架,如联合学习(FL)及其变体都是在广泛的Web客户端和移动/ IOT设备上实现个性化体验。然而,由于模型参数的爆炸增长(例如,十亿参数模型),基于FL的框架受到客户的计算资源的限制。拆分学习(SL),最近的框架,通过拆分客户端和服务器之间的模型培训来减少客户端计算负载。这种灵活性对于低计算设置非常有用,但通常以带宽消耗的增加成本而实现,并且可能导致次优化会聚,尤其是当客户数据异构时。在这项工作中,我们介绍了adasplit,通过降低带宽消耗并提高异构客户端的性能,使得能够将SL有效地缩放到低资源场景。为了捕获和基准的分布式深度学习的多维性质,我们还介绍了C3分数,是评估资源预算下的性能。我们通过与强大联邦和分裂学习基线的大量实验比较进行了大量实验比较,验证了adasplit在有限的资源下的有效性。我们还展示了adasplit中关键设计选择的敏感性分析,该选择验证了adasplit在可变资源预算中提供适应性权衡的能力。
translated by 谷歌翻译
联邦学习(FL)最近由于其在保留隐私而使用分散数据的能力,最近引起了人们的关注。但是,这也提出了与参与设备的异质性有关的其他挑战,无论是在其计算能力和贡献数据方面。同时,神经体系结构搜索(NAS)已成功用于集中式数据集,从而产生了最新的结果,从而获得了受限(硬件意识)和不受约束的设置。但是,即使是在NAS和FL的交集的最新工作,也假定了与数据中心硬件的均匀计算环境,并且无法解决使用受约束,异质设备的问题。结果,在联合环境中对NAS的实际用法仍然是我们在工作中解决的一个空旷的问题。我们设计我们的系统Fedoras,在处理具有非IID分布数据的不同功能的设备时发现和培训有希望的体系结构,并提供了其在不同环境中有效性的经验证据。具体而言,我们在跨越三种不同模式(视觉,语音,文本)的数据集中评估了Fedoras,并且与最先进的联合解决方案相比,其性能更好,同时保持资源效率。
translated by 谷歌翻译
为了保留用户隐私,在实现移动智能的同时,已经提出了技术来培训有关分散数据的深神经网络。但是,对分散数据的培训使神经体系结构的设计非常困难。在设计和部署异质移​​动平台的不同神经体系结构时,这种困难将进一步扩大。在这项工作中,我们提出了一个自动的神经体系结构搜索,以分散的培训,这是一种新的DNN培训范式,称为联合神经建筑搜索,即Federated Nas。为了应对有限的客户计算和通信资源的主要挑战,我们提出了FedNAS,这是一个高度优化的有效联合NAS的框架。 FedNAS充分利用了在建筑搜索过程中重新训练模型候选人不足的关键机会,并结合了三个关键的优化:对偏见客户培训的平行候选人,早期降低了较不优点的候选人和动态的回合数。在大规模数据集和典型的CNN体​​系结构上测试,FedNAS可以达到可比较的模型精度作为最先进的NAS NAS算法,该算法训练具有集中式数据的模型,并且与直接的直线相比,最多将客户成本降低了两个幅度。联邦NAS的设计。
translated by 谷歌翻译
联邦学习(FL)一直在不同的ML任务中获得显着的牵引力,从视野到键盘预测。在大规模的部署中,客户异质性是一个事实,并构成公平,培训性能和准确性的主要问题。虽然已经进行了统计数据异质性的重大努力,但是作为系统异质性称为客户端的处理能力和网络带宽的多样性仍然很大程度上是未开发的。当前解决方案无论是忽略大部分可用的设备,也无限制地设定均匀限制,由最低能力的参与者限制。在这项工作中,我们介绍了有序的辍学,这是一种机制,实现了深度神经网络(DNN)中的有序,嵌套的知识表示,并且能够在不需要再培训的情况下提取较低的脚印子模型。我们进一步表明,对于线性地图,我们的订购辍学等同于SVD。我们采用这种技术,以及一种自蒸馏方法,在一个叫做峡湾的框架中。 Fjord通过将模型宽度定制到客户端的功能来减轻客户体系异质性的问题。在各种方式上对CNN和RNN的广泛评估表明,峡湾始终如一地导致最先进的基线的显着性能,同时保持其嵌套结构。
translated by 谷歌翻译
在实用的联合学习方案中,参与的设备可能具有不同的位宽,用于按设计进行计算和内存存储。然而,尽管设备异构联合学习方案取得了进展,但硬件中位于位的比值的异质性大多被忽略了。我们介绍了一种务实的FL场景,在参与设备中具有位于刻度的异质性,被称为Bitwidth异质联邦学习(BHFL)。 BHFL提出了一个新的挑战,即具有不同位宽度的模型参数的聚合可能会导致严重的性能变性,尤其是对于高含宽模型。为了解决这个问题,我们提出了ProWD框架,该框架在中央服务器上具有可训练的权重去除剂,该框架逐渐将低位宽度的重量重建为更高的位宽度重量,最后将其重建为完整的重量。 PROWD进一步选择性地汇总了模型参数,以最大程度地提高跨比异质权重的兼容性。我们使用具有不同位低的客户端在基准数据集上的相关FL基准验证了Prowd。我们的prowd在很大程度上优于基线FL算法以及在拟议的BHFL方案下的天真方法(例如,平均分组)。
translated by 谷歌翻译
联合学习仅通过将本地模型更新传输到中央服务器来减轻分布式学习的隐私风险。但是,它面临着挑战,包括客户数据集的统计异质性以及客户设备的资源限制,这严重影响了培训性能和用户体验。先前的工作通过将个性化与模型压缩方案结合起来解决了这些挑战,包括量化和修剪。但是,修剪是数据依赖性的,因此必须在客户端进行,这需要相当大的计算成本。此外,修剪通常会在\ {0,1 \} $中训练二进制超级卸义$ \,这显着限制了模型容量,但没有计算益处。因此,培训需要高计算成本,并且需要很长时间才能收敛,而模型性能则没有回报。在这项工作中,我们提出了Hidenseek,该HIDENSEK在初始化时采用单次数据不合稳定的修剪来获得基于权重的突触显着性的子网。然后,每个客户端优化了\ { - 1,+1 \} $乘以未经修复的权重的标志Super-Mask $ \,以允许更快的收敛速度与最先进的压缩率相同。三个数据集的经验结果表明,与最先进的hidenseek相比,Hidenseek将推论精度提高了40.6 \%,同时将沟通成本和培训时间分别降低了39.7 \%和46.8%。
translated by 谷歌翻译
深度神经网络(DNN)在解决许多真实问题方面都有效。较大的DNN模型通常表现出更好的质量(例如,精度,精度),但它们的过度计算会导致长期推理时间。模型稀疏可以降低计算和内存成本,同时保持模型质量。大多数现有的稀疏算法是单向移除的重量,而其他人则随机或贪婪地探索每层进行修剪的小权重子集。这些算法的局限性降低了可实现的稀疏性水平。此外,许多算法仍然需要预先训练的密集模型,因此遭受大的内存占地面积。在本文中,我们提出了一种新颖的预定生长和修剪(间隙)方法,而无需预先培训密集模型。它通过反复生长一个层次的层来解决以前的作品的缺点,然后在一些训练后修剪回到稀疏。实验表明,使用所提出的方法修剪模型匹配或击败高度优化的密集模型的质量,在各种任务中以80%的稀疏度,例如图像分类,客观检测,3D对象分段和翻译。它们还优于模型稀疏的其他最先进的(SOTA)方法。作为一个例子,通过间隙获得的90%不均匀的稀疏resnet-50模型在想象中实现了77.9%的前1个精度,提高了先前的SOTA结果1.5%。所有代码将公开发布。
translated by 谷歌翻译
Federated learning (FL) on deep neural networks facilitates new applications at the edge, especially for wearable and Internet-of-Thing devices. Such devices capture a large and diverse amount of data, but they have memory, compute, power, and connectivity constraints which hinder their participation in FL. We propose Centaur, a multitier FL framework, enabling ultra-constrained devices to efficiently participate in FL on large neural nets. Centaur combines two major ideas: (i) a data selection scheme to choose a portion of samples that accelerates the learning, and (ii) a partition-based training algorithm that integrates both constrained and powerful devices owned by the same user. Evaluations, on four benchmark neural nets and three datasets, show that Centaur gains ~10% higher accuracy than local training on constrained devices with ~58% energy saving on average. Our experimental results also demonstrate the superior efficiency of Centaur when dealing with imbalanced data, client participation heterogeneity, and various network connection probabilities.
translated by 谷歌翻译
Many applications require sparse neural networks due to space or inference time restrictions. There is a large body of work on training dense networks to yield sparse networks for inference, but this limits the size of the largest trainable sparse model to that of the largest trainable dense model. In this paper we introduce a method to train sparse neural networks with a fixed parameter count and a fixed computational cost throughout training, without sacrificing accuracy relative to existing dense-tosparse training methods. Our method updates the topology of the sparse network during training by using parameter magnitudes and infrequent gradient calculations. We show that this approach requires fewer floating-point operations (FLOPs) to achieve a given level of accuracy compared to prior techniques. We demonstrate state-of-the-art sparse training results on a variety of networks and datasets, including ResNet-50, MobileNets on Imagenet-2012, and RNNs on WikiText-103. Finally, we provide some insights into why allowing the topology to change during the optimization can overcome local minima encountered when the topology remains static * .
translated by 谷歌翻译
联合学习的一个关键挑战是客户之间的数据异质性和失衡,这导致本地网络与全球模型不稳定的融合之间的不一致。为了减轻局限性,我们提出了一种新颖的建筑正则化技术,该技术通过在几个不同级别上接管本地和全球子网,在每个本地模型中构建多个辅助分支通过在线知识蒸馏。该提出的技术即使在非IID环境中也可以有效地鲁棒化,并且适用于各种联合学习框架,而不会产生额外的沟通成本。与现有方法相比,我们进行了全面的经验研究,并在准确性和效率方面表现出显着的性能提高。源代码可在我们的项目页面上找到。
translated by 谷歌翻译
新兴的边缘情报应用程序要求服务器重新训练和更新部署在远程边缘节点上的深神经网络,以利用新收集的数据示例。不幸的是,由于高度严格的通信资源,在实践中可能不可能连续向这些边缘节点发送全面更新的权重。在本文中,我们提出了重量的深层部分更新范式,该范式巧妙地选择了一小部分权重以在每个服务器到边缘通信中进行更新,同时与完整更新相比实现了相似的性能。我们的方法是通过分析上限的部分更新和完整更新之间的损失差异来建立的,并且只能更新权重,从而对上限产生最大的贡献。广泛的实验结果证明了我们部分更新方法的功效,该方法在更新少量的权重的同时,可以达到高推理精度。
translated by 谷歌翻译