本地监督的学习旨在根据网络每个解耦模块的全局损耗函数的局部估计来训练神经网络。通常将辅助网络附加到模块上,以根据贪婪的本地损失近似梯度更新。尽管在平行性和减少记忆消耗方面是有利的,但这种训练的范式严重降低了神经网络的概括性能。在本文中,我们建议定期指导本地学习(PGL),该学习将全球客观重复地重复地重复纳入基于局部损坏的神经网络的培训,主要是增强模型的概括能力。我们表明,一个简单的周期性指导方案在记忆范围低的同时会带来显着的性能增长。我们在各种数据集和网络上进行了广泛的实验,以证明PGL的有效性,尤其是在具有许多解耦模块的配置中。
translated by 谷歌翻译
近年来,最先进神经网络的参数的数量急剧增加。这种对大规模神经网络感兴趣的激增具有促使新的分布式培训策略的发展,从而实现了这种模型。一种这样的策略是模型平行分布式培训。不幸的是,模型 - 并行性遭受资源利用率差,导致资源浪费。在这项工作中,我们改进了最近的理想化模型 - 并行优化设置:本地学习。由于资源利用率差,我们在当地和全球学习之间介绍了一类中介战略,称为联锁反向化。这些策略保留了本地优化的许多计算效率优势,同时恢复全球优化实现的大部分任务性能。我们评估了我们对图像分类的策略和变压器语言模型,发现我们的策略一致地在任务绩效方面出现本地学习,并在培训效率方面进行全球学习。
translated by 谷歌翻译
基于梯度的残差训练的方法(RESNET)通常需要输入数据的前进通过,然后将误差梯度反向传播到更新模型参数,这变得耗费网络变得更深。为了破坏前向和向后模式的算法锁定和利用同步模块并行性,辅助变量方法最近吸引了很多兴趣,但遭受了重大的沟通开销和缺乏数据增强。在这项工作中,通过交易外部辅助变量的存储和重新计算,建立了一种用于跨多个计算设备训练现实Resnet的新颖联合学习框架。更具体地,每个独立处理器的输入数据是从其低容量辅助网络(AUXNET)生成的,这允许使用数据增强并实现前向解锁。然后并行地执行后向通过,每个丢失函数源自惩罚或增强拉格朗日(AL)方法。最后,采用所提出的AUXNET通过端到端培训过程重现更新的辅助变量。我们展示了我们在CIFAR-10,CIFAR-100和Imagenet数据集中展示了我们对RESNET和WIMERESNET的效果,实现了传统的层串行训练方法的加速,同时保持了可比的测试精度。
translated by 谷歌翻译
Transformers are becoming increasingly popular due to their superior performance over conventional convolutional neural networks(CNNs). However, transformers usually require a much larger amount of memory to train than CNNs, which prevents their application in many low resource settings. Local learning, which divides the network into several distinct modules and trains them individually, is a promising alternative to the end-to-end (E2E) training approach to reduce the amount of memory for training and to increase parallelism. This paper is the first to apply Local Learning on transformers for this purpose. The standard CNN-based local learning method, InfoPro [32], reconstructs the input images for each module in a CNN. However, reconstructing the entire image does not generalize well. In this paper, we propose a new mechanism for each local module, where instead of reconstructing the entire image, we reconstruct its input features, generated from previous modules. We evaluate our approach on 4 commonly used datasets and 3 commonly used decoder structures on Swin-Tiny. The experiments show that our approach outperforms InfoPro-Transformer, the InfoPro with Transfomer backbone we introduced, by at up to 0.58% on CIFAR-10, CIFAR-100, STL-10 and SVHN datasets, while using up to 12% less memory. Compared to the E2E approach, we require 36% less GPU memory when the network is divided into 2 modules and 45% less GPU memory when the network is divided into 4 modules.
translated by 谷歌翻译
该教程论文调查端到端反向传播(E2EBP)的最佳替代方案 - 事实上的培训深度体系结构的标准。模块化训练是指严格的本地培训,而没有前进和向后通行证,即将深度建筑分为几个非重叠模块,并在没有任何端到端操作的情况下分别训练它们。在全局E2EBP和严格的局部模块化训练之间,有弱模块化的混合动力车执行训练,而无需向后传球。这些替代方案可以匹配或超过E2EBP在挑战数据集(例如ImageNet)上的性能,并且主要是因为它们比E2EBP具有实际优势,这将在此列举。特别是,它们允许在深度学习工作流程中具有更大的模块化和透明度,将深度学习与主流计算机科学工程的一致性一致,从而大大利用模块化以实现可扩展性。模块化训练还揭示了有关学习的新见解,并对其他重要的研究领域产生了进一步的影响。具体而言,它可以诱导自然和有效的解决方案,以解决一些重要的实际问题,例如数据效率和可转让性估计。
translated by 谷歌翻译
The error Backpropagation algorithm (BP) is a key method for training deep neural networks. While performant, it is also resource-demanding in terms of computation, memory usage and energy. This makes it unsuitable for online learning on edge devices that require a high processing rate and low energy consumption. More importantly, BP does not take advantage of the parallelism and local characteristics offered by dedicated neural processors. There is therefore a demand for alternative algorithms to BP that could improve the latency, memory requirements, and energy footprint of neural networks on hardware. In this work, we propose a novel method based on Direct Feedback Alignment (DFA) which uses Forward-Mode Automatic Differentiation to estimate backpropagation paths and learn feedback connections in an online manner. We experimentally show that Directional DFA achieves performances that are closer to BP than other feedback methods on several benchmark datasets and architectures while benefiting from the locality and parallelization characteristics of DFA. Moreover, we show that, unlike other feedback learning algorithms, our method provides stable learning for convolution layers.
translated by 谷歌翻译
模型二进制化是一种压缩神经网络并加速其推理过程的有效方法。但是,1位模型和32位模型之间仍然存在显着的性能差距。实证研究表明,二进制会导致前进和向后传播中的信息损失。我们提出了一个新颖的分布敏感信息保留网络(DIR-NET),该网络通过改善内部传播和引入外部表示,将信息保留在前后传播中。 DIR-NET主要取决于三个技术贡献:(1)最大化二进制(IMB)的信息:最小化信息损失和通过重量平衡和标准化同时同时使用权重/激活的二进制误差; (2)分布敏感的两阶段估计器(DTE):通过共同考虑更新能力和准确的梯度来通过分配敏感的软近似来保留梯度的信息; (3)代表性二进制 - 意识蒸馏(RBD):通过提炼完整精确和二元化网络之间的表示来保留表示信息。 DIR-NET从统一信息的角度研究了BNN的前进过程和后退过程,从而提供了对网络二进制机制的新见解。我们的DIR-NET中的三种技术具有多功能性和有效性,可以在各种结构中应用以改善BNN。关于图像分类和客观检测任务的综合实验表明,我们的DIR-NET始终优于主流和紧凑型体系结构(例如Resnet,vgg,vgg,EfficityNet,darts和mobilenet)下最新的二进制方法。此外,我们在现实世界中的资源有限设备上执行DIR-NET,该设备可实现11.1倍的存储空间和5.4倍的速度。
translated by 谷歌翻译
最近对反向传播的近似(BP)减轻了BP的许多计算效率低下和与生物学的不兼容性,但仍然存在重要的局限性。此外,近似值显着降低了基准的准确性,这表明完全不同的方法可能更富有成果。在这里,基于在软冠军全网络中Hebbian学习的最新理论基础上,我们介绍了多层softhebb,即一种训练深神经网络的算法,没有任何反馈,目标或错误信号。结果,它通过避免重量传输,非本地可塑性,层更新的时间锁定,迭代平衡以及(自我)监督或其他反馈信号来实现效率,这在其他方法中是必不可少的。与最先进的生物学知识学习相比,它提高的效率和生物兼容性不能取得准确性的折衷,而是改善了准确性。 MNIST,CIFAR-10,STL-10和IMAGENET上最多五个隐藏层和添加的线性分类器,分别达到99.4%,80.3%,76.2%和27.3%。总之,SOFTHEBB显示出与BP的截然不同的方法,即对几层的深度学习在大脑中可能是合理的,并提高了生物学上的机器学习的准确性。
translated by 谷歌翻译
为了在具有快速收敛和低内存的边缘设备上学习,我们提出了一种新型的无反向传播优化算法,称为目标投影投影随机梯度下降(TPSGD)。 TPSGD将直接的随机目标投影概括为使用任意损失函数,并扩展训练复发性神经网络(RNN)的目标投影,此外还有其他损失函数。 TPSGD使用层的随机梯度下降(SGD)和通过标签的随机投影生成的局部目标来训练网络逐层,仅通过正向传递。 TPSGD在优化过程中不需要保留梯度,与SGD反向传播(BP)方法相比,记忆分配大大降低了,这些方法需要整个神经网络权重,输入/输出和中间结果的多个实例。我们的方法在相对较浅的层,卷积层和经常性层的相对较浅的网络上,在5%的精度内的BP梯度降低性能相当。 TPSGD还胜过由多层感知器,卷积神经网络(CNN)和RNN组成的浅层模型中的其他最先进的无梯度算法,具有竞争力准确性,记忆力和时间更少。我们评估TPSGD在训练深神经网络(例如VGG)中的性能,并将方法扩展到多层RNN。这些实验突出了与使用TPSGD在边缘的TPSGD进行域转移的优化基于层的适配器训练有关的新研究方向。
translated by 谷歌翻译
Deep neural networks have long training and processing times. Early exits added to neural networks allow the network to make early predictions using intermediate activations in the network in time-sensitive applications. However, early exits increase the training time of the neural networks. We introduce QuickNets: a novel cascaded training algorithm for faster training of neural networks. QuickNets are trained in a layer-wise manner such that each successive layer is only trained on samples that could not be correctly classified by the previous layers. We demonstrate that QuickNets can dynamically distribute learning and have a reduced training cost and inference cost compared to standard Backpropagation. Additionally, we introduce commitment layers that significantly improve the early exits by identifying for over-confident predictions and demonstrate its success.
translated by 谷歌翻译
人工神经网络中的监督学习通常依赖于反向传播,其中权重根据误差函数梯度进行更新,并从输出层到输入层依次传播。尽管这种方法已被证明在广泛的应用领域有效,但在许多方面缺乏生物学上的合理性,包括重量对称问题,学习对非本地信号的依赖性,错误传播期间的神经活动的冻结以及更新锁定的冻结问题。已经引入了替代培训计划,包括标志对称性,反馈对准和直接反馈对准,但它们总是依靠向后传球,这阻碍了同时解决所有问题的可能性。在这里,我们建议用第二个正向通行证替换向后通行证,其中根据网络的误差调制输入信号。我们表明,这项新颖的学习规则全面解决了上述所有问题,并且可以应用于完全连接和卷积模型。我们测试了有关MNIST,CIFAR-10和CIFAR-100的学习规则。这些结果有助于将生物学原理纳入机器学习。
translated by 谷歌翻译
深度神经网络(DNN)模型通常是从​​一层到另一层的依次训练的,这会导致向前,向后和更新锁定的问题,从而导致训练时间的性能差。减轻这些问题的现有并行策略提供了次优的运行时性能。在这项工作中,我们提出了一种新颖的层面分区和合并,向前和向后通过并行框架,以提供更好的训练性能。拟议工作的新颖性包括1)层面分区和合并模型,该模型可以最大程度地降低设备之间的通信开销,而不会在培训过程中没有现有策略的记忆成本; 2)向后通过和向后通过并行化和优化,以解决更新锁定问题并最大程度地减少总培训成本。对实际用例的实验评估表明,所提出的方法在训练速度方面优于最先进的方法。并在不损害非平行方法的准确性性能的情况下实现几乎线性加速。
translated by 谷歌翻译
Learning deeper convolutional neural networks becomes a tendency in recent years. However, many empirical evidences suggest that performance improvement cannot be gained by simply stacking more layers. In this paper, we consider the issue from an information theoretical perspective, and propose a novel method Relay Backpropagation, that encourages the propagation of effective information through the network in training stage. By virtue of the method, we achieved the first place in ILSVRC 2015 Scene Classification Challenge. Extensive experiments on two challenging large scale datasets demonstrate the effectiveness of our method is not restricted to a specific dataset or network architecture. Our models will be available to the research community later.
translated by 谷歌翻译
深度学习在广泛的AI应用方面取得了有希望的结果。较大的数据集和模型一致地产生更好的性能。但是,我们一般花费更长的培训时间,以更多的计算和沟通。在本调查中,我们的目标是在模型精度和模型效率方面提供关于大规模深度学习优化的清晰草图。我们调查最常用于优化的算法,详细阐述了大批量培训中出现的泛化差距的可辩论主题,并审查了解决通信开销并减少内存足迹的SOTA策略。
translated by 谷歌翻译
联合学习的一个关键挑战是客户之间的数据异质性和失衡,这导致本地网络与全球模型不稳定的融合之间的不一致。为了减轻局限性,我们提出了一种新颖的建筑正则化技术,该技术通过在几个不同级别上接管本地和全球子网,在每个本地模型中构建多个辅助分支通过在线知识蒸馏。该提出的技术即使在非IID环境中也可以有效地鲁棒化,并且适用于各种联合学习框架,而不会产生额外的沟通成本。与现有方法相比,我们进行了全面的经验研究,并在准确性和效率方面表现出显着的性能提高。源代码可在我们的项目页面上找到。
translated by 谷歌翻译
培训广泛和深度神经网络(DNN)需要大量的存储资源,例如内存,因为在转发传播期间必须在存储器中保存中间激活数据,然后恢复以便向后传播。然而,由于硬件设计约束,诸如GPU之类的最先进的加速器(例如GPU)仅配备了非常有限的存储容量,这显着限制了在训练大规模DNN时的最大批量大小和性能加速。传统的记忆保存技术均受性能开销或受限互连带宽或特定互连技术的约束。在本文中,我们提出了一种新颖的记忆高效的CNN训练框架(称为Comet),利用错误界限的损耗压缩来显着降低训练的内存要求,以允许培训更大的模型或加速培训。不同于采用基于图像的有损压缩机(例如JPEG)的最先进的解决方案来压缩激活数据,我们的框架故意采用严格的错误控制机制来采用错误界限的损耗压缩。具体而言,我们对从改变的激活数据传播到梯度的压缩误差传播的理论分析,并经验探讨改变梯度对训练过程的影响。基于这些分析,我们优化了误报的损耗压缩,并提出了一种用于激活数据压缩的自适应误差控制方案。我们评估我们对最先进的解决方案的设计,其中包含五个广泛采用的CNN和Imagenet DataSet。实验表明,我们所提出的框架可以在基线训练中显着降低13.5倍,并分别在另一个最先进的基于压缩框架上的1.8倍,几乎没有准确性损失。
translated by 谷歌翻译
混合精确的深神经网络达到了硬件部署所需的能源效率和吞吐量,尤其是在资源有限的情况下,而无需牺牲准确性。但是,不容易找到保留精度的最佳每层钻头精度,尤其是在创建巨大搜索空间的大量模型,数据集和量化技术中。为了解决这一困难,最近出现了一系列文献,并且已经提出了一些实现有希望的准确性结果的框架。在本文中,我们首先总结了文献中通常使用的量化技术。然后,我们对混合精液框架进行了彻底的调查,该调查是根据其优化技术进行分类的,例如增强学习和量化技术,例如确定性舍入。此外,讨论了每个框架的优势和缺点,我们在其中呈现并列。我们最终为未来的混合精液框架提供了指南。
translated by 谷歌翻译
组织病理学全幻灯片图像(WSIS)在临床研究中起着非常重要的作用,并作为许多癌症诊断的黄金标准。但是,由于其巨大尺寸,生成用于处理WSIS的自动工具是具有挑战性的。当前,为了解决这个问题,传统方法依靠多个实例学习(MIL)策略来处理贴剂级别的WSI。尽管有效,但这种方法在计算上很昂贵,因为将WSI整理成斑块需要时间,并且不探索这些瓷砖之间的空间关系。为了解决这些限制,我们提出了一个本地监督的学习框架,该框架通过探索包含的整个本地和全球信息来处理整个幻灯片。该框架将预训练的网络划分为几个模块,并使用辅助模型在本地优化每个模块。我们还引入了一个随机特征重建单元(RFR),以在训练过程中保留区分特征,并将方法的性能提高1%至3%。对三个公开可用的WSI数据集进行了广泛的实验:TCGA-NSCLC,TCGA-RCC和LKS,突出了我们方法在不同分类任务上的优越性。我们的方法的准确性优于最先进的MIL方法,而高7至10倍。此外,将其分为八个模块时,我们的方法需要端到端培训所需的GPU总内存总数的20%。我们的代码可从https://github.com/cvlab-stonybrook/local_learning_wsi获得。
translated by 谷歌翻译
展开的神经网络最近实现了最先进的MRI重建。这些网络通过在基于物理的一致性和基于神经网络的正则化之间交替来展开迭代优化算法。但是,它们需要大型神经网络的几次迭代来处理高维成像任务,例如3D MRI。这限制了基于反向传播的传统训练算法,这是由于较大的记忆力和计算梯度和存储中间激活的计算要求。为了应对这一挑战,我们提出了加速MRI(GLEAM)重建的贪婪学习,这是一种高维成像设置的有效培训策略。 GLEAM将端到端网络拆分为脱钩的网络模块。每个模块都以贪婪的方式优化,并通过脱钩的梯度更新,从而减少了训练过程中的内存足迹。我们表明,可以在多个图形处理单元(GPU)上并行执行解耦梯度更新,以进一步减少训练时间。我们介绍了2D和3D数据集的实验,包括多线圈膝,大脑和动态心脏Cine MRI。我们观察到:i)闪闪发光的概括以及最先进的记忆效率基线,例如具有相同内存足迹的梯度检查点和可逆网络,但训练速度更快1.3倍; ii)对于相同的内存足迹,闪光在2D中产生1.1dB PSNR的增益,而3D在端到端基线中产生1.8 dB。
translated by 谷歌翻译
胶囊网络是一类神经网络,可在许多计算机视觉任务上取得有希望的结果。但是,由于高计算和内存要求,基线胶囊网络未能在更复杂的数据集上达到最新结果。我们通过提出一种称为动量胶囊网络(Mocapsnet)的新网络体系结构来解决这个问题。Mocapsnets的灵感来自动量Resnets,这是一种应用可逆残留构建块的网络。可逆的网络允许重新计算后反向传播算法中正向通行的激活,因此可以大大减少这些内存要求。在本文中,我们提供了一个框架,介绍如何将可逆的残留构建块应用于胶囊网络。我们将证明Mocapsnet在MNIST,SVHN,CIFAR-10和CIFAR-100上击败基线胶囊网络的准确性,同时使用的内存较少。源代码可在https://github.com/moejoe95/mocapsnet上找到。
translated by 谷歌翻译