基于深度卷积神经网络(DCNN)的监督学习是用于大规模图像分类的广泛实践的方法。然而,重新训练这些大型网络以适应新的,先前未见过的数据需求,需要高计算时间和能量。此外,在重新训练时可能无法获得先前的训练样本。我们提出了有效的培训方法,并逐步增加DCNN,以便在共享部分基础网络的同时学习新类。我们提出的方法学受到转移学习技术的启发,尽管它没有忘记以前学过的课程。使用先前学习的卷积层(从基础网络的初始部分共享)以及在网络的后面层中包括的少量新添加的卷积核来形成用于学习新类集的更新网络。我们评估了几个识别应用的建议方案。通过我们的方法实现的分类准确性与常规增量学习方法相当(其中网络仅使用新的训练样本进行更新,无需任何网络共享)。
translated by 谷歌翻译
我们提出双嵌套网络(DNNet),其中所有神经元代表他们的ownsub模型,解决相同的任务。每个子模型都是按层和通道嵌套的。虽然在层次上嵌套子模型是直接的,但正如{xie2015holistically}中所提出的那样,在文献中没有探索渠道智能化。通道智能嵌套是非平凡的,因为它们之间是神经元。连续层都相互连接。在这项工作中,我们引入了一种技术来解决这个问题,通过拓扑排序通道并相应地连接神经元。为此目的,使用通道因果卷积。切片双层嵌套网络提供了一个有效的子网络。我们提出的具有切片操作的网络结构的最值得注意的应用是资源有效的参考。在测试时,诸如可用于运行预测算法的时间和存储器的计算资源可以在设备和应用之间显着变化。考虑到预算约束,我们可以相应地对网络进行切片,并在预算范围内使用子模型进行推理,无需额外的计算,例如部署后的培训或微调。我们在有效利用可用资源的几种实际场景中证明了我们的方法的有效性。
translated by 谷歌翻译
先驱深度神经网络(DNN)已经出现更深或更广,以提高其在人工智能的各种应用中的准确性。然而,DNN通常太重而无法在实践中部署,并且通常需要在给定计算资源预算(即,任何时间预测)的情况下动态地控制其架构。虽然大多数现有方法都侧重于共同训练多个浅子网络,但我们研究的是子网络的训练。为此,我们首先在现有的多分支DNN的微小修改下构建了许多包容性的thinsub网络(具有相同的深度),并发现它们可以明显优于现有技术的密集架构,以便随时进行预测。这对于他们的简单性和有效性来说是非常了不起的,但是培训许多瘦弱的子网络共同面临着培训复杂性的新挑战。为了解决这个问题,我们还提出了一种新的DNN架构,通过在多分支网络参数上强制使用某种稀疏模式,使它们能够有效地进行训练,以便随时进行预测。在我们对ImageNet数据集的实验中,itssub-networks与最先进的任何时间模型相比,相对于相同的精度,其最小尺寸(FLOP)高达$ 43.3 \%$。最后,我们还使用分层分类法在建议的体系结构下提出了一个替代任务,这为任何时间预测带来了新的视角。
translated by 谷歌翻译
We introduce collaborative learning in which multiple classifier heads of thesame network are simultaneously trained on the same training data to improvegeneralization and robustness to label noise with no extra inference cost. Itacquires the strengths from auxiliary training, multi-task learning andknowledge distillation. There are two important mechanisms involved incollaborative learning. First, the consensus of multiple views from differentclassifier heads on the same example provides supplementary information as wellas regularization to each classifier, thereby improving generalization. Second,intermediate-level representation (ILR) sharing with backpropagation rescalingaggregates the gradient flows from all heads, which not only reduces trainingcomputational complexity, but also facilitates supervision to the sharedlayers. The empirical results on CIFAR and ImageNet datasets demonstrate thatdeep neural networks learned as a group in a collaborative way significantlyreduce the generalization error and increase the robustness to label noise.
translated by 谷歌翻译
Deep neural networks are increasingly used on mobile devices, where computational resources are limited. In this paper we develop CondenseNet, a novel network architecture with unprecedented efficiency. It combines dense con-nectivity with a novel module called learned group convo-lution. The dense connectivity facilitates feature re-use in the network, whereas learned group convolutions remove connections between layers for which this feature re-use is superfluous. At test time, our model can be implemented using standard group convolutions, allowing for efficient computation in practice. Our experiments show that Con-denseNets are far more efficient than state-of-the-art compact convolutional networks such as ShuffleNets.
translated by 谷歌翻译
This paper studies convolutional networks that require limited computational resources at test time. We develop a new network architecture that performs on par with state-of-the-art convo-lutional networks, whilst facilitating prediction in two settings: (1) an anytime-prediction setting in which the network's prediction for one example is progressively updated, facilitating the output of a prediction at any time; and (2) a batch computational budget setting in which a fixed amount of computation is available to classify a set of examples that can be spent unevenly across "easier" and "harder" examples. Our network architecture uses multi-scale convo-lutions and progressively growing feature representations , which allows for the training of multiple classifiers at intermediate layers of the network. Experiments on three image-classification datasets demonstrate the efficacy of our architecture , in particular, when measured in terms of classification accuracy as a function of the amount of compute available.
translated by 谷歌翻译
由于观察到人类可以同时从两个给定的图像中学习模式,我们在本文中提出了一种双模式学习网络架构。与传统网络不同,所提出的架构具有两个输入分支和两个损耗函数。不是最小化给定数据集的经验风险,而是通过最小化经验双预测损失来训练双模式学习网络。我们证明这可以提高单个图像分类的性能。这种架构通过分析和比较两个inputimages,迫使网络学习一种特定于类的特定功能。此外,双输入结构允许网络具有相当大量的图像对,这有助于解决由于有限的训练数据导致的过度拟合问题。此外,我们建议将每个输入分支与随机兴趣值相关联,以便在训练期间学习相应的图像。该方法可以看作是随机规范化技术,可以进一步提高泛化性能。最先进的深度网络可以适应双模式学习网络,而不会增加相同数量的参数。 CIFAR-10,CIFAR-100,FI-8,Google命令数据集和MNIST的广泛实验证明我们的DPLNets表现出比原始网络更好的性能。对CIFAR-10,CIFAR-100和MNIST子集的实验结果表明双模式学习网络在小数据集上具有良好的泛化性能。
translated by 谷歌翻译
本文提出了一个有效的模块空间瓶颈,用于加速深度神经网络中的卷积层。核心思想是将卷积分解为两个阶段,首先减少特征映射的空间分辨率,然后将其恢复到所需的大小。这种操作降低了空间域中的采样密度,这与信道域中的网络加速方法无关,但又是互补的。使用不同的采样率,我们可以在识别准确度和模型复杂度之间进行权衡。作为基本构建块,空间瓶颈可用于替换单个卷积层或两个卷积层的组合。通过将其应用于深度剩余网络,我们通过空间瓶颈来验证空间瓶颈的有效性。空间瓶颈分别在常规和通道瓶颈残余块上实现2倍和1.4倍的加速,在识别低分辨率图像时保留了准确性,甚至在识别高分辨率图像方面得到了改进。
translated by 谷歌翻译
In this paper, we propose a Runtime Neural Pruning (RNP) framework which prunes the deep neural network dynamically at the runtime. Unlike existing neural pruning methods which produce a fixed pruned model for deployment, our method preserves the full ability of the original network and conducts pruning according to the input image and current feature maps adaptively. The pruning is performed in a bottom-up, layer-by-layer manner, which we model as a Markov decision process and use reinforcement learning for training. The agent judges the importance of each convolutional kernel and conducts channel-wise pruning conditioned on different samples, where the network is pruned more when the image is easier for the task. Since the ability of network is fully preserved, the balance point is easily adjustable according to the available resources. Our method can be applied to off-the-shelf network structures and reach a better tradeoff between speed and accuracy, especially with a large pruning rate.
translated by 谷歌翻译
虽然近年来深度学习方法由于最先进的结果而脱颖而出,但它们仍然遭受灾难性的遗忘,当新课程的培训增加时,整体表现急剧下降。这是由于当前的神经网络架构需要整个数据集,包括来自旧类和新类的所有样本,以更新模型 - 随着类的数量增长,这一要求变得容易不可持续。我们用ourapproach来解决这个问题,以增量方式学习深度神经网络,使用新数据,并且只使用与旧类中的样本相对应的小样本集。这是基于一种损失,包括一种蒸馏措施,以保留从旧类获得的知识,以及交叉熵损失,以学习新的类。我们实现了增量训练,同时保持整个框架的端到端,即共同学习数据表示和分类器,不像没有这种保证的最新方法。我们在CIFAR-100和ImageNet(ILSVRC 2012)图像分类数据集上广泛评估我们的方法,并展示最先进的性能。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的卷积神经网络(CNN)架构,用于学习多尺度特征表示,在速度和精度之间具有良好的交叉。这是通过使用多分支网络实现的,该分支网络在不同分支处具有不同的计算复杂度。通过在不同尺度上频繁合并来自分支的特征,我们的模型在使用较少计算的同时获得多尺度特征。所提出的方法使用流行的体系结构(包括ResNet和ResNeXt)证明了在对象识别和语音识别任务上模型效率和性能的提高。对于物体识别,我们的方法将物体识别的计算减少了33%,同时提高了0.9%的准确度。此外,我们的模型在精度和FLOP降低方面超过了最先进的CNN加速方法。在语音识别的任务上,我们提出的多尺度CNN可以节省30%的FLOP,并且具有更好的字错误率,显示出跨域的良好泛化。
translated by 谷歌翻译
It is desirable to train convolutional networks (CNNs) to run more efficiently during inference. In many cases however , the computational budget that the system has for inference cannot be known beforehand during training, or the inference budget is dependent on the changing real-time resource availability. Thus, it is inadequate to train just inference-efficient CNNs, whose inference costs are not adjustable and cannot adapt to varied inference budgets. We propose a novel approach for cost-adjustable inference in CNNs-Stochastic Downsampling Point (SDPoint). During training, SDPoint applies feature map downsampling to a random point in the layer hierarchy, with a random down-sampling ratio. The different stochastic downsampling configurations known as SDPoint instances (of the same model) have computational costs different from each other, while being trained to minimize the same prediction loss. Sharing network parameters across different instances provides significant regularization boost. During inference, one may handpick a SDPoint instance that best fits the inference budget. The effectiveness of SDPoint, as both a cost-adjustable inference approach and a regularizer, is validated through extensive experiments on image classification.
translated by 谷歌翻译
最近的工作表明,如果卷积网络包含靠近输入的层和靠近输出的层之间的较短连接,则卷积网络可以更加精确,更准确,更有效。在本文中,我们接受了这一观察,并介绍了密集卷积网络(DenseNet),它以前馈方式将每一层连接到每一层。传统的L层具有L层连接的卷积网络 - 每层与其后续层之间 - 我们的网络具有L(L + 1)/ 2个直接连接。对于每个图层,所有前面图层的要素图用作输入,并且其自己的要素图用作所有后续图层的输入。 DenseNets有几个引人注目的优点:它们可以缓解消失梯度问题,加强特征传播,鼓励特征重用,并大幅减少参数数量。我们在四个极具竞争力的对象识别基准任务(CIFAR-10,CIFAR-100,SVHN和ImageNet)上评估我们提出的架构.DenseNets在大多数情况下获得了对最新技术的重大改进,同时需要较少的计算来实现高性能。代码和预先训练的模型可从https://github.com/liuzhuang13/DenseNet获得。
translated by 谷歌翻译
神经网络在各种实际应用中的应用正在改变AI在实践中的应用方式。通过API提供的预训练神经网络模型或使用客户数据定​​制训练预构建的神经网络架构的能力使得开发人员对AI的消耗更加简单,并且导致这些复杂AI模型的广泛采用。虽然针对某些场景存在预构建的网络模型,但为了尝试满足每个应用程序独有的约束,AI团队需要关注开发自定义神经网络架构,以满足精度和内存占用之间的关系,以实现其独特用例的严格限制。然而,只有一小部分数据科学团队拥有从划痕创建神经网络所需的技能和经验,而且需求远远超过供应。在本文中,我们介绍了NeuNetS:一种用于自定义神经网络设计的自动化神经网络综合引擎,可作为IBM的OpenScale产品的一部分提供.NeuNetS可用于文本和图像域,并且可以在很短的时间内为特定任务构建神经网络今天需要humaneffort,并且精确度与人工设计的AI模型类似。
translated by 谷歌翻译
在许多现实世界应用中部署深度卷积神经网络(CNN)在很大程度上受到其高计算成本的阻碍。在本文中,我们提出了一种新的CNN学习方案,以同时1)减小模型大小; 2)减少运行时内存占用; 3)在不影响准确性的情况下,减少计算操作的次数。这是通过以简单有效的方式在网络中强制执行信道级稀疏性来实现的。与现有的许多方法不同,所提出的方法直接适用于现代CNN架构,为训练过程引入了最小的开销,并且对于所得到的模型不需要特殊的软件/硬件加速器。我们将我们的方法称为网络瘦身,它将广域网和大型网络作为输入模型,但在培训期间,无关紧要的通道会自动识别并在之后进行修剪,从而产生具有相当精度的薄且紧凑的模型。我们凭经验证明了我们的方法在几种最先进的CNN模型中的有效性,包括VGGNet,ResNet和DenseNet,以及各种图像分类数据集。对于VGGNet,网络瘦身的多次通过版本可使模型尺寸减少20倍,计算操作减少5倍。
translated by 谷歌翻译
深度卷积神经网络已经在各种任务中释放出了非凡的力量。然而,由于其高计算复杂性,将最先进的模型部署到实际应用程序中仍然非常具有挑战性。如何在没有大量实验和专业知识的情况下设计紧凑有效的网络?在本文中,我们提出了一种简单有效的框架,以端到端的方式学习和修剪深层模型。在我们的框架中,首先引入了一种新型参数 - 缩放因子,以对特定结构(如神经元,组或残余块)的输出进行toscale。然后我们在这些因素上加上稀疏正则化,并通过改进的随机加速近似梯度(APG)方法解决这个优化问题。通过强制将某些因子归零,我们可以安全地删除相应的结构,从而修剪CNN的不重要部分。与可能需要数千次试验或微调的其他结构选择方法相比,我们的方法在一个没有花里胡哨的训练通道中完全端到端地训练。我们用几种最先进的CNN评估我们的方法Sparse StructureSelection,并展示了具有自适应深度和宽度选择的非常有希望的结果。
translated by 谷歌翻译
Multi-task learning aims to improve generalization performance of multiple prediction tasks by appropriately sharing relevant information across them. In the context of deep neural networks, this idea is often realized by hand-designed network architectures with layers that are shared across tasks and branches that encode task-specific features. However, the space of possible multi-task deep ar-chitectures is combinatorially large and often the final architecture is arrived at by manual exploration of this space, which can be both error-prone and tedious. We propose an automatic approach for designing compact multi-task deep learning architectures. Our approach starts with a thin multi-layer network and dynamically widens it in a greedy manner during training. By doing so iteratively, it creates a tree-like deep architecture, on which similar tasks reside in the same branch until at the top layers. Evaluation on person attributes classification tasks involving facial and clothing attributes suggests that the models produced by the proposed method are fast, compact and can closely match or exceed the state-of-the-art accuracy from strong baselines by much more expensive models.
translated by 谷歌翻译
在许多计算机视觉任务中广泛采用多任务学习来提高整体计算效率或提高个体任务的性能,假设这些任务是相互关联和相互补充的。但是,任务之间的关系很复杂,特别是当涉及的任务数量增加时。当twotasks的相关性较弱时,在共享参数的联合训练期间,它们可能会相互竞争甚至分散注意力,从而破坏了所有任务的学习。这将提高破坏性干扰,降低共享参数的学习效率,并导致低质量损失局部最优w.r.t。共享参数。为了解决这个问题,我们提出了一种通用调制模块,它可以插入到任何卷积神经网络架构中,以鼓励相关任务的耦合和特征共享,同时通过添加次要参数来解开无关任务的学习。配备此模块,可以强制执行来自不同任务的梯度方向,以使这些共享参数保持一致,这有利于多任务联合培训。该模块是端到端可学习的,无需针对特定任务的临时设计,并且可以自然地同时处理许多任务。我们将方法应用于两个检索任务,即CelebA数据集[1]的面部检索和UT-Zappos50K数据集[2,3]的产品检索,并证明其优于其他多任务学习方法的准确性和存储效率。
translated by 谷歌翻译
尽管深度网络最近已成为许多计算机视觉问题的首选模型,但为了产生良好的结果,它们通常需要耗费时间的架构搜索。为了克服设计选择的复杂性,先前的工作采用了模块化设计的原则,该原理包括根据拓扑相同的相似构件(a.k.a.模块)的组合来定义网络。这减少了架构搜索,以确定要组成的模块数量以及如何连接这些模块的问题。同样,出于设计复杂性和训练成本的原因,先前的方法依赖于简单的连接规则,例如,将每个模块仅连接到前一个模块或者可能连接到前一个模块。这种简单的连接规则不太可能产生给定问题的最佳架构。在这项工作中,我们删除了这些预定义的选择,并提出了一种算法,允许网络中模块之间的连接。不是由人类设计者先验地选择,而是通过使用梯度下降的修改版本优化最终任务的损失函数来与网络的权重同时学习连通性。我们使用两种体系结构(ResNet和ResNeXt)展示了关于多类图像分类问题的连接学习方法。对四种不同数据集的实验表明,与依赖传统的预定义连接规则相比,使用我们的方法进行连通性学习可以获得更高的准确性。此外,在某些设置中,它可以显着节省参数数量。
translated by 谷歌翻译
The number of parameters in a deep neural network is usually very large, which helps with its learning capacity but also hinders its scalabil-ity and practicality due to memory/time inefficiency and overfitting. To resolve this issue, we propose a sparsity regularization method that exploits both positive and negative correlations among the features to enforce the network to be sparse, and at the same time remove any redundancies among the features to fully utilize the capacity of the network. Specifically, we propose to use an exclusive sparsity regularization based on (1, 2)-norm, which promotes competition for features between different weights, thus enforcing them to fit to disjoint sets of features. We further combine the exclusive sparsity with the group sparsity based on (2, 1)-norm, to promote both sharing and competition for features in training of a deep neural network. We validate our method on multiple public datasets, and the results show that our method can obtain more compact and efficient networks while also improving the performance over the base networks with full weights, as opposed to existing sparsity regularizations that often obtain efficiency at the expense of prediction accuracy.
translated by 谷歌翻译