In this paper, we design lightweight graph convolutional networks (GCNs) using a particular class of regularizers, dubbed as phase-field models (PFMs). PFMs exhibit a bi-phase behavior using a particular ultra-local term that allows training both the topology and the weight parameters of GCNs as a part of a single "end-to-end" optimization problem. Our proposed solution also relies on a reparametrization that pushes the mask of the topology towards binary values leading to effective topology selection and high generalization while implementing any targeted pruning rate. Both masks and weights share the same set of latent variables and this further enhances the generalization power of the resulting lightweight GCNs. Extensive experiments conducted on the challenging task of skeleton-based recognition show the outperformance of PFMs against other staple regularizers as well as related lightweight design methods.
translated by 谷歌翻译
图表卷积网络(GCNS)旨在扩展深度学习,以任意不规则域,即图表。它们的成功高度依赖于如何定义输入图的拓扑结构,并且大多数现有的GCN架构依赖于预定义或手工制作的图形结构。在本文中,我们介绍了一种新的方法,该方法将输入图的拓扑(或连接)作为GCN设计的一部分。我们方法的主要贡献驻留在建立正交的连接基础上,以便在实现卷积之前通过其邻居优化节点。我们的方法还考虑了一个时剧性标准,它作为符合规范器,使学习基础和潜在的GCNS轻质,同时仍然非常有效。对基于骨架的手势识别的挑战性任务进行了实验,展示了学习GCNS W.R.T的高效率。相关工作。
translated by 谷歌翻译
学习图形卷积网络(GCNS)是一种新兴领域,其旨在将卷积操作概括为任意非常规域。特别地,与光谱域相比,在空间域操作的GCNS显示出优异的性能,但它们的成功高度依赖于如何定义输入图的拓扑。在本文中,我们向图表卷积网络介绍了一个新颖的框架,了解图形的拓扑属性。我们的方法的设计原理基于约束目标函数的优化,该函数不仅在GCNS中的常用卷积参数中学习,而且是传达这些图中最相关的拓扑关系的转换基础。基于骨架的动作识别的具有挑战性任务进行的实验表明,与手工图形设计以及相关工作相比,所提出的方法的优越性。
translated by 谷歌翻译
光谱图卷积网络(GCNS)是特别的深层模型,其目的在于将神经网络扩展到任意的不规则域。这些网络的原理包括使用Laplacians的特征分解突出图信号,然后在将所产生的滤波信号返回到输入图域之前在光谱域中实现滤波。然而,这些操作的成功高度依赖于主要手工制作的二手拉普拉斯人的相关性,这使得GCN明显次优。在本文中,我们介绍了一种新颖的光谱GCN,不仅可以仅限于通常的卷积参数,而且是拉普拉斯运营商。后者设计了“端到端”作为递归Chebyshev分解的一部分,其特殊性地传送了学习表示的差异和非差异性质 - 随着顺序和辨别力的增加 - 没有过分统计化训练有素的GCN。对基于骨架的动作识别的具有挑战性的任务进行了广泛的实验,展示了我们提出的拉普拉斯设计的泛化能力和表现优惠。不同的基线(建造在手工制作和其他学习的拉普拉斯人)以及相关工作。
translated by 谷歌翻译
大型和性能的神经网络通常过度参数化,并且由于修剪而可以大大降低大小和复杂性。修剪是一组方法,它试图消除网络中的冗余或不必要的权重或权重。这些技术允许创建轻型网络,这对于嵌入式或移动应用程序特别重要。在本文中,我们设计了一种替代修剪方法,允许从较大未训练的方法中提取有效的子网。我们的方法是随机的,并通过探索使用Gumbel SoftMax采样的不同拓扑来提取子网。后者还用于训练概率分布,以衡量样品中权重的相关性。使用高效的重新恢复机制进一步增强了最终的子网,从而减少训练时间并提高性能。在CIFAR上进行的广泛实验表明,针对相关工作,我们的子网络提取方法的表现要优于表现。
translated by 谷歌翻译
现代深度神经网络往往太大而无法在许多实际情况下使用。神经网络修剪是降低这种模型的大小的重要技术和加速推断。Gibbs修剪是一种表达和设计神经网络修剪方法的新框架。结合统计物理和随机正则化方法的方法,它可以同时培训和修剪网络,使得学习的权重和修剪面膜彼此很好地适应。它可用于结构化或非结构化修剪,我们为每个提出了许多特定方法。我们将拟议的方法与许多当代神经网络修剪方法进行比较,发现Gibbs修剪优于它们。特别是,我们通过CIFAR-10数据集来实现修剪Reset-56的新型最先进的结果。
translated by 谷歌翻译
深度神经网络(DNN)最近在计算机视觉和几个相关领域取得了巨大成功。尽管如此,目前的神经结构仍然遭受灾难性干扰(A.K.A.忘记),这阻碍了DNN不断学习。虽然已经提出了几种最先进的方法来缓解遗忘,但这些现有解决方案是高度僵化的(正则化)或时间/内存要求(作为重播)。在文献中提出了一种基于动态网络的中等方法,并在文献中提出了在任务记忆和计算足迹之间提供合理的平衡。在本文中,我们基于一种基于新颖的无遗忘神经块(FFNB)来设计用于持续学习的动态网络架构。使用新的程序实现新任务的FFNB功能,该程序可以通过在前一个任务的空空间中约束底层参数,而训练分类器参数等同于Fisher判别分析。后者提供了一种有效的增量过程,这也是贝叶斯视角的最佳。使用增量的“端到端”微调进一步增强了训练有素的功能和分类器。在不同具有挑战性的分类问题上进行的大量实验,表明了该方法的高效性。
translated by 谷歌翻译
由于稀疏神经网络通常包含许多零权重,因此可以在不降低网络性能的情况下潜在地消除这些不必要的网络连接。因此,设计良好的稀疏神经网络具有显着降低拖鞋和计算资源的潜力。在这项工作中,我们提出了一种新的自动修剪方法 - 稀疏连接学习(SCL)。具体地,重量被重新参数化为可培训权重变量和二进制掩模的元素方向乘法。因此,由二进制掩模完全描述网络连接,其由单位步进函数调制。理论上,从理论上证明了使用直通估计器(STE)进行网络修剪的基本原理。这一原则是STE的代理梯度应该是积极的,确保掩模变量在其最小值处收敛。在找到泄漏的Relu后,SoftPlus和Identity Stes可以满足这个原理,我们建议采用SCL的身份STE以进行离散面膜松弛。我们发现不同特征的面具梯度非常不平衡,因此,我们建议将每个特征的掩模梯度标准化以优化掩码变量训练。为了自动训练稀疏掩码,我们将网络连接总数作为我们的客观函数中的正则化术语。由于SCL不需要由网络层设计人员定义的修剪标准或超级参数,因此在更大的假设空间中探讨了网络,以实现最佳性能的优化稀疏连接。 SCL克服了现有自动修剪方法的局限性。实验结果表明,SCL可以自动学习并选择各种基线网络结构的重要网络连接。 SCL培训的深度学习模型以稀疏性,精度和减少脚波特的SOTA人类设计和自动修剪方法训练。
translated by 谷歌翻译
While machine learning is traditionally a resource intensive task, embedded systems, autonomous navigation, and the vision of the Internet of Things fuel the interest in resource-efficient approaches. These approaches aim for a carefully chosen trade-off between performance and resource consumption in terms of computation and energy. The development of such approaches is among the major challenges in current machine learning research and key to ensure a smooth transition of machine learning technology from a scientific environment with virtually unlimited computing resources into everyday's applications. In this article, we provide an overview of the current state of the art of machine learning techniques facilitating these real-world requirements. In particular, we focus on deep neural networks (DNNs), the predominant machine learning models of the past decade. We give a comprehensive overview of the vast literature that can be mainly split into three non-mutually exclusive categories: (i) quantized neural networks, (ii) network pruning, and (iii) structural efficiency. These techniques can be applied during training or as post-processing, and they are widely used to reduce the computational demands in terms of memory footprint, inference speed, and energy efficiency. We also briefly discuss different concepts of embedded hardware for DNNs and their compatibility with machine learning techniques as well as potential for energy and latency reduction. We substantiate our discussion with experiments on well-known benchmark datasets using compression techniques (quantization, pruning) for a set of resource-constrained embedded systems, such as CPUs, GPUs and FPGAs. The obtained results highlight the difficulty of finding good trade-offs between resource efficiency and predictive performance.
translated by 谷歌翻译
Many applications require sparse neural networks due to space or inference time restrictions. There is a large body of work on training dense networks to yield sparse networks for inference, but this limits the size of the largest trainable sparse model to that of the largest trainable dense model. In this paper we introduce a method to train sparse neural networks with a fixed parameter count and a fixed computational cost throughout training, without sacrificing accuracy relative to existing dense-tosparse training methods. Our method updates the topology of the sparse network during training by using parameter magnitudes and infrequent gradient calculations. We show that this approach requires fewer floating-point operations (FLOPs) to achieve a given level of accuracy compared to prior techniques. We demonstrate state-of-the-art sparse training results on a variety of networks and datasets, including ResNet-50, MobileNets on Imagenet-2012, and RNNs on WikiText-103. Finally, we provide some insights into why allowing the topology to change during the optimization can overcome local minima encountered when the topology remains static * .
translated by 谷歌翻译
结构化修剪是一种降低卷积神经网络成本的流行方法,这是许多计算机视觉任务中最先进的方法。但是,根据体系结构,修剪会引入维数差异,以防止实际减少修剪的网络。为了解决这个问题,我们提出了一种能够采用任何结构化的修剪面膜并生成一个不会遇到这些问题的网络并可以有效利用的网络。我们提供了对解决方案的准确描述,并显示了嵌入式硬件,修剪卷积神经网络的能源消耗和推理时间的增长结果。
translated by 谷歌翻译
在机器学习中,人工神经网络(ANN)是一种非常强大的工具,广泛用于许多应用程序。通常,所选的(深)架构包括许多层,因此包括大量参数,这使培训,存储和推理变得昂贵。这激发了有关将原始网络压缩为较小网络的一系列研究,而不会过分牺牲性能。在许多提出的压缩方法中,最受欢迎的方法之一是\ emph {Pruning},该方法的整个元素(链接,节点,通道,\ ldots)和相应的权重删除。由于该问题的性质本质上是组合的(要修剪的要素,什么不是),因此我们提出了一种基于操作研究工具的新修剪方法。我们从为该问题的天然混合组编程模型开始,然后使用透视化重新制作技术来增强其持续放松。从该重新制定中投射指标变量产生了一个新的正则化术语,我们称之为结构化的正则化,从而导致初始体系结构的结构化修剪。我们测试了应用于CIFAR-10,CIFAR-100和Imagenet数据集的一些重新NET架构,获得了竞争性能W.R.T.
translated by 谷歌翻译
We propose a simultaneous learning and pruning algorithm capable of identifying and eliminating irrelevant structures in a neural network during the early stages of training. Thus, the computational cost of subsequent training iterations, besides that of inference, is considerably reduced. Our method, based on variational inference principles using Gaussian scale mixture priors on neural network weights, learns the variational posterior distribution of Bernoulli random variables multiplying the units/filters similarly to adaptive dropout. Our algorithm, ensures that the Bernoulli parameters practically converge to either 0 or 1, establishing a deterministic final network. We analytically derive a novel hyper-prior distribution over the prior parameters that is crucial for their optimal selection and leads to consistent pruning levels and prediction accuracy regardless of weight initialization or the size of the starting network. We prove the convergence properties of our algorithm establishing theoretical and practical pruning conditions. We evaluate the proposed algorithm on the MNIST and CIFAR-10 data sets and the commonly used fully connected and convolutional LeNet and VGG16 architectures. The simulations show that our method achieves pruning levels on par with state-of the-art methods for structured pruning, while maintaining better test-accuracy and more importantly in a manner robust with respect to network initialization and initial size.
translated by 谷歌翻译
本文提出了一种新的图形卷积运算符,称为中央差异图卷积(CDGC),用于基于骨架的动作识别。它不仅能够聚合节点信息,如vanilla图卷积操作,而且还可以介绍梯度信息。在不引入任何其他参数的情况下,CDGC可以在任何现有的图形卷积网络(GCN)中取代VANILLA图表卷积。此外,开发了一种加速版的CDGC,这大大提高了培训速度。两个流行的大型数据集NTU RGB + D 60和120的实验表明了所提出的CDGC的功效。代码可在https://github.com/iesymiao/cd-gcn获得。
translated by 谷歌翻译
图形神经网络(GNNS)由于图形数据的规模和模型参数的数量呈指数增长,因此限制了它们在实际应用中的效用,因此往往会遭受高计算成本。为此,最近的一些作品着重于用彩票假设(LTH)稀疏GNN,以降低推理成本,同时保持绩效水平。但是,基于LTH的方法具有两个主要缺点:1)它们需要对密集模型进行详尽且迭代的训练,从而产生了极大的训练计算成本,2)它们仅修剪图形结构和模型参数,但忽略了节点功能维度,存在大量冗余。为了克服上述局限性,我们提出了一个综合的图形渐进修剪框架,称为CGP。这是通过在一个训练过程中设计在训练图周期修剪范式上进行动态修剪GNN来实现的。与基于LTH的方法不同,提出的CGP方法不需要重新训练,这大大降低了计算成本。此外,我们设计了一个共同策略,以全面地修剪GNN的所有三个核心元素:图形结构,节点特征和模型参数。同时,旨在完善修剪操作,我们将重生过程引入我们的CGP框架,以重新建立修剪但重要的连接。提出的CGP通过在6个GNN体系结构中使用节点分类任务进行评估,包括浅层模型(GCN和GAT),浅但深度散发模型(SGC和APPNP)以及Deep Models(GCNII和RESGCN),总共有14个真实图形数据集,包括来自挑战性开放图基准的大规模图数据集。实验表明,我们提出的策略在匹配时大大提高了训练和推理效率,甚至超过了现有方法的准确性。
translated by 谷歌翻译
结构化修剪是一种常用的技术,用于将深神经网络(DNN)部署到资源受限的设备上。但是,现有的修剪方法通常是启发式,任务指定的,并且需要额外的微调过程。为了克服这些限制,我们提出了一个框架,将DNN压缩成纤薄的架构,具有竞争性表现,并且仅通过列车 - 一次(OTO)减少重大拖车。 OTO包含两个键:(i)我们将DNN的参数分区为零不变组,使我们能够修剪零组而不影响输出; (ii)促进零群,我们制定了结构性稀疏优化问题,提出了一种新颖的优化算法,半空间随机投影梯度(HSPG),以解决它,这优于组稀疏性探索的标准近端方法和保持可比的收敛性。为了展示OTO的有效性,我们从划痕上同时培训和压缩全模型,而无需微调推理加速和参数减少,并且在CIFAR10的VGG16实现最先进的结果,为CIFAR10和Squad的BERT为BERT竞争结果在resnet50上为想象成。源代码可在https://github.com/tianyic/only_train_once上获得。
translated by 谷歌翻译
在基于骨架的动作识别中,图形卷积网络将人类骨骼关节模拟为顶点,并通过邻接矩阵将其连接起来,可以将其视为局部注意力掩码。但是,在大多数现有的图形卷积网络中,局部注意力面膜是根据人类骨架关节的自然连接来定义的,而忽略了例如头部,手和脚关节之间的动态关系。此外,注意机制已被证明在自然语言处理和图像描述中有效,在现有方法中很少研究。在这项工作中,我们提出了一个新的自适应空间注意层,该层将局部注意力图扩展到基于相对距离和相对角度信息的全局。此外,我们设计了一个连接头部,手脚的新初始图邻接矩阵,该矩阵在动作识别精度方面显示出可见的改进。在日常生活中人类活动领域的两个大规模且挑战性的数据集上,评估了该模型:NTU-RGB+D和动力学骨架。结果表明,我们的模型在两个数据集上都有很强的性能。
translated by 谷歌翻译
Pruning refers to the elimination of trivial weights from neural networks. The sub-networks within an overparameterized model produced after pruning are often called Lottery tickets. This research aims to generate winning lottery tickets from a set of lottery tickets that can achieve similar accuracy to the original unpruned network. We introduce a novel winning ticket called Cyclic Overlapping Lottery Ticket (COLT) by data splitting and cyclic retraining of the pruned network from scratch. We apply a cyclic pruning algorithm that keeps only the overlapping weights of different pruned models trained on different data segments. Our results demonstrate that COLT can achieve similar accuracies (obtained by the unpruned model) while maintaining high sparsities. We show that the accuracy of COLT is on par with the winning tickets of Lottery Ticket Hypothesis (LTH) and, at times, is better. Moreover, COLTs can be generated using fewer iterations than tickets generated by the popular Iterative Magnitude Pruning (IMP) method. In addition, we also notice COLTs generated on large datasets can be transferred to small ones without compromising performance, demonstrating its generalizing capability. We conduct all our experiments on Cifar-10, Cifar-100 & TinyImageNet datasets and report superior performance than the state-of-the-art methods.
translated by 谷歌翻译
修剪神经网络可降低推理时间和记忆成本。在标准硬件上,如果修剪诸如特征地图之类的粗粒结构(例如特征地图),这些好处将特别突出。我们为二阶结构修剪(SOSP)设计了两种新型的基于显着性的方法,其中包括所有结构和层之间的相关性。我们的主要方法SOSP-H采用了创新的二阶近似,可以通过快速的Hessian-vector产品进行显着评估。 SOSP-H因此,尽管考虑到了完整的Hessian,但仍像一阶方法一样缩放。我们通过将SOSP-H与使用公认的Hessian近似值以及许多最先进方法进行比较来验证SOSP-H。尽管SOSP-H在准确性方面的表现或更好,但在可伸缩性和效率方面具有明显的优势。这使我们能够将SOSP-H扩展到大规模视觉任务,即使它捕获了网络所有层的相关性。为了强调我们修剪方法的全球性质,我们不仅通过删除预验证网络的结构,而且还通过检测建筑瓶颈来评估它们的性能。我们表明,我们的算法允许系统地揭示建筑瓶颈,然后将其删除以进一步提高网络的准确性。
translated by 谷歌翻译
Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multiscale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model 1 outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.
translated by 谷歌翻译