深度学习研究人员对提出两个可以提高网络性能的新型激活功能具有敏锐的兴趣。在提高网络性能方面,激活功能的良好选择可能具有重大影响。手工制作的激活是神经网络模型中最常见的选择。relu是深度学习社区中最常见的选择,因为它的简单性虽然Relu有一些严肃的缺点。在本文中,我们提出了一种基于已知激活功能的近似新的新型激活功能,如泄漏释放,我们称之为平滑的最大单位(SMU)。通过SMU替换Relu,我们在Cifar100数据集中有6.22%,使用Shuffleenet V2型号。
translated by 谷歌翻译
为了增强神经网络的非线性并提高输入和响应变量之间的映射能力,激活函数在数据中扮演更复杂的关系和模式的重要作用。在这项工作中,提出了一种新颖的方法,仅通过向传统的激活功能(如Sigmoid,TanH和Relu)添加很少的参数来自适应地自定义激活函数。为了验证所提出的方法的有效性,提出了关于加速收敛性和提高性能的一些理论和实验分析,并基于各种网络模型进行一系列实验(例如AlexNet,Vggnet,Googlenet,Reset和DenSenet)和各种数据集(如Cifar10,CiFar100,MiniimAgenet,Pascal VOC和Coco)。为了进一步验证各种优化策略和使用场景中的有效性和适用性,还在不同的优化策略(如SGD,势头,adagrad,Adadelta和AdaDelta和Adam)之间实施了一些比较实验以及与分类和检测等不同的识别任务。结果表明,提出的方法非常简单,但在收敛速度,精度和泛化方面具有显着性能,它可以超越像雷丝和自适应功能等其他流行的方法,如在整体性能方面几乎所有实验。该代码公开可在https://github.com/huhaigen/aptove-custivation-操作系统上使用。该包装包括所提出的三种自适应激活功能,可用于可重复性目的。
translated by 谷歌翻译
近年来,神经网络已显示出巨大的增长,以解决许多问题。已经引入了各种类型的神经网络来处理不同类型的问题。但是,任何神经网络的主要目标是使用层层次结构将非线性可分离的输入数据转换为更线性可分离的抽象特征。这些层是线性和非线性函数的组合。最流行和常见的非线性层是激活功能(AFS),例如Logistic Sigmoid,Tanh,Relu,Elu,Swish和Mish。在本文中,在神经网络中为AFS提供了全面的概述和调查,以进行深度学习。涵盖了不同类别的AFS,例如Logistic Sigmoid和Tanh,基于RELU,基于ELU和基于学习的AFS。还指出了AFS的几种特征,例如输出范围,单调性和平滑度。在具有不同类型的数据的不同网络的18个最先进的AF中,还进行了性能比较。提出了AFS的见解,以使研究人员受益于进一步的研究和从业者在不同选择中进行选择。用于实验比较的代码发布于:\ url {https://github.com/shivram1987/activationfunctions}。
translated by 谷歌翻译
受生物神经元的启发,激活功能在许多现实世界中常用的任何人工神经网络的学习过程中起着重要作用。文献中已经提出了各种激活功能,用于分类和回归任务。在这项工作中,我们调查了过去已经使用的激活功能以及当前的最新功能。特别是,我们介绍了多年来激活功能的各种发展以及这些激活功能的优势以及缺点或局限性。我们还讨论了经典(固定)激活功能,包括整流器单元和自适应激活功能。除了基于表征的激活函数的分类法外,还提出了基于应用的激活函数的分类法。为此,对MNIST,CIFAR-10和CIFAR-100等分类数据集进行了各种固定和自适应激活函数的系统比较。近年来,已经出现了一个具有物理信息的机器学习框架,以解决与科学计算有关的问题。为此,我们还讨论了在物理知识的机器学习框架中使用的激活功能的各种要求。此外,使用Tensorflow,Pytorch和Jax等各种机器学习库之间进行了不同的固定和自适应激活函数进行各种比较。
translated by 谷歌翻译
An activation function has a significant impact on the efficiency and robustness of the neural networks. As an alternative, we evolved a cutting-edge non-monotonic activation function, Negative Stimulated Hybrid Activation Function (Nish). It acts as a Rectified Linear Unit (ReLU) function for the positive region and a sinus-sigmoidal function for the negative region. In other words, it incorporates a sigmoid and a sine function and gaining new dynamics over classical ReLU. We analyzed the consistency of the Nish for different combinations of essential networks and most common activation functions using on several most popular benchmarks. From the experimental results, we reported that the accuracy rates achieved by the Nish is slightly better than compared to the Mish in classification.
translated by 谷歌翻译
近年来,已经提出了新颖的激活功能来提高神经网络的性能,并且与Relu对应物相比,它们的性能卓越。但是,在某些环境中,复杂激活的可用性受到限制,并且通常只支持relu。在本文中,我们提出的方法可用于通过在模型训练期间使用这些有效的新型激活来改善Relu网络的性能。更具体地说,我们提出了由relu和这些新型激活之一组成的集合激活。此外,合奏的系数既不固定也不是固定的,而是在训练过程中逐渐更新的方式,即到训练结束时,只有RELU激活在网络中保持活跃,并且可以删除其他激活。这意味着在推理时间内,网络仅包含RELU激活。我们使用各种紧凑的网络体系结构和各种新型激活功能对Imagenet分类任务进行广泛的评估。结果显示0.2-0.8%的TOP-1准确性增益,这证实了所提出的方法的适用性。此外,我们演示了有关语义分割的建议方法,并在CityScapes数据集上提高了紧凑型分割网络的性能。
translated by 谷歌翻译
We show that deep sparse ReLU networks with ternary weights and deep ReLU networks with binary weights can approximate β-Hölder functions on [0, 1] d . Also, for any interval [a, b) ⊂ R, continuous functions on [0, 1] d can be approximated by networks of depth 2 with binary activation function 1 [a,b) .
translated by 谷歌翻译
本文通过数学形态的代数基础,分析了深卷积神经网络(DCNN)的非线性激活函数和空间最大化。此外,通过在形态代表的背景下考虑最大 - 释放和非线性算子,提出了一般的激活功能家族。实验部分验证了我们在经典基准测试中的方法,用于DCNN的监督学习。
translated by 谷歌翻译
整流的线性单元目前是深度卷积神经网络中的最先进的激活功能。为了对抗Relu的垂死神经元问题,我们提出了参数分层线性单元(PVLU),其增加了具有培训系数的正弦函数来relu。随着在整个真实域的非线性和非零梯度引入非线性和非零梯度,PVLU在转移学习的背景下实施时作为微调的机制。在简单的非转移顺序CNN上,PVLU取代允许的相对误差减少16.3%和11.3%(无且数据增强)在CIFAR-100上。 PVLU也在转移学习模型上进行测试。 VGG-16和VGG-19分别在CREU与PVLU取代后,在CIFAR-10分别体验了9.5%和10.7%的相对误差。当在高斯过滤的CiFar-10图像上进行培训时,VGG型号将注意类似的改进。最值得注意的是,使用PVLU的微调允许在CIFAR数据集上的近最先进的剩余神经网络架构上的相对误差减少和超过10%。
translated by 谷歌翻译
在神经网络中,通过激活功能引入非线性。一个常用的激活功能是整流线性单元(Relu)。 Relu是一个激烈的激活,但有缺陷。像嗖嗖声和莫什这样的最先进的功能现在,他们的注意力是一个更好的选择,因为它们打击了其他激活功能呈现的许多缺陷。 COLU是一个类似于闪光和MISH的激活函数。它定义为f(x)= x /(1-xe ^ - (x + e ^ x))。它是光滑的,不断微分,未呈现的上面,偏向于下方,不饱和和非单调。基于用具有不同激活功能的COLU完成的实验,观察到COLU通常比更深的神经网络上的其他功能更好地执行。在逐步越来越多的卷积层上训练Mnist上的不同神经网络,COLU保留了更多层的最高精度。在带有8个卷积层的较小网络上,COLU具有最高的平均准确性,紧随其后的是Relu。在Sfirfure-Mnist培训的VGG-13上,COLU比MISH高4.20%,比RELU高3.31%。在CIFAR-10培训的Resnet-9上,Colu比速度高0.05%,精度高出0.09%,比Relu高0.29%。观察到,激活函数可以基于包括层数,层数,参数类型,参数数量,参数数,学习速率,优化器等的不同因素来表现得好。可以在这些因素和激活功能上进行进一步的研究更优化的激活功能和更多关于他们行为的知识。
translated by 谷歌翻译
其中的许多神经网络能够复制复杂的任务或功能的原因之一是其普遍性财产。在过去的几十年里已经在提供单一或类神经网络的构造性证明见过很多尝试。本文是为了提供一大类,包括激活现有的大多数激活和超越的普遍性统一的和建设性的框架。在框架的心脏是神经网络近似标识的概念。事实证明,大多数现有的激活是神经网络近似的标志,因此在连续的函数对致密的空间普遍。该框架诱导几个优点。首先,它是建设性与功能分析,概率论,和数值分析的基本手段。其次,它是第一个统一的尝试,其有效期为大多数现有的激活。第三,作为一个以产品,该框架提供了一些现有的激活功能,包括米什司炉ELU,格鲁,等四的第一所大学证明,它发现带有普遍性的保证财产新的激活。事实上,任何活化\ textemdash其$ \ķ$阶导数,以$ \ķ$为整数,是积并且基本上界定\ textemdash是普遍的。第五,对于给定的激活和容错,框架精确地提供了具有预定数量的神经元,和重量/偏差的值中对应的一个隐藏神经网络的体系结构。
translated by 谷歌翻译
非线性激活功能赋予神经网络,具有学习复杂的高维功能的能力。激活功能的选择是一个重要的超参数,确定深神经网络的性能。它显着影响梯度流动,训练速度,最终是神经网络的表示力。像Sigmoids这样的饱和活化功能遭受消失的梯度问题,不能用于深神经网络。通用近似定理保证,Sigmoids和Relu的多层网络可以学习任意复杂的连续功能,以任何准确性。尽管多层神经网络来学习任意复杂的激活功能,但传统神经网络中的每个神经元(使用SIGMOIDS和Relu类似的网络)具有单个超平面作为其决策边界,因此进行线性分类。因此,具有S形,Relu,Swish和Mish激活功能的单个神经元不能学习XOR函数。最近的研究已经发现了两层和三个人皮层中的生物神经元,具有摆动激活功能并且能够单独学习XOR功能。生物神经元中振荡激活功能的存在可能部分解释生物和人工神经网络之间的性能差距。本文提出了4个新的振荡激活功能,使单个神经元能够在没有手动功能工程的情况下学习XOR功能。本文探讨了使用振荡激活功能来解决较少神经元并减少培训时间的分类问题的可能性。
translated by 谷歌翻译
在本文中,我们用relu,正弦和$ 2^x $构建神经网络作为激活功能。对于$ [0,1]^d $定义的一般连续$ f $,带有连续模量$ \ omega_f(\ cdot)$,我们构造了Relu-sine- $ 2^x $网络,这些网络享受近似值$ \ MATHCAL {o }(\ omega_f(\ sqrt {d})\ cdot2^{ - m}+\ omega_ {f} \ in \ Mathbb {n}^{+} $表示与网络宽度相关的超参数。结果,我们可以构建Relu-Sine- $ 2^x $网络,其深度为$ 5 $和宽度$ \ max \ left \ weft \ {\ left \ lceil2d^{3/2} \ left(\ frac {3 \ mu}) {\ epsilon} \ right)^{1/{\ alpha}} \ right \ rceil,2 \ left \ lceil \ log_2 \ frac {3 \ mu d^{\ alpha/2}} \ rceil+2 \ right \} $ tht \ Mathcal {h} _ {\ mu}^{\ alpha}([0,1]^d)$近似$ f \以$ l^p $ norm $ p \在[1,\ infty)$中的测量,其中$ \ mathcal {h} _ {\ mu}^{\ alpha}(\ alpha}([0,1]^d)$表示H \“ $ [0,1]^d $定义的旧连续函数类,带有订单$ \ alpha \ in(0,1] $和常数$ \ mu> 0 $。因此,relu-sine- $ 2^x $网络克服了$ \ Mathcal {h} _ {\ mu}^{\ alpha}([0,1]^d)$。除了其晚餐表达能力外,由relu-sine- $ 2实施的功能,也克服了维度的诅咒。 ^x $网络是(广义)可区分的,使我们能够将SGD应用于训练。
translated by 谷歌翻译
为了对线性不可分离的数据进行分类,神经元通常被组织成具有至少一个隐藏层的多层神经网络。灵感来自最近神经科学的发现,我们提出了一种新的神经元模型以及一种新的激活函数,可以使用单个神经元来学习非线性决策边界。我们表明标准神经元随后是新颖的顶端枝晶激活(ADA)可以使用100 \%的精度来学习XOR逻辑函数。此外,我们在计算机视觉,信号处理和自然语言处理中进行五个基准数据集进行实验,即摩洛哥,utkface,crema-d,时尚mnist和微小的想象成,表明ADA和泄漏的ADA功能提供了卓越的结果用于各种神经网络架构的整流线性单元(Relu),泄漏的Relu,RBF和嗖嗖声,例如单隐层或两个隐藏层的多层的Perceptrons(MLPS)和卷积神经网络(CNNS),如LENET,VGG,RESET和字符级CNN。当我们使用具有顶端树突激活(Pynada)的金字塔神经元改变神经元的标准模型时,我们获得进一步的性能改进。我们的代码可用于:https://github.com/raduionescu/pynada。
translated by 谷歌翻译
本文开发了简单的前馈神经网络,实现了所有连续功能的通用近似性,具有固定的有限数量的神经元。这些神经网络很简单,因为它们的设计具有简单且可增加的连续激活功能$ \ Sigma $利用三角波函数和软片功能。我们证明了$ \ Sigma $ -Activated网络,宽度为36d $ 36d(2d + 1)$和11 $ 11 $可以在任意小错误中估计$ d $ -dimensioanl超级函数上的任何连续功能。因此,对于监督学习及其相关的回归问题,这些网络产生的假设空间,尺寸不小于36d(2d + 1)\ times 11 $的持续功能的空间。此外,由图像和信号分类引起的分类函数在$ \ sigma $ -activated网络生成的假设空间中,宽度为36d(2d + 1)$和12 $ 12 $,当存在$ \的成对不相交的界限子集时mathbb {r} ^ d $,使得同一类的样本位于同一子集中。
translated by 谷歌翻译
保留隐私深度神经网络(DNN)推理是不同受监管行业的必要条件,如医疗保健,金融和零售。最近,同性恋加密(HE)已被用作在解决隐私问题的同时启用分析的方法。他能够通过加密数据安全预测。然而,与使用他的使用有几个挑战,包括DNN尺寸限制以及对某些操作类型的支持缺乏支持。最值得注意的是,在某些HE方案下不支持常用的Relu激活。我们提出了一种结构化方法来用二次多项式激活替换Relu。为了解决准确性的降级问题,我们使用预先训练的模型,该模型列举了另一个他友好的模型,使用诸如“可训练激活”功能和知识蒸馏等技术。我们使用用于Covid-19检测的胸部X射线和CT数据集,在AlexNet架构上展示了我们的方法。我们的实验表明,通过使用我们的方法,F1分数和用Relu培训的模型的准确性与He-insive模型之间的差距缩小到仅为1.1-5.3%的劣化。
translated by 谷歌翻译
客户端 - 服务器机器学习中的隐私问题引起了私人推理(PI),其中神经推断直接发生在加密输入上。 PI保护客户的个人数据和服务器的知识产权。 PI的常见做法是使用乱码的电路私下计算非线性功能,即释放。然而,乱码电路遭受高存储,带宽和延迟成本。为了缓解这些问题,采用了PI友好的多项式激活功能来替换Relu。在这项工作中,我们问:替换所有释放函数是否可行,以便为建设深度,隐私友好的神经网络而替换为低度多项式激活功能?我们通过分析与多项式取代释放的挑战来探索这个问题,从简单的液滴替换解决方案到新颖的解决方案,更有涉及的更换和培训策略。我们检查每种方法的局限性,并对PI的多项式激活功能的使用提供评论。我们发现所有评估的解决方案遭受逃避激活问题:前进激活值不可避免地以远离多项式的稳定区域的指数速率扩展,这导致爆炸值(NAN)或差的近似值。
translated by 谷歌翻译
在本研究中,提出了一种新的,一般和巧妙的激活函数,被称为MDAC,以超越梯度消失和不可分化的存在的麻烦。 MDAC大致继承指数激活函数(如Tanh系列)的属性和分段线性激活函数(例如Relu系列)。具体地,在正区域中,自适应线性结构被设计为响应各种域分布。在负面地区,指数和线性度的组合被认为是征服梯度消失的障碍。此外,通过光滑的近似消除了不可分化的存在。实验表明,MDAC通过简单地改变激活功能,MDAC在六个域数据集中提高了六个域数据集的性能,这表明MDAC的有效性和高尚的革命性。 MDAC优于鲁棒性和泛化的其他普遍激活功能,并且可以在多个域中反映出色的激活性能。
translated by 谷歌翻译
This paper investigates the approximation properties of deep neural networks with piecewise-polynomial activation functions. We derive the required depth, width, and sparsity of a deep neural network to approximate any H\"{o}lder smooth function up to a given approximation error in H\"{o}lder norms in such a way that all weights of this neural network are bounded by $1$. The latter feature is essential to control generalization errors in many statistical and machine learning applications.
translated by 谷歌翻译
Computational units in artificial neural networks follow a simplified model of biological neurons. In the biological model, the output signal of a neuron runs down the axon, splits following the many branches at its end, and passes identically to all the downward neurons of the network. Each of the downward neurons will use their copy of this signal as one of many inputs dendrites, integrate them all and fire an output, if above some threshold. In the artificial neural network, this translates to the fact that the nonlinear filtering of the signal is performed in the upward neuron, meaning that in practice the same activation is shared between all the downward neurons that use that signal as their input. Dendrites thus play a passive role. We propose a slightly more complex model for the biological neuron, where dendrites play an active role: the activation in the output of the upward neuron becomes optional, and instead the signals going through each dendrite undergo independent nonlinear filterings, before the linear combination. We implement this new model into a ReLU computational unit and discuss its biological plausibility. We compare this new computational unit with the standard one and describe it from a geometrical point of view. We provide a Keras implementation of this unit into fully connected and convolutional layers and estimate their FLOPs and weights change. We then use these layers in ResNet architectures on CIFAR-10, CIFAR-100, Imagenette, and Imagewoof, obtaining performance improvements over standard ResNets up to 1.73%. Finally, we prove a universal representation theorem for continuous functions on compact sets and show that this new unit has more representational power than its standard counterpart.
translated by 谷歌翻译