非线性激活功能赋予神经网络,具有学习复杂的高维功能的能力。激活功能的选择是一个重要的超参数,确定深神经网络的性能。它显着影响梯度流动,训练速度,最终是神经网络的表示力。像Sigmoids这样的饱和活化功能遭受消失的梯度问题,不能用于深神经网络。通用近似定理保证,Sigmoids和Relu的多层网络可以学习任意复杂的连续功能,以任何准确性。尽管多层神经网络来学习任意复杂的激活功能,但传统神经网络中的每个神经元(使用SIGMOIDS和Relu类似的网络)具有单个超平面作为其决策边界,因此进行线性分类。因此,具有S形,Relu,Swish和Mish激活功能的单个神经元不能学习XOR函数。最近的研究已经发现了两层和三个人皮层中的生物神经元,具有摆动激活功能并且能够单独学习XOR功能。生物神经元中振荡激活功能的存在可能部分解释生物和人工神经网络之间的性能差距。本文提出了4个新的振荡激活功能,使单个神经元能够在没有手动功能工程的情况下学习XOR功能。本文探讨了使用振荡激活功能来解决较少神经元并减少培训时间的分类问题的可能性。
translated by 谷歌翻译
受生物神经元的启发,激活功能在许多现实世界中常用的任何人工神经网络的学习过程中起着重要作用。文献中已经提出了各种激活功能,用于分类和回归任务。在这项工作中,我们调查了过去已经使用的激活功能以及当前的最新功能。特别是,我们介绍了多年来激活功能的各种发展以及这些激活功能的优势以及缺点或局限性。我们还讨论了经典(固定)激活功能,包括整流器单元和自适应激活功能。除了基于表征的激活函数的分类法外,还提出了基于应用的激活函数的分类法。为此,对MNIST,CIFAR-10和CIFAR-100等分类数据集进行了各种固定和自适应激活函数的系统比较。近年来,已经出现了一个具有物理信息的机器学习框架,以解决与科学计算有关的问题。为此,我们还讨论了在物理知识的机器学习框架中使用的激活功能的各种要求。此外,使用Tensorflow,Pytorch和Jax等各种机器学习库之间进行了不同的固定和自适应激活函数进行各种比较。
translated by 谷歌翻译
近年来,神经网络已显示出巨大的增长,以解决许多问题。已经引入了各种类型的神经网络来处理不同类型的问题。但是,任何神经网络的主要目标是使用层层次结构将非线性可分离的输入数据转换为更线性可分离的抽象特征。这些层是线性和非线性函数的组合。最流行和常见的非线性层是激活功能(AFS),例如Logistic Sigmoid,Tanh,Relu,Elu,Swish和Mish。在本文中,在神经网络中为AFS提供了全面的概述和调查,以进行深度学习。涵盖了不同类别的AFS,例如Logistic Sigmoid和Tanh,基于RELU,基于ELU和基于学习的AFS。还指出了AFS的几种特征,例如输出范围,单调性和平滑度。在具有不同类型的数据的不同网络的18个最先进的AF中,还进行了性能比较。提出了AFS的见解,以使研究人员受益于进一步的研究和从业者在不同选择中进行选择。用于实验比较的代码发布于:\ url {https://github.com/shivram1987/activationfunctions}。
translated by 谷歌翻译
激活功能在深神网络中引入非线性。这种非线性有助于神经网络从数据集中更快,有效地学习。在深度学习中,基于类型问题陈述开发和使用许多激活功能。Relu的变体,Swish和Mish是Goto激活功能。Mish功能被认为比Swish相似甚至更好,并且比Relu更好。在本文中,我们提出了一个名为APTX的激活函数,其行为与Mish相似,但需要较少的数学操作来计算。APTX的计算要求较小会加快模型培训的速度,从而减少了深度学习模型的硬件需求。
translated by 谷歌翻译
An activation function has a significant impact on the efficiency and robustness of the neural networks. As an alternative, we evolved a cutting-edge non-monotonic activation function, Negative Stimulated Hybrid Activation Function (Nish). It acts as a Rectified Linear Unit (ReLU) function for the positive region and a sinus-sigmoidal function for the negative region. In other words, it incorporates a sigmoid and a sine function and gaining new dynamics over classical ReLU. We analyzed the consistency of the Nish for different combinations of essential networks and most common activation functions using on several most popular benchmarks. From the experimental results, we reported that the accuracy rates achieved by the Nish is slightly better than compared to the Mish in classification.
translated by 谷歌翻译
为了对线性不可分离的数据进行分类,神经元通常被组织成具有至少一个隐藏层的多层神经网络。灵感来自最近神经科学的发现,我们提出了一种新的神经元模型以及一种新的激活函数,可以使用单个神经元来学习非线性决策边界。我们表明标准神经元随后是新颖的顶端枝晶激活(ADA)可以使用100 \%的精度来学习XOR逻辑函数。此外,我们在计算机视觉,信号处理和自然语言处理中进行五个基准数据集进行实验,即摩洛哥,utkface,crema-d,时尚mnist和微小的想象成,表明ADA和泄漏的ADA功能提供了卓越的结果用于各种神经网络架构的整流线性单元(Relu),泄漏的Relu,RBF和嗖嗖声,例如单隐层或两个隐藏层的多层的Perceptrons(MLPS)和卷积神经网络(CNNS),如LENET,VGG,RESET和字符级CNN。当我们使用具有顶端树突激活(Pynada)的金字塔神经元改变神经元的标准模型时,我们获得进一步的性能改进。我们的代码可用于:https://github.com/raduionescu/pynada。
translated by 谷歌翻译
在神经网络中,通过激活功能引入非线性。一个常用的激活功能是整流线性单元(Relu)。 Relu是一个激烈的激活,但有缺陷。像嗖嗖声和莫什这样的最先进的功能现在,他们的注意力是一个更好的选择,因为它们打击了其他激活功能呈现的许多缺陷。 COLU是一个类似于闪光和MISH的激活函数。它定义为f(x)= x /(1-xe ^ - (x + e ^ x))。它是光滑的,不断微分,未呈现的上面,偏向于下方,不饱和和非单调。基于用具有不同激活功能的COLU完成的实验,观察到COLU通常比更深的神经网络上的其他功能更好地执行。在逐步越来越多的卷积层上训练Mnist上的不同神经网络,COLU保留了更多层的最高精度。在带有8个卷积层的较小网络上,COLU具有最高的平均准确性,紧随其后的是Relu。在Sfirfure-Mnist培训的VGG-13上,COLU比MISH高4.20%,比RELU高3.31%。在CIFAR-10培训的Resnet-9上,Colu比速度高0.05%,精度高出0.09%,比Relu高0.29%。观察到,激活函数可以基于包括层数,层数,参数类型,参数数量,参数数,学习速率,优化器等的不同因素来表现得好。可以在这些因素和激活功能上进行进一步的研究更优化的激活功能和更多关于他们行为的知识。
translated by 谷歌翻译
HEBBIAN在获奖者全方位(WTA)网络中的可塑性对于神经形态的片上学习非常有吸引力,这是由于其高效,本地,无监督和在线性质。此外,它的生物学合理性可能有助于克服人工算法的重要局限性,例如它们对对抗攻击和长期训练时间的敏感性。但是,Hebbian WTA学习在机器学习(ML)中很少使用,这可能是因为它缺少与深度学习兼容的优化理论(DL)。在这里,我们严格地表明,由标准DL元素构建的WTA网络与我们得出的Hebbian样可塑性结合在一起,维持数据的贝叶斯生成模型。重要的是,在没有任何监督的情况下,我们的算法,SOFTHEBB,可以最大程度地减少跨渗透性,即监督DL中的共同损失函数。我们在理论上和实践中展示了这一点。关键是“软” WTA,那里没有绝对的“硬”赢家神经元。令人惊讶的是,在浅网络比较与背面的比较(BP)中,SOFTHEBB表现出超出其HEBBIAN效率的优势。也就是说,它的收敛速度更快,并且对噪声和对抗性攻击更加强大。值得注意的是,最大程度地混淆SoftheBB的攻击也使人眼睛混淆,可能将人类感知的鲁棒性与Hebbian WTA Cortects联系在一起。最后,SOFTHEBB可以将合成对象作为真实对象类的插值生成。总而言之,Hebbian效率,理论的基础,跨透明拷贝最小化以及令人惊讶的经验优势,表明SOFTHEBB可能会激发高度神经态和彻底不同,但实用且有利的学习算法和硬件加速器。
translated by 谷歌翻译
The choice of activation functions and their motivation is a long-standing issue within the neural network community. Neuronal representations within artificial neural networks are commonly understood as logits, representing the log-odds score of presence of features within the stimulus. We derive logit-space operators equivalent to probabilistic Boolean logic-gates AND, OR, and XNOR for independent probabilities. Such theories are important to formalize more complex dendritic operations in real neurons, and these operations can be used as activation functions within a neural network, introducing probabilistic Boolean-logic as the core operation of the neural network. Since these functions involve taking multiple exponents and logarithms, they are computationally expensive and not well suited to be directly used within neural networks. Consequently, we construct efficient approximations named $\text{AND}_\text{AIL}$ (the AND operator Approximate for Independent Logits), $\text{OR}_\text{AIL}$, and $\text{XNOR}_\text{AIL}$, which utilize only comparison and addition operations, have well-behaved gradients, and can be deployed as activation functions in neural networks. Like MaxOut, $\text{AND}_\text{AIL}$ and $\text{OR}_\text{AIL}$ are generalizations of ReLU to two-dimensions. While our primary aim is to formalize dendritic computations within a logit-space probabilistic-Boolean framework, we deploy these new activation functions, both in isolation and in conjunction to demonstrate their effectiveness on a variety of tasks including image classification, transfer learning, abstract reasoning, and compositional zero-shot learning.
translated by 谷歌翻译
为了增强神经网络的非线性并提高输入和响应变量之间的映射能力,激活函数在数据中扮演更复杂的关系和模式的重要作用。在这项工作中,提出了一种新颖的方法,仅通过向传统的激活功能(如Sigmoid,TanH和Relu)添加很少的参数来自适应地自定义激活函数。为了验证所提出的方法的有效性,提出了关于加速收敛性和提高性能的一些理论和实验分析,并基于各种网络模型进行一系列实验(例如AlexNet,Vggnet,Googlenet,Reset和DenSenet)和各种数据集(如Cifar10,CiFar100,MiniimAgenet,Pascal VOC和Coco)。为了进一步验证各种优化策略和使用场景中的有效性和适用性,还在不同的优化策略(如SGD,势头,adagrad,Adadelta和AdaDelta和Adam)之间实施了一些比较实验以及与分类和检测等不同的识别任务。结果表明,提出的方法非常简单,但在收敛速度,精度和泛化方面具有显着性能,它可以超越像雷丝和自适应功能等其他流行的方法,如在整体性能方面几乎所有实验。该代码公开可在https://github.com/huhaigen/aptove-custivation-操作系统上使用。该包装包括所提出的三种自适应激活功能,可用于可重复性目的。
translated by 谷歌翻译
While logistic sigmoid neurons are more biologically plausible than hyperbolic tangent neurons, the latter work better for training multi-layer neural networks. This paper shows that rectifying neurons are an even better model of biological neurons and yield equal or better performance than hyperbolic tangent networks in spite of the hard non-linearity and non-differentiability at zero, creating sparse representations with true zeros, which seem remarkably suitable for naturally sparse data. Even though they can take advantage of semi-supervised setups with extra-unlabeled data, deep rectifier networks can reach their best performance without requiring any unsupervised pre-training on purely supervised tasks with large labeled datasets. Hence, these results can be seen as a new milestone in the attempts at understanding the difficulty in training deep but purely supervised neural networks, and closing the performance gap between neural networks learnt with and without unsupervised pre-training.
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
除了极其非线性的情况外,如果不是数十亿个参数来解决或至少要获得良好的解决方案,并且众所周知,众所周知,众所周知,并且通过深化和扩大其拓扑来实现复杂性的神经网络增加更好近似所需的非线性水平。然而,紧凑的拓扑始终优先于更深的拓扑,因为它们提供了使用较少计算单元和更少参数的优势。这种兼容性以减少的非线性的价格出现,因此有限的解决方案搜索空间。我们提出了使用自动多项式内核估计的1维多项式神经网络(1DPNN)模型,用于1维卷积神经网络(1dcnns),并且从第一层引入高度的非线性,这可以补偿深度的需要和/或宽拓扑。我们表明,这种非线性使得模型能够产生比与音频信号相关的各种分类和回归问题的常规1dcnn的计算和空间复杂性更好的结果,即使它在神经元水平上引入了更多的计算和空间复杂性。实验在三个公共数据集中进行,并证明,在解决的问题上,所提出的模型可以在更少的时间内从数据中提取比1dcnn更多的相关信息,并且存储器较少。
translated by 谷歌翻译
机器学习技术越来越多地用于预测科学应用中的材料行为,并比常规数值方法具有显着优势。在这项工作中,将人工神经网络(ANN)模型用于有限元公式中,以定义金属材料的流量定律是塑性应变,塑性应变速率和温度的函数。首先,我们介绍了神经网络的一般结构,其运作和关注网络在没有事先学习的情况下推导的能力,即相对于模型输入的流量定律的衍生物。为了验证所提出模型的鲁棒性和准确性,我们就42CRMO4钢的Johnson-Cook行为定律的分析公式进行了比较和分析几个网络体系结构的性能。在第二部分中,在选择了带有$ 2 $隐藏层的人工神经网络体系结构之后,我们以Vuhard Subroutine的形式在Abaqus显式计算代码中介绍了该模型的实现。然后在两个测试用例的数值模拟过程中证明了所提出模型的预测能力:圆形条的颈部和泰勒冲击试验。获得的结果表明,ANN具有很高的能力,可以在有限的元素代码中替换约翰逊 - 库克行为定律的分析公式,同时与经典方法相比,在数值模拟时间方面保持竞争力。
translated by 谷歌翻译
We introduce the "exponential linear unit" (ELU) which speeds up learning in deep neural networks and leads to higher classification accuracies. Like rectified linear units (ReLUs), leaky ReLUs (LReLUs) and parametrized ReLUs (PRe-LUs), ELUs alleviate the vanishing gradient problem via the identity for positive values. However ELUs have improved learning characteristics compared to the units with other activation functions. In contrast to ReLUs, ELUs have negative values which allows them to push mean unit activations closer to zero like batch normalization but with lower computational complexity. Mean shifts toward zero speed up learning by bringing the normal gradient closer to the unit natural gradient because of a reduced bias shift effect. While LReLUs and PReLUs have negative values, too, they do not ensure a noise-robust deactivation state. ELUs saturate to a negative value with smaller inputs and thereby decrease the forward propagated variation and information. Therefore ELUs code the degree of presence of particular phenomena in the input, while they do not quantitatively model the degree of their absence. In experiments, ELUs lead not only to faster learning, but also to significantly better generalization performance than ReLUs and LReLUs on networks with more than 5 layers. On CIFAR-100 ELUs networks significantly outperform ReLU networks with batch normalization while batch normalization does not improve ELU networks. ELU networks are among the top 10 reported CIFAR-10 results and yield the best published result on CIFAR-100, without resorting to multi-view evaluation or model averaging. On ImageNet, ELU networks considerably speed up learning compared to a ReLU network with the same architecture, obtaining less than 10% classification error for a single crop, single model network.
translated by 谷歌翻译
本文提出了一种新的和富有激光激活方法,被称为FPLUS,其利用具有形式的极性标志的数学功率函数。它是通过常见的逆转操作来启发,同时赋予仿生学的直观含义。制剂在某些先前知识和预期特性的条件下理论上得出,然后通过使用典型的基准数据集通过一系列实验验证其可行性,其结果表明我们的方法在许多激活功能中拥有卓越的竞争力,以及兼容稳定性许多CNN架构。此外,我们将呈现给更广泛类型的功能延伸到称为PFPlus的函数,具有两个可以固定的或学习的参数,以便增加其表现力的容量,并且相同的测试结果验证了这种改进。
translated by 谷歌翻译
深度神经网络(DNN)用于各种应用中。但是,与任何软件应用程序一样,基于DNN的应用程序受到错误的影响。以前的工作观察到DNN错误修复模式与传统错误修复模式不同。此外,由于具有多种选项来修复它们,因此由于具有多种选项的错误错误,那些错误模型是非微不足道的。为了支持开发人员在定位和修复错误中,我们提出DeepDiagnosis,一种定位故障的新型调试方法,报告错误症状,并提出了DNN程序的修复。在第一阶段,我们的技术监视培训模型,定期检查八种类型的错误条件。然后,在问题的情况下,它报告包含足够信息的消息来对模型执行可操作的维修。在评估中,我们通过GitHub和Stack Overflow彻底检查444型号-53现实世界,并由Autotrainer策划391。与UMLUAT和Deeplocalize相比,DeepDiagnosis提供卓越的准确性。我们的技术比Autotrainer更快,用于故障定位。结果表明,我们的方法可以支持其他类型的模型,而最先进的人才能够处理分类。我们的技术能够在培训期间报告在训练期间不明显作为数值错误的错误。此外,它可以提供用于修复的可操作的见解,而Deeplocalize只能在训练期间报告导致数值误差的故障。与其他方法相比,DeepDiagnosis表现出故障检测,错误本地化和症状的最佳能力。
translated by 谷歌翻译
整流的线性单元目前是深度卷积神经网络中的最先进的激活功能。为了对抗Relu的垂死神经元问题,我们提出了参数分层线性单元(PVLU),其增加了具有培训系数的正弦函数来relu。随着在整个真实域的非线性和非零梯度引入非线性和非零梯度,PVLU在转移学习的背景下实施时作为微调的机制。在简单的非转移顺序CNN上,PVLU取代允许的相对误差减少16.3%和11.3%(无且数据增强)在CIFAR-100上。 PVLU也在转移学习模型上进行测试。 VGG-16和VGG-19分别在CREU与PVLU取代后,在CIFAR-10分别体验了9.5%和10.7%的相对误差。当在高斯过滤的CiFar-10图像上进行培训时,VGG型号将注意类似的改进。最值得注意的是,使用PVLU的微调允许在CIFAR数据集上的近最先进的剩余神经网络架构上的相对误差减少和超过10%。
translated by 谷歌翻译
神经网络的设计通常是通过定义层数,每层神经元的数量,连接或突触的数量以及它们将执行的激活函数来实现的。培训过程试图优化分配给这些连接的权重,以及神经元的偏见,以更好地适合训练数据。但是,激活功能的定义通常是在设计过程中确定的,而在培训期间未修改,这意味着它们的行为与培训数据集无关。在本文中,我们提出了在训练过程中适应其形状的隐式,参数,非线性激活函数的定义和利用。这一事实增加了参数的空间以在网络中进行优化,但是它允许更大的灵活性并推广神经网络的概念。此外,它简化了架构设计,因为可以在每个神经元中使用相同的激活函数定义,从而使训练过程优化其参数,从而优化其行为。我们提出的激活函数来自通过$ L_P^Q $正则化项的线性不确定问题优化共识变量的定义,该定义是通过乘数的交替方向方法(ADMM)。我们使用这种类型的激活功能将神经网络定义为$ PQ-$网络。初步结果表明,与具有固定激活功能的等效的常规前馈神经网络相比,与等效的常规前馈神经网络相比,这些神经网络与这种自适应激活功能的使用减少了回归和分类示例中的误差。
translated by 谷歌翻译
Morphological neurons, that is morphological operators such as dilation and erosion with learnable structuring elements, have intrigued researchers for quite some time because of the power these operators bring to the table despite their simplicity. These operators are known to be powerful nonlinear tools, but for a given problem coming up with a sequence of operations and their structuring element is a non-trivial task. So, the existing works have mainly focused on this part of the problem without delving deep into their applicability as generic operators. A few works have tried to utilize morphological neurons as a part of classification (and regression) networks when the input is a feature vector. However, these methods mainly focus on a specific problem, without going into generic theoretical analysis. In this work, we have theoretically analyzed morphological neurons and have shown that these are far more powerful than previously anticipated. Our proposed morphological block, containing dilation and erosion followed by their linear combination, represents a sum of hinge functions. Existing works show that hinge functions perform quite well in classification and regression problems. Two morphological blocks can even approximate any continuous function. However, to facilitate the theoretical analysis that we have done in this paper, we have restricted ourselves to the 1D version of the operators, where the structuring element operates on the whole input. Experimental evaluations also indicate the effectiveness of networks built with morphological neurons, over similarly structured neural networks.
translated by 谷歌翻译