高斯内核及其衍生物已经在以前的几项作品中用于卷积神经网络。这些论文中的大多数提议通过线性将一个或几个具有或略有训练的高斯内核的基础线性相结合,以计算过滤器。在本文中,我们提出了一个基于各向异性,面向和转移的高斯导数核的高级配置层,该核概括了以前相关工作中遇到的概念,同时保持其主要优势。结果表明,与以前的作品相比,所提出的层具有竞争性能,并且可以成功地包括在常见的深度体系结构中,例如用于图像分类的VGG16和用于图像分割的U-NET。
translated by 谷歌翻译
频率信息位于纹理之间区分的基础上,因此在不同的对象之间。古典CNN架构将频率学习限制通过固定滤波器大小,缺乏明确控制它的方法。在这里,我们建立了具有高斯衍生基础的结构化接收场滤波器。然而,而不是使用预定的衍生顺序,通常导致基本函数的固定频率响应,我们学习这些。我们表明,通过学习基础的顺序,我们可以准确地学习滤波器的频率,因此适应底层学习任务的最佳频率。我们研究了分数衍生物的良好数学制剂,以在训练期间适应过滤频率。与标准CNN和我们构建的标准CNN和高斯衍生CNN滤波器网络相比,我们的配方导致参数节省和数据效率。
translated by 谷歌翻译
卷积神经网络(CNNS)在许多计算机视觉任务中非常成功。然而,嵌入式和实时系统的推理成本很高,因此有很多关于压缩网络的研究。另一方面,自我关注模型的最新进步表明,卷积滤波器优选在较早层中的自我关注,这表明在较早的层中较强的电感偏差更好。如卷积滤波器所示,强大的偏置可以培训特定的滤波器并将不必要的过滤器构建为零。这类似于经典图像处理任务,其中选择合适的滤波器使得紧凑的字典表示特征。我们遵循这个想法,并将Gabor过滤器合并在较早的CNN层中进行压缩。通过BackProjagation学习Gabor滤波器的参数,因此该功能仅限于Gabor过滤器。我们表明,对于CIFAR-10的第一层VGG-16具有192个内核/功能,但学习Gabor过滤器需要平均29.4内核。此外,在改变的Reset-20上,使用Gabor滤波器,分别在第一和第二层中的平均83%和94%的内核,其中前五层与两层较大的核交换CiFar-10。
translated by 谷歌翻译
We study characteristics of receptive fields of units in deep convolutional networks. The receptive field size is a crucial issue in many visual tasks, as the output must respond to large enough areas in the image to capture information about large objects. We introduce the notion of an effective receptive field, and show that it both has a Gaussian distribution and only occupies a fraction of the full theoretical receptive field. We analyze the effective receptive field in several architecture designs, and the effect of nonlinear activations, dropout, sub-sampling and skip connections on it. This leads to suggestions for ways to address its tendency to be too small.
translated by 谷歌翻译
扩张的卷积基本上是通过定期插入内核元素之间的空格而创建的更宽内核的卷积。在本文中,我们提出了一种新版本的扩张卷积,其中通过通过插值技术通过反向化进行了学习的间距。我们称这种方法“通过学习间距扩张卷积”(DCLS),并推广其对N维卷积案例的方法。但是,我们这里的主要焦点将是我们开发了两种实现的2D案例:一个天真的外壳:一个天真的一个,它构建了适合小的扩张率的扩张内核,以及使用“IM2COL的修改版本的时间/记忆有效的内核” “ 算法。然后,我们通过DCLS ONE通过简单的替换,我们如何通过简单的替换DCLS替换该技术如何通过简单的替换置换古典扩张的卷积层对Pascal VOC 2012 DataSet上的现有架构的准确性。此外,我们表明DCLS允许减少最近Convmixer架构中使用的深度卷曲的学习参数的数量,其因子3具有NO或非常低的准确性,并且通过用稀疏DCLS替换大型密集内核。该方法的代码基于Pytorch,可用于:https://github.com/k-h-imail/dilated-convolution-with-learnable-pacings-pytorch。
translated by 谷歌翻译
在本文中,我们提出了解决稳定性和卷积神经网络(CNN)的稳定性和视野的问题的神经网络。作为提高网络深度或宽度以提高性能的替代方案,我们提出了与全球加权拉普拉斯,分数拉普拉斯和逆分数拉普拉斯算子有关的基于积分的空间非识别算子,其在物理科学中的几个问题中出现。这种网络的前向传播由部分积分微分方程(PIDE)启发。我们在自动驾驶中测试基准图像分类数据集和语义分段任务的提出神经架构的有效性。此外,我们调查了这些密集的运营商的额外计算成本以及提出神经网络的前向传播的稳定性。
translated by 谷歌翻译
We propose a novel deep network structure called "Network In Network"(NIN) to enhance model discriminability for local patches within the receptive field. The conventional convolutional layer uses linear filters followed by a nonlinear activation function to scan the input. Instead, we build micro neural networks with more complex structures to abstract the data within the receptive field. We instantiate the micro neural network with a multilayer perceptron, which is a potent function approximator. The feature maps are obtained by sliding the micro networks over the input in a similar manner as CNN; they are then fed into the next layer. Deep NIN can be implemented by stacking mutiple of the above described structure. With enhanced local modeling via the micro network, we are able to utilize global average pooling over feature maps in the classification layer, which is easier to interpret and less prone to overfitting than traditional fully connected layers. We demonstrated the state-of-the-art classification performances with NIN on CIFAR-10 and CIFAR-100, and reasonable performances on SVHN and MNIST datasets.
translated by 谷歌翻译
最近的研究表明,大多数现有的深层切解模型都有大量的冗余,这导致了大量浪费存储和计算资源。现有的模型压缩方法无法灵活地压缩残留快捷方式中的卷积层,因此无法获得令人满意的收缩率。在本文中,我们提出了STD-NET,这是一种无监督的深入学习架构搜索方法,该方法通过层次张量分解图像切解分解。我们提出的策略不会受到各种残差连接的限制,因为此策略不会改变卷积块的输入和输出渠道的数量。我们提出了一个归一化的失真阈值,以评估基本模型的每个相关卷积层的敏感性,以指导性STD-NET以有效且无监督的方法来压缩目标网络,并获得两个不同形状的网络结构,具有低计算成本和相似性能的不同形状与原始的相比。广泛的实验证实,一方面,由于获得的网络体系结构的良好适应性,我们的模型可以在各种地分析场景中实现可比甚至更好的检测性能。另一方面,实验结果还表明,与先前的切实可行的网络压缩方法相比,我们提出的策略更有效,可以消除更多的冗余。
translated by 谷歌翻译
Computational units in artificial neural networks follow a simplified model of biological neurons. In the biological model, the output signal of a neuron runs down the axon, splits following the many branches at its end, and passes identically to all the downward neurons of the network. Each of the downward neurons will use their copy of this signal as one of many inputs dendrites, integrate them all and fire an output, if above some threshold. In the artificial neural network, this translates to the fact that the nonlinear filtering of the signal is performed in the upward neuron, meaning that in practice the same activation is shared between all the downward neurons that use that signal as their input. Dendrites thus play a passive role. We propose a slightly more complex model for the biological neuron, where dendrites play an active role: the activation in the output of the upward neuron becomes optional, and instead the signals going through each dendrite undergo independent nonlinear filterings, before the linear combination. We implement this new model into a ReLU computational unit and discuss its biological plausibility. We compare this new computational unit with the standard one and describe it from a geometrical point of view. We provide a Keras implementation of this unit into fully connected and convolutional layers and estimate their FLOPs and weights change. We then use these layers in ResNet architectures on CIFAR-10, CIFAR-100, Imagenette, and Imagewoof, obtaining performance improvements over standard ResNets up to 1.73%. Finally, we prove a universal representation theorem for continuous functions on compact sets and show that this new unit has more representational power than its standard counterpart.
translated by 谷歌翻译
许多应用程序,例如移动机器人或自动车辆,使用LIDAR传感器获得有关其三维周围环境的详细信息。许多方法使用图像类似的凸起以有效地处理这些激光雷达测量并使用深卷积神经网络来预测扫描中的每个点的语义类。空间固定假设能够使用卷曲。然而,LIDAR扫描在垂直轴上表现出大的差异。因此,我们提出了半本地卷积(SLC),卷积层,沿垂直尺寸减少的重量分配量减少。我们首先要调查这种层独立于任何其他模型变化的层。我们的实验在细分或准确性方面没有显示出传统卷积层的任何改善。
translated by 谷歌翻译
卷积神经网络已在图像分类方面取得了成功的结果,从而实现了超过人类水平的实时结果。但是,纹理图像仍然对这些模型构成一些挑战,例如,在出现这些图像,高层间相似性,没有代表对象的全局观点的几个问题中,培训的数据可用性有限,并且其他。在这种情况下,本文的重点是提高纹理分类中卷积神经网络的准确性。这是通过从验证的神经网络的多个卷积层中提取特征并使用Fisher载体聚集此类特征来完成的。使用较早卷积层的特征的原因是获得了较少域的信息。我们验证方法对基准数据集的纹理分类以及巴西植物物种识别的实际任务的有效性。在这两种情况下,在多层上计算出的Fisher矢量都优于制作方法,证实早期卷积层提供了有关分类纹理图像的重要信息。
translated by 谷歌翻译
我们提出了一种多移民通道(MGIC)方法,该方法可以解决参数数量相对于标准卷积神经网络(CNN)中的通道数的二次增长。因此,我们的方法解决了CNN中的冗余,这也被轻量级CNN的成功所揭示。轻巧的CNN可以达到与参数较少的标准CNN的可比精度。但是,权重的数量仍然随CNN的宽度四倍地缩放。我们的MGIC体系结构用MGIC对应物代替了每个CNN块,该块利用了小组大小的嵌套分组卷积的层次结构来解决此问题。因此,我们提出的架构相对于网络的宽度线性扩展,同时保留了通道的完整耦合,如标准CNN中。我们对图像分类,分割和点云分类进行的广泛实验表明,将此策略应用于Resnet和MobilenetV3等不同体系结构,可以减少参数的数量,同时获得相似或更好的准确性。
translated by 谷歌翻译
建立一个小型的快速监控系统模型,适合有限的资源设备是一个具有挑战性的,但却是一个重要的任务。卷积神经网络(CNNS)在检测和分类任务中取代了传统的特征提取和机器学习模型。提出了各种复杂的大型CNN模型,从而实现了精度的显着改善。最近介绍了轻量级CNN型号用于实时任务。本文介绍了一种基于CNN的轻量级模型,可以适合诸如覆盆子PI的有限边缘装置。我们所提出的模型提供了具有更好的性能时间,较小的尺寸和与现有方法的可比准确度。在多个基准数据集中评估模型性能。它也与现有模型相比,在大小,平均处理时间和F分数方面。建议未来研究的其他增强功能。
translated by 谷歌翻译
深度学习可以大大提高高光谱成像(HSI)的分类精度。尽管如此,对大多数小型高光谱数据集的培训并不是微不足道的。两个关键的挑战是录音的大信道维度以及不同制造商的摄像机之间的不兼容。通过引入合适的模型偏置并连续定义通道维度,我们提出了针对高光谱成像的这些挑战进行优化的2D卷积。我们根据两个不同的高光谱应用(内联检查和遥感)评估该方法。除了显示模型的优势外,修改还增加了其他解释能力。此外,该模型以数据驱动的方式学习了必要的摄像机过滤器。基于这些相机过滤器,可以设计一个最佳摄像头。
translated by 谷歌翻译
In many recent object recognition systems, feature extraction stages are generally composed of a filter bank, a non-linear transformation, and some sort of feature pooling layer. Most systems use only one stage of feature extraction in which the filters are hard-wired, or two stages where the filters in one or both stages are learned in supervised or unsupervised mode. This paper addresses three questions: 1. How does the non-linearities that follow the filter banks influence the recognition accuracy? 2. does learning the filter banks in an unsupervised or supervised manner improve the performance over random filters or hardwired filters? 3. Is there any advantage to using an architecture with two stages of feature extraction, rather than one? We show that using non-linearities that include rectification and local contrast normalization is the single most important ingredient for good accuracy on object recognition benchmarks. We show that two stages of feature extraction yield better accuracy than one. Most surprisingly, we show that a two-stage system with random filters can yield almost 63% recognition rate on Caltech-101, provided that the proper non-linearities and pooling layers are used. Finally, we show that with supervised refinement, the system achieves state-of-the-art performance on NORB dataset (5.6%) and unsupervised pre-training followed by supervised refinement produces good accuracy on Caltech-101 (> 65%), and the lowest known error rate on the undistorted, unprocessed MNIST dataset (0.53%).
translated by 谷歌翻译
Quantum机器学习目前正在受到极大的关注,但是与实用应用的经典机器学习技术相比,其有用性尚不清楚。但是,有迹象表明,某些量子机学习算法可能会提高其经典同行的培训能力 - 在很少有培训数据的情况下,这在情况下可能特别有益。这种情况自然出现在医学分类任务中。在本文中,提出了不同的杂种量子卷积神经网络(QCCNN),提出了不同的量子电路设计和编码技术。它们应用于二维医学成像数据,例如在计算机断层扫描中具有不同的,潜在的恶性病变。这些QCCNN的性能已经与它们的经典同行之一相似,因此鼓励进一步研究将这些算法应用于医学成像任务的方向。
translated by 谷歌翻译
我们通过应用更为理论证明的操作员来寻求改善神经网络中的汇集操作。我们证明Logsumexp提供了用于登录的自然或操作员。当一个人对池中汇集运算符中的元素数正确时,这将成为$ \ text {logavgexp}:= \ log(\ text {mean}(\ exp(x)))$。通过引入单个温度参数,LogavgeXP将其操作数的最大值平滑地过渡到平均值(在限制性情况下发现$ 0 ^ + $和$ t \ to + \ idty $)。在各种深度神经网络架构中,我们在实验测试的LogavgeXP,无论是没有学习的温度参数,都在电脑视觉中的各种深度神经网络架构中。
translated by 谷歌翻译
卷积神经网络(CNN)在翻译下是固有的等分反,但是,它们没有等效的嵌入机制来处理其他变换,例如旋转和规模变化。存在几种方法,使CNN通过设计在其他转换组下变得等效。其中,可操纵的CNN特别有效。然而,这些方法需要将滤波器重新设计标准网络,筛选涉及复杂的分析功能的预定义基的组合。我们通过实验证明,在选择的基础上的这些限制可能导致模型权重,这对主要深度学习任务进行了次优(例如,分类)。此外,这种硬烘焙的显式配方使得难以设计包括异质特征组的复合网络。为了规避此类问题,我们提出了隐含的等级网络(IEN),其通过优化与标准损耗术语相结合的多目标损耗函数来诱导标准CNN模型的不同层的等级。通过在ROT-MNIST上的VGG和RESNET模型的实验,ROT-TINIMAGENET,SCALE-MNIST和STL-10数据集上,我们表明IEN,即使是简单的配方,也要优于可操纵网络。此外,IEN促进了非均相过滤器组的构建,允许CNNS中的通道数量减少超过30%,同时保持与基线的表现。 IEN的功效进一步验证了视觉对象跟踪的难题。我们表明IEN优于最先进的旋转等级跟踪方法,同时提供更快的推理速度。
translated by 谷歌翻译
在这项工作中,我们设计了一个完全复杂的神经网络,用于虹膜识别的任务。与一般物体识别的问题不同,在实际值的神经网络可以用于提取相关特征的情况下,虹膜识别取决于从输入的虹膜纹理提取两个相位和幅度信息,以便更好地表示其生物识别内容。这需要提取和处理不能由实值神经网络有效处理的相位信息。在这方面,我们设计了一个完全复杂的神经网络,可以更好地捕获虹膜纹理的多尺度,多分辨率和多向阶段和多向阶段和幅度特征。我们展示了具有用于生成经典iRIscode的Gabor小波的提出的复合值虹膜识别网络的强烈对应关系;然而,所提出的方法使得能够为IRIS识别量身定​​制的自动复数特征学习的新能力。我们对三个基准数据集进行实验 - Nd-Crosssensor-2013,Casia-Iris-千和Ubiris.v2 - 并显示了拟议网络的虹膜识别任务的好处。我们利用可视化方案来传达复合网络的方式,与标准的实际网络相比,从虹膜纹理提取根本不同的特征。
translated by 谷歌翻译
卷积一直是现代深层神经网络的核心运作。众所周知,可以在傅立叶变换域中实现卷积。在本文中,我们建议使用二进制块WALSH-HATAMARD变换(WHT)而不是傅里叶变换。我们使用基于WHT的二进制层来替换深度神经网络中的一些常规卷积层。我们本文利用了一维(1-D)和二维(2-D)二进制WHT。在两个1-D和2-D层中,我们计算输入特征图的二进制WHT,并使用非线性去噪该WHT域系数,该非线性通过将软阈值与TanH函数组合而获得的非线性。在去噪后,我们计算反相WHT。我们使用1d-wht来取代$ 1 \ times 1 $卷积层,2d-wht层可以取代3 $ \ times $ 3卷积层和挤压和激发层。具有可培训重量的2D-WHT层也可以在全局平均池(间隙)层之前插入以辅助致密层。通过这种方式,我们可以显着降低可训练参数的衡量参数的数量。在本文中,我们将WHT层实施到MobileNet-V2,MobileNet-V3大,并重新阅读,以显着降低参数的数量,以可忽略不计的精度损失。此外,根据我们的速度测试,2D-FWWHT层的运行大约是常规3美元3美元3美元的速度大约为19.51次较少的RAM使用率在NVIDIA Jetson Nano实验中的使用率。
translated by 谷歌翻译