由于一系列理想的模型属性,卷积神经网络(CNN)的使用在深度学习中被广泛扩展,这导致了有效有效的机器学习框架。但是,必须将CNN架构定制为特定任务,以结合输入长度,分辨率和尺寸的考虑因素。在这项工作中,我们通过连续的卷积神经网络(CCNN)克服了针对特定问题的CNN体​​系结构的需求:一个配备了连续卷积内核的单个CNN体系结构,可用于根据任意分辨率,维度,长度和长度的数据进行任务,而无需结构性长度变化。连续的卷积内核在每一层的远距离依赖性模型,并消除当前CNN体系结构中所需的降采样层和任务依赖性深度的需求。我们通过将相同的CCNN应用于顺序(1 $ \ mathrm {d} $)和视觉数据(2 $ \ mathrm {d} $)上的一系列任务来显示我们方法的普遍性。我们的CCNN竞争性能,并且在所有考虑的所有任务中通常都优于当前最新的。
translated by 谷歌翻译
序列建模的一个中心目标是设计一个单个原则模型,该模型可以解决各种方式和任务,尤其是在远程依赖方面的序列数据。尽管包括RNN,CNN和Transformers在内的传统模型具有用于捕获长期依赖性的专业变体,但它们仍然很难扩展到长时间的10000美元或更多步骤。通过模拟基本状态空间模型(SSM)\(x'(t)= ax(t)= ax(t) + bu(t),y(t)= cx(t) + du(t) + du(t)\ ), and showed that for appropriate choices of the state matrix \( A \), this system could handle long-range dependencies mathematically and empirically.但是,该方法具有过度的计算和内存需求,使其无法作为一般序列建模解决方案。我们根据SSM的新参数化提出了结构化状态空间序列模型(S4),并表明它可以比以前的方法更有效地计算出其理论强度。我们的技术涉及对\(a \)进行低级校正的调节,从而使其对角度稳定,并将SSM降低到库奇内核的精心研究的计算中。 S4在各种既定的基准测试范围内取得了强劲的经验结果,包括(i)在顺序CIFAR-10上的91 \%精度,没有数据增强或辅助损失,与较大的2-D Resnet相当,(ii)实质上关闭。在图像和语言建模任务上与变形金刚的差距,同时在远程竞技场基准的每个任务上执行每一代$ 60 \ times $ $(iii)sota,包括求解所有先前工作的挑战性path-x任务,而所有先前工作的长度为16K,同时与所有竞争对手一样高效。
translated by 谷歌翻译
有效地对远程依赖性建模是序列建模的重要目标。最近,使用结构化状态空间序列(S4)层的模型在许多远程任务上实现了最先进的性能。 S4层将线性状态空间模型(SSM)与深度学习技术结合在一起,并利用HIPPO框架进行在线功能近似以实现高性能。但是,该框架导致了架构约束和计算困难,使S4方法变得复杂,可以理解和实施。我们重新审视这样的想法,即遵循河马框架对于高性能是必要的。具体而言,我们替换了许多独立的单输入单输出(SISO)SSM的库S4层与一个多输入的多输出(MIMO)SSM一起使用,并具有降低的潜在尺寸。 MIMO系统的缩小潜在维度允许使用有效的并行扫描,从而简化了将S5层应用于序列到序列转换所需的计算。此外,我们将S5 SSM的状态矩阵初始化,其近似与S4 SSMS使用的河马级矩阵近似,并表明这是MIMO设置的有效初始化。 S5与S4在远程任务上的表现相匹配,包括在远程竞技场基准的套件中平均达到82.46%,而S4的80.48%和最佳的变压器变体的61.41%。
translated by 谷歌翻译
长期数据的分类是一个重要的机器学习任务,并出现在许多应用程序中。经常性的神经网络,变压器和卷积神经网络是从顺序数据学习的三种主要技术。在这些方法中,在时间序列回归中缩放到非常长序列的时间卷积网络(TCN)已经取得了显着的进展。但是,对于序列分类的TCNS的性能并不令人满意,因为它们在最后位置使用偏斜连接协议和输出类。这种不对称限制了它们对分类的性能,这取决于整个序列。在这项工作中,我们提出了一种称为循环扩张卷积神经网络(CDIL-CNN)的对称的多尺度架构,其中每个位置具有相同的机会从前一层处接收来自其他位置的信息。我们的模型在所有位置提供分类登录,我们可以应用一个简单的集合学习来实现更好的决定。我们在各种长期数据集上测试了CDIL-CNN。实验结果表明,我们的方法在许多最先进的方法上具有卓越的性能。
translated by 谷歌翻译
Biological systems perceive the world by simultaneously processing high-dimensional inputs from modalities as diverse as vision, audition, touch, proprioception, etc. The perception models used in deep learning on the other hand are designed for individual modalities, often relying on domainspecific assumptions such as the local grid structures exploited by virtually all existing vision models. These priors introduce helpful inductive biases, but also lock models to individual modalities. In this paper we introduce the Perceiver -a model that builds upon Transformers and hence makes few architectural assumptions about the relationship between its inputs, but that also scales to hundreds of thousands of inputs, like ConvNets. The model leverages an asymmetric attention mechanism to iteratively distill inputs into a tight latent bottleneck, allowing it to scale to handle very large inputs. We show that this architecture is competitive with or outperforms strong, specialized models on classification tasks across various modalities: images, point clouds, audio, video, and video+audio. The Perceiver obtains performance comparable to ResNet-50 and ViT on ImageNet without 2D convolutions by directly attending to 50,000 pixels. It is also competitive in all modalities in AudioSet.
translated by 谷歌翻译
如今,基于CNN的架构在学习和提取功能方面的图像分类成功使它们如此受欢迎,但是当我们使用最先进的模型对嘈杂和低质量的图像进行分类时,图像分类的任务变得更加具有挑战性。为了解决这个问题,我们提出了一种新颖的图像分类体系结构,该体系结构以模糊和嘈杂的低分辨率图像学习细节。为了构建我们的新块,我们使用了RES连接和Inception模块想法的想法。使用MNIST数据集,我们进行了广泛的实验,表明引入的体系结构比其他最先进的卷积神经网络更准确,更快。由于我们的模型的特殊特征,它可以通过更少的参数获得更好的结果。
translated by 谷歌翻译
Modeling the distribution of natural images is a landmark problem in unsupervised learning. This task requires an image model that is at once expressive, tractable and scalable. We present a deep neural network that sequentially predicts the pixels in an image along the two spatial dimensions. Our method models the discrete probability of the raw pixel values and encodes the complete set of dependencies in the image. Architectural novelties include fast twodimensional recurrent layers and an effective use of residual connections in deep recurrent networks. We achieve log-likelihood scores on natural images that are considerably better than the previous state of the art. Our main results also provide benchmarks on the diverse ImageNet dataset. Samples generated from the model appear crisp, varied and globally coherent.
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
当人类的学习者比平常更慢或更快时,人类的学习者可以轻松理解语音或旋律。尽管深度卷积神经网络(CNN)在提取时间序列的信息方面非常有力,但它们需要明确的培训才能推广到不同的时间尺度。本文提出了一个深入的CNN,其中包含了受神经科学最新发现启发的时间表示。在哺乳动物的大脑中,时间由具有时间接受场的神经元群体表示。至关重要的是,接收场的峰形成了几何序列,因此人口在日志时间内代码一组时间基础函数。因为最近的记忆是对数时间的函数,因此重新缩放输入导致内存翻译。比例不变的时间历史卷积网络(SITHCON)在该对数分布的时间内存上构建了卷积层。 Max-Pool操作导致一个网络,该网络是时间模量边缘效应的重新缩放。我们将SITHCON的性能与时间卷积网络(TCN)进行比较。尽管两个网络都可以在单变量和多变量时间序列F(t)上学习分类和回归问题,但仅Sithcon概括为recalings f(at)。这一属性受到当代神经科学的发现的启发,并且与认知心理学的发现一致,可以使网络能够以更少的培训示例,减少体重更少,并且更强大地从样本数据中概括。
translated by 谷歌翻译
线性状态空间模型(SSM)的状态过渡矩阵的适当参数化,然后是标准非线性,使他们能够从顺序数据中有效地学习表示形式,从。在本文中,我们表明,当线性液体时恒定(LTC)状态空间模型给出诸如S4之类的结构SSM时,我们可以进一步改善。 LTC神经网络是带有输入依赖性状态过渡模块的因果连续神经网络,这使他们学会在推理时适应传入的输入。我们表明,通过使用对角和S4中引入的状态过渡矩阵的对角线加低级分解以及一些简化的基于LTC的结构状态空间模型(称为Liquid-S4)实现了新的最新最先进的最先进跨序列建模任务具有长期依赖性(例如图像,文本,音频和医疗时间序列)的艺术概括,在远程竞技场基准中的平均性能为87.32%。在完整的原始语音命令识别中,数据集Liquid-S4的精度达到96.78%,与S4相比,参数计数降低了30%。性能的额外增益是液体-S4的核结构的直接结果,该结构考虑了训练和推理过程中输入序列样本的相似性。
translated by 谷歌翻译
最近已证明状态空间模型(SSM)是深度学习层非常有效的,它是序列模型(例如RNN,CNN或变压器)的有前途替代方案。第一个显示这种潜力的版本是S4模型,它通过使用称为HIPPO矩阵的规定状态矩阵对涉及长期依赖性的任务特别有效。尽管这具有可解释的数学机制来建模长期依赖性,但它引入了一种自定义表示和算法,可能难以实施。另一方面,最新的S4变体称为DSS,表明将状态矩阵完全对角线限制在使用基于近似S4矩阵的特定初始化时,仍然可以保留原始模型的性能。这项工作旨在系统地了解如何参数化和初始化此类对角线状态空间模型。虽然从经典的结果来看,几乎所有SSM都具有等效的对角线形式,但我们表明初始化对于性能至关重要。我们通过证明S4矩阵的对角线限制出人意料地在无限状态尺寸的极限中恢复了相同的内核来解释为什么DSS在数学上起作用。我们还系统地描述了参数化和计算对角线SSM的各种设计选择,并执行对这些选择的影响的受控经验研究。我们的最终型号S4D是S4的简单对角线版本,其内核计算仅需要2行代码,并且几乎在所有设置中都与S4相当地执行,并具有最新的图像,音频和医疗时间序列域的结果,在远程竞技场基准中平均为85%。
translated by 谷歌翻译
自视觉变压器(VIT)出现以来,变形金刚在计算机视觉世界中迅速发光。卷积神经网络(CNN)的主要作用似乎受到越来越有效的基于变压器的模型的挑战。最近,几个先进的卷积模型以当地但大量注意机制的驱动的大型内核进行反击,显示出吸引力的性能和效率。尽管其中一个(即Replknet)令人印象深刻地设法将内核大小扩展到31x31,而性能提高,但随着内核大小的持续增长,性能开始饱和,与Swin Transformer等高级VIT的缩放趋势相比。在本文中,我们探讨了训练大于31x31的极端卷积的可能性,并测试是否可以通过策略性地扩大卷积来消除性能差距。这项研究最终是从稀疏性的角度施加极大核的食谱,该核心可以将内核平滑地扩展到61x61,并且性能更好。我们提出了稀疏的大内核网络(SLAK),这是一种纯CNN架构,配备了51x51个核,可以与最先进的层次变压器和现代探测器架构(如Convnext和Repleknet and Replknet and Replknet and Replknet and Replinext and Replknet and Replinext and Convnext and Replentical conternels cor相同或更好在成像网分类以及典型的下游任务上。我们的代码可在此处提供https://github.com/vita-group/slak。
translated by 谷歌翻译
我们提出了一种多移民通道(MGIC)方法,该方法可以解决参数数量相对于标准卷积神经网络(CNN)中的通道数的二次增长。因此,我们的方法解决了CNN中的冗余,这也被轻量级CNN的成功所揭示。轻巧的CNN可以达到与参数较少的标准CNN的可比精度。但是,权重的数量仍然随CNN的宽度四倍地缩放。我们的MGIC体系结构用MGIC对应物代替了每个CNN块,该块利用了小组大小的嵌套分组卷积的层次结构来解决此问题。因此,我们提出的架构相对于网络的宽度线性扩展,同时保留了通道的完整耦合,如标准CNN中。我们对图像分类,分割和点云分类进行的广泛实验表明,将此策略应用于Resnet和MobilenetV3等不同体系结构,可以减少参数的数量,同时获得相似或更好的准确性。
translated by 谷歌翻译
Australian Centre for Robotic Vision {guosheng.lin;anton.milan;chunhua.shen;
translated by 谷歌翻译
Transformers do not scale very well to long sequence lengths largely because of quadratic self-attention complexity. In the recent months, a wide spectrum of efficient, fast Transformers have been proposed to tackle this problem, more often than not claiming superior or comparable model quality to vanilla Transformer models. To this date, there is no well-established consensus on how to evaluate this class of models. Moreover, inconsistent benchmarking on a wide spectrum of tasks and datasets makes it difficult to assess relative model quality amongst many models. This paper proposes a systematic and unified benchmark, Long-Range Arena, specifically focused on evaluating model quality under long-context scenarios. Our benchmark is a suite of tasks consisting of sequences ranging from 1K to 16K tokens, encompassing a wide range of data types and modalities such as text, natural, synthetic images, and mathematical expressions requiring similarity, structural, and visual-spatial reasoning. We systematically evaluate ten well-established long-range Transformer models (Reformers, Linformers, Linear Transformers, Sinkhorn Transformers, Performers, Synthesizers, Sparse Transformers, and Longformers) on our newly proposed benchmark suite. Long-Range Arena paves the way towards better understanding this class of efficient Transformer models, facilitates more research in this direction, and presents new challenging tasks to tackle. Our benchmark code will be released at https://github.com/google-research/long-range-arena.
translated by 谷歌翻译
扩张的卷积基本上是通过定期插入内核元素之间的空格而创建的更宽内核的卷积。在本文中,我们提出了一种新版本的扩张卷积,其中通过通过插值技术通过反向化进行了学习的间距。我们称这种方法“通过学习间距扩张卷积”(DCLS),并推广其对N维卷积案例的方法。但是,我们这里的主要焦点将是我们开发了两种实现的2D案例:一个天真的外壳:一个天真的一个,它构建了适合小的扩张率的扩张内核,以及使用“IM2COL的修改版本的时间/记忆有效的内核” “ 算法。然后,我们通过DCLS ONE通过简单的替换,我们如何通过简单的替换DCLS替换该技术如何通过简单的替换置换古典扩张的卷积层对Pascal VOC 2012 DataSet上的现有架构的准确性。此外,我们表明DCLS允许减少最近Convmixer架构中使用的深度卷曲的学习参数的数量,其因子3具有NO或非常低的准确性,并且通过用稀疏DCLS替换大型密集内核。该方法的代码基于Pytorch,可用于:https://github.com/k-h-imail/dilated-convolution-with-learnable-pacings-pytorch。
translated by 谷歌翻译
We present in this paper a new architecture, named Convolutional vision Transformer (CvT), that improves Vision Transformer (ViT) in performance and efficiency by introducing convolutions into ViT to yield the best of both designs. This is accomplished through two primary modifications: a hierarchy of Transformers containing a new convolutional token embedding, and a convolutional Transformer block leveraging a convolutional projection. These changes introduce desirable properties of convolutional neural networks (CNNs) to the ViT architecture (i.e. shift, scale, and distortion invariance) while maintaining the merits of Transformers (i.e. dynamic attention, global context, and better generalization). We validate CvT by conducting extensive experiments, showing that this approach achieves state-of-the-art performance over other Vision Transformers and ResNets on ImageNet-1k, with fewer parameters and lower FLOPs. In addition, performance gains are maintained when pretrained on larger datasets (e.g. ImageNet-22k) and fine-tuned to downstream tasks. Pretrained on ImageNet-22k, our CvT-W24 obtains a top-1 accuracy of 87.7% on the ImageNet-1k val set. Finally, our results show that the positional encoding, a crucial component in existing Vision Transformers, can be safely removed in our model, simplifying the design for higher resolution vision tasks. Code will be released at https: //github.com/leoxiaobin/CvT.
translated by 谷歌翻译
事实证明,超复杂的神经网络可以减少参数的总数,同时通过利用Clifford代数的特性来确保有价值的性能。最近,通过涉及有效的参数化kronecker产品,超复合线性层得到了进一步改善。在本文中,我们定义了超复杂卷积层的参数化,并介绍了轻巧有效的大型大型模型的参数化超复杂神经网络(PHNN)。我们的方法直接从数据中掌握了卷积规则和过滤器组织,而无需遵循严格的预定义域结构。 Phnns可以灵活地在任何用户定义或调谐域中操作,无论代数规则是否是预设的,从1D到$ n $ d。这样的锻造性允许在其自然域中处理多维输入,而无需吞并进一步的尺寸,而是在Quaternion神经网络中使用3D输入(例如颜色图像)。结果,拟议中的Phnn家族以$ 1/n $的参数运行,因为其在真实域中的类似物。我们通过在各种图像数据集上执行实验以及音频数据集证明了这种方法对应用程序多个域的多功能性,在这些实验中,我们的方法的表现优于真实和Quaternion值值。完整代码可在以下网址获得:https://github.com/elegan23/hypernets。
translated by 谷歌翻译
This paper addresses the problem of estimating the depth map of a scene given a single RGB image. We propose a fully convolutional architecture, encompassing residual learning, to model the ambiguous mapping between monocular images and depth maps. In order to improve the output resolution, we present a novel way to efficiently learn feature map up-sampling within the network. For optimization, we introduce the reverse Huber loss that is particularly suited for the task at hand and driven by the value distributions commonly present in depth maps. Our model is composed of a single architecture that is trained end-to-end and does not rely on post-processing techniques, such as CRFs or other additional refinement steps. As a result, it runs in real-time on images or videos. In the evaluation, we show that the proposed model contains fewer parameters and requires fewer training data than the current state of the art, while outperforming all approaches on depth estimation. Code and models are publicly available 5 .
translated by 谷歌翻译
我们提出了层饱和 - 一种简单的在线可计算的方法,用于分析神经网络中的信息处理。首先,我们表明层的输出可以限制在没有性能损失的方差矩阵的eIgenspace。我们提出了一种计算上的轻量级方法,用于在训练期间近似方差矩阵。从其无损EIGenspace的维度我们推导了层饱和度 - eIGenspace尺寸和层宽度之间的比率。我们表明饱和度似乎表明哪个层有助于网络性能。我们通过改变网络深度,滤波器大小和输入分辨率,展示如何改变神经网络中的层饱和度。此外,我们表明,通过在网络上更均匀地分配推动过程,所选择的输入分辨率提高了网络性能。
translated by 谷歌翻译