最近,提出了随机特征专注(RFA),以通过线性化指数核来近似线性时间和空间复杂性的软磁性注意力。在本文中,我们首先提出了一种新颖的观点,以通过将RFA重新铸造为自称的重要性采样器来理解这种近似值的偏见。这种观点进一步阐明了整个软磁注意的\ emph {nobaled}估计量,称为随机注意(RA)。RA通过特定的分布构建积极的随机特征,并享有极大的改善近似保真度,尽管表现出二次复杂性。通过结合RA中的表现力和RFA的效率,我们开发了一种新型的线性复杂性自我发项机制,称为线性随机注意(LARA)。跨各个领域的广泛实验表明,RA和LARA可显着提高RFA的性能。
translated by 谷歌翻译
变压器架构现在是序列建模任务的核心。注意机制是核心,它可以在序列中对长期依赖性进行有效的建模。最近,变压器已成功地应用于计算机视觉域,在该域中首先将2D图像分割成斑块,然后将其视为1D序列。然而,这种线性化会损害图像中空间位置的概念,该图像具有重要的视觉线索。为了弥合差距,我们提出了连锁反应,这是视觉变压器的次级注意机制。基于最近基于内核的有效注意机制,我们设计了一种新型的动态编程算法,该算法将不同令牌的贡献加重了与它们在线性观察到的2D空间中相对空间距离的查询的贡献。广泛的实验和分析证明了连锁反应对各种视觉任务的有效性。
translated by 谷歌翻译
由于其二次复杂性,是变压器中的关注模块,其是变压器中的重要组件不能高效地扩展到长序列。许多工作侧重于近似于尺寸的圆点 - 指数的软MAX功能,导致分二次甚至线性复杂性变压器架构。但是,我们表明这些方法不能应用于超出点的指数样式的更强大的注意模块,例如,具有相对位置编码(RPE)的变压器。由于在许多最先进的模型中,相对位置编码被用作默认,设计可以包含RPE的高效变压器是吸引人的。在本文中,我们提出了一种新颖的方法来加速对RPE的转化仪的关注计算在核心化的关注之上。基于观察到相对位置编码形成Toeplitz矩阵,我们数在数学上表明,可以使用快速傅里叶变换(FFT)有效地计算具有RPE的核化注意。使用FFT,我们的方法实现$ \ mathcal {o}(n \ log n)$时间复杂性。有趣的是,我们进一步证明使用相对位置编码适当地可以减轻香草群关注的培训不稳定问题。在广泛的任务上,我们经验证明我们的模型可以从头开始培训,没有任何优化问题。学习模型比许多高效的变压器变体更好地执行,并且在长序列制度中比标准变压器更快。
translated by 谷歌翻译
We introduce Performers, Transformer architectures which can estimate regular (softmax) full-rank-attention Transformers with provable accuracy, but using only linear (as opposed to quadratic) space and time complexity, without relying on any priors such as sparsity or low-rankness. To approximate softmax attentionkernels, Performers use a novel Fast Attention Via positive Orthogonal Random features approach (FAVOR+), which may be of independent interest for scalable kernel methods. FAVOR+ can also be used to efficiently model kernelizable attention mechanisms beyond softmax. This representational power is crucial to accurately compare softmax with other kernels for the first time on large-scale tasks, beyond the reach of regular Transformers, and investigate optimal attention-kernels. Performers are linear architectures fully compatible with regular Transformers and with strong theoretical guarantees: unbiased or nearly-unbiased estimation of the attention matrix, uniform convergence and low estimation variance. We tested Performers on a rich set of tasks stretching from pixel-prediction through text models to protein sequence modeling. We demonstrate competitive results with other examined efficient sparse and dense attention methods, showcasing effectiveness of the novel attention-learning paradigm leveraged by Performers.
translated by 谷歌翻译
在这项工作中,我们介绍了内核化变压器,这是一个通用,可扩展的,数据驱动的框架,用于学习变压器中的内核功能。我们的框架将变压器内核作为光谱特征图之间的点产物近似,并通过学习光谱分布来学习内核。这不仅有助于学习通用的内核端到端,而且还可以减少变压器从二次到线性的时间和空间复杂性。我们表明,在准确性和计算效率方面,内核化的变压器实现了与现有的有效变压器体系结构相当的性能。我们的研究还表明,内核的选择对性能有重大影响,而内核学习变体是固定内核变压器的竞争替代方案,无论是长时间的序列任务。
translated by 谷歌翻译
基于变压器的模型广泛用于自然语言处理(NLP)。变压器模型的核心是自我关注机制,它捕获了输入序列中的令牌对的相互作用,并在序列长度上逐步取决于逐行。在更长的序列上培训此类模型是昂贵的。在本文中,我们表明,基于局部敏感散列(LSH)的伯努利采样注意机制降低了这种模型到线性的二次复杂性。我们通过考虑自我关注作为与Bernoulli随机变量相关的单独令牌的总和来绕过二次成本,原则上可以通过单个哈希进行一次(尽管在实践中,这个数字可能是一个小常数)。这导致了有效的采样方案来估算依赖于LSH的特定修改的自我关注(以便在GPU架构上进行部署)。我们在标准512序列长度上评估了胶水基准的算法,在那里我们看到了相对于标准预磨削变压器的良好性能。在远程竞技场(LRA)基准中,为了评估长序列的性能,我们的方法实现了与Softmax自我关注的结果一致,但具有相当大的加速和内存节省,并且通常优于其他有效的自我关注方法。我们的代码可以在https://github.com/mlpen/yoso获得
translated by 谷歌翻译
变压器注意机制中的设计选择,包括弱电感偏置和二次计算复杂性,限制了其用于建模长序列的应用。在本文中,我们介绍了一个简单的,理论上的,单头的门控注意机制,配备了(指数)移动平均线,以将局部依赖性的电感偏置纳入位置 - 敏锐的注意机制中。我们进一步提出了一个具有线性时间和空间复杂性的大型变体,但通过将整个序列分为固定长度的多个块,仅产生最小的质量损失。对广泛的序列建模基准测试的广泛实验,包括远距离竞技场,神经机器翻译,自动回归语言建模以及图像和语音分类,表明,巨人比其他序列模型取得了重大改进,包括变种物的变体和最新的变体模型状态空间模型。
translated by 谷歌翻译
变压器注意机制的二次计算和内存复杂性限制了对长序列建模的可扩展性。在本文中,我们提出了Luna,一种线性统一嵌套关注机制,使Softmax注意力具有两个嵌套线性关注功能,仅产生线性(与二次)的时间和空间复杂度相反。具体地,通过第一注意功能,LUNA将输入序列包装成固定长度的序列。然后,使用第二关注功能未包装包装序列。与更传统的关注机制相比,LUNA引入具有固定长度的附加序列作为输入和额外的相应输出,允许LUNA线性地进行关注操作,同时还存储足够的上下文信息。我们对三个序列建模任务的基准进行了广泛的评估:长上下文序列建模,神经机平移和大型预磨损的屏蔽语言建模。竞争甚至更好的实验结果表明了Luna的有效性和效率与各种各样相比
translated by 谷歌翻译
由于自我关注模块的二次空间和时间复杂性,基于变压器的模型在处理长序列中是不高的。为了解决此限制,建议通过分别通过低维投影和行选择来降低线性(模数对数因子)的二次复杂度。这两种型号本质上连接,并了解他们的连接,我们介绍了矩阵素描的理论框架。基于理论分析,我们提出了Skeinformer加速自我关注,进一步提高了三个精心设计的组件的自我关注的准确性:列采样,自适应行标准化和飞行员采样重新利用。关于长距离竞技场(LRA)基准的实验表明,我们的方法以始终如一的较小时间/空间占地面积优于替代方案。
translated by 谷歌翻译
视觉变形金刚(VIT)通过贴片图像令牌化推动了各种视觉识别任务的最先进,然后是堆叠的自我注意操作。采用自我发场模块会导致计算和内存使用情况的二次复杂性。因此,已经在自然语言处理中进行了各种尝试以线性复杂性近似自我发挥计算的尝试。但是,这项工作的深入分析表明,它们在理论上是缺陷的,或者在经验上是无效的视觉识别。我们确定它们的局限性植根于在近似过程中保留软马克斯的自我注意力。具体而言,传统的自我注意力是通过使令状特征向量之间的缩放点产物标准化来计算的。保留SoftMax操作会挑战任何随后的线性化工作。在这个见解下,首次提出了无软磁变压器(缩写为软的变压器)。为了消除自我注意事项的软马克斯操作员,采用高斯内核函数来替代点产品相似性。这使完整的自发矩阵可以通过低级矩阵分解近似。我们近似的鲁棒性是通过使用牛顿 - 拉夫森方法来计算其摩尔 - 芬罗逆的。此外,在低级别的自我注意事项上引入了有效的对称归一化,以增强模型的推广性和可传递性。对Imagenet,Coco和ADE20K的广泛实验表明,我们的软可以显着提高现有VIT变体的计算效率。至关重要的是,具有线性复杂性,允许使用较长的令牌序列,从而使精度和复杂性之间的权衡较高。
translated by 谷歌翻译
变形金刚在语言和视觉域中取得了成功。然而,将它们缩放到长期序列(例如长)或高分辨率图像,因为自我关注机构相对于输入序列长度具有二次时间和存储器复杂性。在本文中,我们提出了长短变压器(变压器-LS),是一种有效的自我关注机制,用于对语言和视觉任务进行线性复杂性建模的长序列。它用动态投影聚集了一种新的远程关注,以模拟远处相关性和短期注意,以捕获细粒度的局部相关性。我们提出了双重正径策略,以解释两个注意机制之间的规模不匹配。变压器-LS可以应用于自回归和双向模型,而无需额外复杂。我们的方法在语言和视觉域中的多个任务中优于最先进的模型,包括远程竞技场基准,自回归语言建模和想象成分类。例如,变换器-LS使用比以前的方法的一半在eNWIK8上实现0.97测试BPC,同时与其在同一硬件上的全部关注版本相比,可以更快地处理3倍。在Imagenet上,它可以获得最先进的结果(例如,适度大小的55.8M模型,仅在224x224 Imagenet-1K上培训,可以获得顶级1精度84.1%),同时在高分辨率上更加可扩展图片。源代码和模型在https://github.com/nvidia/transformer-ls上发布。
translated by 谷歌翻译
多头注意力是最先进的变压器背后的推动力,它在各种自然语言处理(NLP)和计算机视觉任务中实现了出色的性能。已经观察到,对于许多应用,这些注意力头会学习冗余嵌入,并且大多数可以在不降低模型性能的情况下去除。受到这一观察的启发,我们提出了变压器的混合物(变压器-MGK)的混合物,这是一种新型的变压器架构,用每个头部的钥匙混合了变压器中的冗余头部。这些键的混合物遵循高斯混合模型,并使每个注意力头有效地集中在输入序列的不同部分上。与传统的变压器对应物相比,变压器-MGK会加速训练和推理,具有较少的参数,并且需要更少的拖船来计算,同时实现跨任务的可比性或更高的准确性。 Transformer-MGK也可以轻松扩展到线性注意力。我们从经验上证明了在一系列实用应用中变形金属MGK的优势,包括语言建模和涉及非常长序列的任务。在Wikitext-103和远程竞技场基准中,具有4个头部的变压器MGK具有与基线变压器具有8个头的可比性或更好的性能。
translated by 谷歌翻译
由于其在捕获地区和翻译不变性的能力,卷积神经网络(CNNS)已经主导了计算机愿景。最近,已经提出了许多视觉变压器架构,他们表现出了有希望的表现。视觉变压器中的一个关键组件是在长距离依赖性建模中的CNN具有完全连接的自我关注。然而,由于当前密集的自我关注使用所有图像斑块(令牌)来计算注意力矩阵,因此它可能会忽略图像斑块的局部性,并且涉及嘈杂的令牌(例如,杂物背景和遮挡),导致慢训练过程和潜在的劣化表现。为了解决这些问题,我们提出了k $ -nn注意促进视觉变压器。具体而言,而不是涉及所有引起注意矩阵计算的令牌,我们只能从每个查询的键中选择顶级$类似的标记来计算注意图。提议的$ k $ -nn注意自然地继承了CNN的当地偏见而不引入卷积操作,因为附近的代币往往比其他代币更相似。此外,$ k $ -nn注意允许探索远程相关性,同时通过从整个图像中选择最相似的标记来筛选无关的标记。尽管其理论上和经验,我们验证了它,即美元 - 不关注的是,在加快输入令牌的训练和蒸馏噪声方面是强大的。通过使用11种不同的视觉变压器架构进行了广泛的实验,以验证所提出的$ -NNN注意力可以与任何现有的变压器架构合作,以提高其预测性能。
translated by 谷歌翻译
自我发挥作用机制通过在所有输入令牌之间使用成对的注意来对远程环境进行建模。在这样做时,他们假设由个体令牌(例如文本字符或图像像素)定义的固定注意粒度,这对于在较高级别上建模复杂依赖性可能不是最佳的。在本文中,我们提出了ContextPool,通过调整每个令牌的注意力粒度来解决此问题。受到与合并以捕获远程依赖关系的Convnets成功的启发,我们学会了为每个令牌汇总相邻功能,然后在给定的注意力层中计算注意力。合并的权重和支撑大小是自适应确定的,允许汇总功能以不同的规模编码有意义的上下文。我们表明,ContextPool使注意力模型更具表现力,经常以更少的层次实现强大的性能,从而大大降低了成本。实验验证我们的上下文池模块插入变压器模型时,使用几种语言和图像基准的计算较少计算,匹配或超越了最先进的性能,胜过最新的作品,这些作品具有学习的上下文大小或稀疏注意的模式,并且也适用为了进行有效的功能学习。
translated by 谷歌翻译
We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchically expand the channel capacity while reducing the spatial resolution. This creates a multiscale pyramid of features with early layers operating at high spatial resolution to model simple low-level visual information, and deeper layers at spatially coarse, but complex, high-dimensional features. We evaluate this fundamental architectural prior for modeling the dense nature of visual signals for a variety of video recognition tasks where it outperforms concurrent vision transformers that rely on large scale external pre-training and are 5-10× more costly in computation and parameters. We further remove the temporal dimension and apply our model for image classification where it outperforms prior work on vision transformers. Code is available at: https: //github.com/facebookresearch/SlowFast.
translated by 谷歌翻译
最近的几项研究表明,基于关注的网络,如视觉变压器(VIV),可以在几个计算机视觉任务上倾斜卷积神经网络(CNNS)而不使用卷积层。这自然导致以下问题:可以自我关注的Vit表达任何卷积操作吗?在这项工作中,我们证明了一种具有图像贴片的单个VIT层,因为输入可以建设性地执行任何卷积操作,其中多主题注意机制和相对位置编码起到基本角色。我们进一步提供了视觉变压器的头部数量的下限,以表达CNN。对应于我们的分析,实验结果表明,我们证据的建设可以帮助将卷积偏差注入变压器,并显着提高vit的低数据制度的性能。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
基于注意力机制的变压器在各个领域取得了令人印象深刻的成功。但是,注意机制具有二次复杂性,严重阻碍了变形金刚处理众多令牌并扩展到更大的模型。先前的方法主要利用矩阵乘法的相似性分解和关联性来设计线性时间注意机制。它们通过重新引入归纳偏见(例如位置)来避免关注对微不足道的分布,从而以模型的一般性和表达性为代价。在本文中,我们将基于流网络理论的特定电感偏差线性化。我们引起人们的注意,因为信息流从源(值)汇总到水槽(结果)通过学习的流动能力(结果)(注意)。在此框架内,我们将流量保护的特性应用于注意力,并提出线性复杂性的流意见机制。通过分别保留用于源竞争的水槽的传入流以及水槽分配的传出流,流动意见固有地产生了信息的关注,而无需使用特定的电感偏见。流动性授权,流动形式在线性时间内的范围内表现出色,包括长序列,时间序列,视觉,自然语言和强化学习。代码和设置可在此存储库中获得:https://github.com/thuml/flowformer。
translated by 谷歌翻译
视觉变压器在众多计算机视觉任务上表现出了巨大的成功。然而,由于计算复杂性和记忆足迹是二次的,因此其中心分量(软磁性注意力)禁止视觉变压器扩展到高分辨率图像。尽管在自然语言处理(NLP)任务中引入了线性注意以减轻类似问题,但直接将现有的线性注意力应用于视觉变压器可能不会导致令人满意的结果。我们研究了这个问题,发现与NLP任务相比,计算机视觉任务更多地关注本地信息。基于这一观察结果,我们提出了附近的关注,该关注引入了具有线性复杂性的视觉变压器的局部性偏见。具体而言,对于每个图像补丁,我们根据其相邻贴片测量的2D曼哈顿距离调整了注意力重量。在这种情况下,相邻的补丁比遥远的补丁会受到更大的关注。此外,由于我们的附近注意力要求令牌长度比特征维度大得多,以显示其效率优势,因此我们进一步提出了一个新的附近视觉变压器(VVT)结构,以减少特征维度而不脱离准确性。我们在CIFAR100,ImagEnet1k和ADE20K数据集上进行了广泛的实验,以验证我们方法的有效性。当输入分辨率增加时,与以前的基于变压器和基于卷积的网络相比,GFLOP的增长率较慢。特别是,我们的方法达到了最新的图像分类精度,其参数比以前的方法少50%。
translated by 谷歌翻译
视觉变压器(VIT)用作强大的视觉模型。与卷积神经网络不同,在前几年主导视觉研究,视觉变压器享有捕获数据中的远程依赖性的能力。尽管如此,任何变压器架构的组成部分,自我关注机制都存在高延迟和低效的内存利用,使其不太适合高分辨率输入图像。为了缓解这些缺点,分层视觉模型在非交错的窗口上局部使用自我关注。这种放松会降低输入尺寸的复杂性;但是,它限制了横窗相互作用,损害了模型性能。在本文中,我们提出了一种新的班次不变的本地注意层,称为查询和参加(QNA),其以重叠的方式聚集在本地输入,非常类似于卷积。 QNA背后的关键想法是介绍学习的查询,这允许快速高效地实现。我们通过将其纳入分层视觉变压器模型来验证我们的层的有效性。我们展示了速度和内存复杂性的改进,同时实现了与最先进的模型的可比准确性。最后,我们的图层尺寸尤其良好,窗口大小,需要高于X10的内存,而不是比现有方法更快。
translated by 谷歌翻译