视觉变压器(VIT)正在出现,并且在计算机视觉任务中的准确性显着提高。但是,它们的复杂架构和巨大的计算/存储需求对新硬件加速器设计方法施加了紧迫的需求。这项工作提出了基于提议的混合速度量化的FPGA感知自动VIT加速框架。据我们所知,这是探索模型量化的第一个基于FPGA的VIT加速框架。与最先进的VIT量化工作(仅无硬件加速的算法方法)相比,我们的量化在相同的位宽度下可实现0.47%至1.36%的TOP-1精度。与32位浮点基线FPGA加速器相比,我们的加速器在框架速率上的提高约为5.6倍(即56.8 fps vs. 10.0 fps),对于DeitBase的ImagEnet数据集,精度下降了0.71%。
translated by 谷歌翻译
Post-training quantization (PTQ), which only requires a tiny dataset for calibration without end-to-end retraining, is a light and practical model compression technique. Recently, several PTQ schemes for vision transformers (ViTs) have been presented; unfortunately, they typically suffer from non-trivial accuracy degradation, especially in low-bit cases. In this paper, we propose RepQ-ViT, a novel PTQ framework for ViTs based on quantization scale reparameterization, to address the above issues. RepQ-ViT decouples the quantization and inference processes, where the former employs complex quantizers and the latter employs scale-reparameterized simplified quantizers. This ensures both accurate quantization and efficient inference, which distinguishes it from existing approaches that sacrifice quantization performance to meet the target hardware. More specifically, we focus on two components with extreme distributions: post-LayerNorm activations with severe inter-channel variation and post-Softmax activations with power-law features, and initially apply channel-wise quantization and log$\sqrt{2}$ quantization, respectively. Then, we reparameterize the scales to hardware-friendly layer-wise quantization and log2 quantization for inference, with only slight accuracy or computational costs. Extensive experiments are conducted on multiple vision tasks with different model variants, proving that RepQ-ViT, without hyperparameters and expensive reconstruction procedures, can outperform existing strong baselines and encouragingly improve the accuracy of 4-bit PTQ of ViTs to a usable level.
translated by 谷歌翻译
在本文中,我们提出了一种称为Q-Vit的视觉变压器(VIT)的完全可区分的量化方法,其中两个量化标度和位宽度都是可学习的参数。具体而言,根据我们的观察,即VIT显示出不同的量化鲁棒性,我们利用头部宽度的位宽度来挤压Q-Vit的大小,同时保持性能。此外,我们提出了一种名为“可切换量表”的新技术,以解决量级和位宽度的联合训练中的收敛问题。这样,Q-Vit将VIT量化的限制推向了3位,而不会降低性能。此外,我们分析了VIT的每个体系结构成分的量化鲁棒性,并表明多头自我注意力(MSA)和高斯误差线性单元(GELU)是VIT量化的关键方面。这项研究提供了一些有关VIT量化的进一步研究的见解。在不同的VIT模型(例如DEIT和SWIN Transformer)上进行的广泛实验显示了我们量化方法的有效性。特别是,我们的方法优于最先进的统一量化方法,而Deit微型的量化方法则优于1.5%。
translated by 谷歌翻译
深神经网络(DNNS)在各种机器学习(ML)应用程序中取得了巨大成功,在计算机视觉,自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是,基于DNN的ML应用程序也带来计算和存储要求的增加了很多,对于具有有限的计算/存储资源,紧张的功率预算和较小形式的嵌入式系统而言,这尤其具有挑战性。挑战还来自各种特定应用的要求,包括实时响应,高通量性能和可靠的推理准确性。为了应对这些挑战,我们介绍了一系列有效的设计方法,包括有效的ML模型设计,定制的硬件加速器设计以及硬件/软件共同设计策略,以启用嵌入式系统上有效的ML应用程序。
translated by 谷歌翻译
通过FPGA加速神经网络推断作为一种流行的选择,因为FPGA的重新配置性和高性能计算能力本质上满足了快速发展神经算法的计算需求。然而,FPGA(例如,Xilinx DPU)上的受欢迎的神经加速器主要利用DSP资源来构建其处理单元,而丰富的LUT资源没有充分利用。通过软件 - 硬件共同设计方法,在这项工作中,我们开发了一种基于FPGA的异构计算系统,用于神经网络加速度。从硬件角度来看,所提出的加速器由基于DSP和LUT的一般矩阵乘法(GEMM)计算核心组成,其以异质方式形成整个计算系统。基于DSP和LUT的GEMM核心计算为W.R.T统一指令集架构(ISA)和Unified Buffers。沿着神经网络推理路径的数据流,卷积/完全连接层的计算分为两部分,由基于DSP和LUT的GEMM核心异步处理。从软件的角度来看,我们在数学上和系统地模拟所提出的异构加速器的延迟和资源利用,关于不同的系统设计配置。通过利用加强学习技术,我们构建一个框架,实现目标异构加速器的设计规范的端到端选择和优化,包括工作量分裂策略,混合精度量化方案和DSP和LUT的资源分配 - 核。凭借提出的设计框架和异构计算系统,我们的设计优于最先进的混合和匹配设计,延迟减少了1.12-1.32倍,推理准确性更高。 N3H核心是开放的:https://github.com/elliothe/n3h_core。
translated by 谷歌翻译
最近,视觉变压器(VIT)在计算机视野中连续建立了新的里程碑,而高计算和内存成本使其在工业生产中的传播困难。修剪是一种用于硬件效率的传统模型压缩范例,已广泛应用于各种DNN结构。尽管如此,它含糊不清,如何在vit结构上进行独家修剪。考虑三个关键点:结构特征,VITS的内部数据模式和相关边缘设备部署,我们利用输入令牌稀疏性并提出了一种计算感知软修剪框架,可以在扁平的vanilla变压器上设置。和CNN型结构,例如基于池的Vit(坑)。更具体地说,我们设计了一种基于动态关注的多头令牌选择器,它是一个轻量级模块,用于自适应实例 - 明智令牌选择。我们进一步引入了一种软修剪技术,它将选择器模块生成的较少的信息令牌集成到将参与后续计算的包令牌,而不是完全丢弃。我们的框架通过我们所提出的计算感知培训策略,我们通过特定边缘设备的准确性和计算限制之间的权衡。实验结果表明,我们的框架显着降低了VIT的计算成本,同时在图像分类上保持了可比性。此外,我们的框架可以保证所识别的模型,以满足移动设备和FPGA的资源规范,甚至在移动平台上实现DEIT-T的实时执行。例如,我们的方法在移动设备上减少了DEIT-T至26毫秒的延迟(26%$ \ SIM 41%的41%),在移动设备上,在0.25%$ \ sim $ 4%的ImageNet上的前1个精度高出4%。我们的代码即将发布。
translated by 谷歌翻译
网络量化显着降低了模型推理复杂性,并且已广泛用于现实世界部署。然而,大多数现有量化方法已经开发并主要测试并测试卷积神经网络(CNN),并且当应用于基于变压器的架构时遭受严重的降级。在这项工作中,我们提出了一种系统方法,以降低量化变压器的性能下降和推理复杂性。特别是,我们提出了两种规模(PTS)的权力以以硬件友好的方式处理LAbernorm输入的严重频道间变化。此外,我们提出了可以维持注意力映射的极端不均匀分布的log-int-softmax(LIS),同时通过使用4位量化和比特速度操作员简化推断。关于各种变压器的架构和基准测试的综合实验表明,我们的方法在使用Leference Maps中使用甚至更低的位宽度时,我们的方法始终以前的性能。例如,我们在Imagenet上达到85.17%的高精度,51.4地图与Coco上的级联面罩R-CNN(Swin-S)。据我们所知,我们是第一个在完全量化的视觉变压器上实现可比准确性降级(〜1%)的最初。代码可在https://github.com/linyang-zhh/fq-vit使用。
translated by 谷歌翻译
在深度学习中,变压器一直是必不可少的主食。但是,对于现实生活中的应用程序,由于模型的巨大参数和操作,部署有效的变压器非常具有挑战性。为了减轻这种负担,利用稀疏是加速变压器的有效方法。新出现的Ampere GPU利用2:4的稀疏模式来实现模型加速度,而在部署模型时,它几乎无法满足各种算法和硬件约束。相比之下,我们提出了一个算法 - 铁软件合作的框架,以灵活有效地加速变压器,通过使用一般的N:M稀疏模式。 (1)从算法的角度来看,我们提出了一种稀疏性遗传机制以及一种遗传的动态修剪(IDP)方法,以迅速获得一系列N:M稀疏候选变压器。进一步提出了模型压缩方案,以显着减少部署的存储需求。 (2)从硬件的角度来看,我们提出了一种灵活,有效的硬件体系结构,即STA,以在部署N:M稀疏变压器时达到显着加速。 STA不仅具有具有较高计算效率的稀疏密度和致密矩阵乘法的计算引擎,而且还具有可扩展的软模块,从而消除了中级外芯片外数据通信的延迟。实验结果表明,与其他使用IDP生成的其他方法相比,n:m稀疏变压器的准确性平均提高了6.7%。此外,与Intel I9-9900X和NVIDIA RTX 2080 TI相比,STA可以达到14.47倍和11.33倍的速度,并且比最先进的基于FPGA的加速器对变形金刚的最先进的推断速度可以快2.00-19.47倍。
translated by 谷歌翻译
量化是压缩神经网络最有效的方法之一,这在卷积神经网络(CNNS)上取得了巨大的成功。最近,视觉变压器在计算机视觉中表现出很大的潜力。然而,先前的训练后量化方法在视觉变压器上不良好地执行,即使在8位量化中也导致高精度下降超过1%。因此,我们分析视觉变压器的量化问题。我们观察Softmax和Gelu功能与高斯分布完全不同的激活值的分布。我们还观察到,诸如MSE和余弦距离之类的常见量化度量是不准确的以确定最佳缩放因子。在本文中,我们提出了双均匀的量化方法来减少这些激活值上的量化误差。我们建议使用Hessian的指导指标来评估不同的缩放因子,这提高了校准的准确性,成本小。为了实现Vision变形金刚的快速量化,我们开发了一个有效的框架PTQ4VIT。实验表明,量化的视觉变压器在想象集分类任务上实现了近无损预测准确度(在8位量化的8%量值下降0.5%)。
translated by 谷歌翻译
视觉变压器(VIT)在各种计算机视觉应用程序上都达到了最先进的性能。但是,这些模型具有相当大的存储和计算开销,使其部署和对边缘设备的有效推断充满了挑战。量化是降低模型复杂性的一种有前途的方法。不幸的是,现有的量化VIT的努力是模拟量化(又称假量化),该量化在推理过程中仍然是浮点算术的,因此对模型加速度无济于事。在本文中,我们提出了I-VIT,即VIT的仅整数量化方案,以使VIT能够使用整数操作和位移动和无浮点操作执行整个推理的计算图。在I-VIT中,线性操作(例如,矩阵和密集)遵循具有二元算术的仅整数管道,而非线性操作(例如,SoftMax,Gelu和Layernorm和Layernorm)近似于提议的轻量级近似算术方法。特别是,I-Vit应用了所提出的ShiftMax和ShiftGelu,它们旨在使用整数位移动来近似相应的浮点操作。我们在各种基准模型上评估了I-VIT,结果表明,仅整数INT8量化具有与完整精确(FP)基线相当(甚至更高)的精度。此外,我们在GPU的整数算术单元上使用TVM进行实用的硬件部署,与FP模型相比,实现了3.72〜4.11 $ \ times $推理的速度。
translated by 谷歌翻译
在设计高性能变压器方面有兴趣爆发。虽然变形金刚提供了显着的性能改进,但由于存储在背部经历期间梯度计算所需的所有中间激活,尤其是长序列,虽然变形金刚提供了显着的性能改进,但培训这种网络非常内存。为此,我们展示了MESA,一个用于变压器的节省记忆资源有效的训练框架。具体而言,MESA在转发过程中使用精确的激活,同时存储低精度版本的激活,以减少训练期间的内存消耗。然后在返回传播期间对低精度激活进行拆分以计算梯度。此外,为了解决多头自我注意层中的异构激活分布,我们提出了一种头脑激活量化策略,其基于每个头的统计量来量化激活,以最小化近似误差。为了进一步提高训练效率,我们通过运行估计来学习量化参数。更重要的是,通过在采用更大的批量大小或缩放模型尺寸时重新投资所保存的内存,我们可以进一步提高受约束的计算资源下的性能。关于Imagenet的广泛实验,CiFar-100和ADE20K表明,MESA可以在训练期间减少一半的内存足迹,同时实现可比或更好的性能。代码在https://github.com/zhuang-group/mesa获得
translated by 谷歌翻译
已经证明量化是提高深神经网络推理效率的重要方法(DNN)。然而,在将DNN权重或从高精度格式从高精度格式量化到它们量化的对应物的同时,在准确性和效率之间取得良好的平衡仍然具有挑战性。我们提出了一种称为弹性显着位量化(ESB)的新方法,可控制量化值的有效位数,以获得具有更少资源的更好的推理准确性。我们设计一个统一的数学公式,以限制ESB的量化值,具有灵活的有效位。我们还引入了分布差对准器(DDA),以定量对齐全精密重量或激活值和量化值之间的分布。因此,ESB适用于各种重量和DNN的激活的各种钟形分布,从而保持高推理精度。从较少的量化值中受益于较少的量化值,ESB可以降低乘法复杂性。我们将ESB实施为加速器,并定量评估其对FPGA的效率。广泛的实验结果表明,ESB量化始终如一地优于最先进的方法,并分别通过AlexNet,Resnet18和MobileNetv2的平均精度提高4.78%,1.92%和3.56%。此外,ESB作为加速器可以在Xilinx ZCU102 FPGA平台上实现1K LUT的10.95 GOPS峰值性能。与FPGA上的CPU,GPU和最先进的加速器相比,ESB加速器可以分别将能效分别提高到65倍,11x和26倍。
translated by 谷歌翻译
Vision Transformers (ViTs) have achieved state-of-the-art performance on various vision tasks. However, ViTs' self-attention module is still arguably a major bottleneck, limiting their achievable hardware efficiency. Meanwhile, existing accelerators dedicated to NLP Transformers are not optimal for ViTs. This is because there is a large difference between ViTs and NLP Transformers: ViTs have a relatively fixed number of input tokens, whose attention maps can be pruned by up to 90% even with fixed sparse patterns; while NLP Transformers need to handle input sequences of varying numbers of tokens and rely on on-the-fly predictions of dynamic sparse attention patterns for each input to achieve a decent sparsity (e.g., >=50%). To this end, we propose a dedicated algorithm and accelerator co-design framework dubbed ViTCoD for accelerating ViTs. Specifically, on the algorithm level, ViTCoD prunes and polarizes the attention maps to have either denser or sparser fixed patterns for regularizing two levels of workloads without hurting the accuracy, largely reducing the attention computations while leaving room for alleviating the remaining dominant data movements; on top of that, we further integrate a lightweight and learnable auto-encoder module to enable trading the dominant high-cost data movements for lower-cost computations. On the hardware level, we develop a dedicated accelerator to simultaneously coordinate the enforced denser/sparser workloads and encoder/decoder engines for boosted hardware utilization. Extensive experiments and ablation studies validate that ViTCoD largely reduces the dominant data movement costs, achieving speedups of up to 235.3x, 142.9x, 86.0x, 10.1x, and 6.8x over general computing platforms CPUs, EdgeGPUs, GPUs, and prior-art Transformer accelerators SpAtten and Sanger under an attention sparsity of 90%, respectively.
translated by 谷歌翻译
深度神经网络(DNN)的记录断裂性能具有沉重的参数化,导致外部动态随机存取存储器(DRAM)进行存储。 DRAM访问的禁用能量使得在资源受限的设备上部署DNN是不普遍的,呼叫最小化重量和数据移动以提高能量效率。我们呈现SmartDeal(SD),算法框架,以进行更高成本的存储器存储/访问的较低成本计算,以便在推理和培训中积极提高存储和能量效率。 SD的核心是一种具有结构约束的新型重量分解,精心制作以释放硬件效率潜力。具体地,我们将每个重量张量分解为小基矩阵的乘积以及大的结构稀疏系数矩阵,其非零被量化为-2的功率。由此产生的稀疏和量化的DNN致力于为数据移动和重量存储而大大降低的能量,因为由于稀疏的比特 - 操作和成本良好的计算,恢复原始权重的最小开销。除了推理之外,我们采取了另一次飞跃来拥抱节能培训,引入创新技术,以解决培训时出现的独特障碍,同时保留SD结构。我们还设计专用硬件加速器,充分利用SD结构来提高实际能源效率和延迟。我们在不同的设置中对多个任务,模型和数据集进行实验。结果表明:1)应用于推理,SD可实现高达2.44倍的能效,通过实际硬件实现评估; 2)应用于培训,储存能量降低10.56倍,减少了10.56倍和4.48倍,与最先进的训练基线相比,可忽略的准确性损失。我们的源代码在线提供。
translated by 谷歌翻译
与变压器架构相关的自我监督学习的最新进展使自然语言处理(NLP)表现出极低的困惑。如此强大的模型需要越来越多的模型大小,因此需要大量的计算和内存足迹。在本文中,我们为大规模生成语言模型提出了一个有效的推理框架。作为减少模型大小的关键,我们通过不均匀的量化方法量化权重。然后,我们提出的称为NUQMM的量化矩阵乘法加速了,该内核可以在压缩比和准确性之间进行广泛的权衡。我们提出的NUQMM不仅减少了每个GPU的延迟,还减少了大LMS的全部推断,因为高压缩比(通过低位量化)减轻了最小所需的GPU数量。我们证明NUQMM可以将GPT-3(175b)模型的推理速度加速约14.4倍,并将能源消耗降低93%。
translated by 谷歌翻译
最近,低精确的深度学习加速器(DLA)由于其在芯片区域和能源消耗方面的优势而变得流行,但是这些DLA上的低精确量化模型导致严重的准确性降解。达到高精度和高效推断的一种方法是在低精度DLA上部署高精度神经网络,这很少被研究。在本文中,我们提出了平行的低精确量化(PALQUANT)方法,该方法通过从头开始学习并行低精度表示来近似高精度计算。此外,我们提出了一个新型的循环洗牌模块,以增强平行低精度组之间的跨组信息通信。广泛的实验表明,PALQUANT的精度和推理速度既优于最先进的量化方法,例如,对于RESNET-18网络量化,PALQUANT可以获得0.52 \%的准确性和1.78 $ \ times $ speedup同时获得在最先进的2位加速器上的4位反片机上。代码可在\ url {https://github.com/huqinghao/palquant}中获得。
translated by 谷歌翻译
能量收集(EH)间歇性地运行的IOT设备,与深神经网络(DNN)的进步相结合,为实现可持续智能应用开辟了新的机会。然而,由于有限的资源和间歇电源导致频繁故障的挑战,实现了EH设备上的那些计算和内存密集型智能算法非常困难。为了解决这些挑战,本文提出了一种方法,使得具有用于微小能量收集装置的低能量加速器的超快速深度学习。我们首先提出了一种资源感知结构化DNN训练框架,它采用块循环矩阵与ADMM实现高压缩和模型量化,以利用各种矢量操作加速器的优点。然后提出了一种DNN实现方法,即采用低能量加速器来利用具有较小能耗的最大性能的低能量加速器。最后,我们进一步设计Flex,系统支持在能量收集情况下间歇性计算。来自三种不同DNN模型的实验结果表明RAD,ACE和FLEX可以对能源收集设备进行超快速和正确的推断,该设备可降低高达4.26倍的运行时间,高达7.7倍的能量降低,高精度在最高的状态下艺术。
translated by 谷歌翻译
量化是一种降低DNN模型的计算和记忆成本的技术,DNN模型越来越大。现有的量化解决方案使用固定点整数或浮点类类型,这些量子的好处有限,因为两者都需要更多位以保持原始型号的准确性。另一方面,可变长度量化使用低位量化对正常值和高精度的分数对异常值的一部分。即使这项工作带来了算法的好处,但由于长度的编码和解码,它也引入了重要的硬件开销。在这项工作中,我们提出了一种称为ANT的固定长度自适应数值数据类型,以通过微小的硬件开销实现低位量化。我们的数据类型ANT利用了两项关键创新来利用DNN模型中的张贴内和调整的自适应机会。首先,我们提出了一种特定的数据类型Flint,该数据类型结合了Float和INT的优势,以适应张量中不同值的重要性。其次,我们提出了一个自适应框架,该框架根据其分布特性选择每个张量的最佳类型。我们为蚂蚁设计了统一的处理元件体系结构,并显示其与现有DNN加速器的易于集成。我们的设计导致2.8 $ \ times $速度和2.5 $ \ times $ $ $ $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $比最先进的量化加速器提高了能源效率。
translated by 谷歌翻译
量化被疯狂地作为模型压缩技术,该技术通过将神经网络中的浮点重量和激活转换为低位整数来获得有效的模型。量化已被证明可以很好地在卷积神经网络和基于变压器的模型上运行。尽管这些模型具有符合性的典型性,但最近的工作表明,基于MLP的模型能够在从计算机视觉,NLP到3D点云等各种任务上取得可比的结果,同时由于并行性和网络简单性,可以实现更高的吞吐量。但是,正如我们在论文中所显示的那样,将量化直接应用于基于MLP的模型将导致明显的准确性降解。基于我们的分析,两个主要问题说明了准确性差距:1)基于MLP的模型中的激活范围可能太大而无法量化,而2)基于MLP的模型中的特定组件对量化很敏感。因此,我们建议1)应用分层以控制激活的量化范围,2)使用有界的激活功能,3)在激活上应用百分位量化,4)使用我们的改进的模块,称为多个令牌混合MLP,5)应用线性态度敏感操作的不对称量化器。我们的Q-MLP模型配备了上述技术,可以使用8位均匀量化(型号30 MB)和78.47%的Imagenet获得79.68%的精度,而4位量化(15 MB)。
translated by 谷歌翻译
Vision Transformer (ViT) has emerged as a competitive alternative to convolutional neural networks for various computer vision applications. Specifically, ViT multi-head attention layers make it possible to embed information globally across the overall image. Nevertheless, computing and storing such attention matrices incurs a quadratic cost dependency on the number of patches, limiting its achievable efficiency and scalability and prohibiting more extensive real-world ViT applications on resource-constrained devices. Sparse attention has been shown to be a promising direction for improving hardware acceleration efficiency for NLP models. However, a systematic counterpart approach is still missing for accelerating ViT models. To close the above gap, we propose a first-of-its-kind algorithm-hardware codesigned framework, dubbed ViTALiTy, for boosting the inference efficiency of ViTs. Unlike sparsity-based Transformer accelerators for NLP, ViTALiTy unifies both low-rank and sparse components of the attention in ViTs. At the algorithm level, we approximate the dot-product softmax operation via first-order Taylor attention with row-mean centering as the low-rank component to linearize the cost of attention blocks and further boost the accuracy by incorporating a sparsity-based regularization. At the hardware level, we develop a dedicated accelerator to better leverage the resulting workload and pipeline from ViTALiTy's linear Taylor attention which requires the execution of only the low-rank component, to further boost the hardware efficiency. Extensive experiments and ablation studies validate that ViTALiTy offers boosted end-to-end efficiency (e.g., $3\times$ faster and $3\times$ energy-efficient) under comparable accuracy, with respect to the state-of-the-art solution.
translated by 谷歌翻译