低功率边缘-AI功能对于支持元视野的设备扩展现实(XR)应用至关重要。在这项工作中,我们研究了两个代表性的XR工作负载:(i)手动检测和(ii)眼睛分割,用于硬件设计空间探索。对于这两种应用,我们都会训练深层神经网络,并分析量化和硬件特定瓶颈的影响。通过模拟,我们评估了CPU和两个收缩推理加速器实现。接下来,我们将这些硬件解决方案与先进的技术节点进行比较。评估了将最新的新兴非易失性记忆技术(STT/SOT/VGSOT MRAM)集成到XR-AI推论管道中的影响。我们发现,可以通过在7nm节点的设计中引入非挥发性记忆来实现手部检测(IPS = 40)和眼部分割(IPS = 6)的显着能源益处(IPS = 40)(IPS = 6)。 (推断每秒)。此外,由于MRAM与传统的SRAM相比,由于MRAM的较小形式,我们可以大大减少面积(> = 30%)。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
当今的大多数计算机视觉管道都是围绕深神经网络构建的,卷积操作需要大部分一般的计算工作。与标准算法相比,Winograd卷积算法以更少的MAC计算卷积,当使用具有2x2尺寸瓷砖$ F_2 $的版本时,3x3卷积的操作计数为2.25倍。即使收益很大,Winograd算法具有较大的瓷砖尺寸,即$ f_4 $,在提高吞吐量和能源效率方面具有更大的潜力,因为它将所需的MAC降低了4倍。不幸的是,具有较大瓷砖尺寸的Winograd算法引入了数值问题,这些问题阻止了其在整数域特异性加速器上的使用和更高的计算开销,以在空间和Winograd域之间转换输入和输出数据。为了解锁Winograd $ F_4 $的全部潜力,我们提出了一种新颖的Tap-Wise量化方法,该方法克服了使用较大瓷砖的数值问题,从而实现了仅整数的推断。此外,我们介绍了以功率和区域效率的方式处理Winograd转换的自定义硬件单元,并展示了如何将此类自定义模块集成到工业级,可编程的DSA中。对大量最先进的计算机视觉基准进行了广泛的实验评估表明,Tap-Wise量化算法使量化的Winograd $ F_4 $网络几乎与FP32基线一样准确。 Winograd增强的DSA可实现高达1.85倍的能源效率,最高可用于最先进的细分和检测网络的端到端速度高达1.83倍。
translated by 谷歌翻译
在小型电池约束的物流设备上部署现代TinyML任务需要高计算能效。使用非易失性存储器(NVM)的模拟内存计算(IMC)承诺在深神经网络(DNN)推理中的主要效率提高,并用作DNN权重的片上存储器存储器。然而,在系统级别尚未完全理解IMC的功能灵活性限制及其对性能,能量和面积效率的影响。为了目标实际的端到端的IOT应用程序,IMC阵列必须括在异构可编程系统中,引入我们旨在解决这项工作的新系统级挑战。我们介绍了一个非均相紧密的聚类架构,整合了8个RISC-V核心,内存计算加速器(IMA)和数字加速器。我们在高度异构的工作负载上基准测试,例如来自MobileNetv2的瓶颈层,显示出11.5倍的性能和9.5倍的能效改进,而在核心上高度优化并行执行相比。此外,我们通过将我们的异构架构缩放到多阵列加速器,探讨了在IMC阵列资源方面对全移动级DNN(MobileNetv2)的端到端推断的要求。我们的结果表明,我们的解决方案在MobileNetv2的端到端推断上,在执行延迟方面比现有的可编程架构更好,比最先进的异构解决方案更好的数量级集成内存计算模拟核心。
translated by 谷歌翻译
基于von-neumann架构的传统计算系统,数据密集型工作负载和应用程序(如机器学习)和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈,对近数据处理(NDP),机器学习和特别是神经网络(NN)的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术,这是有效地架构基于NN的基于NN的加速器,因为它们的工作能力是:高密度/低能量存储和近记忆计算/搜索引擎。在本文中,我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类,我们强调了它们的相似之处和差异。最后,我们讨论了需要探索的开放挑战和未来的观点,以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师,芯片设计师和研究人员来说是有价值的。
translated by 谷歌翻译
嵌入式机器学习(ML)系统现在已成为部署ML服务任务的主要平台,预计对于培训ML模型而言非常重要。随之而来的是,在严格的内存约束下,总体高效部署,尤其是低功率和高吞吐量实现的挑战。在这种情况下,与常规SRAM相比,由于其非挥发性,较高的细胞密度和可伸缩性特征,STT-MRAM和SOT-MRAM等非易失性记忆(NVM)技术具有显着优势。虽然先前的工作已经调查了NVM对通用应用的几种架构含义,但在这项工作中,我们提出了DeepNVM ++,这是一个综合框架,用于表征,模型和分析基于NVM的GPU架构中的基于NVM的CACHES,通过结合技术特异性的技术应用程序(DL)应用程序(DL)应用程序。电路级模型和各种DL工作负载的实际内存行为。 DEEPNVM ++依赖于使用常规SRAM和新兴STT-MRAM和SOT-MRAM Technologies实施的最后级别缓存的ISO容量和ISO区域性能和能量模型。在ISO容量的情况下,与常规的SRAM相比,STT-MRAM和SOT-MRAM可提供高达3.8倍和4.7倍的能量延迟产品(EDP)的降低以及2.4倍和2.8倍面积。在ISO-AREA假设下,STT-MRAM和SOT-MRAM可提供高达2.2倍和2.4倍的EDP降低,并且与SRAM相比,分别可容纳2.3倍和3.3倍的缓存能力。我们还执行可伸缩性分析,并表明与大型缓存能力相比,STT-MRAM和SOT-MRAM与SRAM相比实现了EDP的降低。 DEEPNVM ++在STT-/SOT-MRAM技术上进行了证明,可用于DL应用中GPU中最后一级缓存的任何NVM技术的表征,建模和分析。
translated by 谷歌翻译
深神经网络(DNNS)在各种机器学习(ML)应用程序中取得了巨大成功,在计算机视觉,自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是,基于DNN的ML应用程序也带来计算和存储要求的增加了很多,对于具有有限的计算/存储资源,紧张的功率预算和较小形式的嵌入式系统而言,这尤其具有挑战性。挑战还来自各种特定应用的要求,包括实时响应,高通量性能和可靠的推理准确性。为了应对这些挑战,我们介绍了一系列有效的设计方法,包括有效的ML模型设计,定制的硬件加速器设计以及硬件/软件共同设计策略,以启用嵌入式系统上有效的ML应用程序。
translated by 谷歌翻译
随着机器学习和系统社区努力通过自定义深度神经网络(DNN)加速器,多样的精度或量化水平以及模型压缩技术来实现更高的能源效率,因此需要设计空间探索框架,以结合量化意识的处理。在具有准确和快速的功率,性能和区域模型的同时,进入加速器设计空间。在这项工作中,我们提出了Quidam,这是一种高度参数化的量化量化DNN加速器和模型共探索框架。我们的框架可以促进对DNN加速器设计空间探索的未来研究,以提供各种设计选择,例如位精度,处理元素类型,处理元素的刮擦大小,全局缓冲区大小,总处理元素的数量和DNN配置。我们的结果表明,不同的精确度和处理元素类型会导致每个区域和能量性能方面的显着差异。具体而言,我们的框架标识了广泛的设计点,其中每个面积和能量的性能分别差异超过5倍和35倍。通过拟议的框架,我们表明,与最佳基于INT16的实施相比,轻巧的处理元素可在准确性结果上实现,每个区域的性能和能源改善高达5.7倍。最后,由于预先特征的功率,性能和区域模型的效率,Quidam可以将设计勘探过程加快3-4个数量级,因为它消除了每种设计的昂贵合成和表征的需求。
translated by 谷歌翻译
卷积神经网络(CNN)在各种应用域中达到高精度,但需要大量的计算和产生昂贵的数据移动。在交易准确性时降低这些成本的一种方法是体重和/或激活单词长度的减少。因此,层的混合精液量化可以在充气设计空间时产生更有效的结果。在这项工作中,我们提出了一种深入的定量方法,以考虑给定FPGA的硬件资源有限的硬件资源,以有效地探索设计空间。我们的整体探索方法从架构到逻辑级别垂直穿越各种设计入门级别,并横向涵盖从处理元素到数据流的优化,以获得有效的混合过度CNN加速器。我们由此产生的硬件加速器实施了真正的混合精确操作,从而有效地执行了层和频道量化的CNN。映射进料和身份转换连接混合精液CNNS导致竞争精度 - 触及折衷方案:245帧/s,RESNET-18的最高率为87.48%,resNet-18的前5位准确性和92.9%的前5位准确性,1.13 TOPS/TOPS/TOPS/TOPS/TOPS/ S分别用于Resnet-152。因此,与各自的浮点基线相比,参数所需的内存足迹减少了4.9倍和9.4倍。
translated by 谷歌翻译
关键字斑点(kWs)是一个重要的功能,使我们的周围环境中许多无处不在的智能设备进行交互,可以通过唤醒词或直接作为人机界面激活它们。对于许多应用程序,KWS是我们与设备交互的进入点,因此,始终是ON工作负载。许多智能设备都是移动的,并且它们的电池寿命受到持续运行的服务受到严重影响。因此,KWS和类似的始终如一的服务是在优化整体功耗时重点。这项工作解决了低成本微控制器单元(MCU)的KWS节能。我们将模拟二元特征提取与二元神经网络相结合。通过用拟议的模拟前端取代数字预处理,我们表明数据采集和预处理所需的能量可以减少29倍,将其份额从主导的85%的份额削减到仅为我们的整体能源消耗的16%参考KWS应用程序。语音命令数据集的实验评估显示,所提出的系统分别优于最先进的准确性和能效,在10级数据集中分别在10级数据集上达到1%和4.3倍,同时提供令人信服的精度 - 能源折衷包括71倍能量减少2%的精度下降。
translated by 谷歌翻译
In recent years, image and video delivery systems have begun integrating deep learning super-resolution (SR) approaches, leveraging their unprecedented visual enhancement capabilities while reducing reliance on networking conditions. Nevertheless, deploying these solutions on mobile devices still remains an active challenge as SR models are excessively demanding with respect to workload and memory footprint. Despite recent progress on on-device SR frameworks, existing systems either penalize visual quality, lead to excessive energy consumption or make inefficient use of the available resources. This work presents NAWQ-SR, a novel framework for the efficient on-device execution of SR models. Through a novel hybrid-precision quantization technique and a runtime neural image codec, NAWQ-SR exploits the multi-precision capabilities of modern mobile NPUs in order to minimize latency, while meeting user-specified quality constraints. Moreover, NAWQ-SR selectively adapts the arithmetic precision at run time to equip the SR DNN's layers with wider representational power, improving visual quality beyond what was previously possible on NPUs. Altogether, NAWQ-SR achieves an average speedup of 7.9x, 3x and 1.91x over the state-of-the-art on-device SR systems that use heterogeneous processors (MobiSR), CPU (SplitSR) and NPU (XLSR), respectively. Furthermore, NAWQ-SR delivers an average of 3.2x speedup and 0.39 dB higher PSNR over status-quo INT8 NPU designs, but most importantly mitigates the negative effects of quantization on visual quality, setting a new state-of-the-art in the attainable quality of NPU-based SR.
translated by 谷歌翻译
深度神经网络(DNN)在各个领域的有效性(例如分类问题,图像处理,视频细分和语音识别)已被证明。加速器内存(AIM)架构是有效加速DNN的有前途解决方案,因为它们可以避免传统的von Neumann架构的内存瓶颈。由于主要内存通常在许多系统中是DRAM,因此在DRAM中高度平行的多重含用(MAC)阵列可以通过减少处理器和主内存之间的数据运动的距离和数量来最大化目标的好处。本文介绍了一个名为MAC-DO的基于模拟MAC阵列的AIM架构。与以前的IN-DRAM加速器相反,MAC-DO使整个DRAM阵列同时参与MAC计算,而无需闲置细胞,从而导致更高的吞吐量和能量效率。通过利用基于电荷转向的新的模拟计算方法来实现这种改进。此外,Mac-Do天生支持具有良好线性的多位Mac。 MAC-DO仍然与当前的1T1C DRAM技术兼容,而没有任何DRAM单元格和数组的修改。 MAC-DO数组可以基于输出固定映射加速矩阵乘法,因此支持DNN中执行的大多数计算。我们使用晶体管级仿真的评估表明,具有16 x 16 Mac-Do细胞的测试MAC-DO阵列可达到188.7 TOPS/W,并显示了MNIST数据集的97.07%TOP-1准确性,而无需重新培训。
translated by 谷歌翻译
The last few years have seen a lot of work to address the challenge of low-latency and high-throughput convolutional neural network inference. Integrated photonics has the potential to dramatically accelerate neural networks because of its low-latency nature. Combined with the concept of Joint Transform Correlator (JTC), the computationally expensive convolution functions can be computed instantaneously (time of flight of light) with almost no cost. This 'free' convolution computation provides the theoretical basis of the proposed PhotoFourier JTC-based CNN accelerator. PhotoFourier addresses a myriad of challenges posed by on-chip photonic computing in the Fourier domain including 1D lenses and high-cost optoelectronic conversions. The proposed PhotoFourier accelerator achieves more than 28X better energy-delay product compared to state-of-art photonic neural network accelerators.
translated by 谷歌翻译
量化是一种降低DNN模型的计算和记忆成本的技术,DNN模型越来越大。现有的量化解决方案使用固定点整数或浮点类类型,这些量子的好处有限,因为两者都需要更多位以保持原始型号的准确性。另一方面,可变长度量化使用低位量化对正常值和高精度的分数对异常值的一部分。即使这项工作带来了算法的好处,但由于长度的编码和解码,它也引入了重要的硬件开销。在这项工作中,我们提出了一种称为ANT的固定长度自适应数值数据类型,以通过微小的硬件开销实现低位量化。我们的数据类型ANT利用了两项关键创新来利用DNN模型中的张贴内和调整的自适应机会。首先,我们提出了一种特定的数据类型Flint,该数据类型结合了Float和INT的优势,以适应张量中不同值的重要性。其次,我们提出了一个自适应框架,该框架根据其分布特性选择每个张量的最佳类型。我们为蚂蚁设计了统一的处理元件体系结构,并显示其与现有DNN加速器的易于集成。我们的设计导致2.8 $ \ times $速度和2.5 $ \ times $ $ $ $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $比最先进的量化加速器提高了能源效率。
translated by 谷歌翻译
本文介绍了有关如何架构,设计和优化深神经网络(DNN)的最新概述,以提高性能并保留准确性。该论文涵盖了一组跨越整个机器学习处理管道的优化。我们介绍两种类型的优化。第一个改变了DNN模型,需要重新训练,而第二个则不训练。我们专注于GPU优化,但我们认为提供的技术可以与其他AI推理平台一起使用。为了展示DNN模型优化,我们在流行的Edge AI推理平台(Nvidia Jetson Agx Xavier)上改善了光流的最先进的深层网络体系结构之一,RAFT ARXIV:2003.12039。
translated by 谷歌翻译
人工神经网络的扩展不断增加,在超功率边缘设备上不会停止。但是,这些通常具有很高的计算需求,并且需要专门的硬件加速器,以确保设计达到功率和性能限制。神经网络的手动优化以及相应的硬件加速器可能非常具有挑战性。本文介绍了Hannah(硬件加速器和神经网络搜索),该框架是针对深神经网络和硬件加速器的自动化和组合的硬件/软件共同设计,用于资源和功率受限的边缘设备。优化方法使用基于进化的搜索算法,一种神经网络模板技术以及可配置的Ultratrail硬件加速器模板的分析KPI模型,以找到优化的神经网络和加速器配置。我们证明,汉娜(Hannah)可以找到适合不同音频分类任务的功耗和高精度的合适神经网络,例如单级唤醒单词检测,多级关键字检测和语音活动检测,这些操作优于相关工作。
translated by 谷歌翻译
神经网络(NNS)的重要性和复杂性正在增长。神经网络的性能(和能源效率)可以通过计算或内存资源约束。在内存阵列附近或内部放置计算的内存处理(PIM)范式是加速内存绑定的NNS的可行解决方案。但是,PIM体系结构的形式各不相同,其中不同的PIM方法导致不同的权衡。我们的目标是分析基于NN的性能和能源效率的基于DRAM的PIM架构。为此,我们分析了三个最先进的PIM架构:(1)UPMEM,将处理器和DRAM阵列集成到一个2D芯片中; (2)Mensa,是针对边缘设备量身定制的基于3D堆栈的PIM架构; (3)Simdram,它使用DRAM的模拟原理来执行位序列操作。我们的分析表明,PIM极大地受益于内存的NNS:(1)UPMEM在GPU需要内存过度按要求的通用矩阵 - 矢量乘数内核时提供23x高端GPU的性能; (2)Mensa在Google Edge TPU上提高了3.0倍和3.1倍的能源效率和吞吐量,用于24个Google Edge NN型号; (3)SIMDRAM在三个二进制NNS中以16.7倍/1.4倍的速度优于CPU/GPU。我们得出的结论是,由于固有的建筑设计选择,NN模型的理想PIM体系结构取决于模型的独特属性。
translated by 谷歌翻译
在深度学习中,变压器一直是必不可少的主食。但是,对于现实生活中的应用程序,由于模型的巨大参数和操作,部署有效的变压器非常具有挑战性。为了减轻这种负担,利用稀疏是加速变压器的有效方法。新出现的Ampere GPU利用2:4的稀疏模式来实现模型加速度,而在部署模型时,它几乎无法满足各种算法和硬件约束。相比之下,我们提出了一个算法 - 铁软件合作的框架,以灵活有效地加速变压器,通过使用一般的N:M稀疏模式。 (1)从算法的角度来看,我们提出了一种稀疏性遗传机制以及一种遗传的动态修剪(IDP)方法,以迅速获得一系列N:M稀疏候选变压器。进一步提出了模型压缩方案,以显着减少部署的存储需求。 (2)从硬件的角度来看,我们提出了一种灵活,有效的硬件体系结构,即STA,以在部署N:M稀疏变压器时达到显着加速。 STA不仅具有具有较高计算效率的稀疏密度和致密矩阵乘法的计算引擎,而且还具有可扩展的软模块,从而消除了中级外芯片外数据通信的延迟。实验结果表明,与其他使用IDP生成的其他方法相比,n:m稀疏变压器的准确性平均提高了6.7%。此外,与Intel I9-9900X和NVIDIA RTX 2080 TI相比,STA可以达到14.47倍和11.33倍的速度,并且比最先进的基于FPGA的加速器对变形金刚的最先进的推断速度可以快2.00-19.47倍。
translated by 谷歌翻译
已经提出了高效和自适应计算机视觉系统以使计算机视觉任务,例如图像分类和对象检测,针对嵌入或移动设备进行了优化。这些解决方案最近的起源,专注于通过设计具有近似旋钮的自适应系统来优化模型(深神经网络,DNN)或系统。尽管最近的几项努力,但我们表明现有解决方案遭受了两个主要缺点。首先,系统不考虑模型的能量消耗,同时在制定要运行的模型的决定时。其次,由于其他共同居民工作负载,评估不考虑设备上的争用的实际情况。在这项工作中,我们提出了一种高效和自适应的视频对象检测系统,这是联合优化的精度,能量效率和延迟。底层Virtuoso是一个多分支执行内核,它能够在精度 - 能量 - 延迟轴上的不同运行点处运行,以及轻量级运行时调度程序,以选择最佳的执行分支以满足用户要求。要与Virtuoso相当比较,我们基准于15件最先进的或广泛使用的协议,包括更快的R-CNN(FRCNN),YOLO V3,SSD,培训台,SELSA,MEGA,REPP,FastAdapt和我们的内部FRCNN +,YOLO +,SSD +和高效+(我们的变体具有增强的手机效率)的自适应变体。通过这种全面的基准,Virtuoso对所有上述协议显示出优势,在NVIDIA Jetson Mobile GPU上的每一项效率水平上引领精度边界。具体而言,Virtuoso的准确性为63.9%,比一些流行的物体检测模型高于10%,51.1%,yolo为49.5%。
translated by 谷歌翻译
配备高速数字化器的前端电子设备正在使用并建议将来的核检测器。最近的文献表明,在处理来自核检测器的数字信号时,深度学习模型,尤其是一维卷积神经网络。模拟和实验证明了该领域神经网络的令人满意的准确性和其他好处。但是,仍需要研究特定的硬件加速在线操作。在这项工作中,我们介绍了Pulsedl-II,这是一种专门设计的,专门为事件功能(时间,能量等)从具有深度学习的脉冲中提取的应用。根据先前的版本,PULSEDL-II将RISC CPU纳入系统结构,以更好地功能灵活性和完整性。 SOC中的神经网络加速器采用三级(算术单元,处理元件,神经网络)层次结构,并促进数字设计的参数优化。此外,我们设计了一种量化方案和相关的实现方法(恢复和位移位),以在所选层类型的选定子集中与深度学习框架(例如Tensorflow)完全兼容。通过当前方案,支持神经网络的量化训练,并通过专用脚本自动将网络模型转换为RISC CPU软件,几乎没有准确性损失。我们在现场可编程门阵列(FPGA)上验证pulsedl-ii。最后,通过由直接数字合成(DDS)信号发生器和带有模数转换器(ADC)的FPGA开发板组成的实验设置进行系统验证。拟议的系统实现了60 PS的时间分辨率和0.40%的能量分辨率,在线神经网络推断在信号与噪声比(SNR)为47.4 dB时。
translated by 谷歌翻译