人类活动识别(HAR)已成为嵌入式设备(例如智能手表)越来越流行的任务。大多数用于超低功率设备的HAR系统基于经典机器学习(ML)模型,而深度学习(DL)虽然达到最先进的精度,但由于其高能量消耗而不太受欢迎,这构成对电池经营和资源约束的设备的重大挑战。在这项工作中,由于由决策树(DT)和一个维度卷积神经网络(1D CNN)组成的层次结构,我们弥合了设备HAR和DL之间的差距。这两个分类器以两种不同的子任务的方式运行:DT仅分类最简单的活动,而CNN则处理更复杂的活动。通过对最先进的数据集进行实验并针对单核RISC-V MCU,我们表明这种方法可节省高达67.7%的能源W.R.T. ISO准确性的“独立” DL架构。此外,两阶段系统要么引入可忽略不计的内存开销(最多200 b),要么相反,可以减少整体记忆职业。
translated by 谷歌翻译
基于惯性数据的人类活动识别(HAR)是从智能手机到超低功率传感器的嵌入式设备上越来越扩散的任务。由于深度学习模型的计算复杂性很高,因此大多数嵌入式HAR系统基于简单且不那么精确的经典机器学习算法。这项工作弥合了在设备上的HAR和深度学习之间的差距,提出了一组有效的一维卷积神经网络(CNN),可在通用微控制器(MCUS)上部署。我们的CNN获得了将超参数优化与子字节和混合精确量化的结合,以在分类结果和记忆职业之间找到良好的权衡。此外,我们还利用自适应推断作为正交优化,以根据处理后的输入来调整运行时的推理复杂性,从而产生更灵活的HAR系统。通过在四个数据集上进行实验,并针对超低功率RISC-V MCU,我们表明(i)我们能够为HAR获得一组丰富的帕累托(Pareto)最佳CNN,以范围超过1个数量级记忆,潜伏期和能耗; (ii)由于自适应推断,我们可以从单个CNN开始得出> 20个运行时操作模式,分类分数的不同程度高达10%,并且推理复杂性超过3倍,并且内存开销有限; (iii)在四个基准中的三个基准中,我们的表现都超过了所有以前的深度学习方法,将记忆占用率降低了100倍以上。获得更好性能(浅层和深度)的少数方法与MCU部署不兼容。 (iv)我们所有的CNN都与推理延迟<16ms的实时式evice Har兼容。他们的记忆职业在0.05-23.17 kb中有所不同,其能源消耗为0.005和61.59 UJ,可在较小的电池供应中进行多年的连续操作。
translated by 谷歌翻译
人类活动识别(HAR)是健康监测的关键应用之一,需要连续使用可穿戴设备来跟踪日常活动。本文提出了一种适用于适用于低功率边缘装置的节能HAR(AHAR)的自适应CNN。与传统的早期退出架构不同,这是基于分类信心的出口决策,AHAR提出了一种新的自适应架构,其使用输出块预测器选择在推理阶段期间使用的基线架构的一部分。实验结果表明,传统的早期退出架构遭受性能损失,而我们的自适应架构提供类似或更好的性能作为基线,同时节能。我们验证了从两个数据集合机会和W-Har分类机置活动的方法。与机会数据集的雾/云计算方法相比,我们的基线和自适应架构分别显示了相当的加权F1得分为91.79%,分别为91.57%。对于W-HAR数据集,我们的基线和自适应架构分别优于最先进的工程,其加权F1分别为97.55%和97.64%。与机会数据集的作品相比,真实硬件对真实硬件的评估表明,我们的基线架构是显着的节能(少422.38倍)和记忆效率(14.29倍)。对于W-Har DataSet,与最先进的工作相比,我们的基线架构需要2.04倍的能量和2.18倍的内存。此外,实验结果表明,我们的自适应架构是12.32%(机会)和11.14%(W-HAR)的节能,而不是我们的基线,同时提供类似的(机会)或更好的(W-HAR)性能,没有显着的记忆开销。
translated by 谷歌翻译
关键字斑点(kWs)是一个重要的功能,使我们的周围环境中许多无处不在的智能设备进行交互,可以通过唤醒词或直接作为人机界面激活它们。对于许多应用程序,KWS是我们与设备交互的进入点,因此,始终是ON工作负载。许多智能设备都是移动的,并且它们的电池寿命受到持续运行的服务受到严重影响。因此,KWS和类似的始终如一的服务是在优化整体功耗时重点。这项工作解决了低成本微控制器单元(MCU)的KWS节能。我们将模拟二元特征提取与二元神经网络相结合。通过用拟议的模拟前端取代数字预处理,我们表明数据采集和预处理所需的能量可以减少29倍,将其份额从主导的85%的份额削减到仅为我们的整体能源消耗的16%参考KWS应用程序。语音命令数据集的实验评估显示,所提出的系统分别优于最先进的准确性和能效,在10级数据集中分别在10级数据集上达到1%和4.3倍,同时提供令人信服的精度 - 能源折衷包括71倍能量减少2%的精度下降。
translated by 谷歌翻译
量化广泛用于云和边缘系统,以减少深层神经网络的记忆占用,潜伏期和能耗。特别是,混合精液量化,即,在网络的不同部分中使用不同的位宽度,已被证明可以提供出色的效率提高,尤其是通过自动化神经体系结构确定的优化的位宽度分配,尤其是通过自动化的位宽度分配(NAS)工具。最先进的混合精液在层面上,即,它对每个网络层的权重和激活张量使用不同的位宽度。在这项工作中,我们扩大了搜索空间,提出了一种新颖的NA,该NAS独立选择每个重量张量通道的位宽度。这为工具提供了额外的灵活性,即仅针对与最有用的功能相关的权重分配更高的精度。在MLPERF微小的基准套件上进行测试,我们获得了精确度大小与精度与能量空间的帕累托最佳模型的丰富集合。当部署在MPIC RISC-V边缘处理器上时,我们的网络将记忆和能量分别减少了63%和27%,而与层的方法相比,以相同的精度为单位。
translated by 谷歌翻译
已经提出了高效和自适应计算机视觉系统以使计算机视觉任务,例如图像分类和对象检测,针对嵌入或移动设备进行了优化。这些解决方案最近的起源,专注于通过设计具有近似旋钮的自适应系统来优化模型(深神经网络,DNN)或系统。尽管最近的几项努力,但我们表明现有解决方案遭受了两个主要缺点。首先,系统不考虑模型的能量消耗,同时在制定要运行的模型的决定时。其次,由于其他共同居民工作负载,评估不考虑设备上的争用的实际情况。在这项工作中,我们提出了一种高效和自适应的视频对象检测系统,这是联合优化的精度,能量效率和延迟。底层Virtuoso是一个多分支执行内核,它能够在精度 - 能量 - 延迟轴上的不同运行点处运行,以及轻量级运行时调度程序,以选择最佳的执行分支以满足用户要求。要与Virtuoso相当比较,我们基准于15件最先进的或广泛使用的协议,包括更快的R-CNN(FRCNN),YOLO V3,SSD,培训台,SELSA,MEGA,REPP,FastAdapt和我们的内部FRCNN +,YOLO +,SSD +和高效+(我们的变体具有增强的手机效率)的自适应变体。通过这种全面的基准,Virtuoso对所有上述协议显示出优势,在NVIDIA Jetson Mobile GPU上的每一项效率水平上引领精度边界。具体而言,Virtuoso的准确性为63.9%,比一些流行的物体检测模型高于10%,51.1%,yolo为49.5%。
translated by 谷歌翻译
可穿戴设备和医疗器互联网(IOMT)的最新发展允许实时监控和记录心电图(ECG)信号。然而,由于能量和内存约束,对ECG信号的连续监测在低功耗可穿戴设备中具有挑战性。因此,在本文中,我们提出了一种新颖和节能的方法,用于连续监测低功耗可穿戴设备的心脏。所提出的方法由三个不同的层组成:1)噪声/伪像检测层,以级别ECG信号的质量; 2)正常/异常拍摄分类层以检测心电图信号中的异常,3)异常搏动分类层以检测来自ECG信号的疾病。此外,分布式多输出卷积神经网络(CNN)架构用于降低边缘/云之间的能量消耗和等待时间。我们的方法论在众所周知的MIT-BIH心律失常数据集上达到了99.2%的准确性。 Real硬件的评估表明,我们的方法是适用于具有32KB最小RAM的设备。此外,与最先进的工作相比,所提出的方法可以获得7美元的能效。
translated by 谷歌翻译
深神经网络(DNNS)在各种机器学习(ML)应用程序中取得了巨大成功,在计算机视觉,自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是,基于DNN的ML应用程序也带来计算和存储要求的增加了很多,对于具有有限的计算/存储资源,紧张的功率预算和较小形式的嵌入式系统而言,这尤其具有挑战性。挑战还来自各种特定应用的要求,包括实时响应,高通量性能和可靠的推理准确性。为了应对这些挑战,我们介绍了一系列有效的设计方法,包括有效的ML模型设计,定制的硬件加速器设计以及硬件/软件共同设计策略,以启用嵌入式系统上有效的ML应用程序。
translated by 谷歌翻译
机器学习的进步为低端互联网节点(例如微控制器)带来了新的机会,将情报带入了情报。传统的机器学习部署具有较高的记忆力,并计算足迹阻碍了其在超资源约束的微控制器上的直接部署。本文强调了为MicroController类设备启用机载机器学习的独特要求。研究人员为资源有限的应用程序使用专门的模型开发工作流程,以确保计算和延迟预算在设备限制之内,同时仍保持所需的性能。我们表征了微控制器类设备的机器学习模型开发的广泛适用的闭环工作流程,并表明几类应用程序采用了它的特定实例。我们通过展示多种用例,将定性和数值见解介绍到模型开发的不同阶段。最后,我们确定了开放的研究挑战和未解决的问题,要求仔细考虑前进。
translated by 谷歌翻译
最近,使用卷积神经网络(CNNS)存在移动和嵌入式应用的爆炸性增长。为了减轻其过度的计算需求,开发人员传统上揭示了云卸载,突出了高基础设施成本以及对网络条件的强烈依赖。另一方面,强大的SOC的出现逐渐启用设备执行。尽管如此,低端和中层平台仍然努力充分运行最先进的CNN。在本文中,我们展示了Dyno,一种分布式推断框架,将两全其人的最佳框架结合起来解决了几个挑战,例如设备异质性,不同的带宽和多目标要求。启用这是其新的CNN特定数据包装方法,其在onloading计算时利用CNN的不同部分的精度需求的可变性以及其新颖的调度器,该调度器共同调谐分区点并在运行时传输数据精度适应其执行环境的推理。定量评估表明,Dyno优于当前最先进的,通过竞争对手的CNN卸载系统,在竞争对手的CNN卸载系统上提高吞吐量超过一个数量级,最高可达60倍的数据。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
在过去的二十年中,癫痫发作检测和预测算法迅速发展。然而,尽管性能得到了重大改进,但它们使用常规技术(例如互补的金属氧化物 - 轴导剂(CMO))进行的硬件实施,在权力和面积受限的设置中仍然是一项艰巨的任务;特别是当使用许多录音频道时。在本文中,我们提出了一种新型的低延迟平行卷积神经网络(CNN)体系结构,与SOTA CNN体系结构相比,网络参数少2-2,800倍,并且达到5倍的交叉验证精度为99.84%,用于癫痫发作检测,检测到99.84%。癫痫发作预测的99.01%和97.54%分别使用波恩大学脑电图(EEG),CHB-MIT和SWEC-ETHZ癫痫发作数据集进行评估。随后,我们将网络实施到包含电阻随机存储器(RRAM)设备的模拟横梁阵列上,并通过模拟,布置和确定系统中CNN组件的硬件要求来提供全面的基准。据我们所知,我们是第一个平行于在单独的模拟横杆上执行卷积层内核的人,与SOTA混合Memristive-CMOS DL加速器相比,潜伏期降低了2个数量级。此外,我们研究了非理想性对系统的影响,并研究了量化意识培训(QAT),以减轻由于ADC/DAC分辨率较低而导致的性能降解。最后,我们提出了一种卡住的重量抵消方法,以减轻因卡住的Ron/Roff Memristor重量而导致的性能降解,而无需再进行重新培训而恢复了高达32%的精度。我们平台的CNN组件估计在22nm FDSOI CMOS流程中占据31.255mm $^2 $的面积约为2.791W。
translated by 谷歌翻译
第五代(5G)网络和超越设想巨大的东西互联网(物联网)推出,以支持延长现实(XR),增强/虚拟现实(AR / VR),工业自动化,自主驾驶和智能所有带来的破坏性应用一起占用射频(RF)频谱的大规模和多样化的IOT设备。随着频谱嘎嘎和吞吐量挑战,这种大规模的无线设备暴露了前所未有的威胁表面。 RF指纹识别是预约的作为候选技术,可以与加密和零信任安全措施相结合,以确保无线网络中的数据隐私,机密性和完整性。在未来的通信网络中,在这项工作中,在未来的通信网络中的相关性,我们对RF指纹识别方法进行了全面的调查,从传统观点到最近的基于深度学习(DL)的算法。现有的调查大多专注于无线指纹方法的受限制呈现,然而,许多方面仍然是不可能的。然而,在这项工作中,我们通过解决信号智能(SIGINT),应用程序,相关DL算法,RF指纹技术的系统文献综述来缓解这一点,跨越过去二十年的RF指纹技术的系统文献综述,对数据集和潜在研究途径的讨论 - 必须以百科全书的方式阐明读者的必要条件。
translated by 谷歌翻译
通过将退出层添加到深度学习网络中,早期出口可以通过准确的结果终止推理。是退出还是继续下一层的被动决策必须经过每个预位的退出层,直到其退出为止。此外,还很难在推理收益旁调整计算平台的配置。通过合并低成本预测引擎,我们为计算和节能深度学习应用提供了预测出口框架。预测出口可以预测网络将退出的位置(即,建立剩余层的数量以完成推理),这可以通过按时何时退出而无需运行每个预定位置的退出层来有效地降低网络计算成本。此外,根据剩余层的数量,选择了正确的计算配置(即频率和电压)以执行网络以进一步节省能源。广泛的实验结果表明,与经典的深度学习网络相比,预测性退出可实现多达96.2%的计算减少和72.9%的能量。与最先进的退出策略相比,与早期退出相比,降低了12.8%的计算和37.6%的能量,鉴于相同的推理准确性和潜伏期。
translated by 谷歌翻译
我们介绍了MLPERF小型推理基准(FPGA)平台上MLPERF微小的推理基准的最新结果。我们使用开源HLS4ML和Finn工作流,旨在使FPGA中优化神经网络的AI硬件代码民主化。我们介绍关键字发现,异常检测和图像分类基准任务的设计和实现过程。最终的硬件实现是针对速度和效率量身定制的,可配置的,可配置的空间数据流体系结构,并引入了新的通用优化和作为本工作的一部分开发的常见工作流程。完整的工作流程从量化感知培训到FPGA实施。该解决方案部署在芯片(PYNQ-Z2)和纯FPGA(ARTY A7-100T)平台上。由此产生的提交的潜伏期低至20 $ \ mu $ s和每次推论的低至30 $ \ mu $ j的能耗。我们展示了异质硬件平台上新兴的ML基准如何催化协作和开发新技术和更容易访问的工具。
translated by 谷歌翻译
关键字斑点(KWS)已成为许多智能设备的不可或缺的一部分,因为音频是与这些设备交互的最有效方法之一。 KWS解决方案的准确性和性能一直是研究人员的主要焦点,并且由于深入学习,在这个领域取得了实质性的进展。然而,随着KWS的使用传播到IOT设备中,除了性能之外,能量效率成为一个非常关键的要求。我们相信在硬件和神经网络(NN)模型架构中都会寻求功率优化的KWS解决方案在文献中的许多解决方案中是有利的,其中主要考虑了问题的架构方面。在这项工作中,我们通过考虑在MAX78000的部署端,超低功耗CNN加速器的端到端能效设计了优化的KWS CNN模型。通过组合的硬件和型号优化方法,我们实现了12个类的96.3 \%精度,同时仅消耗了每次推断的251 UJ。我们将结果与文献中的其他基于小型神经网络的KWS解决方案进行比较。此外,我们在功率优化的ARM Cortex-M4F中分享我们模型的能量消耗,以便为了清楚起见,描绘了所选硬件的有效性。
translated by 谷歌翻译
物联网设备越来越多地通过神经网络模型实施,以启用智能应用程序。从环境环境中收集能源的能源收集(EH)技术是电池可为这些设备供电的有前途的替代方法,因为维护成本较低和能源的广泛可用性。但是,能量收割机提供的功率很低,并且具有不稳定性的固有缺点,因为它随环境环境而变化。本文提出了EVE,EVE是一种自动化机器学习(AUTOML)共同探索框架,以搜索具有共享权重的所需的多模型,以进行能源收集的物联网设备。这些共享模型显着降低了记忆足迹,具有不同级别的模型稀疏性,延迟和准确性,以适应环境变化。进一步开发了有效的实施实施体系结构,以有效地执行设备上的每个模型。提出了一种运行时模型提取算法,该算法在触发特定模型模式时以可忽略的开销检索单个模型。实验结果表明,EVE生成的神经网络模型平均比没有修剪和共享的基线模型快2.5倍倍权重。
translated by 谷歌翻译
由于需要将靠近用户的所有处理和解决隐私问题需要,人工智能现在在智能手机行业中占据了智能手机行业的中心阶段。若干AI应用程序使用的卷积神经网络(CNNS)是高度资源和计算密集型。虽然新一代智能手机具有启用AI的芯片,但最小的内存和能量利用率对于许多应用程序在智能手机上同时运行。鉴于此,通过将处理的一部分卸载到云服务器的一部分来优化智能手机上的工作负载是一个重要的研究方向。在本文中,我们通过制定优化端到端延迟,内存利用率和能量消耗的多目标优化问题来分析智能手机和云服务器之间分离CNN的可行性。我们设计SmartSplit,一种基于决策分析的遗传算法来解决优化问题。我们使用多个CNN模型运行的实验显示,在智能手机和云服务器之间拆分CNN是可行的。与其他最先进的方法相比,SmartSplit的方法,SmartSplit更好。
translated by 谷歌翻译