脊椎动物视网膜在加工琐碎的视觉任务中是高效的,例如检测移动物体,但是现代计算机的复杂任务。对象运动的检测由名为对象 - 运动敏感神经节细胞(OMS-GC)的专用视网膜神经节细胞完成。 OMS-GC处理连续信号并生成由Visual Cortex后处理的尖峰模式。本工作中提出的神经晶杂交尖峰运动检测器(NeurohSMD)使用现场可编程门阵列(FPGA)加速了HSMD算法。混合尖峰运动检测器(HSMD)算法是增强动态背景减法(DBS)算法的混合算法,其具有定制的3层尖峰神经网络(SNN),该扫描神经网络(SNN)产生OMS-GC Spiking的响应。将NeurokSmd算法与HSMD算法进行比较,使用相同的2012年改变检测(CDNET2012)和2014更改检测(CDNET2014)基准数据集。结果表明,NeurohSMD在实时生产与HSMD算法相同的结果,而不会降低质量。此外,本文提出的NeurokSMD以开放的计算机语言(OpenCL)完全实现,因此在其他设备中容易复制,例如图形处理器单元(GPU)和中央处理器单元(CPU)的集群。
translated by 谷歌翻译
The term ``neuromorphic'' refers to systems that are closely resembling the architecture and/or the dynamics of biological neural networks. Typical examples are novel computer chips designed to mimic the architecture of a biological brain, or sensors that get inspiration from, e.g., the visual or olfactory systems in insects and mammals to acquire information about the environment. This approach is not without ambition as it promises to enable engineered devices able to reproduce the level of performance observed in biological organisms -- the main immediate advantage being the efficient use of scarce resources, which translates into low power requirements. The emphasis on low power and energy efficiency of neuromorphic devices is a perfect match for space applications. Spacecraft -- especially miniaturized ones -- have strict energy constraints as they need to operate in an environment which is scarce with resources and extremely hostile. In this work we present an overview of early attempts made to study a neuromorphic approach in a space context at the European Space Agency's (ESA) Advanced Concepts Team (ACT).
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
编译器框架对于广泛使用基于FPGA的深度学习加速器来说是至关重要的。它们允许研究人员和开发人员不熟悉硬件工程,以利用域特定逻辑所获得的性能。存在传统人工神经网络的各种框架。然而,没有多大的研究努力已经进入创建针对尖刺神经网络(SNNS)进行优化的框架。这种新一代的神经网络对于在边缘设备上部署AI的越来越有趣,其具有紧密的功率和资源约束。我们的端到端框架E3NE为FPGA自动生成高效的SNN推理逻辑。基于Pytorch模型和用户参数,它应用各种优化,并评估基于峰值的加速器固有的权衡。多个水平的并行性和新出现的神经编码方案的使用导致优于先前的SNN硬件实现的效率。对于类似的型号,E3NE使用的硬件资源的少于50%,功率较低20%,同时通过幅度降低延迟。此外,可扩展性和通用性允许部署大规模的SNN模型AlexNet和VGG。
translated by 谷歌翻译
基于事件的视觉传感器基于视觉场景的变化产生具有高时间分辨率的异步事件流。随着事件的生成,这些传感器的特性允许精确快速地计算光学流量。对于从事件数据计算光学流的现有解决方案未能由于孔径问题而无法捕获真正的运动方向,请勿使用传感器的高时间分辨率,或者在嵌入式平台上实时运行太昂贵。在这项研究中,我们首先提供了我们之前的算法,武器(光圈稳健的多尺度流)的更快版本。新的优化软件版本(农场)显着提高了传统CPU的吞吐量。此外,我们呈现危害,一种农场算法的硬件实现,允许实时计算低功耗,嵌入式平台上的真实流量。建议的危害架构针对混合系统的片上器件,旨在最大限度地提高可配置性和吞吐量。硬件架构和农场算法是用异步的神经形态处理而开发的,放弃了事件帧的常用使用,而是仅使用不同事件的小历史运行,允许独立于传感器分辨率进行缩放。与现有方法相比,处理范例的这种变化将流量方向的估计变为高达73%,并在选择的基准配置上显示出危害最高为1.21 Mevent / s的危害。此吞吐量使实时性能能够实现迄今为止迄今为止最快速的基于活动的事件的光流的实现。
translated by 谷歌翻译
在过去的几十年中,人工智能领域大大进展,灵感来自生物学和神经科学领域的发现。这项工作的想法是由来自传入和横向/内部联系的人脑中皮质区域的自组织过程的过程启发。在这项工作中,我们开发了一个原始的脑激发神经模型,将自组织地图(SOM)和Hebbian学习在重新参与索马里(RESOM)模型中。该框架应用于多模式分类问题。与基于未经监督的学习的现有方法相比,该模型增强了最先进的结果。这项工作还通过在名为SPARP(自配置3D蜂窝自适应平台)的专用FPGA的平台上的模拟结果和硬件执行,演示了模型的分布式和可扩展性。头皮板可以以模块化方式互连,以支持神经模型的结构。这种统一的软件和硬件方法使得能够缩放处理并允许来自多个模态的信息进行动态合并。硬件板上的部署提供了在多个设备上并行执行的性能结果,通过专用串行链路在每个板之间的通信。由于多模式关联,所提出的统一架构,由RESOM模型和头皮硬件平台组成的精度显着提高,与集中式GPU实现相比,延迟和功耗之间的良好折衷。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
现代生活是由连接到互联网的电子设备驱动的。新兴研究领域的新兴研究领域(IoT)已变得流行,就像连接设备数量稳定增加一样 - 现在超过500亿。由于这些设备中的许多用于执行\ gls*{cv}任务,因此必须了解其针对性能的功耗。我们在执行对象分类时报告了NVIDIA JETSON NANO板的功耗概况和分析。作者对使用Yolov5模型进行了有关每帧功耗和每秒(FPS)帧输出的广泛分析。结果表明,Yolov5N在吞吐量(即12.34 fps)和低功耗(即0.154 MWH/Frafe)方面优于其他Yolov5变体。
translated by 谷歌翻译
基于von-neumann架构的传统计算系统,数据密集型工作负载和应用程序(如机器学习)和应用程序都是基本上限制的。随着数据移动操作和能量消耗成为计算系统设计中的关键瓶颈,对近数据处理(NDP),机器学习和特别是神经网络(NN)的加速器等非传统方法的兴趣显着增加。诸如Reram和3D堆叠的新兴内存技术,这是有效地架构基于NN的基于NN的加速器,因为它们的工作能力是:高密度/低能量存储和近记忆计算/搜索引擎。在本文中,我们提出了一种为NN设计NDP架构的技术调查。通过基于所采用的内存技术对技术进行分类,我们强调了它们的相似之处和差异。最后,我们讨论了需要探索的开放挑战和未来的观点,以便改进和扩展未来计算平台的NDP架构。本文对计算机学习领域的计算机架构师,芯片设计师和研究人员来说是有价值的。
translated by 谷歌翻译
本文介绍了有关如何架构,设计和优化深神经网络(DNN)的最新概述,以提高性能并保留准确性。该论文涵盖了一组跨越整个机器学习处理管道的优化。我们介绍两种类型的优化。第一个改变了DNN模型,需要重新训练,而第二个则不训练。我们专注于GPU优化,但我们认为提供的技术可以与其他AI推理平台一起使用。为了展示DNN模型优化,我们在流行的Edge AI推理平台(Nvidia Jetson Agx Xavier)上改善了光流的最先进的深层网络体系结构之一,RAFT ARXIV:2003.12039。
translated by 谷歌翻译
在本文中,我们为两个静态的美国手语(ASL)手势分类任务(即ASL字母和ASL数字)开发了四个尖峰神经网络(SNN)模型。SNN模型部署在英特尔的神经形态平台上,然后与部署在边缘计算设备(Intel神经计算棒2(NCS2))上的等效深神经网络(DNN)模型进行了比较。在准确性,延迟,功耗和能源方面,我们进行了两种系统之间的全面比较。最佳DNN模型在ASL字母数据集上的精度为99.6%,而最佳性能SNN模型的精度为99.44%。对于ASL数字数据集,最好的SNN模型以99.52%的精度优于其所有DNN对应物。此外,我们获得的实验结果表明,与NCS2相比,Loihi神经形态硬件的实现分别可降低14.67倍和4.09倍。
translated by 谷歌翻译
Spiking Neural Networks (SNNs) are bio-plausible models that hold great potential for realizing energy-efficient implementations of sequential tasks on resource-constrained edge devices. However, commercial edge platforms based on standard GPUs are not optimized to deploy SNNs, resulting in high energy and latency. While analog In-Memory Computing (IMC) platforms can serve as energy-efficient inference engines, they are accursed by the immense energy, latency, and area requirements of high-precision ADCs (HP-ADC), overshadowing the benefits of in-memory computations. We propose a hardware/software co-design methodology to deploy SNNs into an ADC-Less IMC architecture using sense-amplifiers as 1-bit ADCs replacing conventional HP-ADCs and alleviating the above issues. Our proposed framework incurs minimal accuracy degradation by performing hardware-aware training and is able to scale beyond simple image classification tasks to more complex sequential regression tasks. Experiments on complex tasks of optical flow estimation and gesture recognition show that progressively increasing the hardware awareness during SNN training allows the model to adapt and learn the errors due to the non-idealities associated with ADC-Less IMC. Also, the proposed ADC-Less IMC offers significant energy and latency improvements, $2-7\times$ and $8.9-24.6\times$, respectively, depending on the SNN model and the workload, compared to HP-ADC IMC.
translated by 谷歌翻译
尽管神经网络在计算机视觉任务中取得了成功,但数字“神经元”还是生物神经元的非常松散的近似。当今的学习方法旨在在具有数字数据表示(例如图像帧)的数字设备上运行。相比之下,生物视觉系统通常比最先进的数字计算机视觉算法更有能力和高效。事件摄像机是一种新兴的传感器技术,它以异步射击像素模仿生物学视觉,避免了图像框架的概念。为了利用现代学习技术,许多基于事件的算法被迫将事件累积回图像帧,在某种程度上浪费了事件摄像机的优势。我们遵循相反的范式,并开发一种新型的神经网络,该网络更接近原始事件数据流。我们证明了角速度回归和竞争性光流估计中的最新性能,同时避免了与训练SNN相关的困难。此外,我们所提出的方法的处理延迟小于1/10,而连续推断将这种改进增加了另一个数量级。
translated by 谷歌翻译
神经形态计算是一个新兴的研究领域,旨在通过整合来自神经科学和深度学习等多学科的理论和技术来开发新的智能系统。当前,已经为相关字段开发了各种软件框架,但是缺乏专门用于基于Spike的计算模型和算法的有效框架。在这项工作中,我们提出了一个基于Python的尖峰神经网络(SNN)模拟和培训框架,又名Spaic,旨在支持脑启发的模型和算法研究,并与深度学习和神经科学的特征集成在一起。为了整合两个压倒性学科的不同方法,以及灵活性和效率之间的平衡,SpaiC设计采用神经科学风格的前端和深度学习后端结构设计。我们提供了广泛的示例,包括神经回路模拟,深入的SNN学习和神经形态应用,展示了简洁的编码样式和框架的广泛可用性。 Spaic是一个专用的基于SPIKE的人工智能计算平台,它将显着促进新模型,理论和应用的设计,原型和验证。具有用户友好,灵活和高性能,它将有助于加快神经形态计算研究的快速增长和广泛的适用性。
translated by 谷歌翻译
最新的努力改善了满足当今应用程序要求的神经网络(NN)加速器的性能,这引起了基于逻辑NN推理的新趋势,该趋势依赖于固定功能组合逻辑。将如此大的布尔函数与许多输入变量和产品项绘制到现场可编程门阵列(FPGA)上的数字信号处理器(DSP)需要一个新颖的框架,考虑到此过程中DSP块的结构和可重构性。本文中提出的方法将固定功能组合逻辑块映射到一组布尔功能,其中与每个功能相对应的布尔操作映射到DSP设备,而不是FPGA上的查找表(LUTS),以利用高性能,DSP块的低潜伏期和并行性。 %本文还提出了一种用于NNS编译和映射的创新设计和优化方法,并利用固定功能组合逻辑与DSP进行了使用高级合成流的FPGA上的DSP。 %我们在几个\ revone {DataSets}上进行的实验评估和选定的NNS与使用DSP的基于ART FPGA的NN加速器相比,根据推理潜伏期和输出准确性,证明了我们框架的可比性。
translated by 谷歌翻译
尖峰神经网络(SNN)提供了一个新的计算范式,能够高度平行,实时处理。光子设备是设计与SNN计算范式相匹配的高带宽,平行体系结构的理想选择。 CMO和光子元件的协整允许将低损耗的光子设备与模拟电子设备结合使用,以更大的非线性计算元件的灵活性。因此,我们在整体硅光子学(SIPH)过程上设计和模拟了光电尖峰神经元电路,该过程复制了超出泄漏的集成和火(LIF)之外有用的尖峰行为。此外,我们探索了两种学习算法,具有使用Mach-Zehnder干涉法(MZI)网格作为突触互连的片上学习的潜力。实验证明了随机反向传播(RPB)的变体,并在简单分类任务上与标准线性回归的性能相匹配。同时,将对比性HEBBIAN学习(CHL)规则应用于由MZI网格组成的模拟神经网络,以进行随机输入输出映射任务。受CHL训练的MZI网络的性能比随机猜测更好,但不符合理想神经网络的性能(没有MZI网格施加的约束)。通过这些努力,我们证明了协调的CMO和SIPH技术非常适合可扩展的SNN计算体系结构的设计。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
神经形态视觉是一个快速增长的领域,在自动驾驶汽车的感知系统中有许多应用。不幸的是,由于传感器的工作原理,事件流中有很大的噪声。在本文中,我们提出了一种基于IIR滤波器矩阵的新算法,用于过滤此类噪声和硬件体系结构,该算法允许使用SOC FPGA加速。我们的方法具有非常好的过滤效率,无法相关噪声 - 删除了超过99%的嘈杂事件。已经对几个事件数据集进行了测试,并增加了随机噪声。我们设计了硬件体系结构,以减少FPGA内部BRAM资源的利用。这使得每秒的潜伏期非常低,最多可达3858元MERP的事件。在模拟和Xilinx Zynx Zynx Ultrascale+ MPSOC+ MPSOC芯片上,拟议的硬件体系结构在Mercury+ XU9模块上进行了验证。
translated by 谷歌翻译
通过在图像传感器设计中加入可编程的兴趣区域(ROI)读数来提高嵌入式视觉系统的能量效率的巨大范围。在这项工作中,我们研究如何利用ROI可编程性,以便通过预期ROI将位于未来帧中的位置并在该区域之外切换像素来进行跟踪应用程序。我们将ROI预测的该过程和对应的传感器配置称为自适应限制。我们的自适应数据采样算法包括对象检测器和ROI预测器(卡尔曼滤波器),其结合地操作以优化视觉管道的能量效率,其结束任务是对象跟踪。为了进一步促进现实生活中的自适应算法的实施,我们选择候选算法并将其映射到FPGA上。利用Xilinx血管AI工具,我们设计并加速了基于YOLO对象探测器的自适应数据采样算法。为了进一步改进算法的部署后,我们在OTB100和LASOT数据集中评估了几个竞争的基线。我们发现将ECO跟踪器与Kalman滤波器耦合,在OTB100和Lasot Datasets上具有0.4568和0.3471的竞争性AUC分数。此外,该算法的功率效率与另一个基线优于相同的情况,并且在几个外部的情况下。基于ECO的算法在两个数据集上发生大约4W的功耗,而基于YOLO的方法需要大约6 W的功耗(根据我们的功耗模型)。在精度延迟权衡方面,基于ECO的算法在管理达到竞争跟踪精度的同时提供近实时性能(19.23 FPS)。
translated by 谷歌翻译
机器学习传感器代表了嵌入式机器学习应用程序未来的范式转移。当前的嵌入式机器学习(ML)实例化遭受了复杂的整合,缺乏模块化以及数据流动的隐私和安全问题。本文提出了一个以数据为中心的范式,用于将传感器智能嵌入边缘设备上,以应对这些挑战。我们对“传感器2.0”的愿景需要将传感器输入数据和ML处理从硬件级别隔离到更广泛的系统,并提供一个薄的界面,以模拟传统传感器的功能。这种分离导致模块化且易于使用的ML传感器设备。我们讨论了将ML处理构建到嵌入式系统上控制微处理器的软件堆栈中的标准方法所带来的挑战,以及ML传感器的模块化如何减轻这些问题。 ML传感器提高了隐私和准确性,同时使系统构建者更容易将ML集成到其产品中,以简单的组件。我们提供了预期的ML传感器和说明性数据表的例子,以表现出来,并希望这将建立对话使我们朝着传感器2.0迈进。
translated by 谷歌翻译