基于事件的视觉传感器基于视觉场景的变化产生具有高时间分辨率的异步事件流。随着事件的生成,这些传感器的特性允许精确快速地计算光学流量。对于从事件数据计算光学流的现有解决方案未能由于孔径问题而无法捕获真正的运动方向,请勿使用传感器的高时间分辨率,或者在嵌入式平台上实时运行太昂贵。在这项研究中,我们首先提供了我们之前的算法,武器(光圈稳健的多尺度流)的更快版本。新的优化软件版本(农场)显着提高了传统CPU的吞吐量。此外,我们呈现危害,一种农场算法的硬件实现,允许实时计算低功耗,嵌入式平台上的真实流量。建议的危害架构针对混合系统的片上器件,旨在最大限度地提高可配置性和吞吐量。硬件架构和农场算法是用异步的神经形态处理而开发的,放弃了事件帧的常用使用,而是仅使用不同事件的小历史运行,允许独立于传感器分辨率进行缩放。与现有方法相比,处理范例的这种变化将流量方向的估计变为高达73%,并在选择的基准配置上显示出危害最高为1.21 Mevent / s的危害。此吞吐量使实时性能能够实现迄今为止迄今为止最快速的基于活动的事件的光流的实现。
translated by 谷歌翻译
神经形态视觉是一个快速增长的领域,在自动驾驶汽车的感知系统中有许多应用。不幸的是,由于传感器的工作原理,事件流中有很大的噪声。在本文中,我们提出了一种基于IIR滤波器矩阵的新算法,用于过滤此类噪声和硬件体系结构,该算法允许使用SOC FPGA加速。我们的方法具有非常好的过滤效率,无法相关噪声 - 删除了超过99%的嘈杂事件。已经对几个事件数据集进行了测试,并增加了随机噪声。我们设计了硬件体系结构,以减少FPGA内部BRAM资源的利用。这使得每秒的潜伏期非常低,最多可达3858元MERP的事件。在模拟和Xilinx Zynx Zynx Ultrascale+ MPSOC+ MPSOC芯片上,拟议的硬件体系结构在Mercury+ XU9模块上进行了验证。
translated by 谷歌翻译
LIDAR(光检测和测距)SLAM(同时定位和映射)作为室内清洁,导航和行业和家庭中许多其他有用应用的基础。从一系列LIDAR扫描,它构建了一个准确的全球一致的环境模型,并估计它内部的机器人位置。 SLAM本质上是计算密集的;在具有有限的加工能力的移动机器人上实现快速可靠的SLAM系统是一个具有挑战性的问题。为了克服这种障碍,在本文中,我们提出了一种普遍,低功耗和资源有效的加速器设计,用于瞄准资源限制的FPGA。由于扫描匹配位于SLAM的核心,所提出的加速器包括可编程逻辑部分上的专用扫描匹配核心,并提供软件接口以便于使用。我们的加速器可以集成到各种SLAM方法,包括基于ROS(机器人操作系统) - 基于ROS(机器人操作系统),并且用户可以切换到不同的方法而不修改和重新合成逻辑部分。我们将加速器集成为三种广泛使用的方法,即扫描匹配,粒子滤波器和基于图形的SLAM。我们使用现实世界数据集评估资源利用率,速度和输出结果质量方面的设计。 Pynq-Z2板上的实验结果表明,我们的设计将扫描匹配和循环闭合检测任务加速高达14.84倍和18.92倍,分别在上述方法中产生4.67倍,4.00倍和4.06倍的整体性能改进。我们的设计能够实现实时性能,同时仅消耗2.4W并保持精度,可与软件对应物乃至最先进的方法相当。
translated by 谷歌翻译
事件摄像机捕获观察到的场景中的照明的变化,而不是累积光以创建图像。因此,它们允许在高速运动和复杂的照明条件下的应用,其中传统的框架传感器显示它们的模糊和过度或未出现的像素的限制。由于这些独特的属性,它们表示现在是与其相关的应用的高度有吸引力的传感器。在这些神经形式相机的普及升高之后,已经研究了基于事件的光流(EBOF)。然而,最近的高清神经晶体传感器的到来挑战现有方法,因为事件像素阵列的分辨率增加和更高的吞吐量。作为这些点的答案,我们提出了一种用于实时计算光流的优化框架,以及低分辨率的事件摄像机。我们以“逆指数距离表面”的形式为稀疏事件流制定了一种新的密集表示。它用作临时框架,专为使用证明,最先进的基于框架的光流量计算方法而设计。我们评估我们在低分辨率和高分辨率驾驶序列上的方法,并表明它通常比当前现有技术更好地实现更好的结果,同时也达到更高的帧速率,250Hz在346 x 260像素和77Hz在1280 x 720像素。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
编译器框架对于广泛使用基于FPGA的深度学习加速器来说是至关重要的。它们允许研究人员和开发人员不熟悉硬件工程,以利用域特定逻辑所获得的性能。存在传统人工神经网络的各种框架。然而,没有多大的研究努力已经进入创建针对尖刺神经网络(SNNS)进行优化的框架。这种新一代的神经网络对于在边缘设备上部署AI的越来越有趣,其具有紧密的功率和资源约束。我们的端到端框架E3NE为FPGA自动生成高效的SNN推理逻辑。基于Pytorch模型和用户参数,它应用各种优化,并评估基于峰值的加速器固有的权衡。多个水平的并行性和新出现的神经编码方案的使用导致优于先前的SNN硬件实现的效率。对于类似的型号,E3NE使用的硬件资源的少于50%,功率较低20%,同时通过幅度降低延迟。此外,可扩展性和通用性允许部署大规模的SNN模型AlexNet和VGG。
translated by 谷歌翻译
The term ``neuromorphic'' refers to systems that are closely resembling the architecture and/or the dynamics of biological neural networks. Typical examples are novel computer chips designed to mimic the architecture of a biological brain, or sensors that get inspiration from, e.g., the visual or olfactory systems in insects and mammals to acquire information about the environment. This approach is not without ambition as it promises to enable engineered devices able to reproduce the level of performance observed in biological organisms -- the main immediate advantage being the efficient use of scarce resources, which translates into low power requirements. The emphasis on low power and energy efficiency of neuromorphic devices is a perfect match for space applications. Spacecraft -- especially miniaturized ones -- have strict energy constraints as they need to operate in an environment which is scarce with resources and extremely hostile. In this work we present an overview of early attempts made to study a neuromorphic approach in a space context at the European Space Agency's (ESA) Advanced Concepts Team (ACT).
translated by 谷歌翻译
事件摄像机是受到生物启发的视觉传感器,异步代表像素级亮度随着事件流而变化。基于事件的单眼多视图立体声(EMV)是一种利用事件流以估算具有已知轨迹的半密度3D结构的技术。对于基于事件的单眼大满贯,这是一项关键任务。但是,所需的密集计算工作负载使其对于嵌入式平台上的实时部署而具有挑战性。在本文中,通过实现最关键和最耗时的阶段,包括事件反向预测和FPGA上的体积射线计数,提出Eventor作为快速有效的EMV加速器。高度平行且完全管道的处理元素是通过FPGA专门设计的,并与嵌入式臂集成为异质系统,以改善吞吐量并减少记忆足迹。同时,通过重新安排,近似计算和混合数据量化,将EMVS算法重新制定为更硬件的方式。戴维斯数据集的评估结果表明,与英特尔i5 CPU平台相比,Eventor的能源效率最高可提高$ 24 \ times $。
translated by 谷歌翻译
原则上,稀疏的神经网络应该比传统的密集网络更有效。大脑中的神经元表现出两种类型的稀疏性;它们稀疏地相互连接和稀疏活跃。当组合时,这两种类型的稀疏性,称为重量稀疏性和激活稀疏性,提出了通过两个数量级来降低神经网络的计算成本。尽管存在这种潜力,但今天的神经网络只使用重量稀疏提供适度的性能益处,因为传统的计算硬件无法有效地处理稀疏网络。在本文中,我们引入了互补稀疏性,这是一种显着提高现有硬件对双稀疏网络性能的新技术。我们证明我们可以实现高性能运行的重量稀疏网络,我们可以通过结合激活稀疏性来乘以这些加速。采用互补稀疏性,我们显示出对FPGA的推断的吞吐量和能效提高了100倍。我们分析了典型的商业卷积网络等各种内核的可扩展性和资源权衡,例如Resnet-50和MobileNetv2。我们的互补稀疏性的结果表明,重量加激活稀疏性可以是有效的缩放未来AI模型的有效组合。
translated by 谷歌翻译
尽管神经网络在计算机视觉任务中取得了成功,但数字“神经元”还是生物神经元的非常松散的近似。当今的学习方法旨在在具有数字数据表示(例如图像帧)的数字设备上运行。相比之下,生物视觉系统通常比最先进的数字计算机视觉算法更有能力和高效。事件摄像机是一种新兴的传感器技术,它以异步射击像素模仿生物学视觉,避免了图像框架的概念。为了利用现代学习技术,许多基于事件的算法被迫将事件累积回图像帧,在某种程度上浪费了事件摄像机的优势。我们遵循相反的范式,并开发一种新型的神经网络,该网络更接近原始事件数据流。我们证明了角速度回归和竞争性光流估计中的最新性能,同时避免了与训练SNN相关的困难。此外,我们所提出的方法的处理延迟小于1/10,而连续推断将这种改进增加了另一个数量级。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
基于干涉视觉的导航(IVISNAV)是一种用于自主接近操作的新型光电传感器。 ivisnav采用激光发射结构化的信标,并通过测量传输激光脉冲的相变的变化来精确地表征六个自由度相对运动速率。 Ivisnav的嵌入式软件包必须有效地处理高频动力学,以进行健壮的感应和估计。本文开发了一种新的嵌入式系统,用于基于最小二乘的速率估计。所得系统能够与光子学连接并在现场可编程的门数阵列中实现估计算法。嵌入式软件包被证明是使用有限的精度算术进行高速计算的硬件/软件共同设计估计程序。将有限精度FPGA硬件设计的准确性与MATLAB上算法的浮点软件评估进行了比较,以基于其性能和与错误度量的统计一致性。实施结果证明了使用IVISNAV进行高速接近导航的FPGA计算功能的实用性。
translated by 谷歌翻译
Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable.
translated by 谷歌翻译
In this work, we demonstrate the offline FPGA realization of both recurrent and feedforward neural network (NN)-based equalizers for nonlinearity compensation in coherent optical transmission systems. First, we present a realization pipeline showing the conversion of the models from Python libraries to the FPGA chip synthesis and implementation. Then, we review the main alternatives for the hardware implementation of nonlinear activation functions. The main results are divided into three parts: a performance comparison, an analysis of how activation functions are implemented, and a report on the complexity of the hardware. The performance in Q-factor is presented for the cases of bidirectional long-short-term memory coupled with convolutional NN (biLSTM + CNN) equalizer, CNN equalizer, and standard 1-StpS digital back-propagation (DBP) for the simulation and experiment propagation of a single channel dual-polarization (SC-DP) 16QAM at 34 GBd along 17x70km of LEAF. The biLSTM+CNN equalizer provides a similar result to DBP and a 1.7 dB Q-factor gain compared with the chromatic dispersion compensation baseline in the experimental dataset. After that, we assess the Q-factor and the impact of hardware utilization when approximating the activation functions of NN using Taylor series, piecewise linear, and look-up table (LUT) approximations. We also show how to mitigate the approximation errors with extra training and provide some insights into possible gradient problems in the LUT approximation. Finally, to evaluate the complexity of hardware implementation to achieve 400G throughput, fixed-point NN-based equalizers with approximated activation functions are developed and implemented in an FPGA.
translated by 谷歌翻译
事件摄像机可产生大型动态范围事件流,并具有很高的时间分辨率,可丢弃冗余视觉信息,从而为对象检测任务带来新的可能性。但是,将事件摄像机应用于使用深度学习方法对象检测任务的现有方法仍然存在许多问题。首先,由于全局同步时间窗口和时间分辨率,现有方法无法考虑具有不同速度的对象。其次,大多数现有方法都依赖于大型参数神经网络,这意味着较大的计算负担和低推理速度,因此与事件流的高时间分辨率相反。在我们的工作中,我们设计了一种使用简单但有效的数据增强方法的高速轻质检测器,称为敏捷事件检测器(AED)。此外,我们提出了一个称为“时间主动焦点(TAF)”的事件流表示张量,该量子充分利用了事件流数据的异步生成,并且对移动对象的运动非常强大。它也可以在不耗时的情况下构造。我们进一步提出了一个称为分叉折叠模块(BFM)的模块,以在AED检测器的输入层的TAF张量中提取丰富的时间信息。我们对两个典型的实体事件摄像机对象检测数据集进行了实验:完整的预言GEN1汽车检测数据集和预言1 Megapixel Automotive检测数据集,带有部分注释。实验表明,我们的方法在准确性,速度和参数数量方面具有竞争力。同样,通过基于光流密度度量的对象将对象分类为多个运动级别,我们说明了相对于摄像机具有不同速度的对象的方法的鲁棒性。
translated by 谷歌翻译
纳米大小的无人机具有探索未知和复杂环境的巨大潜力。它们的尺寸很小,使它们敏捷且安全地靠近人类,并使他们能够穿过狭窄的空间。但是,它们的尺寸很小和有效载荷限制了板载计算和传感的可能性,从而使完全自主的飞行极具挑战性。迈向完全自主权的第一步是可靠的避免障碍,这在通用的室内环境中被证明在技术上具有挑战性。当前的方法利用基于视觉或一维传感器来支持纳米无人机感知算法。这项工作为基于新颖的毫米尺寸64像素多区域飞行时间(TOF)传感器和通用的无模型控制策略提供了轻巧的避免障碍系统。报告的现场测试基于Crazyflie 2.1,该测试由定制的多区TOF甲板扩展,总质量为35克。该算法仅使用0.3%的车载处理能力(210US执行时间),帧速率为15fps,为许多未来应用提供了绝佳的基础。运行提出的感知系统(包括抬起和操作传感器)所需的总无人机功率不到10%。在通用且以前未开发的室内环境中,提出的自动纳米大小无人机以0.5m/s的速度达到100%可靠性。所提出的系统释放出具有广泛数据集的开源,包括TOF和灰度摄像头数据,并与运动捕获中的无人机位置地面真相结合在一起。
translated by 谷歌翻译
While the capabilities of autonomous systems have been steadily improving in recent years, these systems still struggle to rapidly explore previously unknown environments without the aid of GPS-assisted navigation. The DARPA Subterranean (SubT) Challenge aimed to fast track the development of autonomous exploration systems by evaluating their performance in real-world underground search-and-rescue scenarios. Subterranean environments present a plethora of challenges for robotic systems, such as limited communications, complex topology, visually-degraded sensing, and harsh terrain. The presented solution enables long-term autonomy with minimal human supervision by combining a powerful and independent single-agent autonomy stack, with higher level mission management operating over a flexible mesh network. The autonomy suite deployed on quadruped and wheeled robots was fully independent, freeing the human supervision to loosely supervise the mission and make high-impact strategic decisions. We also discuss lessons learned from fielding our system at the SubT Final Event, relating to vehicle versatility, system adaptability, and re-configurable communications.
translated by 谷歌翻译
在小型电池约束的物流设备上部署现代TinyML任务需要高计算能效。使用非易失性存储器(NVM)的模拟内存计算(IMC)承诺在深神经网络(DNN)推理中的主要效率提高,并用作DNN权重的片上存储器存储器。然而,在系统级别尚未完全理解IMC的功能灵活性限制及其对性能,能量和面积效率的影响。为了目标实际的端到端的IOT应用程序,IMC阵列必须括在异构可编程系统中,引入我们旨在解决这项工作的新系统级挑战。我们介绍了一个非均相紧密的聚类架构,整合了8个RISC-V核心,内存计算加速器(IMA)和数字加速器。我们在高度异构的工作负载上基准测试,例如来自MobileNetv2的瓶颈层,显示出11.5倍的性能和9.5倍的能效改进,而在核心上高度优化并行执行相比。此外,我们通过将我们的异构架构缩放到多阵列加速器,探讨了在IMC阵列资源方面对全移动级DNN(MobileNetv2)的端到端推断的要求。我们的结果表明,我们的解决方案在MobileNetv2的端到端推断上,在执行延迟方面比现有的可编程架构更好,比最先进的异构解决方案更好的数量级集成内存计算模拟核心。
translated by 谷歌翻译
事件摄像机是运动激活的传感器,可捕获像素级照明的变化,而不是具有固定帧速率的强度图像。与标准摄像机相比,它可以在高速运动和高动态范围场景中提供可靠的视觉感知。但是,当相机和场景之间的相对运动受到限制时,例如在静态状态下,事件摄像机仅输出一点信息甚至噪音。尽管标准相机可以在大多数情况下,尤其是在良好的照明条件下提供丰富的感知信息。这两个相机完全是互补的。在本文中,我们提出了一种具有鲁棒性,高智能和实时优化的基于事件的视觉惯性镜(VIO)方法,具有事件角度,基于线的事件功能和基于点的图像功能。提出的方法旨在利用人为场景中的自然场景和基于线路的功能中的基于点的功能,以通过设计良好设计的功能管理提供更多其他结构或约束信息。公共基准数据集中的实验表明,与基于图像或基于事件的VIO相比,我们的方法可以实现卓越的性能。最后,我们使用我们的方法演示了机上闭环自动驾驶四极管飞行和大规模室外实验。评估的视频在我们的项目网站上介绍:https://b23.tv/oe3qm6j
translated by 谷歌翻译
我们介绍了MLPERF小型推理基准(FPGA)平台上MLPERF微小的推理基准的最新结果。我们使用开源HLS4ML和Finn工作流,旨在使FPGA中优化神经网络的AI硬件代码民主化。我们介绍关键字发现,异常检测和图像分类基准任务的设计和实现过程。最终的硬件实现是针对速度和效率量身定制的,可配置的,可配置的空间数据流体系结构,并引入了新的通用优化和作为本工作的一部分开发的常见工作流程。完整的工作流程从量化感知培训到FPGA实施。该解决方案部署在芯片(PYNQ-Z2)和纯FPGA(ARTY A7-100T)平台上。由此产生的提交的潜伏期低至20 $ \ mu $ s和每次推论的低至30 $ \ mu $ j的能耗。我们展示了异质硬件平台上新兴的ML基准如何催化协作和开发新技术和更容易访问的工具。
translated by 谷歌翻译