深度学习研究引起了广泛的兴趣,导致出现了各种各样的技术创新和应用。由于深度学习研究的很大比例关注基于视觉的应用,因此存在使用其中一些技术来实现低功率便携式医疗保健诊断支持解决方案的潜力。在本文中,我们提出了一个基于硬件的嵌入式软件实施显微镜诊断支持系统,用于POC案例研究:(a)厚血液涂片中的疟疾,(b)痰液样品中的结核病,以及(c)(c)粪便中的肠道寄生虫感染样品。我们使用基于挤压网络的模型来减少网络大小和计算时间。我们还利用训练有素的量化技术来进一步减少学习模型的记忆足迹。这使基于显微镜的病原体检测将实验室专家级别的精度分类为独立的嵌入式硬件平台。与基于CPU的常规实施相比,提议的实施功率更高6倍,并且推理时间为$ \ sim $ 3 ms/示例。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
设计在边缘硬件上运行的深神经网络(DNN)仍然是一个挑战。社区已经采用了标准设计来促进神经网络模型的部署。但是,并不是很强调适应网络拓扑以适合硬件约束。在本文中,我们适应了移动硬件平台MobilenetV2的最广泛使用的架构之一,并研究了更改其拓扑结构并应用后培训后量化的影响。我们讨论了改编和模型在嵌入式硬件平台上进行面部检测的影响。
translated by 谷歌翻译
为了确保全球粮食安全和利益相关者的总体利润,正确检测和分类植物疾病的重要性至关重要。在这方面,基于深度学习的图像分类的出现引入了大量解决方案。但是,这些解决方案在低端设备中的适用性需要快速,准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法,用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像,以改善分类。我们的系统使用组合模型来提取功能,该模型由预审计的MobilenETV2体系结构和分类器网络组成,以进行有效的预测。传统的增强方法被运行时的增加取代,以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明,所提出的体系结构可实现99.30%的精度,型号大小为9.60mb和4.87亿个浮点操作,使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。
translated by 谷歌翻译
SKA脉冲星搜索管道将用于实时检测脉冲星。SKA等现代射电望远镜将在其全面运行中生成数据。因此,基于经验和数据驱动的算法对于诸如候选检测等应用是必不可少的。在这里,我们描述了我们的发现,从测试一种称为Mask R-CNN的最先进的对象检测算法来检测SKA PULSAR搜索管道中的候选标志。我们已经训练了蒙版R-CNN模型来检测候选图像。开发了一种自定义注释工具,以有效地标记大型数据集中感兴趣的区域。我们通过检测模拟数据集中的候选签名成功证明了该算法。本文介绍了这项工作的详细信息,并重点介绍了未来的前景。
translated by 谷歌翻译
我们介绍了MLPERF小型推理基准(FPGA)平台上MLPERF微小的推理基准的最新结果。我们使用开源HLS4ML和Finn工作流,旨在使FPGA中优化神经网络的AI硬件代码民主化。我们介绍关键字发现,异常检测和图像分类基准任务的设计和实现过程。最终的硬件实现是针对速度和效率量身定制的,可配置的,可配置的空间数据流体系结构,并引入了新的通用优化和作为本工作的一部分开发的常见工作流程。完整的工作流程从量化感知培训到FPGA实施。该解决方案部署在芯片(PYNQ-Z2)和纯FPGA(ARTY A7-100T)平台上。由此产生的提交的潜伏期低至20 $ \ mu $ s和每次推论的低至30 $ \ mu $ j的能耗。我们展示了异质硬件平台上新兴的ML基准如何催化协作和开发新技术和更容易访问的工具。
translated by 谷歌翻译
近年来,边缘计算设备和人工智能应用程序的数量过多。在边缘计算中,决策过程和计算从服务器转移到边缘设备。因此,需要便宜和低电源设备。 FPGA具有非常低的功率,倾向于进行平行操作和用于运行卷积神经网络(CNN)的非常合适的设备,这是人工智能应用程序的基本单位。监视系统上的面部检测是安全市场上最期待的应用。在这项工作中,重新设计了Tinyyolov3体系结构并部署了面部检测。它是一种基于CNN的对象检测方法,并为嵌入式系统开发。 Pynq-Z2被选为具有低端Xilinx Zynq 7020 System-On-Chip(SOC)的目标板。重新设计的TinyYolov3模型是用Brevitas库以许多位宽度精度定义的,Brevitas库将基本的CNN层和激活以整数量化形式。然后,使用宽面数据集对模型进行了量化结构的训练。为了减少延迟和功耗,FPGA的ONCHIP内存被配置为整个网络参数的存储,最后一个激活函数被修改为重新定制的Harttanh而不是Sigmoid。同样,高度的并行性应用于FPGA的逻辑资源。使用FINN Framework和Finn-HLS库将模型转换为基于HLS的应用程序,其中包括C ++中的图层定义。后来,该模型被合成和部署。 SOC的CPU采用多线程机制,负责预处理,后处理和TCP/IP流操作。因此,使用4位精确模型可实现2.4瓦总板的功耗,每秒18帧(FPS)吞吐量和0.757地图精度率。
translated by 谷歌翻译
医疗保健是人类生活中最重要的方面之一。众所周知,心脏病是最致命的疾病之一,这些疾病是阻碍了世界各地许多人的生命。必须提前检测心脏病,因此可以防止丧生生命。用于医学诊断的大规模数据的可用性有助于开发复杂的机器学习和基于深度学习的模型,用于自动化早期诊断心脏病。古典方法在没有概括到训练集中没有看到的新数据的概括。这在训练和测试精度方面的差距是巨大的差距。本文提出了一种新的深度学习架构,使用1D卷积神经网络进行健康和非健康人员之间的分类,以克服古典方法的局限性。各种临床参数用于评估有助于早期诊断的患者的风险概况。使用各种技术来避免在所提出的网络中过度装备。该网络在数据集中实现了超过97%的训练精度和96%的测试准确性。使用各种性能参数的其他分类算法详细比较了模型的准确性,这些算法证明了所提出的架构的有效性。
translated by 谷歌翻译
根据世界卫生组织(WHO)的数据,据估计,仅在2020年,疟疾就会造成627,000人死亡,并感染了超过2.41亿人,比2019年增加了12%。对血细胞的微观诊断是诊断疟疾的标准测试程序。但是,这种诊断方式是昂贵的,耗时的,并且对人为错误的主观为主观,尤其是在缺乏训练有素的人员进行高质量显微镜检查的发展中国家。本文提出了质量划线(MAISCOPE):一种新型,低成本的便携式设备,可以拍摄显微镜图像,并自动检测带有嵌入式AI的疟疾寄生虫。该设备有两个子系统。第一个子系统是一个在设备上的多层深度学习网络,可从微观图像中检测红细胞(RBC),然后是疟疾寄生虫分类器,该分类剂识别单个RBC中的疟疾寄生虫。测试和验证表明,使用TensorFlow Lite,在检测模型的同时,在解决有限的存储和计算能力的同时,分类的平均精度为89.9%,平均精度为61.5%。该系统还具有云同步,该系统将图像连接到Internet时将图像发送到云中,以进行分析和模型改进目的。第二个子系统是由Raspberry Pi,相机,触摸屏显示器和创新的低成本珠显微镜等组件组成的硬件。珠显微镜的评估与昂贵的光显微镜相似。该设备设计为可移植并在没有互联网或电源的远程环境中工作。该解决方案可扩展到需要显微镜检查的其他疾病,并可以帮助标准化发展中国家农村地区疾病诊断的自动化。
translated by 谷歌翻译
深神经网络(DNNS)在各种机器学习(ML)应用程序中取得了巨大成功,在计算机视觉,自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是,基于DNN的ML应用程序也带来计算和存储要求的增加了很多,对于具有有限的计算/存储资源,紧张的功率预算和较小形式的嵌入式系统而言,这尤其具有挑战性。挑战还来自各种特定应用的要求,包括实时响应,高通量性能和可靠的推理准确性。为了应对这些挑战,我们介绍了一系列有效的设计方法,包括有效的ML模型设计,定制的硬件加速器设计以及硬件/软件共同设计策略,以启用嵌入式系统上有效的ML应用程序。
translated by 谷歌翻译
Detecting persons in images or video with neural networks is a well-studied subject in literature. However, such works usually assume the availability of a camera of decent resolution and a high-performance processor or GPU to run the detection algorithm, which significantly increases the cost of a complete detection system. However, many applications require low-cost solutions, composed of cheap sensors and simple microcontrollers. In this paper, we demonstrate that even on such hardware we are not condemned to simple classic image processing techniques. We propose a novel ultra-lightweight CNN-based person detector that processes thermal video from a low-cost 32x24 pixel static imager. Trained and compressed on our own recorded dataset, our model achieves up to 91.62% accuracy (F1-score), has less than 10k parameters, and runs as fast as 87ms and 46ms on low-cost microcontrollers STM32F407 and STM32F746, respectively.
translated by 谷歌翻译
在过去的二十年中,癫痫发作检测和预测算法迅速发展。然而,尽管性能得到了重大改进,但它们使用常规技术(例如互补的金属氧化物 - 轴导剂(CMO))进行的硬件实施,在权力和面积受限的设置中仍然是一项艰巨的任务;特别是当使用许多录音频道时。在本文中,我们提出了一种新型的低延迟平行卷积神经网络(CNN)体系结构,与SOTA CNN体系结构相比,网络参数少2-2,800倍,并且达到5倍的交叉验证精度为99.84%,用于癫痫发作检测,检测到99.84%。癫痫发作预测的99.01%和97.54%分别使用波恩大学脑电图(EEG),CHB-MIT和SWEC-ETHZ癫痫发作数据集进行评估。随后,我们将网络实施到包含电阻随机存储器(RRAM)设备的模拟横梁阵列上,并通过模拟,布置和确定系统中CNN组件的硬件要求来提供全面的基准。据我们所知,我们是第一个平行于在单独的模拟横杆上执行卷积层内核的人,与SOTA混合Memristive-CMOS DL加速器相比,潜伏期降低了2个数量级。此外,我们研究了非理想性对系统的影响,并研究了量化意识培训(QAT),以减轻由于ADC/DAC分辨率较低而导致的性能降解。最后,我们提出了一种卡住的重量抵消方法,以减轻因卡住的Ron/Roff Memristor重量而导致的性能降解,而无需再进行重新培训而恢复了高达32%的精度。我们平台的CNN组件估计在22nm FDSOI CMOS流程中占据31.255mm $^2 $的面积约为2.791W。
translated by 谷歌翻译
皮肤病学中浅表性感染的诊断仍然基于手动直接显微镜检查与氢氧化钾(KOH)溶液。然而,这种方法可能是耗时的,其诊断准确度率因临床医生的经验而广泛变化。随着临床显微镜领域的神经网络应用的增加,现在可以自动化此类手动过程,提高效率和准确性。本研究提出了一种深度神经网络结构,可以为这些问题提供快速解决方案,并且可以在没有染料的灰度图像中进行自动真菌检测。收集160个含有真菌元素的微观场照片,收集从甲癣患者获得的含有甲状腺菌的患者和含有从正常钉子获得的溶解角蛋白的微观田间照片。从这些图像中提取含有4234个真菌和4981个角蛋白的较小贴剂。为了检测真菌和角蛋白,开发了VGG16和Incepionv3模型。 VGG16型号的精度为95.98%,曲线(AUC)值下的面积为0.9930,而Inceptionv3模型的精度为95.90%,AUC值为0.9917。但是,临床医生的平均准确性和AUC值分别为72.8%和0.87。这种深度学习模型允许开发可以检测微观图像内的真菌的自动化系统。
translated by 谷歌翻译
基于惯性数据的人类活动识别(HAR)是从智能手机到超低功率传感器的嵌入式设备上越来越扩散的任务。由于深度学习模型的计算复杂性很高,因此大多数嵌入式HAR系统基于简单且不那么精确的经典机器学习算法。这项工作弥合了在设备上的HAR和深度学习之间的差距,提出了一组有效的一维卷积神经网络(CNN),可在通用微控制器(MCUS)上部署。我们的CNN获得了将超参数优化与子字节和混合精确量化的结合,以在分类结果和记忆职业之间找到良好的权衡。此外,我们还利用自适应推断作为正交优化,以根据处理后的输入来调整运行时的推理复杂性,从而产生更灵活的HAR系统。通过在四个数据集上进行实验,并针对超低功率RISC-V MCU,我们表明(i)我们能够为HAR获得一组丰富的帕累托(Pareto)最佳CNN,以范围超过1个数量级记忆,潜伏期和能耗; (ii)由于自适应推断,我们可以从单个CNN开始得出> 20个运行时操作模式,分类分数的不同程度高达10%,并且推理复杂性超过3倍,并且内存开销有限; (iii)在四个基准中的三个基准中,我们的表现都超过了所有以前的深度学习方法,将记忆占用率降低了100倍以上。获得更好性能(浅层和深度)的少数方法与MCU部署不兼容。 (iv)我们所有的CNN都与推理延迟<16ms的实时式evice Har兼容。他们的记忆职业在0.05-23.17 kb中有所不同,其能源消耗为0.005和61.59 UJ,可在较小的电池供应中进行多年的连续操作。
translated by 谷歌翻译
计算机愿景中的分类问题很常见。尽管如此,啤酒瓶的分类没有专门的工作。作为主课程深度学习挑战的一部分,创建了一个5207啤酒瓶图像和品牌标签的数据集。图像恰好包含一个啤酒瓶。在本文中,我们提出了一个深入的学习模式,将啤酒瓶的图片分为两步的方法。作为第一步,Faster-R-CNN检测与品牌独立于分类相关的图像部分。在第二步中,相关图像部分由Reset-18分类。具有最高置信度的图像部分作为类标签返回。我们提出了一种模型,我们超越了经典的一步转移学习方法,并在最终测试数据集的挑战期间达到了99.86%的准确性。在挑战结束后,我们能够达到100%的准确性
translated by 谷歌翻译
人类活动识别(HAR)是健康监测的关键应用之一,需要连续使用可穿戴设备来跟踪日常活动。本文提出了一种适用于适用于低功率边缘装置的节能HAR(AHAR)的自适应CNN。与传统的早期退出架构不同,这是基于分类信心的出口决策,AHAR提出了一种新的自适应架构,其使用输出块预测器选择在推理阶段期间使用的基线架构的一部分。实验结果表明,传统的早期退出架构遭受性能损失,而我们的自适应架构提供类似或更好的性能作为基线,同时节能。我们验证了从两个数据集合机会和W-Har分类机置活动的方法。与机会数据集的雾/云计算方法相比,我们的基线和自适应架构分别显示了相当的加权F1得分为91.79%,分别为91.57%。对于W-HAR数据集,我们的基线和自适应架构分别优于最先进的工程,其加权F1分别为97.55%和97.64%。与机会数据集的作品相比,真实硬件对真实硬件的评估表明,我们的基线架构是显着的节能(少422.38倍)和记忆效率(14.29倍)。对于W-Har DataSet,与最先进的工作相比,我们的基线架构需要2.04倍的能量和2.18倍的内存。此外,实验结果表明,我们的自适应架构是12.32%(机会)和11.14%(W-HAR)的节能,而不是我们的基线,同时提供类似的(机会)或更好的(W-HAR)性能,没有显着的记忆开销。
translated by 谷歌翻译
水果苍蝇是果实产量最有害的昆虫物种之一。在AlertTrap中,使用不同的最先进的骨干功能提取器(如MobiLenetv1和MobileNetv2)的SSD架构的实现似乎是实时检测问题的潜在解决方案。SSD-MobileNetv1和SSD-MobileNetv2表现良好并导致AP至0.5分别为0.957和1.0。YOLOV4-TINY优于SSD家族,在AP@0.5中为1.0;但是,其吞吐量速度略微慢。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
工业X射线分析在需要保证某些零件的结构完整性的航空航天,汽车或核行业中很常见。但是,射线照相图像的解释有时很困难,可能导致两名专家在缺陷分类上不同意。本文介绍的自动缺陷识别(ADR)系统将减少分析时间,还将有助于减少对缺陷的主观解释,同时提高人类检查员的可靠性。我们的卷积神经网络(CNN)模型达到94.2 \%准确性(MAP@iou = 50 \%),当应用于汽车铝铸件数据集(GDXRAR)时,它被认为与预期的人类性能相似,超过了当前状态该数据集的艺术。在工业环境上,其推理时间少于每个DICOM图像,因此可以安装在生产设施上,不会影响交付时间。此外,还进行了对主要高参数的消融研究,以优化从75 \%映射的初始基线结果最高94.2 \%map的模型准确性。
translated by 谷歌翻译
随着半导体晶片的整合密度和设计的复杂性的增加,它们中缺陷的幅度和复杂性也在上升。由于对晶圆缺陷的手动检查是昂贵的,因此高度需要基于自动的人工智能(AI)计算机视觉方法。先前关于缺陷分析的作品具有多个局限性,例如准确性低以及对分类和分割的单独模型的需求。为了分析混合型缺陷,一些以前的作品需要为每种缺陷类型分别训练一个模型,这是不可估计的。在本文中,我们介绍了基于编码器架构的新型网络WafersegClassnet(WSCN)。 WSCN执行单个和混合型晶圆缺陷的同时分类和分割。 WSCN使用“共享编码器”进行分类和细分,允许训练WSCN端到端。我们使用N-PAIR对比度损失首先预处理编码器,然后使用BCE-DICE损失进行分割,并进行分类的分类横向损失。使用N-PAIR对比度损失有助于更好地嵌入晶圆图的潜在维度。 WSCN的模型大小仅为0.51MB,仅执行0.2m的拖鞋。因此,它比其他最先进的型号轻得多。同样,它仅需要150个时期才能收敛,而先前的工作需要4,000个时代。我们在具有38,015张图像的混合WM38数据集上评估了我们的模型。 WSCN的平均分类精度为98.2%,骰子系数为0.9999。我们是第一个在混合WM38数据集上显示分割结果的人。可以从https://github.com/ckmvigil/wafersegclassnet获得源代码。
translated by 谷歌翻译