声学场景分类是一个自动听力问题,旨在根据其音频数据将音频记录分配给预定义的场景。多年来(在Dcase的过去版本中),这个问题通常通过称为合奏的技术解决(使用多种机器学习模型将其预测结合在推理阶段)。尽管这些解决方案可以在准确性方面显示性能,但在计算能力方面它们可能非常昂贵,因此无法将其部署在IoT设备中。由于该研究领域的漂移,该任务在模型复杂性方面有两个局限性。应该注意的是,不匹配设备的附加复杂性(提供的音频由不同的信息来源记录)。该技术报告对两个不同的网络体系结构进行了比较研究:常规CNN和Conv-Mixer。尽管两个网络都超过了竞争对手所需的基线,但常规CNN的性能较高,超过基线的8个百分点。基于Conv-Mixer体系结构的解决方案表现出较差的性能,尽管它们的解决方案要轻得多。
translated by 谷歌翻译
在本报告中,我们提出了用于声学场景分类(ASC)的低复杂性深度学习框架。所提出的框架可以分为四个主要步骤:前端频谱提取,在线数据增强,后端分类以及预测概率的晚融合。特别是,我们最初将音频记录转换为MEL,Gammatone和CQT频谱图。接下来,随机裁剪,分类和混合的数据增强方法将应用于生成增强频谱图,然后再添加到基于深度学习的分类器中。最后,为了达到最佳性能,我们融合了从三个单独的分类器获得的概率,这些分类器通过三种类型的频谱图独立训练。我们在DCASE 2022任务1开发数据集上进行的实验已经满足了低复杂性的要求,并达到了60.1%的最佳分类准确性,将Dcase基线提高了17.2%。
translated by 谷歌翻译
该技术报告描述了surreyaudioteam22s Dcase 2022 ASC任务1,低复杂性声学场景分类(ASC)。该任务有两个规则,(a)ASC框架应具有最大128K参数,并且(b)每个推理最多应有3000万次多功能操作(MAC)。在本报告中,我们为ASC提供了遵循该任务规则的ASC的低复杂系统。
translated by 谷歌翻译
本文提出了用于声学场景分类(ASC)的低复杂框架。与手工设计的功能相比,大多数旨在ASC设计的框架使用卷积神经网络(CNN)。但是,CNN由于其尺寸较大和计算复杂性而渴望资源。因此,CNN难以在资源约束设备上部署。本文解决了减少CNN中计算复杂性和内存需求的问题。我们提出了一个低复杂性CNN体系结构,并应用修剪和量化以进一步减少参数和内存。然后,我们提出了一个合奏框架,该框架结合了各种低复杂性CNN,以提高整体性能。对拟议框架进行的实验评估是对关注ASC的公开DCASE 2022任务1进行的。所提出的合奏框架的参数约为60k,需要19m的多功能操作,并且与Dcase 2022 Task 1基线网络相比,该性能提高了约2-4个百分点。
translated by 谷歌翻译
这是一个实用的研究主题,如何通过具有高效设计的单个声学场景分类系统处理多设备音频输入。在这项工作中,我们提出了剩余归一化,一种新颖的特征归一化方法,它使用频率明智的归一化性能实例归一化与快捷路径丢弃不必要的设备特定信息,而不会失去用于分类的有用信息。此外,我们介绍了一个有效的体系结构,BC-Resnet-ASC,具有有限的接收字段的基线架构的修改版本。 BC-RESNet-ASC概率赢得基线架构,即使它包含少量参数。通过三种模型压缩方案:修剪,量化和知识蒸馏,我们可以进一步降低模型复杂性,同时减轻性能下降。该系统在TAU城市声学场景中实现了76.3%的平均测试精度2020移动,开发数据集,具有315K参数,压缩后的平均测试精度为75.3%,为61.0kb的非零参数。该方法在Dcase 2021挑战中赢得了第1位的任务1A。
translated by 谷歌翻译
该技术报告描述了我们任务1A提交Dcase2021挑战的详细信息。该任务的目的是在模型复杂性的限制下设计一个音频场景分类系统,以针对设备平衡的数据集设计一个音频场景分类系统。该报告介绍了实现目标的四种方法。首先,我们提出了剩余的归一化,这是一种新型功能归一化方法,该方法将实例归一化与快捷路径使用实例归一化,以丢弃不必要的设备特定信息,而不会丢失有用的信息进行分类。其次,我们设计了一个高效的体系结构,BC-Resnet-Mod,这是基线体系结构的修改版本,具有有限的接收场。第三,我们利用光谱图到光谱图从一个设备转换为多个设备来增强训练数据。最后,我们利用三种模型压缩方案:修剪,量化和知识蒸馏来降低模型的复杂性。所提出的系统在Tau Urban声学场景2020 Mobile,具有315K参数的开发数据集中达到76.3%的平均测试准确性,压缩到61.0KB的非零参数后的平均测试准确性为75.3%。
translated by 谷歌翻译
音频分割和声音事件检测是机器聆听中的关键主题,旨在检测声学类别及其各自的边界。它对于音频分析,语音识别,音频索引和音乐信息检索非常有用。近年来,大多数研究文章都采用分类。该技术将音频分为小帧,并在这些帧上单独执行分类。在本文中,我们提出了一种新颖的方法,叫您只听一次(Yoho),该方法受到计算机视觉中普遍采用的Yolo算法的启发。我们将声学边界的检测转换为回归问题,而不是基于框架的分类。这是通过具有单独的输出神经元来检测音频类的存在并预测其起点和终点来完成的。与最先进的卷积复发性神经网络相比,Yoho的F量的相对改善范围从多个数据集中的1%到6%不等,以进行音频分段和声音事件检测。由于Yoho的输出更端到端,并且可以预测的神经元更少,因此推理速度的速度至少比逐个分类快6倍。另外,由于这种方法可以直接预测声学边界,因此后处理和平滑速度约为7倍。
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
建立一个小型的快速监控系统模型,适合有限的资源设备是一个具有挑战性的,但却是一个重要的任务。卷积神经网络(CNNS)在检测和分类任务中取代了传统的特征提取和机器学习模型。提出了各种复杂的大型CNN模型,从而实现了精度的显着改善。最近介绍了轻量级CNN型号用于实时任务。本文介绍了一种基于CNN的轻量级模型,可以适合诸如覆盆子PI的有限边缘装置。我们所提出的模型提供了具有更好的性能时间,较小的尺寸和与现有方法的可比准确度。在多个基准数据集中评估模型性能。它也与现有模型相比,在大小,平均处理时间和F分数方面。建议未来研究的其他增强功能。
translated by 谷歌翻译
关键字斑点(kWs)是一个重要的功能,使我们的周围环境中许多无处不在的智能设备进行交互,可以通过唤醒词或直接作为人机界面激活它们。对于许多应用程序,KWS是我们与设备交互的进入点,因此,始终是ON工作负载。许多智能设备都是移动的,并且它们的电池寿命受到持续运行的服务受到严重影响。因此,KWS和类似的始终如一的服务是在优化整体功耗时重点。这项工作解决了低成本微控制器单元(MCU)的KWS节能。我们将模拟二元特征提取与二元神经网络相结合。通过用拟议的模拟前端取代数字预处理,我们表明数据采集和预处理所需的能量可以减少29倍,将其份额从主导的85%的份额削减到仅为我们的整体能源消耗的16%参考KWS应用程序。语音命令数据集的实验评估显示,所提出的系统分别优于最先进的准确性和能效,在10级数据集中分别在10级数据集上达到1%和4.3倍,同时提供令人信服的精度 - 能源折衷包括71倍能量减少2%的精度下降。
translated by 谷歌翻译
在物联网(IoT)支持的网络边缘(IOT)上的人工智能(AI)的最新进展已通过启用低延期性和计算效率来实现多种应用程序(例如智能农业,智能医院和智能工厂)的优势情报。但是,部署最先进的卷积神经网络(CNN),例如VGG-16和在资源约束的边缘设备上的重新连接,由于其大量参数和浮点操作(Flops),因此实际上是不可行的。因此,将网络修剪作为一种模型压缩的概念正在引起注意在低功率设备上加速CNN。结构化或非结构化的最先进的修剪方法都不认为卷积层表现出的复杂性的不同基本性质,并遵循训练放回训练的管道,从而导致其他计算开销。在这项工作中,我们通过利用CNN的固有层层级复杂性来提出一种新颖和计算高效的修剪管道。与典型的方法不同,我们提出的复杂性驱动算法根据其对整体网络复杂性的贡献选择了特定层用于滤波器。我们遵循一个直接训练修剪模型并避免计算复杂排名和微调步骤的过程。此外,我们定义了修剪的三种模式,即参数感知(PA),拖网(FA)和内存感知(MA),以引入CNN的多功能压缩。我们的结果表明,我们的方法在准确性和加速方面的竞争性能。最后,我们提出了不同资源和准确性之间的权衡取舍,这对于开发人员在资源受限的物联网环境中做出正确的决策可能会有所帮助。
translated by 谷歌翻译
正在投入大量努力,将最新的分类和认可到具有极端资源限制(内存,速度和缺乏GPU支持)的边缘设备。在这里,我们演示了第一个用于声学识别的深层网络,该网络小,灵活且适合压缩,但实现了原始音频分类的最新性能。我们没有手工制作一次性解决方案,而是提出了一条通用管道,该管道通过压缩和量化自动将大型深卷积网络转换为资源破裂的边缘设备的网络。在引入ACDNET(在ESC-10(96.65%),ESC-50(87.10%),Urbansound8K(84.45%)和AudioEvent(92.57%)上产生的ACDNET之后,我们描述了压缩管道和压缩管道和AudioEvent(92.57%)证明它使我们能够降低97.22%的尺寸和减少97.28%的失败,同时保持接近最先进的准确性96.25%,83.65%,78.27%和89.69%的掉落。我们描述了对标准现成的微控制器的成功实现,除了实验室基准测试之外,还报告了对现实世界数据集的成功测试。
translated by 谷歌翻译
移动设备上的人类活动识别(HAR)已证明可以通过从用户的惯性测量单元(IMU)生成的数据中学到的轻量级神经模型来实现。基于Instanced HAR的大多数方法都使用卷积神经网络(CNN),长期记忆(LSTMS)或两者组合以实现实时性能来实现最新结果。最近,在语言处理域中,然后在视觉域中的变形金刚体系结构进一步推动了对古典体系结构的最先进。但是,这种变形金刚在计算资源中是重量级的,它不适合在Pervasive Computing域中找到HAR的嵌入式应用程序。在这项研究中,我们提出了人类活动识别变压器(HART),这是一种轻巧的,传感器的变压器结构,已专门适用于嵌入移动设备上的IMU的域。我们对HAR任务的实验具有几个公开可用的数据集,表明HART使用较少的每秒浮点操作(FLOPS)和参数,同时超过了当前的最新结果。此外,我们在各种体系结构中对它们在异质环境中的性能进行了评估,并表明我们的模型可以更好地推广到不同的感应设备或体内位置。
translated by 谷歌翻译
In this paper, we present a modified Xception architecture, the NEXcepTion network. Our network has significantly better performance than the original Xception, achieving top-1 accuracy of 81.5% on the ImageNet validation dataset (an improvement of 2.5%) as well as a 28% higher throughput. Another variant of our model, NEXcepTion-TP, reaches 81.8% top-1 accuracy, similar to ConvNeXt (82.1%), while having a 27% higher throughput. Our model is the result of applying improved training procedures and new design decisions combined with an application of Neural Architecture Search (NAS) on a smaller dataset. These findings call for revisiting older architectures and reassessing their potential when combined with the latest enhancements.
translated by 谷歌翻译
卷积和复发性神经网络的结合是一个有希望的框架,它允许提取高质量时空特征以及其时间依赖性,这是时间序列预测问题(例如预测,分类或异常检测)的关键。在本文中,引入了TSFEDL库。它通过使用卷积和经常性的深神经网络来编译20种时间序列提取和预测的最先进方法,用于在多个数据挖掘任务中使用。该库是建立在AGPLV3许可下的一组TensorFlow+Keras和Pytorch模块上的。本提案中包含的架构的性能验证证实了此Python软件包的有用性。
translated by 谷歌翻译
Music discovery services let users identify songs from short mobile recordings. These solutions are often based on Audio Fingerprinting, and rely more specifically on the extraction of spectral peaks in order to be robust to a number of distortions. Few works have been done to study the robustness of these algorithms to background noise captured in real environments. In particular, AFP systems still struggle when the signal to noise ratio is low, i.e when the background noise is strong. In this project, we tackle this problematic with Deep Learning. We test a new hybrid strategy which consists of inserting a denoising DL model in front of a peak-based AFP algorithm. We simulate noisy music recordings using a realistic data augmentation pipeline, and train a DL model to denoise them. The denoising model limits the impact of background noise on the AFP system's extracted peaks, improving its robustness to noise. We further propose a novel loss function to adapt the DL model to the considered AFP system, increasing its precision in terms of retrieved spectral peaks. To the best of our knowledge, this hybrid strategy has not been tested before.
translated by 谷歌翻译
在本文中,我们提出了两种技术,即联合建模和数据增强,以改善视听场景分类(AVSC)的系统性能。我们采用仅在图像数据集中培训的预训练网络来提取视频嵌入;而对于音频嵌入模型,我们决定从头开始训练它们。我们探索不同的神经网络体系结构,以有效地结合视频和音频方式。此外,研究了数据增强策略以增加视听训练设置的规模。对于视频方式,验证了兰德金几个操作的有效性。提出了Audio-Video关节混合方案,以进一步改善AVSC的性能。在Tau Urban Audio Visual Spacees 2021的开发集中,我们的最终系统可以在提交给Dcase 2021 Task 1B的所有单个AVSC系统中达到94.2%的最佳准确性。
translated by 谷歌翻译
本文的目的是比较医学声学任务中不同可学习的前端。已经实施了一个框架,以将人类的呼吸道声音和心跳分为两类,即健康或受病理影响。在获得两个合适的数据集后,我们开始使用两个可学习的前端(叶子和nnaudio)对声音进行分类,以及一个不可学习的基线前端,即mel-Filterbanks。然后,计算出的功能将被馈送到两种不同的CNN模型中,即VGG16和EfficityNet。前端根据参数,计算资源和有效性的数量进行了仔细的基准测试。这项工作表明了神经音频分类系统中可学习前端的整合如何提高性能,尤其是在医学声学领域。但是,此类框架的使用使所需的数据数量更大。因此,如果可用于培训的数据量足够大以帮助特征学习过程,则它们很有用。
translated by 谷歌翻译
声源本地化旨在从观察到的多通道音频寻求所有声源的到达方向(DOA)。对于未知数量来源的实际问题,现有的本地化算法试图预测基于似然的编码(即空间频谱),并采用预先确定的阈值来检测源编号和相应的DOA值。但是,这些基于阈值的算法不稳定,因为它们受到仔细选择阈值的限制。为了解决此问题,我们提出了一种称为ISSL的迭代声源本地化方法,该方法可以迭代地提取每个源的DOA而无需阈值,直到满足终止标准为止。与基于阈值的算法不同,ISSL设计基于二进制分类器的活动源检测器网络,以接受残留的空间频谱并决定是否停止迭代。通过这样做,我们的ISSL可以处理任意数量的来源,甚至超过培训阶段中看到的来源数量。实验结果表明,与现有的基于阈值的算法相比,我们的ISSL在DOA估计和源数检测方面都取得了重大的性能提高。
translated by 谷歌翻译
基于惯性数据的人类活动识别(HAR)是从智能手机到超低功率传感器的嵌入式设备上越来越扩散的任务。由于深度学习模型的计算复杂性很高,因此大多数嵌入式HAR系统基于简单且不那么精确的经典机器学习算法。这项工作弥合了在设备上的HAR和深度学习之间的差距,提出了一组有效的一维卷积神经网络(CNN),可在通用微控制器(MCUS)上部署。我们的CNN获得了将超参数优化与子字节和混合精确量化的结合,以在分类结果和记忆职业之间找到良好的权衡。此外,我们还利用自适应推断作为正交优化,以根据处理后的输入来调整运行时的推理复杂性,从而产生更灵活的HAR系统。通过在四个数据集上进行实验,并针对超低功率RISC-V MCU,我们表明(i)我们能够为HAR获得一组丰富的帕累托(Pareto)最佳CNN,以范围超过1个数量级记忆,潜伏期和能耗; (ii)由于自适应推断,我们可以从单个CNN开始得出> 20个运行时操作模式,分类分数的不同程度高达10%,并且推理复杂性超过3倍,并且内存开销有限; (iii)在四个基准中的三个基准中,我们的表现都超过了所有以前的深度学习方法,将记忆占用率降低了100倍以上。获得更好性能(浅层和深度)的少数方法与MCU部署不兼容。 (iv)我们所有的CNN都与推理延迟<16ms的实时式evice Har兼容。他们的记忆职业在0.05-23.17 kb中有所不同,其能源消耗为0.005和61.59 UJ,可在较小的电池供应中进行多年的连续操作。
translated by 谷歌翻译