基于音频的色情检测可以通过利用不同的光谱特征来实现有效的成人内容过滤。为了改善它,我们根据不同的神经体系结构和声学特征探索色情声音建模。我们发现,经过对数频谱图训练的CNN可以在色情800数据集上实现最佳性能。我们的实验结果还表明,对数MEL频谱图可以为模型识别色情声音提供更好的表示。最后,为了对整个音频波形进行分类,而不是段,我们采用了投票段到原告技术,从而产生最佳的音频级检测结果。
translated by 谷歌翻译
音频分割和声音事件检测是机器聆听中的关键主题,旨在检测声学类别及其各自的边界。它对于音频分析,语音识别,音频索引和音乐信息检索非常有用。近年来,大多数研究文章都采用分类。该技术将音频分为小帧,并在这些帧上单独执行分类。在本文中,我们提出了一种新颖的方法,叫您只听一次(Yoho),该方法受到计算机视觉中普遍采用的Yolo算法的启发。我们将声学边界的检测转换为回归问题,而不是基于框架的分类。这是通过具有单独的输出神经元来检测音频类的存在并预测其起点和终点来完成的。与最先进的卷积复发性神经网络相比,Yoho的F量的相对改善范围从多个数据集中的1%到6%不等,以进行音频分段和声音事件检测。由于Yoho的输出更端到端,并且可以预测的神经元更少,因此推理速度的速度至少比逐个分类快6倍。另外,由于这种方法可以直接预测声学边界,因此后处理和平滑速度约为7倍。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
自从几十年前的频谱分析开创性工作以来,已经研究了提取音频和语音特征的方法。最近的努力以开发通用音频表示的雄心为指导。例如,如果深度神经网络在大型音频数据集上进行了培训,则可以提取最佳的嵌入。这项工作扩展了基于自我监督的学习,通过引导,提出各种编码器体系结构,并探索使用不同的预训练数据集的效果。最后,我们提出了一个新颖的培训框架,以提出一个混合音频表示,该框架结合了手工制作和数据驱动的学习音频功能。在HEAR NEURIPS 2021挑战中,对听觉场景分类和时间戳检测任务进行了评估。我们的结果表明,在大多数听到挑战任务中,带有卷积变压器的混合模型都会产生卓越的性能。
translated by 谷歌翻译
Audio sound recognition and classification is used for many tasks and applications including human voice recognition, music recognition and audio tagging. In this paper we apply Mel Frequency Cepstral Coefficients (MFCC) in combination with a range of machine learning models to identify (Australian) birds from publicly available audio files of their birdsong. We present approaches used for data processing and augmentation and compare the results of various state of the art machine learning models. We achieve an overall accuracy of 91% for the top-5 birds from the 30 selected as the case study. Applying the models to more challenging and diverse audio files comprising 152 bird species, we achieve an accuracy of 58%
translated by 谷歌翻译
深度学习(DL)算法在不同领域显示出令人印象深刻的性能。其中,由于一些有趣的模式,在过去的几十年中,音频吸引了许多研究人员 - 尤其是在音频数据的分类中。为了更好地执行音频分类,功能选择和组合起着关键作用,因为它们有可能制造或破坏任何DL模型的性能。为了调查这一角色,我们对具有各种最先进的音频特征的多种尖端DL模型(即卷积神经网络,Extricnet,Mobilenet,Supper Vector Machine和Multi-Pecceptron)的性能进行了广泛的评估。 (即MEL频谱图,MEL频率Cepstral系数和零交叉率)在三个不同的数据集上独立或作为组合(即通过结合)(即免费的口语数据集,音频urdu数据集和Audio Gujarati Digits Digaset数据集) )。总体而言,结果建议特征选择取决于数据集和模型。但是,特征组合应仅限于单独使用时已经实现良好性能的唯一特征(即主要是MEL频谱图,MEL频率Cepstral系数)。这种功能组合/结合使我们能够胜过以前的最新结果,而与我们选择的DL模型无关。
translated by 谷歌翻译
机器侦听中的声音事件检测(SED)需要识别音频文件中的不同声音,并识别音频中特定声音事件的开始和结束时间。 SED在多媒体数据库中发现了在各种应用中的应用,例如音频监控,语音识别和基于上下文的索引和检索数据。然而,在现实生活场景中,来自各种来源的声音很少没有任何干扰噪音或干扰。在本文中,我们在嘈杂的音频数据上测试您只听到一次(Yoho)算法的性能。由您的灵感仅仅看一次(YOLO)算法在计算机视觉中,yoho算法可以匹配数据集上各种最先进的算法的性能,如音乐语音检测数据集,TUT声音事件和城市 - SED数据集,但在较低的推理时间。在本文中,我们探讨了Yoho算法在包含不同声音噪声比(SNR)的噪声的音频文件的语音数据集的性能。 Yoho可以胜过或至少匹配语音数据集纸中的最佳性能SED算法,并在更短的时间内进行推断。
translated by 谷歌翻译
阿尔茨海默氏病(AD)构成了一种神经退行性疾病,对人们的日常生活造成了严重后果,如果没有可用的治愈方法,请及早诊断出来。阿尔茨海默氏症是痴呆症的最常见原因,它构成了记忆丧失的一般术语。由于痴呆症会影响言语,因此现有的研究计划着重于检测自发言语的痴呆症。然而,关于语音数据转换为对数 - 梅尔频谱图和梅尔频率cepstral系数(MFCC)以及预验证模型的使用,几乎没有做出的工作。同时,关于变压器网络的使用以及两种模式(即语音和笔录)的方式,几乎没有完成工作。为了解决这些局限性,首先我们采用了几个验证的模型,而视觉变压器(VIT)则取得了最高的评估结果。其次,我们提出了多模型模型。更具体地说,我们引入的模型包括封闭式的多模式单元,以控制每种模态对最终分类和跨模式关注的影响,以便以有效的方式捕获两种模态之间的关系。在Adress挑战数据集上进行的广泛实验证明了所提出的模型的有效性及其优于最先进的方法。
translated by 谷歌翻译
We consider the question: what can be learnt by looking at and listening to a large number of unlabelled videos? There is a valuable, but so far untapped, source of information contained in the video itself -the correspondence between the visual and the audio streams, and we introduce a novel "Audio-Visual Correspondence" learning task that makes use of this. Training visual and audio networks from scratch, without any additional supervision other than the raw unconstrained videos themselves, is shown to successfully solve this task, and, more interestingly, result in good visual and audio representations. These features set the new state-of-the-art on two sound classification benchmarks, and perform on par with the state-of-the-art selfsupervised approaches on ImageNet classification. We also demonstrate that the network is able to localize objects in both modalities, as well as perform fine-grained recognition tasks.
translated by 谷歌翻译
老年人的跌倒检测是一些经过深入研究的问题,其中包括多种拟议的解决方案,包括可穿戴和不可磨损的技术。尽管现有技术的检测率很高,但由于需要佩戴设备和用户隐私问题,因此缺乏目标人群的采用。我们的论文提供了一种新颖的,不可磨损的,不受欢迎的和可扩展的解决方案,用于秋季检测,该解决方案部署在配备麦克风的自主移动机器人上。所提出的方法使用人们在房屋中记录的环境声音输入。我们专门针对浴室环境,因为它很容易跌落,并且在不危害用户隐私的情况下无法部署现有技术。目前的工作开发了一种基于变压器体系结构的解决方案,该解决方案从浴室中获取嘈杂的声音输入,并将其分为秋季/禁止类别,准确性为0.8673。此外,提出的方法可扩展到其他室内环境,除了浴室外,还适合在老年家庭,医院和康复设施中部署,而无需用户佩戴任何设备或不断受到传感器的“观察”。
translated by 谷歌翻译
现有的源单元手机识别方法缺乏源设备的长期特征表征,从而导致与源单元相关特征的不准确表示,从而导致识别精度不足。在本文中,我们提出了一种基于时空表示学习的源细胞手机识别方法,其中包括两个主要部分:提取顺序高斯平均矩阵特征和基于时空表示学习的识别模型的构建。在特征提取部分中,基于对记录源信号的时间序列表示的分析,我们通过使用高斯混合模型对数据分布的灵敏度提取具有长期和短期表示能力的顺序高斯平均矩阵。在模型构建部分中,我们设计了一个结构化的时空表示网络C3D-BILSTM,以充分表征时空信息,结合3D卷积网络和双向长期短期记忆网络,用于短期光谱信息和长期的长期记忆网络波动信息表示学习,并通过融合记录源信号的时空特征信息来准确识别细胞手机。该方法的平均准确性为99.03%的封闭设置识别在CCNU \ _Mobile数据集中的45个手机识别,而在小样本尺寸实验中的平均识别率为98.18%,识别性能优于现有的最新目前的识别性能方法。实验结果表明,该方法在多级细胞手机识别中表现出出色的识别性能。
translated by 谷歌翻译
诸如“ uh”或“ um”之类的填充词是人们用来表示他们停下来思考的声音或词。从录音中查找和删除填充单词是媒体编辑中的一项常见和繁琐的任务。自动检测和分类填充单词可以极大地帮助这项任务,但是迄今为止,很少有关于此问题的研究。一个关键原因是缺少带有带注释的填充词的数据集用于模型培训和评估。在这项工作中,我们介绍了一个新颖的语音数据集,PodcastFillers,带有35K注释的填充单词和50k注释,这些声音通常会出现在播客中,例如呼吸,笑声和单词重复。我们提出了一条利用VAD和ASR来检测填充候选物和分类器以区分填充单词类型的管道。我们评估了有关播客填充器的拟议管道,与几个基线相比,并提供了一项详细的消融研究。特别是,我们评估了使用ASR的重要性以及它与类似于关键字发现的无转录方法的比较。我们表明,我们的管道获得了最新的结果,并且利用ASR强烈优于关键字斑点方法。我们公开播放播客,希望我们的工作是未来研究的基准。
translated by 谷歌翻译
大规模的声音识别数据集通常由从多媒体库中获得的声学记录组成。结果,通常可以利用音频以外的方式来改善为关联任务设计的模型的输出。但是,通常并非所有内容都适用于此类集合的所有样本:例如,原始材料可能在某个时候从源平台中删除,因此,不再获得非审计功能。我们证明,可以通过将此方法应用于基于注意力的深度学习系统来解决此问题来处理此问题,该系统目前是声音识别领域中最新的一部分。更具体地说,我们表明,可以成功地利用提出的模型扩展名将部分可用的视觉信息纳入此类网络的操作过程中,这些信息通常仅在训练和推理过程中使用听觉功能。在实验上,我们验证了所考虑的方法是否会导致许多与音频标记和声音事件检测有关的评估方案的预测。此外,我们仔细检查了所提出的技术的某些属性和局限性。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
语言识别(LID)是自动语音识别(ASR)的建议的第一步,用于检测音频标本的口语。但是,在能够多语言语音处理的最先进的系统中,用户必须在使用它们之前明确设置一种或多种语言。因此,盖子在基于ASR的系统无法在多语言环境中解析导致语音识别失败的语言的情况下起着非常重要的作用。我们提出了一个基于注意力的卷积复发性神经网络(CRNN),该网络与音频标本的Mel频率Cepstral系数(MFCC)功能一起工作。此外,我们重现了一些最先进的方法,即卷积神经网络(CNN)和卷积复发性神经网络(CRNN),并将它们与我们提出的方法进行比较。我们对13种不同的印度语言进行了广泛的评估,我们的模型分类精度超过98%。我们的盖子模型对噪声非常强大,并在嘈杂的情况下提供了91.2%的精度。提出的模型很容易扩展到新语言。
translated by 谷歌翻译
参与者反复产生音节的Diadochokinetic语音任务(DDK)通常用作评估语音运动障碍的一部分。这些研究依赖于时间密集型,主观的手动分析,并且仅提供粗略的语音图片。本文介绍了两个深度神经网络模型,这些模型会自动从未注释,未转录的语音中分割辅音和元音。两种模型都在原始波形上工作,并使用卷积层进行特征提取。第一个模型基于LSTM分类器,然后是完全连接的层,而第二个模型则添加了更多的卷积层,然后是完全连接的层。这些模型预测的这些分割用于获得语音速率和声音持续时间的度量。年轻健康个体数据集的结果表明,我们的LSTM模型的表现优于当前的最新系统,并且与受过训练的人类注释相当。此外,在对帕金森氏病数据集的看不见的老年人进行评估时,LSTM模型还与受过训练的人类注释者相当。
translated by 谷歌翻译
由生物声监测设备组成的无线声传感器网络运行的专家系统的部署,从声音中识别鸟类物种将使许多生态价值任务自动化,包括对鸟类种群组成的分析或濒危物种的检测在环境感兴趣的地区。由于人工智能的最新进展,可以将这些设备具有准确的音频分类功能,其中深度学习技术出色。但是,使生物声音设备负担得起的一个关键问题是使用小脚印深神经网络,这些神经网络可以嵌入资源和电池约束硬件平台中。因此,这项工作提供了两个重型和大脚印深神经网络(VGG16和RESNET50)和轻量级替代方案MobilenetV2之间的批判性比较分析。我们的实验结果表明,MobileNetV2的平均F1得分低于RESNET50(0.789 vs. 0.834)的5 \%,其性能优于VGG16,其足迹大小近40倍。此外,为了比较模型,我们创建并公开了西部地中海湿地鸟类数据集,其中包括201.6分钟和5,795个音频摘录,摘录了20种特有鸟类的aiguamolls de l'empord \ e empord \`一个自然公园。
translated by 谷歌翻译
鉴于AD的高流行和传统方法的高成本,与自动检测阿尔茨海默氏病(AD)有关的研究很重要。由于广告会显着影响自发语音的声学,因此语音处理和机器学习(ML)为可靠地检测AD提供了有希望的技术。但是,语音音频可能会受到不同类型的背景噪声的影响,重要的是要了解噪声如何影响ML模型检测到语音的AD的准确性。在本文中,我们研究了来自五个不同类别的15种类型的环境噪声对四种具有三种声音表示的ML模型的性能的影响。我们进行了彻底的分析,显示了ML模型和声学特征如何受到不同类型的声学噪声的影响。我们表明声音噪声不一定是有害的 - 某些类型的噪声对AD检测模型有益,并帮助将精度提高到4.8%。我们提供有关如何利用声学噪声的建议,以通过在现实世界中部署的ML模型获得最佳性能结果。
translated by 谷歌翻译
鲜花在从环境中去除乏味的情况下起着至关重要的作用。开花植物的生命周期涉及授粉,受精,开花,种子形成,分散和发芽。 Honeybees授粉了所有开花植物的75%。环境污染,气候变化,自然景观拆除等等,威胁着自然栖息地,从而不断减少蜜蜂的数量。结果,一些研究人员试图解决这个问题。将声学分类应用于蜂巢声音的记录可能是检测其中的变化的一种方式。在这项研究中,我们在记录的声音上使用深度学习技术,即顺序神经网络,卷积神经网络和经常性的神经网络,以从非季节的声音中分类蜜蜂的声音。此外,我们在一些流行的非深度学习技术中进行了比较研究,即支持向量机,决策树,随机森林和na \“ ive bayes,以及深度学习技术。还在合并的记录中验证了这些技术声音(25-75%的噪音)。
translated by 谷歌翻译
该方法不仅挑战了到目前为止在同一趋势的早期实验中使用的一些基本数学技术,而且还为有趣的结果引入了新的范围和新的视野。在该项目中已经优化了物理控制谱图,以及探索它如何处理手头的问题的强烈要求。通过该项目在光线下提出的主要贡献和发展涉及使用更好的数学技术和特定于问题的机器学习方法。在项目中使用频率掩蔽和随机频率时间拉伸等音频数据集的简易数据分析和数据增强,因此在本文中解释。在使用的方法中,还尝试和探索了音频转换原理,实际上,所获得的见解是建设性地使用的项目的后期阶段。使用深度学习原则肯定是其中之一。此外,在本文中,已经提出了潜在的范围和即将到来的时间隧道隧道。虽然所获得的大部分结果是目前的域名,但它们肯定有效地在不同背景的各种不同域中生产新的解决方案。
translated by 谷歌翻译