听到鸟比看到它们要容易得多。但是,它们仍然在自然界中起着至关重要的作用,并且是恶化环境质量和污染的极好指标。机器学习和卷积神经网络的最新进展使我们能够处理连续的音频数据以检测和对鸟类的声音进行分类。该技术可以帮助研究人员监测鸟类种群的状态和趋势和生态系统的生物多样性。我们提出了一个声音检测和分类管道,以分析复杂的音景记录并识别背景中的鸟类。我们的方法从弱标签和很少的数据中学习,声学上可以识别鸟类。我们的解决方案在Kaggle举办的Birdclef 2022挑战赛中获得了807支球队的第18位。
translated by 谷歌翻译
由生物声监测设备组成的无线声传感器网络运行的专家系统的部署,从声音中识别鸟类物种将使许多生态价值任务自动化,包括对鸟类种群组成的分析或濒危物种的检测在环境感兴趣的地区。由于人工智能的最新进展,可以将这些设备具有准确的音频分类功能,其中深度学习技术出色。但是,使生物声音设备负担得起的一个关键问题是使用小脚印深神经网络,这些神经网络可以嵌入资源和电池约束硬件平台中。因此,这项工作提供了两个重型和大脚印深神经网络(VGG16和RESNET50)和轻量级替代方案MobilenetV2之间的批判性比较分析。我们的实验结果表明,MobileNetV2的平均F1得分低于RESNET50(0.789 vs. 0.834)的5 \%,其性能优于VGG16,其足迹大小近40倍。此外,为了比较模型,我们创建并公开了西部地中海湿地鸟类数据集,其中包括201.6分钟和5,795个音频摘录,摘录了20种特有鸟类的aiguamolls de l'empord \ e empord \`一个自然公园。
translated by 谷歌翻译
Audio sound recognition and classification is used for many tasks and applications including human voice recognition, music recognition and audio tagging. In this paper we apply Mel Frequency Cepstral Coefficients (MFCC) in combination with a range of machine learning models to identify (Australian) birds from publicly available audio files of their birdsong. We present approaches used for data processing and augmentation and compare the results of various state of the art machine learning models. We achieve an overall accuracy of 91% for the top-5 birds from the 30 selected as the case study. Applying the models to more challenging and diverse audio files comprising 152 bird species, we achieve an accuracy of 58%
translated by 谷歌翻译
我们提出了一个新的基准数据集,即Sapsucker Woods 60(SSW60),用于推进视听细颗粒分类的研究。尽管我们的社区在图像上的细粒度视觉分类方面取得了长足的进步,但音频和视频细颗粒分类的对应物相对尚未探索。为了鼓励在这个领域的进步,我们已经仔细构建了SSW60数据集,以使研究人员能够以三种不同的方式对相同的类别进行分类:图像,音频和视频。该数据集涵盖了60种鸟类,由现有数据集以及全新的专家策划音频和视频数据集组成。我们通过使用最先进的变压器方法进行了彻底基准的视听分类性能和模态融合实验。我们的发现表明,视听融合方法的性能要比仅使用基于图像或音频的方法来进行视频分类任务要好。我们还提出了有趣的模态转移实验,这是由SSW60的独特构造所涵盖的三种不同模态所实现的。我们希望SSW60数据集和伴随的基线在这个迷人的地区进行研究。
translated by 谷歌翻译
尽管只有几个兴趣类的示例,但很少有声音事件检测是检测声音事件的任务。该框架在生物声学中特别有用,在生物声学中,通常需要注释很长的录音,但是专家注释时间是有限的。本文概述了Dcase 2022 Challenge中包含的第二次发射生物声音事件检测任务的第二版。介绍了任务目标,数据集和基准的详细描述,以及所获得的主要结果以及提交系统的特征。该任务收到了15个不同团队的提交,其中13个得分高于基线。最高的F-评分在评估集中为60%,这对去年的版本有了巨大的进步。高度表现的方法利用了原型网络,转导学习,并解决了所有目标类别的事件长度。此外,通过分析每个子集的结果,我们可以确定系统面临的主要困难,并得出结论,很少有展示的生物声音事件检测仍然是一个开放的挑战。
translated by 谷歌翻译
为了保护热带森林生物多样性,我们需要能够可靠,便宜地和规模地检测它。通过机器学习方法从被动录制的SoundScapes检测自动化物种是对此目标的有希望的技术,但它受到大型训练数据集的必要性。在婆罗洲的热带森林中使用Soundcapes和通过转移学习创建的卷积神经网络模型(CNN),我们调查I)最低可行训练数据集规模,用于准确预测呼叫类型('Sonotypes')和II)的程度数据增强可以克服小型训练数据集的问题。我们发现甚至相对较高的样本尺寸(每个呼叫类型)导致平庸的精度,然而,无论分类学组或呼叫特征如何,数据增强都会显着提高。我们的研究结果表明,即使对于具有许多罕见物种的小型Sountscape的项目,转移学习和数据增强可以使用CNN来分类物种的发声。我们的开源方法有可能使节约计划能够通过在生物多样性的自适应管理中使用Soundscape数据来实现更有证据。
translated by 谷歌翻译
声音事件检测(SED)在监控,视频索引等中的广泛应用程序上获得了越来越长的关注。SED中的现有模型主要产生帧级预测,将其转换为序列多标签分类问题。基于帧的模型的一个关键问题是它追求最佳的帧级预测而不是最佳的事件级预测。此外,它需要后处理,无法以端到端的方式培训。本文首先介绍了一维检测变压器(1D-DETR),受到图像对象检测的检测变压器的启发。此外,鉴于SED的特征,音频查询分支和用于微调的一对多匹配策略将模型添加到1D-DETR以形成声音事件检测变压器(SEDT)。据我们所知,Sedt是第一个基于事件和最终的SED模型。实验在城市 - SED数据集和DCES2019任务4数据集上进行,两者都表明席克可以实现竞争性能。
translated by 谷歌翻译
自动蛇种识别很重要,因为它具有巨大的潜力,可以帮助蛇虫引起的降低死亡和残疾。我们在Snakeclef 2022中介绍了解决方案,以在重度长尾部分布中进行细粒度的蛇种识别。首先,网络体系结构旨在从多种模式中提取和融合功能,即来自语言模式的视觉方式和地理局部信息的照片。然后,研究了基于logit调整的方法,以减轻严重的阶级失衡引起的影响。接下来,提出了有监督的学习方法的组合,以充分利用数据集,包括标记的培训数据和未标记的测试数据。最后,采用后处理策略,例如多尺度和多曲线测试时间启动,位置过滤和模型集合,以提高性能。有了几种不同模型的合奏,在最终排行榜上获得了82.65%的私人分数,排名第三。
translated by 谷歌翻译
Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中,我们提出了一种机器学习方法,可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合,提供了信号去噪,咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序,使用症状检查器与语音,呼吸和咳嗽信号一起使用,以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。
translated by 谷歌翻译
诸如“ uh”或“ um”之类的填充词是人们用来表示他们停下来思考的声音或词。从录音中查找和删除填充单词是媒体编辑中的一项常见和繁琐的任务。自动检测和分类填充单词可以极大地帮助这项任务,但是迄今为止,很少有关于此问题的研究。一个关键原因是缺少带有带注释的填充词的数据集用于模型培训和评估。在这项工作中,我们介绍了一个新颖的语音数据集,PodcastFillers,带有35K注释的填充单词和50k注释,这些声音通常会出现在播客中,例如呼吸,笑声和单词重复。我们提出了一条利用VAD和ASR来检测填充候选物和分类器以区分填充单词类型的管道。我们评估了有关播客填充器的拟议管道,与几个基线相比,并提供了一项详细的消融研究。特别是,我们评估了使用ASR的重要性以及它与类似于关键字发现的无转录方法的比较。我们表明,我们的管道获得了最新的结果,并且利用ASR强烈优于关键字斑点方法。我们公开播放播客,希望我们的工作是未来研究的基准。
translated by 谷歌翻译
音频标记是一个活跃的研究区,具有广泛的应用。自发布以来,在推进模型性能方面取得了很大进展,主要来自新颖的模型架构和注意力模块。但是,我们发现适当的培训技术对于使用音频构建音频标记模型同样重要,但没有得到他们应得的关注。为了填补差距,在这项工作中,我们呈现PSLA,一系列培训技术,可以明显增强模型准确性,包括想象成预测,平衡采样,数据增强,标签增强,模型聚集和其设计选择。通过使用这些技术培训效率,我们可以分别获得单个型号(具有13.6M参数)和一个集合模型,分别实现Audioset的平均平均精度(MAP)分数为0.444和0.474,优于81米的先前最佳系统0.439参数。此外,我们的型号还在FSD50K上实现了0.567的新型地图。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
我们将后处理应用于音频事件分类模型的类概率分布输出,并采用强化学习来共同发现后处理堆栈的各个阶段的最佳参数,例如分类阈值和所使用的中间过滤算法的内核大小平滑模型预测。为了实现这一目标,我们定义了一个强化学习环境:1)状态是该模型为给定音频样本提供的类概率分布,2)操作是选择后处理的每个参数的候选最佳值堆栈,3)奖励基于我们旨在优化的分类准确度度量,即在我们的情况下,这是基于音频事件的宏F1得分。我们将我们的后处理应用于两个音频事件分类模型的类概率分布输出,这些模型已提交给Dcase Task4 2020挑战。我们发现,通过使用强化学习来发现应用于音频事件分类模型输出的后处理堆栈的最佳每级参数,我们可以改进基于音频事件的宏F1分数(使用的主要指标在DCASE挑战中,将音频事件分类精度比较4-5%,与使用手动调谐参数相同的后处理堆栈相比。
translated by 谷歌翻译
音频分割和声音事件检测是机器聆听中的关键主题,旨在检测声学类别及其各自的边界。它对于音频分析,语音识别,音频索引和音乐信息检索非常有用。近年来,大多数研究文章都采用分类。该技术将音频分为小帧,并在这些帧上单独执行分类。在本文中,我们提出了一种新颖的方法,叫您只听一次(Yoho),该方法受到计算机视觉中普遍采用的Yolo算法的启发。我们将声学边界的检测转换为回归问题,而不是基于框架的分类。这是通过具有单独的输出神经元来检测音频类的存在并预测其起点和终点来完成的。与最先进的卷积复发性神经网络相比,Yoho的F量的相对改善范围从多个数据集中的1%到6%不等,以进行音频分段和声音事件检测。由于Yoho的输出更端到端,并且可以预测的神经元更少,因此推理速度的速度至少比逐个分类快6倍。另外,由于这种方法可以直接预测声学边界,因此后处理和平滑速度约为7倍。
translated by 谷歌翻译
骨科疾病在马匹中常见,通常导致安乐死,这通常可以通过早期的检测来避免。这些条件通常会产生不同程度的微妙长期疼痛。培训视觉疼痛识别方法具有描绘这种疼痛的视频数据是挑战性的,因为所产生的疼痛行为也是微妙的,稀疏出现,变得不同,使得甚至是专家兰德尔的挑战,为数据提供准确的地面真实性。我们表明,一款专业培训的模型,仅涉及急性实验疼痛的马匹(标签不那么暧昧)可以帮助识别更微妙的骨科疼痛显示。此外,我们提出了一个问题的人类专家基线,以及对各种领域转移方法的广泛实证研究以及由疼痛识别方法检测到矫形数据集的清洁实验疼痛中的疼痛识别方法检测到的内容。最后,这伴随着围绕现实世界动物行为数据集所带来的挑战以及如何为类似的细粒度行动识别任务建立最佳实践的讨论。我们的代码可在https://github.com/sofiabroome/painface-recognition获得。
translated by 谷歌翻译
该卷包含来自机器学习挑战的选定贡献“发现玛雅人的奥秘”,该挑战在欧洲机器学习和数据库中知识发现的欧洲挑战赛曲目(ECML PKDD 2021)中提出。遥感大大加速了古代玛雅人森林地区的传统考古景观调查。典型的探索和发现尝试,除了关注整个古老的城市外,还集中在单个建筑物和结构上。最近,已经成功地尝试了使用机器学习来识别古代玛雅人定居点。这些尝试虽然相关,但却集中在狭窄的区域上,并依靠高质量的空中激光扫描(ALS)数据,该数据仅涵盖古代玛雅人曾经定居的地区的一小部分。另一方面,由欧洲航天局(ESA)哨兵任务制作的卫星图像数据很丰富,更重要的是公开。旨在通过执行不同类型的卫星图像(Sentinel-1和Sentinel-2和ALS)的集成图像细分来定位和识别古老的Maya架构(建筑物,Aguadas和平台)的“发现和识别古代玛雅体系结构(建筑物,Aguadas和平台)的挑战的“发现和识别古老的玛雅体系结构(建筑物,阿吉达斯和平台)的“发现玛雅的奥秘”的挑战, (LIDAR)数据。
translated by 谷歌翻译
将音频分离成不同声音源的深度学习技术面临着几种挑战。标准架构需要培训不同类型的音频源的独立型号。虽然一些通用分离器采用单个模型来靶向多个来源,但它们难以推广到看不见的来源。在本文中,我们提出了一个三个组件的管道,可以从大型但弱标记的数据集:audioset训练通用音频源分离器。首先,我们提出了一种用于处理弱标记训练数据的变压器的声音事件检测系统。其次,我们设计了一种基于查询的音频分离模型,利用此数据进行模型培训。第三,我们设计一个潜在的嵌入处理器来编码指定用于分离的音频目标的查询,允许零拍摄的概括。我们的方法使用单一模型进行多种声音类型的源分离,并仅依赖于跨标记的培训数据。此外,所提出的音频分离器可用于零拍摄设置,学习以分离从未在培训中看到的音频源。为了评估分离性能,我们在侦察中测试我们的模型,同时在不相交的augioset上培训。我们通过对从训练中保持的音频源类型进行另一个实验,进一步通过对训练进行了另一个实验来验证零射性能。该模型在两种情况下实现了对当前监督模型的相当的源 - 失真率(SDR)性能。
translated by 谷歌翻译
相机陷阱是监视收集大量图片的野生动植物的策略。从每个物种收集的图像数量通常遵循长尾分布,即,一些类有大量实例,而许多物种只有很小的比例。尽管在大多数情况下,这些稀有物种是生态学家感兴趣的类别,但在使用深度学习模型时,它们通常被忽略,因为这些模型需要大量的培训图像。在这项工作中,我们系统地评估了最近提出的技术 - 即平方根重新采样,平衡的焦点损失和平衡的组软效果 - 以解决相机陷阱图像中动物物种的长尾视觉识别。为了得出更一般的结论,我们评估了四个计算机视觉模型家族(Resnet,Mobilenetv3,EdgitionNetV2和Swin Transformer)和具有不同特征不同的相机陷阱数据集的四个家族。最初,我们用最新的培训技巧准备了一个健壮的基线,然后应用了改善长尾识别的方法。我们的实验表明,Swin Transformer可以在不应用任何其他方法处理不平衡的方法的情况下达到稀有类别的高性能,WCS数据集的总体准确性为88.76%,Snapshot Serengeti的总体准确性为94.97%,考虑到基于位置的火车/测试拆分。通常,平方根采样是一种方法,它最大程度地提高了少数族裔阶级的表现约为10%,但以降低多数类准确性至少4%的代价。这些结果促使我们使用合并平方根采样和基线的合奏提出了一种简单有效的方法。拟议的方法实现了尾巴级的性能与头等阶级准确性的成本之间的最佳权衡。
translated by 谷歌翻译
鉴于AD的高流行和传统方法的高成本,与自动检测阿尔茨海默氏病(AD)有关的研究很重要。由于广告会显着影响自发语音的声学,因此语音处理和机器学习(ML)为可靠地检测AD提供了有希望的技术。但是,语音音频可能会受到不同类型的背景噪声的影响,重要的是要了解噪声如何影响ML模型检测到语音的AD的准确性。在本文中,我们研究了来自五个不同类别的15种类型的环境噪声对四种具有三种声音表示的ML模型的性能的影响。我们进行了彻底的分析,显示了ML模型和声学特征如何受到不同类型的声学噪声的影响。我们表明声音噪声不一定是有害的 - 某些类型的噪声对AD检测模型有益,并帮助将精度提高到4.8%。我们提供有关如何利用声学噪声的建议,以通过在现实世界中部署的ML模型获得最佳性能结果。
translated by 谷歌翻译
机器侦听中的声音事件检测(SED)需要识别音频文件中的不同声音,并识别音频中特定声音事件的开始和结束时间。 SED在多媒体数据库中发现了在各种应用中的应用,例如音频监控,语音识别和基于上下文的索引和检索数据。然而,在现实生活场景中,来自各种来源的声音很少没有任何干扰噪音或干扰。在本文中,我们在嘈杂的音频数据上测试您只听到一次(Yoho)算法的性能。由您的灵感仅仅看一次(YOLO)算法在计算机视觉中,yoho算法可以匹配数据集上各种最先进的算法的性能,如音乐语音检测数据集,TUT声音事件和城市 - SED数据集,但在较低的推理时间。在本文中,我们探讨了Yoho算法在包含不同声音噪声比(SNR)的噪声的音频文件的语音数据集的性能。 Yoho可以胜过或至少匹配语音数据集纸中的最佳性能SED算法,并在更短的时间内进行推断。
translated by 谷歌翻译