将音频分离成不同声音源的深度学习技术面临着几种挑战。标准架构需要培训不同类型的音频源的独立型号。虽然一些通用分离器采用单个模型来靶向多个来源,但它们难以推广到看不见的来源。在本文中,我们提出了一个三个组件的管道,可以从大型但弱标记的数据集:audioset训练通用音频源分离器。首先,我们提出了一种用于处理弱标记训练数据的变压器的声音事件检测系统。其次,我们设计了一种基于查询的音频分离模型,利用此数据进行模型培训。第三,我们设计一个潜在的嵌入处理器来编码指定用于分离的音频目标的查询,允许零拍摄的概括。我们的方法使用单一模型进行多种声音类型的源分离,并仅依赖于跨标记的培训数据。此外,所提出的音频分离器可用于零拍摄设置,学习以分离从未在培训中看到的音频源。为了评估分离性能,我们在侦察中测试我们的模型,同时在不相交的augioset上培训。我们通过对从训练中保持的音频源类型进行另一个实验,进一步通过对训练进行了另一个实验来验证零射性能。该模型在两种情况下实现了对当前监督模型的相当的源 - 失真率(SDR)性能。
translated by 谷歌翻译
Recent years have seen progress beyond domain-specific sound separation for speech or music towards universal sound separation for arbitrary sounds. Prior work on universal sound separation has investigated separating a target sound out of an audio mixture given a text query. Such text-queried sound separation systems provide a natural and scalable interface for specifying arbitrary target sounds. However, supervised text-queried sound separation systems require costly labeled audio-text pairs for training. Moreover, the audio provided in existing datasets is often recorded in a controlled environment, causing a considerable generalization gap to noisy audio in the wild. In this work, we aim to approach text-queried universal sound separation by using only unlabeled data. We propose to leverage the visual modality as a bridge to learn the desired audio-textual correspondence. The proposed CLIPSep model first encodes the input query into a query vector using the contrastive language-image pretraining (CLIP) model, and the query vector is then used to condition an audio separation model to separate out the target sound. While the model is trained on image-audio pairs extracted from unlabeled videos, at test time we can instead query the model with text inputs in a zero-shot setting, thanks to the joint language-image embedding learned by the CLIP model. Further, videos in the wild often contain off-screen sounds and background noise that may hinder the model from learning the desired audio-textual correspondence. To address this problem, we further propose an approach called noise invariant training for training a query-based sound separation model on noisy data. Experimental results show that the proposed models successfully learn text-queried universal sound separation using only noisy unlabeled videos, even achieving competitive performance against a supervised model in some settings.
translated by 谷歌翻译
声音事件检测(SED)在监控,视频索引等中的广泛应用程序上获得了越来越长的关注。SED中的现有模型主要产生帧级预测,将其转换为序列多标签分类问题。基于帧的模型的一个关键问题是它追求最佳的帧级预测而不是最佳的事件级预测。此外,它需要后处理,无法以端到端的方式培训。本文首先介绍了一维检测变压器(1D-DETR),受到图像对象检测的检测变压器的启发。此外,鉴于SED的特征,音频查询分支和用于微调的一对多匹配策略将模型添加到1D-DETR以形成声音事件检测变压器(SEDT)。据我们所知,Sedt是第一个基于事件和最终的SED模型。实验在城市 - SED数据集和DCES2019任务4数据集上进行,两者都表明席克可以实现竞争性能。
translated by 谷歌翻译
Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
translated by 谷歌翻译
音频标记是一个活跃的研究区,具有广泛的应用。自发布以来,在推进模型性能方面取得了很大进展,主要来自新颖的模型架构和注意力模块。但是,我们发现适当的培训技术对于使用音频构建音频标记模型同样重要,但没有得到他们应得的关注。为了填补差距,在这项工作中,我们呈现PSLA,一系列培训技术,可以明显增强模型准确性,包括想象成预测,平衡采样,数据增强,标签增强,模型聚集和其设计选择。通过使用这些技术培训效率,我们可以分别获得单个型号(具有13.6M参数)和一个集合模型,分别实现Audioset的平均平均精度(MAP)分数为0.444和0.474,优于81米的先前最佳系统0.439参数。此外,我们的型号还在FSD50K上实现了0.567的新型地图。
translated by 谷歌翻译
在本文中,我们介绍了联合主义者,这是一种能够感知的多仪器框架,能够转录,识别和识别和将多种乐器与音频剪辑分开。联合主义者由调节其他模块的仪器识别模块组成:输出仪器特异性钢琴卷的转录模块以及利用仪器信息和转录结果的源分离模块。仪器条件设计用于明确的多仪器功能,而转录和源分离模块之间的连接是为了更好地转录性能。我们具有挑战性的问题表述使该模型在现实世界中非常有用,因为现代流行音乐通常由多种乐器组成。但是,它的新颖性需要关于如何评估这种模型的新观点。在实验过程中,我们从各个方面评估了模型,为多仪器转录提供了新的评估观点。我们还认为,转录模型可以用作其他音乐分析任务的预处理模块。在几个下游任务的实验中,我们的转录模型提供的符号表示有助于解决降低检测,和弦识别和关键估计的频谱图。
translated by 谷歌翻译
自动音乐转录(AMT),从原始音频推断出音符,是音乐理解核心的具有挑战性的任务。与通常专注于单个扬声器的单词的自动语音识别(ASR)不同,AMT通常需要同时转换多个仪器,同时保留微量间距和定时信息。此外,许多AMT数据集是“低资源”,甚至甚至专家音乐家发现音乐转录困难和耗时。因此,事先工作专注于任务特定的架构,对每个任务的个体仪器量身定制。在这项工作中,通过对低资源自然语言处理(NLP)的序列到序列转移学习的有前途的结果,我们证明了通用变压器模型可以执行多任务AMT,共同转录音乐的任意组合跨几个转录数据集的仪器。我们展示了统一培训框架在一系列数据集中实现了高质量的转录结果,大大提高了低资源仪器(如吉他)的性能,同时为丰富的仪器(如钢琴)保持了强大的性能。最后,通过扩大AMT的范围,我们揭示了更加一致的评估指标和更好的数据集对齐,并为这个新的多任务AMT的新方向提供了强的基线。
translated by 谷歌翻译
传统上,音乐标记和基于内容的检索系统是使用预定的本体论构建的,涵盖了一组刚性的音乐属性或文本查询。本文介绍了Mulan:首次尝试新一代的声学模型,这些模型将音乐音频直接与无约束的自然语言描述联系起来。Mulan采用了两座联合音频文本嵌入模型的形式,该模型使用4400万张音乐录音(37万小时)和弱相关的自由形式文本注释训练。通过与广泛的音乐流派和文本样式(包括传统的音乐标签)的兼容性,由此产生的音频文本表示形式涵盖了现有的本体论,同时又毕业至真正的零击功能。我们通过一系列实验演示了Mulan嵌入的多功能性,包括转移学习,零照片标记,音乐域中的语言理解以及跨模式检索应用程序。
translated by 谷歌翻译
音频分割和声音事件检测是机器聆听中的关键主题,旨在检测声学类别及其各自的边界。它对于音频分析,语音识别,音频索引和音乐信息检索非常有用。近年来,大多数研究文章都采用分类。该技术将音频分为小帧,并在这些帧上单独执行分类。在本文中,我们提出了一种新颖的方法,叫您只听一次(Yoho),该方法受到计算机视觉中普遍采用的Yolo算法的启发。我们将声学边界的检测转换为回归问题,而不是基于框架的分类。这是通过具有单独的输出神经元来检测音频类的存在并预测其起点和终点来完成的。与最先进的卷积复发性神经网络相比,Yoho的F量的相对改善范围从多个数据集中的1%到6%不等,以进行音频分段和声音事件检测。由于Yoho的输出更端到端,并且可以预测的神经元更少,因此推理速度的速度至少比逐个分类快6倍。另外,由于这种方法可以直接预测声学边界,因此后处理和平滑速度约为7倍。
translated by 谷歌翻译
本文研究了基于图像的蒙版自动编码器(MAE)的简单扩展,以从音频谱图中学习自我监督的表示。在MAE中的变压器编码器编码器设计之后,我们的Audio-MAE首先编码具有较高遮罩比的音频谱图斑块,仅通过编码器层馈入非掩盖令牌。然后,解码器重新订购并解码编码的上下文,并用掩码令牌填充,以重建输入频谱图。我们发现将局部窗户注意力纳入解码器是有益的,因为音频谱图在当地时间和频带中高度相关。然后,我们在目标数据集上以较低的掩模比微调编码器。从经验上讲,音频MAE在六个音频和语音分类任务上设定了新的最先进的性能,超过了使用外部监督预训练的其他最新模型。代码和模型将在https://github.com/facebookresearch/audiomae上。
translated by 谷歌翻译
可以代表和描述环境声音的机器具有实际潜力,例如,用于音频标记和标题系统。普遍的学习范式已经依赖于并行音频文本数据,但是,Web上几乎没有可用。我们提出了vip-ant,它在不使用任何并行音频文本数据的情况下诱导\ textbf {a} udio- \ textBF {t} EXT对齐。我们的主要思想是在双模形图像文本表示和双模态图像 - 音频表示之间共享图像模型;图像模态用作枢轴,并将音频和文本连接在三模态嵌入空间中。在没有配对的音频文本数据的困难零拍设置中,我们的模型在ESC50和US8K音频分类任务上展示了最先进的零点性能,甚至超过了披肩标题的领域的监督状态检索(带音频查询)2.2 \%R @ 1。我们进一步调查了最小音频监控的情况,发现,例如,只有几百个监督的音频文本对将零拍音频分类精度提高8 \%US8K。然而,为了匹配人类奇偶校验,我们的经验缩放实验表明我们需要大约2米$ 2 ^ {21} \约2M $监督的音频标题对。我们的工作开辟了新的途径,用于学习音频文本连接,几乎没有并行音频文本数据。
translated by 谷歌翻译
音乐源分离表示从给定歌曲中提取所有乐器的任务。近期对这一挑战的突破已经陷入了单一数据集,MusdB,仅限于四个仪器类。更大的数据集和更多乐器在收集数据和培训深度神经网络(DNN)时是昂贵和耗时的。在这项工作中,我们提出了一种快速的方法来评估任何数据集中的仪器在任何数据集中的可分离性,而不会训练和调整DNN。这种可分离性测量有助于选择适当的样本以获得神经网络的有效培训。基于Oracle原理与理想的比率面具,我们的方法是估计最先进的深度学习方法(如TASNet或Open-Unmix)的分离性能的优异代理。我们的结果有助于揭示音频源分离的两个基本要点:1)理想的比率掩模,虽然光线和简单,提供了最近神经网络的音频可分子性能的准确度量,以及2)新的端到端学习方法如TASNet,它直接在波形上运行,实际上是在内部构建时频(TF)表示,使得它们在分离在TF平面中重叠的音频模式时,它们遇到与基于TF的方法相同的限制。
translated by 谷歌翻译
大多数用于音频任务的机器学习模型都在处理手工制作的功能,即频谱图。但是,仍然未知是否可以用基于深度学习的功能代替频谱图。在本文中,我们通过将不同的可学习神经网络与成功的频谱图模型进行比较,并提出了基于双U-NET(GAFX-U)的一般音频提取器(GAFX)(GAFX-R(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R)(GAFX-R))和注意力(GAFX-A)模块。我们设计实验以评估GTZAN数据集上的音乐流派分类任务,并遵循音频频谱变压器(AST)分类器Achie Achie Achie aCHIE竞争性能,对我们框架的不同配置和模型GAFX-U进行了详细的消融研究。
translated by 谷歌翻译
自从几十年前的频谱分析开创性工作以来,已经研究了提取音频和语音特征的方法。最近的努力以开发通用音频表示的雄心为指导。例如,如果深度神经网络在大型音频数据集上进行了培训,则可以提取最佳的嵌入。这项工作扩展了基于自我监督的学习,通过引导,提出各种编码器体系结构,并探索使用不同的预训练数据集的效果。最后,我们提出了一个新颖的培训框架,以提出一个混合音频表示,该框架结合了手工制作和数据驱动的学习音频功能。在HEAR NEURIPS 2021挑战中,对听觉场景分类和时间戳检测任务进行了评估。我们的结果表明,在大多数听到挑战任务中,带有卷积变压器的混合模型都会产生卓越的性能。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
注释音乐节拍在繁琐的过程中是很长的。为了打击这个问题,我们为节拍跟踪和下拍估算提出了一种新的自我监督的学习借口任务。这项任务利用SPLEETER,一个音频源分离模型,将歌曲的鼓从其其余的信号分开。第一组信号用作阳性,并通过延长否定,用于对比学习预培训。另一方面,鼓的信号用作锚点。使用此借口任务进行全卷积和复发模型时,学习了一个开始功能。在某些情况下,发现此功能被映射到歌曲中的周期元素。我们发现,当一个节拍跟踪训练集非常小(少于10个示例)时,预先训练的模型随机初始化模型表现优于随机初始化的模型。当不是这种情况时,预先训练导致了一个学习速度,导致模型过度训练集。更一般地说,这项工作定义了音乐自我监督学习领域的新观点。尤其是使用音频源分离作为自我监督的基本分量的作品之一。
translated by 谷歌翻译
用于标记和分类声信号的标准机器学习模型无法处理训练过程中未见的类。通过基于适应性的类描述来预测类,零射击(ZS)学习克服了这一限制。这项研究旨在研究基于自我注意力的音频嵌入体系结构对ZS学习的有效性。为此,我们将最近的贴布频谱变压器与两个经典的卷积体系结构进行了比较。我们在三个任务和三个不同的基准数据集上评估了这三个架构:在Audioset上的通用标记,ESC-50上的环境声音分类以及OpenMIC上的仪器标记。我们的结果表明,基于自我注意的嵌入方法的表现都优于所有这些设置中的卷积架构。通过相应地设计培训和测试数据,我们观察到,当训练和新测试类之间的“语义距离”很大时,预测性能会大大受到影响,这种效果值得进行更详细的研究。
translated by 谷歌翻译
声源本地化旨在从观察到的多通道音频寻求所有声源的到达方向(DOA)。对于未知数量来源的实际问题,现有的本地化算法试图预测基于似然的编码(即空间频谱),并采用预先确定的阈值来检测源编号和相应的DOA值。但是,这些基于阈值的算法不稳定,因为它们受到仔细选择阈值的限制。为了解决此问题,我们提出了一种称为ISSL的迭代声源本地化方法,该方法可以迭代地提取每个源的DOA而无需阈值,直到满足终止标准为止。与基于阈值的算法不同,ISSL设计基于二进制分类器的活动源检测器网络,以接受残留的空间频谱并决定是否停止迭代。通过这样做,我们的ISSL可以处理任意数量的来源,甚至超过培训阶段中看到的来源数量。实验结果表明,与现有的基于阈值的算法相比,我们的ISSL在DOA估计和源数检测方面都取得了重大的性能提高。
translated by 谷歌翻译
几个示例,几乎没有射击的生物声学事件检测是检测新声音的发生时间的任务。先前的方法采用公制学习来建立一个潜在空间,其中包括不同声音类别的标记部分,也称为积极事件。在这项研究中,我们提出了一个细分级的几杆学习框架,该框架在模型优化过程中利用正面和负面事件。负面事件的训练比积极事件更大,可以提高模型的概括能力。此外,我们对训练期间的验证集使用跨性推断,以更好地适应新的课程。我们对我们提出的方法进行消融研究,并在输入特征,训练数据和超参数上进行不同的设置。我们的最终系统在DCASE 2022挑战任务5(DCASE2022-T5)验证集上实现了62.73的F量,以优于基线原型网络34.02的性能。使用提出的方法,我们提交的系统在Dcase2022-T5中排名第二。本文的代码在https://github.com/haoheliu/dcase_2022_task_5上完全开源。
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译