自从几十年前的频谱分析开创性工作以来,已经研究了提取音频和语音特征的方法。最近的努力以开发通用音频表示的雄心为指导。例如,如果深度神经网络在大型音频数据集上进行了培训,则可以提取最佳的嵌入。这项工作扩展了基于自我监督的学习,通过引导,提出各种编码器体系结构,并探索使用不同的预训练数据集的效果。最后,我们提出了一个新颖的培训框架,以提出一个混合音频表示,该框架结合了手工制作和数据驱动的学习音频功能。在HEAR NEURIPS 2021挑战中,对听觉场景分类和时间戳检测任务进行了评估。我们的结果表明,在大多数听到挑战任务中,带有卷积变压器的混合模型都会产生卓越的性能。
translated by 谷歌翻译
作为对威胁或不利条件的神经生理学反应,压力会影响认知,情绪和行为,并在持续暴露的情况下对健康产生有害的影响。由于语音的情感内容固有地由个人的身心状态调节,因此大量的研究专门研究了引起压力的任务负荷的副语言相关性。从历史上看,语音应力分析(VSA)是使用常规数字信号处理(DSP)技术进行的。尽管基于深神网络(DNN)的现代方法发展了现代方法,但由于多种压力源和个体压力感知的差异,准确检测语音压力仍然很困难。为此,我们介绍了一组五个数据集,用于语音中的任务负载检测。在志愿者队列中诱发了认知或身体压力,累积数量超过一百位讲话者,因此收集了声音记录。我们使用数据集设计和评估了一种新型的自我监督音频表示,该音频表示利用了手工制作的功能(基于DSP)的有效性和数据驱动的DNN表示的复杂性。值得注意的是,所提出的方法的表现优于广泛的手工特征集和新型的基于DNN的音频表示方法。
translated by 谷歌翻译
Barlow Twins自制学习目标既不需要负样本或不对称的学习更新,从而与计算机视觉中当前最新艺术相提并论。因此,我们提出了音频Barlow双胞胎,这是一种新颖的自我监督音频表示方法,将Barlow Twins适应音频域。我们在大规模音频数据集音频集上预先培训,并评估来自2021年HEAR 2021挑战的18个任务的学习表现质量,从而取得了超越或以其他方式与当前最新的结果相同的结果。 - 例如,歧视自我监督的学习方法来表示音频表示学习。https://github.com/jonahanton/ssl_audio上的代码。
translated by 谷歌翻译
自我监督的学习(SSL)语音模型在语音表示学习中取得了前所未有的成功,但是有关其表示能力的一些问题仍未得到答复。本文解决了其中的两个:(1)SSL语音模型可以处理非语音音频吗? (2)不同的SSL语音模型会对音频功能的各个方面有洞察力吗?为了回答这两个问题,我们对丰富的语音和非语音音频数据集进行了广泛的实验,以评估当前最先进的SSL语音模型的表示能力,该模型是WAV2VEC 2.0和本文中的Hubert。这些实验是在2021年神经期间进行的,听到挑战作为竞争官员提供的标准评估管道。结果表明,(1)SSL语音模型可以提取各种非语音音频的有意义的功能,而它们也可能在某些类型的数据集上失败; (2)不同的SSL语音模型对音频功能的不同方面有洞察力。这两个结论为表示模型的合奏提供了基础。我们进一步提出了一个合奏框架,以融合语音表示模型的嵌入。我们的框架的表现优于最先进的SSL语音/音频模型,并且与Hear Challenge中的其他团队相比,在丰富的数据集上的性能总体上具有出色的性能。我们的代码可在https://github.com/tony101105/hear-2021-neurips-challenge- NTU-GURA获得。
translated by 谷歌翻译
受到计算机视觉的自我监督学习的最新进展的启发,在本文中,我们介绍了Delores,这是一种新的通用音频表示方法。我们的主要目标是使我们的网络学习在资源受限的设置(数据和计算)中,可以很好地跨越各种下游任务。受Barlow Twins目标功能的启发,我们建议学习对输入音频样本失真不变的嵌入,同时确保它们包含有关样本的非冗余信息。为此,我们测量了两个相同的网络的输出之间的互相关矩阵,该网络用从音频文件采样的音频段的变形版本中,使其尽可能接近身份矩阵。我们将大规模音频集数据集和FSD50K的一小部分组合用于自学学习,并且与最先进的算法相比,参数的一半不到一半。为了进行评估,我们将这些学习的表示形式转移到9个下游分类任务,包括语音,音乐和动物声音,并在不同的评估设置下显示竞争结果。除了简单明了,我们的预训练算法还可以通过其固有的构造本质来计算,并且不需要仔细的实施细节以避免琐碎或退化的解决方案。此外,我们对结果进行消融研究,并使我们的所有代码和预培训模型公开可用https://github.com/speech-lab-iitm/delores。
translated by 谷歌翻译
自我监督的学习(SSL)从大量未标记的数据中学习知识,然后将知识转移到有限数量的标记数据的特定问题上。SSL在各个领域都取得了有希望的结果。这项工作解决了细分级通用音频SSL的问题,并提出了一个新的基于变压器的教师学生SSL模型,名为ATST。在最近出现的教师基线方案上开发了变压器编码器,该方案在很大程度上提高了预训练的建模能力。此外,旨在充分利用变压器的能力的新策略旨在充分利用。已经进行了广泛的实验,并且提出的模型几乎所有下游任务都实现了新的最新结果。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
从未标记数据的代表学习一直是对人工智能研究的重大兴趣。虽然自我监督的言语代表学习在语音研究界受欢迎,但很少有效地对非语音音频任务进行了全面分析了音频表示学习。在本文中,我们提出了一种自我监督的音频表示学习方法,并将其应用于各种下游非语音音频任务。我们将众所周知的Wav2Vec 2.0框架结合起来,这在用于语音任务的自我监督学习中取得了成功,具有参数效率的构装体系结构。我们的自我监督的预培训可以减少三分之二的标记数据的需求。在Audioset基准测试中,我们达到平均平均精度(地图)得分为0.415,这是通过仅限音频自我监督的学习在此数据集上的新型最先进的。我们的微调符合子也超越了在几个下游任务上以监督方式预先培训的先前系统的性能。我们进一步讨论了预先培训和微调的重要设计考虑因素。
translated by 谷歌翻译
最近深入学习的突破往往依靠代表学习和知识转移。近年来,开发了用于培养自动语音识别的无监督和自我监督的学习讲话技巧。迄今为止,大多数方法是特定于任务的,并且在特定任务的不同数据集或设置之间进行任务传输学习。反过来,学习任务 - 独立于转移学习的语音和交叉任务应用的代表仍然不那么常见。在这里,我们介绍了一个编码器捕获词级表示的跨任务传输学习。我们展示了预先训练的编码器在四个不同的语音和音频处理任务中的应用:(i)语音增强,(ii)语言识别,(iii)语音,噪声和音乐分类,和(iv)扬声器识别。在每项任务中,我们将跨任务转移学习方法的表现进行比较,以完成任务特定的基准。我们的结果表明,编码器通过预训练捕获的语音表示可在不同的语音处理任务和数据集中可转换。值得注意的是,即使是我们预先训练的编码器的简单应用也优于任务特定的方法,或者取决于任务。
translated by 谷歌翻译
The massive growth of self-supervised learning (SSL) has been witnessed in language, vision, speech, and audio domains over the past few years. While discrete label prediction is widely adopted for other modalities, the state-of-the-art audio SSL models still employ reconstruction loss for pre-training. Compared with reconstruction loss, semantic-rich discrete label prediction encourages the SSL model to abstract the high-level audio semantics and discard the redundant details as in human perception. However, a semantic-rich acoustic tokenizer for general audio pre-training is usually not straightforward to obtain, due to the continuous property of audio and unavailable phoneme sequences like speech. To tackle this challenge, we propose BEATs, an iterative audio pre-training framework to learn Bidirectional Encoder representation from Audio Transformers, where an acoustic tokenizer and an audio SSL model are optimized by iterations. In the first iteration, we use random projection as the acoustic tokenizer to train an audio SSL model in a mask and label prediction manner. Then, we train an acoustic tokenizer for the next iteration by distilling the semantic knowledge from the pre-trained or fine-tuned audio SSL model. The iteration is repeated with the hope of mutual promotion of the acoustic tokenizer and audio SSL model. The experimental results demonstrate our acoustic tokenizers can generate discrete labels with rich audio semantics and our audio SSL models achieve state-of-the-art results across various audio classification benchmarks, even outperforming previous models that use more training data and model parameters significantly. Specifically, we set a new state-of-the-art mAP 50.6% on AudioSet-2M for audio-only models without using any external data, and 98.1% accuracy on ESC-50. The code and pre-trained models are available at https://aka.ms/beats.
translated by 谷歌翻译
注释音乐节拍在繁琐的过程中是很长的。为了打击这个问题,我们为节拍跟踪和下拍估算提出了一种新的自我监督的学习借口任务。这项任务利用SPLEETER,一个音频源分离模型,将歌曲的鼓从其其余的信号分开。第一组信号用作阳性,并通过延长否定,用于对比学习预培训。另一方面,鼓的信号用作锚点。使用此借口任务进行全卷积和复发模型时,学习了一个开始功能。在某些情况下,发现此功能被映射到歌曲中的周期元素。我们发现,当一个节拍跟踪训练集非常小(少于10个示例)时,预先训练的模型随机初始化模型表现优于随机初始化的模型。当不是这种情况时,预先训练导致了一个学习速度,导致模型过度训练集。更一般地说,这项工作定义了音乐自我监督学习领域的新观点。尤其是使用音频源分离作为自我监督的基本分量的作品之一。
translated by 谷歌翻译
本文研究了基于图像的蒙版自动编码器(MAE)的简单扩展,以从音频谱图中学习自我监督的表示。在MAE中的变压器编码器编码器设计之后,我们的Audio-MAE首先编码具有较高遮罩比的音频谱图斑块,仅通过编码器层馈入非掩盖令牌。然后,解码器重新订购并解码编码的上下文,并用掩码令牌填充,以重建输入频谱图。我们发现将局部窗户注意力纳入解码器是有益的,因为音频谱图在当地时间和频带中高度相关。然后,我们在目标数据集上以较低的掩模比微调编码器。从经验上讲,音频MAE在六个音频和语音分类任务上设定了新的最先进的性能,超过了使用外部监督预训练的其他最新模型。代码和模型将在https://github.com/facebookresearch/audiomae上。
translated by 谷歌翻译
自从近年来,自我监督的方法已成为代表性学习的有前途的途径,因为它们减轻了对被标记的数据集的需求,这些数据集的需求稀缺又昂贵。对比方法是在音频域中自学的流行选择,通常通过强迫模型不变到输入的某些转换来提供学习信号。但是,这些方法需要采取诸如阴性采样或某种形式的正则化之类的措施,以防止模型在琐碎的溶液上崩溃。在这项工作中,我们建议使用均衡性作为一个自我判断信号,以从未标记的数据中学习音频节奏表示。我们得出一个简单的损耗函数,可防止网络在训练过程中崩溃,而无需任何形式的正则化或负抽样。我们的实验表明,可以通过仅依靠模棱两可的自学意义来学习有意义的速度估计表示,从而实现与几种基准上有监督的方法相当的性能。为了额外的好处,我们的方法仅需要适度的计算资源,因此,广泛的研究社区仍然可以使用。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
自我监督学习的共同研究目标是提取一般表示,任意下游任务将受益。在这项工作中,我们调查了从不同的对比度自学学习方案中学到的音乐音频表示形式,并在各种音乐信息检索(MIR)任务上对嵌入式矢量进行了经验评估,在这些任务中,音乐感知的不同级别。我们分析结果,以讨论针对不同MIR任务的对比度学习策略的正确方向。我们表明,这些表示形式传达了有关音乐一般的听觉特征的全面信息,尽管每种自学策略在信息的某些方面都有其自身的有效性。
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
我们介绍折扣,一种用于学习通用音频表示的自我监督的预训练方法。我们的系统基于群集:它利用了离线群集步骤来提供充当伪标签的目标标签,用于解决预测任务。我们开发了最近的自我监督学习近期进步,为计算机愿景和设计轻量级,易于使用的自我监督的预训练计划。我们在大型音频数据集的平衡子集上预先列车脱换嵌入式,并将这些表示转移到9个下游分类任务,包括语音,音乐,动物声音和声学场景。此外,我们开展识别关键设计选择的消融研究,并通过公开提供所有代码和预先训练的型号。
translated by 谷歌翻译
Through solving pretext tasks, self-supervised learning leverages unlabeled data to extract useful latent representations replacing traditional input features in the downstream task. In audio/speech signal processing, a wide range of features where engineered through decades of research efforts. As it turns out, learning to predict such features (a.k.a pseudo-labels) has proven to be a particularly relevant pretext task, leading to useful self-supervised representations which prove to be effective for downstream tasks. However, methods and common practices for combining such pretext tasks for better performance on the downstream task have not been explored and understood properly. In fact, the process relies almost exclusively on a computationally heavy experimental procedure, which becomes intractable with the increase of the number of pretext tasks. This paper introduces a method to select a group of pretext tasks among a set of candidates. The method we propose estimates calibrated weights for the partial losses corresponding to the considered pretext tasks during the self-supervised training process. The experiments conducted on automatic speech recognition, speaker and emotion recognition validate our approach, as the groups selected and weighted with our method perform better than classic baselines, thus facilitating the selection and combination of relevant pseudo-labels for self-supervised representation learning.
translated by 谷歌翻译
许多语音应用程序需要了解超出所说词的方面,例如识别情绪,检测扬声器是否戴着面具,或区分真实的综合语音。在这项工作中,我们介绍了一种新的最先进的级语言代表,其源于大规模,完全自我监督的培训600m +参数符合管理器的架构。我们基准于各种语音任务,并证明了在我们的时间平均表示顶部培训的简单线性分类器几乎所有以前的结果,在某些情况下,通过大的边缘。我们对上下文窗口大小的分析表明,令人惊讶的是,令人惊讶的是,2个第二个Context-Windows达到96 \%的符合者的性能,它可以在9个任务中的7个中的7个使用完整的长期上下文。此外,虽然在网络内部提取了最佳的每个任务表示,但跨越多个层的稳定性能允许单个通用表示来达到所有任务的最佳性能。
translated by 谷歌翻译