我们向2021年的情感和主题提出了可摩擦的提交。在这项工作中,我们打算解决问题:我们可以利用关于音乐情感认可的半监督学习技巧吗?有了,我们试验嘈杂的学生培训,在图像分类域中具有改进的模型性能。随着嘈杂的学生方法需要强大的教师模型,我们进一步深入研究(i)输入培训长度和(ii)互补音乐表示,以进一步提高教师模型的表现。对于(i),我们发现,在PR-AUC中,具有短输入长度的型号更好地执行,而在ROC-AUC中具有长输入长度的培训则更好地执行这些模型。对于(ii),我们发现,使用谐波俯仰类概况(HPCP)一致地提高标记性能,这表明谐波表示对于音乐情感标记是有用的。最后,我们发现嘈杂的学生方法只改善了长训练长度的情况的标记结果。此外,我们发现,使用不同训练长度培训的合奏表示可以显着提高标记结果,这表明探索在网络架构中的多个时间分辨率探索的可能方向。
translated by 谷歌翻译
The deep learning community has witnessed an exponentially growing interest in self-supervised learning (SSL). However, it still remains unexplored how to build a framework for learning useful representations of raw music waveforms in a self-supervised manner. In this work, we design Music2Vec, a framework exploring different SSL algorithmic components and tricks for music audio recordings. Our model achieves comparable results to the state-of-the-art (SOTA) music SSL model Jukebox, despite being significantly smaller with less than 2% of parameters of the latter. The model will be released on Huggingface(Please refer to: https://huggingface.co/m-a-p/music2vec-v1)
translated by 谷歌翻译
尽管深度算法音乐生成的进步,但生成样本的评估通常依赖于人类评估,这是主观和昂贵的。我们专注于设计一个均匀的客观框架,用于评估算法生成的音乐样本。评估生成音乐的任何工程措施通常都会尝试定义样本的音乐性,但不会捕获音乐的品质,例如主题或情绪。我们不寻求评估生成音乐的音乐优点,而是探索生成的样本是否包含有关情绪或情绪/主题的有意义的信息。我们通过测量与生成的样本增强其培训数据后测量音乐情绪/主题分类器的预测性能的变化来实现这一目标。我们分析三个模型生成的音乐样本 - Samplernn,Jukebox和DDSP - 并在所有方法中使用同类框架,以允许客观的比较。这是第一次尝试使用有条件生成的音乐增强音乐类型分类数据集。我们使用深度音乐生成和发电机通过使用数据集的额外情感注释来制作情绪音乐的能力来调查分类性能改进。最后,我们使用在真实数据上培训的分类器来评估类条件生成的样本的标签有效性。
translated by 谷歌翻译
音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果,但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中,我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题,我们设计了通过一组代理任务优化的音乐和语言预训练(Mulap)的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后,我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数,因此证明了我们的方法。我们的实验还证实,Mulap有效利用音频标题对,以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。
translated by 谷歌翻译
在本文中,我们介绍了联合主义者,这是一种能够感知的多仪器框架,能够转录,识别和识别和将多种乐器与音频剪辑分开。联合主义者由调节其他模块的仪器识别模块组成:输出仪器特异性钢琴卷的转录模块以及利用仪器信息和转录结果的源分离模块。仪器条件设计用于明确的多仪器功能,而转录和源分离模块之间的连接是为了更好地转录性能。我们具有挑战性的问题表述使该模型在现实世界中非常有用,因为现代流行音乐通常由多种乐器组成。但是,它的新颖性需要关于如何评估这种模型的新观点。在实验过程中,我们从各个方面评估了模型,为多仪器转录提供了新的评估观点。我们还认为,转录模型可以用作其他音乐分析任务的预处理模块。在几个下游任务的实验中,我们的转录模型提供的符号表示有助于解决降低检测,和弦识别和关键估计的频谱图。
translated by 谷歌翻译
We present Noisy Student Training, a semi-supervised learning approach that works well even when labeled data is abundant. Noisy Student Training achieves 88.4% top-1 accuracy on ImageNet, which is 2.0% better than the state-of-the-art model that requires 3.5B weakly labeled Instagram images. On robustness test sets, it improves ImageNet-A top-1 accuracy from 61.0% to 83.7%, reduces ImageNet-C mean corruption error from 45.7 to 28.3, and reduces ImageNet-P mean flip rate from 27.8 to 12.2.Noisy Student Training extends the idea of self-training and distillation with the use of equal-or-larger student models and noise added to the student during learning. On Im-ageNet, we first train an EfficientNet model on labeled images and use it as a teacher to generate pseudo labels for 300M unlabeled images. We then train a larger Efficient-Net as a student model on the combination of labeled and pseudo labeled images. We iterate this process by putting back the student as the teacher. During the learning of the student, we inject noise such as dropout, stochastic depth, and data augmentation via RandAugment to the student so that the student generalizes better than the teacher. 1 * This work was conducted at Google.
translated by 谷歌翻译
音频标记是一个活跃的研究区,具有广泛的应用。自发布以来,在推进模型性能方面取得了很大进展,主要来自新颖的模型架构和注意力模块。但是,我们发现适当的培训技术对于使用音频构建音频标记模型同样重要,但没有得到他们应得的关注。为了填补差距,在这项工作中,我们呈现PSLA,一系列培训技术,可以明显增强模型准确性,包括想象成预测,平衡采样,数据增强,标签增强,模型聚集和其设计选择。通过使用这些技术培训效率,我们可以分别获得单个型号(具有13.6M参数)和一个集合模型,分别实现Audioset的平均平均精度(MAP)分数为0.444和0.474,优于81米的先前最佳系统0.439参数。此外,我们的型号还在FSD50K上实现了0.567的新型地图。
translated by 谷歌翻译
作为人类已知的最直观的界面之一,自然语言有可能调解许多涉及人类计算机互动的任务,尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中,我们探索了跨模式学习,以试图在音乐领域弥合音频和语言。为此,我们提出了Muscall,这是音乐对比的音频学习框架。我们的方法由双重编码架构组成,该体系结构了解音乐音频和描述性句子对之间的对齐方式,生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性,肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明,我们的方法在检索音频时的性能要比基线要好得多,该音频与文本描述匹配,相反,与音频查询匹配的文本。我们还证明,我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案,用于流派分类和在两个公共数据集上自动标记。
translated by 谷歌翻译
最先进的自动语音识别(ASR)系统经过数以万计的标记语音数据训练。人类转录很昂贵且耗时。诸如转录的质量和一致性之类的因素可以极大地影响使用这些数据训练的ASR模型的性能。在本文中,我们表明我们可以通过利用最近的自学和半监督学习技术来培训强大的教师模型来生产高质量的伪标签。具体来说,我们仅使用(无监督/监督培训)和迭代嘈杂的学生教师培训来培训6亿个参数双向教师模型。该模型在语音搜索任务上达到了4.0%的单词错误率(WER),比基线相对好11.1%。我们进一步表明,通过使用这种强大的教师模型来生成用于训练的高质量伪标签,与使用人类标签相比,流媒体模型可以实现13.6%的相对减少(5.9%至5.1%)。
translated by 谷歌翻译
语义分割是开发医学图像诊断系统的重要任务。但是,构建注释的医疗数据集很昂贵。因此,在这种情况下,半监督方法很重要。在半监督学习中,标签的质量在模型性能中起着至关重要的作用。在这项工作中,我们提出了一种新的伪标签策略,可提高用于培训学生网络的伪标签的质量。我们遵循多阶段的半监督训练方法,该方法在标记的数据集上训练教师模型,然后使用训练有素的老师将伪标签渲染用于学生培训。通过这样做,伪标签将被更新,并且随着培训的进度更加精确。上一个和我们的方法之间的关键区别在于,我们在学生培训过程中更新教师模型。因此,在学生培训过程中,提高了伪标签的质量。我们还提出了一种简单但有效的策略,以使用动量模型来提高伪标签的质量 - 训练过程中原始模型的慢复制版本。通过应用动量模型与学生培训期间的重新渲染伪标签相结合,我们在五个数据集中平均达到了84.1%的骰子分数(即Kvarsir,CVC-ClinicdB,Etis-laribpolypdb,cvc-colondb,cvc-colondb,cvc-colondb和cvc-300)和CVC-300)只有20%的数据集用作标记数据。我们的结果超过了3%的共同实践,甚至在某些数据集中取得了完全监督的结果。我们的源代码和预培训模型可在https://github.com/sun-asterisk-research/online学习SSL上找到
translated by 谷歌翻译
自我监督的学习(SSL)从大量未标记的数据中学习知识,然后将知识转移到有限数量的标记数据的特定问题上。SSL在各个领域都取得了有希望的结果。这项工作解决了细分级通用音频SSL的问题,并提出了一个新的基于变压器的教师学生SSL模型,名为ATST。在最近出现的教师基线方案上开发了变压器编码器,该方案在很大程度上提高了预训练的建模能力。此外,旨在充分利用变压器的能力的新策略旨在充分利用。已经进行了广泛的实验,并且提出的模型几乎所有下游任务都实现了新的最新结果。
translated by 谷歌翻译
The recently proposed Temporal Ensembling has achieved state-of-the-art results in several semi-supervised learning benchmarks. It maintains an exponential moving average of label predictions on each training example, and penalizes predictions that are inconsistent with this target. However, because the targets change only once per epoch, Temporal Ensembling becomes unwieldy when learning large datasets. To overcome this problem, we propose Mean Teacher, a method that averages model weights instead of label predictions. As an additional benefit, Mean Teacher improves test accuracy and enables training with fewer labels than Temporal Ensembling. Without changing the network architecture, Mean Teacher achieves an error rate of 4.35% on SVHN with 250 labels, outperforming Temporal Ensembling trained with 1000 labels. We also show that a good network architecture is crucial to performance. Combining Mean Teacher and Residual Networks, we improve the state of the art on CIFAR-10 with 4000 labels from 10.55% to 6.28%, and on ImageNet 2012 with 10% of the labels from 35.24% to 9.11%.
translated by 谷歌翻译
神经网络可以从单个图像中了解视觉世界的内容是什么?虽然它显然不能包含存在的可能对象,场景和照明条件 - 在所有可能的256 ^(3x224x224)224尺寸的方形图像中,它仍然可以在自然图像之前提供强大的。为了分析这一假设,我们通过通过监控掠夺教师的知识蒸馏来制定一种训练神经网络的培训神经网络。有了这个,我们发现上述问题的答案是:“令人惊讶的是,很多”。在定量术语中,我们在CiFar-10/100上找到了94%/ 74%的前1个精度,在想象中,通过将这种方法扩展到音频,84%的语音组合。在广泛的分析中,我们解除了增强,源图像和网络架构的选择,以及在从未见过熊猫的网络中发现“熊猫神经元”。这项工作表明,一个图像可用于推断成千上万的对象类,并激励关于增强和图像的基本相互作用的更新的研究议程。
translated by 谷歌翻译
尽管半监督学习(SSL)的最新研究已经在单标签分类问题上取得了强劲的表现,但同样重要但毫无疑问的问题是如何利用多标签分类任务中未标记数据的优势。为了将SSL的成功扩展到多标签分类,我们首先使用说明性示例进行分析,以获得有关多标签分类中存在的额外挑战的一些直觉。基于分析,我们提出了一个基于百分比的阈值调整方案的百分位摩擦,以动态地改变训练期间每个类别的正和负伪标签的得分阈值,以及动态的未标记失误权重,从而进一步降低了从早期未标记的预测。与最近的SSL方法相比,在不丧失简单性的情况下,我们在Pascal VOC2007和MS-Coco数据集上实现了强劲的性能。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译
Deep learning has emerged as an effective solution for solving the task of object detection in images but at the cost of requiring large labeled datasets. To mitigate this cost, semi-supervised object detection methods, which consist in leveraging abundant unlabeled data, have been proposed and have already shown impressive results. However, most of these methods require linking a pseudo-label to a ground-truth object by thresholding. In previous works, this threshold value is usually determined empirically, which is time consuming, and only done for a single data distribution. When the domain, and thus the data distribution, changes, a new and costly parameter search is necessary. In this work, we introduce our method Adaptive Self-Training for Object Detection (ASTOD), which is a simple yet effective teacher-student method. ASTOD determines without cost a threshold value based directly on the ground value of the score histogram. To improve the quality of the teacher predictions, we also propose a novel pseudo-labeling procedure. We use different views of the unlabeled images during the pseudo-labeling step to reduce the number of missed predictions and thus obtain better candidate labels. Our teacher and our student are trained separately, and our method can be used in an iterative fashion by replacing the teacher by the student. On the MS-COCO dataset, our method consistently performs favorably against state-of-the-art methods that do not require a threshold parameter, and shows competitive results with methods that require a parameter sweep search. Additional experiments with respect to a supervised baseline on the DIOR dataset containing satellite images lead to similar conclusions, and prove that it is possible to adapt the score threshold automatically in self-training, regardless of the data distribution.
translated by 谷歌翻译
在最近的研究中,自我监管的预训练模型倾向于在转移学习中优于监督的预训练模型。特别是,可以在语音应用中使用语音级语音表示的自我监督学习(SSL),这些语音应用需要歧视性表示话语中一致属性的表示:说话者,语言,情感和年龄。现有的框架级别的自我监督语音表示,例如WAV2VEC,可以用作带有汇总的话语级表示,但这些模型通常很大。也有SSL技术可以学习话语级的表示。最成功的方法之一是一种对比方法,它需要负采样:选择替代样品与当前样品(锚)对比。但是,这并不确保所有负面样本属于与没有标签的锚类别不同的​​类别。本文应用了一种非对抗性的自我监督方法来学习话语级的嵌入。我们对没有标签(Dino)从计算机视觉到语音进行了调整,没有标签(Dino)。与对比方法不同,Dino不需要负抽样。我们将Dino与受到监督方式训练的X-Vector进行了比较。当转移到下游任务(说话者验证,语音情绪识别(SER)和阿尔茨海默氏病检测)时,Dino的表现优于X-Vector。我们研究了转移学习过程中几个方面的影响,例如将微调过程分为步骤,块长度或增强。在微调过程中,首先调整最后一个仿射层,然后整个网络一次超过微调。使用较短的块长度,尽管它们产生了更多不同的输入,但并不一定会提高性能,这意味着至少需要具有特定长度的语音段才能为每个应用程序提高性能。增强对SER有帮助。
translated by 谷歌翻译
深度学习模型的培训通常需要大量的注释数据,以实现有效的收敛和泛化。然而,获得高质量的注释是一种借鉴和昂贵的过程,因为需要专家放射科学家进行标签任务。在医学图像分析中的半监督学习的研究是至关重要的,因为获得未标记的图像的昂贵比以获得专家放射科医师标记的图像更便宜。基本上,半监督方法利用大量未标记的数据来实现比仅使用小组标记图像更好的训练收敛和泛化。在本文中,我们提出了自我监督的平均教师进行半监督(S $ ^ 2 $ MTS $ ^ 2 $)学习,将自我监督的卑鄙教师预训练与半监督微调相结合。 S $ ^ 2 $ MTS $ ^ 2 $的主要创新是基于联合对比学习的自我监督的平均教师预培训,它使用无限数量的正查询和关键特征来改善平均值 - 老师代表。然后使用具有半监督学习的指数移动平均教师框架进行微调。我们从胸部X-ray14和Chexpert的多标签分类问题上验证了S $ ^ 2 $ MTS $ ^ 2 $,以及iC2018的多级分类,在那里我们表明它优于前一个SOTA半监督的学习方法通过大幅度。
translated by 谷歌翻译
该技术报告介绍了我们在ACII情感声音爆发(A-VB)2022研讨会和竞争中的高维情感任务(A-VB高)的情感识别管道。我们提出的方法包含三个阶段。首先,我们通过自我监督的学习方法从原始音频信号及其MEL光谱图中提取潜在特征。然后,将原始信号的功能馈送到自相关的注意力和时间意识(SA-TA)模块,以学习这些潜在特征之间的宝贵信息。最后,我们串联所有功能,并利用完全连接的层来预测每个情绪的得分。通过经验实验,我们提出的方法在测试集上实现了平均一致性相关系数(CCC)为0.7295,而基线模型上的平均一致性相关系数(CCC)为0.5686。我们方法的代码可从https://github.com/linhtd812/a-vb2022获得。
translated by 谷歌翻译
培训深层神经网络以识别图像识别通常需要大规模的人类注释数据。为了减少深神经溶液对标记数据的依赖,文献中已经提出了最先进的半监督方法。尽管如此,在面部表达识别领域(FER)领域,使用这种半监督方法非常罕见。在本文中,我们介绍了一项关于最近提出的在FER背景下的最先进的半监督学习方法的全面研究。我们对八种半监督学习方法进行了比较研究当使用各种标记的样品时。我们还将这些方法的性能与完全监督的培训进行了比较。我们的研究表明,当培训现有的半监督方法时,每类标记的样本只有250个标记的样品可以产生可比的性能,而在完整标记的数据集中训练的完全监督的方法。为了促进该领域的进一步研究,我们在:https://github.com/shuvenduroy/ssl_fer上公开提供代码
translated by 谷歌翻译