智能论文笔记

We present Masked Audio-Video Learners (MAViL) to train audio-visual representations. Our approach learns with three complementary forms of self-supervision: (1) reconstruction of masked audio and video input data, (2) intra- and inter-modal contrastive learning with masking, and (3) self-training by reconstructing joint audio-video contextualized features learned from the first two objectives. Pre-training with MAViL not only enables the model to perform well in audio-visual classification and retrieval tasks but also improves representations of each modality in isolation, without using information from the other modality for fine-tuning or inference. Empirically, MAViL sets a new state-of-the-art on AudioSet (53.1 mAP) and VGGSound (67.1% accuracy). For the first time, a self-supervised audio-visual model outperforms ones that use external supervision on these benchmarks. Code will be available soon.

translated by 谷歌翻译

本文研究了基于图像的蒙版自动编码器（MAE）的简单扩展，以从音频谱图中学习自我监督的表示。在MAE中的变压器编码器编码器设计之后，我们的Audio-MAE首先编码具有较高遮罩比的音频谱图斑块，仅通过编码器层馈入非掩盖令牌。然后，解码器重新订购并解码编码的上下文，并用掩码令牌填充，以重建输入频谱图。我们发现将局部窗户注意力纳入解码器是有益的，因为音频谱图在当地时间和频带中高度相关。然后，我们在目标数据集上以较低的掩模比微调编码器。从经验上讲，音频MAE在六个音频和语音分类任务上设定了新的最先进的性能，超过了使用外部监督预训练的其他最新模型。代码和模型将在https://github.com/facebookresearch/audiomae上。

translated by 谷歌翻译

A Survey of Deep Active Learning

Pengzhen Ren , Yun Xiao , Xiaojun Chang , Po-Yao Huang , Zhihui Li , Brij B. Gupta , Xiaojiang Chen , Xin Wang

分类：机器学习 | (统计)机器学习

2020-08-30

主动学习（al）试图通过标记最少的样本来最大限度地提高模型的性能增益。深度学习（DL）是贪婪的数据，需要大量的数据电源来优化大量参数，因此模型了解如何提取高质量功能。近年来，由于互联网技术的快速发展，我们处于信息种类的时代，我们有大量的数据。通过这种方式，DL引起了研究人员的强烈兴趣，并已迅速发展。与DL相比，研究人员对Al的兴趣相对较低。这主要是因为在DL的崛起之前，传统的机器学习需要相对较少的标记样品。因此，早期的Al很难反映其应得的价值。虽然DL在各个领域取得了突破，但大多数这一成功都是由于大量现有注释数据集的宣传。然而，收购大量高质量的注释数据集消耗了很多人力，这在某些领域不允许在需要高专业知识，特别是在语音识别，信息提取，医学图像等领域中， al逐渐受到适当的关注。自然理念是AL是否可用于降低样本注释的成本，同时保留DL的强大学习能力。因此，已经出现了深度主动学习（DAL）。虽然相关的研究非常丰富，但它缺乏对DAL的综合调查。本文要填补这一差距，我们为现有工作提供了正式的分类方法，以及全面和系统的概述。此外，我们还通过申请的角度分析并总结了DAL的发展。最后，我们讨论了DAL中的混乱和问题，为DAL提供了一些可能的发展方向。

translated by 谷歌翻译