在许多深度学习的应用领域中,缺乏大型标记的数据集仍然是一个重大挑战。研究人员和从业人员通常求助于转移学习和数据增强以减轻此问题。我们通过自然语言查询(Dcase 2022 Challenge的任务6B)在音频检索的背景下研究这些策略。我们提出的系统使用预训练的嵌入模型将记录和文本描述投影到共享的音频捕获空间中,其中不同模式的相关示例接近。我们在音频和文本输入上采用各种数据增强技术,并通过基于顺序的模型优化系统地调整其相应的超参数。我们的结果表明,使用的增强策略降低了过度拟合并提高检索性能。我们进一步表明,在AudioCaps数据集上进行预训练系统会带来其他改进。
translated by 谷歌翻译
用于标记和分类声信号的标准机器学习模型无法处理训练过程中未见的类。通过基于适应性的类描述来预测类,零射击(ZS)学习克服了这一限制。这项研究旨在研究基于自我注意力的音频嵌入体系结构对ZS学习的有效性。为此,我们将最近的贴布频谱变压器与两个经典的卷积体系结构进行了比较。我们在三个任务和三个不同的基准数据集上评估了这三个架构:在Audioset上的通用标记,ESC-50上的环境声音分类以及OpenMIC上的仪器标记。我们的结果表明,基于自我注意的嵌入方法的表现都优于所有这些设置中的卷积架构。通过相应地设计培训和测试数据,我们观察到,当训练和新测试类之间的“语义距离”很大时,预测性能会大大受到影响,这种效果值得进行更详细的研究。
translated by 谷歌翻译
作为人类已知的最直观的界面之一,自然语言有可能调解许多涉及人类计算机互动的任务,尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中,我们探索了跨模式学习,以试图在音乐领域弥合音频和语言。为此,我们提出了Muscall,这是音乐对比的音频学习框架。我们的方法由双重编码架构组成,该体系结构了解音乐音频和描述性句子对之间的对齐方式,生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性,肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明,我们的方法在检索音频时的性能要比基线要好得多,该音频与文本描述匹配,相反,与音频查询匹配的文本。我们还证明,我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案,用于流派分类和在两个公共数据集上自动标记。
translated by 谷歌翻译
传统上,音乐标记和基于内容的检索系统是使用预定的本体论构建的,涵盖了一组刚性的音乐属性或文本查询。本文介绍了Mulan:首次尝试新一代的声学模型,这些模型将音乐音频直接与无约束的自然语言描述联系起来。Mulan采用了两座联合音频文本嵌入模型的形式,该模型使用4400万张音乐录音(37万小时)和弱相关的自由形式文本注释训练。通过与广泛的音乐流派和文本样式(包括传统的音乐标签)的兼容性,由此产生的音频文本表示形式涵盖了现有的本体论,同时又毕业至真正的零击功能。我们通过一系列实验演示了Mulan嵌入的多功能性,包括转移学习,零照片标记,音乐域中的语言理解以及跨模式检索应用程序。
translated by 谷歌翻译
该项目涉及参加DCASE 2022竞赛(任务6),该竞赛具有两个子任务:(1)自动化音频字幕和(2)基于语言的音频检索。第一个子任务涉及对音频样本的文本描述的生成,而第二个目标是在匹配给定描述的固定数据集中找到音频样本。对于两个子任务,都使用了Clotho数据集。在BLEU1,BLEU2,BLEU3,ROGEL,Meteor,Cider,Spice和Spider评分上评估了这些模型,用于音频字幕,R1,R5,R10和MARP10分数用于音频检索。我们进行了一些实验,以修改这些任务的基线模型。我们用于自动音频字幕的最终体系结构接近基线性能,而我们的基于语言的音频检索模型已超过其对应方。
translated by 谷歌翻译
Most existing text-video retrieval methods focus on cross-modal matching between the visual content of offline videos and textual query sentences. However, in real scenarios, online videos are frequently accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This inspires us to generate associated captions from offline videos to help with existing text-video retrieval methods. To do so, we propose to use the zero-shot video captioner with knowledge of pre-trained web-scale models (e.g., CLIP and GPT-2) to generate captions for offline videos without any training. Given the captions, one question naturally arises: what can auxiliary captions do for text-video retrieval? In this paper, we present a novel framework Cap4Video, which makes use of captions from three aspects: i) Input data: The video and captions can form new video-caption pairs as data augmentation for training. ii) Feature interaction: We perform feature interaction between video and caption to yield enhanced video representations. iii) Output score: The Query-Caption matching branch can be complementary to the original Query-Video matching branch for text-video retrieval. We conduct thorough ablation studies to demonstrate the effectiveness of our method. Without any post-processing, our Cap4Video achieves state-of-the-art performance on MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%).
translated by 谷歌翻译
在本文中,我们解决了Dcase 2022中提出的新的基于语言的音频检索任务。其次,我们表明,使用此体系结构以及对比度损失,该模型可以显着击败基线模型的性能。最后,除了具有极低的训练记忆需求之外,我们还可以使用预告片的型号,而无需对其进行预感。我们测试我们的方法,并表明使用方法的组合可以显着击败基线得分。
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
大规模未标记数据集的预培训显示了计算机视觉和自然语言处理领域的令人印象深刻的性能改进。鉴于大规模教学视频数据集的出现,预训练视频编码器的常见策略是使用随附的语音作为弱监管。但是,由于演讲用于监督预培训,视频编码器从未见过,这不会学会处理该模态。我们解决了当前预训练方法的这种缺点,这未能利用口语语言中的丰富的线索。我们的提议是使用所有可用的视频模型作为监督,即外观,声音和转录语音预先列车。我们在输入中掩盖了整个模态并使用其他两个模态预测它。这鼓励每个码头与其他方式合作,我们的视频编码器学会处理外观和音频以及语音。我们展示了我们在How2R,YouScook2和浓缩电影数据集上视频检索的“模态屏蔽”预培训方法的卓越性能。
translated by 谷歌翻译
随着我们的社会年龄的增长,痴呆症是一个日益严重的问题,检测方法通常是侵入性且昂贵的。最近的深度学习技术可以提供更快的诊断,并显示出令人鼓舞的结果。但是,它们需要大量标记的数据,这些数据不容易用于痴呆检测任务。稀疏数据问题的一个有效解决方案是数据扩展,尽管需要仔细选择确切的方法。迄今为止,尚无对NLP和语音处理的阿尔茨海默氏病(AD)数据集的数据增强的实证研究。在这项工作中,我们研究了针对AD检测任务的数据增强技术,并对文本和音频域的两种模型上的不同方法进行经验评估。我们分别为两个域,SVM和随机森林模型使用基于变压器的模型,分别为文本和音频域。我们使用传统和基于深度学习的方法生成其他样本,并表明数据增强改善了基于文本和音频的模型的性能,并且此类结果可与流行的Adress集合中的最新结果相媲美,具有精心制作的架构和功能。
translated by 谷歌翻译
视频检索随着视觉模型的发展取得了巨大进展。但是,进一步改进这些模型需要其他标记的数据,这是一项巨大的手动努力。在本文中,我们提出了一个框架MKTVR,该框架利用了从多语言模型的知识转移来提高视频检索的性能。我们首先使用最先进的机器翻译模型来构建伪真实的多语言视频文本对。然后,我们使用这些数据来学习视频文本表示,其中英语和非英语文本查询在基于预审前的多语言模型的常见嵌入空间中表示。我们在四个英语视频检索数据集上评估了我们提出的方法,例如MSRVTT,MSVD,DIDEMO和CHARADES。实验结果表明,我们的方法在所有数据集上实现了最先进的结果,超过了先前的模型。最后,我们还在涵盖六种语言的多语言视频回程数据集上评估了我们的模型,并表明我们的模型在零拍设置中优于先前的多语言视频检索模型。
translated by 谷歌翻译
随着网络和在线百科全书的可访问性的增加,要管理的数据量正在不断增加。例如,在Wikipedia中,有数百万页用多种语言编写。这些页面包含通常缺乏文本上下文的图像,在概念上保持浮动,因此很难找到和管理。在这项工作中,我们介绍了我们设计的系统,用于参加Kaggle上的Wikipedia图像捕捉匹配挑战,其目的是使用与图像(URL和视觉数据)相关的数据来在大量可用图像中找到正确的标题。能够执行此任务的系统将改善大型在线百科全书上多媒体内容的可访问性和完整性。具体而言,我们提出了一个由最近的变压器模型提供支持的两个模型的级联,能够有效地推断出查询图像数据和字幕之间的相关得分。我们通过广泛的实验来验证,提出的两模型方法是处理大量图像和标题的有效方法,同时保持了推理时的整体计算复杂性。我们的方法取得了显着的结果,在Kaggle Challenge的私人排行榜上获得了0.53的归一化折扣累积增益(NDCG)值。
translated by 谷歌翻译
音频文本检索需要自然语言查询以在数据库中检索相关的音频文件。相反,文本审计检索将音频文件作为查询来检索相关的自然语言描述。大多数带有一个音频字幕数据集的文献训练检索系统,但是评估多个数据集培训的好处是没有充满反感的。此外,检索系统必须学习描述从几秒钟到几秒钟的可变长度的音频内容之间的详细句子之间的对齐。在这项工作中,我们提出了一个新的Web音频文本对以及一个新的检索框架。首先,我们提供了大约五千个Web音频纹理对的新集合,我们称为WavText5k。当用来训练我们的检索系统时,WavText5K比其他音频字幕更多地提高了性能。其次,我们的框架学会了使用文本编码器,两个音频编码器和对比度学习目标来连接语言和音频内容。组合两个音频编码器有助于处理可变长度音频。这两个贡献超过了AudioCaps和Clote的Text-Audio检索的最新表现,相对2%和16%,而音频检索则达到6%和23%。
translated by 谷歌翻译
The canonical approach to video-and-language learning (e.g., video question answering) dictates a neural model to learn from offline-extracted dense video features from vision models and text features from language models. These feature extractors are trained independently and usually on tasks different from the target domains, rendering these fixed features sub-optimal for downstream tasks. Moreover, due to the high computational overload of dense video features, it is often difficult (or infeasible) to plug feature extractors directly into existing approaches for easy finetuning. To provide a remedy to this dilemma, we propose a generic framework CLIPBERT that enables affordable endto-end learning for video-and-language tasks, by employing sparse sampling, where only a single or a few sparsely sampled short clips from a video are used at each training step. Experiments on text-to-video retrieval and video question answering on six datasets demonstrate that CLIP-BERT outperforms (or is on par with) existing methods that exploit full-length videos, suggesting that end-to-end learning with just a few sparsely sampled clips is often more accurate than using densely extracted offline features from full-length videos, proving the proverbial less-is-more principle. Videos in the datasets are from considerably different domains and lengths, ranging from 3-second genericdomain GIF videos to 180-second YouTube human activity videos, showing the generalization ability of our approach. Comprehensive ablation studies and thorough analyses are provided to dissect what factors lead to this success. Our code is publicly available. 1 * Equal contribution.
translated by 谷歌翻译
音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果,但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中,我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题,我们设计了通过一组代理任务优化的音乐和语言预训练(Mulap)的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后,我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数,因此证明了我们的方法。我们的实验还证实,Mulap有效利用音频标题对,以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。
translated by 谷歌翻译
多式化学习的任务最近看过越来越多的兴趣,因为它允许基于诸如视觉,文本和音频等不同的模态培训神经架构。培训此类模型的一个挑战是他们需要共同学习语义概念及其跨不同输入表示的关系。已经显示胶囊网络在捕获低级输入特征和更高级别概念之间的关系中表现良好。然而,由于传统路由算法的资源需求,载体到目前为止,目前仅用于小规模的完全监督设置。我们提出了一种新的多模胶囊网络,使我们能够利用大量视频数据的多模式学习框架的胶囊的强度。为了使胶囊适应大规模的输入数据,我们提出了一种通过自我关注机制提出一种新颖的路由,从而选择相关胶囊,然后选择用于产生最终关节多模峰特征表示的相关胶囊。这不仅允许使用嘈杂的视频数据的强大培训,而且还允许与传统的路由方法相比扩展胶囊网络的大小,同时仍在计算效率。我们通过在大规模的多模式视频数据集上预先预留并在两个具有挑战性的下游任务中将其应用于四个数据集来评估所提出的架构。结果表明,与其他路由技术相比,所提出的多模胶囊网络不仅能够改善结果,而且还实现了对多式化学习任务的竞争性能。
translated by 谷歌翻译
最近,跨模式的预训练任务一直是一个热点,因为它在各种下文研究中广泛应用,包括检索,字幕,问题答案等。然而,退出的方法采用单媒体预训练模型来探索进行跨模式检索的联合视觉表示,这很容易遭受计算爆炸的影响。此外,尽管常规的双流结构非常有效,但它们仍然缺乏重要的跨模式相互作用,导致性能低。在这些挑战的激励下,我们提出了一个对比的跨模式知识共享预训练(Cookie),以掌握联合文本图像表示。从结构上讲,Cookie由于可接受的时间消耗而采用了传统的双流结构。为了克服上述双流结构的固有缺陷,我们精心设计了两个有效的模块。具体而言,第一个模块是一个体重共享的变压器,它构建在视觉和文本编码器的头上,旨在将语义对齐文本和图像对齐。该设计使视觉和文本路径集中在相同的语义上。另一个是三个专门设计的对比学习,旨在分享不同模型之间的知识。共享的跨模式知识大大发展了单峰表示的研究,从而促进了单模式检索任务。对多模式匹配研究的广泛实验结果,包括跨模式检索,文本匹配和图像检索揭示了我们的计算效率和我们预训练模型的统计指标的上级。
translated by 谷歌翻译
自动音频标题(AAC)是一种跨模型翻译任务,旨在使用自然语言来描述音频剪辑的内容。如在DCEAD 2021挑战的任务6所接收的提交所示,这一问题已受到越来越兴趣的社区。现有的AAC系统通常基于编码器解码器架构,其中音频信号被编码为潜像表示,并与其对应的文本描述对齐,则使用解码器来生成标题。然而,AAC系统的培训经常遇到数据稀缺问题,这可能导致不准确的表示和音频文本对齐。为了解决这个问题,我们提出了一种名为对比损耗的新型编码器解码器框架(CL4AC)。在CL4AC中,通过对比样本来利用来自原始音频文本成对数据的自我监督信号来利用音频和文本之间的对应关系,该样本可以提高潜在表示的质量和音频和文本之间的对齐,同时训练有限的数据。实验是在披丁数据集上进行的,以显示我们提出的方法的有效性。
translated by 谷歌翻译
Automated audio captioning is a cross-modal translation task for describing the content of audio clips with natural language sentences. This task has attracted increasing attention and substantial progress has been made in recent years. Captions generated by existing models are generally faithful to the content of audio clips, however, these machine-generated captions are often deterministic (e.g., generating a fixed caption for a given audio clip), simple (e.g., using common words and simple grammar), and generic (e.g., generating the same caption for similar audio clips). When people are asked to describe the content of an audio clip, different people tend to focus on different sound events and describe an audio clip diversely from various aspects using distinct words and grammar. We believe that an audio captioning system should have the ability to generate diverse captions, either for a fixed audio clip, or across similar audio clips. To this end, we propose an adversarial training framework based on a conditional generative adversarial network (C-GAN) to improve diversity of audio captioning systems. A caption generator and two hybrid discriminators compete and are learned jointly, where the caption generator can be any standard encoder-decoder captioning model used to generate captions, and the hybrid discriminators assess the generated captions from different criteria, such as their naturalness and semantics. We conduct experiments on the Clotho dataset. The results show that our proposed model can generate captions with better diversity as compared to state-of-the-art methods.
translated by 谷歌翻译
Pre-trained representations are becoming crucial for many NLP and perception tasks. While representation learning in NLP has transitioned to training on raw text without human annotations, visual and vision-language representations still rely heavily on curated training datasets that are expensive or require expert knowledge. For vision applications, representations are mostly learned using datasets with explicit class labels such as Ima-geNet or OpenImages. For vision-language, popular datasets like Conceptual Captions, MSCOCO, or CLIP all involve a non-trivial data collection (and cleaning) process. This costly curation process limits the size of datasets and hence hinders the scaling of trained models. In this paper, we leverage a noisy dataset of over one billion image alt-text pairs, obtained without expensive filtering or post-processing steps in the Conceptual Captions dataset. A simple dual-encoder architecture learns to align visual and language representations of the image and text pairs using a contrastive loss. We show that the scale of our corpus can make up for its noise and leads to state-of-the-art representations even with such a simple learning scheme. Our visual representation achieves strong performance when transferred to classification tasks such as ImageNet and VTAB. The aligned visual and language representations enables zero-shot image classification and also set new state-of-the-art results on Flickr30K and MSCOCO image-text retrieval benchmarks, even when compared with more sophisticated crossattention models. The representations also enable cross-modality search with complex text and text + image queries.
translated by 谷歌翻译