在本文中,我们解决了Dcase 2022中提出的新的基于语言的音频检索任务。其次,我们表明,使用此体系结构以及对比度损失,该模型可以显着击败基线模型的性能。最后,除了具有极低的训练记忆需求之外,我们还可以使用预告片的型号,而无需对其进行预感。我们测试我们的方法,并表明使用方法的组合可以显着击败基线得分。
translated by 谷歌翻译
该项目涉及参加DCASE 2022竞赛(任务6),该竞赛具有两个子任务:(1)自动化音频字幕和(2)基于语言的音频检索。第一个子任务涉及对音频样本的文本描述的生成,而第二个目标是在匹配给定描述的固定数据集中找到音频样本。对于两个子任务,都使用了Clotho数据集。在BLEU1,BLEU2,BLEU3,ROGEL,Meteor,Cider,Spice和Spider评分上评估了这些模型,用于音频字幕,R1,R5,R10和MARP10分数用于音频检索。我们进行了一些实验,以修改这些任务的基线模型。我们用于自动音频字幕的最终体系结构接近基线性能,而我们的基于语言的音频检索模型已超过其对应方。
translated by 谷歌翻译
作为人类已知的最直观的界面之一,自然语言有可能调解许多涉及人类计算机互动的任务,尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中,我们探索了跨模式学习,以试图在音乐领域弥合音频和语言。为此,我们提出了Muscall,这是音乐对比的音频学习框架。我们的方法由双重编码架构组成,该体系结构了解音乐音频和描述性句子对之间的对齐方式,生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性,肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明,我们的方法在检索音频时的性能要比基线要好得多,该音频与文本描述匹配,相反,与音频查询匹配的文本。我们还证明,我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案,用于流派分类和在两个公共数据集上自动标记。
translated by 谷歌翻译
音频文本检索需要自然语言查询以在数据库中检索相关的音频文件。相反,文本审计检索将音频文件作为查询来检索相关的自然语言描述。大多数带有一个音频字幕数据集的文献训练检索系统,但是评估多个数据集培训的好处是没有充满反感的。此外,检索系统必须学习描述从几秒钟到几秒钟的可变长度的音频内容之间的详细句子之间的对齐。在这项工作中,我们提出了一个新的Web音频文本对以及一个新的检索框架。首先,我们提供了大约五千个Web音频纹理对的新集合,我们称为WavText5k。当用来训练我们的检索系统时,WavText5K比其他音频字幕更多地提高了性能。其次,我们的框架学会了使用文本编码器,两个音频编码器和对比度学习目标来连接语言和音频内容。组合两个音频编码器有助于处理可变长度音频。这两个贡献超过了AudioCaps和Clote的Text-Audio检索的最新表现,相对2%和16%,而音频检索则达到6%和23%。
translated by 谷歌翻译
自动音频标题(AAC)是一种跨模型翻译任务,旨在使用自然语言来描述音频剪辑的内容。如在DCEAD 2021挑战的任务6所接收的提交所示,这一问题已受到越来越兴趣的社区。现有的AAC系统通常基于编码器解码器架构,其中音频信号被编码为潜像表示,并与其对应的文本描述对齐,则使用解码器来生成标题。然而,AAC系统的培训经常遇到数据稀缺问题,这可能导致不准确的表示和音频文本对齐。为了解决这个问题,我们提出了一种名为对比损耗的新型编码器解码器框架(CL4AC)。在CL4AC中,通过对比样本来利用来自原始音频文本成对数据的自我监督信号来利用音频和文本之间的对应关系,该样本可以提高潜在表示的质量和音频和文本之间的对齐,同时训练有限的数据。实验是在披丁数据集上进行的,以显示我们提出的方法的有效性。
translated by 谷歌翻译
视频检索随着视觉模型的发展取得了巨大进展。但是,进一步改进这些模型需要其他标记的数据,这是一项巨大的手动努力。在本文中,我们提出了一个框架MKTVR,该框架利用了从多语言模型的知识转移来提高视频检索的性能。我们首先使用最先进的机器翻译模型来构建伪真实的多语言视频文本对。然后,我们使用这些数据来学习视频文本表示,其中英语和非英语文本查询在基于预审前的多语言模型的常见嵌入空间中表示。我们在四个英语视频检索数据集上评估了我们提出的方法,例如MSRVTT,MSVD,DIDEMO和CHARADES。实验结果表明,我们的方法在所有数据集上实现了最先进的结果,超过了先前的模型。最后,我们还在涵盖六种语言的多语言视频回程数据集上评估了我们的模型,并表明我们的模型在零拍设置中优于先前的多语言视频检索模型。
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
大规模未标记数据集的预培训显示了计算机视觉和自然语言处理领域的令人印象深刻的性能改进。鉴于大规模教学视频数据集的出现,预训练视频编码器的常见策略是使用随附的语音作为弱监管。但是,由于演讲用于监督预培训,视频编码器从未见过,这不会学会处理该模态。我们解决了当前预训练方法的这种缺点,这未能利用口语语言中的丰富的线索。我们的提议是使用所有可用的视频模型作为监督,即外观,声音和转录语音预先列车。我们在输入中掩盖了整个模态并使用其他两个模态预测它。这鼓励每个码头与其他方式合作,我们的视频编码器学会处理外观和音频以及语音。我们展示了我们在How2R,YouScook2和浓缩电影数据集上视频检索的“模态屏蔽”预培训方法的卓越性能。
translated by 谷歌翻译
现代视频文本检索框架基本上由三个部分组成:视频编码器,文本编码器和相似性。随着Visual和Textual表示学习的成功,在视频文本检索领域也采用了基于变压器的编码器和融合方法。在本报告中,我们呈现Clip2TV,旨在探索关键元素在基于变压器的方法中。为实现这一目标,我们首先重新审视一些对多模态学习的工作,然后将一些技术介绍到视频文本检索中,最后通过不同配置的大量实验进行评估。值得注意的是,Clip2TV在MSR-VTT数据集上实现了52.9 @ R1,优先表现出先前的SOTA结果为4.1%。
translated by 谷歌翻译
传统上,音乐标记和基于内容的检索系统是使用预定的本体论构建的,涵盖了一组刚性的音乐属性或文本查询。本文介绍了Mulan:首次尝试新一代的声学模型,这些模型将音乐音频直接与无约束的自然语言描述联系起来。Mulan采用了两座联合音频文本嵌入模型的形式,该模型使用4400万张音乐录音(37万小时)和弱相关的自由形式文本注释训练。通过与广泛的音乐流派和文本样式(包括传统的音乐标签)的兼容性,由此产生的音频文本表示形式涵盖了现有的本体论,同时又毕业至真正的零击功能。我们通过一系列实验演示了Mulan嵌入的多功能性,包括转移学习,零照片标记,音乐域中的语言理解以及跨模式检索应用程序。
translated by 谷歌翻译
最先进的愿景和愿景和语言模型依靠大规模的Visio-linguisting预借鉴,以获得各种下游任务的良好性能。通常,这种模型通常是跨模态(对比)或多模态(具有早期融合)但不是两者;它们通常只针对特定的方式或任务。有希望的方向将是使用单一整体普遍模型,作为“基础”,目标是一次性的所有方式 - 真正的视觉和语言基础模型应该擅长视力任务,语言任务和交叉和多数模态视觉和语言任务。我们将Flava介绍在这样的模型中,并在跨越这些目标模式的广泛的35个任务上展示令人印象深刻的性能。
translated by 谷歌翻译
随着网络和在线百科全书的可访问性的增加,要管理的数据量正在不断增加。例如,在Wikipedia中,有数百万页用多种语言编写。这些页面包含通常缺乏文本上下文的图像,在概念上保持浮动,因此很难找到和管理。在这项工作中,我们介绍了我们设计的系统,用于参加Kaggle上的Wikipedia图像捕捉匹配挑战,其目的是使用与图像(URL和视觉数据)相关的数据来在大量可用图像中找到正确的标题。能够执行此任务的系统将改善大型在线百科全书上多媒体内容的可访问性和完整性。具体而言,我们提出了一个由最近的变压器模型提供支持的两个模型的级联,能够有效地推断出查询图像数据和字幕之间的相关得分。我们通过广泛的实验来验证,提出的两模型方法是处理大量图像和标题的有效方法,同时保持了推理时的整体计算复杂性。我们的方法取得了显着的结果,在Kaggle Challenge的私人排行榜上获得了0.53的归一化折扣累积增益(NDCG)值。
translated by 谷歌翻译
音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果,但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中,我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题,我们设计了通过一组代理任务优化的音乐和语言预训练(Mulap)的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后,我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数,因此证明了我们的方法。我们的实验还证实,Mulap有效利用音频标题对,以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。
translated by 谷歌翻译
来自视频数据的多模态学习最近看过,因为它允许在没有人为注释的情况下培训语义有意义的嵌入,从而使得零射击检索和分类等任务。在这项工作中,我们提出了一种多模态,模态无政府主义融合变压器方法,它学会在多个模态之间交换信息,例如视频,音频和文本,并将它们集成到加入的多模态表示中,以获取聚合的嵌入多模态时间信息。我们建议培训系统的组合丢失,单个模态以及成对的方式,明确地留出任何附加组件,如位置或模态编码。在测试时间时,产生的模型可以处理和融合任意数量的输入模态。此外,变压器的隐式属性允许处理不同长度的输入。为了评估所提出的方法,我们在大规模HOWASET上培训模型,并评估四个具有挑战性的基准数据集上产生的嵌入空间获得最先进的视频检索和零射击视频动作定位。
translated by 谷歌翻译
在这项工作中,我们介绍了无文本视觉语言变压器(TVLT),其中均匀的变压器块使用最小的模态设计进行视觉和语言表示的原始视觉和音频输入,并且不使用特定于文本的模块,例如作为令牌化或自动语音识别(ASR)。 TVLT通过重建连续视频帧和音频谱图(蒙版自动编码)和对比度建模以使视频和音频对比度建模进行训练。 TVLT在各种多模式任务上的性能与其基于文本的对应物相当,例如视觉询问,图像检索,视频检索和多模式情感分析,具有28倍的推理速度和仅1/3参数。我们的发现表明,从低级视觉和音频信号中学习紧凑,有效的视觉语言表示的可能性,而无需假设文本的先前存在。我们的代码和检查点可在以下网址找到:https://github.com/zinengtang/tvlt
translated by 谷歌翻译
在许多深度学习的应用领域中,缺乏大型标记的数据集仍然是一个重大挑战。研究人员和从业人员通常求助于转移学习和数据增强以减轻此问题。我们通过自然语言查询(Dcase 2022 Challenge的任务6B)在音频检索的背景下研究这些策略。我们提出的系统使用预训练的嵌入模型将记录和文本描述投影到共享的音频捕获空间中,其中不同模式的相关示例接近。我们在音频和文本输入上采用各种数据增强技术,并通过基于顺序的模型优化系统地调整其相应的超参数。我们的结果表明,使用的增强策略降低了过度拟合并提高检索性能。我们进一步表明,在AudioCaps数据集上进行预训练系统会带来其他改进。
translated by 谷歌翻译
探索大规模预处理的基础模型对计算机视觉具有重大兴趣,因为这些模型可以快速转移到许多下游任务中。本文介绍了对比字幕(COCA),这是一种极简主义的设计,旨在为图像文本编码器编码器基础模型预算与对比度损失和字幕损失,从而从剪辑和诸如simvlm之类的生成方法之类的对比方法中包含模型能力。与所有解码器层都参与编码器输出的标准编码器 - 模块变压器相反,可口可乐省略了解码器层的上半部分的交叉注意,以编码单峰文本表示,并串联到剩余的解码器层,这些解码器与图像编码器相交的解码器层多模式图像文本表示。除了对多模态解码器输出的字幕损失外,我们还应用了单峰图像和文本嵌入之间的对比损失,该输出可以预测文本令牌自动加压。通过共享相同的计算图,可以用最小的开销有效地计算两个培训目标。可口可乐是端到端和从头开始的网络尺度alt-text数据和带注释的图像,通过将所有标签视为文本,无缝地统一自然语言监督以进行表示。从经验上讲,可口可乐通过零拍传输或在广泛的下游任务上进行零摄像转移或最少的特定任务适应,跨越视觉识别(Imagenet,Kinetics-400/600/700,瞬间, ),交叉模式检索(MSCOCO,FLICKR30K,MSR-VTT),多模式理解(VQA,SNLI-VE,NLVR2)和图像字幕(MSCOCO,NOCAPS)。值得注意的是,在Imagenet分类方面,COCA获得了86.3%的TOP-1准确性,带有冷冻编码器和学习的分类头90.6%,以及带有填充编码器的Imagenet上的新最先进的91.0%Top-1 Top-1精度。
translated by 谷歌翻译
Most existing text-video retrieval methods focus on cross-modal matching between the visual content of offline videos and textual query sentences. However, in real scenarios, online videos are frequently accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This inspires us to generate associated captions from offline videos to help with existing text-video retrieval methods. To do so, we propose to use the zero-shot video captioner with knowledge of pre-trained web-scale models (e.g., CLIP and GPT-2) to generate captions for offline videos without any training. Given the captions, one question naturally arises: what can auxiliary captions do for text-video retrieval? In this paper, we present a novel framework Cap4Video, which makes use of captions from three aspects: i) Input data: The video and captions can form new video-caption pairs as data augmentation for training. ii) Feature interaction: We perform feature interaction between video and caption to yield enhanced video representations. iii) Output score: The Query-Caption matching branch can be complementary to the original Query-Video matching branch for text-video retrieval. We conduct thorough ablation studies to demonstrate the effectiveness of our method. Without any post-processing, our Cap4Video achieves state-of-the-art performance on MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%).
translated by 谷歌翻译
可以代表和描述环境声音的机器具有实际潜力,例如,用于音频标记和标题系统。普遍的学习范式已经依赖于并行音频文本数据,但是,Web上几乎没有可用。我们提出了vip-ant,它在不使用任何并行音频文本数据的情况下诱导\ textbf {a} udio- \ textBF {t} EXT对齐。我们的主要思想是在双模形图像文本表示和双模态图像 - 音频表示之间共享图像模型;图像模态用作枢轴,并将音频和文本连接在三模态嵌入空间中。在没有配对的音频文本数据的困难零拍设置中,我们的模型在ESC50和US8K音频分类任务上展示了最先进的零点性能,甚至超过了披肩标题的领域的监督状态检索(带音频查询)2.2 \%R @ 1。我们进一步调查了最小音频监控的情况,发现,例如,只有几百个监督的音频文本对将零拍音频分类精度提高8 \%US8K。然而,为了匹配人类奇偶校验,我们的经验缩放实验表明我们需要大约2米$ 2 ^ {21} \约2M $监督的音频标题对。我们的工作开辟了新的途径,用于学习音频文本连接,几乎没有并行音频文本数据。
translated by 谷歌翻译
使用自然语言作为培训视觉识别模型的监督持有巨大的承诺。最近的作品表明,如果在大型训练数据集中的图像和标题之间的对齐形式使用此类监督,则结果对齐模型在零拍摄分类中表现出色,如下游任务2。在本文中,我们专注于挑逗语言监督的哪些部分对于训练零拍摄图像分类模型至关重要。通过广泛和仔细的实验​​,我们表明:1)可以将简单的单词(弓)标题用作数据集中大多数图像标题的替代品。令人惊讶的是,我们观察到这种方法在与单词平衡结合时提高了零拍分类性能。 2)使用船首净化模型,我们可以通过在没有标题的图像上生成伪弓标题来获得更多培训数据。使用真实和伪弓形标题培训的模型达到了更强的零射性能。在ImageNet-1K零拍评估中,我们只使用3M图像标题对的最佳模型,使用15M图像标题对培训的剪辑模型(31.5%VS 31.3%)进行剪辑。
translated by 谷歌翻译