抒情的解释可以帮助人们快速理解歌曲及其歌词,还可以使管理,检索和发现音乐档案不断增长,从而更加容易地检索和发现歌曲。在本文中,我们提出了Bart-Fusion,这是一种新型模型,用于从歌词和音乐音频中生成歌词解释,该模型将大规模的预训练的语言模型与音频编码器结合在一起。我们采用跨模式注意模块将音频表示形式纳入歌词表示形式,以帮助预先训练的语言模型从音频的角度了解歌曲,同时保留语言模型的原始生成性能。我们还发布了歌曲解释数据集,这是一个新的大型数据集,用于培训和评估我们的模型。实验结果表明,其他音频信息有助于我们的模型更好地理解单词和音乐,并产生精确和流利的解释。跨模式音乐检索的另一个实验表明,巴特融合产生的解释也可以帮助人们比原始的巴特更准确地检索音乐。
translated by 谷歌翻译
With the prevalence of stream media platforms serving music search and recommendation, interpreting music by understanding audio and lyrics interactively has become an important and challenging task. However, many previous works focus on refining individual components of encoder-decoder architecture mapping music to caption tokens, ignoring the potential usage of audio and lyrics correspondence. In this paper, we propose to explicitly learn the multi-modal alignment with retrieval augmentation by contrastive learning. By learning audio-lyrics correspondence, the model is guided to learn better cross-modal attention weights, thus generating high-quality caption words. We provide both theoretical and empirical results that demonstrate the advantage of the proposed method.
translated by 谷歌翻译
上下文:堆栈溢出对于寻求编程问题答案的软件开发人员非常有帮助。先前的研究表明,越来越多的问题质量低,因此从潜在的答案者那里获得了更少的关注。 Gao等。提出了一个基于LSTM的模型(即BilstM-CC),以自动从代码片段中生成问题标题,以提高问题质量。但是,只有在问题主体中使用代码段无法为标题生成提供足够的信息,而LSTMS无法捕获令牌之间的远程依赖性。目的:本文提出了基于深度学习的新型模型CCBERT,旨在通过充分利用整个问题主体的双模式信息来增强问题标题生成的性能。方法:CCBERT遵循编码器范式范式,并使用Codebert将问题主体编码为隐藏的表示形式,堆叠的变压器解码器以生成预测的代币,以及附加的复制注意层来完善输出分布。编码器和解码器都执行多头自我注意操作,以更好地捕获远程依赖性。本文构建了一个数据集,该数据集包含大约200,000个高质量问题,该数据从Stack Overflow正式发布的数据中滤除,以验证CCBERT模型的有效性。结果:CCBERT优于数据集上的所有基线模型。对仅代码和低资源数据集进行的实验表明,CCBERT的优势性能较小。人类评估还显示了CCBERT关于可读性和相关标准的出色表现。
translated by 谷歌翻译
音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果,但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中,我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题,我们设计了通过一组代理任务优化的音乐和语言预训练(Mulap)的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后,我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数,因此证明了我们的方法。我们的实验还证实,Mulap有效利用音频标题对,以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。
translated by 谷歌翻译
作为人类已知的最直观的界面之一,自然语言有可能调解许多涉及人类计算机互动的任务,尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中,我们探索了跨模式学习,以试图在音乐领域弥合音频和语言。为此,我们提出了Muscall,这是音乐对比的音频学习框架。我们的方法由双重编码架构组成,该体系结构了解音乐音频和描述性句子对之间的对齐方式,生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性,肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明,我们的方法在检索音频时的性能要比基线要好得多,该音频与文本描述匹配,相反,与音频查询匹配的文本。我们还证明,我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案,用于流派分类和在两个公共数据集上自动标记。
translated by 谷歌翻译
Even for us, it can be challenging to comprehend the meaning of songs. As part of this project, we explore the process of generating the meaning of songs. Despite the widespread use of text-to-text models, few attempts have been made to achieve a similar objective. Songs are primarily studied in the context of sentiment analysis. This involves identifying opinions and emotions in texts, evaluating them as positive or negative, and utilizing these evaluations to make music recommendations. In this paper, we present a generative model that offers implicit meanings for several lines of a song. Our model uses a decoder Transformer architecture GPT-2, where the input is the lyrics of a song. Furthermore, we compared the performance of this architecture with that of the encoder-decoder Transformer architecture of the T5 model. We also examined the effect of different prompt types with the option of appending additional information, such as the name of the artist and the title of the song. Moreover, we tested different decoding methods with different training parameters and evaluated our results using ROUGE. In order to build our dataset, we utilized the 'Genious' API, which allowed us to acquire the lyrics of songs and their explanations, as well as their rich metadata.
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
传统上,音乐标记和基于内容的检索系统是使用预定的本体论构建的,涵盖了一组刚性的音乐属性或文本查询。本文介绍了Mulan:首次尝试新一代的声学模型,这些模型将音乐音频直接与无约束的自然语言描述联系起来。Mulan采用了两座联合音频文本嵌入模型的形式,该模型使用4400万张音乐录音(37万小时)和弱相关的自由形式文本注释训练。通过与广泛的音乐流派和文本样式(包括传统的音乐标签)的兼容性,由此产生的音频文本表示形式涵盖了现有的本体论,同时又毕业至真正的零击功能。我们通过一系列实验演示了Mulan嵌入的多功能性,包括转移学习,零照片标记,音乐域中的语言理解以及跨模式检索应用程序。
translated by 谷歌翻译
讽刺是一种越来越普遍的语言现象,并且由于其主观性,缺乏背景和深刻的意见而令人挑战。在多模式设置中,讽刺通过文本和视觉实体之间的不协调传达。虽然最近接近讽刺作为分类问题,但目前尚不清楚为什么在线帖子被识别为讽刺。如果没有正确的解释,最终用户可能无法察觉潜在的讽刺意义。在本文中,我们提出了一种新的问题 - 多式联运讽刺解释(Muse) - 鉴于包含图像和标题的多模式讽刺柱,我们旨在产生自然语言解释,以揭示预期的讽刺。为此,我们开发更多,一个新的数据集,具有3510个讽刺的多模式帖子的解释。每个解释都是一种描述隐藏的讽刺的自然语言(英语)句子。我们通过采用基于多模式变换器的架构来基准更多。它包含了变压器编码器中的跨模型注意,它出席了两个模式之间的区别。随后,将基于BART的自动回归解码器用作发电机。经验结果表明,在五项评估指标上展示了各种基线(用于缪斯采用)的结果。我们还对预测进行人类评估,并获得0.4的FARISS Kappa得分,作为25个评估员之间的公平协议。
translated by 谷歌翻译
该项目涉及参加DCASE 2022竞赛(任务6),该竞赛具有两个子任务:(1)自动化音频字幕和(2)基于语言的音频检索。第一个子任务涉及对音频样本的文本描述的生成,而第二个目标是在匹配给定描述的固定数据集中找到音频样本。对于两个子任务,都使用了Clotho数据集。在BLEU1,BLEU2,BLEU3,ROGEL,Meteor,Cider,Spice和Spider评分上评估了这些模型,用于音频字幕,R1,R5,R10和MARP10分数用于音频检索。我们进行了一些实验,以修改这些任务的基线模型。我们用于自动音频字幕的最终体系结构接近基线性能,而我们的基于语言的音频检索模型已超过其对应方。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
基于语音的投入在我们日常生活中获得了智能手机和平板电脑的普及,因为声音是人类计算机交互的最简单而有效的方式。本文旨在设计更有效的基于语音的接口,以查询关系数据库中的结构化数据。我们首先识别名为Speep-to-SQL的新任务,旨在了解人类语音传达的信息,并直接将其转换为结构化查询语言(SQL)语句。对此问题的天真解决方案可以以级联方式工作,即,自动语音识别(ASR)组件,后跟文本到SQL组件。然而,它需要高质量的ASR系统,并且还遭受了两种组件之间的错误复合问题,从而产生有限的性能。为了处理这些挑战,我们进一步提出了一个名为SpeepSQLNET的新型端到端神经结构,直接将人类语音转化为没有外部ASR步骤的SQL查询。 SpeemSQLNET具有充分利用演讲中提供的丰富语言信息的优势。据我们所知,这是第一次尝试根据任意自然语言问题直接综合SQL,而不是基于自然语言的SQL版本或其具有有限的SQL语法的变体。为了验证所提出的问题和模型的有效性,我们还通过捎带广泛使用的文本到SQL数据集来进一步构建名为SpeemQL的数据集。对该数据集的广泛实验评估表明,SpeemSQLNET可以直接从人类语音中直接综合高质量的SQL查询,优于各种竞争对手,以及在精确匹配的准确性方面的级联方法。
translated by 谷歌翻译
Stack Overflow是最受欢迎的编程社区之一,开发人员可以为他们遇到的问题寻求帮助。然而,如果没有经验的开发人员无法清楚地描述他们的问题,那么他们很难吸引足够的关注并获得预期的答案。我们提出了M $ _3 $ NSCT5,这是一种自动从给定代码片段生成多个帖子标题的新颖方法。开发人员可以使用生成的标题查找密切相关的帖子并完成其问题描述。 M $ _3 $ NSCT5使用Codet5骨干,这是一种具有出色语言理解和发电能力的预训练的变压器模型。为了减轻歧义问题,即在不同背景下可以将相同的代码片段与不同的标题保持一致,我们提出了最大的边缘多元核抽样策略,以一次产生多个高质量和不同的标题候选者,以便开发人员选择。我们构建了一个大规模数据集,其中包含890,000个问题帖子,其中涵盖了八种编程语言,以验证M $ _3 $ NSCT5的有效性。 BLEU和胭脂指标的自动评估结果表明,M $ _3 $ NSCT5的优势比六个最先进的基线模型。此外,具有值得信赖结果的人类评估也证明了我们对现实世界应用方法的巨大潜力。
translated by 谷歌翻译
将多模式的知识用于抽象性摘要任务是一个正在进行的研究领域,目前的技术遗传了融合,然后代范式。由于计算机视觉和自然语言处理之间的语义差距,当前方法通常将多个数据点视为单独的对象,并依靠注意机制搜索连接以融合在一起。此外,从许多框架中缺少对跨模式匹配的认识会导致性能降低。为了解决这两个缺点,我们提出了一个迭代对比对准框架(ICAF),该框架使用反复对齐和对比度来捕获图像和文本之间的连贯性。具体而言,我们设计了一个经常性比对(RA)层,以逐步研究图像贴片和文本令牌之间的细粒语义关系。在编码过程中的每个步骤中,跨模式对比度损耗被应用以直接优化嵌入式空间。根据Rouge的说法,相关得分和人类评估,我们的模型表现优于MSMO数据集上最新的基线。还进行了有关我们提出的框架和超参数设置的适用性的实验。
translated by 谷歌翻译
Recent video+language datasets cover domains where the interaction is highly structured, such as instructional videos, or where the interaction is scripted, such as TV shows. Both of these properties can lead to spurious cues to be exploited by models rather than learning to ground language. In this paper, we present GrOunded footbAlL commentaries (GOAL), a novel dataset of football (or `soccer') highlights videos with transcribed live commentaries in English. As the course of a game is unpredictable, so are commentaries, which makes them a unique resource to investigate dynamic language grounding. We also provide state-of-the-art baselines for the following tasks: frame reordering, moment retrieval, live commentary retrieval and play-by-play live commentary generation. Results show that SOTA models perform reasonably well in most tasks. We discuss the implications of these results and suggest new tasks for which GOAL can be used. Our codebase is available at: https://gitlab.com/grounded-sport-convai/goal-baselines.
translated by 谷歌翻译
The goal of building dialogue agents that can converse with humans naturally has been a long-standing dream of researchers since the early days of artificial intelligence. The well-known Turing Test proposed to judge the ultimate validity of an artificial intelligence agent on the indistinguishability of its dialogues from humans'. It should come as no surprise that human-level dialogue systems are very challenging to build. But, while early effort on rule-based systems found limited success, the emergence of deep learning enabled great advance on this topic. In this thesis, we focus on methods that address the numerous issues that have been imposing the gap between artificial conversational agents and human-level interlocutors. These methods were proposed and experimented with in ways that were inspired by general state-of-the-art AI methodologies. But they also targeted the characteristics that dialogue systems possess.
translated by 谷歌翻译
We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by ( 1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-based neural machine translation architecture which, despite its simplicity, can be seen as generalizing BERT (due to the bidirectional encoder), GPT (with the left-to-right decoder), and many other more recent pretraining schemes. We evaluate a number of noising approaches, finding the best performance by both randomly shuffling the order of the original sentences and using a novel in-filling scheme, where spans of text are replaced with a single mask token. BART is particularly effective when fine tuned for text generation but also works well for comprehension tasks. It matches the performance of RoBERTa with comparable training resources on GLUE and SQuAD, achieves new stateof-the-art results on a range of abstractive dialogue, question answering, and summarization tasks, with gains of up to 6 ROUGE. BART also provides a 1.1 BLEU increase over a back-translation system for machine translation, with only target language pretraining. We also report ablation experiments that replicate other pretraining schemes within the BART framework, to better measure which factors most influence end-task performance.
translated by 谷歌翻译
面向目标的生成脚本学习旨在根据目标生成后续步骤,这是帮助机器人进行日常生活的刻板印象活动的重要任务。我们表明,如果历史状态不仅被给人的语言指示捕获,而且还可以增强随附图像提供的其他信息,可以提高此任务的性能。因此,我们提出了一项新任务,多媒体生成脚本学习,以通过跟踪文本和视觉方式中的历史状态,并介绍包含2,338个任务和31,496个步骤的第一个基准,从而生成后续步骤。我们旨在生成视觉状态的脚本,这些脚本是可跟踪的,对看不见的任务的诱导性,并且在各自的步骤中多样化。我们建议通过多媒体选择性编码器编码视觉状态更改,并使用检索仪的解码器从先前观察到的任务中转移知识,并通过优化面向多样性的对比度学习目标来在每个步骤中介绍不同的信息。我们定义指标以评估发电质量和电感质量。实验结果表明,我们的方法明显优于强质基线。
translated by 谷歌翻译