在本文中,我们探讨了使用变压器模型自动生成音乐评分的音乐评分的令牌化表示。到目前为止,序列模型与音乐的音乐级(中等等效物)符号表示产生了富有成效的结果。尽管音符级别表示可以包括对验证的足够的信息来重现音乐,但是在符号方面,它们不能包含足够的信息来在视觉上用来代表音乐。音乐评分包含各种音乐符号(例如,谱号,关键签名和笔记),属性(例如,茎方向,光束和绑定),使我们能够视觉上识别音乐内容。但是,这些元素的自动估计尚未全面解决。在本文中,我们首先设计得分令牌表示对应于各种音乐元素。然后,我们训练变压器模型将Note-Level表示转换为适当的音乐表示法。流行钢琴评分的评估表明,该方法在调查的所有12个音乐问题上显着优于现有的方法。我们还探讨了有效的符号级标记表示,以便与模型一起使用,并确定我们所提出的代表产生最可证的结果。
translated by 谷歌翻译
现有的使用变压器模型生成多功能音乐的方法仅限于一小部分乐器或简短的音乐片段。这部分是由于MultiTrack Music的现有表示形式所需的冗长输入序列的内存要求。在这项工作中,我们提出了一个紧凑的表示,该表示可以允许多种仪器,同时保持短序列长度。使用我们提出的表示形式,我们介绍了MultiTrack Music Transformer(MTMT),用于学习多领音乐中的长期依赖性。在主观的听力测试中,我们提出的模型针对两个基线模型实现了无条件生成的竞争质量。我们还表明,我们提出的模型可以生成样品,这些样品的长度是基线模型产生的样品,此外,可以在推理时间的一半中进行样本。此外,我们提出了一项新的措施,以分析音乐自我展示,并表明训练有素的模型学会更少注意与当前音符形成不和谐间隔的注释,但更多地却更多地掌握了与当前相距4N节奏的音符。最后,我们的发现为未来的工作提供了一个新颖的基础,探索了更长形式的多音阶音乐生成并改善音乐的自我吸引力。所有源代码和音频样本均可在https://salu133445.github.io/mtmt/上找到。
translated by 谷歌翻译
在这项工作中,我们提出了一个置换不变的语言模型Symphonynet,作为象征性交响音乐生成的解决方案。我们建议使用基于变压器的自动回归语言模型具有特定的3-D位置嵌入的新型多通道可重复的多磁场(MMR)表示,并模拟音乐序列。为了克服长度溢出在建模超长的交响令牌时,我们还提出了一对经过修改的字节对编码算法(音乐bpe)用于音乐令牌,并引入了一种新颖的线性变压器解码器架构作为骨干。同时,我们通过从输入中掩盖仪器信息来训练解码器将自动编排作为联合任务学习。我们还引入了一个大规模的符号交响数据集,以进行交响曲生成研究的发展。经验结果表明,所提出的方法可以产生连贯,新颖,复杂和和谐的交响曲,作为多轨多训练符号音乐生成的先驱解决方案。
translated by 谷歌翻译
自动音乐转录(AMT),从原始音频推断出音符,是音乐理解核心的具有挑战性的任务。与通常专注于单个扬声器的单词的自动语音识别(ASR)不同,AMT通常需要同时转换多个仪器,同时保留微量间距和定时信息。此外,许多AMT数据集是“低资源”,甚至甚至专家音乐家发现音乐转录困难和耗时。因此,事先工作专注于任务特定的架构,对每个任务的个体仪器量身定制。在这项工作中,通过对低资源自然语言处理(NLP)的序列到序列转移学习的有前途的结果,我们证明了通用变压器模型可以执行多任务AMT,共同转录音乐的任意组合跨几个转录数据集的仪器。我们展示了统一培训框架在一系列数据集中实现了高质量的转录结果,大大提高了低资源仪器(如吉他)的性能,同时为丰富的仪器(如钢琴)保持了强大的性能。最后,通过扩大AMT的范围,我们揭示了更加一致的评估指标和更好的数据集对齐,并为这个新的多任务AMT的新方向提供了强的基线。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
Transformers and variational autoencoders (VAE) have been extensively employed for symbolic (e.g., MIDI) domain music generation. While the former boast an impressive capability in modeling long sequences, the latter allow users to willingly exert control over different parts (e.g., bars) of the music to be generated. In this paper, we are interested in bringing the two together to construct a single model that exhibits both strengths. The task is split into two steps. First, we equip Transformer decoders with the ability to accept segment-level, time-varying conditions during sequence generation. Subsequently, we combine the developed and tested in-attention decoder with a Transformer encoder, and train the resulting MuseMorphose model with the VAE objective to achieve style transfer of long pop piano pieces, in which users can specify musical attributes including rhythmic intensity and polyphony (i.e., harmonic fullness) they desire, down to the bar level. Experiments show that MuseMorphose outperforms recurrent neural network (RNN) based baselines on numerous widely-used metrics for style transfer tasks.
translated by 谷歌翻译
实时音乐伴奏的生成在音乐行业(例如音乐教育和现场表演)中具有广泛的应用。但是,自动实时音乐伴奏的产生仍在研究中,并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中,我们提出了Song Driver,这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言,Songdriver将一个伴奏的生成任务分为两个阶段:1)安排阶段,其中变压器模型首先安排了和弦,以实时进行输入旋律,并在下一阶段加速了和弦,而不是播放它们。 2)预测阶段,其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略,歌手直接生成即将到来的旋律的伴奏,从而达到了零逻辑延迟。此外,在预测时间步的和弦时,歌手是指第一阶段的缓存和弦,而不是其先前的预测,这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制,因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点,我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中,我们在一些开源数据集上训练歌手,以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明,歌手在客观和主观指标上均优于现有的SOTA(最先进)模型,同时大大降低了物理潜伏期。
translated by 谷歌翻译
创造像音乐这样的复杂艺术作品需要深刻的创造力。随着深度学习和强大模型(例如变形金刚)的最新进展,自动音乐生成取得了巨大进展。在伴奏的生成环境中,在歌曲中的适当位置创建一个连贯的鼓模式,即使对于经验丰富的鼓手来说,在歌曲中的适当位置也是一项艰巨的任务。鼓节拍倾向于通过填充或即兴表演的节遵循重复的模式。在这项工作中,我们解决了鼓模式产生的任务,该任务是根据四种旋律乐器演奏的音乐来解决的:钢琴,吉他,贝斯和弦乐。我们将变压器序列用于序列模型来生成在旋律伴奏下进行的基本鼓模式,以发现即兴创作在很大程度上不存在,这可能归因于其在训练数据中的预期相对较低的表示。我们提出了一种新颖的功能,以捕获相对于其邻居的标准中即兴创作的程度。我们训练一个模型,以预测旋律伴奏曲目的即兴位置。最后,我们使用一种小说的伯特(Bert)启发的填充体系结构,以学习鼓和旋律的结构,以实现即兴音乐的填充元素。
translated by 谷歌翻译
Following the success of the transformer architecture in the natural language domain, transformer-like architectures have been widely applied to the domain of symbolic music recently. Symbolic music and text, however, are two different modalities. Symbolic music contains multiple attributes, both absolute attributes (e.g., pitch) and relative attributes (e.g., pitch interval). These relative attributes shape human perception of musical motifs. These important relative attributes, however, are mostly ignored in existing symbolic music modeling methods with the main reason being the lack of a musically-meaningful embedding space where both the absolute and relative embeddings of the symbolic music tokens can be efficiently represented. In this paper, we propose the Fundamental Music Embedding (FME) for symbolic music based on a bias-adjusted sinusoidal encoding within which both the absolute and the relative attributes can be embedded and the fundamental musical properties (e.g., translational invariance) are explicitly preserved. Taking advantage of the proposed FME, we further propose a novel attention mechanism based on the relative index, pitch and onset embeddings (RIPO attention) such that the musical domain knowledge can be fully utilized for symbolic music modeling. Experiment results show that our proposed model: RIPO transformer which utilizes FME and RIPO attention outperforms the state-of-the-art transformers (i.e., music transformer, linear transformer) in a melody completion task. Moreover, using the RIPO transformer in a downstream music generation task, we notice that the notorious degeneration phenomenon no longer exists and the music generated by the RIPO transformer outperforms the music generated by state-of-the-art transformer models in both subjective and objective evaluations.
translated by 谷歌翻译
我们提出了一种生成钢琴音乐的MIDI文件的方法。该方法使用两个网络绘制右手和左手,左手在右手上调节。这样,在和谐之前产生旋律。MIDI以不变量的方式表示,以乐谱,旋律表示,为了调节和谐,通过每个杆的内容被视为弦。最后,基于此和弦表示,随机添加了Notes,以丰富生成的音频。我们的实验表现出对本领域的培训技术的显着改进,用于培训此类数据集,并证明每个新型组件的贡献。
translated by 谷歌翻译
长期以来,流行音乐的一代一直是音乐家和科学家的吸引力。但是,以令人满意的结构自动编写流行音乐仍然是一个具有挑战性的问题。在本文中,我们建议利用和谐学习的学习来获得结构增强的流行音乐。一方面,和谐,和弦的参与者之一代表了多个音符的谐波集,该音符与音乐的空间结构紧密整合在一起。另一方面,另一个和谐,和弦进步的参与者通常伴随音乐的发展,从而促进了音乐的时间结构。此外,当和弦演变成和弦发展时,质地和形式可以由和谐自然地桥接,这有助于两种结构的共同学习。此外,我们提出了和谐感知的等级音乐变压器(帽子),可以从音乐中适应结构,并使音乐令牌在层次上进行层次相互作用,以增强多层音乐元素的结构。实验结果表明,与现有方法相比,HAT对结构有更好的了解,并且还可以提高产生的音乐的质量,尤其是形式和质地。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
在本文中,我们介绍了联合主义者,这是一种能够感知的多仪器框架,能够转录,识别和识别和将多种乐器与音频剪辑分开。联合主义者由调节其他模块的仪器识别模块组成:输出仪器特异性钢琴卷的转录模块以及利用仪器信息和转录结果的源分离模块。仪器条件设计用于明确的多仪器功能,而转录和源分离模块之间的连接是为了更好地转录性能。我们具有挑战性的问题表述使该模型在现实世界中非常有用,因为现代流行音乐通常由多种乐器组成。但是,它的新颖性需要关于如何评估这种模型的新观点。在实验过程中,我们从各个方面评估了模型,为多仪器转录提供了新的评估观点。我们还认为,转录模型可以用作其他音乐分析任务的预处理模块。在几个下游任务的实验中,我们的转录模型提供的符号表示有助于解决降低检测,和弦识别和关键估计的频谱图。
translated by 谷歌翻译
即使具有像变形金刚这样的强序模型,使用远程音乐结构产生表现力的钢琴表演仍然具有挑战性。同时,构成结构良好的旋律或铅片(Melody + Chords)的方法,即更简单的音乐形式,获得了更大的成功。在观察上面的情况下,我们设计了一个基于两阶段变压器的框架,该框架首先构成铅片,然后用伴奏和表达触摸来修饰它。这种分解还可以预处理非钢琴数据。我们的客观和主观实验表明,构成和装饰会缩小当前最新状态和真实表演之间的结构性差异,并改善了其他音乐方面,例如丰富性和连贯性。
translated by 谷歌翻译
符号音乐的生成依赖于生成模型的上下文表示功能,其中最普遍的方法是基于变压器的模型。音乐背景的学习也与音乐中的结构元素,即介绍,诗歌和合唱有关,这些元素目前被研究界忽略了。在本文中,我们提出了一个分层变压器模型,以学习音乐中的多尺度上下文。在编码阶段,我们首先设计了一个片段范围定位层,以将音乐结合到和弦和部分中。然后,我们使用多尺度的注意机制来学习笔记,和弦和部分级别的上下文。在解码阶段,我们提出了一个层次变压器模型,该模型使用精细编码器并行生成部分和粗编码器来解码组合音乐。我们还设计了音乐风格的标准化层,以在生成的部分之间实现一致的音乐风格。我们的模型在两个开放的MIDI数据集上进行了评估,实验表明我们的模型优于当代音乐生成模型。更令人兴奋的是,视觉评估表明,我们的模型在旋律重复使用方面表现出色,从而产生了更现实的音乐。
translated by 谷歌翻译
近年来,对与音乐信息检索社区中的音频信号检测钢琴踏板有关的研究越来越兴趣。然而,为了我们最好的知识,象征音乐的最近生成模型很少考虑钢琴踏板。在这项工作中,我们采用了Kong等人提出的转录模型。要从AILABS1K7数据集中的钢琴性能的录音中获取踏板信息,然后修改Hsiao等人提出的复合字变压器。构建一个变压器解码器,与其他音乐币一起生成与踏板相关的令牌。虽然通过使用推断的维持踏板信息作为培训数据来完成工作,但结果表明希望进一步改进,维持踏板参与钢琴绩效代队任务的希望。
translated by 谷歌翻译
人通常通过按音乐形式组织元素来表达音乐思想来创作音乐。但是,对于基于神经网络的音乐生成,由于缺乏音乐形式的标签数据,很难这样做。在本文中,我们开发了Meloform,该系统是使用专家系统和神经网络以音乐形式生成旋律的系统。具体而言,1)我们设计了一个专家系统,可以通过开发从图案到短语的音乐元素到并根据预授予的音乐形式进行重复和变化的部分来生成旋律; 2)考虑到产生的旋律缺乏音乐丰富性,我们设计了一个基于变压器的改进模型,以改善旋律而不改变其音乐形式。 Meloform享有专家系统和通过神经模型的音乐丰富性学习的精确音乐形式控制的优势。主观和客观的实验评估都表明,MeloForm以97.79%的精度生成具有精确的音乐形式控制的旋律,并且在主观评估评分方面的表现优于基线系统0.75、0.50、0.50、0.86和0.89,其结构,主题,丰富性和整体质量和整体质量无需主观评估,而没有主观评估。任何标记的音乐形式数据。此外,Meloform可以支持各种形式,例如诗歌和合唱形式,隆多形式,变异形式,奏鸣曲形式,等等。
translated by 谷歌翻译
The field of Automatic Music Generation has seen significant progress thanks to the advent of Deep Learning. However, most of these results have been produced by unconditional models, which lack the ability to interact with their users, not allowing them to guide the generative process in meaningful and practical ways. Moreover, synthesizing music that remains coherent across longer timescales while still capturing the local aspects that make it sound ``realistic'' or ``human-like'' is still challenging. This is due to the large computational requirements needed to work with long sequences of data, and also to limitations imposed by the training schemes that are often employed. In this paper, we propose a generative model of symbolic music conditioned by data retrieved from human sentiment. The model is a Transformer-GAN trained with labels that correspond to different configurations of the valence and arousal dimensions that quantitatively represent human affective states. We try to tackle both of the problems above by employing an efficient linear version of Attention and using a Discriminator both as a tool to improve the overall quality of the generated music and its ability to follow the conditioning signals.
translated by 谷歌翻译
抒情一代是近年来已经看到的自然语言生成的流行子领域。由于流派的独特风格和内容,流行歌词具有独特的兴趣,除了专业流行文章流行过程中的景区后面的高度合作。在本文中,我们介绍了一个协作线路级抒情生成系统,它通过T5变压器模型使用传输学习,直到日期尚未用于生成流行歌词。通过直接与专业的歌曲撰稿人直接沟通,我们开发了一种能够学习诸如押韵,匹配线击败要求以及具有特定目标单词的结尾线的抒情和风格任务的模型。我们的方法对多个数据集的现有方法有利地进行了比较,从我们的在线研究和与行业歌曲撰稿者采访中产生积极的结果。
translated by 谷歌翻译
音乐转录涉及音乐源转化为结构化数字格式,是音乐信息检索(MIR)的关键问题。当用计算术语解决这一挑战时,MIR社区遵循两条研究:音乐文档,这是光学识别(OMR)或录音的情况,这就是自动音乐转录(AMT)的情况。上述输入数据的不同性质使这些字段的条件以开发特定于模式的框架。但是,它们在序列标记任务方面的最新定义导致了共同的输出表示形式,从而可以对合并范式进行研究。在这方面,多模式图像和音频音乐转录包括有效结合图像和音频方式传达的信息的挑战。在这项工作中,我们在后期融合级别探讨了这个问题:我们研究了四种组合方法,以便首次合并基于晶格的搜索空间中有关端到端OMR和AMT系统的假设。一系列性能场景获得的结果(相应的单模式模型产生了不同的错误率)显示了这些方法的有趣好处。此外,四种策略中的两种认为显着改善了相应的单峰标准识别框架。
translated by 谷歌翻译