音乐包含超出节拍和措施的层次结构。尽管层次结构注释有助于音乐信息检索和计算机音乐学,但在当前的数字音乐数据库中,这种注释很少。在本文中,我们探讨了一种数据驱动的方法,以自动从分数中提取分层的度量结构。我们提出了一个具有时间卷积网络条件随机字段(TCN-CRF)体系结构的新模型。给定符号音乐得分,我们的模型以良好的形式采用任意数量的声音,并预测了从偏低级别到截面级别的4级层次级别结构。我们还使用RWC-POP MIDI文件来注释数据集,以促进培​​训和评估。我们通过实验表明,在不同的编排设置下,提出的方法的性能优于基于规则的方法。我们还对模型预测进行了一些简单的音乐分析。所有演示,数据集和预培训模型均在GitHub上公开可用。
translated by 谷歌翻译
符号音乐分割是将符号旋律分为较小有意义的群体(例如旋律短语)的过程。我们提出了一种无监督的方法来分割符号音乐。提出的模型基于时间预测误差模型的合奏。在训练过程中,每个模型都预测了下一个令牌,以识别音乐短语变化。在测试时,我们执行峰值检测算法以选择候选段。最后,我们汇总了参与合奏的每个模型以预测最终分割的预测。结果表明,在考虑F-SCORE和R-VALUE时,建议的方法在无监督的设置下达到了Essen Folksong数据集的最先进性能。我们还提供消融研究,以更好地评估每个模型组件对最终结果的贡献。正如预期的那样,提出的方法不如监督环境,这为未来的研究提供了改善的空间,考虑到无监督和监督方法之间的差距。
translated by 谷歌翻译
自动音乐转录(AMT),从原始音频推断出音符,是音乐理解核心的具有挑战性的任务。与通常专注于单个扬声器的单词的自动语音识别(ASR)不同,AMT通常需要同时转换多个仪器,同时保留微量间距和定时信息。此外,许多AMT数据集是“低资源”,甚至甚至专家音乐家发现音乐转录困难和耗时。因此,事先工作专注于任务特定的架构,对每个任务的个体仪器量身定制。在这项工作中,通过对低资源自然语言处理(NLP)的序列到序列转移学习的有前途的结果,我们证明了通用变压器模型可以执行多任务AMT,共同转录音乐的任意组合跨几个转录数据集的仪器。我们展示了统一培训框架在一系列数据集中实现了高质量的转录结果,大大提高了低资源仪器(如吉他)的性能,同时为丰富的仪器(如钢琴)保持了强大的性能。最后,通过扩大AMT的范围,我们揭示了更加一致的评估指标和更好的数据集对齐,并为这个新的多任务AMT的新方向提供了强的基线。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
在本文中,我们介绍了联合主义者,这是一种能够感知的多仪器框架,能够转录,识别和识别和将多种乐器与音频剪辑分开。联合主义者由调节其他模块的仪器识别模块组成:输出仪器特异性钢琴卷的转录模块以及利用仪器信息和转录结果的源分离模块。仪器条件设计用于明确的多仪器功能,而转录和源分离模块之间的连接是为了更好地转录性能。我们具有挑战性的问题表述使该模型在现实世界中非常有用,因为现代流行音乐通常由多种乐器组成。但是,它的新颖性需要关于如何评估这种模型的新观点。在实验过程中,我们从各个方面评估了模型,为多仪器转录提供了新的评估观点。我们还认为,转录模型可以用作其他音乐分析任务的预处理模块。在几个下游任务的实验中,我们的转录模型提供的符号表示有助于解决降低检测,和弦识别和关键估计的频谱图。
translated by 谷歌翻译
实时音乐伴奏的生成在音乐行业(例如音乐教育和现场表演)中具有广泛的应用。但是,自动实时音乐伴奏的产生仍在研究中,并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中,我们提出了Song Driver,这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言,Songdriver将一个伴奏的生成任务分为两个阶段:1)安排阶段,其中变压器模型首先安排了和弦,以实时进行输入旋律,并在下一阶段加速了和弦,而不是播放它们。 2)预测阶段,其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略,歌手直接生成即将到来的旋律的伴奏,从而达到了零逻辑延迟。此外,在预测时间步的和弦时,歌手是指第一阶段的缓存和弦,而不是其先前的预测,这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制,因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点,我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中,我们在一些开源数据集上训练歌手,以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明,歌手在客观和主观指标上均优于现有的SOTA(最先进)模型,同时大大降低了物理潜伏期。
translated by 谷歌翻译
创造像音乐这样的复杂艺术作品需要深刻的创造力。随着深度学习和强大模型(例如变形金刚)的最新进展,自动音乐生成取得了巨大进展。在伴奏的生成环境中,在歌曲中的适当位置创建一个连贯的鼓模式,即使对于经验丰富的鼓手来说,在歌曲中的适当位置也是一项艰巨的任务。鼓节拍倾向于通过填充或即兴表演的节遵循重复的模式。在这项工作中,我们解决了鼓模式产生的任务,该任务是根据四种旋律乐器演奏的音乐来解决的:钢琴,吉他,贝斯和弦乐。我们将变压器序列用于序列模型来生成在旋律伴奏下进行的基本鼓模式,以发现即兴创作在很大程度上不存在,这可能归因于其在训练数据中的预期相对较低的表示。我们提出了一种新颖的功能,以捕获相对于其邻居的标准中即兴创作的程度。我们训练一个模型,以预测旋律伴奏曲目的即兴位置。最后,我们使用一种小说的伯特(Bert)启发的填充体系结构,以学习鼓和旋律的结构,以实现即兴音乐的填充元素。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
长期以来,流行音乐的一代一直是音乐家和科学家的吸引力。但是,以令人满意的结构自动编写流行音乐仍然是一个具有挑战性的问题。在本文中,我们建议利用和谐学习的学习来获得结构增强的流行音乐。一方面,和谐,和弦的参与者之一代表了多个音符的谐波集,该音符与音乐的空间结构紧密整合在一起。另一方面,另一个和谐,和弦进步的参与者通常伴随音乐的发展,从而促进了音乐的时间结构。此外,当和弦演变成和弦发展时,质地和形式可以由和谐自然地桥接,这有助于两种结构的共同学习。此外,我们提出了和谐感知的等级音乐变压器(帽子),可以从音乐中适应结构,并使音乐令牌在层次上进行层次相互作用,以增强多层音乐元素的结构。实验结果表明,与现有方法相比,HAT对结构有更好的了解,并且还可以提高产生的音乐的质量,尤其是形式和质地。
translated by 谷歌翻译
音乐作品结构的分析是一项任务,对人工智能仍然是一个挑战,特别是在深度学习领域。它需要先前识别音乐件的结构范围。最近通过无监督的方法和\ Texit {端到端}技术研究了这种结构边界分析,例如使用熔融缩放的对数级阶段特征(MLS),自相似性矩阵(SSM)等卷积神经网络(CNN)或自我相似性滞后矩阵(SSLM)作为输入和用人的注释培训。已发布几项研究分为无监督和\ yexit {端到端}方法,其中使用不同的距离度量和音频特性以不同方式进行预处理,因此通过计算模型输入的广义预处理方法是丢失的。这项工作的目的是通过比较来自不同池策略,距离度量和音频特性的输入来建立预处理这些输入的一般方法,也考虑到计算时间来获得它们。我们还建立了要交付给CNN的最有效的投入结合,以便建立最有效的方法来提取音乐件结构的限制。通过对输入矩阵和池策略的充分组合,我们获得了0.411的测量精度$ 0.411优于在相同条件下获得的目前。
translated by 谷歌翻译
现有的使用变压器模型生成多功能音乐的方法仅限于一小部分乐器或简短的音乐片段。这部分是由于MultiTrack Music的现有表示形式所需的冗长输入序列的内存要求。在这项工作中,我们提出了一个紧凑的表示,该表示可以允许多种仪器,同时保持短序列长度。使用我们提出的表示形式,我们介绍了MultiTrack Music Transformer(MTMT),用于学习多领音乐中的长期依赖性。在主观的听力测试中,我们提出的模型针对两个基线模型实现了无条件生成的竞争质量。我们还表明,我们提出的模型可以生成样品,这些样品的长度是基线模型产生的样品,此外,可以在推理时间的一半中进行样本。此外,我们提出了一项新的措施,以分析音乐自我展示,并表明训练有素的模型学会更少注意与当前音符形成不和谐间隔的注释,但更多地却更多地掌握了与当前相距4N节奏的音符。最后,我们的发现为未来的工作提供了一个新颖的基础,探索了更长形式的多音阶音乐生成并改善音乐的自我吸引力。所有源代码和音频样本均可在https://salu133445.github.io/mtmt/上找到。
translated by 谷歌翻译
音乐表达需要控制播放的笔记,以及如何执行它们。传统的音频合成器提供了详细的表达控制,但以现实主义的成本提供了详细的表达控制。黑匣子神经音频合成和连接采样器可以产生现实的音频,但有很少的控制机制。在这项工作中,我们介绍MIDI-DDSP乐器的分层模型,可以实现现实的神经音频合成和详细的用户控制。从可解释的可分辨率数字信号处理(DDSP)合成参数开始,我们推断出富有表现力性能的音符和高级属性(例如Timbre,Vibrato,Dynamics和Asticiculation)。这将创建3级层次结构(注释,性能,合成),提供个人选择在每个级别进行干预,或利用培训的前沿(表现给出备注,综合赋予绩效)进行创造性的帮助。通过定量实验和聆听测试,我们证明了该层次结构可以重建高保真音频,准确地预测音符序列的性能属性,独立地操纵给定性能的属性,以及作为完整的系统,从新颖的音符生成现实音频顺序。通过利用可解释的层次结构,具有多个粒度的粒度,MIDI-DDSP将门打开辅助工具的门,以赋予各种音乐体验的个人。
translated by 谷歌翻译
注释音乐节拍在繁琐的过程中是很长的。为了打击这个问题,我们为节拍跟踪和下拍估算提出了一种新的自我监督的学习借口任务。这项任务利用SPLEETER,一个音频源分离模型,将歌曲的鼓从其其余的信号分开。第一组信号用作阳性,并通过延长否定,用于对比学习预培训。另一方面,鼓的信号用作锚点。使用此借口任务进行全卷积和复发模型时,学习了一个开始功能。在某些情况下,发现此功能被映射到歌曲中的周期元素。我们发现,当一个节拍跟踪训练集非常小(少于10个示例)时,预先训练的模型随机初始化模型表现优于随机初始化的模型。当不是这种情况时,预先训练导致了一个学习速度,导致模型过度训练集。更一般地说,这项工作定义了音乐自我监督学习领域的新观点。尤其是使用音频源分离作为自我监督的基本分量的作品之一。
translated by 谷歌翻译
在本文中,我们试图通过引入深度学习模型的句法归纳偏见来建立两所学校之间的联系。我们提出了两个归纳偏见的家族,一个家庭用于选区结构,另一个用于依赖性结构。选区归纳偏见鼓励深度学习模型使用不同的单位(或神经元)分别处理长期和短期信息。这种分离为深度学习模型提供了一种方法,可以从顺序输入中构建潜在的层次表示形式,即更高级别的表示由高级表示形式组成,并且可以分解为一系列低级表示。例如,在不了解地面实际结构的情况下,我们提出的模型学会通过根据其句法结构组成变量和运算符的表示来处理逻辑表达。另一方面,依赖归纳偏置鼓励模型在输入序列中找到实体之间的潜在关系。对于自然语言,潜在关系通常被建模为一个定向依赖图,其中一个单词恰好具有一个父节点和零或几个孩子的节点。将此约束应用于类似变压器的模型之后,我们发现该模型能够诱导接近人类专家注释的有向图,并且在不同任务上也优于标准变压器模型。我们认为,这些实验结果为深度学习模型的未来发展展示了一个有趣的选择。
translated by 谷歌翻译
我们可以根据流行歌曲的音频自动推导钢琴伴奏的分数吗?这是我们在本文中解决的音频到符号排列问题。一个良好的安排模型不仅要考虑音频内容,还要先前了解钢琴组成(使得生成“听起来像”音频且同时保持音乐性。)到目前为止,我们贡献了跨模型表示学习模型,其中1)从音频提取和弦和旋律信息,2)从音频和损坏的地面真理安排中了解纹理表示。我们进一步介绍了定制的培训策略,逐渐将纹理信息的来源从损坏的分数转移到音频。最后,基于分数的纹理后部减少到标准的正态分布,并且只需要音频进行推断。实验表明,我们的模型捕获了主要音频信息和优于代质量的基线。
translated by 谷歌翻译
符号音乐的生成依赖于生成模型的上下文表示功能,其中最普遍的方法是基于变压器的模型。音乐背景的学习也与音乐中的结构元素,即介绍,诗歌和合唱有关,这些元素目前被研究界忽略了。在本文中,我们提出了一个分层变压器模型,以学习音乐中的多尺度上下文。在编码阶段,我们首先设计了一个片段范围定位层,以将音乐结合到和弦和部分中。然后,我们使用多尺度的注意机制来学习笔记,和弦和部分级别的上下文。在解码阶段,我们提出了一个层次变压器模型,该模型使用精细编码器并行生成部分和粗编码器来解码组合音乐。我们还设计了音乐风格的标准化层,以在生成的部分之间实现一致的音乐风格。我们的模型在两个开放的MIDI数据集上进行了评估,实验表明我们的模型优于当代音乐生成模型。更令人兴奋的是,视觉评估表明,我们的模型在旋律重复使用方面表现出色,从而产生了更现实的音乐。
translated by 谷歌翻译
当前的解释应用于音乐数据的深度学习系统的方法可在低级功能空间中,例如,通过突出钢琴卷中的频谱图或时机垃圾箱中的潜在相关时间频率箱。这可能很难理解,尤其是对于没有技术知识的音乐学家而言。为了解决这个问题,我们专注于基于高级音乐概念的更具人为友好的解释。我们的研究针对经过训练的系统(事后解释)并探讨了两种方法:一种受监督的方法,用户可以定义音乐概念并测试它是否与系统相关;以及无监督的内容,其中包含相关概念的音乐摘录将自动选择并给予用户进行解释。我们在现有的符号作曲家分类系统上展示了这两种技术,展示其潜力并突出其内在局限性。
translated by 谷歌翻译
在这项工作中,我们提出了一个置换不变的语言模型Symphonynet,作为象征性交响音乐生成的解决方案。我们建议使用基于变压器的自动回归语言模型具有特定的3-D位置嵌入的新型多通道可重复的多磁场(MMR)表示,并模拟音乐序列。为了克服长度溢出在建模超长的交响令牌时,我们还提出了一对经过修改的字节对编码算法(音乐bpe)用于音乐令牌,并引入了一种新颖的线性变压器解码器架构作为骨干。同时,我们通过从输入中掩盖仪器信息来训练解码器将自动编排作为联合任务学习。我们还引入了一个大规模的符号交响数据集,以进行交响曲生成研究的发展。经验结果表明,所提出的方法可以产生连贯,新颖,复杂和和谐的交响曲,作为多轨多训练符号音乐生成的先驱解决方案。
translated by 谷歌翻译
Transformers and variational autoencoders (VAE) have been extensively employed for symbolic (e.g., MIDI) domain music generation. While the former boast an impressive capability in modeling long sequences, the latter allow users to willingly exert control over different parts (e.g., bars) of the music to be generated. In this paper, we are interested in bringing the two together to construct a single model that exhibits both strengths. The task is split into two steps. First, we equip Transformer decoders with the ability to accept segment-level, time-varying conditions during sequence generation. Subsequently, we combine the developed and tested in-attention decoder with a Transformer encoder, and train the resulting MuseMorphose model with the VAE objective to achieve style transfer of long pop piano pieces, in which users can specify musical attributes including rhythmic intensity and polyphony (i.e., harmonic fullness) they desire, down to the bar level. Experiments show that MuseMorphose outperforms recurrent neural network (RNN) based baselines on numerous widely-used metrics for style transfer tasks.
translated by 谷歌翻译
人通常通过按音乐形式组织元素来表达音乐思想来创作音乐。但是,对于基于神经网络的音乐生成,由于缺乏音乐形式的标签数据,很难这样做。在本文中,我们开发了Meloform,该系统是使用专家系统和神经网络以音乐形式生成旋律的系统。具体而言,1)我们设计了一个专家系统,可以通过开发从图案到短语的音乐元素到并根据预授予的音乐形式进行重复和变化的部分来生成旋律; 2)考虑到产生的旋律缺乏音乐丰富性,我们设计了一个基于变压器的改进模型,以改善旋律而不改变其音乐形式。 Meloform享有专家系统和通过神经模型的音乐丰富性学习的精确音乐形式控制的优势。主观和客观的实验评估都表明,MeloForm以97.79%的精度生成具有精确的音乐形式控制的旋律,并且在主观评估评分方面的表现优于基线系统0.75、0.50、0.50、0.86和0.89,其结构,主题,丰富性和整体质量和整体质量无需主观评估,而没有主观评估。任何标记的音乐形式数据。此外,Meloform可以支持各种形式,例如诗歌和合唱形式,隆多形式,变异形式,奏鸣曲形式,等等。
translated by 谷歌翻译