本文提出了一种新的方法,可以通过蒙特卡洛树搜索来控制象征性音乐的情感。我们使用蒙特卡洛树搜索作为一种解码机制来指导语言模型学到的概率分布朝着给定的情感。在解码过程的每个步骤中,我们都会使用树木(Puct)的预测指标上的置信度来搜索分别由情绪分类器和歧视器给出的情感和质量平均值的序列。我们将语言模型用作管道的政策,并将情感分类器和歧视器的组合作为其价值功能。为了解码一段音乐中的下一个令牌,我们从搜索过程中创建的节点访问的分布中进行采样。我们使用直接从生成的样品计算的一组客观指标来评估生成样品相对于人类组成的碎片的质量。我们还进行了一项用户研究,以评估人类受试者如何看待生成的样品的质量和情感。我们将派斗与随机双目标梁搜索(SBB)和条件采样(CS)进行了比较。结果表明,在音乐质量和情感的几乎所有指标中,Puct的表现都优于SBB和CS。
translated by 谷歌翻译
符号音乐的生成依赖于生成模型的上下文表示功能,其中最普遍的方法是基于变压器的模型。音乐背景的学习也与音乐中的结构元素,即介绍,诗歌和合唱有关,这些元素目前被研究界忽略了。在本文中,我们提出了一个分层变压器模型,以学习音乐中的多尺度上下文。在编码阶段,我们首先设计了一个片段范围定位层,以将音乐结合到和弦和部分中。然后,我们使用多尺度的注意机制来学习笔记,和弦和部分级别的上下文。在解码阶段,我们提出了一个层次变压器模型,该模型使用精细编码器并行生成部分和粗编码器来解码组合音乐。我们还设计了音乐风格的标准化层,以在生成的部分之间实现一致的音乐风格。我们的模型在两个开放的MIDI数据集上进行了评估,实验表明我们的模型优于当代音乐生成模型。更令人兴奋的是,视觉评估表明,我们的模型在旋律重复使用方面表现出色,从而产生了更现实的音乐。
translated by 谷歌翻译
许多社交媒体用户更喜欢以视频​​而不是文本的形式消耗内容。但是,为了使内容创建者以高点击率生成视频,需要许多编辑才能将素材与音乐匹配。这员发出了更多适合业余视频制造商的额外挑战。因此,我们提出了一种新的基于关注的VMT(视频音乐变压器),它自动生成来自视频帧的钢琴分数。使用模型生成的音乐还可以防止潜在的版权侵权,这些版权往复使用现有音乐。据我们所知,除了拟议的VMT之外,没有任何工作,旨在为视频撰写音乐。此外,还缺少具有对齐视频和符号音乐的数据集。我们释放了一个由7小时超过7小时的钢琴分数组成的新数据集,在流行音乐视频和MIDI文件之间进行精细对齐。我们对VMT,SEQSEQ模型(我们的基线)和原始钢琴版原声带进行人体评估进行实验。 VMT通过对音乐平滑度和视频相关性的基线实现一致的改进。特别是,通过相关性分数和我们的案例研究,我们的模型已经显示了多模对帧级演员的音乐生成运动的能力。我们的VMT模型以及新数据集具有有希望的研究方向,旨在为视频进行匹配的匹配原声。我们在https://github.com/linchintung/vmt发布了我们的代码
translated by 谷歌翻译
即使具有像变形金刚这样的强序模型,使用远程音乐结构产生表现力的钢琴表演仍然具有挑战性。同时,构成结构良好的旋律或铅片(Melody + Chords)的方法,即更简单的音乐形式,获得了更大的成功。在观察上面的情况下,我们设计了一个基于两阶段变压器的框架,该框架首先构成铅片,然后用伴奏和表达触摸来修饰它。这种分解还可以预处理非钢琴数据。我们的客观和主观实验表明,构成和装饰会缩小当前最新状态和真实表演之间的结构性差异,并改善了其他音乐方面,例如丰富性和连贯性。
translated by 谷歌翻译
本文介绍了一种基于变压器深度学习模型为视频游戏生成音乐的体系结构。该系统按照设计视频游戏音乐目前使用的标准分层策略来生成各种层的音乐。根据唤醒现象模型,音乐对玩家的心理环境具有适应性。我们的动机是根据玩家的口味自定义音乐,他们可以通过一系列音乐示例选择他喜欢的音乐风格。我们讨论了未来的当前局限性和前景,例如对音乐组件的协作和互动控制。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
现有的使用变压器模型生成多功能音乐的方法仅限于一小部分乐器或简短的音乐片段。这部分是由于MultiTrack Music的现有表示形式所需的冗长输入序列的内存要求。在这项工作中,我们提出了一个紧凑的表示,该表示可以允许多种仪器,同时保持短序列长度。使用我们提出的表示形式,我们介绍了MultiTrack Music Transformer(MTMT),用于学习多领音乐中的长期依赖性。在主观的听力测试中,我们提出的模型针对两个基线模型实现了无条件生成的竞争质量。我们还表明,我们提出的模型可以生成样品,这些样品的长度是基线模型产生的样品,此外,可以在推理时间的一半中进行样本。此外,我们提出了一项新的措施,以分析音乐自我展示,并表明训练有素的模型学会更少注意与当前音符形成不和谐间隔的注释,但更多地却更多地掌握了与当前相距4N节奏的音符。最后,我们的发现为未来的工作提供了一个新颖的基础,探索了更长形式的多音阶音乐生成并改善音乐的自我吸引力。所有源代码和音频样本均可在https://salu133445.github.io/mtmt/上找到。
translated by 谷歌翻译
长期以来,流行音乐的一代一直是音乐家和科学家的吸引力。但是,以令人满意的结构自动编写流行音乐仍然是一个具有挑战性的问题。在本文中,我们建议利用和谐学习的学习来获得结构增强的流行音乐。一方面,和谐,和弦的参与者之一代表了多个音符的谐波集,该音符与音乐的空间结构紧密整合在一起。另一方面,另一个和谐,和弦进步的参与者通常伴随音乐的发展,从而促进了音乐的时间结构。此外,当和弦演变成和弦发展时,质地和形式可以由和谐自然地桥接,这有助于两种结构的共同学习。此外,我们提出了和谐感知的等级音乐变压器(帽子),可以从音乐中适应结构,并使音乐令牌在层次上进行层次相互作用,以增强多层音乐元素的结构。实验结果表明,与现有方法相比,HAT对结构有更好的了解,并且还可以提高产生的音乐的质量,尤其是形式和质地。
translated by 谷歌翻译
歌词到融合的生成是歌曲创作的重要任务,并且由于其独特的特征也很具有挑战性:产生的旋律不仅应遵循良好的音乐模式,而且还应与节奏和结构等歌词中的功能保持一致。由于几个问题,这些特征无法通过以端到端学习抒情式映射的神经生成模型来很好地处理:(1)缺乏对齐的抒情式摩托律训练数据,以充分学习抒情液特征结盟; (2)发电中缺乏可控性,无法明确保证抒情特征对齐。在本文中,我们提出了ROC,这是一种新的抒情术的范式,该范式通过一代网络式管道解决了上述问题。具体而言,我们的范式有两个阶段:(1)创建阶段,其中大量音乐是由基于神经的旋律语言模型生成的,并通过几个关键功能(例如和弦,音调,节奏和节奏和节奏)在数据库中索引。结构信息,包括合唱或经文); (2)重新创建阶段,根据歌词的关键功能从数据库中检索音乐作品,并根据构图指南和旋律语言模型分数从数据库中检索音乐作品来重新创建旋律。我们的ROC范式具有多个优点:(1)它只需要未配对的旋律数据来训练旋律语言模型,而不是以前模型中配对的抒情数据。 (2)它在抒情循环的生成中实现了良好的抒情式特征对齐。关于英语和中文数据集的实验表明,ROC在客观和主观指标上都优于先前基于神经的抒情性循环模型。
translated by 谷歌翻译
当前的语言模型达到了较低的困惑,但其产生的几代人仍然遭受有毒的反应,重复性和矛盾。标准语言建模设置无法解决这些问题。在本文中,我们介绍了一个新的体系结构{\ sc导演},由一个统一的生成器分类器组成,具有语言建模和每个输出令牌的分类头。培训是使用标准语言建模数据共同进行的,并以所需和不良序列标记的数据。与标准语言模型相比,该模型在多种设置中的实验表明,该模型具有竞争性的培训和解码速度,同时产生了较高的结果,从而减轻了已知的问题,同时保持发电质量。就准确性和效率而言,它还优于现有的模型指导方法。
translated by 谷歌翻译
预处理的基于变压器的语言模型(LMS)显示出显着的自然语言生成能力。凭借其巨大的潜力,控制这种LM的文本生成引起了人们的关注。尽管有一些研究试图控制生成的文本的高级属性(例如情感和主题),但仍然缺乏对其在单词和短语级别上的内容的更精确的控制。在这里,我们建议内容调节器(COCON)以细粒度的水平控制LM的输出文本。在我们的自我监督方法中,Cocon Block学会了通过调节从LM中扣留的内容输入来帮助LM完成部分观察到的文本序列。通过实验,我们表明Cocon可以自然地将目标内容纳入生成的文本中,并以零拍的方式控制高级文本属性。
translated by 谷歌翻译
测序技术容易出错,对下游应用程序进行纠错(EC)。需要手动配置EC工具以获得最佳性能。我们发现最佳参数(例如,k-mer大小)是依赖于工具和数据集。此外,评估给定工具的性能(即,对准速率或增益)通常依赖于参考基因组,但是质量参考基因组并不总是可用的。我们介绍了基于K-MEC的自动配置的Lerna。 Lerna首先创建未校正的基因组读取的语言模型(LM);然后,计算困惑度量以评估不同参数选择的校正读取。接下来,在不使用参考基因​​组的情况下发现产生最高对准率的那个。我们的方法的基本直觉是困惑度量与纠错后的组件的质量与组件的质量相反。结果:首先,我们表明,即使对于相同的EC工具,不同的数据集也可以对不同的数据集格变化。其次,我们使用其组件基于关注的变压器显示了我们的LM的收益。我们展示了误差校正前后困惑度量的模型的估计。校正后的困惑越低,k-mer大小越好。我们还表明,用于校正读取的对准率和组装质量与困惑强烈地呈负相关,从而实现了k-mer值的自动选择以获得更好的纠错,因此改善的组装质量。此外,我们表明我们的注意力模型对于整个管道的重大运行时间改善 - 由于并行化注意机制和JIT编译对GPU推理的使用JIT编译,因此整个管道的运行时间更快。
translated by 谷歌翻译
在本文中,我们使用大规模播放脚本数据集来提出从对话中提出戏剧发电的新颖任务。使用超过一百万行的对话和提示,我们将提示生成问题作为受控文本生成任务方法,并展示如何使用如何使用对话/提示鉴别器的语言模型来增强对话的影响。此外,我们还探讨了主题关键字和情绪的使用,以获得受控文本生成。广泛的定量和定性实验表明,语言模型可以成功地用于在高度专业化的域中生成合理的和属性控制的文本,例如播放脚本。配套材料可在:https://catlab-team.github.io/cuegen。
translated by 谷歌翻译
Alphazero,Leela Chess Zero和Stockfish Nnue革新了计算机国际象棋。本书对此类引擎的技术内部工作进行了完整的介绍。该书分为四个主要章节 - 不包括第1章(简介)和第6章(结论):第2章引入神经网络,涵盖了所有用于构建深层网络的基本构建块,例如Alphazero使用的网络。内容包括感知器,后传播和梯度下降,分类,回归,多层感知器,矢量化技术,卷积网络,挤压网络,挤压和激发网络,完全连接的网络,批处理归一化和横向归一化和跨性线性单位,残留层,剩余层,过度效果和底漆。第3章介绍了用于国际象棋发动机以及Alphazero使用的经典搜索技术。内容包括minimax,alpha-beta搜索和蒙特卡洛树搜索。第4章展示了现代国际象棋发动机的设计。除了开创性的Alphago,Alphago Zero和Alphazero我们涵盖Leela Chess Zero,Fat Fritz,Fat Fritz 2以及有效更新的神经网络(NNUE)以及MAIA。第5章是关于实施微型α。 Shexapawn是国际象棋的简约版本,被用作为此的示例。 Minimax搜索可以解决六ap峰,并产生了监督学习的培训位置。然后,作为比较,实施了类似Alphazero的训练回路,其中通过自我游戏进行训练与强化学习结合在一起。最后,比较了类似α的培训和监督培训。
translated by 谷歌翻译
本文介绍了学习迭代查询细化的元策略的设计代理的首先成功步骤。我们的方法使用机器读取来指导从聚合搜索结果中选择细化项。然后,使用简单但有效的搜索操作员能够赋予代理,以对查询和搜索结果发挥细粒度和透明控制。我们开发一种新颖的方式来发电综合搜索会话,它通过(自我)监督学习来利用基于变压器的语言模型的力量。我们还提出了一种强化学习代理,具有动态约束的动作,从划痕中了解互动搜索策略。我们使用传统的基于术语的BM25排名函数获得与最近神经方法相当的检索和回答质量性能。我们对搜索政策进行了深入的分析。
translated by 谷歌翻译
用于音乐的人工智能(AI)的巨大进展,特别是对于音乐作品和访问大型数据库来通过互联网进行商业化。我们有兴趣进一步推进这一领域,专注于构成。与目前的黑盒AI方法相比,我们正在为生成音乐系统支持可解释的组成前景。特别是,我们正在从分布组成分类(Discocat)建模框架中导入方法,用于自然语言处理(NLP),由音乐语法激励。量子计算是一种新生的技术,它很可能及时影响音乐行业。因此,我们正在开创Quantum自然语言处理(QNLP)方法来开发新一代智能音乐系统。这项工作从Quantum Hardware上的孤立语言模型的先前实验实施中。在Quanthoven,曾经构建的第一概念证明,(a)表明可以编程量子计算机来学习对传送不同含义和(b)的音乐来说明这种能力如何可能会利用开发一个系统来组成有意义的音乐。在讨论当前对音乐的理解作为通信介质及其与自然语言的关系之后,本章侧重于开发的技术(a)编码音乐组合物作为量子电路,(b)设计量子分类器。章节以与系统创建的组合物的演示结束。
translated by 谷歌翻译
基于变压器的语言模型能够生成流利的文本,并在各种自然语言生成任务中有效地适应。但是,已证明在大型未标记的网络文本语料库中鉴定的语言模型已被证明会遭受堕落的有毒内容和社会偏见行为的损害,从而阻碍了他们的安全部署。提出了各种排毒方法来减轻语言模型的毒性;但是,这些方法是在包含与性别,种族或宗教相关的特定社会身份的提示条件下进行排毒语言模型的。在这项研究中,我们提出了增强氧化。一种基于强化学习的方法,用于降低语言模型中的毒性。我们应对语言模型中的安全性挑战,并提出了一种新的奖励模型,该模型能够检测有毒内容并减轻对毒性预测中社会身份的意外偏见。该实验表明,用于语言模型排毒的增强方法化方法优于自动评估指标中现有的排毒方法,这表明我们在语言模型排毒中的方法能力和对生成内容中社会认同的意外偏见的能力较小。
translated by 谷歌翻译
Transfer learning, where a model is first pre-trained on a data-rich task before being finetuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new "Colossal Clean Crawled Corpus", we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.
translated by 谷歌翻译
在具有更好的创造者中,ML和HCI社区的兴趣越来越兴趣,具有更好的生成模型和更直观的界面来控制它们。在音乐中,ML研究人员专注于能够通过增加远程结构和音乐相干性能产生碎片的培训模型,而HCI研究人员则单独关注设计支持用户控制和所有权的转向界面。在这项研究中,我们通过共同的框架来调查模型和用户界面的开发如何对赋予创建权力的重要性,其中目标是创建传播特定图像或想法的音乐(例如,对于音乐中的其他有目的任务而言。创作像建立情绪或为另一个媒体创造陪伴的音乐)。我们的研究区别于它通过作曲家的自我报告的经验来衡量沟通,听众如何通过音乐评估这种通信。在一个评估研究中,用26个作曲家创建100多件音乐和听众提供1000多头对比的比较,我们发现更多的表现力模型和更多的可操纵的接口是重要的和互补方法,可以在通过音乐通信的作曲家中实现差异支持他们的创造性赋权。
translated by 谷歌翻译