智能论文笔记

"Melatonin": A Case Study on AI-induced Musical Style

Emmanuel Deruty , Maarten Grachten

分类：人工智能

2022-08-18

尽管新成立的AI歌曲竞赛所见证的音乐作品和生产中使用AI工具在稳步增长，但使用这些工具制作的音乐分析仍然相对罕见，这是一种敏锐的洞察力，以洞悉AI工具影响音乐生产的方式。在本文中，我们介绍了一项案例研究“褪黑激素”，这是一首通过广泛使用Bassnet（最初旨在生成低音线条）的AI工具而产生的歌曲。通过分析艺术家的作品流程和歌曲项目，我们确定了与工具的负担相关的歌曲的样式特征，从而强调了习语和声音的样式表现。

translated by 谷歌翻译

DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With Autoencoding Generative Adversarial Networks

Javier Nistal , Cyran Aouameur , Ithan Velarde , Stefan Lattner

分类：机器学习

2022-06-29

在当代流行的音乐作品中，鼓声设计通常是通过繁琐的浏览和处理声音库中预录的样品的处理来执行的。人们还可以使用专门的合成硬件，通常通过低级，音乐上毫无意义的参数来控制。如今，深度学习领域提供了通过学习的高级功能来控制合成过程的方法，并允许产生各种声音。在本文中，我们提出了Drumgan VST，这是一个使用生成对抗网络合成鼓声的插件。Drumgan VST可在44.1 kHz样品速率音频上运行，提供独立且连续的仪表类控件，并具有编码的神经网络，该网络映射到GAN的潜在空间中，从而可以重新合成并操纵前持有的鼓声。我们提供了许多声音示例和建议的VST插件的演示。

translated by 谷歌翻译

An adaptive music generation architecture for games based on the deep learning Transformer mode

Gustavo Amaral Costa dos Santos , Augusto Baffa , Jean-Pierre Briot , Bruno Feijó , Antonio Luz Furtado

分类：机器学习

2022-07-04

本文介绍了一种基于变压器深度学习模型为视频游戏生成音乐的体系结构。该系统按照设计视频游戏音乐目前使用的标准分层策略来生成各种层的音乐。根据唤醒现象模型，音乐对玩家的心理环境具有适应性。我们的动机是根据玩家的口味自定义音乐，他们可以通过一系列音乐示例选择他喜欢的音乐风格。我们讨论了未来的当前局限性和前景，例如对音乐组件的协作和互动控制。

translated by 谷歌翻译

Proceedings of the 2nd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.

translated by 谷歌翻译

When Creators Meet the Metaverse: A Survey on Computational Arts

Lik-Hang Lee , Zijun Lin , Rui Hu , Zhengya Gong , Abhishek Kumar , Tangyao Li , Sijia Li , Pan Hui

分类：人工智能 | 机器学习

2021-11-26

MetaVerse，巨大的虚拟物理网络空间，为艺术家带来了前所未有的机会，将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查，其中七个关键主题与成权相关，描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素，例如虚拟场景和字符，听觉，文本元素。接下来，已经反映了诸如沉浸式艺术，机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术，机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后，我们提出了几项研究议程：民主化的计算艺术，数字隐私和搬迁艺术家的安全性，为数字艺术品，技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料，以开始在超现实主义网络空间领域创造。

translated by 谷歌翻译

Models of Music Cognition and Composition

Abhimanyu Sethia , Aayush

分类：机器学习

2022-08-14

与大多数认知研究一样，音乐认知是一个跨学科领域，它试图应用认知科学方法（神经系统，计算和实验性）来了解音乐的构成感和过程。在本文中，我们首先激励音乐为何与认知科学家相关，并概述音乐认知的计算建模方法。然后，我们回顾有关音乐知觉模型的文献，包括非计算模型，计算非认知模型和计算认知模型。最后，我们回顾了有关建模创意行为和能够创作音乐的计算机系统的文献。由于已经使用了音乐理论中的许多技术术语，因此我们在最后附上了相关术语及其定义的列表。

translated by 谷歌翻译

Computational Charisma -- A Brick by Brick Blueprint for Building Charismatic Artificial Intelligence

Björn W. Schuller , Shahin Amiriparian , Anton Batliner , Alexander Gebhard , Maurice Gerzcuk , Vincent Karas , Alexander Kathan , Lennart Seizer , Johanna Löchner

分类：人工智能 | 计算机视觉 | 机器学习

2022-12-31

Charisma is considered as one's ability to attract and potentially also influence others. Clearly, there can be considerable interest from an artificial intelligence's (AI) perspective to provide it with such skill. Beyond, a plethora of use cases opens up for computational measurement of human charisma, such as for tutoring humans in the acquisition of charisma, mediating human-to-human conversation, or identifying charismatic individuals in big social data. A number of models exist that base charisma on various dimensions, often following the idea that charisma is given if someone could and would help others. Examples include influence (could help) and affability (would help) in scientific studies or power (could help), presence, and warmth (both would help) as a popular concept. Modelling high levels in these dimensions for humanoid robots or virtual agents, seems accomplishable. Beyond, also automatic measurement appears quite feasible with the recent advances in the related fields of Affective Computing and Social Signal Processing. Here, we, thereforem present a blueprint for building machines that can appear charismatic, but also analyse the charisma of others. To this end, we first provide the psychological perspective including different models of charisma and behavioural cues of it. We then switch to conversational charisma in spoken language as an exemplary modality that is essential for human-human and human-computer conversations. The computational perspective then deals with the recognition and generation of charismatic behaviour by AI. This includes an overview of the state of play in the field and the aforementioned blueprint. We then name exemplary use cases of computational charismatic skills before switching to ethical aspects and concluding this overview and perspective on building charisma-enabled AI.

translated by 谷歌翻译

Audio representations for deep learning in sound synthesis: A review

Anastasia Natsiou , Sean O'Leary

分类：机器学习

2022-01-07

深度学习算法的兴起引领许多研究人员使用经典信号处理方法来发声。深度学习模型已经实现了富有富有的语音合成，现实的声音纹理和虚拟乐器的音符。然而，最合适的深度学习架构仍在调查中。架构的选择紧密耦合到音频表示。声音的原始波形可以太密集和丰富，用于深入学习模型，以有效处理 - 复杂性提高培训时间和计算成本。此外，它不代表声音以其所感知的方式。因此，在许多情况下，原始音频已经使用上采样，特征提取，甚至采用波形的更高级别的图示来转换为压缩和更有意义的形式。此外，研究了所选择的形式，另外的调节表示，不同的模型架构以及用于评估重建声音的许多度量的条件。本文概述了应用于使用深度学习的声音合成的音频表示。此外，它呈现了使用深度学习模型开发和评估声音合成架构的最重要方法，始终根据音频表示。

translated by 谷歌翻译

Perception-Aware Attack: Creating Adversarial Music via Reverse-Engineering Human Perception

Rui Duan , Zhe Qu , Shangqing Zhao , Leah Ding , Yao Liu , Zhuo Lu

分类：人工智能 | 机器学习

2022-07-26

最近，对抗机器学习攻击对实用音频信号分类系统构成了严重的安全威胁，包括语音识别，说话者识别和音乐版权检测。先前的研究主要集中在确保通过在原始信号上产生类似小噪声的扰动来攻击音频信号分类器的有效性。目前尚不清楚攻击者是否能够创建音频信号扰动，除了其攻击效果外，人类还可以很好地看待。这对于音乐信号尤其重要，因为它们经过精心制作，具有可让人的音频特征。在这项工作中，我们将对音乐信号的对抗性攻击作为一种新的感知攻击框架，将人类研究纳入对抗性攻击设计中。具体而言，我们进行了一项人类研究，以量化人类对音乐信号的变化的看法。我们邀请人类参与者根据对原始和扰动的音乐信号对进行评分，并通过回归分析对人类感知过程进行反向工程，以预测给定信号的人类感知的偏差。然后将感知感知的攻击作为优化问题提出，该问题找到了最佳的扰动信号，以最大程度地减少对回归人类感知模型的感知偏差的预测。我们使用感知感知的框架来设计对YouTube版权探测器的现实对抗音乐攻击。实验表明，感知意识攻击会产生对抗性音乐的感知质量明显优于先前的工作。

translated by 谷歌翻译

Sound Model Factory: An Integrated System Architecture for Generative Audio Modelling

Lonce Wyse , Purnima Kamath , Chitralekha Gupta

分类：神经与进化计算

2022-06-27

我们介绍了一个新的系统，用于围绕两个不同的神经网络体系结构建立的数据驱动音频声音模型设计，即生成对抗网络（GAN）和一个经常性的神经网络（RNN），它利用了每个系统的优势，以实现每个系统的独特特征目标都不能单独解决的目标。该系统的目的是生成给定的可交互性声音模型（a）该模型应能够合成的声音范围，以及（b）参数控件的规范，用于导航声音的空间。声音范围由设计器提供的数据集定义，而导航的方式由数据标签的组合以及从GAN学到的潜在空间中选择的子曼属的选择来定义。我们提出的系统利用了gan的丰富潜在空间，它由“真实数据般的声音”之间的声音组成。立即不断地更改参数并在无限的时间内生成音频。此外，我们开发了一种自组织的地图技术，用于``平滑''gan的潜在空间，从而导致音频音调之间的感知平滑插值。我们通过用户研究来验证这一过程。该系统为生成声音模型设计的最新技术做出了贡献，其中包括系统配置和用于改善插值的组件以及音乐音调和打击乐器的声音以外的音频建模功能的扩展，以使音频纹理的空间更加复杂。

translated by 谷歌翻译

DDX7: Differentiable FM Synthesis of Musical Instrument Sounds

Franco Caspe , Andrew McPherson , Mark Sandler

分类：机器学习

2022-08-12

FM合成是一种众所周知的算法，用于从紧凑的设计原始素中生成复杂的音色。通常具有MIDI接口，通常是不切实际的，从音频源进行控制。另一方面，可区分的数字信号处理（DDSP）已通过深度神经网络（DNN）启用了细微的音频渲染，这些音频渲染学会了从任意声音输入中控制可区分的合成层。训练过程涉及一系列音频进行监督和光谱重建损失功能。这样的功能虽然非常适合匹配光谱振幅，但却存在缺乏俯仰方向，这可能会阻碍FM合成器参数的关节优化。在本文中，我们采取了步骤，从音频输入中连续控制良好的FM合成体系结构。首先，我们讨论一组设计约束，通过标准重建损失来简化可区分的FM合成器的光谱优化。接下来，我们介绍可区分的DX7（DDX7），这是一种轻巧的体系结构，可根据一组紧凑的参数来进行乐器声音的神经FM重新合成。我们在从URMP数据集中提取的仪器样品上训练该模型，并定量证明其针对选定基准测试的音频质量可比。

translated by 谷歌翻译

A Quantum Natural Language Processing Approach to Musical Intelligence

Eduardo Reck Miranda , Richie Yeung , Anna Pearson , Konstantinos Meichanetzidis , Bob Coecke

分类：人工智能

2021-11-10

用于音乐的人工智能（AI）的巨大进展，特别是对于音乐作品和访问大型数据库来通过互联网进行商业化。我们有兴趣进一步推进这一领域，专注于构成。与目前的黑盒AI方法相比，我们正在为生成音乐系统支持可解释的组成前景。特别是，我们正在从分布组成分类（Discocat）建模框架中导入方法，用于自然语言处理（NLP），由音乐语法激励。量子计算是一种新生的技术，它很可能及时影响音乐行业。因此，我们正在开创Quantum自然语言处理（QNLP）方法来开发新一代智能音乐系统。这项工作从Quantum Hardware上的孤立语言模型的先前实验实施中。在Quanthoven，曾经构建的第一概念证明，（a）表明可以编程量子计算机来学习对传送不同含义和（b）的音乐来说明这种能力如何可能会利用开发一个系统来组成有意义的音乐。在讨论当前对音乐的理解作为通信介质及其与自然语言的关系之后，本章侧重于开发的技术（a）编码音乐组合物作为量子电路，（b）设计量子分类器。章节以与系统创建的组合物的演示结束。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Rhythm is a Dancer: Music-Driven Motion Synthesis with Global Structure

Andreas Aristidou , Anastasios Yiannakidis , Kfir Aberman , Daniel Cohen-Or , Ariel Shamir , Yiorgos Chrysanthou

分类：机器学习

2021-11-23

用全球性结构（例如编织）合成人体运动是一个具有挑战性的任务。现有方法倾向于集中在局部光滑的姿势过渡并忽视全球背景或运动的主题。在这项工作中，我们提出了一种音乐驱动的运动综合框架，其产生与输入节拍同步的人类运动的长期序列，并共同形成尊重特定舞蹈类型的全局结构。此外，我们的框架可以实现由音乐内容控制的不同运动，而不仅仅是由节拍。我们的音乐驱动舞蹈综合框架是一个分层系统，包括三个层次：姿势，图案和编排。姿势水平由LSTM组件组成，该组件产生时间相干的姿势。图案级别引导一组连续姿势，形成一个使用新颖运动感知损失所属的特定分布的运动。并且舞蹈级别选择所执行的运动的顺序，并驱动系统遵循舞蹈类型的全球结构。我们的结果展示了我们的音乐驱动框架的有效性，以在各种舞蹈类型上产生自然和一致的运动，控制合成运动的内容，并尊重舞蹈的整体结构。

translated by 谷歌翻译

MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling

Yusong Wu , Ethan Manilow , Yi Deng , Rigel Swavely , Kyle Kastner , Tim Cooijmans , Aaron Courville , Cheng-Zhi Anna Huang , Jesse Engel

分类：机器学习

2021-12-17

音乐表达需要控制播放的笔记，以及如何执行它们。传统的音频合成器提供了详细的表达控制，但以现实主义的成本提供了详细的表达控制。黑匣子神经音频合成和连接采样器可以产生现实的音频，但有很少的控制机制。在这项工作中，我们介绍MIDI-DDSP乐器的分层模型，可以实现现实的神经音频合成和详细的用户控制。从可解释的可分辨率数字信号处理（DDSP）合成参数开始，我们推断出富有表现力性能的音符和高级属性（例如Timbre，Vibrato，Dynamics和Asticiculation）。这将创建3级层次结构（注释，性能，合成），提供个人选择在每个级别进行干预，或利用培训的前沿（表现给出备注，综合赋予绩效）进行创造性的帮助。通过定量实验和聆听测试，我们证明了该层次结构可以重建高保真音频，准确地预测音符序列的性能属性，独立地操纵给定性能的属性，以及作为完整的系统，从新颖的音符生成现实音频顺序。通过利用可解释的层次结构，具有多个粒度的粒度，MIDI-DDSP将门打开辅助工具的门，以赋予各种音乐体验的个人。

translated by 谷歌翻译

AI in HCI Design and User Experience

Wei Xu

分类：人工智能

2023-01-03

In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.

translated by 谷歌翻译

Towards Better User Studies in Computer Graphics and Vision

Zoya Bylinskii , Laura Herman , Aaron Hertzmann , Stefanie Hutka , Yile Zhang

分类：计算机视觉

2022-06-23

在线众包平台使对算法输出进行评估变得容易，并提出诸如“哪个图像更好，A或B？”之类的问题的调查，在视觉和图形研究论文中的这些“用户研究”的扩散导致了增加匆忙进行的研究充其量是草率且无知的，并且可能有害和误导。我们认为，在计算机视觉和图形论文中的用户研究的设计和报告需要更多关注。为了提高从业者的知识并提高用户研究的可信度和可复制性，我们提供了用户体验研究（UXR），人类计算机互动（HCI）和相关领域的方法论的概述。我们讨论了目前在计算机视觉和图形研究中未利用的基础用户研究方法（例如，需要调查），但可以为研究项目提供宝贵的指导。我们为有兴趣探索其他UXR方法的读者提供了进一步的指导。最后，我们描述了研究界的更广泛的开放问题和建议。我们鼓励作者和审稿人都认识到，并非每项研究贡献都需要用户研究，而且根本没有研究比不小心进行的研究更好。

translated by 谷歌翻译

Teaching Qubits to Sing: Mission Impossible?

Eduardo Reck Miranda , Brian N. Siegelwax

分类：人工智能

2022-07-17

本文介绍了一个学会通过听示例来唱新音乐的系统。它从输入音乐中提取排序规则，并使用这些规则来生成新的曲调，这些曲调由人声合成器演唱。我们开发了一种表示音乐作品规则作为量子电路的方法。我们声称这种音乐规则是量子本地的：它们在量子状态的幅度中自然可以编码。为了评估一条规则以生成后续事件，系统会动态构建相应的量子电路并测量它。在简短讨论了我们一直在实验的人声合成方法之后，本文通过一个实践示例介绍了我们的新颖生成音乐方法。本文展示了一些实验，并以讨论利用系统的创造潜力进行了讨论。

translated by 谷歌翻译

Cine-AI: Generating Video Game Cutscenes in the Style of Human Directors

Inan Evin , Perttu Hämäläinen , Christian Guckelsberger

分类：人工智能

2022-08-11

过场动物是许多视频游戏不可或缺的一部分，但是它们的创作既昂贵又耗时，并且需要许多游戏开发人员缺乏的技能。尽管AI已被利用为半自动过场动画的生产，但结果通常缺乏专业人类董事特征的样式的内部一致性和统一性。我们用Cine-AI克服了这一缺点，Cine-AI是一种开源程序性摄影工具集，能够以杰出的人类导演的风格生成游戏中过场动画。 Cine-AI在流行的游戏引擎团结中实现，具有新颖的时间轴和情节板界面，用于设计时间操纵，并结合运行时摄影自动化。通过两项使用定量和定性措施的用户研究，我们证明了Cine-AI产生过过过场动物，这些过场动物与目标主管正确关联，同时提供高于平均水平的可用性。我们的导演模仿数据集可公开使用，可以由用户和电影爱好者扩展。

translated by 谷歌翻译

Malakai: Music That Adapts to the Shape of Emotions

Zack Harris , Liam Atticus Clarke , Pietro Gagliano , Dante Camarena , Manal Siddiqui , Pablo S. Castro

分类：人工智能

2021-12-03

ML音乐型号的出现诸如Google Magenta的Musicvae现在允许我们从其他数据集中提取和复制组成功能。这些模型允许计算作曲器参数化抽象变量，如风格和情绪。通过利用这些模型并将它们与过程算法与过去几十年来组合，可以创建一个动态歌曲，该歌曲实时组成音乐以伴随互动体验。Malakai是一种工具，可以帮助用户产生不同的技能级别创建，收听，混音并分享此类动态歌曲。使用Malakai，作曲家可以创建一个可以由侦听器互动的动态歌曲

translated by 谷歌翻译