智能论文笔记

We propose GANStrument, a generative adversarial model for instrument sound synthesis. Given a one-shot sound as input, it is able to generate pitched instrument sounds that reflect the timbre of the input within an interactive time. By exploiting instance conditioning, GANStrument achieves better fidelity and diversity of synthesized sounds and generalization ability to various inputs. In addition, we introduce an adversarial training scheme for a pitch-invariant feature extractor that significantly improves the pitch accuracy and timbre consistency. Experimental results show that GANStrument outperforms strong baselines that do not use instance conditioning in terms of generation quality and input editability. Qualitative examples are available online.

translated by 谷歌翻译

A Contextual Latent Space Model: Subsequence Modulation in Melodic Sequence

Taketo Akama

分类：机器学习 | 人工智能 | (统计)机器学习

2021-11-23

一些用于音乐和文本的序列的生成模型允许我们仅在围绕上下文序列给定围绕围绕的子序列，这在交互式地在转向生成中起重要作用。然而，编辑后续术语主要涉及从可能的生成空间中随机重新采样的子序列。我们提出了一种上下文潜在空间模型（CLSM），以便用户能够以生成空间中的方向感地探索子序列生成，例如插值，以及探索变化 - 语义相似的可能的子序列。上下文的先前和解码器构成CLSM的生成模型，并且上下文位置通知的编码器是推断模型。在实验中，我们使用单声道符号音乐数据集，证明我们的上下文潜空间在插值中比基线更光滑，并且产生的样本的质量优于基线模型。生成示例可在线获取。

translated by 谷歌翻译

针对目标的对话任务的先前研究缺乏关键观念，该观念在以目标为导向的人工智能代理的背景下进行了深入研究。在这项研究中，我们提出了目标引导的开放域对话计划（TGCP）任务的任务，以评估神经对话代理是否具有目标对话计划的能力。使用TGCP任务，我们研究了现有检索模型和最新强生成模型的对话计划能力。实验结果揭示了当前技术面临的挑战。

translated by 谷歌翻译

避免产生与先前环境相矛盾的响应是对话响应产生的重大挑战。一种可行的方法是后处理，例如从最终的n-最佳响应列表中滤除矛盾的响应。在这种情况下，n-最佳列表的质量极大地影响了矛盾的发生，因为最终响应是从该最佳列表中选择的。这项研究定量地分析了使用N最佳列表的一致性对神经反应产生模型的上下文矛盾意识。特别是，我们将极性问题用作简洁和定量分析的刺激输入。我们的测试说明了最近的神经反应产生模型和方法的矛盾意识，然后讨论了它们的性质和局限性。

translated by 谷歌翻译