We propose an end-to-end music mixing style transfer system that converts the mixing style of an input multitrack to that of a reference song. This is achieved with an encoder pre-trained with a contrastive objective to extract only audio effects related information from a reference music recording. All our models are trained in a self-supervised manner from an already-processed wet multitrack dataset with an effective data preprocessing method that alleviates the data scarcity of obtaining unprocessed dry data. We analyze the proposed encoder for the disentanglement capability of audio effects and also validate its performance for mixing style transfer through both objective and subjective evaluations. From the results, we show the proposed system not only converts the mixing style of multitrack audio close to a reference but is also robust with mixture-wise style transfer upon using a music source separation model.
translated by 谷歌翻译
传统上,音乐混合涉及以干净,单个曲目的形式录制乐器,并使用音频效果和专家知识(例如,混合工程师)将它们融合到最终混合物中。近年来,音乐制作任务的自动化已成为一个新兴领域,基于规则的方法和机器学习方法已被探索。然而,缺乏干燥或干净的仪器记录限制了这种模型的性能,这与专业的人造混合物相去甚远。我们探索是否可以使用室外数据,例如潮湿或加工的多轨音乐录音,并将其重新利用以训练有监督的深度学习模型,以弥合自动混合质量的当前差距。为了实现这一目标,我们提出了一种新型的数据预处理方法,该方法允许模型执行自动音乐混合。我们还重新设计了一种用于评估音乐混合系统的听力测试方法。我们使用经验丰富的混合工程师作为参与者来验证结果。
translated by 谷歌翻译
最近的成功表明,可以通过文本提示来操纵图像,例如,在雨天的晴天,在雨天中被操纵到同一场景中,这是由文本输入“下雨”驱动的雨天。这些方法经常利用基于样式的图像生成器,该生成器利用多模式(文本和图像)嵌入空间。但是,我们观察到,这种文本输入通常在提供和综合丰富的语义提示时被瓶颈瓶颈,例如将大雨与雨雨区分开。为了解决这个问题,我们主张利用另一种方式,声音,在图像操纵中具有显着优势,因为它可以传达出比文本更多样化的语义提示(生动的情感或自然世界的动态表达)。在本文中,我们提出了一种新颖的方法,该方法首先使用声音扩展了图像文本接头嵌入空间,并应用了一种直接的潜在优化方法来根据音频输入(例如雨的声音)操纵给定的图像。我们的广泛实验表明,我们的声音引导的图像操纵方法在语义和视觉上比最先进的文本和声音引导的图像操纵方法产生更合理的操作结果,这通过我们的人类评估进一步证实。我们的下游任务评估还表明,我们学到的图像文本单嵌入空间有效地编码声音输入。
translated by 谷歌翻译
最近的生成模型的成功表明,利用多模态嵌入空间可以使用文本信息操纵图像。然而,由于源的动态特性,使用其他来源而不是声音的文本来操纵图像,而不是声音,并不容易。特别是,声音可以传达真实世界的生动情感和动态表达。在这里,我们提出了一个框架,该框架将声音直接编码为多模态(图像文本)嵌入空间,并从空间操纵图像。我们的音频编码器受过培训以产生来自音频输入的潜在表示,该音频输入被强制与多模式嵌入空间中的图像和文本表示对齐。我们使用基于对齐的嵌入式的直接潜在优化方法进行声音引导图像操纵。我们还表明,我们的方法可以混合文本和音频模态,这丰富了各种图像修改。我们验证了定量和定性的声音引导图像操纵的有效性。我们还表明,我们的方法可以混合不同的模态,即文本和音频,这丰富了图像修改的各种。零射频分类和语义级图像分类的实验表明,我们所提出的模型优于其他文本和声音引导最先进的方法。
translated by 谷歌翻译
现代数字音乐的制作通常涉及将许多声学元素组合在一起以编译音乐。此类元素的重要类型是鼓样品,它们决定了该作品的打击乐成分的特性。艺术家必须使用其审美判断来评估给定的鼓样本是否适合当前的音乐背景。但是,从潜在的大图书馆中选择鼓样品是乏味的,可能会中断创意流程。在这项工作中,我们根据从数据中学到的美学原理探索自动鼓样品检索。结果,艺术家可以通过在制作过程的不同阶段(即适合不完整的歌曲混音)来对其图书馆中的样本进行排名。为此,我们使用对比度学习来最大程度地提高源自与混合物同一歌曲的鼓样品的分数。我们进行了听力测试,以确定人类评分是否与自动评分函数匹配。我们还进行客观的定量分析以评估方法的功效。
translated by 谷歌翻译
鉴于音乐源分离和自动混合的最新进展,在音乐曲目中删除音频效果是开发自动混合系统的有意义的一步。本文着重于消除对音乐制作中吉他曲目应用的失真音频效果。我们探索是否可以通过设计用于源分离和音频效应建模的神经网络来解决效果的去除。我们的方法证明对混合处理和清洁信号的效果特别有效。与基于稀疏优化的最新解决方案相比,这些模型获得了更好的质量和更快的推断。我们证明这些模型不仅适合倾斜,而且适用于其他类型的失真效应。通过讨论结果,我们强调了多个评估指标的有用性,以评估重建的不同方面的变形效果去除。
translated by 谷歌翻译
在本文中,介绍了文本到读取/唱歌系统,可以适应任何扬声器的声音。它利用基于TacoTron的多级箱子声学模型在只读语音数据训练,并且在音素级别提供韵律控制。还研究了基于传统DSP算法的数据集增强和额外的韵律操纵。神经TTS模型对看不见的扬声器的有限录音进行了微调,允许与目标的扬声器语音进行敲击/歌唱合成。描述了系统的详细管道,其包括从Capella歌曲的目标音调和持续时间值提取,并将其转换为在合成之前的目标扬声器的有效音符范围内。还研究了通过WSOLA输出的输出的韵律操纵的另外的阶段,以便更好地匹配目标持续时间值。合成的话语可以与乐器伴奏轨道混合以产生完整的歌曲。通过主观聆听测试评估所提出的系统,以及与可用的备用系统相比,该系统还旨在从只读训练数据产生合成歌唱语音。结果表明,该拟议的方法可以产生高质量的敲击/歌声,具有增加的自然。
translated by 谷歌翻译
自我监督学习的共同研究目标是提取一般表示,任意下游任务将受益。在这项工作中,我们调查了从不同的对比度自学学习方案中学到的音乐音频表示形式,并在各种音乐信息检索(MIR)任务上对嵌入式矢量进行了经验评估,在这些任务中,音乐感知的不同级别。我们分析结果,以讨论针对不同MIR任务的对比度学习策略的正确方向。我们表明,这些表示形式传达了有关音乐一般的听觉特征的全面信息,尽管每种自学策略在信息的某些方面都有其自身的有效性。
translated by 谷歌翻译
我们提出了一个录音录音录音的录音录音。我们的模型通过短时傅立叶变换(STFT)将其输入转换为时频表示,并使用卷积神经网络处理所得的复杂频谱图。该网络在合成音乐数据集上培训了重建和对抗性目标,该数据集是通过将干净的音乐与从旧唱片的安静片段中提取的真实噪声样本混合而创建的。我们在合成数据集的持有测试示例中定量评估我们的方法,并通过人类对实际历史记录样本的评级进行定性评估。我们的结果表明,所提出的方法可有效消除噪音,同时保留原始音乐的质量和细节。
translated by 谷歌翻译
高级音乐推荐系统正在引入机器学习的开发。但是,必须设计一个可以通过了解用户的音乐口味而不是模型的复杂性来提高用户满意度的音乐推荐系统。尽管与音乐推荐系统相关的一些研究表明了绩效的提高,但缺乏解释如何导致更好的建议。在这项工作中,我们通过将音乐推荐模型与对比度学习利用偏好(CLEP)进行比较,分析了负面偏好在用户音乐品味中的作用,但具有三种不同的培训策略 - 利用正面和负面的偏好(CLEP -PN),正面(CLEP -PN),正面仅(clep-p),仅(clep-n)。我们通过通过调查获得的少量个性化数据来验证每个系统,从而评估负偏好的有效性,并进一步阐明了在音乐建议中利用负面偏好的可能性。我们的实验结果表明,CLEP-N在准确性和假阳性速率方面优于其他两个。此外,所提出的培训策略都会产生一致的趋势,无论前端音乐提取器不同,证明了所提出的方法的稳定性。
translated by 谷歌翻译
在本文中,我们基于条件AutoEncoder提出了一种新型音频合成器CaeSynth。 Caesynth通过在其共享潜在特征空间中插入参考声音来实时合成Timbre,同时独立控制俯仰。我们展示了基于Timbre分类的精度培训条件AutoEncoder与俯仰内容的对抗正规化允许潜伏空间中的Timbre分布对Timbre插值和音调调节更有效和稳定。该方法不仅适用于创造音乐线索,还适用于基于具有环境声音的小说模型的混合现实中的音频承担。我们通过实验证明了CAESynth通过Timbre插值实时实现了光滑和高保真音频合成,并为音乐线索的独立且准确的音高控制以及与环境声音的音频提供。在线共享Python实现以及一些生成的样本。
translated by 谷歌翻译
在本文中,我们提出了一个模型,以执行语音转换为歌声。与以前的基于信号处理的方法相反,基于信号处理的方法需要高质量的唱歌模板或音素同步,我们探索了一种数据驱动的方法,即将自然语音转换为唱歌声音的问题。我们开发了一种新型的神经网络体系结构,称为Symnet,该结构将输入语音与目标旋律的一致性建模,同时保留了说话者的身份和自然性。所提出的符号模型由三种类型层的对称堆栈组成:卷积,变压器和自发层。本文还探讨了新的数据增强和生成损耗退火方法,以促进模型培训。实验是在NUS和NHSS数据集上进行的,这些数据集由语音和唱歌语音的平行数据组成。在这些实验中,我们表明所提出的SYMNET模型在先前发表的方法和基线体系结构上显着提高了客观重建质量。此外,主观听力测试证实了使用拟议方法获得的音频质量的提高(绝对提高了0.37的平均意见分数测度量度比基线系统)。
translated by 谷歌翻译
现有的神经样式传输方法需要参考样式图像来将样式图像的纹理信息传输到内容图像。然而,在许多实际情况中,用户可能没有参考样式图像,但仍然有兴趣通过想象它们来传输样式。为了处理此类应用程序,我们提出了一个新的框架,它可以实现样式转移`没有'风格图像,但仅使用所需风格的文本描述。使用预先训练的文本图像嵌入模型的剪辑,我们仅通过单个文本条件展示了内容图像样式的调制。具体而言,我们提出了一种针对现实纹理传输的多视图增强的修补程序文本图像匹配丢失。广泛的实验结果证实了具有反映语义查询文本的现实纹理的成功图像风格转移。
translated by 谷歌翻译
Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
translated by 谷歌翻译
近年来,表现力的文本到语音表现出改善的性能。但是,综合语音的样式控制通常仅限于离散的情绪类别,并且需要目标扬声器记录的培训数据。在许多实际情况下,用户可能没有在目标情感中记录的参考语音,但仅通过键入所需情感风格的文本描述来控制语音样式。在本文中,我们提出了一个基于文本的界面,用于情感风格控制和多演讲者TTS中的跨言式风格转移。我们提出了双模式样式编码器,该编码器模拟了文本描述嵌入与语言模型嵌入语音样式之间的语义关系。为了进一步改善横向扬声器风格的转移,在多种风格的数据集上,我们提出了新型样式损失。实验结果表明,即使以看不见的风格,我们的模型也可以产生高质量的表达语音。
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
We present a method for simultaneously localizing multiple sound sources within a visual scene. This task requires a model to both group a sound mixture into individual sources, and to associate them with a visual signal. Our method jointly solves both tasks at once, using a formulation inspired by the contrastive random walk of Jabri et al. We create a graph in which images and separated sounds correspond to nodes, and train a random walker to transition between nodes from different modalities with high return probability. The transition probabilities for this walk are determined by an audio-visual similarity metric that is learned by our model. We show through experiments with musical instruments and human speech that our model can successfully localize multiple sounds, outperforming other self-supervised methods. Project site: https://hxixixh.github.io/mix-and-localize
translated by 谷歌翻译
The marine ecosystem is changing at an alarming rate, exhibiting biodiversity loss and the migration of tropical species to temperate basins. Monitoring the underwater environments and their inhabitants is of fundamental importance to understand the evolution of these systems and implement safeguard policies. However, assessing and tracking biodiversity is often a complex task, especially in large and uncontrolled environments, such as the oceans. One of the most popular and effective methods for monitoring marine biodiversity is passive acoustics monitoring (PAM), which employs hydrophones to capture underwater sound. Many aquatic animals produce sounds characteristic of their own species; these signals travel efficiently underwater and can be detected even at great distances. Furthermore, modern technologies are becoming more and more convenient and precise, allowing for very accurate and careful data acquisition. To date, audio captured with PAM devices is frequently manually processed by marine biologists and interpreted with traditional signal processing techniques for the detection of animal vocalizations. This is a challenging task, as PAM recordings are often over long periods of time. Moreover, one of the causes of biodiversity loss is sound pollution; in data obtained from regions with loud anthropic noise, it is hard to separate the artificial from the fish sound manually. Nowadays, machine learning and, in particular, deep learning represents the state of the art for processing audio signals. Specifically, sound separation networks are able to identify and separate human voices and musical instruments. In this work, we show that the same techniques can be successfully used to automatically extract fish vocalizations in PAM recordings, opening up the possibility for biodiversity monitoring at a large scale.
translated by 谷歌翻译
Transformers and variational autoencoders (VAE) have been extensively employed for symbolic (e.g., MIDI) domain music generation. While the former boast an impressive capability in modeling long sequences, the latter allow users to willingly exert control over different parts (e.g., bars) of the music to be generated. In this paper, we are interested in bringing the two together to construct a single model that exhibits both strengths. The task is split into two steps. First, we equip Transformer decoders with the ability to accept segment-level, time-varying conditions during sequence generation. Subsequently, we combine the developed and tested in-attention decoder with a Transformer encoder, and train the resulting MuseMorphose model with the VAE objective to achieve style transfer of long pop piano pieces, in which users can specify musical attributes including rhythmic intensity and polyphony (i.e., harmonic fullness) they desire, down to the bar level. Experiments show that MuseMorphose outperforms recurrent neural network (RNN) based baselines on numerous widely-used metrics for style transfer tasks.
translated by 谷歌翻译
我们可以根据流行歌曲的音频自动推导钢琴伴奏的分数吗?这是我们在本文中解决的音频到符号排列问题。一个良好的安排模型不仅要考虑音频内容,还要先前了解钢琴组成(使得生成“听起来像”音频且同时保持音乐性。)到目前为止,我们贡献了跨模型表示学习模型,其中1)从音频提取和弦和旋律信息,2)从音频和损坏的地面真理安排中了解纹理表示。我们进一步介绍了定制的培训策略,逐渐将纹理信息的来源从损坏的分数转移到音频。最后,基于分数的纹理后部减少到标准的正态分布,并且只需要音频进行推断。实验表明,我们的模型捕获了主要音频信息和优于代质量的基线。
translated by 谷歌翻译