我们听到的每种声音都是连续的卷积操作的结果(例如,室内声学,麦克风特性,仪器本身的共振特性,更不用说声音复制系统的特征和局限性了)。在这项工作中,我们试图确定使用AI执行特定作品的最佳空间。此外,我们使用房间声学作为增强给定声音的感知品质的一种方式。从历史上看,房间(尤其是教堂和音乐厅)旨在主持和提供特定的音乐功能。在某些情况下,建筑声学品质增强了那里的音乐。我们试图通过指定房间冲动响应来模仿这一步骤,这些响应与为特定音乐产生增强的声音质量相关。首先,对卷积架构进行了培训,可以采用音频样本,并模仿各种仪器家族准确性约78%的专家的评分,并具有感知品质的笔记。这为我们提供了任何音频样本的评分功能,可以自动评分音符的感知愉悦度。现在,通过一个大约有60,000个合成冲动响应的库,模仿了各种房间,材料等,我们使用简单的卷积操作来改变声音,就好像它在特定的房间里播放一样。感知评估者用于对音乐声音进行排名,并产生“最佳房间或音乐厅”来播放声音。作为副产品,它还可以使用房间声学将质量差的声音变成“好”声音。
translated by 谷歌翻译
我们介绍了视觉匹配任务,其中音频剪辑被转换为听起来像是在目标环境中记录的。鉴于目标环境的图像和源音频的波形,目标是重新合成音频,以匹配目标室声音的可见几何形状和材料所建议的。为了解决这一新颖的任务,我们提出了一个跨模式变压器模型,该模型使用视听注意力将视觉属性注入音频并生成真实的音频输出。此外,我们设计了一个自我监督的训练目标,尽管他们缺乏声学上不匹配的音频,但可以从野外网络视频中学习声学匹配。我们证明,我们的方法成功地将人类的言语转化为图像中描绘的各种现实环境,表现优于传统的声学匹配和更严格的监督基线。
translated by 谷歌翻译
对音频信号的长期依赖性进行建模是一个特别具有挑战性的问题,因为即使是小型尺度的产量,也要在十万个样本上产生。随着变形金刚的最近出现,神经体系结构擅长于更长的时间尺度建模依赖性,但它们受到二次限制的限制来扩展它们。我们提出了一种生成的自动回归体系结构,该体系结构可以在相当大的上下文中对音频波形进行建模,超过500,000个样本。我们的工作适应了通过CNN前端学习潜在表示,然后使用变压器编码器,经过全面训练的端到端学习来学习时间依赖性:从而允许它认为适合于该表示的表示形式。下一个样本。与以前的作品比较了不同的时间量表以显示改进,我们使用标准数据集,具有相同数量的参数/上下文来显示改进。与其他方法相比,我们在标准数据集中实现了最先进的性能,例如WaveNet,Sashmi和Sample-RNN,用于建模长期结构。这项工作为该领域提供了非常令人兴奋的方向,鉴于上下文建模的改进,可以通过使用数十亿/万亿个参数来缩放更多数据,并可能更好地结果。
translated by 谷歌翻译
近年来,通过深层生成模型,音频合成的进展很大。但是,最新的很难量化。在报告结果时,不同的研究通常使用不同的评估方法和不同的指标,从而直接与其他系统进行比较,即使不是不可能。此外,在大多数情况下,报告指标的感知相关性和含义都未知,禁止对实际的可用性和音频质量的任何结论性见解。本文介绍了一项研究,该研究与(i)一组先前提出的用于音频重建的客观指标以及(ii)一项听力研究,研究了最先进的方法。结果表明,当前使用的客观指标不足以描述当前系统的感知质量。
translated by 谷歌翻译
Music discovery services let users identify songs from short mobile recordings. These solutions are often based on Audio Fingerprinting, and rely more specifically on the extraction of spectral peaks in order to be robust to a number of distortions. Few works have been done to study the robustness of these algorithms to background noise captured in real environments. In particular, AFP systems still struggle when the signal to noise ratio is low, i.e when the background noise is strong. In this project, we tackle this problematic with Deep Learning. We test a new hybrid strategy which consists of inserting a denoising DL model in front of a peak-based AFP algorithm. We simulate noisy music recordings using a realistic data augmentation pipeline, and train a DL model to denoise them. The denoising model limits the impact of background noise on the AFP system's extracted peaks, improving its robustness to noise. We further propose a novel loss function to adapt the DL model to the considered AFP system, increasing its precision in terms of retrieved spectral peaks. To the best of our knowledge, this hybrid strategy has not been tested before.
translated by 谷歌翻译
最近,对抗机器学习攻击对实用音频信号分类系统构成了严重的安全威胁,包括语音识别,说话者识别和音乐版权检测。先前的研究主要集中在确保通过在原始信号上产生类似小噪声的扰动来攻击音频信号分类器的有效性。目前尚不清楚攻击者是否能够创建音频信号扰动,除了其攻击效果外,人类还可以很好地看待。这对于音乐信号尤其重要,因为它们经过精心制作,具有可让人的音频特征。在这项工作中,我们将对音乐信号的对抗性攻击作为一种新的感知攻击框架,将人类研究纳入对抗性攻击设计中。具体而言,我们进行了一项人类研究,以量化人类对音乐信号的变化的看法。我们邀请人类参与者根据对原始和扰动的音乐信号对进行评分,并通过回归分析对人类感知过程进行反向工程,以预测给定信号的人类感知的偏差。然后将感知感知的攻击作为优化问题提出,该问题找到了最佳的扰动信号,以最大程度地减少对回归人类感知模型的感知偏差的预测。我们使用感知感知的框架来设计对YouTube版权探测器的现实对抗音乐攻击。实验表明,感知意识攻击会产生对抗性音乐的感知质量明显优于先前的工作。
translated by 谷歌翻译
双耳音频提供具有沉浸式空间声音体验的人类听众,但大多数现有视频缺乏双耳录音。我们提出了一种音频空间化方法,它借鉴视频中的视觉信息,以将其单声道(单通道)音频转换为双耳音频。现有方法利用直接从视频帧提取的可视化功能,我们的方法明确地解除了视觉流中存在的几何线索以指导学习过程。特别是,我们开发了一种多任务框架,通过考虑底层室脉冲响应,从而为底层室的脉冲响应而学习几何感知功能,从声音源的位置,以及声音几何形状的一致性随着时间的推移。此外,我们介绍了一个新的大型视频数据集,具有逼真的双链条音频,用于真实世界扫描环境。在两个数据集上,我们展示了我们方法的功效,这实现了最先进的结果。
translated by 谷歌翻译
We present a novel approach to improve the performance of learning-based speech dereverberation using accurate synthetic datasets. Our approach is designed to recover the reverb-free signal from a reverberant speech signal. We show that accurately simulating the low-frequency components of Room Impulse Responses (RIRs) is important to achieving good dereverberation. We use the GWA dataset that consists of synthetic RIRs generated in a hybrid fashion: an accurate wave-based solver is used to simulate the lower frequencies and geometric ray tracing methods simulate the higher frequencies. We demonstrate that speech dereverberation models trained on hybrid synthetic RIRs outperform models trained on RIRs generated by prior geometric ray tracing methods on four real-world RIR datasets.
translated by 谷歌翻译
我们介绍了Soundspaces 2.0,这是一个用于3D环境的基于几何的音频渲染的平台。考虑到现实世界环境的3D网格,Soundspaces可以为从任意麦克风位置捕获的任意声音生成高度逼真的声音。它与现有的3D视觉资产一起支持一系列视听研究任务,例如视听导航,映射,源定位和分离以及声学匹配。与现有资源相比,Soundspaces 2.0具有允许连续的空间采样,对新型环境的概括以及可配置的麦克风和材料属性的优点。据我们所知,这是第一个基于几何的声学模拟,它提供了高忠诚和现实主义,同时也足够快地用于体现学习。我们展示了模拟器的属性,并根据现实世界的音频测量进行了基准性能。此外,通过涵盖具体导航和远场自动语音识别的两个下游任务,突出了后者的SIM2REAL性能。 Soundspaces 2.0可公开使用,以促进对感知系统的更广泛研究,这些系统既可以看到和听到。
translated by 谷歌翻译
处理感官输入的机器学习系统的兴起使人与机器感知之间的比较有所增加。但是,这种比较面临着一个挑战:尽管机器对某些刺激的感知通常可以通过直接和明确的措施来探讨,但人类知识的大部分知识是潜在的,不完整的或不可用的。在这里,我们探讨了这种不对称性如何导致这种比较误解人类和机器感知的重叠。作为一个案例研究,我们考虑了人类对\ textit {对抗性语音}的感知 - 合成音频命令被自动语音识别系统识别为有效消息,但据报道,人类听众听到了无意义的噪音。在五个实验中,我们适应了人类心理物理学文献的任务设计,以表明即使受试者无法自由地抄写此类语音命令(以前的人类理解基准),他们也可以表现出其他形式的理解,包括从紧密匹配的对抗性语言中歧视对抗性演讲非语音(实验1--2),在对抗性语音(实验3--4)中开始完成的常见短语,并解决了对抗性语音中提出的简单数学问题(实验5) - 即使对于先前被描述为人类无法理解的刺激听众。我们建议在比较人类和机器感知时采用这种“敏感测试”,并讨论评估系统之间重叠的这种方法的更广泛的后果。
translated by 谷歌翻译
我们建议使用听觉皮层的计算模型作为防范对抗对音频的对抗攻击。我们将基于白盒迭代优化的对抗攻击应用于Amazon Alexa的HW网络的实施,以及具有集成皮质表示的网络的修改版本,并显示皮质功能有助于防御普遍的对抗示例。在相同的扭曲水平时,为皮质网络发现的对手噪声总是对通用音频攻击的效果效果效果。我们在HTTPS://github.com/ilyakava/py3fst上公开提供我们的代码。
translated by 谷歌翻译
自然和人工试镜原则上可以为给定问题获取不同的解决方案。然而,任务的限制可以推动试镜的认知科学和工程学对定性融合,这表明更仔细的相互检查将改善人工听力系统和思维和大脑的过程模型。语音识别 - 这种探索成熟的领域 - 在人类中对各种光谱粒度的数字转换本质上是强大的。这些鲁棒性概况在多大程度上由高性能的神经网络系统解释?我们将单个合成框架的语音识别实验汇总在一起,以评估最新的神经网络作为可刺激的,优化的观察者。在一系列实验中,我们(1)阐明了文献中的影响力彼此之间的影响力如何以及与自然语音相关,(2)显示了机器表现出颗粒的粒度,在人类中表现出分布范围的稳健性,在人类中繁殖了经典的感知现象。 ,(3)确定人类绩效预测的模型预测的特定条件,(4)证明了所有人造系统在感知上恢复人类所做的关键失败,这暗示了理论和模型建设的替代方向。这些发现鼓励了认知科学和试听工程之间的协同作用。
translated by 谷歌翻译
现代数字音乐的制作通常涉及将许多声学元素组合在一起以编译音乐。此类元素的重要类型是鼓样品,它们决定了该作品的打击乐成分的特性。艺术家必须使用其审美判断来评估给定的鼓样本是否适合当前的音乐背景。但是,从潜在的大图书馆中选择鼓样品是乏味的,可能会中断创意流程。在这项工作中,我们根据从数据中学到的美学原理探索自动鼓样品检索。结果,艺术家可以通过在制作过程的不同阶段(即适合不完整的歌曲混音)来对其图书馆中的样本进行排名。为此,我们使用对比度学习来最大程度地提高源自与混合物同一歌曲的鼓样品的分数。我们进行了听力测试,以确定人类评分是否与自动评分函数匹配。我们还进行客观的定量分析以评估方法的功效。
translated by 谷歌翻译
音频是人类交流最常用的方式之一,但与此同时,它很容易被欺骗人们滥用。随着AI的革命,几乎每个人都可以访问相关技术,从而使罪犯犯罪和伪造变得简单。在这项工作中,我们引入了一种深度学习方法,以开发一种分类器,该分类器将盲目地将输入音频分类为真实或模仿。提出的模型接受了从大型音频数据集提取的一组重要功能的培训,以获取分类器,该分类器已在不同音频的相同功能上进行了测试。为这项工作创建了两个数据集;所有英语数据集和混合数据集(阿拉伯语和英语)。这些数据集已通过GitHub提供,可在https://github.com/sass7/dataset上使用研究社区。为了进行比较,还通过人类检查对音频进行了分类,主题是母语人士。随之而来的结果很有趣,并且表现出强大的精度。
translated by 谷歌翻译
我们审查当前的解决方案和技术挑战,以实现自动语音识别,关键字发现,设备仲裁,语音增强和在多边形家庭环境中的来源本地化,以为Interspeech 2022特别会议提供背景,“信号处理和机器学习的挑战和机器,用于多个智能设备”。我们还确定了支持这些研究领域所需的数据集。根据评论和我们在多设备领域的研究经验,我们以对未来进化的前景结论
translated by 谷歌翻译
合成器是一种电子乐器,现在已在现代音乐制作和声音设计中广泛使用。合成器的每个参数配置都会产生独特的音色,可以看作是独特的仪器。估计一组最能恢复声音音色的参数配置的问题是一个重要但复杂的问题,即:合成器参数估计问题。我们提出了一个基于多模式的深度学习管道Sound2syth,以及一个专门设计用于解决此问题的网络结构原始卷积(PDC)。我们的方法不仅实现了SOTA,而且还获得了第一个现实世界中的第一个适用于Dexed合成器(一种流行的FM合成器)。
translated by 谷歌翻译
音频数据增强是培训深度神经网络以解决音频分类任务的关键步骤。在本文中,我们在Matlab中引入了一个新型音频数据增强库的录音机。我们为RAW音频数据提供了15种不同的增强算法,8用于频谱图。我们有效地实施了几种增强技术,其有用性在文献中被广泛证明。据我们所知,这是最大的Matlab音频数据增强图书馆可自由使用。我们验证了我们在ESC-50数据集上评估它们的算法的效率。可以在https://github.com/lorisnanni/audiogmenter下载工具箱及其文档。
translated by 谷歌翻译
深度学习技术的发展极大地促进了自动语音识别(ASR)技术的性能提高,该技术证明了在许多任务中与人类听力相当的能力。语音接口正变得越来越广泛地用作许多应用程序和智能设备的输入。但是,现有的研究表明,DNN很容易受到轻微干扰的干扰,并且会出现错误的识别,这对于由声音控制的智能语音应用非常危险。
translated by 谷歌翻译
音乐表达需要控制播放的笔记,以及如何执行它们。传统的音频合成器提供了详细的表达控制,但以现实主义的成本提供了详细的表达控制。黑匣子神经音频合成和连接采样器可以产生现实的音频,但有很少的控制机制。在这项工作中,我们介绍MIDI-DDSP乐器的分层模型,可以实现现实的神经音频合成和详细的用户控制。从可解释的可分辨率数字信号处理(DDSP)合成参数开始,我们推断出富有表现力性能的音符和高级属性(例如Timbre,Vibrato,Dynamics和Asticiculation)。这将创建3级层次结构(注释,性能,合成),提供个人选择在每个级别进行干预,或利用培训的前沿(表现给出备注,综合赋予绩效)进行创造性的帮助。通过定量实验和聆听测试,我们证明了该层次结构可以重建高保真音频,准确地预测音符序列的性能属性,独立地操纵给定性能的属性,以及作为完整的系统,从新颖的音符生成现实音频顺序。通过利用可解释的层次结构,具有多个粒度的粒度,MIDI-DDSP将门打开辅助工具的门,以赋予各种音乐体验的个人。
translated by 谷歌翻译
宽带音频波形评估网络(Wawenets)是直接在宽带音频波形上运行的卷积神经网络,以便对这些波形进行评估。在目前的工作中,这些评估赋予了电信语音的素质(例如嘈杂,清晰度,整体语音质量)。 Wawenets是无引用网络,因为它们不需要他们评估的波形的``参考''(原始或未经证实的)版本。我们最初的Wawenet出版物引入了四个Wawenets,并模拟了已建立的全参考语音质量或清晰度估计算法的输出。我们已经更新了Wawenet架构,以提高效率和有效性。在这里,我们提出了一个密切跟踪七个不同质量和可理解性值的单一Wawenet。我们创建了第二个网络,该网络还跟踪四个主观语音质量维度。我们提供第三个网络,专注于公正的质量分数并达到很高的共识。这项工作用13种语言利用了334小时的演讲,超过200万个全参考目标值和超过93,000个主观意见分数。我们还解释了Wawenets的操作,并使用信号处理的语言确定其操作的关键:Relus从战略上将光谱信息从非DC组件移动到DC组件中。 96输出信号的直流值在96-D潜在空间中定义了一个向量,然后将该向量映射到输入波形的质量或清晰度值。
translated by 谷歌翻译