联合时频散射(JTFS)是时频域中的卷积算子,以各种速率和尺度提取光谱调制。它提供了原发性听觉皮层中光谱接收场(STRF)的理想化模型,因此可以作为孤立音频事件规模的人类感知判断的生物学合理替代物。然而,JTFS和STRF的先前实现仍然不在音频生成的知觉相似性度量和评估方法的标准工具包中。我们将此问题追溯到三个局限性:不同的性能,速度和灵活性。在本文中,我们提出了Python中时间频率散射的实现。与先前的实现不同,我们的将Numpy,Pytorch和Tensorflow作为后端可容纳,因此可以在CPU和GPU上移植。我们通过三个应用说明了JTF的有用性:光谱调制的无监督流形学习,乐器的监督分类以及生物声音的质地重新合成。
translated by 谷歌翻译
FM合成是一种众所周知的算法,用于从紧凑的设计原始素中生成复杂的音色。通常具有MIDI接口,通常是不切实际的,从音频源进行控制。另一方面,可区分的数字信号处理(DDSP)已通过深度神经网络(DNN)启用了细微的音频渲染,这些音频渲染学会了从任意声音输入中控制可区分的合成层。训练过程涉及一系列音频进行监督和光谱重建损失功能。这样的功能虽然非常适合匹配光谱振幅,但却存在缺乏俯仰方向,这可能会阻碍FM合成器参数的关节优化。在本文中,我们采取了步骤,从音频输入中连续控制良好的FM合成体系结构。首先,我们讨论一组设计约束,通过标准重建损失来简化可区分的FM合成器的光谱优化。接下来,我们介绍可区分的DX7(DDX7),这是一种轻巧的体系结构,可根据一组紧凑的参数来进行乐器声音的神经FM重新合成。我们在从URMP数据集中提取的仪器样品上训练该模型,并定量证明其针对选定基准测试的音频质量可比。
translated by 谷歌翻译
从随机字段或纹理中提取信息是科学中无处不在的任务,从探索性数据分析到分类和参数估计。从物理学到生物学,它往往通过功率谱分析来完成,这通常过于有限,或者使用需要大型训练的卷积神经网络(CNNS)并缺乏解释性。在本文中,我们倡导使用散射变换(Mallat 2012),这是一种强大的统计数据,它来自CNNS的数学思想,但不需要任何培训,并且是可解释的。我们表明它提供了一种相对紧凑的汇总统计数据,具有视觉解释,并在广泛的科学应用中携带大多数相关信息。我们向该估算者提供了非技术性介绍,我们认为它可以使数据分析有利于多种科学领域的模型和参数推断。有趣的是,了解散射变换的核心操作允许人们解读CNN的内部工作的许多关键方面。
translated by 谷歌翻译
小波散射变换创造了几何不变和变形稳定性。在多个信号域中,与其他非学习表示形式相比,它可以产生更多的判别性表示,并且在某些任务中,尤其是在有限的标记数据和高度结构化的信号中,它都超越了学习的表示。通常选择散射转换中使用的小波过滤器,以通过参数化的母小波创建紧密的框架。在这项工作中,我们研究了这种标准的小波滤网构造是否最佳。为了关注Morlet小波,我们建议学习过滤器的量表,方向和纵横比,以产生散射变换的特定问题参数化。我们表明,我们学到的散射转换版本在标准散射变换上在小样本分类设置中产生了显着的性能增长。此外,我们的经验结果表明,传统的滤纸结构对于提取有效表示的散射转换可能并不总是必要的。
translated by 谷歌翻译
A wavelet scattering network computes a translation invariant image representation, which is stable to deformations and preserves high frequency information for classification. It cascades wavelet transform convolutions with non-linear modulus and averaging operators. The first network layer outputs SIFT-type descriptors whereas the next layers provide complementary invariant information which improves classification. The mathematical analysis of wavelet scattering networks explain important properties of deep convolution networks for classification.A scattering representation of stationary processes incorporates higher order moments and can thus discriminate textures having same Fourier power spectrum. State of the art classification results are obtained for handwritten digits and texture discrimination, with a Gaussian kernel SVM and a generative PCA classifier.
translated by 谷歌翻译
我们建议在散射转换网络(STN)中使用广义的摩尔斯小波(GMW),而不是常用的莫雷特(或Gabor)小波,我们称之为GMW-STN,用于信号分类问题。GMWS形成了真正分析波的参数化家族,而Morlet小波仅近似分析。STN中潜在小波过滤器的分析性对于非组织振荡信号(例如音乐信号)尤为重要,因为它通过提供多尺度振幅和相位(以及导致输入信号的频率)信息来提高STN表示的可解释性。我们使用所谓的GTZAN数据库证明了GMW-STN比传统STN的优越性。此外,我们通过将其层数增加到典型的两层STN的三层,以显示GMW-STN的性能提高。}
translated by 谷歌翻译
合成器是一种电子乐器,现在已在现代音乐制作和声音设计中广泛使用。合成器的每个参数配置都会产生独特的音色,可以看作是独特的仪器。估计一组最能恢复声音音色的参数配置的问题是一个重要但复杂的问题,即:合成器参数估计问题。我们提出了一个基于多模式的深度学习管道Sound2syth,以及一个专门设计用于解决此问题的网络结构原始卷积(PDC)。我们的方法不仅实现了SOTA,而且还获得了第一个现实世界中的第一个适用于Dexed合成器(一种流行的FM合成器)。
translated by 谷歌翻译
传统上,音乐混合涉及以干净,单个曲目的形式录制乐器,并使用音频效果和专家知识(例如,混合工程师)将它们融合到最终混合物中。近年来,音乐制作任务的自动化已成为一个新兴领域,基于规则的方法和机器学习方法已被探索。然而,缺乏干燥或干净的仪器记录限制了这种模型的性能,这与专业的人造混合物相去甚远。我们探索是否可以使用室外数据,例如潮湿或加工的多轨音乐录音,并将其重新利用以训练有监督的深度学习模型,以弥合自动混合质量的当前差距。为了实现这一目标,我们提出了一种新型的数据预处理方法,该方法允许模型执行自动音乐混合。我们还重新设计了一种用于评估音乐混合系统的听力测试方法。我们使用经验丰富的混合工程师作为参与者来验证结果。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
高频(HF)信号在工业世界中普遍存在,对于监测工业资产具有很大的用途。大多数深度学习工具都是针对固定和/或非常有限的尺寸的输入和深入学习的许多成功应用,因为输入的工业情境使用作为输入的提取特征,这是手动和通常艰苦地获得原始信号的紧凑型表示。在本文中,我们提出了一个完全无监督的深度学习框架,能够提取原始HF信号的有意义和稀疏表示。我们嵌入了我们的架构的快速离散小波变换(FDWT)的重要属性,如(1)级联算法,(2)将小波,缩放和转换滤波器功能链接在一起的共轭正交过滤器属性,以及(3)系数去噪。使用深度学习,我们使这座架构完全学习:小波基座和小波系数去噪都是可知的。为实现这一目标,我们提出了一种新的激活函数,该激活函数执行小波系数的学习硬阈值。通过我们的框架,Denoising FDWT成为一个完全学习的无监督工具,既不需要任何类型的预处理,也不需要任何关于小波变换的先前知识。我们展示了在在开源声音数据集上执行的三种机器学习任务中嵌入所有这些属性的好处。我们对每个物业对架构的性能的影响进行了消融研究,达到了基线高于基线的结果和其他最先进的方法。
translated by 谷歌翻译
注释音乐节拍在繁琐的过程中是很长的。为了打击这个问题,我们为节拍跟踪和下拍估算提出了一种新的自我监督的学习借口任务。这项任务利用SPLEETER,一个音频源分离模型,将歌曲的鼓从其其余的信号分开。第一组信号用作阳性,并通过延长否定,用于对比学习预培训。另一方面,鼓的信号用作锚点。使用此借口任务进行全卷积和复发模型时,学习了一个开始功能。在某些情况下,发现此功能被映射到歌曲中的周期元素。我们发现,当一个节拍跟踪训练集非常小(少于10个示例)时,预先训练的模型随机初始化模型表现优于随机初始化的模型。当不是这种情况时,预先训练导致了一个学习速度,导致模型过度训练集。更一般地说,这项工作定义了音乐自我监督学习领域的新观点。尤其是使用音频源分离作为自我监督的基本分量的作品之一。
translated by 谷歌翻译
第五代(5G)网络和超越设想巨大的东西互联网(物联网)推出,以支持延长现实(XR),增强/虚拟现实(AR / VR),工业自动化,自主驾驶和智能所有带来的破坏性应用一起占用射频(RF)频谱的大规模和多样化的IOT设备。随着频谱嘎嘎和吞吐量挑战,这种大规模的无线设备暴露了前所未有的威胁表面。 RF指纹识别是预约的作为候选技术,可以与加密和零信任安全措施相结合,以确保无线网络中的数据隐私,机密性和完整性。在未来的通信网络中,在这项工作中,在未来的通信网络中的相关性,我们对RF指纹识别方法进行了全面的调查,从传统观点到最近的基于深度学习(DL)的算法。现有的调查大多专注于无线指纹方法的受限制呈现,然而,许多方面仍然是不可能的。然而,在这项工作中,我们通过解决信号智能(SIGINT),应用程序,相关DL算法,RF指纹技术的系统文献综述来缓解这一点,跨越过去二十年的RF指纹技术的系统文献综述,对数据集和潜在研究途径的讨论 - 必须以百科全书的方式阐明读者的必要条件。
translated by 谷歌翻译
音频合成中的时频(TF)表示已越来越多地通过实价网络建模。但是,忽略TF表示的复杂值的性质可能会导致次优性能,并且需要其他模块(例如,用于对阶段进行建模)。为此,我们介绍了称为Apollo的复杂价值的多项式网络,该网络以自然方式集成了这种复杂值的表示。具体而言,阿波罗使用高阶张量作为缩放参数捕获输入元件的高阶相关性。通过利用标准张量分解,我们得出了不同的体系结构并启用建模更丰富的相关性。我们概述了这样的体系结构,并在四个基准测试中展示了它们在音频发电中的性能。重点,阿波罗(Apollo)在音频生成中SC09数据集中的最先进的扩散模型比对抗方法的$ 17.5 \%$改进,而$ 8.2 \%$。我们的模型可以鼓励在复杂领域的其他高效体系结构进行系统的设计。
translated by 谷歌翻译
我们研究了在不利环境中学习强大声学模型的问题,其特征是训练和测试条件之间存在显着不匹配。这个问题对于需要在看不见的环境中表现良好的语音识别系统的部署至关重要。首先,我们从理论上将数据增强表征为笼子风险最小化的实例,该实例旨在通过替换在输入空间上定义经验密度的三角洲函数来改善培训期间的风险估计,并具有近似值的近似值。培训样品。更具体地说,我们假设可以使用高斯人的混合物来近似以训练样品为中心的当地社区,并从理论上证明这可以将强大的电感偏置纳入学习过程。然后,我们通过数据增强方案隐式地指定各个混合物组件,旨在解决声学模型中伪造相关性的常见来源。为了避免由于信息丢失而引起的鲁棒性的潜在混杂影响,这与标准特征提取技术(例如Fbank和MFCC功能)有关,我们重点关注基于波形的设置。我们的经验结果表明,该方法可以推广到看不见的噪声条件,与使用标准风险最小化原则进行训练相比,分布外概括的相对改善150%。此外,结果证明了相对于使用旨在匹配测试话语特征的训练样本的模型,相对于模型的竞争性能。
translated by 谷歌翻译
Vocoders是能够将音频信号(通常是MEL频谱图)转换为波形的低维光谱表示。现代语音生成管道使用Vocoder作为其最终组成部分。最近为语音开发的Vocoder模型实现了高度的现实主义,因此自然想知道它们在音乐信号上的表现。与言语相比,音乐声纹理的异质性和结构提供了新的挑战。在这项工作中,我们专注于一种专为语音设计的Vocoder模型在应用于音乐时倾向于展示的一种特定工件:合成持续的音符时的俯仰不稳定性。我们认为,该伪像的特征声音是由于缺乏水平相一致性,这通常是由于使用时间域目标空间与跨度班的模型(例如卷积神经网络)不变的结果。我们提出了专门为音乐设计的新型Vocoder模型。提高音高稳定性的关键是选择由幅度频谱和相位梯度组成的移位不变的目标空间。我们讨论了启发我们重新构建Vocoder任务的原因,概述一个工作示例,并在音乐信号上进行评估。我们的方法使用新颖的谐波误差度量标准,导致60%和10%的改善了相对于现有模型的持续音符和和弦的重建。
translated by 谷歌翻译
几何深度学习取得了长足的进步,旨在概括从传统领域到非欧几里得群岛的结构感知神经网络的设计,从而引起图形神经网络(GNN),这些神经网络(GNN)可以应用于形成的图形结构数据,例如社会,例如,网络,生物化学和材料科学。尤其是受欧几里得对应物的启发,尤其是图形卷积网络(GCN)通过提取结构感知功能来成功处理图形数据。但是,当前的GNN模型通常受到各种现象的限制,这些现象限制了其表达能力和推广到更复杂的图形数据集的能力。大多数模型基本上依赖于通过本地平均操作对图形信号的低通滤波,从而导致过度平滑。此外,为了避免严重的过度厚度,大多数流行的GCN式网络往往是较浅的,并且具有狭窄的接收场,导致侵犯。在这里,我们提出了一个混合GNN框架,该框架将传统的GCN过滤器与通过几何散射定义的带通滤波器相结合。我们进一步介绍了一个注意框架,该框架允许该模型在节点级别上从不同过滤器的组合信息进行本地参与。我们的理论结果确定了散射过滤器的互补益处,以利用图表中的结构信息,而我们的实验显示了我们方法对各种学习任务的好处。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
Many scientific fields study data with an underlying structure that is a non-Euclidean space. Some examples include social networks in computational social sciences, sensor networks in communications, functional networks in brain imaging, regulatory networks in genetics, and meshed surfaces in computer graphics. In many applications, such geometric data are large and complex (in the case of social networks, on the scale of billions), and are natural targets for machine learning techniques. In particular, we would like to use deep neural networks, which have recently proven to be powerful tools for a broad range of problems from computer vision, natural language processing, and audio analysis. However, these tools have been most successful on data with an underlying Euclidean or grid-like structure, and in cases where the invariances of these structures are built into networks used to model them.Geometric deep learning is an umbrella term for emerging techniques attempting to generalize (structured) deep neural models to non-Euclidean domains such as graphs and manifolds. The purpose of this paper is to overview different examples of geometric deep learning problems and present available solutions, key difficulties, applications, and future research directions in this nascent field.
translated by 谷歌翻译
近年来,FilterBank学习已成为各种音频相关机器学习任务的日益流行的策略。这部分是由于其发现可以在下游处理中利用的任务特定音频特性的能力。它也是用于解决各种音频应用的几乎普遍的深度学习方法的自然延伸。在这项工作中,研究了前端滤波器学习模块的若干变体进行钢琴转录,这是一个具有挑战性的低级音乐信息检索任务。我们建立在标准钢琴转录模型上,仅修改特征提取阶段。滤波器组件设计成使得其复杂过滤器是具有长接收领域的无限制的1D卷积核。额外的变化采用Hilbert变换以使滤波器本质上分析并应用变分差以促进滤波器稀疏性。在所有实验中比较转录结果,我们提供了对滤波器的可视化和分析。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译