我们建议在散射转换网络(STN)中使用广义的摩尔斯小波(GMW),而不是常用的莫雷特(或Gabor)小波,我们称之为GMW-STN,用于信号分类问题。GMWS形成了真正分析波的参数化家族,而Morlet小波仅近似分析。STN中潜在小波过滤器的分析性对于非组织振荡信号(例如音乐信号)尤为重要,因为它通过提供多尺度振幅和相位(以及导致输入信号的频率)信息来提高STN表示的可解释性。我们使用所谓的GTZAN数据库证明了GMW-STN比传统STN的优越性。此外,我们通过将其层数增加到典型的两层STN的三层,以显示GMW-STN的性能提高。}
translated by 谷歌翻译
A wavelet scattering network computes a translation invariant image representation, which is stable to deformations and preserves high frequency information for classification. It cascades wavelet transform convolutions with non-linear modulus and averaging operators. The first network layer outputs SIFT-type descriptors whereas the next layers provide complementary invariant information which improves classification. The mathematical analysis of wavelet scattering networks explain important properties of deep convolution networks for classification.A scattering representation of stationary processes incorporates higher order moments and can thus discriminate textures having same Fourier power spectrum. State of the art classification results are obtained for handwritten digits and texture discrimination, with a Gaussian kernel SVM and a generative PCA classifier.
translated by 谷歌翻译
联合时频散射(JTFS)是时频域中的卷积算子,以各种速率和尺度提取光谱调制。它提供了原发性听觉皮层中光谱接收场(STRF)的理想化模型,因此可以作为孤立音频事件规模的人类感知判断的生物学合理替代物。然而,JTFS和STRF的先前实现仍然不在音频生成的知觉相似性度量和评估方法的标准工具包中。我们将此问题追溯到三个局限性:不同的性能,速度和灵活性。在本文中,我们提出了Python中时间频率散射的实现。与先前的实现不同,我们的将Numpy,Pytorch和Tensorflow作为后端可容纳,因此可以在CPU和GPU上移植。我们通过三个应用说明了JTF的有用性:光谱调制的无监督流形学习,乐器的监督分类以及生物声音的质地重新合成。
translated by 谷歌翻译
音频或视觉数据分析任务通常必须处理高维和非负信号。然而,当数据具有多维数减少预处理时,大多数数据分析方法遭受过度拟合和数值问题。此外,关于如何以及为什么滤波器为音频或可视应用的方式工作是所需的属性,特别是当涉及能量或频谱信号时。在这些情况下,由于这些信号的性质,滤波器重量的非承诺是所需的性质,以更好地理解其工作。由于这两个必需品,我们提出了不同的方法来减少数据的维度,而保证溶液的非承诺和可解释性。特别是,我们提出了一种广义方法,以在处理非负数据的应用程序中以监督方式设计过滤器银行,并且我们探讨了解决所提出的目标函数的不同方式,包括非负面的部分最小二乘法的非负图。我们分析了通过拟议的两种不同和广泛研究的应用方法获得的特征的辨别力:纹理和音乐类型分类。此外,我们比较我们的方法实现的滤波器银行,具体设计用于特征提取的其他最先进的方法。
translated by 谷歌翻译
从随机字段或纹理中提取信息是科学中无处不在的任务,从探索性数据分析到分类和参数估计。从物理学到生物学,它往往通过功率谱分析来完成,这通常过于有限,或者使用需要大型训练的卷积神经网络(CNNS)并缺乏解释性。在本文中,我们倡导使用散射变换(Mallat 2012),这是一种强大的统计数据,它来自CNNS的数学思想,但不需要任何培训,并且是可解释的。我们表明它提供了一种相对紧凑的汇总统计数据,具有视觉解释,并在广泛的科学应用中携带大多数相关信息。我们向该估算者提供了非技术性介绍,我们认为它可以使数据分析有利于多种科学领域的模型和参数推断。有趣的是,了解散射变换的核心操作允许人们解读CNN的内部工作的许多关键方面。
translated by 谷歌翻译
传统的脑电脑接口(BCI)需要在使用之前为每个用户提供完整的数据收集,训练和校准阶段。近年来,已经开发了许多主题独立的(SI)BCI。与受试者依赖性(SD)方法相比,这些方法中的许多方法产生较弱的性能,有些方法是计算昂贵的。潜在的真实世界应用程序将极大地受益于更准确,紧凑,并计算高效的主题的BCI。在这项工作中,我们提出了一个名为CCSPNET(卷积公共空间模式网络)的新型主题独立的BCI框架,该框架被训练在大型脑电图(EEG)信号数据库中的电动机图像(MI)范例上,由400个试验组成每54名科目执行两班手机MI任务。所提出的框架应用小波核卷积神经网络(WKCNN)和时间卷积神经网络(TCNN),以表示和提取EEG信号的光谱特征。对于空间特征提取来实现公共空间模式(CSP)算法,并且通过密集的神经网络减少了CSP特征的数量。最后,类标签由线性判别分析(LDA)分类器确定。 CCSPNET评估结果表明,可以具有紧凑的BCI,可实现与复杂和计算昂贵的模型相当的SD和SI最先进的性能。
translated by 谷歌翻译
音乐学家使用各种标签在共享标题下对类似的音乐方式进行分类。但是,非专家可以用不同的方式对音乐进行分类。这可能是通过调节和谐,仪器和音乐形式的模式。人们通常通过听力来识别音乐类型,但现在计算机和人工智能(AI)可以自动化此过程。最近在音乐类型分类中申请AI的工作已经不断增长,但没有证据表明对库尔德音乐类型的研究。在这项研究中,我们开发了一个数据集,其中包含880个来自八个不同的库尔德音乐类型的样本。我们评估了两种机器学习方法,深神经网络(DNN)和卷积神经网络(CNN),以识别类型。结果表明,CNN模型通过实现92%而与90%的精度相比优于DNN。
translated by 谷歌翻译
由于对音乐流媒体/推荐服务的需求增加以及音乐信息检索框架的最新发展,音乐流派分类(MGC)引起了社区的关注。但是,已知基于卷积的方法缺乏有效编码和定位时间特征的能力。在本文中,我们研究了基于广播的神经网络,旨在提高一小部分参数(约180k)下的本地化和概括性,并研究了12个广播网络的变体,讨论了块配置,汇总方法,激活功能,归一化的效果机理,标签平滑,通道相互依赖性,LSTM块包含和成立方案的变体。我们使用相关数据集进行的计算实验,例如GTZAN,扩展宴会厅,Homburg和Free Music Archive(FMA),显示了音乐流派分类中最新的分类精度。我们的方法提供了洞察力,并有可能使音乐和音频分类启用紧凑且可推广的广播网络。
translated by 谷歌翻译
基于EEG的基于EEG的情感识别(EEG-ER)与消费者级EEG器件涉及使用减少数量的通道进行语调。这些设备通常仅提供四个或五个通道,与通常在最新的最先进的研究中通常使用的大量信道(32或更多)不同。在这项工作中,我们建议使用离散小波变换(DWT)来提取时间频域特征,并且我们使用几秒钟的时间窗口来执行EEG-ER分类。该技术可以实时使用,而不是在HOC上完成完整会话数据。我们还应用了在现有研究中开发的基线拆卸预处理,以我们提出的DWT熵和能量特征,这显着提高了分类精度。我们考虑两个不同的分类器架构,一个3D卷积神经网络(3D CNN)和支持向量机(SVM)。我们在主题和主题依赖设置上评估两个模型,以分类个人情绪状态的价值和唤醒维度。我们在Deap DataSet提供的完整32通道数据上测试它们,以及相同数据集的减少的5通道提取物。 SVM模型在所有呈现的场景上表现最佳,在唤起完整的32通道主题案例的唤醒时,在价值上实现95.32%的精度,95.68%,以前的实时EEG-EEG-EEG-EEG-EEG对象依赖性基准。在独立的案例上,还获得了80.70%的准确度,唤醒的唤醒器中的81.41%。将输入数据减少到5个通道仅在所有场景中平均降低3.54%,这使得该型号适合使用更可访问的低端EEG器件。
translated by 谷歌翻译
几何深度学习取得了长足的进步,旨在概括从传统领域到非欧几里得群岛的结构感知神经网络的设计,从而引起图形神经网络(GNN),这些神经网络(GNN)可以应用于形成的图形结构数据,例如社会,例如,网络,生物化学和材料科学。尤其是受欧几里得对应物的启发,尤其是图形卷积网络(GCN)通过提取结构感知功能来成功处理图形数据。但是,当前的GNN模型通常受到各种现象的限制,这些现象限制了其表达能力和推广到更复杂的图形数据集的能力。大多数模型基本上依赖于通过本地平均操作对图形信号的低通滤波,从而导致过度平滑。此外,为了避免严重的过度厚度,大多数流行的GCN式网络往往是较浅的,并且具有狭窄的接收场,导致侵犯。在这里,我们提出了一个混合GNN框架,该框架将传统的GCN过滤器与通过几何散射定义的带通滤波器相结合。我们进一步介绍了一个注意框架,该框架允许该模型在节点级别上从不同过滤器的组合信息进行本地参与。我们的理论结果确定了散射过滤器的互补益处,以利用图表中的结构信息,而我们的实验显示了我们方法对各种学习任务的好处。
translated by 谷歌翻译
小波散射变换创造了几何不变和变形稳定性。在多个信号域中,与其他非学习表示形式相比,它可以产生更多的判别性表示,并且在某些任务中,尤其是在有限的标记数据和高度结构化的信号中,它都超越了学习的表示。通常选择散射转换中使用的小波过滤器,以通过参数化的母小波创建紧密的框架。在这项工作中,我们研究了这种标准的小波滤网构造是否最佳。为了关注Morlet小波,我们建议学习过滤器的量表,方向和纵横比,以产生散射变换的特定问题参数化。我们表明,我们学到的散射转换版本在标准散射变换上在小样本分类设置中产生了显着的性能增长。此外,我们的经验结果表明,传统的滤纸结构对于提取有效表示的散射转换可能并不总是必要的。
translated by 谷歌翻译
高频(HF)信号在工业世界中普遍存在,对于监测工业资产具有很大的用途。大多数深度学习工具都是针对固定和/或非常有限的尺寸的输入和深入学习的许多成功应用,因为输入的工业情境使用作为输入的提取特征,这是手动和通常艰苦地获得原始信号的紧凑型表示。在本文中,我们提出了一个完全无监督的深度学习框架,能够提取原始HF信号的有意义和稀疏表示。我们嵌入了我们的架构的快速离散小波变换(FDWT)的重要属性,如(1)级联算法,(2)将小波,缩放和转换滤波器功能链接在一起的共轭正交过滤器属性,以及(3)系数去噪。使用深度学习,我们使这座架构完全学习:小波基座和小波系数去噪都是可知的。为实现这一目标,我们提出了一种新的激活函数,该激活函数执行小波系数的学习硬阈值。通过我们的框架,Denoising FDWT成为一个完全学习的无监督工具,既不需要任何类型的预处理,也不需要任何关于小波变换的先前知识。我们展示了在在开源声音数据集上执行的三种机器学习任务中嵌入所有这些属性的好处。我们对每个物业对架构的性能的影响进行了消融研究,达到了基线高于基线的结果和其他最先进的方法。
translated by 谷歌翻译
我们提出了一个新的图神经网络(GNN)模块,该模块基于最近提出的几何散射变换的松弛,该变换由图形小波滤波器组成。我们可学习的几何散射(腿)模块可以使小波的自适应调整能够鼓励乐队通道特征在学习的表示中出现。与许多流行的GNN相比,我们的腿部模块在GNN中的结合能够学习长期图形关系,这些GNN通常依赖于邻居之间的平滑度或相似性来编码图形结构。此外,与竞争性GNN相比,其小波先验会导致简化的架构,学到的参数明显少得多。我们证明了基于腿的网络在图形分类基准上的预测性能,以及在生化图数据探索任务中学到的功能的描述性质量。我们的结果表明,基于腿部的网络匹配或匹配流行的GNN,以及在许多数据集上,尤其是在生化域中的原始几何散射结构,同时保留了手工制作的(非学习)几何散射的某些数学特性。
translated by 谷歌翻译
We propose a novel antialiasing method to increase shift invariance in convolutional neural networks (CNNs). More precisely, we replace the conventional combination "real-valued convolutions + max pooling" ($\mathbb R$Max) by "complex-valued convolutions + modulus" ($\mathbb C$Mod), which produce stable feature representations for band-pass filters with well-defined orientations. In a recent work, we proved that, for such filters, the two operators yield similar outputs. Therefore, $\mathbb C$Mod can be viewed as a stable alternative to $\mathbb R$Max. To separate band-pass filters from other freely-trained kernels, in this paper, we designed a "twin" architecture based on the dual-tree complex wavelet packet transform, which generates similar outputs as standard CNNs with fewer trainable parameters. In addition to improving stability to small shifts, our experiments on AlexNet and ResNet showed increased prediction accuracy on natural image datasets such as ImageNet and CIFAR10. Furthermore, our approach outperformed recent antialiasing methods based on low-pass filtering by preserving high-frequency information, while reducing memory usage.
translated by 谷歌翻译
With the substantial performance of neural networks in sensitive fields increases the need for interpretable deep learning models. Major challenge is to uncover the multiscale and distributed representation hidden inside the basket mappings of the deep neural networks. Researchers have been trying to comprehend it through visual analysis of features, mathematical structures, or other data-driven approaches. Here, we work on implementation invariances of CNN-based representations and present an analytical binary prototype that provides useful insights for large scale real-life applications. We begin by unfolding conventional CNN and then repack it with a more transparent representation. Inspired by the attainment of neural networks, we choose to present our findings as a three-layer model. First is a representation layer that encompasses both the class information (group invariant) and symmetric transformations (group equivariant) of input images. Through these transformations, we decrease intra-class distance and increase the inter-class distance. It is then passed through a dimension reduction layer followed by a classifier. The proposed representation is compared with the equivariance of AlexNet (CNN) internal representation for better dissemination of simulation results. We foresee following immediate advantages of this toy version: i) contributes pre-processing of data to increase the feature or class separability in large scale problems, ii) helps designing neural architecture to improve the classification performance in multi-class problems, and iii) helps building interpretable CNN through scalable functional blocks.
translated by 谷歌翻译
在本文中,我们通过整合具有离散的傅立叶变换(DFT)的复杂值和实值卷积神经网络(CNN)来提出一个新的EEG信号分类框架。所提出的神经网络架构由一个复杂值的卷积层,两个实值卷积层和三个完全连接的层组成。我们的方法可以有效利用DFT中包含的相信息。我们使用两个模拟的EEG信号和一个基准数据集验证我们的方法,并将其与两个广泛使用的框架进行比较。与对基准数据集进行分类的现有方法相比,我们的方法大大减少了所使用的参数的数量并提高了准确性,并显着提高了对模拟的EEG信号进行分类的性能。
translated by 谷歌翻译
目的:提出使用深神经网络(DNN)的新型SSVEP分类方法,提高单通道和用户独立的脑电电脑接口(BCIS)的性能,具有小的数据长度。方法:我们建议与DNN结合使用过滤器组(创建EEG信号的子带分量)。在这种情况下,我们创建了三种不同的模型:经常性的神经网络(FBRNN)分析时域,2D卷积神经网络(FBCNN-2D)处理复谱特征和3D卷积神经网络(FBCNN-3D)分析复杂谱图,我们在本研究中介绍了SSVEP分类的可能输入。我们通过开放数据集培训了我们的神经网络,并构思了它们,以便不需要从最终用户校准:因此,测试主题数据与训练和验证分开。结果:带滤波器银行的DNN超越了类似网络的准确性,在没有相当大的边距(高达4.6%)的情况下,它们甚至更高的边距(高达7.1%)超越了常见的SSVEP分类方法(SVM和FBCCA) 。在使用过滤器银行中的三个DNN中,FBRNN获得了最佳结果,然后是FBCNN-3D,最后由FBCNN-2D获得。结论和意义:滤波器银行允许不同类型的深神经网络,以更有效地分析SSVEP的谐波分量。复谱图比复杂频谱特征和幅度谱进行更多信息,允许FBCNN-3D超越另一个CNN。在具有挑战性的分类问题中获得的平均测试精度(87.3%)和F1分数(0.877)表示施工,经济,快速和低延迟BCIS建设的强大潜力。
translated by 谷歌翻译
在许多应用程序中,信号denoising通常是任何后续分析或学习任务之前的第一个预处理步骤。在本文中,我们建议采用受信号处理启发的深度学习denoising模型,这是一个可学习的小波数据包变换版本。所提出的算法具有很少的可解释参数的显着学习能力,并且具有直观的初始化。我们提出了对参数的学习后修改,以使denoising适应不同的噪声水平。我们评估了提出的方法在两个案例研究中的性能,并将其与其他最先进的方法进行比较,包括小波schrinkage denoising,卷积神经网络,自动编码器和U-NET深模型。第一个案例研究基于设计的功能,通常用于研究算法的降解性质。第二个案例研究是音频背景删除任务。我们演示了所提出的算法如何与信号处理方法的普遍性以及深度学习方法的学习能力有关。特别是,我们评估了在用于培训的课程内外的结构化噪声信号上获得的降解性能。除了在培训课程内部和外部具有良好的降级信号外,我们的方法还表明,当添加不同的噪声水平,噪声类型和工件时,我们的方法尤其强大。
translated by 谷歌翻译
近年来,FilterBank学习已成为各种音频相关机器学习任务的日益流行的策略。这部分是由于其发现可以在下游处理中利用的任务特定音频特性的能力。它也是用于解决各种音频应用的几乎普遍的深度学习方法的自然延伸。在这项工作中,研究了前端滤波器学习模块的若干变体进行钢琴转录,这是一个具有挑战性的低级音乐信息检索任务。我们建立在标准钢琴转录模型上,仅修改特征提取阶段。滤波器组件设计成使得其复杂过滤器是具有长接收领域的无限制的1D卷积核。额外的变化采用Hilbert变换以使滤波器本质上分析并应用变分差以促进滤波器稀疏性。在所有实验中比较转录结果,我们提供了对滤波器的可视化和分析。
translated by 谷歌翻译
One of the main challenges in electroencephalogram (EEG) based brain-computer interface (BCI) systems is learning the subject/session invariant features to classify cognitive activities within an end-to-end discriminative setting. We propose a novel end-to-end machine learning pipeline, EEG-NeXt, which facilitates transfer learning by: i) aligning the EEG trials from different subjects in the Euclidean-space, ii) tailoring the techniques of deep learning for the scalograms of EEG signals to capture better frequency localization for low-frequency, longer-duration events, and iii) utilizing pretrained ConvNeXt (a modernized ResNet architecture which supersedes state-of-the-art (SOTA) image classification models) as the backbone network via adaptive finetuning. On publicly available datasets (Physionet Sleep Cassette and BNCI2014001) we benchmark our method against SOTA via cross-subject validation and demonstrate improved accuracy in cognitive activity classification along with better generalizability across cohorts.
translated by 谷歌翻译