从机器学习的角度来看,当前的语音识别体系结构的表现非常出色,因此用户互动。这表明他们很好地模拟了人类生物系统。我们调查是否可以颠倒推论以提供对该生物系统的见解。特别是听力机制。使用SINCNET,我们确认端到端系统确实学习了众所周知的滤纸结构。但是,我们还表明,在学习结构中,更宽的带宽过滤器很重要。虽然可以通过初始化狭窄和宽带过滤器来获得一些好处,但生理上的限制表明,这种过滤器是在中脑而不是耳蜗中出现的。我们表明,必须修改标准的机器学习体系结构,以允许神经模拟此过程。
translated by 谷歌翻译
目的:提出使用深神经网络(DNN)的新型SSVEP分类方法,提高单通道和用户独立的脑电电脑接口(BCIS)的性能,具有小的数据长度。方法:我们建议与DNN结合使用过滤器组(创建EEG信号的子带分量)。在这种情况下,我们创建了三种不同的模型:经常性的神经网络(FBRNN)分析时域,2D卷积神经网络(FBCNN-2D)处理复谱特征和3D卷积神经网络(FBCNN-3D)分析复杂谱图,我们在本研究中介绍了SSVEP分类的可能输入。我们通过开放数据集培训了我们的神经网络,并构思了它们,以便不需要从最终用户校准:因此,测试主题数据与训练和验证分开。结果:带滤波器银行的DNN超越了类似网络的准确性,在没有相当大的边距(高达4.6%)的情况下,它们甚至更高的边距(高达7.1%)超越了常见的SSVEP分类方法(SVM和FBCCA) 。在使用过滤器银行中的三个DNN中,FBRNN获得了最佳结果,然后是FBCNN-3D,最后由FBCNN-2D获得。结论和意义:滤波器银行允许不同类型的深神经网络,以更有效地分析SSVEP的谐波分量。复谱图比复杂频谱特征和幅度谱进行更多信息,允许FBCNN-3D超越另一个CNN。在具有挑战性的分类问题中获得的平均测试精度(87.3%)和F1分数(0.877)表示施工,经济,快速和低延迟BCIS建设的强大潜力。
translated by 谷歌翻译
近年来,FilterBank学习已成为各种音频相关机器学习任务的日益流行的策略。这部分是由于其发现可以在下游处理中利用的任务特定音频特性的能力。它也是用于解决各种音频应用的几乎普遍的深度学习方法的自然延伸。在这项工作中,研究了前端滤波器学习模块的若干变体进行钢琴转录,这是一个具有挑战性的低级音乐信息检索任务。我们建立在标准钢琴转录模型上,仅修改特征提取阶段。滤波器组件设计成使得其复杂过滤器是具有长接收领域的无限制的1D卷积核。额外的变化采用Hilbert变换以使滤波器本质上分析并应用变分差以促进滤波器稀疏性。在所有实验中比较转录结果,我们提供了对滤波器的可视化和分析。
translated by 谷歌翻译
从随机字段或纹理中提取信息是科学中无处不在的任务,从探索性数据分析到分类和参数估计。从物理学到生物学,它往往通过功率谱分析来完成,这通常过于有限,或者使用需要大型训练的卷积神经网络(CNNS)并缺乏解释性。在本文中,我们倡导使用散射变换(Mallat 2012),这是一种强大的统计数据,它来自CNNS的数学思想,但不需要任何培训,并且是可解释的。我们表明它提供了一种相对紧凑的汇总统计数据,具有视觉解释,并在广泛的科学应用中携带大多数相关信息。我们向该估算者提供了非技术性介绍,我们认为它可以使数据分析有利于多种科学领域的模型和参数推断。有趣的是,了解散射变换的核心操作允许人们解读CNN的内部工作的许多关键方面。
translated by 谷歌翻译
鉴于无线频谱的有限性和对无线通信最近的技术突破产生的频谱使用不断增加的需求,干扰问题仍在继续持续存在。尽管最近解决干涉问题的进步,但干扰仍然呈现出有效使用频谱的挑战。这部分是由于Wi-Fi的无许可和管理共享乐队使用的升高,长期演进(LTE)未许可(LTE-U),LTE许可辅助访问(LAA),5G NR等机会主义频谱访问解决方案。因此,需要对干扰稳健的有效频谱使用方案的需求从未如此重要。在过去,通过使用避免技术以及非AI缓解方法(例如,自适应滤波器)来解决问题的大多数解决方案。非AI技术的关键缺陷是需要提取或开发信号特征的域专业知识,例如CycrationArity,带宽和干扰信号的调制。最近,研究人员已成功探索了AI / ML的物理(PHY)层技术,尤其是深度学习,可减少或补偿干扰信号,而不是简单地避免它。 ML基于ML的方法的潜在思想是学习来自数据的干扰或干扰特性,从而使需要对抑制干扰的域专业知识进行侧联。在本文中,我们审查了广泛的技术,这些技术已经深入了解抑制干扰。我们为干扰抑制中许多不同类型的深度学习技术提供比较和指导。此外,我们突出了在干扰抑制中成功采用深度学习的挑战和潜在的未来研究方向。
translated by 谷歌翻译
在音频分类中,很少有参数的可区分的听觉过滤库覆盖了硬编码频谱图和原始音频之间的中间立场。LEAF(ARXIV:2101.08596)是一种基于Gabor的过滤库与每通道能量归一化(PCEN)相结合,显示出令人鼓舞的结果,但计算上很昂贵。随着不均匀的卷积内核大小和大步,通过更有效地达到相似的结果,我们可以更有效地达到相似的结果。在六个音频分类任务的实验中,我们的前端以叶子的准确性为3%,但两者都无法始终如一地胜过固定的MEL FilterBank。对可学习音频前端的寻求无法解决。
translated by 谷歌翻译
使用多个麦克风进行语音增强的主要优点是,可以使用空间滤波来补充节奏光谱处理。在传统的环境中,通常单独执行线性空间滤波(波束形成)和单通道后过滤。相比之下,采用深层神经网络(DNN)有一种趋势来学习联合空间和速度 - 光谱非线性滤波器,这意味着对线性处理模型的限制以及空间和节奏单独处理的限制光谱信息可能可以克服。但是,尚不清楚导致此类数据驱动的过滤器以良好性能进行多通道语音增强的内部机制。因此,在这项工作中,我们通过仔细控制网络可用的信息源(空间,光谱和时间)来分析由DNN实现的非线性空间滤波器的性质及其与时间和光谱处理的相互依赖性。我们确认了非线性空间处理模型的优越性,该模型在挑战性的扬声器提取方案中优于Oracle线性空间滤波器,以低于0.24的POLQA得分,较少数量的麦克风。我们的分析表明,在特定的光谱信息中应与空间信息共同处理,因为这会提高过滤器的空间选择性。然后,我们的系统评估会导致一个简单的网络体系结构,该网络体系结构在扬声器提取任务上的最先进的网络体系结构优于0.22 POLQA得分,而CHIME3数据上的POLQA得分为0.32。
translated by 谷歌翻译
State-of-the-art performance in electroencephalography (EEG) decoding tasks is currently often achieved with either Deep-Learning or Riemannian-Geometry-based decoders. Recently, there is growing interest in Deep Riemannian Networks (DRNs) possibly combining the advantages of both previous classes of methods. However, there are still a range of topics where additional insight is needed to pave the way for a more widespread application of DRNs in EEG. These include architecture design questions such as network size and end-to-end ability as well as model training questions. How these factors affect model performance has not been explored. Additionally, it is not clear how the data within these networks is transformed, and whether this would correlate with traditional EEG decoding. Our study aims to lay the groundwork in the area of these topics through the analysis of DRNs for EEG with a wide range of hyperparameters. Networks were tested on two public EEG datasets and compared with state-of-the-art ConvNets. Here we propose end-to-end EEG SPDNet (EE(G)-SPDNet), and we show that this wide, end-to-end DRN can outperform the ConvNets, and in doing so use physiologically plausible frequency regions. We also show that the end-to-end approach learns more complex filters than traditional band-pass filters targeting the classical alpha, beta, and gamma frequency bands of the EEG, and that performance can benefit from channel specific filtering approaches. Additionally, architectural analysis revealed areas for further improvement due to the possible loss of Riemannian specific information throughout the network. Our study thus shows how to design and train DRNs to infer task-related information from the raw EEG without the need of handcrafted filterbanks and highlights the potential of end-to-end DRNs such as EE(G)-SPDNet for high-performance EEG decoding.
translated by 谷歌翻译
我们研究了在不利环境中学习强大声学模型的问题,其特征是训练和测试条件之间存在显着不匹配。这个问题对于需要在看不见的环境中表现良好的语音识别系统的部署至关重要。首先,我们从理论上将数据增强表征为笼子风险最小化的实例,该实例旨在通过替换在输入空间上定义经验密度的三角洲函数来改善培训期间的风险估计,并具有近似值的近似值。培训样品。更具体地说,我们假设可以使用高斯人的混合物来近似以训练样品为中心的当地社区,并从理论上证明这可以将强大的电感偏置纳入学习过程。然后,我们通过数据增强方案隐式地指定各个混合物组件,旨在解决声学模型中伪造相关性的常见来源。为了避免由于信息丢失而引起的鲁棒性的潜在混杂影响,这与标准特征提取技术(例如Fbank和MFCC功能)有关,我们重点关注基于波形的设置。我们的经验结果表明,该方法可以推广到看不见的噪声条件,与使用标准风险最小化原则进行训练相比,分布外概括的相对改善150%。此外,结果证明了相对于使用旨在匹配测试话语特征的训练样本的模型,相对于模型的竞争性能。
translated by 谷歌翻译
卷积神经网络(CNN)由于其强大的特征提取和分类功能而广泛用于机械系统的故障诊断。但是,CNN是一个典型的黑盒模型,CNN决策的机制尚不清楚,这限制了其在高可授权要求的故障诊断方案中的应用。为了解决这个问题,我们提出了一个新颖的可解释的神经网络,称为时频网(TFN),其中物理上有意义的时频变换(TFT)方法被嵌入传统的卷积层中,作为自适应预处理层。这个称为时频卷积(TFCONV)层的预处理层受到精心设计的内核函数的约束,以提取与故障相关的时间频率信息。它不仅改善了诊断性能,而且还揭示了频域中CNN预测的逻辑基础。不同的TFT方法对应于TFCONV层的不同内核函数。在这项研究中,考虑了四种典型的TFT方法来制定TFN,并且通过三个机械故障诊断实验证明了它们的有效性和解释性。实验结果还表明,所提出的TFCONV层可以很容易地推广到具有不同深度的其他CNN。 TFN的代码可在https://github.com/chenqian0618/tfn上获得。
translated by 谷歌翻译
转移学习(TL)已成为神经网络(NNS)的科学应用中的强大工具,例如天气/气候预测和湍流建模。 TL可以实现分布的概括(例如,参数外推)和有效的不同训练集(例如,模拟和观察值)的有效混合。在TL中,使用目标系统中的小数据集对已经训练的基础系统进行了训练的NN的选定层。对于有效的TL,我们需要知道1)重新培训的最佳层是什么? 2)在TL期间学到了哪些物理学?在这里,我们提出了新的分析和一个新的框架,以解决(1) - (2)的多种多数非线性系统。我们的方法将系统数据的光谱分析与卷积NN激活和内核的光谱分析相结合,从系统的非线性物理学来解释了TL的内部工作。使用几种2D湍流设置的亚网格尺度建模作为测试用例,我们表明,学习的内核是低,带和高通滤波器的组合,并且TL学习了新的过滤器,其性质与光谱差异一致基础和目标系统。我们还发现,在这些情况下,最浅的层是重新培训的最佳层,这违背了机器学习文献中指导TL的共同智慧。我们的框架根据物理和NN理论确定了事先重新训练的最佳层。这些分析共同解释了在TL中学到的物理学,并提供了一个框架,以指导TL,以在科学和工程中进行广泛的应用,例如气候变化建模。
translated by 谷歌翻译
关键字斑点(kWs)是一个重要的功能,使我们的周围环境中许多无处不在的智能设备进行交互,可以通过唤醒词或直接作为人机界面激活它们。对于许多应用程序,KWS是我们与设备交互的进入点,因此,始终是ON工作负载。许多智能设备都是移动的,并且它们的电池寿命受到持续运行的服务受到严重影响。因此,KWS和类似的始终如一的服务是在优化整体功耗时重点。这项工作解决了低成本微控制器单元(MCU)的KWS节能。我们将模拟二元特征提取与二元神经网络相结合。通过用拟议的模拟前端取代数字预处理,我们表明数据采集和预处理所需的能量可以减少29倍,将其份额从主导的85%的份额削减到仅为我们的整体能源消耗的16%参考KWS应用程序。语音命令数据集的实验评估显示,所提出的系统分别优于最先进的准确性和能效,在10级数据集中分别在10级数据集上达到1%和4.3倍,同时提供令人信服的精度 - 能源折衷包括71倍能量减少2%的精度下降。
translated by 谷歌翻译
We observe that despite their hierarchical convolutional nature, the synthesis process of typical generative adversarial networks depends on absolute pixel coordinates in an unhealthy manner. This manifests itself as, e.g., detail appearing to be glued to image coordinates instead of the surfaces of depicted objects. We trace the root cause to careless signal processing that causes aliasing in the generator network. Interpreting all signals in the network as continuous, we derive generally applicable, small architectural changes that guarantee that unwanted information cannot leak into the hierarchical synthesis process. The resulting networks match the FID of StyleGAN2 but differ dramatically in their internal representations, and they are fully equivariant to translation and rotation even at subpixel scales. Our results pave the way for generative models better suited for video and animation. * This work was done during an internship at NVIDIA. 35th Conference on Neural Information Processing Systems (NeurIPS 2021).
translated by 谷歌翻译
我们介绍了时间特征 - 方向线性调制(TFILM)模型的块在线变体,以实现带宽扩展。所提出的架构简化了TFILM的UNET骨干,以减少推理时间,并在瓶颈中采用有效的变压器来缓解性能下降。我们还利用自我监督的预测和数据增强,以提高带宽扩展信号的质量,并降低对下采样方法的灵敏度。VCTK数据集上的实验结果表明,所提出的方法优于侵入性和非侵入性度量的几个最近基线。预先训练和过滤增强也有助于稳定并提高整体性能。
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
卷积神经网络(CNNS)在许多计算机视觉相关任务中取得了令人印象深刻的性能,例如对象检测,图像识别,图像检索等这些成就受益于CNNS的出色能力,以学习具有深层神经结构深层的鉴别特征和迭代培训过程。这激发了EEG研究界,通过CNN进行EEG分类任务。但是,CNNS学习的功能不是立即解释的,导致对CNNS的内部工作机制缺乏了解。为了提高CNN解释性,应用CNN可视化方法以将内部特征转换为视觉上可察觉的模式,以进行CNN层的定性分析。在计算机视觉文献中提出了许多CNN可视化方法,以解释CNN网络结构,操作和语义概念,但对EEG数据分析的应用已经有限。在这项工作中,我们使用3种不同的方法来从原始EEG数据上培训的CNN中提取EEG相关功能:每个分类类别的最佳样本,激活最大化和反向卷积。我们将这些方法应用于高性能的深度学习模型,具有最先进的性能的eEG性别分类任务,并表明该模型具有θ频带的差异。我们表明CNN模型的可视化可以揭示有趣的EEG结果。使用这些工具,使用深度学习的EEG研究人员可以更好地识别学习的EEG功能,可能识别新的相关生物标志物。
translated by 谷歌翻译
第五代(5G)网络和超越设想巨大的东西互联网(物联网)推出,以支持延长现实(XR),增强/虚拟现实(AR / VR),工业自动化,自主驾驶和智能所有带来的破坏性应用一起占用射频(RF)频谱的大规模和多样化的IOT设备。随着频谱嘎嘎和吞吐量挑战,这种大规模的无线设备暴露了前所未有的威胁表面。 RF指纹识别是预约的作为候选技术,可以与加密和零信任安全措施相结合,以确保无线网络中的数据隐私,机密性和完整性。在未来的通信网络中,在这项工作中,在未来的通信网络中的相关性,我们对RF指纹识别方法进行了全面的调查,从传统观点到最近的基于深度学习(DL)的算法。现有的调查大多专注于无线指纹方法的受限制呈现,然而,许多方面仍然是不可能的。然而,在这项工作中,我们通过解决信号智能(SIGINT),应用程序,相关DL算法,RF指纹技术的系统文献综述来缓解这一点,跨越过去二十年的RF指纹技术的系统文献综述,对数据集和潜在研究途径的讨论 - 必须以百科全书的方式阐明读者的必要条件。
translated by 谷歌翻译
自动扬声器识别算法通常使用预定义的过滤库,例如MEL频率和伽马酮滤波器,以表征语音音频。但是,已经观察到使用这些滤纸提取的功能对各种音频降解没有弹性。在这项工作中,我们提出了一种基于学习的技术,以从大量的语音音频中推断出滤纸设计。这种过滤库的目的是提取特征在非理想的音频条件下(例如退化,持续时间短和多语言语音)的功能。为此,1D卷积神经网络旨在直接从原始的语音音频中学习一个名为deepvox的时间域滤纸。其次,开发了一种自适应三重态挖掘技术,以有效地挖掘最适合训练过滤器的数据样本。第三,对DeepVox FilterBanks进行的详细消融研究揭示了提取特征中的声源和声带特征的存在。 Voxceleb2,NIST SRE 2008、2010和2018和Fisher Speech数据集的实验结果证明了DeepVox特征在各种退化,短期和多语言语音中的功效。 DeepVox的功能还显示出可提高现有说话者识别算法的性能,例如XVECTOR-PLDA和IVECTOR-PLDA。
translated by 谷歌翻译
雷达传感器逐渐成为道路车辆的广泛设备,在自主驾驶和道路安全中发挥着至关重要的作用。广泛采用雷达传感器增加了不同车辆的传感器之间干扰的可能性,产生损坏的范围曲线和范围 - 多普勒地图。为了从范围 - 多普勒地图中提取多个目标的距离和速度,需要减轻影响每个范围分布的干扰。本文提出了一种全卷积神经网络,用于汽车雷达干扰缓解。为了在真实的方案中培训我们的网络,我们介绍了具有多个目标和多个干扰的新数据集的现实汽车雷达信号。为了我们的知识,我们是第一个在汽车雷达领域施加体重修剪的施加量,与广泛使用的辍学相比获得了优越的结果。虽然最先前的作品成功地估计了汽车雷达信号的大小,但我们提出了一种可以准确估计相位的深度学习模型。例如,我们的新方法将相对于普通采用的归零技术的相位估计误差从12.55度到6.58度降低了一半。考虑到缺乏汽车雷达干扰缓解数据库,我们将释放开源我们的大规模数据集,密切复制了多次干扰案例的现实世界汽车场景,允许其他人客观地比较他们在该域中的未来工作。我们的数据集可用于下载:http://github.com/ristea/arim-v2。
translated by 谷歌翻译
在本文中,为波斯语音识别提出了用于信息定位的基于CNN的结构。研究表明,在哺乳动物的原发性听觉皮层和中脑中某些神经元的接收场的光谱量矩形可塑性使本地化设施改善了识别性能。在过去的几年中,使用HMMS,TDNNS,CNNS和LSTM-RNNS的方法的空间或时间不可超数属性,已经完成了许多工作来在ASR系统中定位时间频率信息。但是,这些模型中的大多数具有较大的参数量,并且训练具有挑战性。为此,我们提出了一种称为时频卷积的麦克斯神经网络(TFCMNN)的结构,其中并行时间域和频域1D-CMNN同时且独立地应用于频谱图,然后将其输出置于串联并置于串联并施加了串联并应用于频谱图。共同连接到完全连接的Maxout网络进行分类。为了提高这种结构的性能,我们使用了新开发的方法和模型,例如辍学,麦克斯特和体重归一化。在FARSDAT数据集上设计和实现了两组实验,以评估与常规1D-CMNN模型相比,该模型的性能。根据实验结果,TFCMNN模型的平均识别得分比常规1D-CMNN模型的平均值高约1.6%。此外,TFCMNN模型的平均训练时间比传统模型的平均训练时间低约17小时。因此,正如其他来源所证明的那样,ASR系统中的时频定位提高了系统的准确性并加快了训练过程。
translated by 谷歌翻译