语音神经调节物有可能为患有扰动或休闲症的人提供沟通。最近的进展已经证明了从放置在皮质表面上的电加电网的高质量文本解码和语音合成。在这里,我们研究了较少的侵入性测量模态,即立体定向脑电图(SEEG),其提供来自多个脑区的稀疏抽样,包括皮质区域。为了评估Seeg是否也可用于综合神经录音的高质量音频,我们采用了一种基于现代深度学习方法的经常性编码器 - 解码器框架。我们证明,尽管有限的训练数据,但是可以从这些微创录音来重建高质量的言论。最后,我们利用变分特征丢失来成功识别最具信息丰富的电极触点。
translated by 谷歌翻译
This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequence feature prediction network that maps character embeddings to mel-scale spectrograms, followed by a modified WaveNet model acting as a vocoder to synthesize time-domain waveforms from those spectrograms. Our model achieves a mean opinion score (MOS) of 4.53 comparable to a MOS of 4.58 for professionally recorded speech. To validate our design choices, we present ablation studies of key components of our system and evaluate the impact of using mel spectrograms as the conditioning input to WaveNet instead of linguistic, duration, and F0 features. We further show that using this compact acoustic intermediate representation allows for a significant reduction in the size of the WaveNet architecture.
translated by 谷歌翻译
在最近对基于听觉的诱发电位(AEP)的脑电器界面(BCI)的研究中,显示出具有编码器解码器框架,可以将人的神经活动转化为语音(T-CAS)。然而,基于当前的编码器 - 解码器的方法实现T-CAS通常具有两步方法,其中信息在编码器和解码器之间传递,利用共享尺寸还原向量,这可能导致信息丢失。解决这个问题的潜在方法是通过使用双生成的对抗性网络(Dualgan)来设计端到端的方法,而无需尺寸减少传递信息,但它无法实现一对一的信号到信号转换(参见图1(a)和(b))。在本文中,我们提出了一个端到端模型,将人类神经活动转化为直接语音,创建一个新的脑电图(EEG)数据集,为参与者设计了一个良好的关注,设计了一种检测参与者的注意力,并引入了双重 - 双生成对抗网络(Dual-Dualgan)(参见图1(c)和(d)),以通过组标记EEG信号和语音来解决人类神经活动的端到端平衡对语音(et-CAS)问题信号,插入过渡域以实现跨域映射。在过渡域中,转换信号由相应的EEG和语音信号级联,并且可以以一定比例构建脑电图和语音信号的桥梁而不相应的特征,并实现一对一跨域EEG-语音翻译。该方法可以将神经活动的单词长度和句子长度序列转换为语音。已经进行了实验评估,表明该方法显着优于听觉刺激的单词和句子的最先进方法。
translated by 谷歌翻译
从大脑活动中解码语言是医疗保健和神经科学中期待已久的目标。由于颅内设备,最近已经达到了主要里程碑:对基本语言任务的侵入性大脑反应训练的主题特定管道现在开始有效地解释可解释的功能(例如字母,单词,频谱图)。但是,将这种方法扩展到自然语音和非侵入性脑记录仍然是一个主要挑战。在这里,我们提出了一个端到端的架构,该体系结构在大量个体中进行了对比学习,以预测自然语音的自我监督的表现。我们在四个公共数据集上评估了我们的模型,其中包括169名用磁性或电脑图(M/EEG)记录的志愿者,同时他们听了自然的语音。结果表明,我们的模型可以从3s MEG信号中识别出相应的语音段,其中1,594个不同的段中最高72.5%的前10个精度(和44%的TOP-1准确性),最多可在19.1%中获得19.1%。脑电图记录的2,604个细分市场 - 因此允许训练集中不存在短语。模型比较和消融分析表明,这些性能直接从我们的原始设计选择中受益,即(i)对比目标,(ii)语音的预估计表示和(iii)在几个参与者中同时培训的常见卷积架构。这些结果共同描述了一个有希望的途径,可以从无创的大脑活动记录中实时解码自然语言处理。
translated by 谷歌翻译
衡量心理工作量的主要原因是量化执行任务以预测人类绩效的认知成本。不幸的是,一种评估具有一般适用性的心理工作量的方法。这项研究提出了一种新型的自我监督方法,用于从脑电图数据中使用深度学习和持续的大脑率,即认知激活的指标,而无需人类声明性知识,从而从脑电图数据进行了精神负荷建模。该方法是可培训的卷积复发性神经网络,该神经网络可通过空间保留脑电图数据的光谱地形图训练,以适合大脑速率变量。发现证明了卷积层从脑电图数据中学习有意义的高级表示的能力,因为受试者内模型的测试平均绝对百分比误差平均为11%。尽管确实提高了其准确性,但增加了用于处理高级表示序列的长期期内存储层并不重要。发现指出,认知激活的高级高水平表示存在准稳定的块,因为它们可以通过卷积诱导,并且似乎随着时间的流逝而彼此依赖,从而直观地与大脑反应的非平稳性质相匹配。跨主体模型,从越来越多的参与者的数据诱导,因此包含更多的可变性,获得了与受试者内模型相似的精度。这突出了人们在人们之间诱发的高级表示的潜在普遍性,这表明存在非依赖于受试者的认知激活模式。这项研究通过为学者提供一种用于心理工作负载建模的新型计算方法来促进知识的体系,该方法旨在通常适用,不依赖于支持可复制性和可复制性的临时人工制作的模型。
translated by 谷歌翻译
苏黎世认知语言处理语料库(Zuco)提供了来自两种读取范例,正常读取和特定任务读数的眼跟踪和脑电图信号。我们分析了机器学习方法是否能够使用眼睛跟踪和EEG功能对这两个任务进行分类。我们使用聚合的句子级别功能以及细粒度的单词级别来实现模型。我们在主题内和交叉对象评估方案中测试模型。所有模型都在Zuco 1.0和Zuco 2.0数据子集上进行测试,其特征在于不同的记录程序,因此允许不同的概括水平。最后,我们提供了一系列的控制实验,以更详细地分析结果。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
从大脑对听觉和视觉刺激的响应中的信息检索通过在记录脑电图信号时呈现给参与者的歌曲名称和图像类别的分类显示了成功。以重建听觉刺激的形式进行信息检索也显示出一些成功,但是在这里我们通过对音乐刺激的重建足够好,可以独立地看到和识别来改进以前的方法。此外,为每个相应的脑电图记录的一秒钟窗口,对深度学习模型进行了对时间对齐的音乐刺激谱的培训,与先前的研究相比,这大大降低了所需的提取步骤。参与者的NMED-TEMPO和NMED-HINDI数据集被动地收听全长歌曲,用于训练和验证卷积神经网络(CNN)回归器。测试了原始电压与功率谱输入以及线性与MEL频谱图的功效,并将所有输入和输出转换为2D图像。通过训练分类器评估了重建光谱图的质量,该分类器的MEL光谱图的精度为81%,线性光谱图(10%的机会精度)的精度为72%。最后,在两种抗性的匹配到样本任务中,听众以85%的成功率(50%机会)歧视听觉音乐刺激的重建。
translated by 谷歌翻译
神经文本到语音研究的最新进展是利用低级中间语音表示(例如MEL-光谱图)的两阶段管道主导的。但是,这种预定的特征从根本上受到限制,因为它们不允许通过学习隐藏表示形式来利用数据驱动方法的全部潜力。因此,已经提出了几种端到端方法。但是,这样的模型更难训练,并且需要大量具有转录的高质量录音。在这里,我们提出了WavThruvec-一种两阶段的架构,通过使用高维WAV2VEC 2.0嵌入作为中间语音表示,可以解决瓶颈。由于这些隐藏的激活提供了高级语言特征,因此它们对噪音更强大。这使我们能够利用质量较低的注释语音数据集来训练第一阶段模块。同时,由于WAV2VEC 2.0的嵌入已经进行了时间对齐,因此可以在大规模未转录的音频语料库上对第二阶段组件进行培训。这导致了对量表词的概括能力的提高,以及对看不见的说话者的更好概括。我们表明,所提出的模型不仅与最新神经模型的质量相匹配,而且还介绍了有用的属性,可以实现语音转换或零弹性合成的任务。
translated by 谷歌翻译
这项工作的目的是通过利用视频中的音频和视觉流的自然共同发生来研究语音重建(视频到音频)对语音重建(视频到音频)的影响。我们提出了Lipsound2,其包括编码器 - 解码器架构和位置感知注意机制,可直接将面部图像序列映射到熔化谱图,而无需任何人类注释。提出的Lipsound2模型首先在$ 2400H的$ 2400h多语言(例如英语和德语)视听数据(VoxceleB2)上进行预先培训。为了验证所提出的方法的概括性,我们将在与以前的方法相比,微调在域特定数据集(网格,TCD-Timit)上进行预先训练的模型,以实现对语音质量和可懂度的显着提高扬声器依赖和依赖的设置。除了英语外,我们还在CMLR数据集上进行中文语音重建,以验证对转移性的影响。最后,我们通过微调在预先训练的语音识别系统上产生生成的音频并在英语和中文基准数据集中实现最先进的性能来培训级联唇读(视频到文本)系统。
translated by 谷歌翻译
视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程,该过程从视频中推断出中间表示,然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中,我们提出了一个基于生成对抗网络(GAN)的新的端到端视频到语音模型,该模型将口语视频转换为波形端到端,而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成,该体系结构接收原始视频作为输入并生成语音,然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外,我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明,该模型能够用诸如网格之类的受约束数据集重建语音,并且是第一个为LRW(野外唇读)生成可理解的语音的端到端模型,以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本,这些客观指标衡量了人工语音的质量和清晰度。我们证明,所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。
translated by 谷歌翻译
神经端到端TTS模型的最新进展显示出在常规句子的TTS中表现出高质量的自然合成语音。但是,当TTS中考虑整个段落时,重现相似的高质量,在构建基于段落的TTS模型时需要考虑大量上下文信息。为了减轻培训的困难,我们建议通过考虑跨性别,嵌入式结构在培训中对语言和韵律信息进行建模。三个子模块,包括语言学意识,韵律和句子位置网络。具体而言,要了解嵌入在段落中的信息以及相应的组件句子之间的关系,我们利用语言学意识和韵律感知网络。段落中的信息由编码器捕获,段落中的句子间信息通过多头注意机制学习。段落中的相对句子位置由句子位置网络明确利用。拟议中的TTS模型在女性普通话中录制的讲故事的音频语料库(4.08小时)接受了培训,该模型表明,它可以产生相当自然而良好的语音段落。与基于句子的模型相比,可以更好地预测和渲染的跨句子上下文信息,例如连续句子之间的断裂和韵律变化。在段落文本上进行了测试,其长度与培训数据的典型段落长度相似,比训练数据的典型段落长得多,新模型产生的TTS语音始终优先于主观测试和基于句子的模型和在客观措施中确认。
translated by 谷歌翻译
从语音音频中删除背景噪音一直是大量研究和努力的主题,尤其是由于虚拟沟通和业余声音录制的兴起,近年来。然而,背景噪声并不是唯一可以防止可理解性的不愉快干扰:混响,剪裁,编解码器工件,有问题的均衡,有限的带宽或不一致的响度同样令人不安且无处不在。在这项工作中,我们建议将言语增强的任务视为一项整体努力,并提出了一种普遍的语音增强系统,同时解决了55种不同的扭曲。我们的方法由一种使用基于得分的扩散的生成模型以及一个多分辨率调节网络,该网络通过混合密度网络进行增强。我们表明,这种方法在专家听众执行的主观测试中大大优于艺术状态。我们还表明,尽管没有考虑任何特定的快速采样策略,但它仅通过4-8个扩散步骤就可以实现竞争性的目标得分。我们希望我们的方法论和技术贡献都鼓励研究人员和实践者采用普遍的语音增强方法,可能将其作为一项生成任务。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
我们介绍Audiolm,这是具有长期一致性高质量音频产生的框架。 Audiolm将输入音频映射到一系列离散令牌,并将音频生成作为此表示空间中的语言建模任务。我们展示了现有的音频令牌如何在重建质量和长期结构之间提供不同的权衡,我们提出了一个混合代币化计划来实现这两个目标。也就是说,我们利用在音频中预先训练的蒙版语言模型的离散激活来捕获长期结构和神经音频编解码器产生的离散代码,以实现高质量的合成。通过培训大型原始音频波形,Audiolm学会了在简短的提示下产生自然和连贯的连续性。当接受演讲训练时,没有任何笔录或注释,Audiolm会在句法和语义上产生可行的语音连续性,同时还为看不见的说话者保持说话者身份和韵律。此外,我们演示了我们的方法如何通过产生连贯的钢琴音乐连续性来超越语音,尽管受过训练而没有任何象征性的音乐代表。
translated by 谷歌翻译
与经典信号处理和基于机器学习的框架相比,基于深度学习的方法基于深度学习的方法显着提高了分类准确性。但大多数是由于脑电图数据中存在的受试者间可变性而无法概括对象无关的任务的主题依赖性研究。在这项工作中,提出了一种新的深度学习框架,其能够进行独立的情感识别,由两部分组成。首先,提出了具有通道关注自动泊车的无监督的长短期存储器(LSTM),用于获取主体不变的潜航向量子空间,即每个人的EEG数据中存在的内部变量。其次,提出了一种具有注意力框架的卷积神经网络(CNN),用于对从提出的LSTM获得的编码的较低的潜在空间表示对具有通道 - 注意自身形拓的编码的低潜空间表示的任务。通过注意机制,所提出的方法可以突出EEG信号的显着时间段,这有助于所考虑的情绪,由结果验证。已经使用公共数据集进行了验证的方法,用于EEG信号,例如Deap DataSet,SEED数据集和CHB-MIT数据集。所提出的端到端深度学习框架消除了不同手工工程特征的要求,并提供了一个单一的全面任务不可知性EEG分析工具,能够对主题独立数据进行各种EEG分析。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
作为最普遍的神经退行性疾病之一,帕金森病(PD)对患者的精细运动技能产生了重大影响。在语音生产过程中不同铰接器的复杂相互作用和所需肌肉张力的实现变得越来越困难,从而导致发狂的言论。在受影响的个体中通常可以观察到元音不稳定性,浆液发音和慢演说的特征模式,并在先前的研究中分析以确定PD的存在和进展。在这项工作中,我们使用了专门培训的语音识别器,以研究PD如何影响患者的语音占地面积。我们重新发现了许多在以前的贡献中描述的模式,尽管我们的系统从未见过此前从未见过任何病理演讲。此外,我们可以表明来自神经网络的中间激活可以用作编码与个人疾病状态有关的信息的特征向量。我们还能够直接将演讲者的专家额定智能性与语音预测的平均置信相提并论。我们的结果支持假设,即培训能够分析PD语音的系统不一定需要病理数据。
translated by 谷歌翻译
免费可用且易于使用的音频编辑工具使执行音频剪接变得直接。可以通过结合同一人的各种语音样本来说服伪造。在考虑错误信息时,在公共部门都很重要,并且在法律背景下以验证证据的完整性很重要。不幸的是,用于音频剪接的大多数现有检测算法都使用手工制作的功能并做出特定的假设。但是,刑事调查人员经常面临来自未知特征不明的来源的音频样本,这增加了对更普遍适用的方法的需求。通过这项工作,我们的目标是朝着不受限制的音频剪接检测迈出第一步,以满足这一需求。我们以可能掩盖剪接的后处理操作的形式模拟各种攻击方案。我们提出了一个用于剪接检测和定位的变压器序列到序列(SEQ2SEQ)网络。我们的广泛评估表明,所提出的方法的表现优于现有的剪接检测方法[3,10]以及通用网络效率网络[28]和regnet [25]。
translated by 谷歌翻译
我们展示了一个新的数据集和基准,其目的是在大脑活动和眼球运动的交叉口中推进研究。我们的数据集EEGEYENET包括从三种不同实验范式中收集的356个不同受试者的同时脑电图(EEG)和眼睛跟踪(ET)录像。使用此数据集,我们还提出了一种评估EEG测量的凝视预测的基准。基准由三个任务组成,难度越来越高:左右,角度幅度和绝对位置。我们在该基准测试中运行大量实验,以便根据经典机器学习模型和大型神经网络提供实心基线。我们释放了我们的完整代码和数据,并提供了一种简单且易于使用的界面来评估新方法。
translated by 谷歌翻译