本文提出了Mburst,这是一种新型的多模式解决方案,用于视听语音增强功能,该解决方案考虑了有关前额叶皮层和其他大脑区域的锥体细胞的最新神经系统发现。所谓的爆发传播实现了几个标准,以更加可行的方式解决信用分配问题:通过反馈来指导可塑性的标志和大小,并线性化反馈信号。 Mburst从这种能力中受益于学习嘈杂信号和视觉刺激之间的相关性,从而通过扩增相关信息和抑制噪声来归因于语音。通过网格语料库和基于Chime3的数据集进行的实验表明,Mburst可以将类似的掩模重建基于多模态反向传播基线,同时证明了出色的能量效率管理,从而降低了神经元的发射速率,以降低价值,最高为\ textbf {$ 70 \%$}降低。这样的功能意味着更可持续的实现,适合助听器或任何其他类似的嵌入式系统。
translated by 谷歌翻译
本文提出了一种新型的多式模式自学架构,用于节能音频 - 视听(AV)语音增强,将图形神经网络与规范相关性分析(CCA-GNN)集成在一起。所提出的方法将其基础放在最先进的CCA-GNN上,该方法通过最大化相同输入的增强视图对之间的相关性来学习代表性的嵌入,同时脱离了断开连接的特征。常规CCA-GNN的关键思想涉及丢弃增强变化的信息并保留增强不变的信息,同时阻止捕获冗余信息。我们提出的AV CCA-GNN模型涉及多模式表示学习环境。具体而言,我们的模型通过从音频和视觉嵌入的同一信道和规范相关性的增强视图中最大化的规范相关性来改善上下文AV语音处理。此外,它提出了一个位置节点编码,该位置节点在计算节点最近的邻居时考虑了先前的框架序列距离,而不是特征空间表示,并通过邻域的连接在嵌入式中引入时间信息。在基准Chime3数据集上进行的实验表明,我们提出的基于框架的AV CCA-GNN确保在时间上下文中获得更好的特征学习,从而导致比最先进的CCA-GNN更节能的语音重建感知器(MLP)和长期记忆(LSTM)模型。
translated by 谷歌翻译
人类脑中脑中的背景利用异质感官信息,以有效地执行包括视觉和听力的认知任务。例如,在鸡尾酒会党的情况下,人类听觉Cortex上下文中的视听(AV)提示才能更好地感知言论。最近的研究表明,与音频SE模型相比,AV语音增强(SE)模型可以显着提高信噪比(SNR)环境的极低信号的语音质量和可懂度。然而,尽管在AV SE的领域进行了显着的研究,但具有低延迟的实时处理模型的开发仍然是一个强大的技术挑战。在本文中,我们为低延迟扬声器的独立AV SE提供了一种新颖的框架,可以概括一系列视觉和声学噪声。特别地,提出了一种生成的对抗性网络(GaN)来解决AV SE的视觉缺陷的实际问题。此外,我们提出了一种基于神经网络的深度神经网络的实时AV SE模型,考虑到从GaN的清洁的视觉语音输出来提供更强大的SE。拟议的框架使用客观语音质量和可懂度指标和主观上市测试对合成和真实嘈杂的AV语料库进行评估。比较仿真结果表明,我们的实时AV SE框架优于最先进的SE方法,包括最近的基于DNN的SE模型。
translated by 谷歌翻译
基于深度学习(DL)的语音增强方法通常优化,以最小化干净和增强语音功能之间的距离。这些经常导致语音质量改善,但它们缺乏普遍化,并且可能无法在实际嘈杂情况下提供所需的语音可懂度。为了解决这些挑战,研究人员已经探索了智能性(I-O)丢失函数和用于更强大的语音增强(SE)的视听(AV)信息的集成。在本文中,我们介绍了基于DL的I-O SE算法利用AV信息,这是一种新颖且以前未开发的研究方向。具体而言,我们介绍了一个完全卷积的AV SE模型,它使用改进的短时客观可懂度(STOI)度量作为培训成本函数。据我们所知,这是第一个利用基于I-O的I-O的损耗函数的AV模式集成的第一项工作。比较实验结果表明,我们提出的I-O AV SE框架优于与传统距离的损耗功能训练的仅音频(AO)和AV模型,就标准客观的扬声器和噪声处理。
translated by 谷歌翻译
有充分的神经生物学证据表明,上下文敏感的新皮质神经元使用其顶端输入来放大相干进料(FF)输入的传播。但是,到目前为止,尚未证明这种已知机制如何提供有用的神经计算。在这里,我们首次展示了这种神经信息处理的处理和学习能力与哺乳动物新皮层的能力相匹配。具体而言,我们表明,由此类本地处理器组成的网络将冲突的信息传输到更高级别,并大大减少处理大量异质现实世界数据所需的活动量,例如在处理视听语音时,这些本地处理器使用这些本地处理器时看到唇部动作可有选择地放大这些动作产生的听觉信息的FF传输,反之亦然。由于这种机制比最佳可用的深神经网的最佳形式更有效率,因此它为理解大脑的神秘能量节能机制提供了逐步改变,并激发了设计增强形式的生物学上的机器学习算法的进步。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
Prior works on improving speech quality with visual input typically study each type of auditory distortion separately (e.g., separation, inpainting, video-to-speech) and present tailored algorithms. This paper proposes to unify these subjects and study Generalized Speech Enhancement, where the goal is not to reconstruct the exact reference clean signal, but to focus on improving certain aspects of speech. In particular, this paper concerns intelligibility, quality, and video synchronization. We cast the problem as audio-visual speech resynthesis, which is composed of two steps: pseudo audio-visual speech recognition (P-AVSR) and pseudo text-to-speech synthesis (P-TTS). P-AVSR and P-TTS are connected by discrete units derived from a self-supervised speech model. Moreover, we utilize self-supervised audio-visual speech model to initialize P-AVSR. The proposed model is coined ReVISE. ReVISE is the first high-quality model for in-the-wild video-to-speech synthesis and achieves superior performance on all LRS3 audio-visual enhancement tasks with a single model. To demonstrates its applicability in the real world, ReVISE is also evaluated on EasyCom, an audio-visual benchmark collected under challenging acoustic conditions with only 1.6 hours of training data. Similarly, ReVISE greatly suppresses noise and improves quality. Project page: https://wnhsu.github.io/ReVISE.
translated by 谷歌翻译
Audio-visual approaches involving visual inputs have laid the foundation for recent progress in speech separation. However, the optimization of the concurrent usage of auditory and visual inputs is still an active research area. Inspired by the cortico-thalamo-cortical circuit, in which the sensory processing mechanisms of different modalities modulate one another via the non-lemniscal sensory thalamus, we propose a novel cortico-thalamo-cortical neural network (CTCNet) for audio-visual speech separation (AVSS). First, the CTCNet learns hierarchical auditory and visual representations in a bottom-up manner in separate auditory and visual subnetworks, mimicking the functions of the auditory and visual cortical areas. Then, inspired by the large number of connections between cortical regions and the thalamus, the model fuses the auditory and visual information in a thalamic subnetwork through top-down connections. Finally, the model transmits this fused information back to the auditory and visual subnetworks, and the above process is repeated several times. The results of experiments on three speech separation benchmark datasets show that CTCNet remarkably outperforms existing AVSS methods with considerablely fewer parameters. These results suggest that mimicking the anatomical connectome of the mammalian brain has great potential for advancing the development of deep neural networks. Project repo is https://github.com/JusperLee/CTCNet.
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
本文调查了视听扬声器表示的自我监督的预训练,其中显示了视觉流,显示说话者的口腔区域与语音一起用作输入。我们的研究重点是视听隐藏单元BERT(AV-HUBERT)方法,该方法是最近开发的通用音频语音训练前训练框架。我们进行了广泛的实验,以探测预训练和视觉方式的有效性。实验结果表明,AV-Hubert可以很好地概括与说话者相关的下游任务,从而使标签效率提高了大约10倍的仅10倍,仅音频和视听扬声器验证。我们还表明,结合视觉信息,甚至仅仅是唇部区域,都大大提高了性能和噪声稳健性,在清洁条件下将EER降低了38%,在嘈杂的条件下将EER降低了75%。
translated by 谷歌翻译
本文提出了一种语音分离的视听方法,在两种情况下以低潜伏期产生最先进的结果:语音和唱歌声音。该模型基于两个阶段网络。运动提示是通过轻巧的图形卷积网络获得的,该网络处理面对地标。然后,将音频和运动功能馈送到视听变压器中,该变压器对隔离目标源产生相当好的估计。在第二阶段,仅使用音频网络增强了主导语音。我们提出了不同的消融研究和与最新方法的比较。最后,我们探讨了在演唱语音分离的任务中训练训练语音分离的模型的可传递性。https://ipcv.github.io/vovit/可用演示,代码和权重
translated by 谷歌翻译
Context-sensitive two-point layer 5 pyramidal cells (L5PCs) were discovered as long ago as 1999. However, the potential of this discovery to provide useful neural computation has yet to be demonstrated. Here we show for the first time how a transformative L5PCs-driven deep neural network (DNN), termed the multisensory cooperative computing (MCC) architecture, can effectively process large amounts of heterogeneous real-world audio-visual (AV) data, using far less energy compared to best available 'point' neuron-driven DNNs. A novel highly-distributed parallel implementation on a Xilinx UltraScale+ MPSoC device estimates energy savings up to 245759 $ \times $ 50000 $\mu$J (i.e., 62% less than the baseline model in a semi-supervised learning setup) where a single synapse consumes $8e^{-5}\mu$J. In a supervised learning setup, the energy-saving can potentially reach up to 1250x less (per feedforward transmission) than the baseline model. The significantly reduced neural activity in MCC leads to inherently fast learning and resilience against sudden neural damage. This remarkable performance in pilot experiments demonstrates the embodied neuromorphic intelligence of our proposed cooperative L5PC that receives input from diverse neighbouring neurons as context to amplify the transmission of most salient and relevant information for onward transmission, from overwhelmingly large multimodal information utilised at the early stages of on-chip training. Our proposed approach opens new cross-disciplinary avenues for future on-chip DNN training implementations and posits a radical shift in current neuromorphic computing paradigms.
translated by 谷歌翻译
This paper studies audio-visual suppression for egocentric videos -- where the speaker is not captured in the video. Instead, potential noise sources are visible on screen with the camera emulating the off-screen speaker's view of the outside world. This setting is different from prior work in audio-visual speech enhancement that relies on lip and facial visuals. In this paper, we first demonstrate that egocentric visual information is helpful for noise suppression. We compare object recognition and action classification based visual feature extractors, and investigate methods to align audio and visual representations. Then, we examine different fusion strategies for the aligned features, and locations within the noise suppression model to incorporate visual information. Experiments demonstrate that visual features are most helpful when used to generate additive correction masks. Finally, in order to ensure that the visual features are discriminative with respect to different noise types, we introduce a multi-task learning framework that jointly optimizes audio-visual noise suppression and video based acoustic event detection. This proposed multi-task framework outperforms the audio only baseline on all metrics, including a 0.16 PESQ improvement. Extensive ablations reveal the improved performance of the proposed model with multiple active distractors, over all noise types and across different SNRs.
translated by 谷歌翻译
当缺乏口头交流的范围时,例如,对于失去说话能力的患者,语言运动的产生和增强有助于沟通。尽管已经提出了各种技术,但电视学(EPG)是一种监测技术,记录了舌头和硬口感之间的接触,但尚未得到充分探索。本文中,我们提出了一种新型的多模式EPG到语音(EPG2S)系统,该系统利用EPG和语音信号进行语音产生和增强。研究了基于EPG和嘈​​杂语音信号的多种组合的不同融合策略,并研究了该方法的生存能力。实验结果表明,EPG2仅基于EPG信号实现了理想的语音产生结果。此外,观察到嘈杂的语音信号的添加以提高质量和清晰度。此外,观察到EPG2S仅基于音频信号实现高质量的语音增强,而添加EPG信号进一步改善了性能。晚期的融合策略被认为是同时言语产生和增强的最有效方法。
translated by 谷歌翻译
本文着重于设计一种噪声端到端音频语音识别(AVSR)系统。为此,我们提出了视觉上下文驱动的音频功能增强模块(V-Cafe),以在视听通讯的帮助下增强输入噪声音频语音。所提出的V-Cafe旨在捕获唇部运动的过渡,即视觉上下文,并通过考虑获得的视觉上下文来产生降噪面膜。通过与上下文相关的建模,可以完善掩模生成Viseme-to-phoneme映射中的歧义。嘈杂的表示用降噪面膜掩盖,从而增强了音频功能。增强的音频功能与视觉特征融合在一起,并将其带入由构象异构体和变压器组成的编码器模型,以进行语音识别。我们显示了带有V-fafe的端到端AVSR,可以进一步改善AVSR的噪声。使用两个最大的视听数据集LRS2和LRS3评估了所提出方法的有效性。
translated by 谷歌翻译
基于音频的自动语音识别(ASR)在嘈杂的环境中显着降低,并且特别容易受到干扰语音的影响,因为模型无法确定要转录的扬声器。视听语音识别(AVSR)系统通过将音频流与不变噪声不变的可视信息补充,帮助模型对所需扬声器的视觉信息来提高鲁棒性。但是,以前的AVSR工作仅关注监督学习设置;因此,通过可用的标记数据量阻碍了进度。在这项工作中,我们提出了一个自我监督的AVSR框架,建立在视听休伯特(AV-HUBERT),是最先进的视听语音表示学习模型。在最大可用的AVSR基准数据集LRS3中,我们的方法在存在的情况下使用少于10%的标签数据(433HR与30HR)之前的最先进(28.0%与14.1%)优于〜50%(28.0%vs.14.1%)禁止噪声,平均减少了基于音频模型的WER以上超过75%(25.8%与5.8%)。
translated by 谷歌翻译
The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as offered, for example, in the video-based MELD dataset. However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the detection of the person speaking the utterance. In this paper we demonstrate that by using recent automatic speech recognition and active speaker detection models, we are able to realign the videos of MELD, and capture the facial expressions from uttering speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD videos more closely match the corresponding utterances offered in the dataset. Finally, we devise a model for emotion recognition in conversations trained on the face and audio information of the MELD realigned videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that active speaker detection is indeed effective for extracting facial expressions from the uttering speakers, and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far.
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
对语音增强系统的培训通常不会纳入人类感知的知识,因此可能导致不自然的声音结果。通过预测网络将精神上动机的语音感知指标纳入模型培训的一部分,最近引起了人们的兴趣。但是,此类预测因子的性能受到培训数据中出现的度量分数的分布的限制。在这项工作中,我们提出了Metricgan +/-(Metricgan+的扩展,一个这样的度量动机系统),该系统引入了一个额外的网络 - 一个“脱发器”,该网络试图改善预测网络的稳健性(并通过扩展。发电机)通过确保观察训练中更广泛的度量得分。VoiceBank数据集的实验结果显示,PESQ得分的相对改善为3.8%(3.05 vs 3.22 PESQ得分),以及更好地概括对看不见的噪音和语音。
translated by 谷歌翻译
通常,基于生物谱系的控制系统可能不依赖于各个预期行为或合作适当运行。相反,这种系统应该了解未经授权的访问尝试的恶意程序。文献中提供的一些作品建议通过步态识别方法来解决问题。这些方法旨在通过内在的可察觉功能来识别人类,尽管穿着衣服或配件。虽然该问题表示相对长时间的挑战,但是为处理问题的大多数技术存在与特征提取和低分类率相关的几个缺点,以及其他问题。然而,最近的深度学习方法是一种强大的一组工具,可以处理几乎任何图像和计算机视觉相关问题,为步态识别提供最重要的结果。因此,这项工作提供了通过步态认可的关于生物识别检测的最近作品的调查汇编,重点是深入学习方法,强调他们的益处,暴露出弱点。此外,它还呈现用于解决相关约束的数据集,方法和体系结构的分类和表征描述。
translated by 谷歌翻译