We present a novel approach to improve the performance of learning-based speech dereverberation using accurate synthetic datasets. Our approach is designed to recover the reverb-free signal from a reverberant speech signal. We show that accurately simulating the low-frequency components of Room Impulse Responses (RIRs) is important to achieving good dereverberation. We use the GWA dataset that consists of synthetic RIRs generated in a hybrid fashion: an accurate wave-based solver is used to simulate the lower frequencies and geometric ray tracing methods simulate the higher frequencies. We demonstrate that speech dereverberation models trained on hybrid synthetic RIRs outperform models trained on RIRs generated by prior geometric ray tracing methods on four real-world RIR datasets.
translated by 谷歌翻译
我们提出了一个基于网格的神经网络(MESH2IR),以生成使用网格代表的室内3D场景的声脉冲响应(IRS)。国税局用于在交互式应用程序和音频处理中创建高质量的声音体验。我们的方法可以处理具有任意拓扑结构(2K -3M三角形)的输入三角网格。我们提出了一种新颖的训练技术,可以使用能量衰减缓解培训网格2IR并突出其优势。我们还表明,使用我们提出的技术对IRS进行预处理的培训MESH2IR可显着提高IR发电的准确性。我们通过使用图形卷积网络将3D场景网格转换为潜在空间,从而降低了网格空间中的非线性性。我们的网格2IR比CPU上的几何声学算法快200倍以上,并且在给定的室内3D场景中,在NVIDIA GEFORCE RTX 2080 TI GPU上可以在NVIDIA GEFORCE RTX 2080 TI GPU上产生10,000多个IRS。声学指标用于表征声学环境。我们表明,从我们的网格2IR中预测的IRS的声学指标与地面真相相匹配,误差少于10%。我们还强调了Mesh2ir对音频和语音处理应用的好处,例如语音覆盖和语音分离。据我们所知,我们的是第一种基于神经网络的方法,可以实时预测给定的3D场景网格。
translated by 谷歌翻译
We propose to characterize and improve the performance of blind room impulse response (RIR) estimation systems in the context of a downstream application scenario, far-field automatic speech recognition (ASR). We first draw the connection between improved RIR estimation and improved ASR performance, as a means of evaluating neural RIR estimators. We then propose a GAN-based architecture that encodes RIR features from reverberant speech and constructs an RIR from the encoded features, and uses a novel energy decay relief loss to optimize for capturing energy-based properties of the input reverberant speech. We show that our model outperforms the state-of-the-art baselines on acoustic benchmarks (by 72% on the energy decay relief and 22% on an early-reflection energy metric), as well as in an ASR evaluation task (by 6.9% in word error rate).
translated by 谷歌翻译
我们介绍了Soundspaces 2.0,这是一个用于3D环境的基于几何的音频渲染的平台。考虑到现实世界环境的3D网格,Soundspaces可以为从任意麦克风位置捕获的任意声音生成高度逼真的声音。它与现有的3D视觉资产一起支持一系列视听研究任务,例如视听导航,映射,源定位和分离以及声学匹配。与现有资源相比,Soundspaces 2.0具有允许连续的空间采样,对新型环境的概括以及可配置的麦克风和材料属性的优点。据我们所知,这是第一个基于几何的声学模拟,它提供了高忠诚和现实主义,同时也足够快地用于体现学习。我们展示了模拟器的属性,并根据现实世界的音频测量进行了基准性能。此外,通过涵盖具体导航和远场自动语音识别的两个下游任务,突出了后者的SIM2REAL性能。 Soundspaces 2.0可公开使用,以促进对感知系统的更广泛研究,这些系统既可以看到和听到。
translated by 谷歌翻译
在构建声学和现有房间的声学诊断的背景下,本文介绍了一种新方法,仅从房间脉冲响应(RIR)估计平均吸收系数。通过虚拟监督学习来解决该逆问题,即,使用人工神经网络对模拟数据集的回归隐式学习RIR-ob吸收映射。我们专注于基于良好的架构的简单模型。用于训练模型的几何,声学和仿真参数的关键选择是广泛讨论和研究的,同时在思想中,在思想中,旨在代表建筑物声学领域的条件。将学习的神经模型的估计误差与具有经典公式获得的那些,需要了解房间的几何形状和混响时间。在各种模拟测试集上进行了广泛的比较,突出了所学习模型可以克服这些公式下面弥漫声场假设的众所周知的众所周知的众所周知的不同条件。在声学可配置的房间测量的真实RIR上获得的结果表明,在1〜kHz及以上,当可以可靠地估计混响时间时,所提出的方法可相当于经典模型,即使在不能的情况下也继续工作。
translated by 谷歌翻译
在本文中,我们探索了一个改进的框架,以训练单腔神经增强模型,以识别强大的语音识别。设计的训练框架扩展了现有的混合训练标准,以利用未配对的干净语音和真实的嘈杂数据。发现未配对的干净言语对于提高实际嘈杂言论的分离语音质量至关重要。所提出的方法还对处理和未加工的信号进行混合,以减轻处理工件。单渠道Chime-3真实测试集上的实验表明,在语音识别性能方面,对在不匹配的模拟数据上训练的增强系统的语音识别性能以有监督的方式或以不受欢迎的方式对匹配的真实数据进行了显着改善。与未经处理的信号相比,使用端到端和混合声模型在未经扭曲的数据进行重新纠正的情况下,该系统已实现了16%至39%的相对减少。
translated by 谷歌翻译
房间冲动响应(RIR)函数捕获周围的物理环境如何改变听众听到的声音,对AR,VR和机器人技术中的各种应用产生影响。估计RIR的传统方法在整个环境中采用密集的几何形状和/或声音测量值,但我们探讨了如何根据空间中观察到的一组稀疏图像和回声来推断RIR。为了实现这一目标,我们介绍了一种基于变压器的方法,该方法使用自我注意力来构建丰富的声学环境,然后通过跨注意来预测任意查询源接收器位置的河流。此外,我们设计了一个新颖的训练目标,该目标改善了RIR预测与目标之间的声学​​特征中的匹配。在使用3D环境的最先进的视听模拟器的实验中,我们证明了我们的方法成功地生成了任意RIR,优于最先进的方法,并且在与传统方法的主要背离中 - 以几种方式概括新的环境。项目:http://vision.cs.utexas.edu/projects/fs_rir。
translated by 谷歌翻译
While modern Text-to-Speech (TTS) systems can produce speech rated highly in terms of subjective evaluation, the distance between real and synthetic speech distributions remains understudied, where we use the term \textit{distribution} to mean the sample space of all possible real speech recordings from a given set of speakers; or of the synthetic samples that could be generated for the same set of speakers. We evaluate the distance of real and synthetic speech distributions along the dimensions of the acoustic environment, speaker characteristics and prosody using a range of speech processing measures and the respective Wasserstein distances of their distributions. We reduce these distribution distances along said dimensions by providing utterance-level information derived from the measures to the model and show they can be generated at inference time. The improvements to the dimensions translate to overall distribution distance reduction approximated using Automatic Speech Recognition (ASR) by evaluating the fitness of the synthetic data as training data.
translated by 谷歌翻译
我们研究了在不利环境中学习强大声学模型的问题,其特征是训练和测试条件之间存在显着不匹配。这个问题对于需要在看不见的环境中表现良好的语音识别系统的部署至关重要。首先,我们从理论上将数据增强表征为笼子风险最小化的实例,该实例旨在通过替换在输入空间上定义经验密度的三角洲函数来改善培训期间的风险估计,并具有近似值的近似值。培训样品。更具体地说,我们假设可以使用高斯人的混合物来近似以训练样品为中心的当地社区,并从理论上证明这可以将强大的电感偏置纳入学习过程。然后,我们通过数据增强方案隐式地指定各个混合物组件,旨在解决声学模型中伪造相关性的常见来源。为了避免由于信息丢失而引起的鲁棒性的潜在混杂影响,这与标准特征提取技术(例如Fbank和MFCC功能)有关,我们重点关注基于波形的设置。我们的经验结果表明,该方法可以推广到看不见的噪声条件,与使用标准风险最小化原则进行训练相比,分布外概括的相对改善150%。此外,结果证明了相对于使用旨在匹配测试话语特征的训练样本的模型,相对于模型的竞争性能。
translated by 谷歌翻译
我们听到的每种声音都是连续的卷积操作的结果(例如,室内声学,麦克风特性,仪器本身的共振特性,更不用说声音复制系统的特征和局限性了)。在这项工作中,我们试图确定使用AI执行特定作品的最佳空间。此外,我们使用房间声学作为增强给定声音的感知品质的一种方式。从历史上看,房间(尤其是教堂和音乐厅)旨在主持和提供特定的音乐功能。在某些情况下,建筑声学品质增强了那里的音乐。我们试图通过指定房间冲动响应来模仿这一步骤,这些响应与为特定音乐产生增强的声音质量相关。首先,对卷积架构进行了培训,可以采用音频样本,并模仿各种仪器家族准确性约78%的专家的评分,并具有感知品质的笔记。这为我们提供了任何音频样本的评分功能,可以自动评分音符的感知愉悦度。现在,通过一个大约有60,000个合成冲动响应的库,模仿了各种房间,材料等,我们使用简单的卷积操作来改变声音,就好像它在特定的房间里播放一样。感知评估者用于对音乐声音进行排名,并产生“最佳房间或音乐厅”来播放声音。作为副产品,它还可以使用房间声学将质量差的声音变成“好”声音。
translated by 谷歌翻译
我们介绍了视觉匹配任务,其中音频剪辑被转换为听起来像是在目标环境中记录的。鉴于目标环境的图像和源音频的波形,目标是重新合成音频,以匹配目标室声音的可见几何形状和材料所建议的。为了解决这一新颖的任务,我们提出了一个跨模式变压器模型,该模型使用视听注意力将视觉属性注入音频并生成真实的音频输出。此外,我们设计了一个自我监督的训练目标,尽管他们缺乏声学上不匹配的音频,但可以从野外网络视频中学习声学匹配。我们证明,我们的方法成功地将人类的言语转化为图像中描绘的各种现实环境,表现优于传统的声学匹配和更严格的监督基线。
translated by 谷歌翻译
Binaural audio plays a significant role in constructing immersive augmented and virtual realities. As it is expensive to record binaural audio from the real world, synthesizing them from mono audio has attracted increasing attention. This synthesis process involves not only the basic physical warping of the mono audio, but also room reverberations and head/ear related filtrations, which, however, are difficult to accurately simulate in traditional digital signal processing. In this paper, we formulate the synthesis process from a different perspective by decomposing the binaural audio into a common part that shared by the left and right channels as well as a specific part that differs in each channel. Accordingly, we propose BinauralGrad, a novel two-stage framework equipped with diffusion models to synthesize them respectively. Specifically, in the first stage, the common information of the binaural audio is generated with a single-channel diffusion model conditioned on the mono audio, based on which the binaural audio is generated by a two-channel diffusion model in the second stage. Combining this novel perspective of two-stage synthesis with advanced generative models (i.e., the diffusion models),the proposed BinauralGrad is able to generate accurate and high-fidelity binaural audio samples. Experiment results show that on a benchmark dataset, BinauralGrad outperforms the existing baselines by a large margin in terms of both object and subject evaluation metrics (Wave L2: 0.128 vs. 0.157, MOS: 3.80 vs. 3.61). The generated audio samples (https://speechresearch.github.io/binauralgrad) and code (https://github.com/microsoft/NeuralSpeech/tree/master/BinauralGrad) are available online.
translated by 谷歌翻译
Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
translated by 谷歌翻译
本文介绍了频率卷积神经网络(CNN),用于快速,无创的​​2D剪切波速度(VS)成像的近表面地质材料。在频速度域中运行,可以在用于生成CNN输入的线性阵列,主动源实验测试配置中具有显着的灵活性,这些配置是归一化的分散图像。与波场图像不同,标准化的分散图像对实验测试配置相对不敏感,可容纳各种源类型,源偏移,接收器数量和接收器间距。我们通过将其应用于经典的近乎表面地球物理学问题,即成像两层,起伏的土壤 - 旁质界面的界面来证明频率CNN的有效性。最近,通过开发一个时间距离CNN来研究这个问题,该问题表现出了很大的希望,但在使用不同的现场测试配置方面缺乏灵活性。本文中,新的频道CNN显示出与时距CNN的可比精度,同时提供了更大的灵活性来处理各种现场应用程序。使用100,000个合成近表面模型对频率速度CNN进行了训练,验证和测试。首先,使用训练集的合成近表面模型测试了提议的频率CNN跨各种采集配置概括跨各种采集配置的能力,然后应用于在Austin的Hornsby Bend在Austin的Hornsby Bend收集的实验场数据美国德克萨斯州,美国。当针对更广泛的地质条件范围充分开发时,提出的CNN最终可以用作当前伪2D表面波成像技术的快速,端到端替代方案,或开发用于完整波形倒置的启动模型。
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
我们审查当前的解决方案和技术挑战,以实现自动语音识别,关键字发现,设备仲裁,语音增强和在多边形家庭环境中的来源本地化,以为Interspeech 2022特别会议提供背景,“信号处理和机器学习的挑战和机器,用于多个智能设备”。我们还确定了支持这些研究领域所需的数据集。根据评论和我们在多设备领域的研究经验,我们以对未来进化的前景结论
translated by 谷歌翻译
在对地下地震成像的研究中,求解声波方程是现有模型中的关键成分。随着深度学习的发展,神经网络通过学习输入和方程解决方案之间的映射,特别是波动方程式,将神经网络应用于数值求解部分微分方程,因为如果要花很多时间,传统方法可能会很耗时解决了。以前专注于通过神经网络解决波动方程的工作考虑单个速度模型或多个简单速度模型,这在实践中受到限制。因此,受操作员学习的构想的启发,这项工作利用了傅立叶神经操作员(FNO)在可变速度模型的背景下有效地学习频域地震波场。此外,我们提出了一个与傅立叶神经操作员(PFNO)并行的新框架,以有效地训练基于FNO的求解器,给定多个源位置和频率。数值实验证明了OpenFWI数据集中使用复杂速度模型的FNO和PFNO的高精度。此外,跨数据集泛化测试验证了PFNO适应过分速度模型的。同样,在标签中存在随机噪声的情况下,PFNO具有强大的性能。最后,与传统的有限差异方法相比,PFNO在大规模测试数据集上接受了更高的计算效率。上述优势赋予了基于FNO的求解器的潜力,可以为地震波研究建立强大的模型。
translated by 谷歌翻译
在我们以前的工作中,我们提出了一个歧视性自动编码器(DCAE)进行语音识别。 DCAE将两个训练方案结合在一起。首先,由于DCAE的目标是学习编码器映射,因此重建语音和输入语音之间的平方误差被最小化。其次,在代码层中,基于框架的语音嵌入是通过最小化地面真相标签和预测的Triphone-State分数之间的分类跨熵来获得的。 DCAE是根据Kaldi工具包开发的,通过将各种TDNN模型视为编码器。在本文中,我们进一步提出了三个新版本的DCAE。首先,使用了一个新的目标函数,该函数使用了地面真相和预测的Triphone-State序列之间的分类跨膜和相互信息。所得的DCAE称为基于链的DCAE(C-DCAE)。为了应用于强大的语音识别,我们将C-DCAE进一步扩展到层次结构和平行结构,从而导致HC-DCAE和PC-DCAE。在这两个模型中,重建的嘈杂语音与输入嘈杂语音以及增强语音和参考清洁语音之间的误差之间的误差都归功于目标函数。 WSJ和Aurora-4 Corpora的实验结果表明,我们的DCAE模型优于基线系统。
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程,该过程从视频中推断出中间表示,然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中,我们提出了一个基于生成对抗网络(GAN)的新的端到端视频到语音模型,该模型将口语视频转换为波形端到端,而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成,该体系结构接收原始视频作为输入并生成语音,然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外,我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明,该模型能够用诸如网格之类的受约束数据集重建语音,并且是第一个为LRW(野外唇读)生成可理解的语音的端到端模型,以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本,这些客观指标衡量了人工语音的质量和清晰度。我们证明,所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。
translated by 谷歌翻译