条件生成对抗网络(GAN)中的对抗性损失未被设计为直接优化目标任务的评估度量,因此,可能不总是引导GAN中的生成器生成具有改进的度量分数的数据。为了克服这个问题,我们提出了一种新颖的MetricGAN方法,旨在针对一个或多个评估指标优化发电机。此外,基于MetricGAN,生成数据的度量分数也可以由用户任意指定。我们在语音增强任务上测试了所提出的MetricGAN,这特别适合于验证所提出的方法,因为存在多个度量来测量语音信号的不同方面。此外,这些指标通常是复杂的,并且无法通过Lp或传统的对抗性无法完全优化。
translated by 谷歌翻译
利用与人类感知相关的目标函数来训练一个增强模型已成为最近的一个热门话题。这主要是因为传统的均方误差(MSE)损失不能很好地反映听觉感知。在与人类感知相关的指标中,语音质量的感知评估(PESQ)是典型的,并且已被证明与人类评定的质量评分具有高度相关性。然而,由于其复杂且不可微分的特性,PESQ功能可能不会用于直接优化语音增强模型。在这项研究中,我们建议用近似的PESQ函数优化增强模型,该函数是可区分的,并从训练数据中学习。实验结果表明,与基于MSE的预训练模型相比,通过学习损失函数的增强语音微调的平均PESQ得分可以进一步提高0.1个点。
translated by 谷歌翻译
在嘈杂的环境中,如果他/她熟悉语言,则可以由听众自动恢复有损语音信号。也就是说,利用“语言模型”的内置墨水,收听者可以有效地抑制噪声干扰并检索目标语音信号。因此,我们认为熟悉口头语言的潜在语言内容有利于嘈杂环境中的语音增强(SE)。在本研究中,除了用于学习声学噪声清晰度映射的传统建模之外,抽象符号顺序建模被并入SE框架中。这种符号顺序建模可以被认为是学习声学噪声清晰语音映射函数的“语言约束”。在这项研究中,声学信号的符号序列通过矢量量化变分自动编码器算法获得离散表示。所获得的符号能够从语音信号中捕获高级音素类内容。实验结果表明,所提出的框架能够显着提高TIMIT数据集上语音质量(PESQ)和短时目标可懂度(STOI)的感知评估的SE性能。
translated by 谷歌翻译
现有的语音转换(VC)客观评估指标并不总是与人类感知相关。因此,用这样的标准训练VC模型可能无法有效地改善转换语音的自然性和相似性。在本文中,我们提出基于深度学习的评估模型来预测转换语音的人类评级。我们采用卷积和递归神经网络模型来建立一个平均意见得分(MOS)预测器,称为MOSNet。所提出的模型在语音转换挑战(VCC)2018的大规模测试结果上进行测试。实验结果表明,所提出的MOSNet的预测分数与系统级的人类MOS评级高度相关,而与人类MOS评级相关。话语水平。同时,我们修改了MOSNet来预测相似性得分,初步结果表明预测得分也与人类评级相关。这些结果证实了所提出的模型可以作为计算评估者来衡量VC系统的MOS来减少需要昂贵的人力评级。
translated by 谷歌翻译
本文介绍了基于变换自动编码器(VAE)的语音转换(VC)的WaveNet声码器的改进框架,它减少了训练数据和测试数据之间不匹配引起的质量失真。传统的WaveNet声码器采用自然声学特征进行训练,但对VC转换阶段的转换特征进行了调节,这种不匹配通常会导致显着的质量和相似性降低。在这项工作中,我们利用VAE的特定结构来改进具有由VAE生成的自重构特征的WaveNet声码器,其具有与转换的特征类似的特征,同时具有与目标训练数据相同的数据长度。换句话说,我们提出的方法不需要任何对齐。客观和主观的实验结果证明了我们提出的框架的有效性。
translated by 谷歌翻译
许多人患有语音障碍,这会对他们的生活质量产生不利影响。作为回应,一些研究人员提出了基于语音信号自动评估这些疾病的算法。然而,这些信号可能对记录设备敏感。实际上,渠道效应是医疗机器学习中普遍存在的问题。在这项研究中,我们提出了一种病理性语音检测系统,它可以对抗通道效应。该系统基于双向LSTMnetwork。为了提高针对信道不匹配的性能稳健性,我们整合了域对抗性训练(DAT)以消除设备之间的差异。当我们训练录制在高质量麦克风上的数据并评估没有标签的智能手机数据时,我们强大的检测系统将PR-AUC从0.8448增加到0.9455(目标样本标签为0.9522)。据我们所知,这是第一个将不受控制的域适应应用于病理语音检测的研究。值得注意的是,我们的系统不需要目标设备样本标签,这允许对许多新设备进行概括。
translated by 谷歌翻译
本文的重点是使用语音转换(VC)来提高手术患者的语音清晰度,这些患者的部分清除器被移除。由于数据收集的困难,非常需要没有并行数据的VC。尽管已经开发了用于不平行VC的技术,例如CycleGAN,但它们通常专注于转换说话者身份,并且直接将一个说话者的语音转换为另一个说话者的语音,因此这里没有解决任务。在本文中,我们提出了一种针对不平行VC的新方法。所提出的方法在保留语言内容和说话人特征的同时改变了受损的语音正常语音。据我们所知,这是第一个应用于语音受损的端到端GAN-basedunsupervised VC模型。实验结果表明,该方法优于CycleGAN。
translated by 谷歌翻译
对先进的驾驶员辅助系统和自主机器人和车辆中的物体检测越来越感兴趣。为了实现这样的创新系统,我们需要更快的物体检测。在这项工作中,我们研究了准确性和速度之间的权衡与领域特定的近似,即类别感知的图像大小缩放和提议缩放,用于基于两种技术的基于深度学习的对象检测元架构。 Westudy有效地应用静态和动态近似来理解它们的潜力和适用性。通过在ImageNet VID数据集上进行实验,我们证明了特定于域的近似具有提高系统速度的巨大潜力,而不会降低物体检测器的精度,即动态域特定近似的高达7.5倍速。为此,我们提出了我们对收集特定领域的近似的看法,以及设计概念验证运行时AutoFocus,它利用动态域特定的近似。
translated by 谷歌翻译
非并行语音转换(VC)的有效方法是利用深度神经网络(DNN),特别是变分自动编码器(VAE),以无监督的方式对语音的潜在结构进行编码。先前的研究证实了使用STRAIGHT光谱对VC进行VAE的有效性。然而,VAE使用其他类型的光谱特征,例如与人类感知相关并且已广泛用于VC的梅尔斯特系数(MCCs),尚未得到正确的研究。不是使用特定类型的光谱特征,而是预期VAE可以同时使用多种类型的光谱特征而受益,从而提高VAE对VC的能力。为此,我们为VC提出了一种新颖的VAE框架(称为跨域VAE,CDVAE)。具体而言,所提出的框架通过明确地规定多个目标来使用STRAIGHT光谱和MCC,以便约束所学习的编码器和解码器的行为。实验结果表明,所提出的CD-VAE框架在主观测试方面优于传统的VAE框架。
translated by 谷歌翻译
大量研究已经研究了神经网络量化对模式分类任务的有效性。本研究首次使用新的无指数浮点量化神经网络(EOFP-QNN)研究了语音增强(回归任务检查处理)的性能。所提出的EOFP-QNN包括两个阶段:尾数量化和指数量化。在尾数量化阶段,EOFP-QNN学习如何量化模型参数的尾数位,同时使用最少的mantissaprecision保持回归精度。在指数量化阶段,参数的指数部分被进一步量化,而不会引起任何额外的性能退化。我们在语音增强任务上评估了两种神经网络上提出的EOFP量化技术,即双向长短期记忆(BLSTM)和卷积神经网络(FCN)。实验结果表明,模型大小可以显着减少(量子化BLSTM和FCN模型的模型尺寸分别仅为原始模型的18.75%和21.89%,同时保持了令人满意的语音增强性能。
translated by 谷歌翻译