像Amazon Echo或Google Home这样的语音控制的家用设备面临着在干扰背景语音的情况下执行设备导向语音的语音识别的问题,即,背景噪声和来自其他人或附近的媒体设备的干扰语音需要被保护。我们提出了两个端到端模型来解决从“锚定部分”中提取的信息。锚定段指的是音频流的唤醒字部分,其包含可用于抑制干扰语音和背景噪声的有价值的说话者信息。第一种方法被称为“多源注意”,其中注意力机制将扬声器信息和解码器状态都考虑在内。第二种方法直接在编码器输出的顶部学习帧级掩码。我们还探索了一个多任务学习设置,我们使用面具的基本事实来指导学习者。鉴于我们的训练数据集中的语音内部的音频数据很少,我们还提出了一种从“干净”语音合成“噪声”语音的方法,以减轻训练和测试数据之间的不匹配。我们提出的方法显示,亚马逊Alexa实时数据的WER相对减少了15%,干扰背景语音,而干净的语音没有显着降低。
translated by 谷歌翻译
对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
本文介绍了远场域中的耳语语音检测器。所提出的系统包括在对数滤波器组能量(LFBE)声学特征上训练的长短期记忆(LSTM)神经网络。该模型是在人耳与耳语和正常发声模式中的语音控制远场设备的交互记录中进行训练和评估的。我们通过检查LSTM后验的轨迹来比较话语级别分类的多种推理方法。此外,我们根据耳语语音固有的信号特征设计了一套功能,并评估了它们在进一步将耳语与正常语音分离的有效性。使用多层感知器(MLP)和LSTM对这些特征进行基准测试表明所提出的特征与LFBE功能,可以帮助我们进一步改进我们的分类器。我们证明,有了足够的数据,LSTM模型确实能够学习单独使用LFBEfeatures的耳语特征,而简单的MLP模型使用LFBE和用于分离耳语和正常语音的特征。此外,我们证明通过引入所提出的工程特征,可以进一步提高LSTM分类器的准确度。
translated by 谷歌翻译
在这项工作中,我们提出了一种分类器,用于在与语音助手的交互环境中区分设备导向的查询和背景语音。应用程序包括拒绝错误唤醒或非预期的交互以及启用无唤醒后续查询。考虑示例交互:$“计算机,〜播放〜音乐”,“计算机,〜减少〜音量”$。在此交互中,用户需要重复第二次查询的唤醒字($ Computer $)。为了允许更自然的交互,设备可以在第一次查询之后立即重新进入收听状态(没有唤醒单词重复)并接受或拒绝潜在的后续作为设备指导的或背景语音。所提出的模型包括两个长期短期记忆(LSTM)神经网络,分别训练在声学特征和自动语音识别(ASR)1-最佳假设。然后训练前馈深度神经网络(DNN)以将来自LSTM的声学和1最佳嵌入与来自ASR解码器的特征相结合。实验结果表明,ASR解码器,声学嵌入和1-best嵌入分别产生$ 9.3~ \%$,$ 10.9~ \%$和$ 20.1~ \%$的等误差率(EER)。这些特征的组合导致了$ 44~ \%$的相对改善和afinal EER为$ 5.2~ \%$。
translated by 谷歌翻译
在本文中,我们提出了一种不精确的块坐标下降算法,用于大规模非光滑非凸优化问题。在每次迭代中,通过不精确地求解关于该块变量的原始优化问题来选择和更新特定块变量。更准确地说,解决了原始优化问题的局部近似。所提出的算法具有几个吸引人的特征,即,i)高灵活性,因为近似函数仅需要严格凸起,并且不必是原始函数的全局上界; ii)快速收敛,因为近似函数可以设计为利用手头的问题结构并且通过线搜索计算步长; iii)低复杂度,因为近似子问题更容易解决并且线搜索方案在a上执行适当构造的不同功能; iv)即使目标函数不具有Lipschitz连续梯度,也保证收敛到静止点。有趣的是,当通过下降算法求解近似子问题时,即使通过终止不完全解决了近似子问题,仍然可以保证收敛到静止点。经过有限次迭代后的下降算法。这些特征使得所提出的算法适用于尺寸超过现有硬件的主题和/或处理能力的大规模问题。这些特征还通过信号处理和机器学习中的若干应用来说明,例如,网络异常检测和相位检索。
translated by 谷歌翻译
从语音合成3D面部运动是在诸如计算机游戏和电影之类的众多应用中表现出来的关键问题。最近提出的方法在受控的语音条件下解决了这个问题。在本文中,我们介绍了第一种3D面部运动合成方法,该方法来自在任意记录条件下捕获的语音(“在野外”)并且与扬声器无关。为了我们的目的,我们捕获了4个人类发出500个单词的序列,包含在唇读字(LRW)中,这是一个公开可用的大型野外数据集,并构建了一组适合语音的3D混合形状。我们通过一种名为Deep Canonical Attentional Warping(DCAW)的新型时间扭曲技术将speechblendshapes的3D形状参数与LRW音频样本相关联,该技术可以同时学习分层非线性表示和端到端的扭曲路径方式。我们彻底评估了我们提出的方法,并展示了深度学习模型在不受控制的条件下处理不同扬声器和连续语音信号时合成3D面部运动的能力。
translated by 谷歌翻译
大的类内变化是多个对象特征变化的结果。然而,图像仅显示不同变量因素的叠加,例如外观或形状。因此,学习todisentangle和代表这些不同的特征是一个很大的挑战,特别是在无人监督的情况下。此外,大型物体化需要灵活的基于部件的模型。我们提出了一种无监督的方法,通过在一个类别的所有实例中一致地学习部件来解开外观和形状。我们通过同时利用合成变换图像之间的不变性和等变量约束来训练我们用于学习对象表示的模型。由于需要nopart注释或对象类的先验信息,因此该方法适用于任意类。我们在广泛的对象类别和各种任务上评估我们的方法,包括姿势预测,解缠结图像合成和视频到视频转换。该方法优于无监督关键点预测的最新技术,甚至可以有利地对形状和外观转移任务的监督方法进行比较。
translated by 谷歌翻译
在当代深度学习话语中,有两件事似乎是无可争辩的:1。softmax激活后的分类交叉熵损失是分类的首选方法。 2.从小数据集上划分训练CNN分类器效果不佳。与此相反,我们证明余弦损失函数比数据集上的交叉熵提供了明显更好的性能,每类只有少量样本。例如,没有预训练的CUB-200-2011数据集的准确度比交叉熵损失高30%。另外四个流行数据集的实验证实了我们的发现。此外,我们表明,通过以类层次结构的形式整合priorknowledge可以进一步提高分类性能,这对于肌腱损失是直截了当的。
translated by 谷歌翻译
机器人的手动引导已被证明是编程轨迹和运动学教学的有用工具。然而,手动引导通常被分配给拥有关节扭矩传感器(JTS)的机器人。在这里,我们建议通过使用一个增强现实(AR)设备,即微软的Hololens,向缺少这些传感器的机器人扩展手部指导。增强现实设备已经被设想为一种有用的补充,可以简化机器人编程并提高与机器人紧密相关的人的态势感知能力。我们通过使用配准算法来引用机器人以将机器人模型与空间网格匹配。然后使用内置的手部跟踪能力来计算手相对于机器人的位置。通过将手部运动分解为正交旋转,可以实现完全无传感器的手部引导,而无需构建机器人本身的动态模型。我们对通常使用的工业机械手KUKA KR-5进行了第一次测试。
translated by 谷歌翻译
用于交互式语音识别系统的语言模型(LM)在大量数据上被训练,并且模型参数在过去的用户数据上被优化。随着时间的推移,为这些系统发布了新的应用程序意图和交互类型,这对于调整LM提出了挑战,因为现有的训练数据不再足以模拟未来的用户交互。目前还不清楚如何在不降低现有应用程序性能的情况下使LM适应新的应用程序意图。在本文中,我们提出了一种解决方案:(a)直接从用于trainingLM的手写语法估计n-gram计数;(b)使用约束优化来优化未来用例的系统参数,同时不降低过去使用的性能。 Wee评估了我们针对个人助理系统的新应用意图的方法,并发现即使没有适用于应用的适应数据,自适应也会使新应用的字错误率提高多达15%。
translated by 谷歌翻译