像Amazon Echo或Google Home这样的语音控制的家用设备面临着在干扰背景语音的情况下执行设备导向语音的语音识别的问题,即,背景噪声和来自其他人或附近的媒体设备的干扰语音需要被保护。我们提出了两个端到端模型来解决从“锚定部分”中提取的信息。锚定段指的是音频流的唤醒字部分,其包含可用于抑制干扰语音和背景噪声的有价值的说话者信息。第一种方法被称为“多源注意”,其中注意力机制将扬声器信息和解码器状态都考虑在内。第二种方法直接在编码器输出的顶部学习帧级掩码。我们还探索了一个多任务学习设置,我们使用面具的基本事实来指导学习者。鉴于我们的训练数据集中的语音内部的音频数据很少,我们还提出了一种从“干净”语音合成“噪声”语音的方法,以减轻训练和测试数据之间的不匹配。我们提出的方法显示,亚马逊Alexa实时数据的WER相对减少了15%,干扰背景语音,而干净的语音没有显着降低。
translated by 谷歌翻译
对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
本文介绍了远场域中的耳语语音检测器。所提出的系统包括在对数滤波器组能量(LFBE)声学特征上训练的长短期记忆(LSTM)神经网络。该模型是在人耳与耳语和正常发声模式中的语音控制远场设备的交互记录中进行训练和评估的。我们通过检查LSTM后验的轨迹来比较话语级别分类的多种推理方法。此外,我们根据耳语语音固有的信号特征设计了一套功能,并评估了它们在进一步将耳语与正常语音分离的有效性。使用多层感知器(MLP)和LSTM对这些特征进行基准测试表明所提出的特征与LFBE功能,可以帮助我们进一步改进我们的分类器。我们证明,有了足够的数据,LSTM模型确实能够学习单独使用LFBEfeatures的耳语特征,而简单的MLP模型使用LFBE和用于分离耳语和正常语音的特征。此外,我们证明通过引入所提出的工程特征,可以进一步提高LSTM分类器的准确度。
translated by 谷歌翻译
在这项工作中,我们提出了一种分类器,用于在与语音助手的交互环境中区分设备导向的查询和背景语音。应用程序包括拒绝错误唤醒或非预期的交互以及启用无唤醒后续查询。考虑示例交互:$“计算机,〜播放〜音乐”,“计算机,〜减少〜音量”$。在此交互中,用户需要重复第二次查询的唤醒字($ Computer $)。为了允许更自然的交互,设备可以在第一次查询之后立即重新进入收听状态(没有唤醒单词重复)并接受或拒绝潜在的后续作为设备指导的或背景语音。所提出的模型包括两个长期短期记忆(LSTM)神经网络,分别训练在声学特征和自动语音识别(ASR)1-最佳假设。然后训练前馈深度神经网络(DNN)以将来自LSTM的声学和1最佳嵌入与来自ASR解码器的特征相结合。实验结果表明,ASR解码器,声学嵌入和1-best嵌入分别产生$ 9.3~ \%$,$ 10.9~ \%$和$ 20.1~ \%$的等误差率(EER)。这些特征的组合导致了$ 44~ \%$的相对改善和afinal EER为$ 5.2~ \%$。
translated by 谷歌翻译
在当代深度学习话语中,有两件事似乎是无可争辩的:1。softmax激活后的分类交叉熵损失是分类的首选方法。 2.从小数据集上划分训练CNN分类器效果不佳。与此相反,我们证明余弦损失函数比数据集上的交叉熵提供了明显更好的性能,每类只有少量样本。例如,没有预训练的CUB-200-2011数据集的准确度比交叉熵损失高30%。另外四个流行数据集的实验证实了我们的发现。此外,我们表明,通过以类层次结构的形式整合priorknowledge可以进一步提高分类性能,这对于肌腱损失是直截了当的。
translated by 谷歌翻译
机器人的手动引导已被证明是编程轨迹和运动学教学的有用工具。然而,手动引导通常被分配给拥有关节扭矩传感器(JTS)的机器人。在这里,我们建议通过使用一个增强现实(AR)设备,即微软的Hololens,向缺少这些传感器的机器人扩展手部指导。增强现实设备已经被设想为一种有用的补充,可以简化机器人编程并提高与机器人紧密相关的人的态势感知能力。我们通过使用配准算法来引用机器人以将机器人模型与空间网格匹配。然后使用内置的手部跟踪能力来计算手相对于机器人的位置。通过将手部运动分解为正交旋转,可以实现完全无传感器的手部引导,而无需构建机器人本身的动态模型。我们对通常使用的工业机械手KUKA KR-5进行了第一次测试。
translated by 谷歌翻译
用于交互式语音识别系统的语言模型(LM)在大量数据上被训练,并且模型参数在过去的用户数据上被优化。随着时间的推移,为这些系统发布了新的应用程序意图和交互类型,这对于调整LM提出了挑战,因为现有的训练数据不再足以模拟未来的用户交互。目前还不清楚如何在不降低现有应用程序性能的情况下使LM适应新的应用程序意图。在本文中,我们提出了一种解决方案:(a)直接从用于trainingLM的手写语法估计n-gram计数;(b)使用约束优化来优化未来用例的系统参数,同时不降低过去使用的性能。 Wee评估了我们针对个人助理系统的新应用意图的方法,并发现即使没有适用于应用的适应数据,自适应也会使新应用的字错误率提高多达15%。
translated by 谷歌翻译
识别来自一大群可能的个体的动物对于生物多样性监测非常重要,特别是对于收集数量特别有趣的个体的数据非常重要,因为在这之前必须首先识别这些动物。识别它们可能是一项非常耗时的任务。尤其如此,如果动物看起来非常类似,并且只有少数独特的特征,就像大象那样。在大多数情况下,动物只停留在一个地方很短的时间,在此期间需要确定动物是否知道重要的是在其上收集新的数据。出于这个原因,支持研究人员识别大象以加速这一过程的系统将是非常有益的。在本文中,我们提出了这样一种系统,用于识别面对大量个体的大象,每个人只有很少的训练图像。我们将目标部分定位,现成的CNN特征和支持向量机分类结合起来,为现场研究提供可能给予大象新图像的可能个体的建议。我们的系统的性能在一个数据集上得到了证明,该数据集包含276个单独大象的总共2078个图像,其中我们实现了56%的前1个测试精度和80%前10个精度。为了处理数据集中存在的遮挡,变化的视点和不同的姿势,我们进一步使分析人员能够为系统提供要识别的同一大象的多个图像以及由分类器生成的聚合置信度值。因此,我们的系统在保持的测试数据集上实现了74%的前1精度和88%的前10精度。
translated by 谷歌翻译
随着物流业务的大幅增长,对大型软件厂及其自动化的需求也随之产生,因此使用机器人作为人类工作人员的助手正成为当务之急。为了有效和安全地操作,机器人助手或监督系统应该实时识别人的意图。心理理论(ToM)是一种直观的人类对其他人的心理状态的概念,即信仰和欲望,以及它们如何引起行为。在本文中,我们提出了一种基于ToM的柔性机器人仓库人类意图估计算法。我们观察人类,即工人的运动,并使用基于广义的基于图的路径规划对目标位置进行验证。然后通过所提出的隐马尔可夫模型框架处理这些观察,该框架以在线方式估计工人意图,能够处理变化的环境。为了测试建议的意图估计,我们在一个真实世界的实验室软件中进行了实验,其中一名工作人员戴着Microsoft Hololens增强现实眼镜。此外,为了展示大型软件房屋方法的可扩展性,我们建议使用虚拟现实数字仓库双胞胎进行实际测试。模拟工人的行为。我们在大型仓库数字双胞胎中进行了意向估算实验,最多可运行24台机器人。我们证明了所提出的框架可以精确估算仓库工人的意图,最后我们讨论了实验结果。
translated by 谷歌翻译
在本文中,我们提出了一种自我监督的表示学习方法,利用两种不同的方式。基于对跨模态信息具有高语义意义的观察,我们提出了一种有效地利用该信号的方法。对于我们的方法,我们利用视频数据,因为它可以大规模使用,并提供由RGB和光流提供的易于访问的模态。我们在自我监督学习的背景下展示了高度评价的动作识别数据集的最新表现。我们表明,我们的特征表示也转移到其他任务并进行广泛的消融研究,以验证我们的核心贡献。
translated by 谷歌翻译