鉴于最近深度学习的发展激增,本文提供了对音频信号处理的最新深度学习技术的回顾。语音,音乐和环境声音处理被并排考虑,以指出领域之间的相似点和不同点,突出一般方法,问题,关键参考和区域之间相互交流的可能性。回顾了主要特征表示(特别是log-mel光谱和原始波形)和deeplearning模型,包括卷积神经网络,长期短期记忆体系结构的变体,以及更多音频特定的神经网络模型。随后,涵盖了突出的深度学习应用领域,即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)和合成与转换(源分离,音频增强,语音,声音和音乐合成的生成模型)。最后,确定了应用于音频信号处理的深度学习的关键问题和未来问题。
translated by 谷歌翻译
我们提出了两种端到端模型:音频到字节(A2B)和字节到音频(B2A),用于多语言语音识别和合成。以前的工作主要使用字符,子词或单词作为选择单元的文本。这些单元很难扩展到具有大型词汇的语言,特别是在多语言处理的情况下。在这项工作中,我们通过一系列Unicode字节对文本进行建模,特别是每个字符的UTF-8可变长度字节序列。字节允许我们避免使用具有大词汇量的语言中的largesoftmax,并在多语言模型中共享表示。我们表明,在单语言端到端语音识别中,字节优于各种语言的字形字符。另外,我们的多语言字节模型相对于每个单独的单语言基线平均优于4.4%。在日语 - 英语代码转换语音中,我们的多语言字节模型相对于我们的单语言基线表现优于38.6%。最后,我们使用字节表示来呈现端到端多语言语音合成模型,该模型与我们的单语基线的性能相匹配。
translated by 谷歌翻译
直接预测输入语音的输出字符序列的端到端(E2E)模型是用于设备上语音识别的良好候选者。然而,E2E模型提出了许多挑战:为了真正有用,这些模型必须实时地以流方式解码语音话语;它们对用例的长尾必须是健壮的;他们必须能够利用特定于用户的上下文(例如,联系人列表);最重要的是,它们必须非常准确。在这项工作中,我们描述了我们使用递归神经网络传感器构建E2Espeech识别器的努力。在实验评估中,我们发现在许多评估类别中,所提出的方法在延迟和准确性方面都优于传统的基于CTC的模型。
translated by 谷歌翻译
改善上下文信息的表示是解开端到端(E2E)自动语音识别(ASR)潜力的关键。在这项工作中,我们提出了一种新颖而简单的方法,用于训练ASR上下文机制和困难的反面例子。主要思想是在参考文献中关注专有名词(例如,人和地名等独特实体),并使用语音相似的短语作为否定样本,鼓励神经模型学习更多的歧视性代表。我们将我们的方法应用于端到端的上下文ASR模型,该模型共同学习转录和选择正确的上下文项,并且表明我们提出的方法在几个基准测试中提供了高达$ 53.1 \%$的相对改进的worderror率(WER)。
translated by 谷歌翻译
在自动语音识别(ASR)中,用户所说的内容取决于她所处的特定上下文。通常,此上下文表示为一组单词n-gram。在这项工作中,我们提出了一个利用这种背景的新颖的,全神经的端到端(E2E)ASR系统。我们的方法,我们称之为语境听,参与和拼写(CLAS)联合优化ASR组件以及嵌入上下文n-gram。在推理期间,可以向CLAS系统呈现上下文短语,其可能包含在训练期间未见的词汇外(OOV)术语。我们将我们提出的系统与更传统的情境化方法进行比较,这种方法在独立训练的LAS和光束搜索期间的上下文n-gram模型之间进行低速融合。在许多任务中,我们发现所提出的CLAS系统优于基线方法的相对WER高达68%,这表明联合优化优于单独训练的组件。索引术语:语音识别,序列到序列模型,听力参与和拼写,LAS,注意力,嵌入式语音识别。
translated by 谷歌翻译
基于注意的递归神经编码器 - 解码器模型为自动语音识别问题提出了一种解决方案。该方法将声学模型,发音模型和语言模型折叠成单个网络,并且仅需要用于训练的平行语音和文本语料库。然而,与组合单独的声学和语言模型的传统方法不同,不清楚如何使用附加(未配对)文本。虽然以前有关于解决这个问题的方法的工作,但仍然缺乏对方法的全面比较。在本文中,我们比较了一套过去的方法和一些我们自己提出的使用不成对文本数据来改进编码器 - 解码器模型的方法。为了评估,我们使用中型交换板数据集和大规模Google语音搜索和听写数据集。我们的结果证实了在一系列方法和数据集中使用不成对文本的好处。令人惊讶的是,对于第一次通过解码,浅聚变的相当简单的方法在数据集中表现最佳。然而,对于Googledata集合,我们发现冷融合具有较低的oracle错误率,并且在Google语音搜索数据集上的第二次重新扫描之后表现出其他方法。
translated by 谷歌翻译
推荐系统在音乐流媒体服务中发挥着重要作用,显着地以个性化播放列表的形式。探索这些监听会话中的用户交互可以有益于在单个会话的上下文中理解用户偏好。在“SpotifySequential Skip Prediction Challenge”中,WSDM和Spotify正在挑战人们了解用户按顺序与音乐互动的方式。我们在本文中描述了我们的解决方法,并且还提出了进一步改进模型的建议。所提出的模型最初生成会话的固定向量表示,并且该附加信息被并入到编码器 - 解码器样式架构中。该方法在竞争中取得了第七的位置,在测试集中的平均准确度为0.604。解决方案代码可从以下网址获得://github.com/sainathadapa/spotify-sequential-skip-prediction。
translated by 谷歌翻译
机器人辅助体外超声系统的发展历史悠久,自20世纪90年代以来,已经提出了许多项目,重点放在不同的技术方面。这些旨在解决现场手动操作手持式超声探头的不足。本文介绍了一系列定制机器人系统的最新进展,包括单臂和双臂版本,用于已知的智能胎儿成像和诊断(iFIND)项目。在简要回顾了用于胎儿和腹部检查的体外超声机器人系统的发展历史后,介绍了iFIND机器人的具体目标,设计演变,每个版本的实施细节以及iFIND机器人系列的初步临床反馈。基于这些新提出的机器人对30名志愿者的初步测试,对机电一体化系统的成功和可靠的工作进行了验证。对参与者问卷的分析表明,志愿者的扫描经验很舒适,机器人扫描的接受率很高。
translated by 谷歌翻译
与大型天线阵列的毫米波(mmWave)通信是一种非常有用的技术,可以通过大的可用带宽实现极高的数据速率。鉴于最佳定向波束形成向量的知识,已经证明大型天线阵列克服了mmWave中的严重信号衰减。然而,仍然存在最佳波束形成向量的基本限制和可实现的学习。本文考虑了通信初始接入阶段波束形成向量的自适应和顺序优化问题。利用单路径信道模型,问题被简化为主动学习从用户发送到基站(BS)的信号的到达角(AoA)。利用分层波束形成码本[1]的设计,顺序测量依赖噪声搜索[2]以及不完美标记[3]的主动学习的最新结果,提出了一种自适应和顺序对齐算法。给出估计的AoA的分辨率和错误概率的Forany,通过外在的Jensen Shannon Divergence导出所提出的算法的预期搜索时间的上限。上限表明,所提出的算法的时间点渐近地将无噪声二分搜索的性能与表征AoAacquisition率的常数因子进行匹配。此外,所获取的AoA误差概率随着搜索时间以指数快速衰减,其中指数是获取率的递减函数。在数值上,所提出的算法与先前的工作相比较,其中观察到系统通信速率的显着改善。最值得注意的是,在低(-10dB至5dB)原始SNR的相关制度中,这为初始接入建立了第一个实际可行的解决方案,因此,首次演示了独立的mmWave通信。
translated by 谷歌翻译
设计用于自动驾驶车辆和无人驾驶飞机的实时感知系统的最大挑战之一是安全性(高预测精度)和效率的冲突要求。传统方法使用整个系统的单帧速率。由于观察到环境因素的鲁棒性是紧凑型ConvNet架构的主要弱点,我们提出了一种双帧速率系统,它带来了两个方面的优势:一种调制器流,可在低帧时执行对环境因素稳健的昂贵模型提取描述环境的缓慢变换特征的速率,并且预测流实时地执行轻量级模型以提取描述当前帧的特性的瞬态信号。我们的广泛实证研究证实了我们设计的优势,表明我们的解决方案使用各种主干架构选择和输入分辨率引领了一致的改进。这些研究结果表明,多个帧速率系统是设计自主代理的有效感知的一个前提方向。
translated by 谷歌翻译