对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
本文介绍了远场域中的耳语语音检测器。所提出的系统包括在对数滤波器组能量(LFBE)声学特征上训练的长短期记忆(LSTM)神经网络。该模型是在人耳与耳语和正常发声模式中的语音控制远场设备的交互记录中进行训练和评估的。我们通过检查LSTM后验的轨迹来比较话语级别分类的多种推理方法。此外,我们根据耳语语音固有的信号特征设计了一套功能,并评估了它们在进一步将耳语与正常语音分离的有效性。使用多层感知器(MLP)和LSTM对这些特征进行基准测试表明所提出的特征与LFBE功能,可以帮助我们进一步改进我们的分类器。我们证明,有了足够的数据,LSTM模型确实能够学习单独使用LFBEfeatures的耳语特征,而简单的MLP模型使用LFBE和用于分离耳语和正常语音的特征。此外,我们证明通过引入所提出的工程特征,可以进一步提高LSTM分类器的准确度。
translated by 谷歌翻译
在这项工作中,我们提出了一种分类器,用于在与语音助手的交互环境中区分设备导向的查询和背景语音。应用程序包括拒绝错误唤醒或非预期的交互以及启用无唤醒后续查询。考虑示例交互:$“计算机,〜播放〜音乐”,“计算机,〜减少〜音量”$。在此交互中,用户需要重复第二次查询的唤醒字($ Computer $)。为了允许更自然的交互,设备可以在第一次查询之后立即重新进入收听状态(没有唤醒单词重复)并接受或拒绝潜在的后续作为设备指导的或背景语音。所提出的模型包括两个长期短期记忆(LSTM)神经网络,分别训练在声学特征和自动语音识别(ASR)1-最佳假设。然后训练前馈深度神经网络(DNN)以将来自LSTM的声学和1最佳嵌入与来自ASR解码器的特征相结合。实验结果表明,ASR解码器,声学嵌入和1-best嵌入分别产生$ 9.3~ \%$,$ 10.9~ \%$和$ 20.1~ \%$的等误差率(EER)。这些特征的组合导致了$ 44~ \%$的相对改善和afinal EER为$ 5.2~ \%$。
translated by 谷歌翻译
Deep Reinforcement Learning已被证明在复杂游戏中非常成功,例如Atari或Go。这些游戏有明确的规则,因此允许模拟。然而,在许多实际应用中,与环境的相互作用是昂贵的并且不能获得良好的环境模拟器。此外,由于环境因应用而不同,增强剂的最佳诱导偏差(结构,超参数等)取决于应用。在这项工作中,我们提出了一种多臂强盗框架,从一组不同的强化学习代理中选择具有最佳归纳偏差的强化学习代理。为了缓解稀疏人员的问题,强化学习代理增加了代理人。这有助于强盗框架尽早选择最佳代理,因为这些奖励比环境奖励更顺畅,更少稀疏。 Thebandit具有双重目标,即在代理人学习并在有限数量的学习步骤之后选择最佳代理时最大化奖励。我们在标准环境中的实验结果表明,所提出的框架能够在完成一系列步骤之后始终选择最佳代理,与选择次优架构或在不同代理之间统一交替相比,收集更多累积奖励。
translated by 谷歌翻译
本报告概述了利用大数据革命和大规模计算解决多信使天体物理学中的重大计算挑战的最新工作,特别强调实时发现活动。该文件承认了多信使天体物理学的跨学科性质,由物理学家,天文学,计算机科学,数据科学,软件和网络基础设施社区的成员编写,他们参加了NSF-,DOE-和NVIDIA资助的“多信使天体物理学的深度学习”。 :实时发现规模“研讨会,于2018年10月17日至19日在国家超级计算应用中心举办。本报告的重点包括一致同意这对于加速新型信号处理算法的开发和部署至关重要。利用人工智能(AI)和高性能计算之间的协同作用,最大限度地发挥Multi-Messenger天体物理学的潜在科学发现。我们讨论了实现这一努力的关键方面,即(i)为多信使天体物理学设计和利用可扩展和计算效率高的AI算法;(ii)数字模拟天体物理资源的网络基础设施要求,以及处理和解释多信使天体物理学数据; (iii)管理引力波探测和触发以实现电磁和天体粒子跟踪; (iv)利用未来发展的机器和深度学习以及网络基础设施资源的愿景与大数据时代的发现规模相结合; (v)需要建立一个社区,将领域专家与数据科学家一起进行平等,以最大限度地加速发现多信天体物理学的新兴领域。
translated by 谷歌翻译
Wasserstein距离及其变化,例如切片的Wasserstein(SW)距离,最近引起了机器学习社区的注意。具体地说,SW距离具有与Wasserstein距离相似的特性,同时计算起来更简单,因此可用于各种应用,包括生成建模和一般监督/无监督学习。在本文中,我们首先阐明了SW距离和Radon变换之间的数学联系。 Wethen利用广义Radon变换来定义概率测度的一个新的距离族,我们称之为广义的Wasserstein(GSW)距离。我们还表明,类似于SWdistance,GSW距离可以扩展到最大GSW(max-GSW)距离。然后我们提供GSW和max-GSW距离确实是距离的条件。最后,我们比较了所提出的距离在几个生成建模任务中的数值性能,包括SW流和SWauto编码器。
translated by 谷歌翻译
白质病变和深灰质结构的分割是多发性硬化中磁共振成像量化的重要任务。通常这些任务是分开执行的:在本文中,我们提出了一个基于CNN的分段解决方案,用于快速,可靠地将多模态MR图像分割为病变类和健康的灰色和白质结构。与先前的方法相比,我们在骰子系数和病变特异性和敏感性方面显示出显着的,统计学上显着的改善,并且在人类内部评估者范围内与个体人类评价者协商。该方法是针对从单个中心收集的数据进行训练的:尽管如此,它对来自训练数据集中未表示的中心,扫描仪和场强的数据表现良好。一项回顾性研究发现,分类器成功识别出人类遗漏的病变。损伤标签由人类评估者提供,而其他脑结构(包括脑脊液,皮质灰质,皮质白质,小脑,扁桃体,海马,皮质下GM结构和脉络膜复合体)的弱标签由Freesurfer 5.3提供。这些结构的分割不仅与Freesurfer 5.3相当,而且与FSL-First和Freesurfer 6.1相比也很好。
translated by 谷歌翻译
诸如冲击和温度变化之类的外部影响会影响视觉惯性传感器系统的校准,因此它们无法完全依赖工厂校准。由用户收集的短数据集执行的重新校准可能会产生较差的性能,因为某些参数的可观察性高度依赖于运动。此外,在资源受限的系统(例如移动电话)上,完全批量处理过长的会话很快变得非常昂贵。在本文中,我们通过引入信息理论度量来评估轨迹分段的信息内容来处理自校准问题,从而允许从数据集中选择信息最丰富的部分用于校准目的。通过这种方法,我们能够构建紧凑的校准数据集:(a)通过选择具有有限激动的长会话的分段或(b)从多个短会话中,其中单个会话不一定足以激发所有模式。四个不同环境中的真实实验表明,所提出的方法与批量校准方法具有相当的性能,但是,在与这些持续时间无关的恒定计算复杂度上。
translated by 谷歌翻译
我们提出了一个完整的基于视觉传感的微型飞行器自主导航系统。我们专注于仅使用板载传感和处理进行映射,以及如何最好地利用此地图信息进行规划,尤其是在非常混乱的环境中使用窄视场传感器时。此外,还介绍了系统的其他必要部分和特殊注意事项的详细信息。我们在现实搜索和救援以及工业检查场景中对真实地图上的多个全球规划和路径平滑方法进行了比较。
translated by 谷歌翻译
强大而准确的视觉定位是许多应用的基本功能,例如自动驾驶,移动机器人,实现。然而,它仍然是一项具有挑战性的任务,特别是对于大规模环境和存在重大外观变化的情况。最先进的方法不仅难以应对这种情况,而且对于某些实时应用程序而言是资源密集型的。在本文中,我们提出了HF-Net,一种基于单片CNN的分层定位方法,它同时预测局部特征和全局描述符,以实现准确的6-DoF定位。我们利用粗到精的定位范例:我们首先执行全局检索以获得位置假设,并且仅在稍后匹配那些候选位置内的局部特征。这种分层方法可以节省大量的运行时间,并使我们的系统适用于实时操作。通过利用学习的描述符,我们的方法在大的外观变化中实现了显着的本地化稳健性。因此,我们在大规模6-DoF本地化的两个具有挑战性的基准测试中展示了最新的最先进性能。我们的方法代码将公开发布。
translated by 谷歌翻译