对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
本文介绍了远场域中的耳语语音检测器。所提出的系统包括在对数滤波器组能量(LFBE)声学特征上训练的长短期记忆(LSTM)神经网络。该模型是在人耳与耳语和正常发声模式中的语音控制远场设备的交互记录中进行训练和评估的。我们通过检查LSTM后验的轨迹来比较话语级别分类的多种推理方法。此外,我们根据耳语语音固有的信号特征设计了一套功能,并评估了它们在进一步将耳语与正常语音分离的有效性。使用多层感知器(MLP)和LSTM对这些特征进行基准测试表明所提出的特征与LFBE功能,可以帮助我们进一步改进我们的分类器。我们证明,有了足够的数据,LSTM模型确实能够学习单独使用LFBEfeatures的耳语特征,而简单的MLP模型使用LFBE和用于分离耳语和正常语音的特征。此外,我们证明通过引入所提出的工程特征,可以进一步提高LSTM分类器的准确度。
translated by 谷歌翻译
在这项工作中,我们提出了一种分类器,用于在与语音助手的交互环境中区分设备导向的查询和背景语音。应用程序包括拒绝错误唤醒或非预期的交互以及启用无唤醒后续查询。考虑示例交互:$“计算机,〜播放〜音乐”,“计算机,〜减少〜音量”$。在此交互中,用户需要重复第二次查询的唤醒字($ Computer $)。为了允许更自然的交互,设备可以在第一次查询之后立即重新进入收听状态(没有唤醒单词重复)并接受或拒绝潜在的后续作为设备指导的或背景语音。所提出的模型包括两个长期短期记忆(LSTM)神经网络,分别训练在声学特征和自动语音识别(ASR)1-最佳假设。然后训练前馈深度神经网络(DNN)以将来自LSTM的声学和1最佳嵌入与来自ASR解码器的特征相结合。实验结果表明,ASR解码器,声学嵌入和1-best嵌入分别产生$ 9.3~ \%$,$ 10.9~ \%$和$ 20.1~ \%$的等误差率(EER)。这些特征的组合导致了$ 44~ \%$的相对改善和afinal EER为$ 5.2~ \%$。
translated by 谷歌翻译
在多发性硬化症中检测新的或扩大的白质病变是监测患有多发性硬化症的疾病修复治疗的患者的重要任务。然而,“新的或扩大的”的定义并不固定,并且已知病变计数是高度主观的,具有高度的内部和内部评估者可变性。用于病变量化的自动化方法具有使新的和扩大的检测一致且可重复的潜力。然而,尽管这是一个紧迫的临床用例,但大多数病变分段算法并未评估其分离进展性稳定患者的能力。在本文中,我们发现,即使对于高性能分离方法,单独损伤负荷的体积测量的变化也不是执行该分离的良好方法。相反,我们提出了一种识别高确定性病变的方法,并在纵向多发性硬化病例的数据集上确定该方法能够将进展与稳定时间点分离,具有非常高的辨别水平(AUC = 0.99),而病变体积的变化是执行这种分离的能力要低得多(AUC = 0.71)。对第二个外部数据集的方法进行验证,证实该方法能够超出其训练的范围,在分离稳定和渐进的时间点时达到83%的准确度。先前已经证明病变体积和计数都是人群中疾病的强有力预测因子。然而,我们证明对于个体患者而言,这些措施的变化并不是确定疾病活动证据的充分手段。同时,直接检测高可信度地从非病变到病变的组织是用于鉴定放射学活跃患者的可行方法。
translated by 谷歌翻译
如今,轨道车辆本地化基于基础设施侧的Balises(信标)以及车载里程,以确定铁路段是否被占用。这种粗略锁定导致铁路网络的次优使用。新的铁路标准提出使用以铁路车辆为中心的移动块来增加网络的容量。然而,这种方法需要对所有车辆进行准确而稳健的位置和速度估算。在这项工作中,我们研究了当前视觉和视觉惯性运动估计框架对铁路应用的适用性,挑战和局限性。在工业,郊区和环境中记录的多个数据集中,对RTK-GPS地面实况进行了评估。我们的研究结果表明,立体视觉惯性测量法具有很大的潜力,可以提供精确的运动估计,因为它具有补充传感器模态,并且在与其他框架相比具有挑战性的情况下表现出优越的性能。
translated by 谷歌翻译
我们介绍了一种利用3D LiDARscans进行定向位置识别的新方法。训练卷积神经网络以从单个3D LiDAR扫描中提取紧凑描述符。这些既可用于从地图中检索附近的地方候选者,也可用于估计引导本地注册方法所需的偏航差异。我们采用三重损失函数来训练并使用硬负挖掘策略来进一步提高描述符提取器的性能。在对NCLT和KITTIdatasets的评估中,我们证明了我们的方法优于基于数据驱动和手工数据表示的相关最先进的方法,这些数据代表了长期的户外条件。
translated by 谷歌翻译
机器人平台正在成为一种及时且具有成本效益的工具,可用于探测和监控。然而,一个开放的挑战是规划任务,以便在复杂环境中进行有效的数据采集。为了解决这个问题,我们为积极的感知情景引入了一个信息丰富的规划框架,以解释机器人姿势的不确定性。鉴于其输入的不确定性,我们的策略利用高斯过程模型捕获目标环境领域。这使我们能够保持稳健的地图,用于规划连续空间中的信息丰富的轨迹。我们方法的一个关键是一个新的效用函数,它结合了本地化和场映射目标,使我们能够以原则的方式再次探索勘探。大量模拟表明,我们的方法优于现有策略,减少高达45.1%和6.3%的内部姿势不确定性和地图错误。我们在室温测绘场景中展示了概念验证。
translated by 谷歌翻译
Deep Reinforcement Learning已被证明在复杂游戏中非常成功,例如Atari或Go。这些游戏有明确的规则,因此允许模拟。然而,在许多实际应用中,与环境的相互作用是昂贵的并且不能获得良好的环境模拟器。此外,由于环境因应用而不同,增强剂的最佳诱导偏差(结构,超参数等)取决于应用。在这项工作中,我们提出了一种多臂强盗框架,从一组不同的强化学习代理中选择具有最佳归纳偏差的强化学习代理。为了缓解稀疏人员的问题,强化学习代理增加了代理人。这有助于强盗框架尽早选择最佳代理,因为这些奖励比环境奖励更顺畅,更少稀疏。 Thebandit具有双重目标,即在代理人学习并在有限数量的学习步骤之后选择最佳代理时最大化奖励。我们在标准环境中的实验结果表明,所提出的框架能够在完成一系列步骤之后始终选择最佳代理,与选择次优架构或在不同代理之间统一交替相比,收集更多累积奖励。
translated by 谷歌翻译
本报告概述了利用大数据革命和大规模计算解决多信使天体物理学中的重大计算挑战的最新工作,特别强调实时发现活动。该文件承认了多信使天体物理学的跨学科性质,由物理学家,天文学,计算机科学,数据科学,软件和网络基础设施社区的成员编写,他们参加了NSF-,DOE-和NVIDIA资助的“多信使天体物理学的深度学习”。 :实时发现规模“研讨会,于2018年10月17日至19日在国家超级计算应用中心举办。本报告的重点包括一致同意这对于加速新型信号处理算法的开发和部署至关重要。利用人工智能(AI)和高性能计算之间的协同作用,最大限度地发挥Multi-Messenger天体物理学的潜在科学发现。我们讨论了实现这一努力的关键方面,即(i)为多信使天体物理学设计和利用可扩展和计算效率高的AI算法;(ii)数字模拟天体物理资源的网络基础设施要求,以及处理和解释多信使天体物理学数据; (iii)管理引力波探测和触发以实现电磁和天体粒子跟踪; (iv)利用未来发展的机器和深度学习以及网络基础设施资源的愿景与大数据时代的发现规模相结合; (v)需要建立一个社区,将领域专家与数据科学家一起进行平等,以最大限度地加速发现多信天体物理学的新兴领域。
translated by 谷歌翻译
Wasserstein距离及其变化,例如切片的Wasserstein(SW)距离,最近引起了机器学习社区的注意。具体地说,SW距离具有与Wasserstein距离相似的特性,同时计算起来更简单,因此可用于各种应用,包括生成建模和一般监督/无监督学习。在本文中,我们首先阐明了SW距离和Radon变换之间的数学联系。 Wethen利用广义Radon变换来定义概率测度的一个新的距离族,我们称之为广义的Wasserstein(GSW)距离。我们还表明,类似于SWdistance,GSW距离可以扩展到最大GSW(max-GSW)距离。然后我们提供GSW和max-GSW距离确实是距离的条件。最后,我们比较了所提出的距离在几个生成建模任务中的数值性能,包括SW流和SWauto编码器。
translated by 谷歌翻译