对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
本文介绍了远场域中的耳语语音检测器。所提出的系统包括在对数滤波器组能量(LFBE)声学特征上训练的长短期记忆(LSTM)神经网络。该模型是在人耳与耳语和正常发声模式中的语音控制远场设备的交互记录中进行训练和评估的。我们通过检查LSTM后验的轨迹来比较话语级别分类的多种推理方法。此外,我们根据耳语语音固有的信号特征设计了一套功能,并评估了它们在进一步将耳语与正常语音分离的有效性。使用多层感知器(MLP)和LSTM对这些特征进行基准测试表明所提出的特征与LFBE功能,可以帮助我们进一步改进我们的分类器。我们证明,有了足够的数据,LSTM模型确实能够学习单独使用LFBEfeatures的耳语特征,而简单的MLP模型使用LFBE和用于分离耳语和正常语音的特征。此外,我们证明通过引入所提出的工程特征,可以进一步提高LSTM分类器的准确度。
translated by 谷歌翻译
在这项工作中,我们提出了一种分类器,用于在与语音助手的交互环境中区分设备导向的查询和背景语音。应用程序包括拒绝错误唤醒或非预期的交互以及启用无唤醒后续查询。考虑示例交互:$“计算机,〜播放〜音乐”,“计算机,〜减少〜音量”$。在此交互中,用户需要重复第二次查询的唤醒字($ Computer $)。为了允许更自然的交互,设备可以在第一次查询之后立即重新进入收听状态(没有唤醒单词重复)并接受或拒绝潜在的后续作为设备指导的或背景语音。所提出的模型包括两个长期短期记忆(LSTM)神经网络,分别训练在声学特征和自动语音识别(ASR)1-最佳假设。然后训练前馈深度神经网络(DNN)以将来自LSTM的声学和1最佳嵌入与来自ASR解码器的特征相结合。实验结果表明,ASR解码器,声学嵌入和1-best嵌入分别产生$ 9.3~ \%$,$ 10.9~ \%$和$ 20.1~ \%$的等误差率(EER)。这些特征的组合导致了$ 44~ \%$的相对改善和afinal EER为$ 5.2~ \%$。
translated by 谷歌翻译
本文介绍了自动驾驶汽车的算法和系统架构。引入的车辆由设计用于鲁棒性,可靠性和可扩展性的软件栈提供动力。为了自主地绕过先前未知的轨道,所提出的解决方案结合了来自不同机器人领域的技术的状态。具体而言,感知,估计和控制被合并到一个高性能自主车辆中。这个复杂的机器人系统由AMZ Driverless和ETHZurich开发,在我们参加的每个比赛中获得第一名:Formula StudentGermany 2017,Formula Student Italy 2018和Formula Student Germany 2018. Wediscuss这些比赛的结果和学习,并对每个模块进行实验评估我们的解决方案
translated by 谷歌翻译
卷积神经网络(CNN)在人脸识别方面取得了巨大成功,不幸的是,这种方法以大量计算和存储消耗为代价。因此提出了许多紧凑的面部识别网络来解决这个问题。三重损失对于进一步改善这些紧凑型号的性能是有效的。然而,它通常对所有样本使用固定的保证金,这忽略了不同身份之间的信息相似性结构。在本文中,我们提出了一种增强版的三脚架损失,称为三重蒸馏,它利用了ateacher模型的能力,通过自适应地改变正负对之间的边界,将相似性信息传递给一个小模型。 LFW,AgeDB和CPLFW数据集的实验显示了我们的方法与原始三重态损失相比的优点。
translated by 谷歌翻译
本文介绍了一种全方位的空中操纵平台,用于对非结构化环境进行鲁棒性和响应性交互,以实现基于接触的检测。完全驱动的倾转旋翼天线系统配备了一个刚性安装的末端执行器,能够施加6度的自由力和扭矩,解耦系统的平移和旋转动力学,并在保持稳定性的同时实现与环境的精确互动。具有选择性表观惯性的阻抗控制器被配制成允许在一定自由度下的顺应性,同时在其它自由度中实现精确的轨迹跟踪和干扰抑制。实验证明了干扰抑制,推 - 滑相互作用以及具有深度伺服的板载状态估计以与局部相互作用。该系统也被验证为基于接触的混凝土基础设施无损检测的工具。
translated by 谷歌翻译
图像配准是医学图像分析中用于估计图像对之间的变形的关键技术。良好的变形模型对于高质量的估计非常重要。然而,大多数现有方法使用为了数学方便而选择的ad-hoc变形模型而不是捕获观察到的数据变化。最近的深度学习方法直接从数据中学习变形模型。但是,它们对转换的空间规律性提供了有限的控制。我们学习了注册模型中的空间自适应正则化,而不是学习整个注册方法。这允许控制所需的规则性水平并保留配准模型的结构特性。例如,可以获得微分形变换。我们的方法是通过在基于优化的注册算法中嵌入深度学习模型来对现有的深度学习方法进行图像配准,从而对注册模型本身进行参数化和数据自适应。
translated by 谷歌翻译
我们提供了一个强化学习(RL)工作台Simion Zoo,它提供了一套完整的工具来设计,运行和分析RL控制应用程序的结果,无论是在统计上还是在视觉上。 Simion Zoo与类似软件包的主要特点是易于使用的GUI,支持分布式执行,包括在图形处理单元(GPU)上的部署,以及同时探索RLmetaparameter空间的可能性,这是RL成功的关键。实验。
translated by 谷歌翻译
深度学习使语义分割的准确性取得了令人瞩目的进步。然而,估计不确定性和检测故障的能力是自动驾驶等安全关键应用的关键。差异性估计大多数是在简单任务上进行评估的,并且不清楚这些方法是否适用于更复杂的情景。我们提出了城市景观,这是城市驾驶语义分割的区域世界任务中不确定性估计的第一个公共基准。它评估像素化的不确定性估计,并涵盖分布式对象和错误分类的检测。我们将最先进的方法应用于最近的语义分割模型,并比较基于软件置信度,贝叶斯学习和嵌入密度的方法。对这些方法的彻底评估揭示了它们所谓的能力的明显差距。我们的结果表明,即使对于普通情况,故障检测还远未解决,而我们的基准测试可以测量超出最先进技术的进步。
translated by 谷歌翻译
在多发性硬化症中检测新的或扩大的白质病变是监测患有多发性硬化症的疾病修复治疗的患者的重要任务。然而,“新的或扩大的”的定义并不固定,并且已知病变计数是高度主观的,具有高度的内部和内部评估者可变性。用于病变量化的自动化方法具有使新的和扩大的检测一致且可重复的潜力。然而,尽管这是一个紧迫的临床用例,但大多数病变分段算法并未评估其分离进展性稳定患者的能力。在本文中,我们发现,即使对于高性能分离方法,单独损伤负荷的体积测量的变化也不是执行该分离的良好方法。相反,我们提出了一种识别高确定性病变的方法,并在纵向多发性硬化病例的数据集上确定该方法能够将进展与稳定时间点分离,具有非常高的辨别水平(AUC = 0.99),而病变体积的变化是执行这种分离的能力要低得多(AUC = 0.71)。对第二个外部数据集的方法进行验证,证实该方法能够超出其训练的范围,在分离稳定和渐进的时间点时达到83%的准确度。先前已经证明病变体积和计数都是人群中疾病的强有力预测因子。然而,我们证明对于个体患者而言,这些措施的变化并不是确定疾病活动证据的充分手段。同时,直接检测高可信度地从非病变到病变的组织是用于鉴定放射学活跃患者的可行方法。
translated by 谷歌翻译