对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
本文涉及多语言对话行为(DA)识别。提出的方法基于深度神经网络,并使用word2vecembeddings进行单词表示。为此任务提出了两种多语言模型。第一种方法使用一种在所有可用语言的嵌入上训练的通用模型。第二种方法使用单一旋转语言训练模型,并使用线性变换方法将其他语言投影到枢轴语言上。使用具有不同设置的流行卷积神经网络和LSTM架构作为分类器。据我们所知,这是使用神经网络进行多语言DA识别的第一次尝试。多语言模型通过Verbmobil语料库的两种语言进行实验验证。
translated by 谷歌翻译
统计形状建模是表征解剖形态变化的重要工具。使用3D成像和随后的配准,分割以及将形状特征或投影提取到一些较低维度形状空间上的管道来测量感兴趣的典型形状,这有助于随后的统计分析。已经提出了许多用于构造紧凑形状表示的方法,但是对于图像预处理操作的序列通常是不切实际的,其涉及用户的显着参数调整,手动描绘和/或质量控制。我们提出DeepSSM:一种深度学习方法,可以直接从3D图像中提取低维形状表示,几乎不需要参数调整或用户辅助。 DeepSSM使用卷积神经网络(CNN)同时定位感兴趣的生物结构,建立对应关系,并将这些点投影到点分布模型中PCA加载形式的低维形状表示。以克服有限可用性的挑战在训练图像时,我们提出了一种新颖的数据增强程序,该程序使用现有的对应关系,利用形状统计的相对较小的一组处理图像来创建具有已知形状参数的可塑训练样本。因此,我们将有限的CT / MRI扫描(40-50)用于训练CNN所需的数千个图像。在训练之后,CNN自动为看不见的图像产生精确的低维形状表示。我们验证了DeepSSM的三种不同应用,这些应用与儿科颅脑CT的建模有关,用于表征特应性颅缝早闭,股骨CT扫描识别由于股骨髋臼撞击引起的髋关节形态畸形,以及左心房MRI扫描,用于心房颤动复发预测。
translated by 谷歌翻译
本文提出了一种基于局部二值模式的自动人脸识别方法。该描述符考虑像素的局部邻域来计算特征向量值。该方法不能很好地处理图像噪声,变化和不同的照明条件。我们通过提出一种新的描述符来解决这些问题,该描述符考虑更多的像素和不同的邻域来计算特征向量值。建议的方法在两个基准语料库中进行评估,即UFI和FERET facesatasets。我们通过实验证明,我们的方法优于最先进的方法,并且在上述问题显而易见的真实条件下尤其有效。我们进一步表明,所提出的方法处理了一个训练样本问题,并且对图像分辨率也很稳健。
translated by 谷歌翻译