对于真实世界的语音识别应用,噪声稳健性仍然是一个挑战。在这项工作中,我们采用师生(T / S)学习技术,使用并行干净和嘈杂的语料库来改善多媒体噪声下的自动语音识别(ASR)性能。最重要的是,我们应用logits选择方法,该方法仅保留k个最高值,以防止教师错误地强调知识并减少传输数据所需的带宽。我们整合了长达8000小时的未转录数据,并且除了受过交叉熵训练的模型之外,还在序列训练模型上呈现我们的结果。与训练有序的教师相比,最佳序列训练的学生模型分别对我们的清洁,模拟噪声和真实测试集产生约10.1%,28.7%和19.6%的相关误差率(WER)减少。
translated by 谷歌翻译
本文讨论了引用表达式的生成,这些表达式不仅能够正确地理解对象,而且还能简化人类的理解。随着图像的构成变得更加复杂并且目标变得相对不那么突出,识别被引物体变得更加困难。然而,现有的研究认为所有正确地指向物体的句子同样是好的,忽略了它们是否容易被人理解。如果目标不显着,人类利用与周围环境相关的关系来帮助听众更好地理解它。为了从人类注释中获取这些信息,我们的模型旨在从目标的内部和外部提取信息。此外,我们认为容易理解的句子是人类正确和快速理解的句子。我们通过使用人类及其精确度定位对象所需的时间来优化它。为了评估我们的系统,我们创建了一个新的引用表达数据集,其图像是从大型盗窃自动V(GTA V)获得的,限制了人的目标。我们提出的方法在机器评估和众源人类评估方面都优于以前的方法。源代码和数据集即将推出。
translated by 谷歌翻译
我们提出了一种新的多实例学习(MIL)方案。在典型的MIL设置中,一个数据单元被称为一组称为包的实例,目的是根据单个或有限多个“shapelets”(或模式)的相似性找到一个良好的包分类器,其中bagfrom的相似性shapelet是包中实例的最大相似度。基于单个小形的分类器对于某些应用来说不够强。此外,以前使用多个shapelet的工作已经启发式地选择了一些实例作为shapelet,而没有理论上保证其泛化能力。我们的配方基于无限多个shapelet提供了更丰富的最终分类器。除了泛化边界外,我们还为新配方提供了有效的算法。我们的实证研究表明,我们的方法不仅对MIL任务有效,而且对时间序列分类的Shapelet学习也有效。
translated by 谷歌翻译
本文介绍了一种基于全自动图谱的胰腺分割方法,该方法利用基于3D完全卷积网络(FCN)特征的胰腺定位从CT体积中提取。胰腺的分割是困难的,因为它具有比其他器官更大的患者间空间变异。先前的胰腺分割方法未能处理这种变化。我们提出了一种全自动胰腺分割方法,该方法包含非定位和分割。由于胰腺与许多其他器官相邻,其位置和大小与周围的位置密切相关。我们通过回归森林估计来自全球特征的胰腺(局部)的位置和大小。作为全局特征,我们使用强度差异和3D FCN深度学习功能,其中包括自动提取的分割基本功能。我们从经过训练的3D U-Net中选择了3D FCN功能,这些功能经过训练可以执行多器官分割。全局特征包括胰腺和周围器官信息。定位后,进行患者特异性基于概率图谱的胰腺分类。在146个CT体积的评估结果中,实现了Jaccard指数的60.6%和Dice重叠的73.9%。
translated by 谷歌翻译