“总机基准”是自动语音识别(ASR)研究中众所周知的测试集,为声称人类水平转录精度的系统建立了创纪录的性能。这项工作突出了该评估的鲜为人知的实际考虑,这表明了单词错误率(WER)的重大提高,通过纠正参考转录并偏离官方评分方法。在这个更详细和可再现的方案中,即使是商业ASR系统也可以评分低于5%,并且研究系统的既定记录降低到2.3%。提出了一个替代的成绩单精度指标,该指标不会惩罚缺失,并且似乎对人类与机器性能更具歧视性。尽管商业ASR系统仍低于此阈值,但研究系统被证明可以清楚地超过商业人类言语识别的准确性。这项工作还使用标准化的评分工具来探讨通过在替代方案列表中选择最佳的计算Oracle WER。将短语替代表示形式与话语级n-tesp列表和单词级数据结构进行比较。使用密集的晶格并添加量量表的单词,这使Oracle达到0.18%。
translated by 谷歌翻译