智能论文笔记

Supervised Visual Attention for Simultaneous Multimodal Machine Translation

Veneta Haralampieva , Ozan Caglayan , Lucia Specia

分类：自然语言处理

2022-01-23

最近，多模式机器翻译（MMT）的研究激增，其中其他模式（例如图像）用于提高文本系统的翻译质量。这种多模式系统的特殊用途是同时机器翻译的任务，在该任务中，已证明视觉上下文可以补充源句子提供的部分信息，尤其是在翻译的早期阶段。在本文中，我们提出了第一个基于变压器的同时MMT体系结构，该体系结构以前尚未在现场探索过。此外，我们使用辅助监督信号扩展了该模型，该信号使用标记的短语区域比对来指导其视觉注意机制。我们在三个语言方向上进行全面的实验，并使用自动指标和手动检查进行彻底的定量和定性分析。我们的结果表明，（i）监督视觉注意力一致地提高了MMT模型的翻译质量，并且（ii）通过监督损失对MMT进行微调，比从SCRATCH训练MMT的MMT可以提高性能。与最先进的模型相比，我们提出的模型可实现多达2.3 bleu和3.5 Meteor点的改善。

translated by 谷歌翻译