大多数现有的视频文本发现基准测试专注于评估单一语言和具有有限数据的场景。在这项工作中,我们引入了大规模的双语,开放世界视频文本基准数据集(BovText)。 BovText有四个功能。首先,我们提供2,000多个具有超过1,75万多帧的视频,比现有最大数据集大25倍,其中包含录像中的附带文本。其次,我们的数据集涵盖了具有多种各种场景的30多个开放类别,例如Life VLog,驾驶,电影等。第三,为不同的代表提供了丰富的文本类型注释(即标题,标题或场景文本)视频中的意义。第四,BOVTEXT提供双语文本注释,以促进多种文化的生活和沟通。此外,我们提出了一个与变压器的端到端视频文本发现框架,被称为TransVtspotter,它通过简单但高效的关注的查询密钥机制解决了视频中的多东方文本。它将来自前一个帧的对象特征应用于当前帧的跟踪查询,并引入旋转角度预测以适合多大学实例。在ICDAR2015(视频)上,Transvtspotter以44.1%的Mota,9 FPS实现最先进的性能。 DataSet和TransVtspotter的代码可以在GitHub中找到:COM = Weijiawu = BovText和GitHub:Com = Weijiawu = Transvtspotter。
translated by 谷歌翻译