对于视频标题,“预培训和微调”已成为事实上的范式,其中想象成预训练(InP)通常用于帮助编码视频内容,并且从头开始进行任务导向的网络应对标题一代。将InP与最近提出的剪辑(对比语言图像预培训)进行比较,研究了INP的潜在缺陷,用于视频标题,并探索产生准确描述的关键。具体而言,我们对INP与剪辑的实证研究表明,INP使视频标题模型棘手捕获属性的语义和对无关背景信息的敏感。相比之下,剪辑在标题质量中的显着提升突出了属性感知表示学习的重要性。因此,我们被激励引入双属性预测,需要一个辅助任务,需要视频字幕模型来学习视频内容和属性之间的对应关系以及属性之间的共同发生关系。基准数据集的广泛实验表明,我们的方法能够更好地学习属性感知的表示,这对具有不同架构和解码算法的模型带来了一致的改进。
translated by 谷歌翻译