图像的美学评估可以分为两种主要形式:数值评估和语言评估。照片的美学标题是已解决的审美语言评估的唯一任务。在本文中,我们提出了一项美学评估的新任务:图像的美学视觉和回答(AVQA)。如果我们提出图像美学问题,模型可以预测答案。我们使用\ textit {www.flickr.com}的图像。目标QA对由提出的美学属性分析算法产生。此外,我们引入了主观质量检查对,这些对从审美数字标签和来自大规模培训模型的情感分析转换。我们构建了第一个回答数据集AESVQA的审美视觉问题,其中包含72,168个高质量图像和324,756对美学问题。已经提出并证明了两种调整数据分布的方法,以提高现有模型的准确性。这是解决美学VQA任务并将主观性引入VQA任务的第一项工作。实验结果表明,我们的方法在这项新任务上的表现优于其他VQA模型。
translated by 谷歌翻译