智能论文笔记

VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document Classification

Souhail Bakkali , Zuheng Ming , Mickael Coustaty , Marçal Rusiñol , Oriol Ramos Terrades

分类：计算机视觉

2022-05-24

从文档数据中进行的多模式学习最近取得了巨大的成功，因为它允许将语义有意义的特征预先作为先验的特征，成为可学习的下游方法。在本文中，我们通过使用语言和视觉线索来学习跨模式的表示，考虑了内模式和模式间关系，我们解决了文档分类问题。该方法没有将不同模态的特征合并为一个共同表示空间，而是利用高级相互作用，并从跨模态内外的有效注意流中学习相关的语义信息。提出的学习目标是在内部和模式间比对任务之间设计的，其中每个任务的相似性分布是通过收缩阳性样品对计算的，同时在共同特征表示空间中同时对比}。公共文档分类数据集的广泛实验证明了我们模型对低规模和大规模数据集的有效性和概括能力。

translated by 谷歌翻译