智能论文笔记

Alternating Cross-attention Vision-Language Model for Efficient Learning with Medical Image and Report without Curation

Sangjoon Park , Eun Sun Lee , Jeong Eun Lee , Jong Chul Ye

分类：自然语言处理 | 计算机视觉 | 机器学习

2022-08-10

视觉预训练的最新进展表明，在不同的视觉任务中表现出惊人的表现，阐明了对人工智能研究中对视觉和文本概念的全面理解的长期问题。但是，在医学领域的视觉预训练的应用方面取得了有限数量和多样性阻碍了对联合视觉语言概念的成功学习。在这项研究中，我们介绍了Max-VL，这是一种针对医疗领域中有效视觉预训练的模型。我们在实验上证明，预先训练的MAX-VL模型在各种视觉任务中都优于当前最新视觉语言模型。我们还提出了用于诊断新出现疾病和人为错误检测的临床实用性，并显示了该模型在不同领域数据中的广泛适用性。

translated by 谷歌翻译

A Survey of Vision-Language Pre-Trained Models

Yifan Du , Zikang Liu , Junyi Li , Wayne Xin Zhao

分类：计算机视觉 | 自然语言处理 | 机器学习

2022-02-18

随着变压器的发展，近年来预先训练的模型已经以突破性的步伐发展。他们在自然语言处理（NLP）和计算机视觉（CV）中主导了主流技术。如何将预训练适应视觉和语言（V-L）学习和改善下游任务绩效成为多模式学习的重点。在本文中，我们回顾了视力语言预训练模型（VL-PTMS）的最新进展。作为核心内容，我们首先简要介绍了几种方法，将原始图像和文本编码为单模式嵌入在预训练之前。然后，我们在建模文本和图像表示之间的相互作用时深入研究VL-PTM的主流体系结构。我们进一步提出了广泛使用的预训练任务，然后我们介绍了一些常见的下游任务。我们终于结束了本文，并提出了一些有前途的研究方向。我们的调查旨在为研究人员提供合成和指向相关研究的指针。

translated by 谷歌翻译

Single-Stream Multi-Level Alignment for Vision-Language Pretraining

Zaid Khan , Vijay Kumar BG , Xiang Yu , Samuel Schulter , Manmohan Chandraker , Yun Fu

分类：计算机视觉

2022-03-27

从纯图像和具有对比性损失的纯图像和文本预测的自我监督的视觉语言是有效的，但是由于双流式体系结构仅在全球层面上与图像和文本表示形式对齐，因此忽略了细粒度的对齐。早些时候，受监督的，非对比度的方法具有更细粒度的对齐方式，但需要致密的注释，这些注释不可伸缩。我们提出了一个单个流体系结构，该体系结构使用两个新颖的任务：对称交叉模式重建（XMM）和一个伪标记的关键字预测，将图像和语言对齐：全局，细粒度的补丁和概念/语义（PSL）。在XMM中，我们从一种模态掩盖了输入令牌，并使用跨模式信息重建掩盖的令牌，从而改善了两种模式之间的细粒度对齐。在PSL中，我们使用注意力在标题中选择关键字，使用动量编码器推荐标题中缺少但在图像中表示的其他重要关键字，然后训练视觉编码器以预测这些关键字的存在，并帮助它。学习对于将文本令牌接地到图像区域至关重要的语义概念。我们证明了对图像文本检索，接地，视觉问题的回答/推理的竞争性能和提高的数据效率，以针对对更多数据进行培训的较大模型和模型。 Zaidkhan.me/simla上可用的代码和型号。

translated by 谷歌翻译

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

Junnan Li , Ramprasaath R. Selvaraju , Akhilesh Deepak Gotmare , Shafiq Joty , Caiming Xiong , Steven Hoi

分类：

2021-07-16

Large-scale vision and language representation learning has shown promising improvements on various vision-language tasks. Most existing methods employ a transformer-based multimodal encoder to jointly model visual tokens (region-based image features) and word tokens. Because the visual tokens and word tokens are unaligned, it is challenging for the multimodal encoder to learn image-text interactions. In this paper, we introduce a contrastive loss to ALign the image and text representations BEfore Fusing (ALBEF) them through cross-modal attention, which enables more grounded vision and language representation learning. Unlike most existing methods, our method does not require bounding box annotations nor high-resolution images. To improve learning from noisy web data, we propose momentum distillation, a self-training method which learns from pseudo-targets produced by a momentum model. We provide a theoretical analysis of ALBEF from a mutual information maximization perspective, showing that different training tasks can be interpreted as different ways to generate views for an image-text pair. ALBEF achieves state-of-the-art performance on multiple downstream visionlanguage tasks. On image-text retrieval, ALBEF outperforms methods that are pre-trained on orders of magnitude larger datasets. On VQA and NLVR 2 , ALBEF achieves absolute improvements of 2.37% and 3.84% compared to the state-ofthe-art, while enjoying faster inference speed. Code and models are available at https://github.com/salesforce/ALBEF.

translated by 谷歌翻译

Masked Vision and Language Modeling for Multi-modal Representation Learning

Gukyeong Kwon , Zhaowei Cai , Avinash Ravichandran , Erhan Bas , Rahul Bhotika , Stefano Soatto

分类：计算机视觉 | 自然语言处理 | 机器学习

2022-08-03

在本文中，我们研究了如何在视觉和语言（V+L）表示学习中使用蒙版的信号建模。与其独立开发蒙面语言建模（MLM）和蒙面图像建模（MIM），我们建议建立关节蒙面的视觉和语言建模，其中一种模态的掩盖信号是在另一种方式的帮助下重建的。这是由图像文本配对数据的性质和文本传达几乎相同的信息但以不同格式传达的。在另一种模态下进行的一种模式的掩盖信号重建也可以隐式学习语言令牌和图像贴片之间的跨模式对齐。我们对各种V+L任务的实验表明，该建议的方法不仅可以通过使用大量数据来实现最先进的性能，而且还可以通过有限的培训数据的制度优于其他竞争对手。

translated by 谷歌翻译

Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework

Chunyu Xie , Heng Cai , Jianfei Song , Jincheng Li , Fanjing Kong , Xiaoyu Wu , Henrique Morimitsu , Lin Yao , Dexin Wang , Dawei Leng

分类：计算机视觉 | 人工智能

2022-05-08

大规模数据集上的视觉语言预训练（VLP）在各种下游任务上表现出了首要性能。对于VLP来说，完整且公平的基准（即包括大规模的预训练数据集和各种下游任务）是必不可少的。尽管有很多具有英语语料库的基准，但使用其他语言（例如中文）为VLP建立丰富的基准是一个关键问题。为此，我们为研究界建立了一个称为零的中国跨模式基准，以比较VLP模型。我们发布两个用于下游任务的预训练数据集和五个微调数据集。旁边，我们提出了一个新的预训练前训练框架，用于跨模式学习。具体而言，我们应用全局对比度预级分别学习图像和文本的各个表示。然后，我们通过图像文本交叉编码器和文本图像交叉编码器以细粒度的排名方式融合表示形式。为了进一步增强模型的能力，我们提出了一种由目标引导的蒸馏和特征引导的蒸馏组成的双向蒸馏策略。对于简洁起见，我们将型号r2d2命名。我们在四个公共跨模式数据集和拟议的五个下游数据集上实现最先进的性能。在Flickr30k-CN，可可-CN和Muge进行零射击任务时，与最平均召回的R2D2进行了2.5亿个数据集的R2D2，在2.5亿个数据集中进行了4.7％，5.4％和6.3％的均值改善，而与最新的召回相比艺术。数据集，模型和代码可在https://github.com/yuxie11/r2d2上找到

translated by 谷歌翻译

VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix

Teng Wang , Wenhao Jiang , Zhichao Lu , Feng Zheng , Ran Cheng , Chengguo Yin , Ping Luo

分类：计算机视觉

2022-06-17

现有视觉语言预训练（VLP）方法主要依赖于配对的图像文本数据集，这些数据集由大量人类劳动注释，或者从互联网上爬行，然后是精心制作的数据清洁技术。为了减少对良好的图像文本对的依赖，有望直接利用仅大规模的仅文本和仅图像的语料库。本文提出了一种数据增强方法，即跨模式cutmix（CMC），用于在未配对的VLP中进行隐式跨模式对齐学习。具体而言，CMC将自然句子从文本视图转换为多模式视图，在该视图中，句子中的视觉词语单词被带有相似语义的各种图像贴片随机替换。拟议中的CMC有几个吸引人的礼节。首先，它增强了数据多样性，同时保持语义含义完好无损地解决了对齐数据稀缺的问题；其次，通过将跨模式噪声连接到单模式数据上，它指导模型以学习跨模态的令牌级相互作用，以更好地降级。此外，我们提出了一种名为VLMIXER的新的未配对VLP方法，该方法将CMC与对比度学习集成在一起，以将Uni-Mododal和多模式视图汇总在一起，以在不同模式之间进行更好的实例级别对齐。在五个下游任务上进行的广泛实验表明，VLMIXER可以超过以前最先进的未配对VLP方法。

translated by 谷歌翻译

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training

Jong Hak Moon , Hyungyung Lee , Woncheol Shin , Young-Hak Kim , Edward Choi

分类：计算机视觉

2021-05-24

最近，许多研究表明，通过使用多模式的训练预训练目标扩展BERT体系结构，在各种视觉语言多模式任务（例如图像字幕和视觉问题）上进行了令人印象深刻的表现。在这项工作中，我们探讨了医学领域中的一系列多模式表示任务，专门使用放射学图像和非结构化报告。我们提出了医学视觉语言学习者（MEDVILL），该语言学习者采用基于BERT的建筑与一种新型的多模式注意掩盖方案相结合，以最大程度地提高概括性能，以实现视力语言理解任务（诊断分类，医疗图像报告，医学视觉，医疗视觉效果问答）和视觉生成任务（放射学报告生成）。通过统计和严格评估四个下游任务的拟议模型，该模型具有三个X光摄影图像报告数据集（Mimic-CXR，Open-I和VQA-RAD），我们从经验上凭经验证明了MEDVILL的卓越下游任务，包括各种基准，包括任务 - 特定体系结构。源代码可公开可用：https：//github.com/supersupermoon/medvill

translated by 谷歌翻译

Vision-and-Language Pretraining

Thong Nguyen , Cong-Duy Nguyen , Xiaobao Wu , Anh Tuan Luu

分类：自然语言处理

2022-07-05

随着图像文本对的大量数据以及视觉和语言（V＆L）任务的多样性，学者在该研究领域引入了大量的深度学习模型。此外，近年来，转移学习还显示出在计算机愿景中的巨大成功，例如图像分类，对象检测等以及在自然语言处理中以进行问答，机器翻译等的自然语言处理。继承转移学习的精神， V＆L的研究工作已经在大规模数据集上设计了多种预训练技术，以增强下游任务的性能。本文的目的是提供当代V＆L预审前模型的全面修订。特别是，我们对预处理的方法进行了分类和描述，以及最先进的视觉和语言预训练模型的摘要。此外，还提供了培训数据集和下游任务的列表，以进一步提高V＆L预处理的观点。最后，我们决定采取进一步的一步，讨论众多未来研究的方向。

translated by 谷歌翻译

VLP: A Survey on Vision-Language Pre-training

Feilong Chen , Duzhen Zhang , Minglun Han , Xiuyi Chen , Jing Shi , Shuang Xu , Bo Xu

分类：计算机视觉 | 自然语言处理

2022-02-18

在过去的几年中，训练前模型的出现将单峰领域（例如计算机视觉（CV）和自然语言处理（NLP））带到了一个新时代。实质性的作品表明它们对下游大学任务有益，并避免从头开始训练新的模型。那么，此类预训练的模型可以应用于多模式任务吗？研究人员探索了这个问题并取得了重大进展。本文调查了视觉预训练（VLP）的最新进展和新的前沿，包括图像文本和视频文本预训练。为了使读者更好地掌握VLP，我们首先从五个方面回顾了其最新进展：功能提取，模型体系结构，培训预训练目标，预训练数据集和下游任务。然后，我们详细概述了特定的VLP模型。最后，我们讨论了VLP中的新边界。据我们所知，这是对VLP的首次调查。我们希望这项调查能够阐明VLP领域的未来研究。

translated by 谷歌翻译

Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics

Xiaoyuan Guo , Jiali Duan , C. -C. Jay Kuo , Judy Wawira Gichoya , Imon Banerjee

分类：计算机视觉

2022-07-31

视觉语言预处理框架中的语言方式是天生离散的，在语言词汇中赋予每个单词是语义含义。相比之下，视觉方式本质上是连续和高维的，这可能禁止视觉和语言方式之间的对齐和融合。因此，我们建议通过联合学习一本赋予每个视觉令牌语义的代码手册来“离散”视觉表示。然后，我们利用这些离散的视觉语义作为自我监督的基础真相来构建我们的蒙版图像建模目标，这是蒙版语言建模的对应物，证明了语言模型成功。为了优化代码簿，我们扩展了VQ-VAE的配方，该配方提供了理论保证。实验验证了我们在常见视觉基准测试中的方法的有效性。

translated by 谷歌翻译

VLMAE: Vision-Language Masked Autoencoder

Sunan He , Taian Guo , Tao Dai , Ruizhi Qiao , Chen Wu , Xiujun Shu , Bo Ren

分类：计算机视觉

2022-08-19

图像和语言建模对于视觉前训练（VLP）至关重要，该培训旨在从大规模配对的图像文本数据中学习多模式表示。但是，我们观察到，大多数现有的VLP方法着重于建模图像和文本特征之间的相互作用，同时忽略图像和文本之间的信息差异，从而遭受焦点偏见。为了解决这个问题，我们提出了一个视觉语言掩盖自动编码器框架（VLMAE）。VLMAE采用视觉生成学习，促进该模型获得细粒度和公正的特征。与以前的作品不同，Vlmae注意图像中几乎所有关键的补丁，提供了更全面的理解。广泛的实验表明，VLMAE在各种视觉语言下游任务中取得更好的性能，包括视觉问答，即使有20％的预训练速度，图像文本检索和视觉接地也是如此。

translated by 谷歌翻译

Multi-Modal Masked Autoencoders for Medical Vision-and-Language Pre-Training

Zhihong Chen , Yuhao Du , Jinpeng Hu , Yang Liu , Guanbin Li , Xiang Wan , Tsung-Hui Chang

分类：计算机视觉 | 自然语言处理

2022-09-15

医学视觉和语言预训练提供了一种可行的解决方案，可以从医学图像和文本中提取有效的视觉和语言表示。但是，很少有研究专门研究该领域，以促进医学视觉和语言理解。在本文中，我们提出了一种自我监督的学习范式，该学习范式使用多模式掩盖的自动编码器（M $^3 $ ae），通过从随机掩盖的图像和文本中重新构造缺失的像素和代币来学习跨模式域知识。有三个关键设计可以使这种简单的方法起作用。首先，考虑到视觉和语言的不同信息密度，我们为输入图像和文本采用不同的掩蔽比，其中将较大的掩模比用于图像。其次，我们使用来自不同层的视觉和文本特征来执行重建，以处理视觉和语言中不同级别的抽象。第三，我们为视觉和语言解码器开发了不同的设计（即，视觉的变压器和语言的多层感知器）。为了进行全面的评估并促进进一步的研究，我们构建了包括三个任务的医学视觉和语言基准。实验结果证明了我们方法的有效性，在所有下游任务上都取得了最新的结果。此外，我们进行进一步的分析，以更好地验证方法的不同组成部分和预训练的各种设置。源代码可在〜\ url {https://github.com/zhjohnchan/m3ae}中获得。

translated by 谷歌翻译

Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing

Benedikt Boecking , Naoto Usuyama , Shruthi Bannur , Daniel C. Castro , Anton Schwaighofer , Stephanie Hyland , Maria Wetscherek , Tristan Naumann , Aditya Nori , Javier Alvarez-Valle

分类：计算机视觉 | 自然语言处理

2022-04-21

生物医学中的多模式数据遍布，例如放射学图像和报告。大规模解释这些数据对于改善临床护理和加速临床研究至关重要。与一般领域相比，具有复杂语义的生物医学文本在视觉建模中提出了其他挑战，并且先前的工作使用了缺乏特定领域语言理解的适应性模型不足。在本文中，我们表明，有原则的文本语义建模可以大大改善自我监督的视力 - 语言处理中的对比度学习。我们发布了一种实现最先进的语言模型，从而通过改进的词汇和新颖的语言预测客观的客观利用语义和话语特征在放射学报告中获得了自然语言推断。此外，我们提出了一种自我监督的联合视觉 - 语言方法，重点是更好的文本建模。它在广泛的公开基准上建立了新的最新结果，部分是通过利用我们新的特定领域的语言模型。我们释放了一个新的数据集，该数据集具有放射科医生的局部对齐短语接地注释，以促进生物医学视觉处理中复杂语义建模的研究。广泛的评估，包括在此新数据集中，表明我们的对比学习方法在文本语义建模的帮助下，尽管仅使用了全球对准目标，但在细分任务中的表现都优于细分任务中的先验方法。

translated by 谷歌翻译

Align, Reason and Learn: Enhancing Medical Vision-and-Language Pre-training with Knowledge

Zhihong Chen , Guanbin Li , Xiang Wan

分类：自然语言处理 | 计算机视觉

2022-09-15

医学视觉和语言预训练（MED-VLP）由于适用于从医学图像和文本中提取通用视觉和语言表示的适用性而受到了相当大的关注。大多数现有方法主要包含三个元素：Uni-Modal编码器（即视觉编码器和语言编码器），多模式融合模块以及借口任务，很少有研究考虑医疗领域专家知识的重要性，并明确利用此类此类此类此类此类。知识以促进Med-vlp。尽管在通用域中存在具有知识增强的视觉和语言预训练（VLP）方法，但大多数人都需要现成的工具包（例如，对象检测器和场景图解析器），这些工具包在医疗领域中是不可用的。在本文中，我们提出了一种系统有效的方法，从三个角度通过结构化医学知识来增强MED-VLP。首先，考虑知识可以被视为视觉和语言之间的中间媒介，我们通过知识对齐视觉编码器和语言编码器的表示。其次，我们将知识注入多模式融合模型，以使模型能够使用知识作为补充输入图像和文本进行推理。第三，我们指导该模型通过设计知识引起的借口任务来强调图像和文本中最关键的信息。为了进行全面的评估并促进进一步的研究，我们构建了包括三个任务的医学视觉和语言基准。实验结果说明了我们方法的有效性，在所有下游任务上都实现了最先进的性能。进一步的分析探讨了我们方法的不同组成部分和预训练的各种环境的影响。

translated by 谷歌翻译

Multi-Modal Foundation Model for Simultaneous Comprehension of Molecular Structure and Properties

Jinho Chang , Jong Chul Ye

分类：机器学习 | 人工智能

2022-11-19

Recently, deep learning approaches have been extensively studied for various problems in chemistry, such as property prediction, virtual screening, de novo molecule design, etc. Despite the impressive successes, separately designed networks for specific tasks are usually required for end-to-end training, so it is often difficult to acquire a unified principle to synergistically combine existing models and training datasets for novel tasks. To address this, here we present a novel multimodal chemical foundation model that can be used for various downstream tasks that require a simultaneous understanding of structure and property. Specifically, inspired by recent advances in pre-trained multi-modal foundation models such as Vision-Language Pretrained models (VLP), we proposed a novel structure-property multi-modal (SPMM) foundation model using the dual-stream transformer with X-shape attention, so that it can align the molecule structure and the chemical properties in a common embedding space. Thanks to the outstanding structure-property unimodal representation, experimental results confirm that SPMM can simultaneously perform molecule generation, property prediction, classification, reaction prediction, etc., which was previously not possible with a single architecture.

translated by 谷歌翻译

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

Zejun Li , Zhihao Fan , Huaixiao Tou , Jingjing Chen , Zhongyu Wei , Xuanjing Huang

分类：计算机视觉 | 人工智能

2022-01-29

以前的视觉语言预训练模型主要构建具有令牌和对象（像素）的多模式输入，然后在它们之间执行交叉模式相互作用。我们认为，只有令牌和对象的输入限制了诸如短语到区域接地之类的高级语义对齐。同时，多层次对齐本质上是一致的，并且能够协同促进表示形式学习。因此，在本文中，我们建议学习视觉预训练（MVPTR）的多级语义一致性。在MVPTR中，我们遵循两种方式的嵌套结构，以引入概念为高级语义。为了简化从多模式多级输入的学习，我们的框架分为两个阶段，第一阶段着重于模式内多级表示学习，第二阶段通过粗粒和细粒度跨模态强化了跨模式的交互语义对齐任务。除了常用的图像文本匹配和掩盖语言模型任务外，我们还引入了第一阶段蒙版概念恢复任务以增强概念表示学习，第二阶段的另外两个任务在第二阶段中，以明确鼓励跨跨层次的多层次对准方式。我们的代码可在https://github.com/junction4nako/mvp_pytorch上找到。

translated by 谷歌翻译

Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment

Mustafa Shukor , Guillaume Couairon , Matthieu Cord

分类：计算机视觉 | 机器学习

2022-08-29

远见和语言预测已成为解决多模式下游任务的普遍方法。当前的趋势是朝着更大的模型和预处理数据集迈进。从长远来看，这一计算头急促似乎是不合理的，而是朝着可持续的解决方案迈进，事实上，排除了资源有限的学术实验室。在这项工作中，我们提出了一个称为VICHA的新框架，该框架有效利用输入数据以通过以下方式提高学习，以：，（c）利用图像级注释，称为视觉概念，使用现有基础模型（例如剪辑）获得，以提高图像编码器的性能。尽管对数据的预估计少了四倍，但我们的VICHA策略在下游任务（例如图像文本检索，VQA，视觉推理，视觉上和视觉接地）上的其他方法优于其他方法。该代码将在此处公开提供：https：//github.com/mshukor/vicha

translated by 谷歌翻译

Training Vision-Language Transformers from Captions Alone

Liangke Gui , Qiuyuan Huang , Subhojit Som , Alex Hauptmann , Yonatan Bisk , Jianfeng Gao

分类：计算机视觉

2022-05-19

Vision-Language Transformers can be learned without human labels (e.g. class labels, bounding boxes, etc). Existing work, whether explicitly utilizing bounding boxes or patches, assumes that the visual backbone must first be trained on ImageNet class prediction before being integrated into a multimodal linguistic pipeline. We show that this is not necessary and introduce a new model Vision-Language from Captions (VLC) built on top of Masked Auto-Encoders that does not require this supervision. In fact, in a head-to-head comparison between ViLT, the current state-of-the-art patch-based vision-language transformer which is pretrained with supervised object classification, and our model, VLC, we find that our approach 1. outperforms ViLT on standard benchmarks, 2. provides more interpretable and intuitive patch visualizations, and 3. is competitive with many larger models that utilize ROIs trained on annotated bounding-boxes.

translated by 谷歌翻译

GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training

Jaeseok Byun , Taebaek Hwang , Jianlong Fu , Taesup Moon

分类：计算机视觉

2022-08-08

当前现有的视觉和语言预训练（VLP）方法的大多数主要集中在如何提取和调整视觉和文本功能上。与主流VLP方法相反，我们强调指出，在训练预训练期间的两个常规应用步骤对预训练模型的性能至关重要：图像介绍（ITM）的内部硬性负面采样（ITM）并分配大型掩盖掩盖语言建模（MLM）的概率。在经验显示上述两个步骤的意外有效性之后，我们系统地设计了砂粒vlp，该砂粒可适应小型批次，以更有效地为ITM挖掘硬性阴性样品，同时维持预训练的计算成本。我们的方法由三个组成部分组成：1）分组的迷你批次采样（砂砾）策略，该策略在迷你批次中收集了类似的示例，2）ITC一致性损失以提高采矿能力，3）MLM的扩大掩蔽概率。因此，我们显示了我们的砂粒vlp在各种下游任务上实现了新的最新性能，计算成本要少得多。此外，我们证明了我们的模型基本上与以前的最先进的ALBEF相提并论，只有三分之一的训练时代在相同的培训数据上。代码可在https://github.com/jaeseokbyun/grit-vlp上找到。

translated by 谷歌翻译