智能论文笔记

Toward Clinically Assisted Colorectal Polyp Recognition via Structured Cross-modal Representation Consistency

Weijie Ma , Ye Zhu , Ruimao Zhang , Jie Yang , Yiwen Hu , Zhen Li , Li Xiang

分类：计算机视觉

2022-06-23

大肠息肉分类是一项关键的临床检查。为了提高分类精度，大多数计算机辅助诊断算法通过采用窄带成像（NBI）识别结直肠息肉。但是，NBI通常在实际诊所场景中缺少利用率，因为该特定图像的获取需要在使用白光（WL）图像检测到息肉时手动切换光模式。为了避免上述情况，我们提出了一种新的方法，可以通过进行结构化的跨模式表示一致性直接实现准确的白光结肠镜图像分类。实际上，一对多模式图像，即NBI和WL，被送入共享变压器中以提取分层特征表示。然后，采用了一种新颖的设计空间注意模块（SAM）来计算从多层次的类令牌和贴片令牌％的相似性，以获得特定模态图像。通过将配对NBI和WL图像的类令牌和空间注意图对齐，变压器可以使上述两种模式保持全局和局部表示一致性。广泛的实验结果说明了所提出的方法的表现优于最近的研究，从而通过单个变压器实现了多模式预测，同时仅在使用WL图像时大大提高了分类精度。

translated by 谷歌翻译

Toward Unpaired Multi-modal Medical Image Segmentation via Learning Structured Semantic Consistency

Jie Yang , Ruimao Zhang , Chaoqun Wang , Zhen Li , Xiang Wan , Lingyan Zhang

分类：计算机视觉

2022-06-21

集成多模式数据以改善医学图像分析，最近受到了极大的关注。但是，由于模态差异，如何使用单个模型来处理来自多种模式的数据仍然是一个开放的问题。在本文中，我们提出了一种新的方案，以实现未配对多模式医学图像的更好的像素级分割。与以前采用模式特异性和模态共享模块的以前方法不同，以适应不同方式的外观差异，同时提取共同的语义信息，我们的方法基于具有精心设计的外部注意模块（EAM）的单个变压器来学习在训练阶段，结构化的语义一致性（即语义类表示及其相关性）。在实践中，可以通过分别在模态级别和图像级别实施一致性正则化来逐步实现上述结构化语义一致性。采用了提出的EAM来学习不同尺度表示的语义一致性，并且一旦模型进行了优化，就可以丢弃。因此，在测试阶段，我们只需要为所有模态预测维护一个变压器，这可以很好地平衡模型的易用性和简单性。为了证明所提出的方法的有效性，我们对两个医学图像分割方案进行了实验：（1）心脏结构分割，（2）腹部多器官分割。广泛的结果表明，所提出的方法的表现优于最新方法，甚至通过极有限的训练样本（例如1或3个注释的CT或MRI图像）以一种特定的方式来实现竞争性能。

translated by 谷歌翻译

An Efficient End-to-End Transformer with Progressive Tri-modal Attention for Multi-modal Emotion Recognition

Yang Wu , Pai Peng , Zhenyu Zhang , Yanyan Zhao , Bing Qin

分类：自然语言处理

2022-09-20

关于多模式情绪识别的最新作品转向端到端模型，该模型可以提取与两阶段管道相比，目标任务监督的特定任务特征。但是，以前的方法仅模拟文本和声学和视觉方式之间的特征相互作用，而忽略了捕获声学和视觉方式之间的特征相互作用。在本文中，我们提出了多模式的端到端变压器（ME2ET），该变压器可以有效地对低级和高级水平的文本，声学和视觉方式之间的三模式特征进行建模。在低水平，我们提出了进行性三模式的注意，可以通过采用两次通行策略来对三模式特征相互作用进行建模，并可以进一步利用这种相互作用，以通过降低输入令牌来显着降低计算和记忆复杂性长度。在高水平上，我们引入了三模式特征融合层，以明确汇总三种模式的语义表示。 CMU-MOSEI和IEMOCAP数据集的实验结果表明，ME2ET实现了最新性能。进一步的深入分析证明了拟议的渐进三模式关注的有效性，效率和解释性，这可以帮助我们的模型实现更好的性能，同时显着降低计算和记忆成本。我们的代码将公开可用。

translated by 谷歌翻译

Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person Re-identification

Ziyi Tang , Ruimao Zhang , Zhanglin Peng , Jinrui Chen , Liang Lin

分类：计算机视觉

2023-01-02

In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.

translated by 谷歌翻译

TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D Salient Object Detection

Youwei Pang , Xiaoqi Zhao , Lihe Zhang , Huchuan Lu

分类：计算机视觉

2021-12-04

大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中，我们从全球信息对齐和转换的角度重新思考此任务。具体地，所提出的方法（Transcmd）级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径（TIPP）。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外，考虑到二次复杂性W.R.T.输入令牌的数量，我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略（Ptre）。七个RGB-D SOD基准数据集上的实验结果表明，在配备TIPP时，简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。

translated by 谷歌翻译

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation

Jianwei Lin , Jiatai Lin , Cheng Lu , Hao Chen , Huan Lin , Bingchao Zhao , Zhenwei Shi , Bingjiang Qiu , Xipeng Pan , Zeyan Xu

分类：计算机视觉

2022-07-15

磁共振图像（MRI）中的脑肿瘤分割（BTS）对于脑肿瘤诊断，癌症管理和研究目的至关重要。随着十年小型挑战的巨大成功以及CNN和Transformer算法的进步，已经提出了许多出色的BTS模型来解决BTS在不同技术方面的困难。但是，现有研究几乎没有考虑如何以合理的方式融合多模式图像。在本文中，我们利用了放射科医生如何从多种MRI模态诊断脑肿瘤的临床知识，并提出了一种称为CKD-TRANSBTS的临床知识驱动的脑肿瘤分割模型。我们没有直接串联所有模式，而是通过根据MRI的成像原理将输入方式分为两组来重新组织输入方式。具有拟议模态相关的跨意义块（MCCA）的双支支混合式编码器旨在提取多模式图像特征。所提出的模型以局部特征表示能力的能力来继承来自变压器和CNN的强度，以提供精确的病变边界和3D体积图像的远程特征提取。为了弥合变压器和CNN功能之间的间隙，我们提出了解码器中的反式和CNN功能校准块（TCFC）。我们将提出的模型与五个基于CNN的模型和六个基于Transformer的模型在Brats 2021挑战数据集上进行了比较。广泛的实验表明，与所有竞争对手相比，所提出的模型可实现最先进的脑肿瘤分割性能。

translated by 谷歌翻译

Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays

Yan Han , Gregory Holste , Ying Ding , Ahmed Tewfik , Yifan Peng , Zhangyang Wang

分类：计算机视觉

2022-07-10

在深度学习方法进行自动医学图像分析的最新成功之前，从业者使用手工制作的放射线特征来定量描述当地的医学图像斑块。但是，提取区分性放射素特征取决于准确的病理定位，这在现实世界中很难获得。尽管疾病分类和胸部X射线的定位方面取得了进步，但许多方法未能纳入临床知名的领域知识。由于这些原因，我们提出了一个放射素引导的变压器（RGT），该变压器（RGT）与\ textit {global}图像信息与\ textit {local}知识引导的放射线信息信息提供准确的心肺病理学定位和分类\ textit {无需任何界限盒{ }。 RGT由图像变压器分支，放射线变压器分支以及聚集图像和放射线信息的融合层组成。 RGT使用对图像分支的自我注意事项，提取了一个边界框来计算放射线特征，该特征由放射线分支进一步处理。然后通过交叉注意层融合学习的图像和放射线特征。因此，RGT利用了一种新型的端到端反馈回路，该回路只能使用图像水平疾病标签引导精确的病理定位。 NIH CHESTXRAR数据集的实验表明，RGT的表现优于弱监督疾病定位的先前作品（在各个相交联合阈值的平均余量为3.6 \％）和分类（在接收器操作方下平均1.1 \％\％\％\％曲线）。接受代码和训练有素的模型将在接受后发布。

translated by 谷歌翻译

Learning Semantic-Aligned Feature Representation for Text-based Person Search

Shiping Li , Min Cao , Min Zhang

分类：计算机视觉 | 人工智能

2021-12-13

基于文本的人员搜索旨在通过文本描述检索某个行人的图像。此任务的关键挑战是消除模态间隙，并在模态中实现特征对齐。在本文中，我们提出了一种用于基于文本的人员搜索的语义对齐方法，其中通过自动学习语义对齐的视觉特征和文本特征来实现模态的特征对齐。首先，我们介绍了两个变换器的骨干，以编码图像和文本的强大特征表示。其次，我们设计了一个语义对齐的特征聚合网络，以便自适应地选择和聚合具有相同语义的特征，进入部分感知功能，该功能是通过跨模型部分对齐损耗和分集丢失约束的多头注意模块实现的。Cuhk-Pedes和Flickr30K数据集上的实验结果表明，我们的方法实现了最先进的表演。

translated by 谷歌翻译

VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document Classification

Souhail Bakkali , Zuheng Ming , Mickael Coustaty , Marçal Rusiñol , Oriol Ramos Terrades

分类：计算机视觉

2022-05-24

从文档数据中进行的多模式学习最近取得了巨大的成功，因为它允许将语义有意义的特征预先作为先验的特征，成为可学习的下游方法。在本文中，我们通过使用语言和视觉线索来学习跨模式的表示，考虑了内模式和模式间关系，我们解决了文档分类问题。该方法没有将不同模态的特征合并为一个共同表示空间，而是利用高级相互作用，并从跨模态内外的有效注意流中学习相关的语义信息。提出的学习目标是在内部和模式间比对任务之间设计的，其中每个任务的相似性分布是通过收缩阳性样品对计算的，同时在共同特征表示空间中同时对比}。公共文档分类数据集的广泛实验证明了我们模型对低规模和大规模数据集的有效性和概括能力。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation

Jinyu Yang , Jingjing Liu , Ning Xu , Junzhou Huang

分类：计算机视觉

2021-08-12

无监督域适应（UDA）旨在将从标记的源域中学习的知识转移到未标记的目标域。以前的工作主要是在卷积神经网络（CNNS）上建立的，以学习域名不变的表示。随着近期应用视觉变压器（VIT）对视力任务的指数增加，然而，在文献中仍未开发了调整跨领域知识的能力。为了填补这一差距，本文首先全面调查了vit的各种域适应任务的可转移性。令人惊讶的是，VIT通过其具有大边缘的基于CNNS的对应物来证明优异的可转移性，而通过掺入抗体适应可以进一步提高性能。尽管如此，直接使用基于CNNS的适应策略未能利用Vit的内在优点（例如，注意机制和顺序图像表示）在知识转移中起重要作用。为了解决这个问题，我们提出了一个统一的框架，即可转换的视觉变压器（TVT），以充分利用VIT的可转换性来实现域适应。具体而言，我们精致地设计了一种新颖且有效的单位，我们术语可转移适应模块（TAM）。通过将学习的传递注入注意块，TAM压迫重点是可转移和辨别特征。此外，我们利用判别聚类来增强在对抗域对齐期间破坏的特征分集和分离。为了验证其多功能性，我们在四个基准测试中对TVT进行了广泛的研究，实验结果表明，与现有的最先进的UDA方法相比，TVT达到了显着的改进。

translated by 谷歌翻译

HoVer-Trans: Anatomy-aware HoVer-Transformer for ROI-free Breast Cancer Diagnosis in Ultrasound Images

Yuhao Mo , Chu Han , Yu Liu , Min Liu , Zhenwei Shi , Jiatai Lin , Bingchao Zhao , Chunwang Huang , Bingjiang Qiu , Yanfen Cui

分类：计算机视觉

2022-05-17

超声检查是乳腺癌诊断的重要常规检查，这是由于其无创，无辐射和低成本的特性。但是，由于其固有的局限性，乳腺癌的诊断准确性仍然受到限制。如果我们可以通过乳房超声图像（BUS）精确诊断乳腺癌，那将是一个巨大的成功。已经提出了许多基于学习的计算机辅助诊断方法来实现乳腺癌诊断/病变分类。但是，其中大多数需要预定的ROI，然后对ROI内的病变进行分类。常规的分类骨架，例如VGG16和RESNET50，可以在没有ROI要求的情况下获得有希望的分类结果。但是这些模型缺乏解释性，因此限制了它们在临床实践中的使用。在这项研究中，我们提出了一种具有可解释特征表示的超声图像中乳腺癌诊断的新型无ROI模型。我们利用解剖学的先验知识，即恶性肿瘤和良性肿瘤在不同的组织层之间具有不同的空间关系，并提出了悬停转换器来提出这种先验知识。提出的悬停式跨界块水平和垂直地提取层间和层内空间信息。我们进行并释放一个开放的数据集GDPH＆SYSUCC，以用于公共汽车中的乳腺癌诊断。通过与四个基于CNN的模型和两个Vision Transformer模型进行比较，通过五倍的交叉验证来评估所提出的模型。它通过最佳模型可解释性实现最新的分类性能。同时，我们提出的模型在仅给出一张公交图像时，在乳腺癌诊断方面优于两名高级超声检查员。

translated by 谷歌翻译

Cross-Modal Learning with 3D Deformable Attention for Action Recognition

Sangwon Kim , Dasom Ahn , Byoung Chul Ko

分类：计算机视觉

2022-12-12

An important challenge in vision-based action recognition is the embedding of spatiotemporal features with two or more heterogeneous modalities into a single feature. In this study, we propose a new 3D deformable transformer for action recognition with adaptive spatiotemporal receptive fields and a cross-modal learning scheme. The 3D deformable transformer consists of three attention modules: 3D deformability, local joint stride, and temporal stride attention. The two cross-modal tokens are input into the 3D deformable attention module to create a cross-attention token with a reflected spatiotemporal correlation. Local joint stride attention is applied to spatially combine attention and pose tokens. Temporal stride attention temporally reduces the number of input tokens in the attention module and supports temporal expression learning without the simultaneous use of all tokens. The deformable transformer iterates L times and combines the last cross-modal token for classification. The proposed 3D deformable transformer was tested on the NTU60, NTU120, FineGYM, and Penn Action datasets, and showed results better than or similar to pre-trained state-of-the-art methods even without a pre-training process. In addition, by visualizing important joints and correlations during action recognition through spatial joint and temporal stride attention, the possibility of achieving an explainable potential for action recognition is presented.

translated by 谷歌翻译

Few-Shot Learning Meets Transformer: Unified Query-Support Transformers for Few-Shot Classification

Xixi Wang , Xiao Wang , Bo Jiang , Bin Luo

分类：计算机视觉

2022-08-26

旨在使用非常有限的样本识别看不见的类的几个射击分类吸引了越来越多的关注。通常，它被称为公制学习问题。几乎没有射击分类的核心问题是如何学习（1）支持和查询集中图像的一致表示以及（2）在支持和查询集之间的图像的有效度量学习。在本文中，我们表明，这两个挑战可以通过统一的查询支持变压器（QSFormer）模型同时建模。具体而言，提出的QSFormer涉及全局查询支持样品变压器（SampleFormer）分支和局部补丁变压器（PatchFormer）学习分支。 SampleFormer旨在捕获样品在支持和查询集以进行图像表示方面的依赖性。它采用编码器，解码器和交叉注意力，分别对几个射击分类任务的支持，查询（图像）表示和度量学习进行建模。同样，作为全球学习分支的补充，我们采用了局部贴片变压器，通过捕获本地图像贴片的长距离依赖性来提取每个图像样本的结构表示。此外，还提出了一种新型的跨尺度交互式提取器（CIFE）来提取和融合多尺度CNN特征，作为建议的少量学习方法的有效骨干模块。所有模块都集成到统一的框架中，并以端到端的方式进行了训练。在四个流行数据集上进行的广泛实验证明了所提出的QSFormer的有效性和优势。

translated by 谷歌翻译

HTML版本

HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical Image Classification

Xiangzuo Huo , Gang Sun , Shengwei Tian , Yan Wang , Long Yu , Jun Long , Wendong Zhang , Aolun Li

分类：计算机视觉

2022-09-21

在卷积神经网络（CNN）的动力下，医学图像分类迅速发展。由于卷积内核的接受场的固定尺寸，很难捕获医学图像的全局特征。尽管基于自发的变压器可以对远程依赖性进行建模，但它具有很高的计算复杂性，并且缺乏局部电感偏见。许多研究表明，全球和本地特征对于图像分类至关重要。但是，医学图像具有许多嘈杂，分散的特征，类内的变化和类间的相似性。本文提出了三个分支分层的多尺度特征融合网络结构，称为医学图像分类为新方法。它可以融合多尺度层次结构的变压器和CNN的优势，而不会破坏各自的建模，从而提高各种医学图像的分类精度。局部和全局特征块的平行层次结构旨在有效地提取各种语义尺度的本地特征和全局表示，并灵活地在不同的尺度上建模，并与图像大小相关的线性计算复杂性。此外，自适应分层特征融合块（HFF块）旨在全面利用在不同层次级别获得的功能。 HFF块包含空间注意力，通道注意力，残留的倒置MLP和快捷方式，以在每个分支的各个规模特征之间适应融合语义信息。我们在ISIC2018数据集上提出的模型的准确性比基线高7.6％，COVID-19数据集的准确性为21.5％，Kvasir数据集的准确性为10.4％。与其他高级模型相比，HIFUSE模型表现最好。我们的代码是开源的，可从https://github.com/huoxiangzuo/hifuse获得。

translated by 谷歌翻译

SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual Categorization

Hongbo Sun , Xiangteng He , Yuxin Peng

分类：计算机视觉

2022-08-31

细粒度的视觉分类（FGVC）旨在识别类似下属类别的对象，这对于人类的准确自动识别需求而言是挑战性和实用性的。大多数FGVC方法都集中在判别区域开采的注意力机制研究上，同时忽略了它们的相互依赖性和组成的整体对象结构，这对于模型的判别信息本地化和理解能力至关重要。为了解决上述限制，我们建议结构信息建模变压器（SIM-TRANS）将对象结构信息纳入变压器，以增强判别性表示学习，以包含外观信息和结构信息。具体而言，我们将图像编码为一系列贴片令牌，并使用两个精心设计的模块构建强大的视觉变压器框架：（i）提出了结构信息学习（SIL）模块以挖掘出在该模块中的空间上下文关系，对象范围借助变压器的自我发项权重，进一步注入导入结构信息的模型；（ii）引入了多级特征增强（MFB）模块，以利用类中多级特征和对比度学习的互补性，以增强功能鲁棒性，以获得准确的识别。提出的两个模块具有轻加权，可以插入任何变压器网络并轻松地端到端训练，这仅取决于视觉变压器本身带来的注意力重量。广泛的实验和分析表明，所提出的SIM-TRANS在细粒度的视觉分类基准上实现了最先进的性能。该代码可在https://github.com/pku-icst-mipl/sim-trans_acmmm2022上获得。

translated by 谷歌翻译

HTML版本

Hierarchical Local-Global Transformer for Temporal Sentence Grounding

Xiang Fang , Daizong Liu , Pan Zhou , Zichuan Xu , Ruixuan Li

分类：自然语言处理 | 计算机视觉

2022-08-31

本文研究了时间句子接地的多媒体问题（TSG），该问题旨在根据给定的句子查询准确地确定未修剪视频中的特定视频段。传统的TSG方法主要遵循自上而下或自下而上的框架，不是端到端。他们严重依靠耗时的后处理来完善接地结果。最近，提出了一些基于变压器的方法来有效地对视频和查询之间的细粒语义对齐进行建模。尽管这些方法在一定程度上达到了显着的性能，但它们同样将视频的框架和查询的单词视为用于关联的变压器输入，未能捕获其不同水平的粒度与独特的语义。为了解决这个问题，在本文中，我们提出了一种新型的等级局部 - 全球变压器（HLGT）来利用这种层次结构信息，并模拟不同粒度的不同级别的相互作用和不同的模态之间的相互作用，以学习更多细粒度的多模式表示。具体而言，我们首先将视频和查询分为单个剪辑和短语，以通过时间变压器学习其本地上下文（相邻依赖关系）和全局相关性（远程依赖）。然后，引入了全球本地变压器，以了解本地级别和全球级别语义之间的相互作用，以提供更好的多模式推理。此外，我们开发了一种新的跨模式周期一致性损失，以在两种模式之间实施相互作用，并鼓励它们之间的语义一致性。最后，我们设计了一个全新的跨模式平行变压器解码器，以集成编码的视觉和文本特征，以进行最终接地。在三个具有挑战性的数据集上进行了广泛的实验表明，我们提出的HLGT实现了新的最新性能。

translated by 谷歌翻译

HTML版本

Transformers in Vision: A Survey

Salman Khan , Muzammal Naseer , Munawar Hayat , Syed Waqas Zamir , Fahad Shahbaz Khan , Mubarak Shah

分类：

2021-01-04

Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.

translated by 谷歌翻译

Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis

Licai Sun , Zheng Lian , Bin Liu , Jianhua Tao

分类：机器学习 | 自然语言处理 | 计算机视觉

2022-08-16

随着用户生成的在线视频的扩散，多模式情感分析（MSA）最近引起了越来越多的关注。尽管取得了重大进展，但在稳健的MSA方面仍然存在两个主要挑战：1）在未对准的多模式数据中对跨模式相互作用进行建模时效率低下； 2）通常在现实设置中出现的随机模态特征的脆弱性。在本文中，我们提出了一个通用和统一的框架来解决它们，以双级特征恢复（EMT-DLFR）为有效的多模式变压器。具体而言，EMT采用了从每种模式的语音级表示作为全球多模式上下文，以与局部单峰特征相互作用并相互促进。它不仅避免了以前本地局部跨模式相互作用方法的二次缩放成本，而且还可以提高性能。一方面，为了提高模型鲁棒性，DLFR执行低级功能重建，以隐式鼓励模型从不完整的数据中学习语义信息。另一方面，它是一种创新的，将完整的数据视为一个样本的两个不同视图，并利用暹罗代表学学习明确吸引其高级表示。在三个流行数据集上进行的全面实验表明，我们的方法在完整和不完整的模态设置中都能达到卓越的性能。

translated by 谷歌翻译