智能论文笔记

View-Disentangled Transformer for Brain Lesion Detection

Haofeng Li , Junjia Huang , Guanbin Li , Zhou Liu , Yihong Zhong , Yingying Chen , Yunfei Wang , Xiang Wan

分类：计算机视觉

2022-09-20

深度神经网络（DNN）已在脑病变检测和分割中广泛采用。但是，在2D MRI切片中定位小病变是具有挑战性的，需要在3D上下文聚集的粒度和计算复杂性之间取得平衡。在本文中，我们提出了一种新型的视角变压器，以增强MRI特征的提取，以进行更准确的肿瘤检测。首先，所提出的变压器在3D脑扫描中收获了不同位置之间的远程相关性。其次，变压器将一堆切片功能堆叠为多个2D视图，并增强这些特征的视图，该功能大致以有效的方式实现了3D相关计算。第三，我们将提出的变压器模块部署在变压器主链中，该模块可以有效地检测到脑损伤周围的2D区域。实验结果表明，我们提出的观看式变压器在具有挑战性的大脑MRI数据集上对大脑病变检测表现良好。

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation

Reza Azad , Moein Heidari , Moein Shariatnia , Ehsan Khodapanah Aghdam , Sanaz Karimijafarbigloo , Ehsan Adeli , Dorit Merhof

分类：计算机视觉 | 机器学习

2022-08-01

多年来，卷积神经网络（CNN）已成为多种计算机视觉任务的事实上的标准。尤其是，基于开创性体系结构（例如具有跳过连接的U形模型）或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而，作为一般共识，CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外，从全球信息建模中获利的变压器源于自我发项机制，最近在自然语言处理和计算机视觉方面取得了出色的表现。然而，以前的研究证明，局部和全局特征对于密集预测的深层模型至关重要，例如以不同的形状和配置对复杂的结构进行分割。为此，本文提出了TransDeeplab，这是一种新型的DeepLab样纯变压器，用于医学图像分割。具体而言，我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池（ASPP）模块。对相关文献的彻底搜索结果是，我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明，我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论，并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

Universal Lesion Detection in CT Scans using NeuralNetwork Ensembles

Tarun Mattikalli , Tejas Sudharshan Mathai , Ronald M. Summers

分类：计算机视觉

2021-11-09

在临床实践中，在区分从非转移的中转移时，放射科学家在依赖于病变尺寸。病变尺寸的先决条件是它们的检测，因为它促进了对肿瘤的下游评估。然而，病变在CT扫描中的大小和外观变化，并且放射科医师通常会错过小型病变繁忙的临床日。为了克服这些挑战，我们提出了使用最先进的检测神经网络，以向NIH Deepleion数据集中存在的可疑病变进行尺寸。此外，我们合并了界定盒融合技术，以最大限度地减少假阳性（FP）并提高检测精度。最后，ToreSemble临床用途，我们构建了一个最佳检测模型的集合，以定位损伤，以精确度为65.17％，灵敏度为91.67％，每张图片4 fp。我们的结果改善了当前最先进方法的性能，以便在挑战CT扫描中进行病变检测。

translated by 谷歌翻译

Attentive Symmetric Autoencoder for Brain MRI Segmentation

Junjia Huang , Haofeng Li , Guanbin Li , Xiang Wan

分类：计算机视觉

2022-09-19

基于图像补丁重建的自我监督学习方法在培训自动编码器方面取得了巨大的成功，其预训练的权重可以转移到微调图像理解的其他下游任务。但是，现有方法很少研究重建斑块的各种重要性和解剖结构的对称性，当它们应用于3D医学图像时。在本文中，我们提出了一种基于3D脑MRI分割任务的视觉变压器（VIT）的新颖的对称自动编码器（ASA）。我们猜想，强迫自动编码器恢复信息性图像区域可以收获更多的判别性表示，而不是恢复光滑的图像贴片。然后，我们采用基于梯度的指标来估计每个图像补丁的重要性。在预训练阶段，提议的自动编码器更多地注意根据梯度指标重建信息贴片。此外，我们求助于大脑结构的先验，并开发一种对称位置编码（SPE）方法，以更好地利用远距离但空间对称区域之间的相关性以获得有效的特征。实验结果表明，我们提出的细心对称自动编码器的表现优于三个大脑MRI分割基准的最先进的自我监督学习方法和医学图像分割模型。

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

UNETR: Transformers for 3D Medical Image Segmentation

Ali Hatamizadeh , Yucheng Tang , Vishwesh Nath , Dong Yang , Andriy Myronenko , Bennett Landman , Holger Roth , Daguang Xu

分类：

2021-03-18

Fully Convolutional Neural Networks (FCNNs) with contracting and expanding paths have shown prominence for the majority of medical image segmentation applications since the past decade. In FCNNs, the encoder plays an integral role by learning both global and local features and contextual representations which can be utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers in FCNNs, limits the capability of learning long-range spatial dependencies. Inspired by the recent success of transformers for Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. We introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information, while also following the successful "U-shaped" network design for the encoder and decoder. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have validated the performance of our method on the Multi Atlas Labeling Beyond The Cranial Vault (BTCV) dataset for multiorgan segmentation and the Medical Segmentation Decathlon (MSD) dataset for brain tumor and spleen segmentation tasks. Our benchmarks demonstrate new state-of-the-art performance on the BTCV leaderboard. Code: https://monai.io/research/unetr

translated by 谷歌翻译

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation

Jianwei Lin , Jiatai Lin , Cheng Lu , Hao Chen , Huan Lin , Bingchao Zhao , Zhenwei Shi , Bingjiang Qiu , Xipeng Pan , Zeyan Xu

分类：计算机视觉

2022-07-15

磁共振图像（MRI）中的脑肿瘤分割（BTS）对于脑肿瘤诊断，癌症管理和研究目的至关重要。随着十年小型挑战的巨大成功以及CNN和Transformer算法的进步，已经提出了许多出色的BTS模型来解决BTS在不同技术方面的困难。但是，现有研究几乎没有考虑如何以合理的方式融合多模式图像。在本文中，我们利用了放射科医生如何从多种MRI模态诊断脑肿瘤的临床知识，并提出了一种称为CKD-TRANSBTS的临床知识驱动的脑肿瘤分割模型。我们没有直接串联所有模式，而是通过根据MRI的成像原理将输入方式分为两组来重新组织输入方式。具有拟议模态相关的跨意义块（MCCA）的双支支混合式编码器旨在提取多模式图像特征。所提出的模型以局部特征表示能力的能力来继承来自变压器和CNN的强度，以提供精确的病变边界和3D体积图像的远程特征提取。为了弥合变压器和CNN功能之间的间隙，我们提出了解码器中的反式和CNN功能校准块（TCFC）。我们将提出的模型与五个基于CNN的模型和六个基于Transformer的模型在Brats 2021挑战数据集上进行了比较。广泛的实验表明，与所有竞争对手相比，所提出的模型可实现最先进的脑肿瘤分割性能。

translated by 谷歌翻译

Efficient Decoder-free Object Detection with Transformers

Peixian Chen , Mengdan Zhang , Yunhang Shen , Kekai Sheng , Yuting Gao , Xing Sun , Ke Li , Chunhua Shen

分类：计算机视觉

2022-06-14

视觉变压器（VIT）正在改变对象检测方法的景观。 VIT的自然使用方法是用基于变压器的骨干替换基于CNN的骨干，该主链很简单有效，其价格为推理带来了可观的计算负担。更微妙的用法是DEDR家族，它消除了对物体检测中许多手工设计的组件的需求，但引入了一个解码器，要求超长时间进行融合。结果，基于变压器的对象检测不能在大规模应用中占上风。为了克服这些问题，我们提出了一种新型的无解码器基于完全变压器（DFFT）对象检测器，这是第一次在训练和推理阶段达到高效率。我们通过居中两个切入点来简化反对检测到仅编码单级锚点的密集预测问题：1）消除训练感知的解码器，并利用两个强的编码器来保留单层特征映射预测的准确性； 2）探索具有有限的计算资源的检测任务的低级语义特征。特别是，我们设计了一种新型的轻巧的面向检测的变压器主链，该主链有效地捕获了基于良好的消融研究的丰富语义的低级特征。 MS Coco基准测试的广泛实验表明，DFFT_SMALL的表现优于2.5％AP，计算成本降低28％，$ 10 \ $ 10 \乘以$ 10 \乘以$较少的培训时期。与尖端的基于锚的探测器视网膜相比，DFFT_SMALL获得了超过5.5％的AP增益，同时降低了70％的计算成本。

translated by 谷歌翻译

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation

Xin Yu , Qi Yang , Yinchi Zhou , Leon Y. Cai , Riqiang Gao , Ho Hin Lee , Thomas Li , Shunxing Bao , Zhoubing Xu , Thomas A. Lasko

分类：计算机视觉

2022-09-28

Transformer-based models, capable of learning better global dependencies, have recently demonstrated exceptional representation learning capabilities in computer vision and medical image analysis. Transformer reformats the image into separate patches and realize global communication via the self-attention mechanism. However, positional information between patches is hard to preserve in such 1D sequences, and loss of it can lead to sub-optimal performance when dealing with large amounts of heterogeneous tissues of various sizes in 3D medical image segmentation. Additionally, current methods are not robust and efficient for heavy-duty medical segmentation tasks such as predicting a large number of tissue classes or modeling globally inter-connected tissues structures. Inspired by the nested hierarchical structures in vision transformer, we proposed a novel 3D medical image segmentation method (UNesT), employing a simplified and faster-converging transformer encoder design that achieves local communication among spatially adjacent patch sequences by aggregating them hierarchically. We extensively validate our method on multiple challenging datasets, consisting anatomies of 133 structures in brain, 14 organs in abdomen, 4 hierarchical components in kidney, and inter-connected kidney tumors). We show that UNesT consistently achieves state-of-the-art performance and evaluate its generalizability and data efficiency. Particularly, the model achieves whole brain segmentation task complete ROI with 133 tissue classes in single network, outperforms prior state-of-the-art method SLANT27 ensembled with 27 network tiles, our model performance increases the mean DSC score of the publicly available Colin and CANDI dataset from 0.7264 to 0.7444 and from 0.6968 to 0.7025, respectively.

translated by 谷歌翻译

LSSANet: A Long Short Slice-Aware Network for Pulmonary Nodule Detection

Rui Xu , Yong Luo , Bo Du , Kaiming Kuang , Jiancheng Yang

分类：计算机视觉

2022-08-03

卷积神经网络（CNN）已被证明在肺结核检测领域非常有效。但是，现有的基于CNN的肺结核检测方法缺乏捕获长期依赖性的能力，这对于全局信息提取至关重要。在计算机视觉任务中，非本地操作已被广泛使用，但是对于3D计算机断层扫描（CT）图像，计算成本可能很高。为了解决这个问题，我们提出了一个长的短切片网络（LSSANET），用于检测肺结核。特别是，我们开发了一种称为长短切片组（LSSG）的新的非本地机制，该机制将紧凑的非本地嵌入分裂为一个短距离切片，分组为一和长距离切片。这不仅减轻了计算负担，而且还可以在切片和整个功能图中保持长期依赖性。提出的LSSG易于使用，可以插入许多肺结核检测网络中。为了验证LSSANET的性能，我们将基于2D/3D CNN的几种最近提出的竞争检测方法进行比较。大规模PN9数据集的有希望的评估结果证明了我们方法的有效性。代码在https://github.com/ruixxxx/lssanet上。

translated by 谷歌翻译

High-Resolution Swin Transformer for Automatic Medical Image Segmentation

Chen Wei , Shenghan Ren , Kaitai Guo , Haihong Hu , Jimin Liang

分类：计算机视觉 | 人工智能

2022-07-23

特征图的分辨率对于医学图像分割至关重要。大多数现有用于医疗图像分割的基于变压器的网络都是U-NET样体系结构，其中包含一个编码器，该编码器利用一系列变压器块将输入医疗图像从高分辨率表示形式转换为低分辨率特征图和解码器这逐渐从低分辨率特征图中恢复了高分辨率表示。与以前的研究不同，在本文中，我们利用高分辨率网络（HRNET）的网络设计样式，用变压器块替换卷积层，并从变压器块生成的不同分辨率特征图中连续交换信息。本文介绍的新基于变压器的网络表示为高分辨率SWIN Transformer网络（HRSTNET）。广泛的实验表明，HRSTNET可以与基于最新的变压器类似于脑肿瘤分割的U-NET样结构（BRATS）2021和Medical Sementation Decathlon的肝数据集实现可比的性能。 HRSTNET代码将在https://github.com/auroua/hrstnet上公开获得。

translated by 谷歌翻译

Advancing 3D Medical Image Analysis with Variable Dimension Transform based Supervised 3D Pre-training

Shu Zhang , Zihao Li , Hong-Yu Zhou , Jiechao Ma , Yizhou Yu

分类：计算机视觉

2022-01-05

数据采集和注释中的困难基本上限制了3D医学成像应用的训练数据集的样本尺寸。结果，在没有足够的预训练参数的情况下，构建来自划痕的高性能3D卷积神经网络仍然是一项艰巨的任务。以前关于3D预培训的努力经常依赖于自我监督的方法，它在未标记的数据上使用预测或对比学习来构建不变的3D表示。然而，由于大规模监督信息的不可用，从这些学习框架获得语义不变和歧视性表示仍然存在问题。在本文中，我们重新审视了一种创新但简单的完全监督的3D网络预训练框架，以利用来自大型2D自然图像数据集的语义监督。通过重新设计的3D网络架构，重新设计的自然图像用于解决数据稀缺问题并开发强大的3D表示。四个基准数据集上的综合实验表明，所提出的预先接受的模型可以有效地加速收敛，同时还提高了各种3D医学成像任务，例如分类，分割和检测的准确性。此外，与从头划伤的训练相比，它可以节省高达60％的注释工作。在NIH Deeplesion数据集上，它同样地实现了最先进的检测性能，优于早期的自我监督和完全监督的预训练方法，以及从头训练进行培训的方法。为了促进3D医疗模型的进一步发展，我们的代码和预先接受的模型权重在https://github.com/urmagicsmine/cspr上公开使用。

translated by 谷歌翻译

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images

Ali Hatamizadeh , Vishwesh Nath , Yucheng Tang , Dong Yang , Holger Roth , Daguang Xu

分类：计算机视觉 | 机器学习

2022-01-04

脑肿瘤的语义分割是一个基本的医学图像分析任务，涉及多个MRI成像方式，可以帮助临床医生诊断患者并先后研究恶性实体的进展。近年来，完全卷积神经网络（FCNNS）方法已成为3D医学图像分割的事实标准。受欢迎的“U形”网络架构在不同的2D和3D语义分割任务和各种成像方式上实现了最先进的性能基准。然而，由于FCNNS中的卷积层的核心大小有限，它们的建模远程信息的性能是次优的，这可能导致具有可变尺寸的肿瘤分割的缺陷。另一方面，变压器模型在捕获多个域中的这种远程信息，包括自然语言处理和计算机视觉中的卓越功能。灵感来自视觉变形金刚的成功及其变体，我们提出了一种新的分割模型，被称为往返博物馆变压器（Swin Unet）。具体地，3D脑肿瘤语义分割的任务被重新重整为序列预测问题的序列，其中多模态输入数据被投射到嵌入的1D序列并用作作为编码器的分层SWIN变压器的输入。 SWIN变压器编码器通过利用移位窗口来提取五个不同分辨率的特征，以通过跳过连接在每个分辨率下连接到每个分辨率的基于FCNN的解码器。我们参与了Brats 2021分割挑战，我们所提出的模型在验证阶段的最佳方法中排名。代码：https://monai.io/research/swin-unetr.

translated by 谷歌翻译

Efficient Lung Cancer Image Classification and Segmentation Algorithm Based on Improved Swin Transformer

Ruina Sun , Yuexin Pang

分类：计算机视觉 | 人工智能

2022-07-04

随着计算机技术的开发，人工智能已经出现了各种模型。在自然语言处理（NLP）成功之后，变压器模型已应用于计算机视觉（CV）。放射科医生在当今迅速发展的医疗领域中继续面临多重挑战，例如增加工作量和增加的诊断需求。尽管以前有一些常规的肺癌检测方法，但仍需要提高其准确性，尤其是在现实的诊断情况下。本文创造性地提出了一种基于有效变压器的分割方法，并将其应用于医学图像分析。该算法通过分析肺癌数据来完成肺癌分类和细分的任务，并旨在为医务人员提供有效的技术支持。此外，我们在各个方面进行了评估并比较了结果。对于分类任务，通过定期培训和SWIN-B在两项决议中通过预训练的最高准确性可高达82.3％。对于分割任务，我们使用预训练来帮助模型提高实验的准确性。这三个模型的准确性达到95％以上。实验表明该算法可以很好地应用于肺癌分类和分割任务。

translated by 谷歌翻译

TransFusion: Multi-view Divergent Fusion for Medical Image Segmentation with Transformers

Di Liu , Yunhe Gao , Qilong Zhangli , Ligong Han , Xiaoxiao He , Zhaoyang Xia , Song Wen , Qi Chang , Zhennan Yan , Mu Zhou

分类：计算机视觉

2022-03-21

组合来自多视图图像的信息对于提高自动化方法的疾病诊断方法的性能和鲁棒性至关重要。但是，由于多视图图像的非对齐特性，跨视图的构建相关性和数据融合在很大程度上仍然是一个开放的问题。在这项研究中，我们提出了输血，这是一种基于变压器的体系结构，可使用卷积层和强大的注意机制合并不同的多视图成像信息。特别是，针对丰富的跨视图上下文建模和语义依赖性挖掘，提出了发散的融合注意（DIFA）模块，以解决从不同图像视图中捕获未对齐数据之间的长期相关性的关键问题。我们进一步提出了多尺度注意（MSA），以收集多尺度特征表示的全局对应关系。我们评估了心脏MRI（M \＆MS-2）挑战队列中多疾病，多视图\＆多中心右心室分段的输血。输血表明了针对最先进方法的领先绩效，并为多视图成像集成的新观点打开了稳健的医学图像分割。

translated by 谷歌翻译

TransVOD: End-to-end Video Object Detection with Spatial-Temporal Transformers

Qianyu Zhou , Xiangtai Li , Lu He , Yibo Yang , Guangliang Cheng , Yunhai Tong , Lizhuang Ma , Dacheng Tao

分类：计算机视觉

2022-01-13

Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.

translated by 谷歌翻译

TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation

Bingzhi Chen , Yishu Liu , Zheng Zhang , Guangming Lu , Adams Wai Kin Kong

分类：计算机视觉

2021-07-12

对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来，卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见，先前的模型主要集中在相邻像素形成的局部视觉提示上，但无法完全对远程上下文依赖性进行建模。在本文中，我们提出了一个新型的基于变压器的注意力指导网络，称为Transattunet，其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发，具有变压器自我注意力（TSA）和全球空间注意力（GSA）的自我意识注意（SAA）被纳入Transattunet中，以有效地学习编码器特征之间的非本地相互作用。此外，我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样，多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益，拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失，最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明，所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到：https：//github.com/yishuliu/transattunet。

translated by 谷歌翻译

3D Vision with Transformers: A Survey

Jean Lahoud , Jiale Cao , Fahad Shahbaz Khan , Hisham Cholakkal , Rao Muhammad Anwer , Salman Khan , Ming-Hsuan Yang

分类：计算机视觉

2022-08-08

变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性，变压器已被用作广泛使用的卷积运算符的替代品。事实证明，这种替代者在许多任务中都取得了成功，其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中，3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上，但由于与2D视觉相比，由于数据表示和处理的差异，3D视觉需要特别注意。在这项工作中，我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查，包括分类，细分，检测，完成，姿势估计等。我们在3D Vision中讨论了变形金刚的设计，该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序，我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力，我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外，我们的目标是频繁更新最新的相关论文及其相应的实现：https：//github.com/lahoud/3d-vision-transformers。

translated by 谷歌翻译