对皮层结构的时间变化进行建模对于更好地理解阿尔茨海默氏病(AD)的进展至关重要。鉴于它们灵活地适应了异质序列的长度,过去已经提出了基于网格的变压器体系结构,以预测跨时间的海马变形。但是,变压器的主要局限性之一是大量可训练的参数,这使小型数据集上的应用程序非常具有挑战性。此外,当前方法不包括相关的非图像信息,这些信息可以帮助识别进展中与AD相关的模式。为此,我们介绍了CashFormer,这是一种基于变压器的框架,以模拟AD中的纵向形状轨迹。 CashFormer将预先训练的变压器作为通用计算引擎的想法,通过在微调过程中冻结大多数层来跨越各种任务。相对于原始模型,这将参数的数量减少了90%以上,因此可以在小型数据集中应用大型模型而不会过度拟合。此外,CashFormer模型的认知能力下降以揭示时间序列中的AD萎缩模式。我们的结果表明,与先前提出的方法相比,现金形式的重建误差降低了73%。此外,随着缺失的纵向形状数据,检测到AD的患者的准确性增加了3%。
translated by 谷歌翻译
最近,自我监督的预训练在W.R.T.的各种任务上具有先进的视觉变压器。不同的数据模式,例如图像和3D点云数据。在本文中,我们探讨了基于变压器的3D网格数据分析的学习范式。由于将变压器体系结构应用于新模式通常是非平凡的,因此我们首先将视觉变压器适应3D网格数据处理,即网格变压器。具体而言,我们将网格分为几个非重叠的本地贴片,每个贴片包含相同数量的面部,并使用每个贴片中心点的3D位置形成位置嵌入。受MAE的启发,我们探讨了如何使用基于变压器的结构对3D网格数据进行预训练如何使下游3D网格分析任务受益。我们首先随机掩盖网格的一些补丁,并将损坏的网格馈入网格变形金刚。然后,通过重建蒙版补丁的信息,该网络能够学习网格数据的区分表示。因此,我们命名我们的方法meshmae,可以在网格分析任务(即分类和分割)上产生最先进或可比性的性能。此外,我们还进行了全面的消融研究,以显示我们方法中关键设计的有效性。
translated by 谷歌翻译
在过去的十年中,卷积神经网络(Convnets)主导了医学图像分析领域。然而,发现脉搏的性能仍然可以受到它们无法模拟图像中体素之间的远程空间关系的限制。最近提出了众多视力变压器来解决哀悼缺点,在许多医学成像应用中展示最先进的表演。变压器可以是用于图像配准的强烈候选者,因为它们的自我注意机制能够更精确地理解移动和固定图像之间的空间对应。在本文中,我们呈现透射帧,一个用于体积医学图像配准的混合变压器-Cromnet模型。我们还介绍了三种变速器的变形,具有两个散晶变体,确保了拓扑保存的变形和产生良好校准的登记不确定性估计的贝叶斯变体。使用来自两个应用的体积医学图像的各种现有的登记方法和变压器架构进行广泛验证所提出的模型:患者间脑MRI注册和幻影到CT注册。定性和定量结果表明,传输和其变体导致基线方法的实质性改进,展示了用于医学图像配准的变压器的有效性。
translated by 谷歌翻译
我们首次建议使用基于多个实例学习的无卷积变压器模型,称为多个实例神经图像变压器(Minit),以分类T1Weighted(T1W)MRIS。我们首先介绍了为神经图像采用的几种变压器模型。这些模型从输入体积提取非重叠的3D块,并对其线性投影进行多头自我注意。另一方面,Minit将输入MRI的每个非重叠的3D块视为其自己的实例,将其进一步分为非重叠的3D贴片,并在其上计算了多头自我注意力。作为概念验证,我们通过训练模型来评估模型的功效,以确定两个公共数据集的T1W-MRIS:青少年脑认知发展(ABCD)和青少年酒精和神经发展联盟(NCANDA)(NCANDA) 。博学的注意力图突出了有助于识别脑形态计量学性别差异的体素。该代码可在https://github.com/singlaayush/minit上找到。
translated by 谷歌翻译
在为医疗保健领域开发监督的机器学习解决方案时,具有高质量地面真实标签的大规模数据的可用性是一个挑战。尽管临床工作流程中的数字数据量正在增加,但大多数数据都分布在临床站点上并受到保护以确保患者隐私。放射学读数和处理大型临床数据给可用资源带来了重大负担,这是机器学习和人工智能发挥关键作用的地方。用于肌肉骨骼(MSK)诊断的磁共振成像(MRI)是一个例子,其中扫描具有大量信息,但需要大量时间阅读和标记。自我监督的学习(SSL)可以是处理缺乏地面真相标签的解决方案,但通常需要在训练阶段进行大量培训数据。本文中,我们提出了一个基于切片的自制深度学习框架(SB-SSL),这是一种基于切片的新型范式,用于使用膝盖MRI扫描对异常进行分类。我们表明,在有限数量的情况下(<1000),我们提出的框架能够以89.17%的精度识别前交叉韧带撕裂,而AUC为0.954,不超过最先进的情况,而无需使用外部数据。在训练期间。这表明我们提出的框架适用于有限的数据制度中的SSL。
translated by 谷歌翻译
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train. 1
translated by 谷歌翻译
胰腺中的癌前囊肿或肿瘤的早期检测,即,导管内乳头状粘膜肿瘤(IPMN)是一项具有挑战性且复杂的任务,它可能导致更有利的结果。一旦检测到,还必须准确地对IPMN进行评分,因为低风险IPMN可以在监视计划下进行,而高危IPMN必须在变成癌症之前先手术切除。 IPMN分类的当前标准(Fukuoka等)显示出明显的操作员内和跨操作员变异性,除了容易出错,使适当的诊断不可靠。通过深度学习范式在人工智能方面的既定进展可能为有效支持胰腺癌的医疗决策提供了关键工具。在这项工作中,我们通过提出一种基于AI的新型IPMN分类器来遵循这一趋势,该分类器利用了Transformer网络最近在包括视觉的各种任务(包括视觉的任务)上概括的最新成功。我们特别表明,我们的基于变压器的模型比标准卷积神经网络更好地利用预训练,从而支持视觉中构建的构造统一性,包括医学图像域,并可以更好地解释获得的结果。
translated by 谷歌翻译
作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是,现有的视觉变形金刚努力使用有限的医学数据学习,并且无法概括各种医学图像任务。为了应对这些挑战,我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差,线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明,Medformer作为一般分割主链的潜力,在三个具有多种模式(例如CT和MRI)和多样化的医学靶标(例如,健康器官,疾病,疾病组织和肿瘤)的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用,为促进广泛的下游临床应用提供固体基线和无偏比较。
translated by 谷歌翻译
本文显示屏蔽的自动化器(MAE)是可扩展的自我监督学习者,用于计算机愿景。我们的MAE方法很简单:我们掩盖输入图像的随机补丁并重建缺失像素。它基于两个核心设计。首先,我们开发一个不对称的编码器解码器架构,其中编码器仅在掩码的可见子集(没有掩码令牌)上,以及重量解码器,该重量解码器从潜像和掩码令牌重建原始图像。其次,我们发现掩蔽了高比例的输入图像,例如,75%,产生非凡和有意义的自我监督任务。耦合这两种设计使我们能够有效且有效地培训大型模型:我们加速培训(3倍或更多)并提高准确性。我们可扩展的方法允许学习概括的高容量模型:例如,Vanilla Vit-Maxim模型在使用Imagenet-1K数据的方法中实现最佳准确性(87.8%)。下游任务中的转移性能优于监督预培训并显示有前途的缩放行为。
translated by 谷歌翻译
随着变压器作为语言处理的标准及其在计算机视觉方面的进步,参数大小和培训数据的数量相应地增长。许多人开始相信,因此,变形金刚不适合少量数据。这种趋势引起了人们的关注,例如:某些科学领域中数据的可用性有限,并且排除了该领域研究资源有限的人。在本文中,我们旨在通过引入紧凑型变压器来提出一种小规模学习的方法。我们首次表明,具有正确的尺寸,卷积令牌化,变压器可以避免在小数据集上过度拟合和优于最先进的CNN。我们的模型在模型大小方面具有灵活性,并且在获得竞争成果的同时,参数可能仅为0.28亿。当在CIFAR-10上训练Cifar-10,只有370万参数训练时,我们的最佳模型可以达到98%的准确性,这是与以前的基于变形金刚的模型相比,数据效率的显着提高,比其他变压器小于10倍,并且是15%的大小。在实现类似性能的同时,重新NET50。 CCT还表现优于许多基于CNN的现代方法,甚至超过一些基于NAS的方法。此外,我们在Flowers-102上获得了新的SOTA,具有99.76%的TOP-1准确性,并改善了Imagenet上现有基线(82.71%精度,具有29%的VIT参数)以及NLP任务。我们针对变压器的简单而紧凑的设计使它们更可行,可以为那些计算资源和/或处理小型数据集的人学习,同时扩展了在数据高效变压器中的现有研究工作。我们的代码和预培训模型可在https://github.com/shi-labs/compact-transformers上公开获得。
translated by 谷歌翻译
与卷积神经网络(CNN)相比,视觉变压器(VIT)正在变得越来越流行和主导技术。作为计算机视觉中苛刻的技术,VIT已成功解决了各种视觉问题,同时着眼于远程关系。在本文中,我们首先介绍自我注意机制的基本概念和背景。接下来,我们提供了最新表现最好的VIT方法的全面概述,该方法在强度和弱点,计算成本以及培训和测试数据集方面描述。我们彻底比较了流行基准数据集上各种VIT算法和大多数代表性CNN方法的性能。最后,我们通过有见地的观察来探索一些局限性,并提供进一步的研究方向。项目页面以及论文集可通过https://github.com/khawar512/vit-survey获得
translated by 谷歌翻译
Late-life depression (LLD) is a highly prevalent mood disorder occurring in older adults and is frequently accompanied by cognitive impairment (CI). Studies have shown that LLD may increase the risk of Alzheimer's disease (AD). However, the heterogeneity of presentation of geriatric depression suggests that multiple biological mechanisms may underlie it. Current biological research on LLD progression incorporates machine learning that combines neuroimaging data with clinical observations. There are few studies on incident cognitive diagnostic outcomes in LLD based on structural MRI (sMRI). In this paper, we describe the development of a hybrid representation learning (HRL) framework for predicting cognitive diagnosis over 5 years based on T1-weighted sMRI data. Specifically, we first extract prediction-oriented MRI features via a deep neural network, and then integrate them with handcrafted MRI features via a Transformer encoder for cognitive diagnosis prediction. Two tasks are investigated in this work, including (1) identifying cognitively normal subjects with LLD and never-depressed older healthy subjects, and (2) identifying LLD subjects who developed CI (or even AD) and those who stayed cognitively normal over five years. To the best of our knowledge, this is among the first attempts to study the complex heterogeneous progression of LLD based on task-oriented and handcrafted MRI features. We validate the proposed HRL on 294 subjects with T1-weighted MRIs from two clinically harmonized studies. Experimental results suggest that the HRL outperforms several classical machine learning and state-of-the-art deep learning methods in LLD identification and prediction tasks.
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
基于变压器的自我监督表示方法学习方法从未标记的数据集中学习通用功能,以提供有用的网络初始化参数,用于下游任务。最近,基于掩盖3D点云数据的局部表面斑块的自我监督学习的探索还不足。在本文中,我们提出了3D点云表示学习中的蒙版自动编码器(缩写为MAE3D),这是一种新颖的自动编码范式,用于自我监督学习。我们首先将输入点云拆分为补丁,然后掩盖其中的一部分,然后使用我们的补丁嵌入模块提取未掩盖的补丁的功能。其次,我们采用贴片的MAE3D变形金刚学习点云补丁的本地功能以及补丁之间的高级上下文关系,并完成蒙版补丁的潜在表示。我们将点云重建模块与多任务损失一起完成,从而完成不完整的点云。我们在Shapenet55上进行了自我监督的预训练,并使用点云完成前文本任务,并在ModelNet40和ScanObjectnn(PB \ _t50 \ _RS,最难的变体)上微调预训练的模型。全面的实验表明,我们的MAE3D从Point Cloud补丁提取的本地功能对下游分类任务有益,表现优于最先进的方法($ 93.4 \%\%\%\%$和$ 86.2 \%$ $分类精度)。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
阿尔茨海默氏病(AD)是痴呆症的最常见形式,由于痴呆症的多因素病因,通常难以诊断。关于基于神经成像的基于神经成像的深度神经网络(DNN)的著作表明,结构磁共振图像(SMRI)和氟脱氧葡萄糖正电子发射层析成像(FDG-PET)可提高健康对照和受试者的研究人群的精度。与广告。但是,这一结果与既定的临床知识冲突,即FDG-PET比SMRI更好地捕获AD特定的病理。因此,我们提出了一个框架,用于对基于FDG-PET和SMRI进行多模式DNN的系统评估,并重新评估单模式DNN和多模式DNN,用于二进制健康与AD,以及三向健康/轻度的健康/轻度认知障碍/广告分类。我们的实验表明,使用FDG-PET的单模式网络的性能优于MRI(准确性0.91 vs 0.87),并且在组合时不会显示出改进。这符合有关AD生物标志物的既定临床知识,但提出了有关多模式DNN的真正好处的问题。我们认为,未来关于多模式融合的工作应系统地评估我们提出的评估框架后的个人模式的贡献。最后,我们鼓励社区超越健康与AD分类,并专注于痴呆症的鉴别诊断,在这种诊断中,在这种诊断中,融合了多模式图像信息与临床需求相符。
translated by 谷歌翻译
统计形状建模旨在捕获给定种群中发生的解剖结构的形状变化。形状模型用于许多任务,例如形状重建和图像分割,但也可以塑造生成和分类。现有的形状先验需要训练示例之间的密集对应,或者缺乏鲁棒性和拓扑保证。我们提出了FlowSM,这是一种新型的形状建模方法,它可以学习形状变异性,而无需在训练实例之间密集的对应关系。它依赖于连续变形流的层次结构,该层次由神经网络参数化。我们的模型优于远端股骨和肝脏在提供表现力和稳健形状方面的最先进方法。我们表明,新兴的潜在表示通过将健康与病理形状分开来歧视。最终,我们从部分数据中证明了其对两个形状重建任务的有效性。我们的源代码公开可用(https://github.com/davecasp/flowssm)。
translated by 谷歌翻译
We present a simple approach which can turn a ViT encoder into an efficient video model, which can seamlessly work with both image and video inputs. By sparsely sampling the inputs, the model is able to do training and inference from both inputs. The model is easily scalable and can be adapted to large-scale pre-trained ViTs without requiring full finetuning. The model achieves SOTA results and the code will be open-sourced.
translated by 谷歌翻译
我们利用深度顺序模型来解决预测患者医疗保健利用的问题,这可能有助于政府更好地为未来的医疗保健使用提供资源。具体地,我们研究\纺织{发散亚组}的问题,其中较小的人口小组中的结果分布大大偏离了一般人群的群体。如果亚组的尺寸非常小(例如,稀有疾病),则对不同亚组的专业模型建造专门模型的传统方法可能是有问题的。为了解决这一挑战,我们首先开发一种新的无关注顺序模型,SANSFORMERS,灌输了适合在电子医疗记录中建模临床码的归纳偏差。然后,我们通过在整个健康登记处预先培训每个模型(接近100万名患者)之前,设计了一个特定的自我监督目标,并展示其有效性,特别是稀缺数据设置,特别是在整个健康登记处(接近一百万名患者)进行微调下游任务不同的子组。我们使用两个数据来源与LSTM和变压器模型进行比较新的SANSFARER架构和辅助医疗利用预测的多任务学习目标。凭经验,无关注的Sansformer模型在实验中始终如一地执行,在大多数情况下以至少$ \ SIM 10 $ \%表现出在大多数情况下的基线。此外,在预测医院访问数量时,自我监督的预训练将在整个始终提高性能,例如通过超过$ \ sim 50 $ \%(和高度为800美元\%)。
translated by 谷歌翻译