有效的骨干网络对于基于深度学习的可变形医学图像注册(DMIR)很重要,因为它可以提取和匹配两个图像之间的特征,以发现互联网的相互对应。但是,现有的深网关注单图像,并且在配对图像上执行的注册任务有限。因此,我们推进了一个新型的骨干网络Xmorpher,用于DMIR中有效的相应特征表示。 1)它提出了一种新颖的完整变压器体系结构,包括双重平行特征提取网络,通过交叉注意交换信息,从而在逐渐提取相应的特征以逐渐提取最终有效注册时发现了多层次的语义对应。 2)它推进了交叉注意变压器(CAT)块,以建立图像之间的注意机制,该图像能够自动找到对应关系并提示特征在网络中有效融合。 3)它限制了基本窗口和搜索不同尺寸的窗口之间的注意力计算,因此着重于可变形注册的局部转换,并同时提高了计算效率。我们的Xmorpher没有任何铃铛和哨子,可在DSC上提高2.8%的素孔,以证明其对DMIR中配对图像的特征的有效表示。我们认为,我们的Xmorpher在更多配对的医学图像中具有巨大的应用潜力。我们的Xmorpher在https://github.com/solemoon/xmorpher上开放
translated by 谷歌翻译
医疗图像注册和细分是多种临床程序的关键任务。这些任务的手动实现是耗时的,质量高度取决于医师的专业水平。为了减轻这项费力的任务,已经开发了自动工具,其中大多数解决方案都是有监督的技术。但是,在医疗领域中,拥有代表性的基础真理的强有力假设远非现实。为了克服这一挑战,已经研究了无监督的技术。但是,它们的性能仍然有限,并且无法产生合理的结果。在这项工作中,我们提出了一个新型的统一的无监督框架,用于图像注册和分割,我们称为PC-Swinmorph。我们框架的核心是两种基于补丁的策略,我们证明补丁表示是性能增益的关键。我们首先引入了基于补丁的对比策略,该策略可执行当地条件和更丰富的特征表示。其次,我们利用一个3D窗口/移动的窗口多头自发项模块作为补丁缝制策略,以消除贴片分裂中的人工制品。我们通过一组数值和视觉结果证明,我们的技术优于当前最新的无监督技术。
translated by 谷歌翻译
可变形的图像配准能够在一对图像之间实现快速准确的对准,因此在许多医学图像研究中起着重要作用。当前的深度学习(DL)基础的图像登记方法通过利用卷积神经网络直接从一个图像到另一个图像的空间变换,要求地面真相或相似度量。然而,这些方法仅使用全局相似性能量函数来评估一对图像的相似性,该图像忽略了图像内的感兴趣区域(ROI)的相似性。此外,基于DL的方法通常估计直接图像的全球空间转换,这永远不会注意图像内ROI的区域空间转换。在本文中,我们介绍了一种具有区域一致性约束的新型双流转换网络,其最大化了一对图像内的ROI的相似性,并同时估计全局和区域空间转换。四个公共3D MRI数据集的实验表明,与其他最先进的方法相比,该方法可实现准确性和泛化的最佳登记性能。
translated by 谷歌翻译
注册在医学图像分析中起着重要作用。已经研究了用于医学图像注册的深度学习方法,该方法利用卷积神经网络(CNN)有效地从一对图像中回归了密集的变形场。但是,CNN的限制是其提取语义上有意义的内部和图像间空间对应关系的能力,这对于准确的图像注册至关重要。这项研究提出了一个新型的端到端深度学习框架,用于无监督的仿射和差异可变形的注册,称为acsgregnet,该框架集成了一个交叉意识模块,用于建立图像间的特征对应关系和一个自我主张模块,以进行内部内部的模块图像解剖结构意识到。两个注意模块都建立在变压器编码器上。每个注意模块的输出分别被馈送到解码器以生成速度场。我们进一步引入了一个封闭式的融合模块,以融合两个速度场。然后将融合速度场集成到密集的变形场。广泛的实验是在腰椎CT图像上进行的。一旦训练了模型,就可以一枪注册一对看不见的腰椎。通过450对椎CT数据进行了评估,我们的方法的平均骰子为0.963,平均距离误差为0.321mm,比最先进的(SOTA)更好。
translated by 谷歌翻译
最近,已广泛研究了基于深度学习的方法,以进行可变形的图像注册任务。但是,大多数努力将复合图像表示形式直接映射到通过卷积神经网络的空间转换,而忽略了其捕获空间对应关系的有限能力。另一方面,变压器可以更好地表征与注意机制的空间关系,其远程依赖性可能对注册任务有害,在这种情况下,距离太大的体素不太可能是相应的对。在这项研究中,我们提出了一个新型的变形器模块,以及用于可变形图像配准任务的多尺度框架。变形器模块旨在通过将位移矢量预测作为几个碱基的加权总和来促进从图像表示到空间转换的映射。借助多尺度框架以粗略的方式预测位移字段,与传统和基于学习的方法相比,可以实现卓越的性能。进行了两个公共数据集的全面实验,以证明所提出的变形器模块以及多规模框架的有效性。
translated by 谷歌翻译
大多数基于深度学习(DL)的可变形图像登记方法使用卷积神经网络(CNN)来估计移动和固定图像对的位移字段。但是,这要求CNN中的卷积内核不仅从输入中提取强度特征,而且还了解图像坐标系。我们认为,后者的任务对传统CNN来说是具有挑战性的,从而限制了他们在注册任务中的性能。为了解决此问题,我们首先介绍坐标翻译器,坐标转换器是一个可区分的模块,该模块识别固定和移动图像之间的匹配功能,并在不需要训练的情况下输出其坐标对应关系。它卸载了了解CNN的图像坐标系的负担,从而使它们可以专注于特征提取。然后,我们提出了一个新型的可变形注册网络IM2Grid,该网络使用多个坐标转换器与从CNN编码中提取的层次结构特征,并以粗略的方式输出变形字段。我们将IM2Grid与无监督的3D磁共振图像注册的最新DL和非DL方法进行了比较。我们的实验表明,IM2Grid在定性和定量上都优于这些方法。
translated by 谷歌翻译
卷积神经网络(CNN)已成为医疗图像分割任务的共识。但是,由于卷积操作的性质,它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题,但它们未能捕获低级功能。相比之下,证明本地和全球特征对于密集的预测至关重要,例如在具有挑战性的环境中细分。在本文中,我们提出了一种新型方法,该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言,我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合,我们建议在编码器编码器结构的跳过连接中提出一个双层融合(DLF)模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的,基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取:https://github.com/amirhossein-kz/hiformer
translated by 谷歌翻译
近年来,基于深度学习,各种计算机视觉应用已取得了重大进展,该进展已被广泛用于图像融合,并证明可以实现足够的性能。然而,对于不同源图像的空间对应关系的能力有限,对于现有的无监督图像融合模型的挑战仍然是一个巨大的挑战,即提取适当的功能并实现适应性和平衡的融合。在本文中,我们提出了一个新颖的跨注意指导图像融合网络,该网络是多模式图像融合,多曝光图像融合和多聚焦图像融合的统一且无监督的框架。与现有的自我发项模块不同,我们的交叉意见模块着重于建模不同源图像之间的互相关。使用拟议的交叉注意模块作为核心块,建立一个密集连接的交叉注意引导网络是为了动态地学习空间对应,以从不同的输入图像中获得更好的重要细节。同时,还设计了一个辅助分支来对远程信息进行建模,并附加了合并网络以最终重建融合图像。在公开可用的数据集上进行了广泛的实验,结果表明,所提出的模型在定量和质量上优于最先进的模型。
translated by 谷歌翻译
组合来自多视图图像的信息对于提高自动化方法的疾病诊断方法的性能和鲁棒性至关重要。但是,由于多视图图像的非对齐特性,跨视图的构建相关性和数据融合在很大程度上仍然是一个开放的问题。在这项研究中,我们提出了输血,这是一种基于变压器的体系结构,可使用卷积层和强大的注意机制合并不同的多视图成像信息。特别是,针对丰富的跨视图上下文建模和语义依赖性挖掘,提出了发散的融合注意(DIFA)模块,以解决从不同图像视图中捕获未对齐数据之间的长期相关性的关键问题。我们进一步提出了多尺度注意(MSA),以收集多尺度特征表示的全局对应关系。我们评估了心脏MRI(M \&MS-2)挑战队列中多疾病,多视图\&多中心右心室分段的输血。输血表明了针对最先进方法的领先绩效,并为多视图成像集成的新观点打开了稳健的医学图像分割。
translated by 谷歌翻译
由于激光雷达扫描数据的大规模,噪音和数据不完整,注册Urban Point Clouds是一项艰巨的任务。在本文中,我们提出了SARNET,这是一个新型的语义增强注册网络,旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同,我们的方法完全利用语义特征来提高注册精度。具体而言,我们提取具有高级语义分割网络的每点语义标签,并构建先前的语义零件到部分对应关系。然后,我们将语义信息纳入基于学习的注册管道中,该管道由三个核心模块组成:基于语义的最远点采样模块,以有效地滤除异常值和动态对象;一个语义增强的特征提取模块,用于学习更多的判别点描述符;语义改制的转换估计模块,该模块利用先前的语义匹配作为掩码,通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较,从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。
translated by 谷歌翻译
我们介绍了一个基于仅用于跟踪的变压器的暹罗样的双分支网络。给定模板和搜索映像,我们将它们分成非重叠补丁,并基于其在注意窗口中的其他人的匹配结果提取每个补丁的特征向量。对于每个令牌,我们估计它是否包含目标对象和相应的大小。该方法的优点是,该特征从匹配中学到,最终匹配。因此,功能与目标跟踪任务对齐。该方法实现更好或比较的结果作为首先使用CNN提取特征的最佳性能,然后使用变压器熔断它们。它优于GOT-10K和VOT2020基准上的最先进的方法。此外,该方法在一个GPU上实现了实时推理速度(约为40美元的FPS)。代码和模型将被释放。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
作为许多医疗应用的重要上游任务,监督的地标本地化仍然需要不可忽略的注释成本才能实现理想的绩效。此外,由于繁琐的收集程序,医疗地标数据集的规模有限,会影响大规模自我监督的预训练方法的有效性。为了应对这些挑战,我们提出了一个两阶段的单次医疗地标本地化框架,该框架首先通过无监督的注册从标记的示例中删除了地标,以便未​​标记的目标,然后利用这些嘈杂的伪标签来训练健壮的探测器。为了处理重要的结构变化,我们在包含边缘信息的新型损失函数的指导下学习了全球对齐和局部变形的端到端级联。在第二阶段,我们探索了选择可靠的伪标签和半监视学习的跨矛盾的自持矛盾。我们的方法在不同身体部位的公共数据集上实现了最先进的表现,这证明了其一般适用性。
translated by 谷歌翻译
在过去的十年中,卷积神经网络(Convnets)主导了医学图像分析领域。然而,发现脉搏的性能仍然可以受到它们无法模拟图像中体素之间的远程空间关系的限制。最近提出了众多视力变压器来解决哀悼缺点,在许多医学成像应用中展示最先进的表演。变压器可以是用于图像配准的强烈候选者,因为它们的自我注意机制能够更精确地理解移动和固定图像之间的空间对应。在本文中,我们呈现透射帧,一个用于体积医学图像配准的混合变压器-Cromnet模型。我们还介绍了三种变速器的变形,具有两个散晶变体,确保了拓扑保存的变形和产生良好校准的登记不确定性估计的贝叶斯变体。使用来自两个应用的体积医学图像的各种现有的登记方法和变压器架构进行广泛验证所提出的模型:患者间脑MRI注册和幻影到CT注册。定性和定量结果表明,传输和其变体导致基线方法的实质性改进,展示了用于医学图像配准的变压器的有效性。
translated by 谷歌翻译
通过纵向病变跟踪评估病变进展和治疗反应在临床实践中起着至关重要的作用。当手动进行病变匹配时,该任务的自动化方法是由劳动力成本和时间消耗的促进的。以前的方法通常缺乏本地和全球信息的集成。在这项工作中,我们提出了一种基于变压器的方法,称为变压器病变跟踪器(TLT)。具体而言,我们设计了一个基于注意力的变压器(CAT),以捕获和组合全球和本地信息以增强特征提取。我们还开发了一个基于注册的解剖注意模块(RAAM),以向CAT介绍解剖信息,以便它可以专注于有用的特征知识。提出了一种稀疏选择策略(SSS),用于选择特征和减少变压器训练中的内存足迹。此外,我们使用全球回归来进一步提高模型性能。我们在公共数据集上进行实验,以显示我们方法的优势,并发现我们的模型性能使欧几里得中心的平均误差至少提高了至少14.3%(6mm vs. 7mm),而不是先进的ART(SOTA) )。代码可在https://github.com/tangwen920812/tlt上找到。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
近年来,人群计数研究取得了重大进展。然而,随着人群中存在具有挑战性的规模变化和复杂的场景,传统的卷积网络和最近具有固定大小的变压器架构都不能良好地处理任务。为了解决这个问题,本文提出了一个场景 - 自适应关注网络,称为Saanet。首先,我们设计了可变形的变压器骨干内的可变形关注,从而了解具有可变形采样位置和动态注意力的自适应特征表示。然后,我们提出了多级特征融合和计数专注特征增强模块,以加强全局图像上下文下的特征表示。学习的陈述可以参加前景,并适应不同的人群。我们对四个具有挑战性的人群计数基准进行广泛的实验,表明我们的方法实现了最先进的性能。特别是,我们的方法目前在NWPU-Crowd基准的公共排行榜上排名第一。我们希望我们的方法可能是一个强大的基线,以支持人群计数的未来研究。源代码将被释放到社区。
translated by 谷歌翻译
脑MRI图像的登记需要解决变形领域,这对于对准复杂的脑组织,例如皮质核等,这是极其困难的现有努力,该努力在具有微小运动的中间子场中分解目标变形领域,即逐步登记阶段或较低的分辨率,即全尺寸变形场的粗析估计。在本文中,我们认为这些努力不是相互排斥的,并为普通和粗良好的方式同时提出统一的脑MRI登记统一框架。具体地,在双编码器U-Net上构建,定制移动的MRI对被编码和解码成从粗略到精细的多尺度变形子字段。每个解码块包含两个提出的新颖模块:i)在变形场积分(DFI)中,计算单个集成子字段,翘曲,其等同于来自所有先前解码块的子字段逐渐翘曲,并且II)非刚性特征融合(NFF),固定移动对的特征由DFI集成子场对齐,然后融合以预测更精细的子场。利用DFI和NFF,目标变形字段被修改为多尺度子场,其中较粗糙的字段缓解了更精细的一个和更精细的字段的估计,以便构成以前粗糙的较粗糙的那些错位。私人和公共数据集的广泛和全面的实验结果展示了脑MRI图像的优越的登记性能,仅限于逐步登记和粗略估计,平均骰子的粗略估计数量在最多8%上升。
translated by 谷歌翻译
我们提出了一种基于学习的刚性和可变形场景的基于学习方法的方法。LePard的关键特征是利用点云匹配的3D位置知识的以下方法:1)将点云表示分为特征空间和3D位置空间的架构。2)一种位置编码方法,其通过向量的点产品明确地明确地揭示了3D相对距离信息。3)修改交叉点云相对位置的重新定位技术。消融研究证明了上述技术的有效性。对于刚性点云匹配,Lepard在3DMatch / 3DLomatch基准上为93.6%/ 69.0%的注册召回设置了新的最先进的。在可变形的情况下,Lepard达到+ 27.1%/ + 34.8%的非刚性特征匹配召回,而不是我们新建的4dmatch / 4dlomatch基准测试的现有技术。
translated by 谷歌翻译
多年来,卷积神经网络(CNN)已成为多种计算机视觉任务的事实上的标准。尤其是,基于开创性体系结构(例如具有跳过连接的U形模型)或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而,作为一般共识,CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外,从全球信息建模中获利的变压器源于自我发项机制,最近在自然语言处理和计算机视觉方面取得了出色的表现。然而,以前的研究证明,局部和全局特征对于密集预测的深层模型至关重要,例如以不同的形状和配置对复杂的结构进行分割。为此,本文提出了TransDeeplab,这是一种新型的DeepLab样纯变压器,用于医学图像分割。具体而言,我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池(ASPP)模块。对相关文献的彻底搜索结果是,我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明,我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论,并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得
translated by 谷歌翻译