快速的现场评估(ROSE)技术可以通过适当地分析快速染色的细胞病理学图像来显着加速胰腺癌的诊断。计算机辅助诊断(CAD)可以潜在地解决玫瑰病中病理学家的短缺。但是,不同样品之间的癌性模式差异很大,这使CAD任务极具挑战性。此外,由于不同的染色质量和各种采集装置类型,玫瑰图像在颜色分布,亮度和对比度方面具有复杂的扰动。为了应对这些挑战,我们提出了一种基于随机实例的视觉变压器(SI-VIT)方法,该方法可以减少扰动并增强实例之间的建模。借助重新组装的洗牌实例及其行李级软标签,该方法利用回归头将模型集中在细胞上,而不是各种扰动。同时,该模型与分类头结合在一起,可以有效地识别不同实例之间的一般分布模式。结果表明,分类准确性有了更准确的注意区域的显着提高,表明玫瑰图像的多种模式有效地提取了,并且复杂的扰动大大降低。这也表明SI-VIT在分析细胞病理学图像方面具有巨大的潜力。代码和实验结果可在https://github.com/sagizty/mil-si上获得。
translated by 谷歌翻译
胰腺癌是世界上最严重恶性的癌症之一,这种癌症迅速迅速,具有很高的死亡率。快速的现场评估(玫瑰)技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程,这使得在这种紧压的过程中能够更快的诊断。然而,由于缺乏经验丰富的病理学家,玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题,我们提出了一个混合高性能深度学习模型,以实现自动化工作流程,从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段,由卷积神经网络(CNN)产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导,这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器(MSHT)在分类精度下实现95.68%,其鲜明地高于最先进的模型。面对对可解释性的需求,MSHT以更准确的关注区域表达其对应物。结果表明,MSHT可以以前所未有的图像规模精确地区分癌症样本,奠定了部署自动决策系统的基础,并在临床实践中扩大玫瑰。代码和记录可在:https://github.com/sagizty/multi-stage-ybrid-transformer。
translated by 谷歌翻译
Learning good representation of giga-pixel level whole slide pathology images (WSI) for downstream tasks is critical. Previous studies employ multiple instance learning (MIL) to represent WSIs as bags of sampled patches because, for most occasions, only slide-level labels are available, and only a tiny region of the WSI is disease-positive area. However, WSI representation learning still remains an open problem due to: (1) patch sampling on a higher resolution may be incapable of depicting microenvironment information such as the relative position between the tumor cells and surrounding tissues, while patches at lower resolution lose the fine-grained detail; (2) extracting patches from giant WSI results in large bag size, which tremendously increases the computational cost. To solve the problems, this paper proposes a hierarchical-based multimodal transformer framework that learns a hierarchical mapping between pathology images and corresponding genes. Precisely, we randomly extract instant-level patch features from WSIs with different magnification. Then a co-attention mapping between imaging and genomics is learned to uncover the pairwise interaction and reduce the space complexity of imaging features. Such early fusion makes it computationally feasible to use MIL Transformer for the survival prediction task. Our architecture requires fewer GPU resources compared with benchmark methods while maintaining better WSI representation ability. We evaluate our approach on five cancer types from the Cancer Genome Atlas database and achieved an average c-index of $0.673$, outperforming the state-of-the-art multimodality methods.
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
自动路面遇险分类有助于提高路面维护的效率并降低劳动力和资源的成本。该任务的最近有影响力的分支将路面图像划分为贴片,并从多实体学习的角度解决了这些问题。但是,这些方法忽略了斑块之间的相关性,并且在模型优化和推理中遇到了低效率。同时,Swin Transformer能够以其独特的优势来解决这两个问题。我们构建了Swin Transformer,我们提供了一个名为\ TextBf {p} avement \ textbf {i} mage \ textbf {c} lassification \ textbf {t} ransformer(\ textbf {pict})的视觉变压器。为了更好地利用贴片级别的路面图像的判别信息,提出了\ textit {patch labeling conterg},以利用教师模型在每次迭代期间从图像标签中动态生成贴片的伪标签,并将模型引导到模型上了解补丁的判别特征。 Swin Transformer的广泛分类头可能会稀释特征聚合步骤中遇险斑块的判别特征,这是由于路面图像的遇险面积较小。为了克服这个缺点,我们提出了一个\ textit {Patch Refiner}将补丁聚集到不同的组中,并且仅选择最高的遇险风险组来产生最终图像分类的纤细头部。我们在CQU-BPDD上评估了我们的方法。广泛的结果表明,\ textbf {pict}在检测任务中,p@r中的$+2.4 \%$的大幅度优于第二好的模型,$+3.9 \%\%\%$ f1 $ f1 $ in识别任务和识别任务和1.8倍吞吐量,同时使用相同的计算资源享受7倍的训练速度。我们的代码和模型已在\ href {https://github.com/dearcaat/pict} {https://github.com/dearcaat/pict}上发布。
translated by 谷歌翻译
人们普遍认为,污渍差异引起的颜色变化是组织病理学图像分析的关键问题。现有方法采用颜色匹配,染色分离,污渍转移或它们的组合以减轻污渍变化问题。在本文中,我们提出了一种用于组织病理学图像分析的新型染色自适应自我监督学习(SASSL)方法。我们的SASSL将一个域 - 交流训练模块集成到SSL框架中,以学习独特的特征,这些功能对各种转换和污渍变化都具有鲁棒性。所提出的SASSL被视为域不变特征提取的一般方法,可以通过对特定下游任务的特征进行细微调整特征来灵活地与任意下游组织病理学图像分析模块(例如核/组织分割)结合。我们进行了有关公开可用的病理图像分析数据集的实验,包括熊猫,乳腺癌和camelyon16数据集,以实现最先进的性能。实验结果表明,所提出的方法可以鲁棒地提高模型的特征提取能力,并在下游任务中实现稳定的性能改善。
translated by 谷歌翻译
快捷方式学习对深度学习模型很常见,但导致了退化的特征表示形式,因此危害了该模型的可推广性和解释性。但是,在广泛使用的视觉变压器框架中的快捷方式学习在很大程度上是未知的。同时,引入特定领域的知识是纠正捷径的主要方法,捷径为背景相关因素。例如,在医学成像领域中,放射科医生的眼睛凝视数据是一种有效的人类视觉先验知识,具有指导深度学习模型的巨大潜力,可以专注于有意义的前景区域。但是,获得眼睛凝视数据是时必的,劳动密集型的,有时甚至是不切实际的。在这项工作中,我们提出了一种新颖而有效的显着性视觉变压器(SGT)模型,以在没有眼神数据的情况下在VIT中纠正快捷方式学习。具体而言,采用计算视觉显着性模型来预测输入图像样本的显着性图。然后,显着图用于散布最有用的图像贴片。在拟议的中士中,图像贴片之间的自我注意力仅集中于蒸馏的信息。考虑到这种蒸馏操作可能会导致全局信息丢失,我们在最后一个编码器层中进一步介绍了一个残留的连接,该连接捕获了所有图像贴片中的自我注意力。四个独立公共数据集的实验结果表明,我们的SGT框架可以有效地学习和利用人类的先验知识,而无需眼睛凝视数据,并且比基线更好。同时,它成功地纠正了有害的快捷方式学习并显着提高了VIT模型的解释性,证明了传递人类先验知识在纠正快捷方式学习方面传递人类先验知识的承诺
translated by 谷歌翻译
随着计算机技术的开发,人工智能已经出现了各种模型。在自然语言处理(NLP)成功之后,变压器模型已应用于计算机视觉(CV)。放射科医生在当今迅速发展的医疗领域中继续面临多重挑战,例如增加工作量和增加的诊断需求。尽管以前有一些常规的肺癌检测方法,但仍需要提高其准确性,尤其是在现实的诊断情况下。本文创造性地提出了一种基于有效变压器的分割方法,并将其应用于医学图像分析。该算法通过分析肺癌数据来完成肺癌分类和细分的任务,并旨在为医务人员提供有效的技术支持。此外,我们在各个方面进行了评估并比较了结果。对于分类任务,通过定期培训和SWIN-B在两项决议中通过预训练的最高准确性可高达82.3%。对于分割任务,我们使用预训练来帮助模型提高实验的准确性。这三个模型的准确性达到95%以上。实验表明该算法可以很好地应用于肺癌分类和分割任务。
translated by 谷歌翻译
现有的胃癌诊断深层学习方法,常用卷积神经网络。最近,视觉变压器由于其性能和效率而引起了极大的关注,但其应用主要在计算机视野领域。本文提出了一种用于Gashis变压器的多尺度视觉变压器模型,用于胃组织病理学图像分类(GHIC),其使微观胃图像自动分类为异常和正常情况。 GASHIS-COMPURANCER模型由两个关键模块组成:全球信息模块和局部信息模块有效提取组织病理特征。在我们的实验中,具有280个异常和正常图像的公共血毒素和曙红(H&E)染色的胃组织病理学数据集分为训练,验证和测试组,比率为1:1:2胃组织病理学数据集测试组精度,召回,F1分数和准确性分别为98.0%,100.0%,96.0%和98.0%。此外,进行了关键的研究以评估Gashis变压器的稳健性,其中添加了10个不同的噪声,包括四种对抗性攻击和六种传统图像噪声。此外,执行临床上有意义的研究以测试Gashis变压器的胃肠癌鉴定性能,具有620个异常图像,精度达到96.8%。最后,进行比较研究以测试在淋巴瘤图像数据集和乳腺癌数据集上的H&E和免疫组织化学染色图像的概括性,产生可比的F1分数(85.6%和82.8%)和精度(83.9%和89.4%) , 分别。总之,Gashistransformer演示了高分类性能,并在GHIC任务中显示出其显着潜力。
translated by 谷歌翻译
高分辨率图像和详尽的局部注释成本的过高成本阻碍了数字病理学的进展。用于对病理图像进行分类的常用范式是基于贴片的处理,该处理通常结合了多个实例学习(MIL)以汇总局部补丁级表示,从而得出图像级预测。尽管如此,诊断相关的区域只能占整个组织的一小部分,而当前基于MIL的方法通常会均匀地处理图像,从而丢弃相互作用的相互作用。为了减轻这些问题,我们提出了Scorenet,Scorenet是一种新的有效的变压器,利用可区分的建议阶段来提取区分图像区域并相应地专用计算资源。提出的变压器利用一些动态推荐的高分辨率区域的本地和全球关注,以有效的计算成本。我们通过利用图像的语义分布来指导数据混合并产生连贯的样品标签对,进一步介绍了一种新型的混合数据启发,即SCOREX。 SCOREMIX令人尴尬地简单,并减轻了先前的增强的陷阱,该增强性的陷阱假设了统一的语义分布,并冒着标签样品的风险。对血久毒素和曙红(H&E)的三个乳腺癌组织学数据集(H&E)的三个乳腺癌组织学数据集(H&E)的彻底实验和消融研究验证了我们的方法优于先前的艺术,包括基于变压器的肿瘤区域(TORIS)分类的模型。与其他混合增强变体相比,配备了拟议的得分增强的Scorenet表现出更好的概括能力,并实现了新的最先进的结果(SOTA)结果,仅50%的数据。最后,Scorenet产生了高疗效,并且胜过SOTA有效变压器,即TransPath和SwintransFormer。
translated by 谷歌翻译
在基因组生物学研究中,调节基因组建模是许多监管下游任务的重要课题,例如推动者分类,交易因子结合位点预测。核心问题是模拟监管元素如何相互交互及其跨不同小区类型的可变性。然而,目前的深度学习方法通​​常专注于建模固定的细胞类型集的基因组序列,并且不考虑多个调节元件之间的相互作用,使它们仅在训练集中的小区类型上表现良好,并且缺乏所需的概括生物学应用。在这项工作中,我们提出了一种简单但有效的方法,用于以多模态和自我监督的方式预先培训基因组数据,我们称之为Genebert。具体而言,我们同时服用1D基因组数据和2D矩阵(转录因子X区)作为输入,其中提出了三项预训练任务,以提高模型的鲁棒性和概括性。我们在ATAC-SEQ数据集上预先培训我们的模型,具有1700万基因组序列。我们在不同细胞类型中评估我们的Genebert关于监管下游任务,包括启动子分类,交易因子结合位点预测,疾病风险估计和剪接部位预测。广泛的实验证明了大型监管基因组学数据的多模态和自我监督的预培训的有效性。
translated by 谷歌翻译
超声检查是乳腺癌诊断的重要常规检查,这是由于其无创,无辐射和低成本的特性。但是,由于其固有的局限性,乳腺癌的诊断准确性仍然受到限制。如果我们可以通过乳房超声图像(BUS)精确诊断乳腺癌,那将是一个巨大的成功。已经提出了许多基于学习的计算机辅助诊断方法来实现乳腺癌诊断/病变分类。但是,其中大多数需要预定的ROI,然后对ROI内的病变进行分类。常规的分类骨架,例如VGG16和RESNET50,可以在没有ROI要求的情况下获得有希望的分类结果。但是这些模型缺乏解释性,因此限制了它们在临床实践中的使用。在这项研究中,我们提出了一种具有可解释特征表示的超声图像中乳腺癌诊断的新型无ROI模型。我们利用解剖学的先验知识,即恶性肿瘤和良性肿瘤在不同的组织层之间具有不同的空间关系,并提出了悬停转换器来提出这种先验知识。提出的悬停式跨界块水平和垂直地提取层间和层内空间信息。我们进行并释放一个开放的数据集GDPH&SYSUCC,以用于公共汽车中的乳腺癌诊断。通过与四个基于CNN的模型和两个Vision Transformer模型进行比较,通过五倍的交叉验证来评估所提出的模型。它通过最佳模型可解释性实现最新的分类性能。同时,我们提出的模型在仅给出一张公交图像时,在乳腺癌诊断方面优于两名高级超声检查员。
translated by 谷歌翻译
已经发现基于混合的增强对于培训期间的概括模型有效,特别是对于视觉变压器(VITS),因为它们很容易过度装备。然而,先前的基于混合的方法具有潜在的先验知识,即目标的线性内插比应保持与输入插值中提出的比率相同。这可能导致一个奇怪的现象,有时由于增强中的随机过程,混合图像中没有有效对象,但标签空间仍然存在响应。为了弥合输入和标签空间之间的这种差距,我们提出了透明度,该差别将基于视觉变压器的注意图混合标签。如果受关注图的相应输入图像加权,则标签的置信度将会更大。传输令人尴尬地简单,可以在几行代码中实现,而不会在不引入任何额外的参数和拖鞋到基于Vit的模型。实验结果表明,我们的方法可以在想象集分类上一致地始终改善各种基于Vit的模型。在ImageNet上预先接受过扫描后,基于Vit的模型还展示了对语义分割,对象检测和实例分割的更好的可转换性。当在评估4个不同的基准时,传输展示展示更加强劲。代码将在https://github.com/beckschen/transmix上公开提供。
translated by 谷歌翻译
在卷积神经网络(CNN)的动力下,医学图像分类迅速发展。由于卷积内核的接受场的固定尺寸,很难捕获医学图像的全局特征。尽管基于自发的变压器可以对远程依赖性进行建模,但它具有很高的计算复杂性,并且缺乏局部电感偏见。许多研究表明,全球和本地特征对于图像分类至关重要。但是,医学图像具有许多嘈杂,分散的特征,类内的变化和类间的相似性。本文提出了三个分支分层的多尺度特征融合网络结构,称为医学图像分类为新方法。它可以融合多尺度层次结构的变压器和CNN的优势,而不会破坏各自的建模,从而提高各种医学图像的分类精度。局部和全局特征块的平行层次结构旨在有效地提取各种语义尺度的本地特征和全局表示,并灵活地在不同的尺度上建模,并与图像大小相关的线性计算复杂性。此外,自适应分层特征融合块(HFF块)旨在全面利用在不同层次级别获得的功能。 HFF块包含空间注意力,通道注意力,残留的倒置MLP和快捷方式,以在每个分支的各个规模特征之间适应融合语义信息。我们在ISIC2018数据集上提出的模型的准确性比基线高7.6%,COVID-19数据集的准确性为21.5%,Kvasir数据集的准确性为10.4%。与其他高级模型相比,HIFUSE模型表现最好。我们的代码是开源的,可从https://github.com/huoxiangzuo/hifuse获得。
translated by 谷歌翻译
细粒度的视觉分类(FGVC)旨在识别类似下属类别的对象,这对于人类的准确自动识别需求而言是挑战性和实用性的。大多数FGVC方法都集中在判别区域开采的注意力机制研究上,同时忽略了它们的相互依赖性和组成的整体对象结构,这对于模型的判别信息本地化和理解能力至关重要。为了解决上述限制,我们建议结构信息建模变压器(SIM-TRANS)将对象结构信息纳入变压器,以增强判别性表示学习,以包含外观信息和结构信息。具体而言,我们将图像编码为一系列贴片令牌,并使用两个精心设计的模块构建强大的视觉变压器框架:(i)提出了结构信息学习(SIL)模块以挖掘出在该模块中的空间上下文关系,对象范围借助变压器的自我发项权重,进一步注入导入结构信息的模型; (ii)引入了多级特征增强(MFB)模块,以利用类中多级特征和对比度学习的互补性,以增强功能鲁棒性,以获得准确的识别。提出的两个模块具有轻加权,可以插入任何变压器网络并轻松地端到端训练,这仅取决于视觉变压器本身带来的注意力重量。广泛的实验和分析表明,所提出的SIM-TRANS在细粒度的视觉分类基准上实现了最先进的性能。该代码可在https://github.com/pku-icst-mipl/sim-trans_acmmm2022上获得。
translated by 谷歌翻译
胃内窥镜筛查是在早期决定适当的胃癌(GC)治疗的有效方法,从而降低了与GC相关的死亡率。尽管人工智能(AI)带来了一个巨大的希望,可以帮助病理学家筛选数字化整个幻灯片图像,但现有的AI系统受到细粒癌症亚赛的限制,在计划癌症治疗方面几乎没有可用性。我们提出了一个实用的AI系统,该系统可以实现五个GC病理的亚分类,可以直接与一般的GC治疗指南相匹配。 AI系统旨在通过模仿人类病理学家理解组织学的方式,通过使用2阶段混合视觉变压器(VIT)网络通过多尺度的自我注意力转换器(VIT)网络通过多尺度的自我发项机制来有效区分多级GC。 AI系统通过在多中心队列中达到1,212张幻灯片,通过达到高于0.85的类平均灵敏度来显示可靠的诊断性能。此外,与人类病理学家相比,AI辅助病理学家显示出12%的诊断敏感性显着提高了12%。我们的结果表明,在实际临床环境中,AI辅助胃内窥镜筛查具有提供假定的病理学意见和适当的胃癌癌症治疗的巨大潜力。
translated by 谷歌翻译
背景和目的:胃癌已经成为全球第五次常见的癌症,早期检测胃癌对于拯救生命至关重要。胃癌的组织病理学检查是诊断胃癌的金标准。然而,计算机辅助诊断技术是挑战,以评估由于公开胃组织病理学图像数据集的稀缺而评估。方法:在本文中,公布了一种贵族公共胃组织病理学子尺寸图像数据库(GashissdB)以识别分类器的性能。具体地,包括两种类型的数据:正常和异常,总共245,196个组织案例图像。为了证明图像分类领域的不同时期的方法在GashissdB上具有差异,我们选择各种分类器进行评估。选择七种古典机器学习分类器,三个卷积神经网络分类器和新颖的基于变压器的分类器进行测试,用于测试图像分类任务。结果:本研究采用传统机器学习和深入学习方法进行了广泛的实验,以证明不同时期的方法对GashissdB具有差异。传统的机器学习实现了86.08%的最佳精度率,最低仅为41.12%。深度学习的最佳准确性达到96.47%,最低为86.21%。分类器的精度率显着变化。结论:据我们所知,它是第一个公开的胃癌组织病理学数据集,包含大量的弱监督学习的图像。我们认为Gashissdb可以吸引研究人员来探索胃癌自动诊断的新算法,这可以帮助医生和临床环境中的患者。
translated by 谷歌翻译
视觉变压器(VIT)的几乎没有射击的学习能力很少进行,尽管有很大的需求。在这项工作中,我们从经验上发现,使用相同的少数学习框架,例如\〜元基线,用VIT模型代替了广泛使用的CNN特征提取器,通常严重损害了几乎没有弹药的分类性能。此外,我们的实证研究表明,在没有归纳偏见的情况下,VIT通常会在几乎没有射击的学习方面学习低资格的令牌依赖性,在这些方案下,只有几个标记的培训数据可获得,这在很大程度上会导致上述性能降级。为了减轻这个问题,我们首次提出了一个简单而有效的几杆培训框架,即自我推广的监督(Sun)。具体而言,除了对全球语义学习的常规监督外,太阳还进一步预处理了少量学习数据集的VIT,然后使用它来生成各个位置特定的监督,以指导每个补丁令牌。此特定于位置的监督告诉VIT哪个贴片令牌相似或不同,因此可以加速令牌依赖的依赖学习。此外,它将每个贴片令牌中的本地语义建模,以提高对象接地和识别能力,以帮助学习可概括的模式。为了提高特定于位置的监督的质量,我们进一步提出了两种技术:〜1)背景补丁过滤以滤掉背景补丁并将其分配为额外的背景类别; 2)空间一致的增强,以引入足够的多样性以增加数据,同时保持生成的本地监督的准确性。实验结果表明,使用VITS的太阳显着超过了其他VIT的少量学习框架,并且是第一个获得比CNN最先进的效果更高的性能。
translated by 谷歌翻译
宫颈癌是女性中一种非常常见和致命的癌症类型。细胞病理学图像通常用于筛选这种癌症。鉴于在手动筛查期间可能发生许多错误,已经开发了一种基于深度学习的计算机辅助诊断系统。深度学习方法需要输入图像的固定维度,但临床医学图像的尺寸不一致。图像的纵横比在直接调整它们的同时受到影响。临床上,细胞病理学图像内的细胞的纵横比为医生诊断癌症提供重要信息。因此,很难直接调整大小。然而,许多现有研究直接调整了图像的大小,并获得了高度稳健的分类结果。为了确定合理的解释,我们进行了一系列比较实验。首先,预处理SipakMed数据集的原始数据以获得标准和缩放数据集。然后,将数据集调整为224 x 224像素。最后,22种深度学习模型用于分类标准和缩放数据集。该研究的结果表明,深度学习模型对宫颈细胞病理学图像中细胞的纵横比变化是鲁棒的。此结论也通过Herlev DataSet验证。
translated by 谷歌翻译
我们提出了一种基于深度多实例学习的简单高效的图像分类架构,并将其应用于牙科射线照片中龋齿检测的具有挑战性的任务。从技术上讲,我们的方法有两种方式贡献:首先,尽管使用弱图像级标签培训,它尽管培训了本地补丁分类概率的热线图。其次,它可以从分段标签学习,从而指导培训。与现有方法相比,人类用户可以忠实地解释预测并与模型进行交互以决定参加哪些区域。实验是在$ \ SIM $ 38K Bitewings($ \ SIM $ 316K牙齿)的大型临床数据集上进行的,在那里我们与各种基线相比实现了竞争性能。当由外部龋齿分割模型引导时,观察到分类和定位性能的显着改善。
translated by 谷歌翻译