The Coronavirus Disease 2019 (COVID-19) has spread globally and caused serious damage. Chest X-ray images are widely used for COVID-19 diagnosis and the Artificial Intelligence method can increase efficiency and accuracy. In the Challenge of Chest XR COVID-19 detection in Ethics and Explainability for Responsible Data Science (EE-RDS) conference 2021, we proposed a method that combined Swin Transformer and Transformer in Transformer to classify chest X-ray images as three classes: COVID-19, Pneumonia, and Normal (healthy) and achieved 0.9475 accuracies on the test set.
translated by 谷歌翻译
根据诊断各种疾病的胸部X射线图像的可观增长,以及收集广泛的数据集,使用深神经网络进行了自动诊断程序,已经占据了专家的思想。计算机视觉中的大多数可用方法都使用CNN主链来获得分类问题的高精度。然而,最近的研究表明,在NLP中成为事实上方法的变压器也可以优于许多基于CNN的模型。本文提出了一个基于SWIN变压器的多标签分类深模型,作为实现最新诊断分类的骨干。它利用了头部体系结构来利用多层感知器(也称为MLP)。我们评估了我们的模型,该模型称为“ Chest X-Ray14”,最广泛,最大的X射线数据集之一,该数据集由30,000多名14例著名胸部疾病的患者组成100,000多个额叶/背景图像。我们的模型已经用几个数量的MLP层用于头部设置,每个模型都在所有类别上都达到了竞争性的AUC分数。胸部X射线14的全面实验表明,与以前的SOTA平均AUC为0.799相比,三层头的平均AUC得分为0.810,其平均AUC得分为0.810。我们建议对现有方法进行公平基准测试的实验设置,该设置可以用作未来研究的基础。最后,我们通过确认所提出的方法参与胸部的病理相关区域,从而跟进了结果。
translated by 谷歌翻译
为了在医学成像研究中保持标准,图像应具有必要的图像质量,以进行潜在的诊断使用。尽管基于CNN的方法用于评估图像质量,但仍可以从准确性方面提高其性能。在这项工作中,我们通过使用SWIN Transformer来解决此问题,这改善了导致医疗图像质量降解的质量质量差分类性能。我们在胸部X射线(Object-CXR)和心脏MRI上的左心室流出路分类问题(LVOT)上测试了胸部X射线(Object-CXR)和左心室流出路分类问题的方法。虽然我们在Object-CXR和LVOT数据集中获得了87.1%和95.48%的分类精度,但我们的实验结果表明,SWIN Transformer的使用可以改善对象CXR分类性能,同时获得LVOT数据集的可比性能。据我们所知,我们的研究是医学图像质量评估的第一个Vision Transformer应用程序。
translated by 谷歌翻译
随着计算机技术的开发,人工智能已经出现了各种模型。在自然语言处理(NLP)成功之后,变压器模型已应用于计算机视觉(CV)。放射科医生在当今迅速发展的医疗领域中继续面临多重挑战,例如增加工作量和增加的诊断需求。尽管以前有一些常规的肺癌检测方法,但仍需要提高其准确性,尤其是在现实的诊断情况下。本文创造性地提出了一种基于有效变压器的分割方法,并将其应用于医学图像分析。该算法通过分析肺癌数据来完成肺癌分类和细分的任务,并旨在为医务人员提供有效的技术支持。此外,我们在各个方面进行了评估并比较了结果。对于分类任务,通过定期培训和SWIN-B在两项决议中通过预训练的最高准确性可高达82.3%。对于分割任务,我们使用预训练来帮助模型提高实验的准确性。这三个模型的准确性达到95%以上。实验表明该算法可以很好地应用于肺癌分类和分割任务。
translated by 谷歌翻译
建立具有可信赖性的AI模型非常重要,尤其是在医疗保健等受监管的地区。在解决Covid-19时,以前的工作将卷积神经网络用作骨干建筑,该骨干建筑物易于过度宣告和过度自信做出决策,使它们不那么值得信赖 - 在医学成像背景下的关键缺陷。在这项研究中,我们提出了一种使用视觉变压器的功能学习方法,该方法使用基于注意力的机制,并检查变形金刚作为医学成像的新骨干结构的表示能力。通过对COVID-19胸部X光片进行分类的任务,我们研究了概括能力是否仅从视觉变形金刚的建筑进步中受益。通过使用“信任评分”计算和视觉解释性技术,对模型的可信度进行了定量和定性评估。我们得出的结论是,基于注意力的特征学习方法在建立可信赖的医疗保健深度学习模型方面有希望。
translated by 谷歌翻译
计算机断层扫描(CT)成像对于诊断各种疾病可能非常实用。但是,CT图像的性质更加多样化,因为CT扫描的分辨率和数量由机器及其设置确定。传统的深度学习模型很难挠痒痒,因为深神经网络的基本要求是输入数据的一致形状。在本文中,我们提出了一种新颖,有效的两步方法,以彻底解决Covid-19症状分类的问题。首先,通过常规骨干网络提取CT扫描的每个切片的语义特征嵌入。然后,我们提出了长期的短期记忆(LSTM)和基于变压器的子网络来处理时间特征学习,从而导致时空特征表示学习。以这种方式,拟议的两步LSTM模型可以防止过度拟合,并提高性能。全面的实验表明,提出的两步方法不仅显示出出色的性能,而且可以互相补偿。更具体地说,两步LSTM模型的假阴性速率较低,而2步SWIN模型的假阳性速率较低。总而言之,建议模型合奏可以在现实世界应用中采用更稳定和有希望的性能。
translated by 谷歌翻译
一种名为Covid-19的新发现的冠状病毒疾病主要影响人类呼吸系统。 Covid-19是一种由起源于中国武汉的病毒引起的传染病。早期诊断是医疗保健提供者的主要挑战。在较早的阶段,医疗机构令人眼花azz乱,因为没有适当的健康辅助工具或医学可以检测到COVID-19。引入了一种新的诊断工具RT-PCR(逆转录聚合酶链反应)。它从患者的鼻子或喉咙中收集拭子标本,在那里共有19个病毒。该方法有一些与准确性和测试时间有关的局限性。医学专家建议一种称为CT(计算机断层扫描)的替代方法,该方法可以快速诊断受感染的肺部区域并在早期阶段识别Covid-19。使用胸部CT图像,计算机研究人员开发了几种识别Covid-19疾病的深度学习模型。这项研究介绍了卷积神经网络(CNN)和基于VGG16的模型,用于自动化的COVID-19在胸部CT图像上识别。使用14320 CT图像的公共数据集的实验结果显示,CNN和VGG16的分类精度分别为96.34%和96.99%。
translated by 谷歌翻译
Covid-19疾病最初是在中国武汉发现的,并在全球迅速传播。在COVID-19大流行之后,许多研究人员已经开始确定一种使用胸部X射线图像诊断COVID-19的方法。这种疾病的早期诊断会显着影响治疗过程。在本文中,我们提出了一种比文献中报道的其他方法更快,更准确的新技术。提出的方法结合了Densenet169和Mobilenet深神经网络的组合来提取患者X射线图像的特征。使用单变量特征选择算法,我们为最重要的功能完善了功能。然后,我们将选定的功能应用于LightGBM(轻梯度增强机)算法进行分类。为了评估所提出方法的有效性,使用了包括患者胸部的1125张X射线图像的ChestX-Ray8数据集。所提出的方法分别达到了两级(Covid-19,健康)和多级(Covid-19,健康,肺炎)分类问题的98.54%和91.11%的精度。值得一提的是,我们已经使用了梯度加权类激活映射(GRAD-CAM)进行进一步分析。
translated by 谷歌翻译
深度学习技术可以用作一种辅助技术,以帮助医生快速准确地识别Covid-19的感染。最近,视觉变压器(VIT)由于其全球接受场而显示出巨大的图像分类潜力。但是,由于缺乏CNN固有的感应偏置,基于VIT的结构会导致模型训练的特征丰富性和难度。在本文中,我们提出了一个名为Covid-19(COVT)的称为Transformer的新结构,以提高基于VIT的架构在小型Covid-19数据集上的性能。它使用CNN作为功能提取器来有效提取本地结构信息,并将平均汇总到VIT的多层感知(MLP)模块以获取全局信息。实验显示了我们方法对两个COVID-19数据集和Imagenet数据集的有效性。
translated by 谷歌翻译
随着Covid-19的爆发,近年来已经出现了大量相关研究。我们提出了一个基于肺CT扫描图像的自动COVID-19诊断框架,即PVT-COV19D。为了适应图像输入的不同维度,我们首先使用变压器模型对图像进行了分类,然后根据正常分布对数据集中进行采样,并将采样结果馈送到修改的PVTV2模型中以进行训练。COV19-CT-DB数据集上的大量实验证明了该方法的有效性。
translated by 谷歌翻译
This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with Shifted windows. The shifted windowing scheme brings greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection. This hierarchical architecture has the flexibility to model at various scales and has linear computational complexity with respect to image size. These qualities of Swin Transformer make it compatible with a broad range of vision tasks, including image classification (87.3 top-1 accuracy on ImageNet-1K) and dense prediction tasks such as object detection (58.7 box AP and 51.1 mask AP on COCO testdev) and semantic segmentation (53.5 mIoU on ADE20K val). Its performance surpasses the previous state-of-theart by a large margin of +2.7 box AP and +2.6 mask AP on COCO, and +3.2 mIoU on ADE20K, demonstrating the potential of Transformer-based models as vision backbones. The hierarchical design and the shifted window approach also prove beneficial for all-MLP architectures. The code and models are publicly available at https://github. com/microsoft/Swin-Transformer.
translated by 谷歌翻译
预计未来几十年的全球粮食不安全将加速气候变化率和人口迅速增加。在这种静脉中,重要的是在每种饮食生产水平上消除效率低下。最近深入学习的进步可以帮助降低这种效率低下,但他们的申请尚未成为整个行业的主流,以大规模的规模诱导经济成本。为此,已将现代技术(如CNNS(卷积神经网络)应用于RPQD(原始产生质量检测)任务。另一方面,变压器在其他方式中的视野中的成功首次亮相使我们能够在RPQD中预计这些基于变压器的模型更好的性能。在这项工作中,我们专门调查了最近的最先进的水流(移位的Windows)变压器,这些变压器可以在窗口和窗口间的方式中计算自我关注。我们将Swin变压器与CNN模型进行比较四个RPQD图像数据集,每个CNN模型都包含不同种类的生成:水果和蔬菜,鱼类,猪肉和牛肉。我们观察到Swin Transformer不仅实现了更好或更有竞争力的性能,而且还具有数据和计算效率,使其成为现实世界的实际部署的理想选择。据我们所知,这是第一个对RPQD任务的大规模实证研究,我们希望在未来的作品中更加关注。
translated by 谷歌翻译
有必要开发负担得起且可靠的诊断工具,该工具允许包含COVID-19的扩散。已经提出了机器学习(ML)算法来设计支持决策系统以评估胸部X射线图像,事实证明,这些图像可用于检测和评估疾病进展。许多研究文章围绕此主题发表,这使得很难确定未来工作的最佳方法。本文介绍了使用胸部X射线图像应用于COVID-19检测的ML的系统综述,旨在就方法,体系结构,数据库和当前局限性为研究人员提供基线。
translated by 谷歌翻译
在对抗Covid-19的斗争中,对人们的生活产生灾难性影响的关键步骤是对患有严重COVID-19症状的诊所中出现的患者进行有效筛查。胸部射线照相是有前途的筛查方法之一。许多研究报告说,使用深度学习准确地检测到胸部X射线射线的Covid-19。对许多已发表的方法的严重局限性是对解释深度学习模型做出的决定的不足。使用可解释的人工智能方法,我们证明模型决策可能依赖于混杂因素而不是医学病理学。在分析了在胸部X射线图像上发现的潜在混杂因素后,我们提出了一种新颖的方法来最大程度地减少其负面影响。我们表明,我们所提出的方法比以前试图应对混杂因素(例如ECG铅的胸部X射线铅)的尝试更强大,这些因素通常会影响模型分类决策。除了强大之外,我们的方法还达到了与最先进的结果相当的结果。源代码和预训练的权重可在(https://github.com/tomek1911/pother)上公开获得。
translated by 谷歌翻译
在卷积神经网络(CNN)的动力下,医学图像分类迅速发展。由于卷积内核的接受场的固定尺寸,很难捕获医学图像的全局特征。尽管基于自发的变压器可以对远程依赖性进行建模,但它具有很高的计算复杂性,并且缺乏局部电感偏见。许多研究表明,全球和本地特征对于图像分类至关重要。但是,医学图像具有许多嘈杂,分散的特征,类内的变化和类间的相似性。本文提出了三个分支分层的多尺度特征融合网络结构,称为医学图像分类为新方法。它可以融合多尺度层次结构的变压器和CNN的优势,而不会破坏各自的建模,从而提高各种医学图像的分类精度。局部和全局特征块的平行层次结构旨在有效地提取各种语义尺度的本地特征和全局表示,并灵活地在不同的尺度上建模,并与图像大小相关的线性计算复杂性。此外,自适应分层特征融合块(HFF块)旨在全面利用在不同层次级别获得的功能。 HFF块包含空间注意力,通道注意力,残留的倒置MLP和快捷方式,以在每个分支的各个规模特征之间适应融合语义信息。我们在ISIC2018数据集上提出的模型的准确性比基线高7.6%,COVID-19数据集的准确性为21.5%,Kvasir数据集的准确性为10.4%。与其他高级模型相比,HIFUSE模型表现最好。我们的代码是开源的,可从https://github.com/huoxiangzuo/hifuse获得。
translated by 谷歌翻译
Covid-19是一种攻击上呼吸道和肺部的新型病毒。它的人对人的传播性非常迅速,这在个人生活的各个方面都引起了严重的问题。尽管一些感染的人可能仍然完全无症状,但经常被目睹有轻度至重度症状。除此之外,全球成千上万的死亡案件表明,检测Covid-19是社区的紧急需求。实际上,这是在筛选医学图像(例如计算机断层扫描(CT)和X射线图像)的帮助下进行的。但是,繁琐的临床程序和大量的每日病例对医生构成了巨大挑战。基于深度学习的方法在广泛的医疗任务中表现出了巨大的潜力。结果,我们引入了一种基于变压器的方法,用于使用紧凑卷积变压器(CCT)自动从X射线图像中自动检测COVID-19。我们的广泛实验证明了该方法的疗效,精度为98%,比以前的作品表现优于先前的作品。
translated by 谷歌翻译
变压器长期以来一直在自然语言处理(NLP)领域主导。最近,基于变压器的方法被采用到计算机视觉(CV)字段中,并显示出令人鼓舞的结果。作为简历字段的重要分支,医学图像分析正确地加入了基于变压器的方法的波。在本文中,我们说明了注意机制的原理以及变压器的详细结构,并描述了如何将变压器采用到CV领域中。我们按照不同的CV任务序列组织了基于变压器的医学图像分析应用程序,包括分类,分割,合成,注册,定位,检测,字幕和降解。对于主流分类和分割任务,我们基于不同的医学成像方式进一步划分了相应的作品。我们在工作中包括13种模式和二十多个物体。我们还可以看到每种方式和对象占据的比例,以给读者一个直观的印象。我们希望我们的工作能够为未来的基于变压器的医学图像分析的发展做出贡献。
translated by 谷歌翻译
目的:在手术规划之前,CT图像中肝血管的分割是必不可少的,并引起了医学图像分析界的广泛兴趣。由于结构复杂,对比度背景下,自动肝脏血管分割仍然特别具有挑战性。大多数相关的研究采用FCN,U-Net和V-Net变体作为骨干。然而,这些方法主要集中在捕获多尺度局部特征,这可能导致由于卷积运营商有限的地区接收领域而产生错误分类的体素。方法:我们提出了一种强大的端到端血管分割网络,通过将SWIN变压器扩展到3D并采用卷积和自我关注的有效组合,提出了一种被称为电感偏置的多头注意船网(IBIMHAV-NET)的稳健端到端血管分割网络。在实践中,我们介绍了Voxel-Wise嵌入而不是修补程序嵌入,以定位精确的肝脏血管素,并采用多尺度卷积运营商来获得局部空间信息。另一方面,我们提出了感应偏置的多头自我关注,其学习从初始化的绝对位置嵌入的归纳偏置相对位置嵌入嵌入。基于此,我们可以获得更可靠的查询和键矩阵。为了验证我们模型的泛化,我们测试具有不同结构复杂性的样本。结果:我们对3Dircadb数据集进行了实验。四种测试病例的平均骰子和敏感性为74.8%和77.5%,超过现有深度学习方法的结果和改进的图形切割方法。结论:拟议模型IBIMHAV-Net提供一种具有交错架构的自动,精确的3D肝血管分割,可更好地利用CT卷中的全局和局部空间特征。它可以进一步扩展到其他临床数据。
translated by 谷歌翻译
人们众所周知,与卷积神经网络相比,变压器在语义分割方面的性能更好。然而,最初的视觉变压器可能缺乏当地社区的归纳偏见,并且具有较高的时间复杂性。最近,Swin Transformer通过使用分层体系结构并更有效地改变了窗口,在各种视觉任务中创建了新记录。但是,由于Swin Transformer是专门为图像分类设计的,因此它可能在基于密集的预测分段任务上实现次优性能。此外,仅使用现有方法对SWIN Transformer梳理将导致最终分割模型的模型大小和参数的提升。在本文中,我们重新考虑了Swin Transformer进行语义分割,并设计了一个轻巧但有效的变压器模型,称为SSFormer。在此模型中,考虑到SWIN Transformer的固有层次设计,我们提出了一个解码器来汇总来自不同层的信息,从而获得了局部和全局的注意。实验结果表明,提出的SSFormer与最先进的模型产生了可比的MIOU性能,同时保持较小的模型尺寸和较低的计算。
translated by 谷歌翻译
图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题,即学习一个模型,将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示,因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中,我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征,然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型,该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合,我们的模型在四个公共场景细分数据集,Pascal VOC2012,Coco-STUFF 10K,ADE20K和CITYSCAPES上实现了非常有希望的性能。
translated by 谷歌翻译