Fine-grained classification and counting of bone marrow erythroid cells are vital for evaluating the health status and formulating therapeutic schedules for leukemia or hematopathy. Due to the subtle visual differences between different types of erythroid cells, it is challenging to apply existing image-based deep learning models for fine-grained erythroid cell classification. Moreover, there is no large open-source datasets on erythroid cells to support the model training. In this paper, we introduce BMEC (Bone Morrow Erythroid Cells), the first large fine-grained image dataset of erythroid cells, to facilitate more deep learning research on erythroid cells. BMEC contains 5,666 images of individual erythroid cells, each of which is extracted from the bone marrow erythroid cell smears and professionally annotated to one of the four types of erythroid cells. To distinguish the erythroid cells, one key indicator is the cell shape which is closely related to the cell growth and maturation. Therefore, we design a novel shape-aware image classification network for fine-grained erythroid cell classification. The shape feature is extracted from the shape mask image and aggregated to the raw image feature with a shape attention module. With the shape-attended image feature, our network achieved superior classification performance (81.12\% top-1 accuracy) on the BMEC dataset comparing to the baseline methods. Ablation studies also demonstrate the effectiveness of incorporating the shape information for the fine-grained cell classification. To further verify the generalizability of our method, we tested our network on two additional public white blood cells (WBC) datasets and the results show our shape-aware method can generally outperform recent state-of-the-art works on classifying the WBC. The code and BMEC dataset can be found on https://github.com/wangye8899/BMEC.
translated by 谷歌翻译
组织学图像中核和腺体的实例分割是用于癌症诊断,治疗计划和生存分析的计算病理学工作流程中的重要一步。随着现代硬件的出现,大规模质量公共数据集的最新可用性以及社区组织的宏伟挑战已经看到了自动化方法的激增,重点是特定领域的挑战,这对于技术进步和临床翻译至关重要。在这项调查中,深入分析了过去五年(2017-2022)中发表的原子核和腺体实例细分的126篇论文,进行了深入分析,讨论了当前方法的局限性和公开挑战。此外,提出了潜在的未来研究方向,并总结了最先进方法的贡献。此外,还提供了有关公开可用数据集的概括摘要以及关于说明每种挑战的最佳性能方法的巨大挑战的详细见解。此外,我们旨在使读者现有研究的现状和指针在未来的发展方向上开发可用于临床实践的方法,从而可以改善诊断,分级,预后和癌症的治疗计划。据我们所知,以前没有工作回顾了朝向这一方向的组织学图像中的实例细分。
translated by 谷歌翻译
为了产生最大的影响,必须使用基于证据的决策制定公共卫生计划。创建机器学习算法是为了收集,存储,处理和分析数据以提供知识和指导决策。任何监视系统的关键部分是图像分析。截至最近,计算机视觉和机器学习的社区最终对此感到好奇。这项研究使用各种机器学习和图像处理方法来检测和预测疟疾疾病。在我们的研究中,我们发现了深度学习技术作为具有更广泛适用于疟疾检测的智能工具的潜力,通过协助诊断病情,可以使医生受益。我们研究了针对计算机框架和组织的深度学习的共同限制,计算需要准备数据,准备开销,实时执行和解释能力,并发现对这些限制的轴承的未来询问。
translated by 谷歌翻译
准确,快速的双核细胞(BC)检测在预测白血病和其他恶性肿瘤的风险中起着重要作用。但是,手动显微镜计数是耗时的,缺乏客观性。此外,由于bc显微镜整体幻灯片图像(WSIS)的染色质量和多样性的限制,传统的图像处理方法是无助的。为了克服这一挑战,我们提出了一种基于深度学习的结构启发的两阶段检测方法,该方法是基于深度学习的,该方法是在斑块级别的WSI-Level和细粒度分类处实施BCS粗略检测的级联。粗糙检测网络是基于用于细胞检测的圆形边界框的多任务检测框架,以及用于核检测的中心关键点。圆的表示降低了自由度,与通常的矩形盒子相比,减轻周围杂质的影响,并且在WSI中可能是旋转不变的。检测细胞核中的关键点可以帮助网络感知,并在后来的细粒分类中用于无监督的颜色层分割。精细的分类网络由基于颜色层掩模的监督和基于变压器的关键区域选择模块组成的背景区域抑制模块,其全局建模能力。此外,首先提出了无监督和未配对的细胞质发生器网络来扩展长尾分配数据集。最后,在BC多中心数据集上进行实验。拟议的BC罚款检测方法在几乎所有评估标准中都优于其他基准,从而为诸如癌症筛查等任务提供了澄清和支持。
translated by 谷歌翻译
改变布料的人重新识别(REID)是一个新出现的研究主题,旨在检索换衣服的行人。由于带有不同衣服的人类外观表现出较大的变化,因此现有方法很难提取歧视性和健壮的特征表示。当前的作品主要集中在身体形状或轮廓草图上,但是人类的语义信息以及换衣服之前和之后的行人特征的潜在一致性未被充分探索或被忽略。为了解决这些问题,在这项工作中,提出了一种新颖的语义意识到的注意力和视觉屏蔽网络,用于换衣服的人Reid(缩写为SAV),其中关键的想法是屏蔽与衣服外观相关的线索,只关注衣服的外观对视图/姿势变化不敏感的视觉语义信息。具体而言,首先采用了视觉语义编码器来基于人类语义分割信息来定位人体和服装区域。然后,提出了人类的语义注意模块(HSA),以突出显示人类的语义信息并重新授予视觉特征图。此外,视觉服装屏蔽模块(VCS)还旨在通过覆盖衣服区域并将模型集中在与衣服无关的视觉语义信息上来提取更健壮的特征代表。最重要的是,这两个模块在端到端统一框架中共同探索。广泛的实验表明,所提出的方法可以显着胜过最先进的方法,并且可以为换衣的人提取更健壮的特征。与FSAM(在CVPR 2021中发布)相比,该方法可以分别在LTCC和PRCC数据集上以MAP(RANK-1)的形式获得32.7%(16.5%)和14.9%( - )。
translated by 谷歌翻译
RGB-thermal显着对象检测(RGB-T SOD)旨在定位对齐可见的和热红外图像对的共同突出对象,并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感,它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此,RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整,因为不可避免的是,由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中,我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络(MCNET)。具体而言,我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后,通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积(SDC)特征融合模块,提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后,基于镜子互补结构,即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性,我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明,所提出的方法优于最先进的方法,包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
从世界上任何地方拍摄的单个地面RGB图像预测地理位置(地理位置)是一个非常具有挑战性的问题。挑战包括由于不同的环境场景而导致的图像多样性,相同位置的出现急剧变化,具体取决于一天中的时间,天气,季节和更重要的是,该预测是由单个图像可能只有一个可能只有一个图像做出的很少有地理线索。由于这些原因,大多数现有作品仅限于特定的城市,图像或全球地标。在这项工作中,我们专注于为行星尺度单位图地理定位开发有效的解决方案。为此,我们提出了转运器,这是一个统一的双分支变压器网络,在整个图像上关注细节,并在极端的外观变化下产生健壮的特征表示。转运器将RGB图像及其语义分割图作为输入,在每个变压器层之后的两个平行分支之间进行交互,并以多任务方式同时执行地理位置定位和场景识别。我们在四个基准数据集上评估转运器-IM2GPS,IM2GPS3K,YFCC4K,YFCC26K,并获得5.5%,14.1%,4.9%,9.9%的大陆级别准确度比最新的级别的精度提高。在现实世界测试图像上还验证了转运器,发现比以前的方法更有效。
translated by 谷歌翻译
自动路面遇险分类有助于提高路面维护的效率并降低劳动力和资源的成本。该任务的最近有影响力的分支将路面图像划分为贴片,并从多实体学习的角度解决了这些问题。但是,这些方法忽略了斑块之间的相关性,并且在模型优化和推理中遇到了低效率。同时,Swin Transformer能够以其独特的优势来解决这两个问题。我们构建了Swin Transformer,我们提供了一个名为\ TextBf {p} avement \ textbf {i} mage \ textbf {c} lassification \ textbf {t} ransformer(\ textbf {pict})的视觉变压器。为了更好地利用贴片级别的路面图像的判别信息,提出了\ textit {patch labeling conterg},以利用教师模型在每次迭代期间从图像标签中动态生成贴片的伪标签,并将模型引导到模型上了解补丁的判别特征。 Swin Transformer的广泛分类头可能会稀释特征聚合步骤中遇险斑块的判别特征,这是由于路面图像的遇险面积较小。为了克服这个缺点,我们提出了一个\ textit {Patch Refiner}将补丁聚集到不同的组中,并且仅选择最高的遇险风险组来产生最终图像分类的纤细头部。我们在CQU-BPDD上评估了我们的方法。广泛的结果表明,\ textbf {pict}在检测任务中,p@r中的$+2.4 \%$的大幅度优于第二好的模型,$+3.9 \%\%\%$ f1 $ f1 $ in识别任务和识别任务和1.8倍吞吐量,同时使用相同的计算资源享受7倍的训练速度。我们的代码和模型已在\ href {https://github.com/dearcaat/pict} {https://github.com/dearcaat/pict}上发布。
translated by 谷歌翻译
Mitosis nuclei count is one of the important indicators for the pathological diagnosis of breast cancer. The manual annotation needs experienced pathologists, which is very time-consuming and inefficient. With the development of deep learning methods, some models with good performance have emerged, but the generalization ability should be further strengthened. In this paper, we propose a two-stage mitosis segmentation and classification method, named SCMitosis. Firstly, the segmentation performance with a high recall rate is achieved by the proposed depthwise separable convolution residual block and channel-spatial attention gate. Then, a classification network is cascaded to further improve the detection performance of mitosis nuclei. The proposed model is verified on the ICPR 2012 dataset, and the highest F-score value of 0.8687 is obtained compared with the current state-of-the-art algorithms. In addition, the model also achieves good performance on GZMH dataset, which is prepared by our group and will be firstly released with the publication of this paper. The code will be available at: https://github.com/antifen/mitosis-nuclei-segmentation.
translated by 谷歌翻译
检测裂缝是监测结构健康和确保结构安全的关键任务。裂纹检测的手动过程是耗时的,对检查员进行了主观。一些研究人员尝试使用传统的图像处理或基于学习的技术来解决此问题。但是,它们的工作范围仅限于检测单一类型的表面(墙壁,人行道,玻璃等)上的裂缝。用于评估这些方法的指标在整个文献中也有所不同,这使得比较技术具有挑战性。本文通过结合先前可用的数据集并通过解决每个数据集中的固有问题(例如噪声和扭曲)来解决这些问题。我们还提出了结合图像处理和深度学习模型的管道。最后,我们在新数据集上对这些指标的建议模型的结果进行了基准测试,并将它们与文献中的最新模型进行了比较。
translated by 谷歌翻译
高光谱图像(HSI)分类一直是决定的热门话题,因为高光谱图像具有丰富的空间和光谱信息,并为区分不同的土地覆盖物体提供了有力的基础。从深度学习技术的发展中受益,基于深度学习的HSI分类方法已实现了有希望的表现。最近,已经提出了一些用于HSI分类的神经架构搜索(NAS)算法,这将HSI分类的准确性进一步提高到了新的水平。在本文中,NAS和变压器首次合并用于处理HSI分类任务。与以前的工作相比,提出的方法有两个主要差异。首先,我们重新访问了先前的HSI分类NAS方法中设计的搜索空间,并提出了一个新型的混合搜索空间,该搜索空间由空间主导的细胞和频谱主导的单元组成。与以前的工作中提出的搜索空间相比,所提出的混合搜索空间与HSI数据的特征更加一致,即HSIS具有相对较低的空间分辨率和非常高的光谱分辨率。其次,为了进一步提高分类准确性,我们尝试将新兴变压器模块移植到自动设计的卷积神经网络(CNN)上,以将全局信息添加到CNN学到的局部区域的特征中。三个公共HSI数据集的实验结果表明,所提出的方法的性能要比比较方法更好,包括手动设计的网络和基于NAS的HSI分类方法。特别是在最近被捕获的休斯顿大学数据集中,总体准确性提高了近6个百分点。代码可在以下网址获得:https://github.com/cecilia-xue/hyt-nas。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
最近,已经成功地应用于各种遥感图像(RSI)识别任务的大量基于深度学习的方法。然而,RSI字段中深度学习方法的大多数现有进步严重依赖于手动设计的骨干网络提取的特征,这严重阻碍了由于RSI的复杂性以及先前知识的限制而受到深度学习模型的潜力。在本文中,我们研究了RSI识别任务中的骨干架构的新设计范式,包括场景分类,陆地覆盖分类和对象检测。提出了一种基于权重共享策略和进化算法的一拍架构搜索框架,称为RSBNet,其中包括三个阶段:首先,在层面搜索空间中构造的超空网是在自组装的大型中预先磨削 - 基于集合单路径培训策略进行缩放RSI数据集。接下来,预先培训的SuperNet通过可切换识别模块配备不同的识别头,并分别在目标数据集上进行微调,以获取特定于任务特定的超网络。最后,我们根据没有任何网络训练的进化算法,搜索最佳骨干架构进行不同识别任务。对于不同识别任务的五个基准数据集进行了广泛的实验,结果显示了所提出的搜索范例的有效性,并证明搜索后的骨干能够灵活地调整不同的RSI识别任务并实现令人印象深刻的性能。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
为了使用各种类型的数据理解现实世界,人工智能(AI)是当今最常用的技术。在分析数据中找到模式的同时表示主要任务。这是通过提取代表性特征步骤来执行的,该步骤是使用统计算法或使用某些特定过滤器进行的。但是,从大规模数据中选择有用的功能代表了至关重要的挑战。现在,随着卷积神经网络(CNN)的发展,功能提取操作变得更加自动和更容易。 CNN允许处理大规模的数据,并涵盖特定任务的不同方案。对于计算机视觉任务,卷积网络也用于为深度学习模型的其他部分提取功能。选择合适的网络用于特征提取或DL模型的其他部分不是随机工作。因此,这种模型的实现可能与目标任务以及其计算复杂性有关。已经提出了许多网络,并成为任何AI任务中任何DL模型的著名网络。这些网络被利用用于特征提取或在任何名为骨架的DL模型的开头。骨干是以前在许多其他任务中训练并证明其有效性的已知网络。在本文中,现有骨干的概述,例如详细说明给出了VGG,Resnets,Densenet等。此外,通过对所使用的骨干进行审查,讨论了几个计算机视觉任务。此外,还基于每个任务的骨干,还提供了性能的比较。
translated by 谷歌翻译
使用深神经网络的自动诊断可以帮助眼科医生检测致盲眼病湿时期相关的黄斑变性(AMD)。湿AMD具有两种类似的亚型,新生血管和息肉脉络膜(PCV)。然而,由于数据收集困难和图像之间的相似性,大多数研究仅达到了湿-amd的粗粒粒度,而不是湿-amd亚型中的细粒。为了解决这个问题,在本文中,我们提出了一种知识驱动的细粒度湿法AMD分类模型(KFWC),以对数据不足的细粒疾病进行分类。随着将输入图像的10个病变迹象的先验知识引入KFWC,我们的目标是通过多标签分类预培训加速KFWC,以定位细粒疾病分类任务中的决定性图像特征因此实现了更好的分类。同时,KFWC还可以提供良好的可解释性,并有效地减轻湿法菌疾病分类领域的数据收集和注释压力。实验证明了澳大利亚委员会的持续99.71%的有效性,以及对数据驱动的W / O知识和眼科医生相当大的改进,比最强的基线和4.14%对眼科医生的速度为6.69%。
translated by 谷歌翻译
胰腺癌是世界上最严重恶性的癌症之一,这种癌症迅速迅速,具有很高的死亡率。快速的现场评估(玫瑰)技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程,这使得在这种紧压的过程中能够更快的诊断。然而,由于缺乏经验丰富的病理学家,玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题,我们提出了一个混合高性能深度学习模型,以实现自动化工作流程,从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段,由卷积神经网络(CNN)产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导,这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器(MSHT)在分类精度下实现95.68%,其鲜明地高于最先进的模型。面对对可解释性的需求,MSHT以更准确的关注区域表达其对应物。结果表明,MSHT可以以前所未有的图像规模精确地区分癌症样本,奠定了部署自动决策系统的基础,并在临床实践中扩大玫瑰。代码和记录可在:https://github.com/sagizty/multi-stage-ybrid-transformer。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
视网膜脉管系统的研究是筛查和诊断许多疾病的基本阶段。完整的视网膜血管分析需要将视网膜的血管分为动脉和静脉(A/V)。早期自动方法在两个顺序阶段接近这些分割和分类任务。但是,目前,这些任务是作为联合语义分割任务处理的,因为分类结果在很大程度上取决于血管分割的有效性。在这方面,我们提出了一种新的方法,用于从眼睛眼睛图像中对视网膜A/V进行分割和分类。特别是,我们提出了一种新颖的方法,该方法与以前的方法不同,并且由于新的损失,将联合任务分解为针对动脉,静脉和整个血管树的三个分割问题。这种配置允许直观地处理容器交叉口,并直接提供不同靶血管树的精确分割罩。提供的关于公共视网膜图血管树提取(RITE)数据集的消融研究表明,所提出的方法提供了令人满意的性能,尤其是在不同结构的分割中。此外,与最新技术的比较表明,我们的方法在A/V分类中获得了高度竞争的结果,同时显着改善了血管分割。提出的多段方法允许检测更多的血管,并更好地分割不同的结构,同时实现竞争性分类性能。同样,用这些术语来说,我们的方法优于各种参考作品的方法。此外,与以前的方法相比,该方法允许直接检测到容器交叉口,并在这些复杂位置保留A/V的连续性。
translated by 谷歌翻译