This contribution presents a deep learning method for the extraction and fusion of information relating to kidney stone fragments acquired from different viewpoints of the endoscope. Surface and section fragment images are jointly used during the training of the classifier to improve the discrimination power of the features by adding attention layers at the end of each convolutional block. This approach is specifically designed to mimic the morpho-constitutional analysis performed in ex-vivo by biologists to visually identify kidney stones by inspecting both views. The addition of attention mechanisms to the backbone improved the results of single view extraction backbones by 4% on average. Moreover, in comparison to the state-of-the-art, the fusion of the deep features improved the overall results up to 11% in terms of kidney stone classification accuracy.
translated by 谷歌翻译
无线胶囊内窥镜检查是检查胃肠道的最先进的非侵入性方法之一。一种用于检测胃肠道异常(如息肉,出血,炎症等)的智能计算机辅助诊断系统在无线胶囊内窥镜图像分析中非常紧张。异常的形状,大小,颜色和纹理有很大不同,有些在视觉上与正常区域相似。由于类内的变化,这在设计二进制分类器方面构成了挑战。在这项研究中,提出了一个混合卷积神经网络,用于异常检测,该检测从无线胶囊内窥镜图像中提取了丰富的有意义的特征,并使用各种卷积操作提取。它由三个平行的卷积神经网络组成,每个神经网络具有独特的特征学习能力。第一个网络利用了深度可分离的卷积,而第二个网络采用余弦归一化的卷积操作。在第三个网络中引入了一种新颖的元效力提取机制,以从第一和第二网络及其自己的先前层中生成的特征中汲取的统计信息中提取模式。网络三重奏有效地处理了类内的方差,并有效地检测到胃肠道异常。拟议的混合卷积神经网络模型对两个广泛使用的公开数据集进行了训练和测试。测试结果表明,所提出的模型在KID和Kvasir-Capsule数据集上分别优于97 \%和98 \%分类精度的六种最先进方法。交叉数据集评估结果还证明了所提出的模型的概括性能。
translated by 谷歌翻译
由于单峰生物识别系统的不稳定性和局限性,多模式系统吸引了研究人员的关注。但是,如何利用不同方式之间的独立和互补信息仍然是一个关键和具有挑战性的问题。在本文中,我们提出了一种基于指纹和手指静脉的多模式融合识别算法(指纹手指静脉 - 通道 - 通道空间注意融合模块,FPV-CSAFM)。具体而言,对于每对指纹和手指静脉图像,我们首先提出一个简单有效的卷积神经网络(CNN)来提取特征。然后,我们构建一个多模式融合模块(通道空间注意融合模块,CSAFM),以完全融合指纹和指纹之间的互补信息。与现有的融合策略不同,我们的融合方法可以根据渠道和空间维度不同模态的重要性动态调整融合权重,以便更好地将信息之间的信息更好地结合在一起,并提高整体识别性能。为了评估我们方法的性能,我们在多个公共数据集上进行了一系列实验。实验结果表明,所提出的FPV-CSAFM基于指纹和手指静脉在三个多模式数据集上实现了出色的识别性能。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
在这项工作中,我们提出了用于商业产品分类的多模式模型,该模型结合了使用简单的融合技术从Textual(Camembert和Flaubert)和视觉数据(SE-Resnext-50)中提取的功能。所提出的方法显着优于单峰模型的性能以及在我们的特定任务上报告的类似模型的报告。我们进行了多种融合技术的实验,并发现,结合单峰网络的单个嵌入的最佳性能技术是基于结合串联和平均特征向量的方法。每种模式都补充了其他方式的缺点,表明增加模态的数量可能是改善多标签和多模式分类问题的有效方法。
translated by 谷歌翻译
乳腺癌是女性可能发生的最严重的癌症之一。通过分析组织学图像(HIS)来自动诊断乳腺癌对患者及其预后很重要。他的分类为临床医生提供了对疾病的准确了解,并使他们可以更有效地治疗患者。深度学习(DL)方法已成功地用于各种领域,尤其是医学成像,因为它们有能力自动提取功能。这项研究旨在使用他的乳腺癌对不同类型的乳腺癌进行分类。在这项研究中,我们提出了一个增强的胶囊网络,该网络使用RES2NET块和四个额外的卷积层提取多尺度特征。此外,由于使用了小的卷积内核和RES2NET块,因此所提出的方法具有较少的参数。结果,新方法的表现优于旧方法,因为它会自动学习最佳功能。测试结果表明该模型的表现优于先前的DL方法。
translated by 谷歌翻译
机器学习和深度学习方法对医学的计算机辅助预测成为必需的,在乳房X光检查领域也具有越来越多的应用。通常,这些算法训练,针对特定任务,例如,病变的分类或乳房X乳线图的病理学状态的预测。为了获得患者的综合视图,随后整合或组合所有针对同一任务培训的模型。在这项工作中,我们提出了一种管道方法,我们首先培训一组个人,任务特定的模型,随后调查其融合,与标准模型合并策略相反。我们使用混合患者模型的深度学习模型融合模型预测和高级功能,以在患者水平上构建更强的预测因子。为此,我们提出了一种多分支深度学习模型,其跨不同任务和乳房X光检查有效地融合了功能,以获得全面的患者级预测。我们在公共乳房X线摄影数据,即DDSM及其策划版本CBIS-DDSM上培训并评估我们的全部管道,并报告AUC评分为0.962,以预测任何病变和0.791的存在,以预测患者水平对恶性病变的存在。总体而言,与标准模型合并相比,我们的融合方法将显着提高AUC得分高达0.04。此外,通过提供与放射功能相关的特定于任务的模型结果,提供了与放射性特征相关的任务特定模型结果,我们的管道旨在密切支持放射科学家的阅读工作流程。
translated by 谷歌翻译
通过研究视网膜生物结构的进展,可以识别眼病的存在和严重性是可行的。眼底检查是检查眼睛的生物结构和异常的诊断程序。诸如青光眼,糖尿病性视网膜病和白内障等眼科疾病是世界各地视觉障碍的主要原因。眼疾病智能识别(ODIR-5K)是研究人员用于多标签的多份多疾病分类的基准结构底面图像数据集。这项工作提出了一个歧视性内核卷积网络(DKCNET),该网络探讨了歧视区域的特征,而无需增加额外的计算成本。 DKCNET由注意力块组成,然后是挤压和激发(SE)块。注意块从主干网络中获取功能,并生成歧视性特征注意图。 SE块采用区分特征图并改善了通道相互依赖性。使用InceptionResnet骨干网络观察到DKCNET的更好性能,用于具有96.08 AUC,94.28 F1-SCORE和0.81 KAPPA得分的ODIR-5K底面图像的多标签分类。所提出的方法根据诊断关键字将通用目标标签拆分为眼对。基于这些标签,进行了过采样和不足采样以解决阶级失衡。为了检查拟议模型对培训数据的偏见,对ODIR数据集进行了训练的模型将在三个公开可用的基准数据集上进行测试。发现它在完全看不见的底面图像上也具有良好的性能。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
睡眠是一种基本的生理过程,对于维持健康的身心至关重要。临床睡眠监测的黄金标准是多核桃摄影(PSG),基于哪个睡眠可以分为五个阶段,包括尾脉冲睡眠(REM睡眠)/非REM睡眠1(N1)/非REM睡眠2 (n2)/非REM睡眠3(n3)。然而,PSG昂贵,繁重,不适合日常使用。对于长期睡眠监测,无处不在的感测可以是解决方案。最近,心脏和运动感测在分类三阶段睡眠方面变得流行,因为两种方式都可以从研究级或消费者级设备中获得(例如,Apple Watch)。但是,为最大准确性融合数据的最佳仍然是一个打开的问题。在这项工作中,我们综合地研究了深度学习(DL)的高级融合技术,包括三种融合策略,三个融合方法以及三级睡眠分类,基于两个公共数据集。实验结果表明,通过融合心脏/运动传感方式可以可靠地分类三阶段睡眠,这可能成为在睡眠中进行大规模睡眠阶段评估研究或长期自动跟踪的实用工具。为了加快普遍存在/可穿戴计算社区的睡眠研究的进展,我们制作了该项目开源,可以在:https://github.com/bzhai/ubi-sleepnet找到代码。
translated by 谷歌翻译
细粒度的视觉分类(FGVC)旨在识别子类别的对象。由于级细的级别差异,这是一个非常具有挑战性的任务。现有的研究将大型卷积神经网络或视觉变压器应用为特征提取器,这是极其计算昂贵的。实际上,实际的细粒度识别的场景通常需要更轻薄的移动网络可以离线使用。然而,基本移动网络特征提取能力比大规模模型弱。本文基于轻质MobileNetv2,我们提出了一种具有递归马赛克发生器(RMG-PMSI)的逐步多级交互训练方法。首先,我们提出了一种递归马赛克发生器(RMG),其产生不同阶段的不同粒度的图像。然后,不同阶段的特征通过多级相互作用(MSI)模块,其增强和补充不同阶段的相应特征。最后,使用渐进式训练(P),可以充分利用不同阶段中的模型提取的特征并彼此融合。三个着名的细粒度基准测试的实验表明,RMG-PMSI可以显着提高性能,具有良好的稳健性和可转移性。
translated by 谷歌翻译
Prostate cancer is the most common cancer in men worldwide and the second leading cause of cancer death in the United States. One of the prognostic features in prostate cancer is the Gleason grading of histopathology images. The Gleason grade is assigned based on tumor architecture on Hematoxylin and Eosin (H&E) stained whole slide images (WSI) by the pathologists. This process is time-consuming and has known interobserver variability. In the past few years, deep learning algorithms have been used to analyze histopathology images, delivering promising results for grading prostate cancer. However, most of the algorithms rely on the fully annotated datasets which are expensive to generate. In this work, we proposed a novel weakly-supervised algorithm to classify prostate cancer grades. The proposed algorithm consists of three steps: (1) extracting discriminative areas in a histopathology image by employing the Multiple Instance Learning (MIL) algorithm based on Transformers, (2) representing the image by constructing a graph using the discriminative patches, and (3) classifying the image into its Gleason grades by developing a Graph Convolutional Neural Network (GCN) based on the gated attention mechanism. We evaluated our algorithm using publicly available datasets, including TCGAPRAD, PANDA, and Gleason 2019 challenge datasets. We also cross validated the algorithm on an independent dataset. Results show that the proposed model achieved state-of-the-art performance in the Gleason grading task in terms of accuracy, F1 score, and cohen-kappa. The code is available at https://github.com/NabaviLab/Prostate-Cancer.
translated by 谷歌翻译
确实,卷积神经网络(CNN)更合适。然而,固定内核大小使传统的CNN太具体,既不灵活也不有利于特征学习,从而影响分类准确性。不同内核大小网络的卷积可以通过捕获更多辨别和相关信息来克服这个问题。鉴于此,所提出的解决方案旨在将3D和2D成立网的核心思想与促进混合方案中的HSIC CNN性能提升。生成的\ Textit {注意融合混合网络}(AFNET)基于三个关注融合的并行混合子网,每个块中的不同内核使用高级功能,以增强最终的地面图。简而言之,AFNET能够选择性地过滤滤除对分类至关重要的辨别特征。与最先进的模型相比,HSI数据集的几次测试为AFNET提供了竞争力的结果。拟议的管道实现,实际上,印度松树的总体准确性为97 \%,博茨瓦纳100 \%,帕尔茨大学,帕维亚中心和萨利纳斯数据集的99 \%。
translated by 谷歌翻译
植物疾病是全球作物损失的主要原因,对世界经济产生了影响。为了解决这些问题,智能农业解决方案正在发展,将物联网和机器学习结合起来,以进行早期疾病检测和控制。许多这样的系统使用基于视觉的机器学习方法进行实时疾病检测和诊断。随着深度学习技术的发展,已经出现了新方法,这些方法采用卷积神经网络进行植物性疾病检测和鉴定。基于视觉的深度学习的另一个趋势是使用视觉变压器,事实证明,这些变压器是分类和其他问题的强大模型。但是,很少研究视力变压器以进行植物病理应用。在这项研究中,为植物性疾病鉴定提出了一个启用视觉变压器的卷积神经网络模型。提出的模型将传统卷积神经网络的能力与视觉变压器有效地识别出多种农作物的大量植物疾病。拟议的模型具有轻巧的结构,只有80万个可训练的参数,这使其适合基于物联网的智能农业服务。 PlantXvit的性能在五个公开可用的数据集上进行了评估。拟议的PlantXvit网络在所有五个数据集上的性能要比五种最先进的方法更好。即使在挑战性的背景条件下,识别植物性疾病的平均准确性分别超过了苹果,玉米和稻米数据集的93.55%,92.59%和98.33%。使用梯度加权的类激活图和局部可解释的模型不可思议的解释来评估所提出模型的解释性效率。
translated by 谷歌翻译
胰腺癌是世界上最严重恶性的癌症之一,这种癌症迅速迅速,具有很高的死亡率。快速的现场评估(玫瑰)技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程,这使得在这种紧压的过程中能够更快的诊断。然而,由于缺乏经验丰富的病理学家,玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题,我们提出了一个混合高性能深度学习模型,以实现自动化工作流程,从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段,由卷积神经网络(CNN)产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导,这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器(MSHT)在分类精度下实现95.68%,其鲜明地高于最先进的模型。面对对可解释性的需求,MSHT以更准确的关注区域表达其对应物。结果表明,MSHT可以以前所未有的图像规模精确地区分癌症样本,奠定了部署自动决策系统的基础,并在临床实践中扩大玫瑰。代码和记录可在:https://github.com/sagizty/multi-stage-ybrid-transformer。
translated by 谷歌翻译
胎儿超声(US)中胎盘的自动分割由于(i)(i)胎盘外观的高度多样性而具有挑战性我们禁止在妊娠晚期进行整个胎盘评估的观点。在这项工作中,我们通过多任务学习方法解决了这三个挑战,该方法结合了单个卷积神经网络中胎盘位置(例如,前,后部)和语义胎盘分段的分类。通过分类任务,模型可以从更大,更多样化的数据集中学习,同时在有限的训练集条件下提高分割任务的准确性。通过这种方法,我们研究了多个评估者的注释的变异性,并表明我们的自动分割(前胎盘的骰子为0.86,后胎盘的骰子为0.83),与观察者内和观察者间的变异性相比,我们的自动段性能达到了人级的性能。最后,我们的方法可以使用由三个阶段组成的多视图US采集管道提供整个胎盘分割:多探针图像采集,图像融合和图像分段。这会导致对较大结构(例如胎盘中的胎盘)的高质量分割,其图像伪像降低,这超出了单个探针的视野。
translated by 谷歌翻译
识别对象和场景是两个具有挑战性的,但在图像理解中是必不可少的任务。特别是,使用RGB-D传感器在处理这些任务中,已成为更好的视觉理解的重要焦点领域。同时,深度神经网络,特别是卷积神经网络(CNNS),已经普遍存在,通过替换具有有效深度特征的手工制作的特征来应用于许多视觉任务。但是,它是一个公开问题如何有效地利用多层CNN模型的深度特征。在本文中,我们提出了一种新的两阶段框架,从多模态RGB-D图像中提取用于对象和场景识别任务的判别特征表示。在第一阶段,预先训练的CNN模型已被用作骨干,以在多个级别提取视觉特征。第二阶段将这些特征映射到高电平表示,具有有效的递归神经网络(RNNS)的完全随机结构。为了应对CNN激活的高维度,通过在RNNS中扩展随机性的想法来提出一种随机加权池方案。通过基于RGB和深度流分别的单个识别信徒(即SVM分数)来计算权重来执行多模态融合。这在最终的RGB-D分类性能中产生了一致的类标签估计。广泛的实验验证了RNN阶段的完全随机结构编码CNN激活以成功辨别鉴别的固体功能。比较实验结果对华盛顿RGB-D对象和Sun RGB-D场景数据集的比较实验结果表明,与物体和场景识别任务中的最先进的方法相比,该方法达到了优越的或映射性能。代码可在https://github.com/acaglayan/cnn_randrnn获得。
translated by 谷歌翻译
卷积神经网络在过去十年中允许在单个图像超分辨率(SISR)中的显着进展。在SISR最近的进展中,关注机制对于高性能SR模型至关重要。但是,注意机制仍然不清楚为什么它在SISR中的工作原理。在这项工作中,我们试图量化和可视化SISR中的注意力机制,并表明并非所有关注模块都同样有益。然后,我们提出了关注网络(A $ ^ 2 $ n)的注意力,以获得更高效和准确的SISR。具体来说,$ ^ 2 $ n包括非关注分支和耦合注意力分支。提出了一种动态注意力模块,为这两个分支产生权重,以动态地抑制不需要的注意力调整,其中权重根据输入特征自适应地改变。这允许注意模块专门从事惩罚的有益实例,从而大大提高了注意力网络的能力,即几个参数开销。实验结果表明,我们的最终模型A $ ^ 2 $ n可以实现与类似尺寸的最先进网络相比的卓越的权衡性能。代码可以在https://github.com/haoyuc/a2n获得。
translated by 谷歌翻译
组织病理学分析是对癌前病变诊断的本金标准。从数字图像自动组织病理学分类的目标需要监督培训,这需要大量的专家注释,这可能是昂贵且耗时的收集。同时,精确分类从全幻灯片裁剪的图像斑块对于基于标准滑动窗口的组织病理学幻灯片分类方法是必不可少的。为了减轻这些问题,我们提出了一个精心设计的条件GaN模型,即hostogan,用于在类标签上合成现实组织病理学图像补丁。我们还研究了一种新颖的合成增强框架,可选择地添加由我们提出的HADOGAN生成的新的合成图像补丁,而不是直接扩展与合成图像的训练集。通过基于其指定标签的置信度和实际标记图像的特征相似性选择合成图像,我们的框架为合成增强提供了质量保证。我们的模型在两个数据集上进行评估:具有有限注释的宫颈组织病理学图像数据集,以及具有转移性癌症的淋巴结组织病理学图像的另一个数据集。在这里,我们表明利用具有选择性增强的组织产生的图像导致对宫颈组织病理学和转移性癌症数据集分别的分类性能(分别为6.7%和2.8%)的显着和一致性。
translated by 谷歌翻译
卷积神经网络已在图像分类方面取得了成功的结果,从而实现了超过人类水平的实时结果。但是,纹理图像仍然对这些模型构成一些挑战,例如,在出现这些图像,高层间相似性,没有代表对象的全局观点的几个问题中,培训的数据可用性有限,并且其他。在这种情况下,本文的重点是提高纹理分类中卷积神经网络的准确性。这是通过从验证的神经网络的多个卷积层中提取特征并使用Fisher载体聚集此类特征来完成的。使用较早卷积层的特征的原因是获得了较少域的信息。我们验证方法对基准数据集的纹理分类以及巴西植物物种识别的实际任务的有效性。在这两种情况下,在多层上计算出的Fisher矢量都优于制作方法,证实早期卷积层提供了有关分类纹理图像的重要信息。
translated by 谷歌翻译