使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
仅使用诸如图像类标签的全局注释,弱监督学习方法允许CNN分类器共同分类图像,并产生与预测类相关的感兴趣区域。然而,在像素水平的任何引导下,这种方法可以产生不准确的区域。已知该问题与组织学图像更具挑战,而不是与天然自然的图像,因为物体不太突出,结构具有更多变化,并且前景和背景区域具有更强的相似之处。因此,用于CNNS的视觉解释的计算机视觉文献中的方法可能无法直接适用。在这项工作中,我们提出了一种基于复合损耗功能的简单而有效的方法,可利用完全消极样本的信息。我们的新损失函数包含两个补充项:第一次利用CNN分类器收集的积极证据,而第二个利用来自CNN分类器的积极证据,而第二个互联网将利用来自训练数据集的完全消极样本。特别是,我们用解码器装备预先训练的分类器,该解码器允许精制感兴趣的区域。利用相同的分类器来收集像素电平的正面和负证据,以培训解码器。这使得能够利用自然地发生在数据中的完全消极样本,而没有任何额外的监督信号,并且仅使用图像类作为监督。与几种相关方法相比,在冒号癌的公共基准GLAS和使用三种不同的骨架的CONELYON16基于乳腺癌的CAMELYON16基准测试,我们展示了我们方法引入的大量改进。我们的结果表明了使用负数和积极证据的好处,即,从分类器获得的效益以及在数据集中自然可用的那个。我们对这两种术语进行了消融研究。我们的代码公开提供。
translated by 谷歌翻译
弱监督的视频对象本地化(WSVOL)允许仅使用全局视频标签(例如对象类)在视频中找到对象。最先进的方法依赖于多个独立阶段,其中最初的时空建议是使用视觉和运动提示生成的,然后确定和完善了突出的对象。本地化是通过在一个或多个视频上解决优化问题来完成的,并且视频标签通常用于视频集群。这需要每件型号或每类制造代价高昂的推理。此外,由于无监督的运动方法(如光流)或视频标签是从优化中丢弃的,因此本地化区域不是必需的判别。在本文中,我们利用成功的类激活映射(CAM)方法,该方法是基于静止图像而设计的。引入了一种新的时间凸轮(TCAM)方法,以训练一种判别深度学习(DL)模型,以使用称为CAM-Temporal Max Max Pooling(CAM-TMP)的聚集机制在视频中利用时空信息,而不是连续的凸轮。特别是,感兴趣区域的激活(ROI)是从审计的CNN分类器生成的CAM中收集的,以构建Pseudo-Labels构建用于训练DL模型的伪标记。此外,使用全局无监督的尺寸约束和诸如CRF之类的局部约束来产生更准确的凸轮。对单个独立帧的推断允许并行处理框架片段和实时定位。在两个挑战性的YouTube-Objects数据集上进行无限制视频的广泛实验,表明CAM方法(在独立框架上训练)可以产生不错的定位精度。我们提出的TCAM方法在WSVOL准确性方面达到了新的艺术品,并且视觉结果表明它可以适用于后续任务,例如视觉对象跟踪和检测。代码公开可用。
translated by 谷歌翻译
弱监督的对象本地化(WSOL)在过去几年中获得了普及,以便培训具有图像级标签的本地化模型。由于Soliminal WSOL类激活映射(CAM),该领域的重点是如何扩展注意区域更广泛地覆盖物体并更好地本地化。但是,这些策略依赖于验证超参数和模型选择的完全本地化监督,这是原则上禁止WSOL设置。在本文中,我们认为WSOL任务仅用图像级标签均不含糊,并提出了一种新的评估协议,其中全面监督仅限于仅与测试集没有重叠的小型举出的设置。我们观察到,根据我们的协议,五种最新的WSOL方法没有对CAM基线进行重大改进。此外,我们报告说,现有的WSOL方法尚未达到几次学习基准,其中验证时间的全面监督用于模型培训。根据我们的调查结果,我们讨论了WSOL的​​一些未来方向。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
即使在几个例子中,人类能够学会识别新物品。相比之下,培训基于深度学习的对象探测器需要大量的注释数据。为避免需求获取和注释这些大量数据,但很少拍摄的对象检测旨在从目标域中的新类别的少数对象实例中学习。在本调查中,我们在几次拍摄对象检测中概述了本领域的状态。我们根据培训方案和建筑布局分类方法。对于每种类型的方法,我们描述了一般的实现以及提高新型类别性能的概念。在适当的情况下,我们在这些概念上给出短暂的外卖,以突出最好的想法。最终,我们介绍了常用的数据集及其评估协议,并分析了报告的基准结果。因此,我们强调了评估中的共同挑战,并确定了这种新兴对象检测领域中最有前景的电流趋势。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.
translated by 谷歌翻译
Diabetic Retinopathy (DR) is a leading cause of vision loss in the world, and early DR detection is necessary to prevent vision loss and support an appropriate treatment. In this work, we leverage interactive machine learning and introduce a joint learning framework, termed DRG-Net, to effectively learn both disease grading and multi-lesion segmentation. Our DRG-Net consists of two modules: (i) DRG-AI-System to classify DR Grading, localize lesion areas, and provide visual explanations; (ii) DRG-Expert-Interaction to receive feedback from user-expert and improve the DRG-AI-System. To deal with sparse data, we utilize transfer learning mechanisms to extract invariant feature representations by using Wasserstein distance and adversarial learning-based entropy minimization. Besides, we propose a novel attention strategy at both low- and high-level features to automatically select the most significant lesion information and provide explainable properties. In terms of human interaction, we further develop DRG-Net as a tool that enables expert users to correct the system's predictions, which may then be used to update the system as a whole. Moreover, thanks to the attention mechanism and loss functions constraint between lesion features and classification features, our approach can be robust given a certain level of noise in the feedback of users. We have benchmarked DRG-Net on the two largest DR datasets, i.e., IDRID and FGADR, and compared it to various state-of-the-art deep learning networks. In addition to outperforming other SOTA approaches, DRG-Net is effectively updated using user feedback, even in a weakly-supervised manner.
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
通过使用图像级分类掩模监督其学习过程,弱监督对象本地化(WSOL)放宽对对象本地化的密度注释的要求。然而,当前的WSOL方法遭受背景位置的过度激活,并且需要后处理以获得定位掩模。本文将这些问题归因于背景提示的不明显,并提出了背景感知分类激活映射(B-CAM),以便仅使用图像级标签同时学习对象和背景的本地化分数。在我们的B-CAM中,两个图像级功能,由潜在背景和对象位置的像素级别功能聚合,用于从对象相关的背景中净化对象功能,并表示纯背景样本的功能,分别。然后基于这两个特征,学习对象分类器和背景分类器,以确定二进制对象本地化掩码。我们的B-CAM可以基于提出的错开分类损失以端到端的方式培训,这不仅可以改善对象本地化,而且还抑制了背景激活。实验表明,我们的B-CAM在Cub-200,OpenImages和VOC2012数据集上优于一级WSOL方法。
translated by 谷歌翻译
弱监督的语义分割(WSSS)是具有挑战性的,特别是当使用图像级标签来监督像素级预测时。为了弥合它们的差距,通常生成一个类激活图(CAM)以提供像素级伪标签。卷积神经网络中的凸轮患有部分激活,即,仅激活最多的识别区域。另一方面,基于变压器的方法在探索具有长范围依赖性建模的全球背景下,非常有效,可能会减轻“部分激活”问题。在本文中,我们提出了基于第一变压器的WSSS方法,并介绍了梯度加权元素明智的变压器注意图(GetAn)。 GetaN显示所有特征映射元素的精确激活,跨越变压器层显示对象的不同部分。此外,我们提出了一种激活感知标签完成模块来生成高质量的伪标签。最后,我们将我们的方法纳入了使用双向向上传播的WSS的结束框架。 Pascal VOC和Coco的广泛实验表明,我们的结果通过显着的保证金击败了最先进的端到端方法,并且优于大多数多级方法.M大多数多级方法。
translated by 谷歌翻译
我们考虑临床应用异常定位问题。虽然深入学习推动了最近的医学成像进展,但许多临床挑战都没有完全解决,限制了其更广泛的使用。虽然最近的方法报告了高的诊断准确性,但医生因普遍缺乏算法决策和解释性而涉及诊断决策的这些算法,这是关注这些算法。解决这个问题的一种潜在方法是进一步培训这些模型,以便除了分类它们之外,除了分类。然而,准确地进行这一临床专家需要大量的疾病定位注释,这是对大多数应用程序来实现昂贵的任务。在这项工作中,我们通过一种新的注意力弱监督算法来解决这些问题,该弱势监督算法包括分层关注挖掘框架,可以以整体方式统一激活和基于梯度的视觉关注。我们的关键算法创新包括明确序号注意约束的设计,实现了以弱监督的方式实现了原则的模型培训,同时还通过本地化线索促进了产生视觉关注驱动的模型解释。在两个大型胸部X射线数据集(NIH Chescx-Ray14和Chexpert)上,我们展示了对现有技术的显着本地化性能,同时也实现了竞争的分类性能。我们的代码可在https://github.com/oyxhust/ham上找到。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
大多数现有的语义分割方法都以图像级类标签作为监督,高度依赖于从标准分类网络生成的初始类激活图(CAM)。在本文中,提出了一种新颖的“渐进贴片学习”方法,以改善分类的局部细节提取,从而更好地覆盖整个对象的凸轮,而不仅仅是在常规分类模型中获得的CAM中的最歧视区域。 “补丁学习”将特征映射破坏成贴片,并在最终聚合之前并行独立处理每个本地贴片。这样的机制强迫网络从分散的歧视性本地部分中找到弱信息,从而提高了本地细节的敏感性。 “渐进的补丁学习”进一步将特征破坏和补丁学习扩展到多层粒度。与多阶段优化策略合作,这种“渐进的补丁学习”机制隐式地为模型提供了跨不同位置粒状性的特征提取能力。作为隐式多粒性渐进式融合方法的替代方案,我们还提出了一种明确的方法,以同时将单个模型中不同粒度的特征融合,从而进一步增强了完整对象覆盖的凸轮质量。我们提出的方法在Pascal VOC 2012数据集上取得了出色的性能,例如,测试集中有69.6 $%miou),它超过了大多数现有的弱监督语义细分方法。代码将在此处公开提供,https://github.com/tyroneli/ppl_wsss。
translated by 谷歌翻译
组织病理学图像包含丰富的表型信息和病理模式,这是疾病诊断的黄金标准,对于预测患者预后和治疗结果至关重要。近年来,在临床实践中迫切需要针对组织病理学图像的计算机自动化分析技术,而卷积神经网络代表的深度学习方法已逐渐成为数字病理领域的主流。但是,在该领域获得大量细粒的注释数据是一项非常昂贵且艰巨的任务,这阻碍了基于大量注释数据的传统监督算法的进一步开发。最新的研究开始从传统的监督范式中解放出来,最有代表性的研究是基于弱注释,基于有限的注释的半监督学习范式以及基于自我监督的学习范式的弱监督学习范式的研究图像表示学习。这些新方法引发了针对注释效率的新自动病理图像诊断和分析。通过对130篇论文的调查,我们对从技术和方法论的角度来看,对计算病理学领域中有关弱监督学习,半监督学习以及自我监督学习的最新研究进行了全面的系统综述。最后,我们提出了这些技术的关键挑战和未来趋势。
translated by 谷歌翻译