智能论文笔记

Learning Hierarchical Attention for Weakly-supervised Chest X-Ray Abnormality Localization and Diagnosis

Xi Ouyang , Srikrishna Karanam , Ziyan Wu , Terrence Chen , Jiayu Huo , Xiang Sean Zhou , Qian Wang , Jie-Zhi Cheng

分类：计算机视觉

2021-12-23

我们考虑临床应用异常定位问题。虽然深入学习推动了最近的医学成像进展，但许多临床挑战都没有完全解决，限制了其更广泛的使用。虽然最近的方法报告了高的诊断准确性，但医生因普遍缺乏算法决策和解释性而涉及诊断决策的这些算法，这是关注这些算法。解决这个问题的一种潜在方法是进一步培训这些模型，以便除了分类它们之外，除了分类。然而，准确地进行这一临床专家需要大量的疾病定位注释，这是对大多数应用程序来实现昂贵的任务。在这项工作中，我们通过一种新的注意力弱监督算法来解决这些问题，该弱势监督算法包括分层关注挖掘框架，可以以整体方式统一激活和基于梯度的视觉关注。我们的关键算法创新包括明确序号注意约束的设计，实现了以弱监督的方式实现了原则的模型培训，同时还通过本地化线索促进了产生视觉关注驱动的模型解释。在两个大型胸部X射线数据集（NIH Chescx-Ray14和Chexpert）上，我们展示了对现有技术的显着本地化性能，同时也实现了竞争的分类性能。我们的代码可在https://github.com/oyxhust/ham上找到。

translated by 谷歌翻译

GREN: Graph-Regularized Embedding Network for Weakly-Supervised Disease Localization in X-ray Images

Baolian Qi , Gangming Zhao , Xin Wei , Changde Du , Chengwei Pan , Yizhou Yu , Jinpeng Li

分类：计算机视觉 | 人工智能

2021-07-14

在胸部X射线图像中定位疾病很少仔细注释可以节省大量的人类努力。最近的作品通过创新的弱监督算法（例如多稳定学习（MIL）和类激活图（CAM））处理了这项任务，但是，这些方法通常会产生不准确或不完整的区域。原因之一是忽视了每个图像内部解剖区域的关系中隐藏的病理意义以及跨图像的关系。在本文中，我们认为，作为上下文和补偿信息的跨区域和跨图像关系对于获得更一致和更一致的区域至关重要。为了建模关系，我们提出了图形正则嵌入网络（GREN），该网络（GREN）利用图像和图像间信息来定位胸部X射线图像上的疾病。 Gren使用预先训练的U-NET来分割肺裂片，然后使用图像内图形图对肺裂片之间的内图像进行建模以比较不同的区域。同时，内部图像之间的关系是通过图像间图建模的，以比较多个图像。此过程模仿了放射科医生的训练和决策过程：比较多个区域和图像进行诊断。为了使神经网络的深层嵌入层保留结构信息（在本地化任务中很重要），我们使用哈希编码和锤击距离来计算图形，这些图形用作正规化器来促进训练。通过这种情况，我们的方法实现了NIH胸部X射线数据集的最新结果，以实现弱监督疾病的定位。我们的代码可在线访问（https://github.com/qibaolian/gren）。

translated by 谷歌翻译

Anatomy-XNet: An Anatomy Aware Convolutional Neural Network for Thoracic Disease Classification in Chest X-rays

Uday Kamal , Mohammad Zunaed , Nusrat Binta Nizam , Taufiq Hasan

分类：计算机视觉 | 机器学习

2021-06-10

在过去的十年中，使用深度学习方法从胸部X光片检测到胸部X光片是一个活跃的研究领域。大多数以前的方法试图通过识别负责对模型预测的重要贡献的空间区域来关注图像的患病器官。相比之下，专家放射科医生在确定这些区域是否异常之前首先找到突出的解剖结构。因此，将解剖学知识纳入深度学习模型可能会带来自动疾病分类的大幅改善。在此激励的情况下，我们提出了解剖学XNET，这是一种基于解剖学注意的胸腔疾病分类网络，该网络优先考虑由预识别的解剖区域引导的空间特征。我们通过利用可用的小规模器官级注释来采用半监督的学习方法，将解剖区域定位在没有器官级注释的大规模数据集中。拟议的解剖学XNET使用预先训练的Densenet-121作为骨干网络，具有两个相应的结构化模块，解剖学意识到（$^3 $）和概率加权平均池（PWAP），在凝聚力框架中引起解剖学的关注学习。我们通过实验表明，我们提出的方法通过在三个公开可用的大规模CXR数据集中获得85.78％，92.07％和84.04％的AUC得分来设置新的最先进基准测试。和模拟CXR。这不仅证明了利用解剖学分割知识来改善胸病疾病分类的功效，而且还证明了所提出的框架的普遍性。

translated by 谷歌翻译

Deep Weakly-Supervised Learning Methods for Classification and Localization in Histology Images: A Survey

Jérôme Rony , Soufiane Belharbi , Jose Dolz , Ismail Ben Ayed , Luke McCaffrey , Eric Granger

分类：计算机视觉 | 机器学习

2019-09-08

使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域（ROI）的癌症分级和定位通常依赖于图像和像素级标签，后者需要昂贵的注释过程。深度弱监督的对象定位（WSOL）方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释，可以训练这些方法以对图像进行分类，并为ROI定位进行分类类激活图（CAM）。本文综述了WSOL的最先进的DL方法。我们提出了一种分类法，根据模型中的信息流，将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限，但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是，这些方法达到了有限的定位准确性，并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性，对我们的分类学方法进行了评估和比较。总体而言，结果表明定位性能差，特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是，所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活，对阈值的敏感性和模型选择。

translated by 谷歌翻译

Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays

Yan Han , Gregory Holste , Ying Ding , Ahmed Tewfik , Yifan Peng , Zhangyang Wang

分类：计算机视觉

2022-07-10

在深度学习方法进行自动医学图像分析的最新成功之前，从业者使用手工制作的放射线特征来定量描述当地的医学图像斑块。但是，提取区分性放射素特征取决于准确的病理定位，这在现实世界中很难获得。尽管疾病分类和胸部X射线的定位方面取得了进步，但许多方法未能纳入临床知名的领域知识。由于这些原因，我们提出了一个放射素引导的变压器（RGT），该变压器（RGT）与\ textit {global}图像信息与\ textit {local}知识引导的放射线信息信息提供准确的心肺病理学定位和分类\ textit {无需任何界限盒{ }。 RGT由图像变压器分支，放射线变压器分支以及聚集图像和放射线信息的融合层组成。 RGT使用对图像分支的自我注意事项，提取了一个边界框来计算放射线特征，该特征由放射线分支进一步处理。然后通过交叉注意层融合学习的图像和放射线特征。因此，RGT利用了一种新型的端到端反馈回路，该回路只能使用图像水平疾病标签引导精确的病理定位。 NIH CHESTXRAR数据集的实验表明，RGT的表现优于弱监督疾病定位的先前作品（在各个相交联合阈值的平均余量为3.6 \％）和分类（在接收器操作方下平均1.1 \％\％\％\％曲线）。接受代码和训练有素的模型将在接受后发布。

translated by 谷歌翻译

DRG-Net: Interactive Joint Learning of Multi-lesion Segmentation and Classification for Diabetic Retinopathy Grading

Hasan Md Tusfiqur , Duy M. H. Nguyen , Mai T. N. Truong , Triet A. Nguyen , Binh T. Nguyen , Michael Barz , Hans-Juergen Profitlich , Ngoc T. T. Than , Ngan Le , Pengtao Xie

分类：计算机视觉

2022-12-30

Diabetic Retinopathy (DR) is a leading cause of vision loss in the world, and early DR detection is necessary to prevent vision loss and support an appropriate treatment. In this work, we leverage interactive machine learning and introduce a joint learning framework, termed DRG-Net, to effectively learn both disease grading and multi-lesion segmentation. Our DRG-Net consists of two modules: (i) DRG-AI-System to classify DR Grading, localize lesion areas, and provide visual explanations; (ii) DRG-Expert-Interaction to receive feedback from user-expert and improve the DRG-AI-System. To deal with sparse data, we utilize transfer learning mechanisms to extract invariant feature representations by using Wasserstein distance and adversarial learning-based entropy minimization. Besides, we propose a novel attention strategy at both low- and high-level features to automatically select the most significant lesion information and provide explainable properties. In terms of human interaction, we further develop DRG-Net as a tool that enables expert users to correct the system's predictions, which may then be used to update the system as a whole. Moreover, thanks to the attention mechanism and loss functions constraint between lesion features and classification features, our approach can be robust given a certain level of noise in the feedback of users. We have benchmarked DRG-Net on the two largest DR datasets, i.e., IDRID and FGADR, and compared it to various state-of-the-art deep learning networks. In addition to outperforming other SOTA approaches, DRG-Net is effectively updated using user feedback, even in a weakly-supervised manner.

translated by 谷歌翻译

Background-aware Classification Activation Map for Weakly Supervised Object Localization

Lei Zhu , Qi She , Qian Chen , Xiangxi Meng , Mufeng Geng , Lujia Jin , Zhe Jiang , Bin Qiu , Yunfei You , Yibao Zhang

分类：计算机视觉

2021-12-29

通过使用图像级分类掩模监督其学习过程，弱监督对象本地化（WSOL）放宽对对象本地化的密度注释的要求。然而，当前的WSOL方法遭受背景位置的过度激活，并且需要后处理以获得定位掩模。本文将这些问题归因于背景提示的不明显，并提出了背景感知分类激活映射（B-CAM），以便仅使用图像级标签同时学习对象和背景的本地化分数。在我们的B-CAM中，两个图像级功能，由潜在背景和对象位置的像素级别功能聚合，用于从对象相关的背景中净化对象功能，并表示纯背景样本的功能，分别。然后基于这两个特征，学习对象分类器和背景分类器，以确定二进制对象本地化掩码。我们的B-CAM可以基于提出的错开分类损失以端到端的方式培训，这不仅可以改善对象本地化，而且还抑制了背景激活。实验表明，我们的B-CAM在Cub-200，OpenImages和VOC2012数据集上优于一级WSOL方法。

translated by 谷歌翻译

ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases

Xiaosong Wang , Yifan Peng , Le Lu , Zhiyong Lu , Mohammadhadi Bagheri , Ronald M. Summers

分类：

2017-05-05

The chest X-ray is one of the most commonly accessible radiological examinations for screening and diagnosis of many lung diseases. A tremendous number of X-ray imaging studies accompanied by radiological reports are accumulated and stored in many modern hospitals' Picture Archiving and Communication Systems (PACS). On the other side, it is still an open question how this type of hospital-size knowledge database containing invaluable imaging informatics (i.e., loosely labeled) can be used to facilitate the data-hungry deep learning paradigms in building truly large-scale high precision computer-aided diagnosis (CAD) systems.In this paper, we present a new chest X-ray database, namely "ChestX-ray8", which comprises 108,948 frontalview X-ray images of 32,717 unique patients with the textmined eight disease image labels (where each image can have multi-labels), from the associated radiological reports using natural language processing. Importantly, we demonstrate that these commonly occurring thoracic diseases can be detected and even spatially-located via a unified weaklysupervised multi-label image classification and disease localization framework, which is validated using our proposed dataset. Although the initial quantitative results are promising as reported, deep convolutional neural network based "reading chest X-rays" (i.e., recognizing and locating the common disease patterns trained with only image-level labels) remains a strenuous task for fully-automated high precision CAD systems.

translated by 谷歌翻译

Background Activation Suppression for Weakly Supervised Object Localization

Pingyu Wu , Wei Zhai , Yang Cao

分类：计算机视觉

2021-12-01

弱监督对象本地化（WSOL）旨在仅使用图像级标签作为监控本地化对象区域。最近，通过生成前景预测映射（FPM）来实现新的范例来实现本地化任务。现有的基于FPM的方法使用跨熵（CE）来评估前景预测映射并引导发电机的学习。我们争辩使用激活值来实现更高效的学习。它基于实验观察，对于培训的网络，CE当前景掩模仅覆盖物体区域的一部分时，CE会聚到零。虽然激活值增加，直到掩码扩展到对象边界，这表明可以通过使用激活值来学习更多对象区域。在本文中，我们提出了背景激活抑制（BAS）方法。具体地，设计激活地图约束模块（AMC）以通过抑制背景激活值来促进生成器的学习。同时，通过使用前景区域指导和区域约束，BAS可以学习对象的整个区域。此外，在推理阶段，我们考虑不同类别的预测映射，以获得最终的本地化结果。广泛的实验表明，BAS通过CUB-200-2011和ILSVRC数据集的基线方法实现了显着和一致的改进。

translated by 谷歌翻译

Weakly Supervised Semantic Segmentation via Progressive Patch Learning

Jinlong Li , Zequn Jie , Xu Wang , Yu Zhou , Xiaolin Wei , Lin Ma

分类：计算机视觉

2022-09-16

大多数现有的语义分割方法都以图像级类标签作为监督，高度依赖于从标准分类网络生成的初始类激活图（CAM）。在本文中，提出了一种新颖的“渐进贴片学习”方法，以改善分类的局部细节提取，从而更好地覆盖整个对象的凸轮，而不仅仅是在常规分类模型中获得的CAM中的最歧视区域。 “补丁学习”将特征映射破坏成贴片，并在最终聚合之前并行独立处理每个本地贴片。这样的机制强迫网络从分散的歧视性本地部分中找到弱信息，从而提高了本地细节的敏感性。 “渐进的补丁学习”进一步将特征破坏和补丁学习扩展到多层粒度。与多阶段优化策略合作，这种“渐进的补丁学习”机制隐式地为模型提供了跨不同位置粒状性的特征提取能力。作为隐式多粒性渐进式融合方法的替代方案，我们还提出了一种明确的方法，以同时将单个模型中不同粒度的特征融合，从而进一步增强了完整对象覆盖的凸轮质量。我们提出的方法在Pascal VOC 2012数据集上取得了出色的性能，例如，测试集中有69.6 $％miou），它超过了大多数现有的弱监督语义细分方法。代码将在此处公开提供，https://github.com/tyroneli/ppl_wsss。

translated by 谷歌翻译

Robust Weakly Supervised Learning for COVID-19 Recognition Using Multi-Center CT Images

Qinghao Ye , Yuan Gao , Weiping Ding , Zhangming Niu , Chengjia Wang , Yinghui Jiang , Minhao Wang , Evandro Fei Fang , Wade Menpes-Smith , Jun Xia

分类：计算机视觉 | 机器学习

2021-12-09

世界目前正在经历持续的传染病大流行病，该传染病是冠状病毒疾病2019（即covid-19），这是由严重的急性呼吸综合征冠状病毒2（SARS-COV-2）引起的。计算机断层扫描（CT）在评估感染的严重程度方面发挥着重要作用，并且还可用于识别这些症状和无症状的Covid-19载体。随着Covid-19患者的累积数量的激增，放射科医师越来越强调手动检查CT扫描。因此，自动化3D CT扫描识别工具的需求量高，因为手动分析对放射科医师耗时，并且它们的疲劳可能导致可能的误判。然而，由于位于不同医院的CT扫描仪的各种技术规范，CT图像的外观可能显着不同，导致许多自动图像识别方法的失败。因此，多域和多扫描仪研究的多域移位问题是不可能对可靠识别和可再现和客观诊断和预后至关重要的至关重要。在本文中，我们提出了Covid-19 CT扫描识别模型即Coronavirus信息融合和诊断网络（CIFD-NET），可以通过新的强大弱监督的学习范式有效地处理多域移位问题。与其他最先进的方法相比，我们的模型可以可靠，高效地解决CT扫描图像中不同外观的问题。

translated by 谷歌翻译

Explainable multiple abnormality classification of chest CT volumes with AxialNet and HiResCAM

Rachel Lea Draelos , Lawrence Carin

分类：计算机视觉 | 机器学习

2021-11-24

了解模型预测在医疗保健方面至关重要，以促进模型正确性的快速验证，并防止利用利用混淆变量的模型。我们介绍了体积医学图像中可解释的多种异常分类的挑战新任务，其中模型必须指示用于预测每个异常的区域。为了解决这项任务，我们提出了一个多实例学习卷积神经网络，AxialNet，允许识别每个异常的顶部切片。接下来我们将赫雷库姆纳入注意机制，识别子切片区域。我们证明，对于Axialnet，Hirescam的说明得到保证，以反映所用模型的位置，与Grad-Cam不同，有时突出不相关的位置。使用一种产生忠实解释的模型，我们旨在通过一种新颖的面具损失来改善模型的学习，利用赫克斯克姆和3D允许的区域来鼓励模型仅预测基于器官的异常，其中出现的异常。 3D允许的区域通过新方法，分区自动获得，其组合从放射学报告中提取的位置信息与通过形态图像处理获得的器官分割图。总体而言，我们提出了第一种模型，用于解释容量医学图像中的可解释的多异常预测，然后使用掩模损耗来实现36,316扫描的Rad-Chessct数据集中多个异常的器官定位提高33％，代表状态本领域。这项工作推进了胸部CT卷中多种异常模型的临床适用性。

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

RadFormer: Transformers with Global-Local Attention for Interpretable and Accurate Gallbladder Cancer Detection

Soumen Basu , Mayank Gupta , Pratyaksha Rana , Pankaj Gupta , Chetan Arora

分类：计算机视觉

2022-11-09

We propose a novel deep neural network architecture to learn interpretable representation for medical image analysis. Our architecture generates a global attention for region of interest, and then learns bag of words style deep feature embeddings with local attention. The global, and local feature maps are combined using a contemporary transformer architecture for highly accurate Gallbladder Cancer (GBC) detection from Ultrasound (USG) images. Our experiments indicate that the detection accuracy of our model beats even human radiologists, and advocates its use as the second reader for GBC diagnosis. Bag of words embeddings allow our model to be probed for generating interpretable explanations for GBC detection consistent with the ones reported in medical literature. We show that the proposed model not only helps understand decisions of neural network models but also aids in discovery of new visual features relevant to the diagnosis of GBC. Source-code and model will be available at https://github.com/sbasu276/RadFormer

translated by 谷歌翻译

Multi-scale alignment and Spatial ROI Module for COVID-19 Diagnosis

Hongyan Xu , Dadong Wang , Arcot Sowmya

分类：计算机视觉 | 机器学习

2022-07-04

自首次报道以来，2019年冠状病毒病（Covid-19）已在全球范围内传播，并成为人类面临的健康危机。放射学成像技术，例如计算机断层扫描（CT）和胸部X射线成像（CXR）是诊断CoVID-19的有效工具。但是，在CT和CXR图像中，感染区域仅占据图像的一小部分。一些整合大规模接受场的常见深度学习方法可能会导致图像细节的丢失，从而导致省略了COVID-19图像中感兴趣区域（ROI），因此不适合进一步处理。为此，我们提出了一个深空金字塔池（D-SPP）模块，以在不同的分辨率上整合上下文信息，旨在有效地在COVID-19的不同尺度下提取信息。此外，我们提出了COVID-19感染检测（CID）模块，以引起人们对病变区域的注意，并从无关信息中消除干扰。在四个CT和CXR数据集上进行的广泛实验表明，我们的方法在检测CT和CXR图像中检测COVID-19病变的准确性更高。它可以用作计算机辅助诊断工具，以帮助医生有效地诊断和筛选COVID-19。

translated by 谷歌翻译

Learning to Detect Semantic Boundaries with Image-level Class Labels

Namyup Kim , Sehyun Hwang , Suha Kwak

分类：计算机视觉 | 人工智能

2022-12-15

This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.

translated by 谷歌翻译

Diagnose Like a Radiologist: Hybrid Neuro-Probabilistic Reasoning for Attribute-Based Medical Image Diagnosis

Gangming Zhao , Quanlong Feng , Chaoqi Chen , Zhen Zhou , Yizhou Yu

分类：计算机视觉

2022-08-19

在临床实践中，放射科医生经常使用属性，例如病变的形态学和外观特征，以帮助疾病诊断。有效地建模属性以及所有涉及属性的关系可以提高医学图像诊断算法的概括能力和可验证性。在本文中，我们介绍了一种用于基于可验证属性的医学图像诊断的混合神经培养基推理算法。在我们的混合算法中，有两个平行分支，一个贝叶斯网络分支执行概率因果关系推理，图形卷积网络分支执行了使用特征表示的更通用的关系建模和推理。这两个分支之间的紧密耦合是通过跨网络注意机制及其分类结果的融合来实现的。我们已成功地将混合推理算法应用于两个具有挑战性的医学图像诊断任务。在LIDC-IDRI基准数据集上，用于CT图像中肺结核的良性恶性分类，我们的方法达到了95.36 \％的新最新精度，AUC为96.54 \％。我们的方法还可以在内部胸部X射线图像数据集上提高3.24 \％的精度，以诊断结核病。我们的消融研究表明，在非常有限的培训数据下，与纯神经网络体系结构相比，我们的混合算法的概括性能要好得多。

translated by 谷歌翻译

One-Stage Cascade Refinement Networks for Infrared Small Target Detection

Yimian Dai , Xiang Li , Fei Zhou , Yulei Qian , Yaohong Chen , Jian Yang

分类：计算机视觉

2022-12-16

Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.

translated by 谷歌翻译

Cross-Image Region Mining with Region Prototypical Network for Weakly Supervised Segmentation

Weide Liu , Xiangfei Kong , Tzu-Yi Hung , Guosheng Lin

分类：计算机视觉

2021-08-17

经过图像级标签训练的弱监督图像分割通常在伪地面上的生成期间因物体区域的覆盖率不准确。这是因为对象激活图受到分类目标的训练，并且缺乏概括的能力。为了提高客观激活图的一般性，我们提出了一个区域原型网络RPNET来探索训练集的跨图像对象多样性。通过区域特征比较确定了跨图像的相似对象零件。区域之间传播对象信心，以发现新的对象区域，同时抑制了背景区域。实验表明，该提出的方法会生成更完整和准确的伪对象掩模，同时在Pascal VOC 2012和MS Coco上实现最先进的性能。此外，我们研究了提出的方法在减少训练集方面的鲁棒性。

translated by 谷歌翻译

SpineOne: A One-Stage Detection Framework for Degenerative Discs and Vertebrae

Jiabo He , Wei Liu , Yu Wang , Xingjun Ma , Xian-Sheng Hua

分类：计算机视觉

2021-10-28

脊柱退化困扰着许多长老，办公室工作者，甚至是年轻世代。有效的药剂或外科干预措施可以帮助缓解退行性脊柱条件。然而，传统的诊断程序往往太费力了。临床专家需要从脊柱磁共振成像（MRI）或计算机断层扫描（CT）图像中检测椎间盘和椎骨作为进行病理诊断或术前评价的初步步骤。已经开发了机器学习系统，以帮助这一程序通常在两级方法之后：首先进行解剖定位，然后进行病理分类。为了更高效和准确的诊断，我们提出了一种单阶段检测框架，称为Spineone，同时定位和分类来自MRI切片的退化椎间盘和椎骨。脊柱内置于以下三个关键技术：1）Keypoint Heatmap的新设计，以促进同时关键点本地化和分类; 2）使用注意力模块更好地区分光盘和椎骨之间的表示; 3）一种新颖的梯度引导的客观协会机制，将多个学习目标与后来的培训阶段相关联。脊髓疾病智能诊断的经验结果Tianchi竞争（SDID-TC）550考试的数据集表明，我们的方法通过大幅度超越现有方法。

translated by 谷歌翻译