智能论文笔记

Diagnose Like a Radiologist: Hybrid Neuro-Probabilistic Reasoning for Attribute-Based Medical Image Diagnosis

Gangming Zhao , Quanlong Feng , Chaoqi Chen , Zhen Zhou , Yizhou Yu

分类：计算机视觉

2022-08-19

在临床实践中，放射科医生经常使用属性，例如病变的形态学和外观特征，以帮助疾病诊断。有效地建模属性以及所有涉及属性的关系可以提高医学图像诊断算法的概括能力和可验证性。在本文中，我们介绍了一种用于基于可验证属性的医学图像诊断的混合神经培养基推理算法。在我们的混合算法中，有两个平行分支，一个贝叶斯网络分支执行概率因果关系推理，图形卷积网络分支执行了使用特征表示的更通用的关系建模和推理。这两个分支之间的紧密耦合是通过跨网络注意机制及其分类结果的融合来实现的。我们已成功地将混合推理算法应用于两个具有挑战性的医学图像诊断任务。在LIDC-IDRI基准数据集上，用于CT图像中肺结核的良性恶性分类，我们的方法达到了95.36 \％的新最新精度，AUC为96.54 \％。我们的方法还可以在内部胸部X射线图像数据集上提高3.24 \％的精度，以诊断结核病。我们的消融研究表明，在非常有限的培训数据下，与纯神经网络体系结构相比，我们的混合算法的概括性能要好得多。

translated by 谷歌翻译

Graph-Based Intercategory and Intermodality Network for Multilabel Classification and Melanoma Diagnosis of Skin Lesions in Dermoscopy and Clinical Images

Xiaohang Fu , Lei Bi , Ashnil Kumar , Michael Fulham , Jinman Kim

分类：计算机视觉

2021-04-01

黑色素瘤的鉴定涉及使用临床和Dermoscopy模式获得的皮肤病变图像的综合分析。 Dermospopic图像提供了补充宏观临床图像的地下视觉结构的详细视图。黑色素瘤诊断通常基于7点视觉类别清单（7PC）。 7PC包含可以帮助分类的类别之间的内在关系，例如共享特征，相关性以及类别对诊断的贡献。手动分类是主观的，容易出现和interobserver变异性。这为改善诊断的自动化方法提供了机会。目前的最先进方法侧重于单个图像模态并忽略另一个图像，或者不完全利用两种方式的互补信息。此外，没有一种方法来利用7PC中的interCategory关系。在这项研究中，我们通过提出具有两个模块的基于图形的InterCategory和帧间性网络（GIIN）来解决这些问题。基于图形的关系模块（GRM）利用基间关系，多语句关系，并通过在图形网络中编码类别表示来利用Dermicoctop的视觉结构细节。嵌入学习模块（CELM）的类别捕获每个类别专门的表示并支持GRM。我们表明我们的模块在使用Dermoscopy临床图像的公共数据集中增强分类性能，并表明我们的方法在分类7PC类别和诊断时表现出最先进的。

translated by 谷歌翻译

Anatomy-XNet: An Anatomy Aware Convolutional Neural Network for Thoracic Disease Classification in Chest X-rays

Uday Kamal , Mohammad Zunaed , Nusrat Binta Nizam , Taufiq Hasan

分类：计算机视觉 | 机器学习

2021-06-10

在过去的十年中，使用深度学习方法从胸部X光片检测到胸部X光片是一个活跃的研究领域。大多数以前的方法试图通过识别负责对模型预测的重要贡献的空间区域来关注图像的患病器官。相比之下，专家放射科医生在确定这些区域是否异常之前首先找到突出的解剖结构。因此，将解剖学知识纳入深度学习模型可能会带来自动疾病分类的大幅改善。在此激励的情况下，我们提出了解剖学XNET，这是一种基于解剖学注意的胸腔疾病分类网络，该网络优先考虑由预识别的解剖区域引导的空间特征。我们通过利用可用的小规模器官级注释来采用半监督的学习方法，将解剖区域定位在没有器官级注释的大规模数据集中。拟议的解剖学XNET使用预先训练的Densenet-121作为骨干网络，具有两个相应的结构化模块，解剖学意识到（$^3 $）和概率加权平均池（PWAP），在凝聚力框架中引起解剖学的关注学习。我们通过实验表明，我们提出的方法通过在三个公开可用的大规模CXR数据集中获得85.78％，92.07％和84.04％的AUC得分来设置新的最先进基准测试。和模拟CXR。这不仅证明了利用解剖学分割知识来改善胸病疾病分类的功效，而且还证明了所提出的框架的普遍性。

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

Learning Hierarchical Attention for Weakly-supervised Chest X-Ray Abnormality Localization and Diagnosis

Xi Ouyang , Srikrishna Karanam , Ziyan Wu , Terrence Chen , Jiayu Huo , Xiang Sean Zhou , Qian Wang , Jie-Zhi Cheng

分类：计算机视觉

2021-12-23

我们考虑临床应用异常定位问题。虽然深入学习推动了最近的医学成像进展，但许多临床挑战都没有完全解决，限制了其更广泛的使用。虽然最近的方法报告了高的诊断准确性，但医生因普遍缺乏算法决策和解释性而涉及诊断决策的这些算法，这是关注这些算法。解决这个问题的一种潜在方法是进一步培训这些模型，以便除了分类它们之外，除了分类。然而，准确地进行这一临床专家需要大量的疾病定位注释，这是对大多数应用程序来实现昂贵的任务。在这项工作中，我们通过一种新的注意力弱监督算法来解决这些问题，该弱势监督算法包括分层关注挖掘框架，可以以整体方式统一激活和基于梯度的视觉关注。我们的关键算法创新包括明确序号注意约束的设计，实现了以弱监督的方式实现了原则的模型培训，同时还通过本地化线索促进了产生视觉关注驱动的模型解释。在两个大型胸部X射线数据集（NIH Chescx-Ray14和Chexpert）上，我们展示了对现有技术的显着本地化性能，同时也实现了竞争的分类性能。我们的代码可在https://github.com/oyxhust/ham上找到。

translated by 谷歌翻译

Robust Weakly Supervised Learning for COVID-19 Recognition Using Multi-Center CT Images

Qinghao Ye , Yuan Gao , Weiping Ding , Zhangming Niu , Chengjia Wang , Yinghui Jiang , Minhao Wang , Evandro Fei Fang , Wade Menpes-Smith , Jun Xia

分类：计算机视觉 | 机器学习

2021-12-09

世界目前正在经历持续的传染病大流行病，该传染病是冠状病毒疾病2019（即covid-19），这是由严重的急性呼吸综合征冠状病毒2（SARS-COV-2）引起的。计算机断层扫描（CT）在评估感染的严重程度方面发挥着重要作用，并且还可用于识别这些症状和无症状的Covid-19载体。随着Covid-19患者的累积数量的激增，放射科医师越来越强调手动检查CT扫描。因此，自动化3D CT扫描识别工具的需求量高，因为手动分析对放射科医师耗时，并且它们的疲劳可能导致可能的误判。然而，由于位于不同医院的CT扫描仪的各种技术规范，CT图像的外观可能显着不同，导致许多自动图像识别方法的失败。因此，多域和多扫描仪研究的多域移位问题是不可能对可靠识别和可再现和客观诊断和预后至关重要的至关重要。在本文中，我们提出了Covid-19 CT扫描识别模型即Coronavirus信息融合和诊断网络（CIFD-NET），可以通过新的强大弱监督的学习范式有效地处理多域移位问题。与其他最先进的方法相比，我们的模型可以可靠，高效地解决CT扫描图像中不同外观的问题。

translated by 谷歌翻译

Neuro-Symbolic Learning: Principles and Applications in Ophthalmology

Muhammad Hassan , Haifei Guan , Aikaterini Melliou , Yuqi Wang , Qianhui Sun , Sen Zeng , Wen Liang , Yiwei Zhang , Ziheng Zhang , Qiuyue Hu

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-31

近年来，随着新颖的策略和应用，神经网络一直在迅速扩展。然而，尽管不可避免地会针对关键应用程序来解决这些挑战，例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此，出现了神经符号学习（Nesyl）概念，其中结合了符号表示的各个方面，并将常识带入神经网络（Nesyl）。在可解释性，推理和解释性至关重要的领域中，例如视频和图像字幕，提问和推理，健康信息学和基因组学，Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查，其原理，机器和深度学习算法的进步，诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。

translated by 谷歌翻译

Deeply Supervised Layer Selective Attention Network: Towards Label-Efficient Learning for Medical Image Classification

Peng Jiang , Juan Liu , Lang Wang , Zhihui Ynag , Hongyu Dong , Jing Feng

分类：计算机视觉

2022-09-28

标记医学图像取决于专业知识，因此很难在短时间内以高质量获取大量注释的医学图像。因此，在小型数据集中充分利用有限标记的样品来构建高性能模型是医疗图像分类问题的关键。在本文中，我们提出了一个深入监督的层选择性注意网络（LSANET），该网络全面使用功能级和预测级监督中的标签信息。对于特征级别的监督，为了更好地融合低级功能和高级功能，我们提出了一个新颖的视觉注意模块，层选择性注意（LSA），以专注于不同层的特征选择。 LSA引入了一种权重分配方案，该方案可以在整个训练过程中动态调整每个辅助分支的加权因子，以进一步增强深入监督的学习并确保其概括。对于预测级的监督，我们采用知识协同策略，通过成对知识匹配来促进所有监督分支之间的层次信息互动。使用公共数据集MedMnist，这是用于涵盖多种医学专业的生物医学图像分类的大规模基准，我们评估了LSANET在多个主流CNN体系结构和各种视觉注意模块上评估。实验结果表明，我们所提出的方法对其相应的对应物进行了实质性改进，这表明LSANET可以为医学图像分类领域的标签有效学习提供有希望的解决方案。

translated by 谷歌翻译

Advancing 3D Medical Image Analysis with Variable Dimension Transform based Supervised 3D Pre-training

Shu Zhang , Zihao Li , Hong-Yu Zhou , Jiechao Ma , Yizhou Yu

分类：计算机视觉

2022-01-05

数据采集和注释中的困难基本上限制了3D医学成像应用的训练数据集的样本尺寸。结果，在没有足够的预训练参数的情况下，构建来自划痕的高性能3D卷积神经网络仍然是一项艰巨的任务。以前关于3D预培训的努力经常依赖于自我监督的方法，它在未标记的数据上使用预测或对比学习来构建不变的3D表示。然而，由于大规模监督信息的不可用，从这些学习框架获得语义不变和歧视性表示仍然存在问题。在本文中，我们重新审视了一种创新但简单的完全监督的3D网络预训练框架，以利用来自大型2D自然图像数据集的语义监督。通过重新设计的3D网络架构，重新设计的自然图像用于解决数据稀缺问题并开发强大的3D表示。四个基准数据集上的综合实验表明，所提出的预先接受的模型可以有效地加速收敛，同时还提高了各种3D医学成像任务，例如分类，分割和检测的准确性。此外，与从头划伤的训练相比，它可以节省高达60％的注释工作。在NIH Deeplesion数据集上，它同样地实现了最先进的检测性能，优于早期的自我监督和完全监督的预训练方法，以及从头训练进行培训的方法。为了促进3D医疗模型的进一步发展，我们的代码和预先接受的模型权重在https://github.com/urmagicsmine/cspr上公开使用。

translated by 谷歌翻译

Computer-aided Tuberculosis Diagnosis with Attribute Reasoning Assistance

Chengwei Pan , Gangming Zhao , Junjie Fang , Baolian Qi , Jiaheng Liu , Chaowei Fang , Dingwen Zhang , Jinpeng Li , Yizhou Yu

分类：计算机视觉

2022-07-01

尽管深入学习算法已被深入开发用于计算机辅助结核病诊断（CTD），但它们主要依赖于精心注释的数据集，从而导致了大量时间和资源消耗。弱监督的学习（WSL）利用粗粒标签来完成精细的任务，具有解决此问题的潜力。在本文中，我们首先提出了一个新的大规模结核病（TB）胸部X射线数据集，即结核病胸部X射线属性数据集（TBX-ATT），然后建立一个属性辅助的弱点监督的框架来分类并通过利用属性信息来克服WSL方案中的监督不足来定位结核病。具体而言，首先，TBX-ATT数据集包含2000个X射线图像，其中具有七种用于TB关系推理的属性，这些属性由经验丰富的放射科医生注释。它还包括带有11200 X射线图像的公共TBX11K数据集，以促进弱监督检测。其次，我们利用一个多尺度特征交互模型，用于TB区域分类和属性关系推理检测。在TBX-ATT数据集上评估了所提出的模型，并将作为未来研究的稳固基准。代码和数据将在https://github.com/gangmingzhao/tb-attribute-weak-localization上获得。

translated by 谷歌翻译

How GNNs Facilitate CNNs in Mining Geometric Information from Large-Scale Medical Images

Yiqing Shen , Bingxin Zhou , Xinye Xiong , Ruitian Gao , Yu Guang Wang

分类：计算机视觉

2022-06-15

Gigapixel Medical图像提供了大量的数据，包括形态学纹理和空间信息。由于组织学的数据量表较大，深度学习方法作为特征提取器起着越来越重要的作用。现有的解决方案在很大程度上依赖卷积神经网络（CNN）进行全局像素级分析，从而使潜在的局部几何结构（例如肿瘤微环境中的细胞之间的相互作用均未探索。事实证明，医学图像中的拓扑结构与肿瘤进化密切相关，可以很好地表征图。为了获得下游肿瘤学任务的更全面的表示，我们提出了一个融合框架，以增强CNN捕获的全局图像级表示，并使用图形神经网络（GNN）学习的细胞级空间信息的几何形状。融合层优化了全局图像和单元图的协作特征之间的集成。已经开发了两种融合策略：一种具有MLP的融合策略，这很简单，但通过微调而有效，而Transformer获得了融合多个网络的冠军。我们评估了从大型患者群体和胃癌策划的组织学数据集中的融合策略，以完成三个生物标志物预测任务。两种型号的表现都优于普通CNN或GNN，在各种网络骨架上达到了超过5％的AUC提高。实验结果在医学图像分析中将图像水平的形态特征与细胞空间关系相结合的必要性。代码可在https://github.com/yiqings/hegnnenhancecnn上找到。

translated by 谷歌翻译

Modality specific U-Net variants for biomedical image segmentation: A survey

Narinder Singh Punn , Sonali Agarwal

分类：计算机视觉

2021-07-09

随着深度学习方法的进步，如深度卷积神经网络，残余神经网络，对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割，以解决目标区域或子区域的识别和检测的自动化。在最近的研究中，基于U-Net的方法在不同应用中显示了最先进的性能，以便在脑肿瘤，肺癌，阿尔茨海默，乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等，使用各种方式。本文通过描述U-Net框架来提出这些方法的成功，然后通过执行1）型号的U-Net变体进行综合分析，2）模特内分类，建立更好的见解相关的挑战和解决方案。此外，本文还强调了基于U-Net框架在持续的大流行病，严重急性呼吸综合征冠状病毒2（SARS-COV-2）中的贡献也称为Covid-19。最后，分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战，以发现该领域的未来未来的研究方向。

translated by 谷歌翻译

Deep Multi-Scale Resemblance Network for the Sub-class Differentiation of Adrenal Masses on Computed Tomography Images

Lei Bi , Jinman Kim , Tingwei Su , Michael Fulham , David Dagan Feng , Guang Ning

分类：计算机视觉

2020-07-29

通过计算机断层扫描（CT）检测到的肾上腺（肾上腺肿块）中肿块病变的准确分类对于诊断和患者管理很重要。肾上腺肿块可能是良性或恶性肿瘤，良性肿块的患病率有所不同。基于卷积神经网络（CNN）的分类方法是最大程度地提高大型医学成像训练数据集中阶层差异的最新方法。由于质量病变的大小，CNN的应用，在肾上腺肿块上的应用是具有挑战性的，这是具有挑战性的。我们开发了一个深度的多尺度相似网络（DMRN），以克服这些局限性，并杠杆配对的CNN来评估阶层内相似性。我们使用多尺度功能嵌入来改善类间的可分离性，通过迭代地组合在输入的不同尺度上产生的互补信息以创建结构化特征描述符。我们用随机采样的配对肾上腺肿块增强了训练数据，以减少训练数据不平衡的影响。我们使用229张CT扫描肾上腺肿块患者进行评估。在五倍的交叉验证中，与最先进的方法相比，我们的方法的结果最好（准确性89.52％）（p <0.05）。我们对ImageClef 2016竞赛数据集进行了医学子图分类的竞争数据集进行了普遍分析，该数据集由30个类别的6,776张图像和4,166张图像组成的培训集组成。与现有方法相比，我们的方法获得了更好的分类性能（精度为85.90％），并且与需要额外培训数据的方法相比（准确性降低1.47％）相比具有竞争力。我们在CT上的DMRN亚分类肾上腺肿块，优于最先进的方法。

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

The Prominence of Artificial Intelligence in COVID-19

MD Abdullah Al Nasim , Aditi Dhali , Faria Afrin , Noshin Tasnim Zaman , Nazmul Karim

分类：机器学习 | 人工智能

2021-11-18

2019年12月，一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展，但技术也证明了在战斗中的重要性。此外，许多医疗应用中已采用人工智能，以诊断许多疾病，甚至陷入困境的经验丰富的医生。因此，本调查纸探讨了提议的方法，可以提前援助医生和研究人员，廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试，但机器和深度学习可以采用显着的方式。另一方面，对不同类型的医学图像的访问已经激励了研究人员。结果，提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后，我们会收集常用的数据集及其用例日期。此外，我们还显示了采用深入学习的机器学习的研究人员的百分比。因此，我们对这种情况进行了彻底的分析。最后，在研究挑战中，我们详细阐述了Covid-19研究中面临的问题，我们解决了我们的理解，以建立一个明亮健康的环境。

translated by 谷歌翻译

Generalized Radiograph Representation Learning via Cross-supervision between Images and Free-text Radiology Reports

Hong-Yu Zhou , Xiaoyu Chen , Yinghao Zhang , Ruibang Luo , Liansheng Wang , Yizhou Yu

分类：计算机视觉 | 机器学习

2021-11-04

预训练为深入学习支持的X线射线分析中最近的成功奠定了基础。它通过在源域上进行大规模完全监督或自我监督的学习来学习可转移的图像表示。然而，监督的预培训需要复杂和劳动密集的两级人类辅助注释过程，而自我监督的学习不能与监督范例竞争。为了解决这些问题，我们提出了一个跨监督的方法，命名为审查监督（指的）的自由文本报告，该报告从射线照相中获取来自原始放射学报告的自由监督信号。该方法采用了视觉变压器，旨在从每个患者研究中的多种视图中学习联合表示。在极其有限的监督下，引用其在4个众所周知的X射线数据集上的转移学习和自我监督学习对应。此外，甚至是基于具有人辅助结构标签的射线照相的源区的甚至超越方法。因此，有可能取代规范的预训练方法。

translated by 谷歌翻译

Human Treelike Tubular Structure Segmentation: A Comprehensive Review and Future Perspectives

Hao Li , Zeyu Tang , Yang Nan , Guang Yang

分类：计算机视觉 | 机器学习

2022-07-12

人类生理学中的各种结构遵循特异性形态，通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道，视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像（MRI），计算机断层扫描（CT），光学相干断层扫描（OCT）等医学成像模式（MRI），计算机断层扫描（CT），可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要，因为对结构的分析提供了对疾病诊断，治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果，在过去的二十年中，自动化或半自动化的计算模型已成为医学成像的流行研究领域，迄今为止，许多计算模型已经开发出来。在这项调查中，我们旨在对当前公开可用的数据集，细分算法和评估指标进行全面审查。此外，讨论了当前的挑战和未来的研究方向。

translated by 谷歌翻译

Boundary Guided Semantic Learning for Real-time COVID-19 Lung Infection Segmentation System

Runmin Cong , Yumo Zhang , Ning Yang , Haisheng Li , Xueqi Zhang , Ruochen Li , Zewen Chen , Yao Zhao , Sam Kwong

分类：计算机视觉

2022-09-07

尽管已经开发了疫苗，并且国家疫苗接种率正在稳步提高，但2019年冠状病毒病（COVID-19）仍对世界各地的医疗保健系统产生负面影响。在当前阶段，从CT图像中自动分割肺部感染区域对于诊断和治疗COVID-19至关重要。得益于深度学习技术的发展，已经提出了一些针对肺部感染细分的深度学习解决方案。但是，由于分布分布，复杂的背景干扰和界限模糊，现有模型的准确性和完整性仍然不令人满意。为此，我们在本文中提出了一个边界引导的语义学习网络（BSNET）。一方面，结合顶级语义保存和渐进式语义集成的双分支语义增强模块旨在建模不同的高级特征之间的互补关系，从而促进产生更完整的分割结果。另一方面，提出了镜像对称边界引导模块，以以镜像对称方式准确检测病变区域的边界。公开可用数据集的实验表明，我们的BSNET优于现有的最新竞争对手，并实现了44 fps的实时推理速度。

translated by 谷歌翻译

Scene Graph Generation: A Comprehensive Survey

Guangming Zhu , Liang Zhang , Youliang Jiang , Yixuan Dang , Haoran Hou , Peiyi Shen , Mingtao Feng , Xia Zhao , Qiguang Miao , Syed Afaq Ali Shah

分类：计算机视觉

2022-01-03

深度学习技术导致了通用对象检测领域的显着突破，近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解，场景图一直是研究的焦点。场景图生成（SGG）是指自动将图像映射到语义结构场景图中的任务，这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务，但社区已经提出了许多SGG方法并取得了良好的效果。在本文中，我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品，涵盖了不同的输入方式，并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法，概述和解释SGG的机制和策略。最后，我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。

translated by 谷歌翻译

RadFormer: Transformers with Global-Local Attention for Interpretable and Accurate Gallbladder Cancer Detection

Soumen Basu , Mayank Gupta , Pratyaksha Rana , Pankaj Gupta , Chetan Arora

分类：计算机视觉

2022-11-09

We propose a novel deep neural network architecture to learn interpretable representation for medical image analysis. Our architecture generates a global attention for region of interest, and then learns bag of words style deep feature embeddings with local attention. The global, and local feature maps are combined using a contemporary transformer architecture for highly accurate Gallbladder Cancer (GBC) detection from Ultrasound (USG) images. Our experiments indicate that the detection accuracy of our model beats even human radiologists, and advocates its use as the second reader for GBC diagnosis. Bag of words embeddings allow our model to be probed for generating interpretable explanations for GBC detection consistent with the ones reported in medical literature. We show that the proposed model not only helps understand decisions of neural network models but also aids in discovery of new visual features relevant to the diagnosis of GBC. Source-code and model will be available at https://github.com/sbasu276/RadFormer

translated by 谷歌翻译