自动临床标题生成问题被称为建议模型,将额叶X射线扫描与放射学记录中的结构化患者信息结合在一起。我们将两种语言模型结合在一起,即表演 - 泰尔和GPT-3,以生成全面和描述性的放射学记录。这些模型的建议组合产生了文本摘要,其中包含有关发现的病理,其位置以及将每个病理定位在原始X射线扫描中的每个病理的2D热图。提出的模型在两个医学数据集(Open-I,Mimic-CXR和通用MS-Coco)上进行了测试。用自然语言评估指标测量的结果证明了它们对胸部X射线图像字幕的有效适用性。
translated by 谷歌翻译
从X射线图像中自动生成医疗报告可以帮助放射科医生执行耗时但重要的报告任务。然而,实现临床准确的生成报告仍然具有挑战性。发现使用知识图方法对潜在异常进行建模有望在提高临床准确性方面。在本文中,我们介绍了一种新型的罚款颗粒知识图结构,称为属性异常图(ATAG)。 ATAG由互连的异常节点和属性节点组成,使其可以更好地捕获异常细节。与手动构建异常图的现有方法相反,我们提出了一种方法,以根据注释,X射线数据集中的医疗报告和Radlex放射线词典自动构建细粒度的图形结构。然后,我们将使用深层模型与用编码器架构结构进行报告的ATAG嵌入。特别是,探索了图表网络以编码异常及其属性之间的关系。采用门控机制并将其与各种解码器整合在一起。我们根据基准数据集进行了广泛的实验,并表明基于ATAG的深层模型优于SOTA方法,并可以提高生成报告的临床准确性。
translated by 谷歌翻译
自动在自然语言中自动生成图像的描述称为图像字幕。这是一个积极的研究主题,位于人工智能,计算机视觉和自然语言处理中两个主要领域的交集。图像字幕是图像理解中的重要挑战之一,因为它不仅需要识别图像中的显着对象,还需要其属性及其相互作用的方式。然后,系统必须生成句法和语义上正确的标题,该标题描述了自然语言的图像内容。鉴于深度学习模型的重大进展及其有效编码大量图像并生成正确句子的能力,最近已经提出了几种基于神经的字幕方法,每种方法都试图达到更好的准确性和标题质量。本文介绍了一个基于编码器的图像字幕系统,其中编码器使用以RESNET-101作为骨干为骨干来提取图像中每个区域的空间和全局特征。此阶段之后是一个精致的模型,该模型使用注意力进行注意的机制来提取目标图像对象的视觉特征,然后确定其相互作用。解码器由一个基于注意力的复发模块和一个反思性注意模块组成,该模块会协作地将注意力应用于视觉和文本特征,以增强解码器对长期顺序依赖性建模的能力。在两个基准数据集(MSCOCO和FLICKR30K)上进行的广泛实验显示了提出的方法和生成的字幕的高质量。
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
大多数深度学习算法都缺乏对其预测的解释,这限制了其在临床实践中的部署。改善解释性的方法,尤其是在医学成像中,经常被证明可以传达有限的信息,过于放心或缺乏健壮性。在这项工作中,我们介绍了生成自然语言解释(NLE)的任务,以证明对医学图像的预测是合理的。NLE是人类友好且全面的,并能够培训本质上可解释的模型。为了实现这一目标,我们介绍了模仿 - nle,这是带有NLE的第一个大规模的医学成像数据集。它包含超过38,000个NLE,可以解释各种胸部病理和胸部X射线检查结果。我们提出了一种解决任务并评估该数据集中的几个架构的一般方法,包括通过临床医生评估。
translated by 谷歌翻译
自动放射学报告生成在诊所至关重要,可以缓解来自繁重的工作量的经验丰富的放射科医师,并提醒缺乏误诊或错过诊断的缺乏经验的放射科学家。现有方法主要将放射学报告生成作为图像标题任务,采用编码器解码器框架。但是,在医学领域,这种纯数据驱动方法遭受以下问题:1)视觉和文本偏差问题; 2)缺乏专家知识。在本文中,我们提出了一种知识增强的放射学报告生成方法,介绍了两种类型的医学知识:1)一般知识,这是输入的独立知识,并为报告生成提供了广泛的知识; 2)特定知识,其输入依赖并为报告生成提供了细粒度的知识。为了充分利用一般和具体知识,我们还提出了一种知识增强的多主题注意机制。通过利用一般知识和特定知识来利用放射线图像的视觉特征,所提出的模型可以提高所生成的报告的质量。两种公共数据集IU-X射线和模拟CXR的实验结果表明,所提出的知识增强方法优于基于最先进的图像标题的方法。消融研究还表明,一般和具体知识都可以有助于提高放射学报告生成的表现。
translated by 谷歌翻译
医疗报告生成,旨在自动产生对特定医学形象的长期和连贯的报告,一直受到越来越多的研究兴趣。现有方法主要采用受监督的方式和大量依赖耦合图像报告对。但是,在医疗领域,建立大规模的图像报告配对数据集既耗时又昂贵。为了放宽对配对数据的依赖性,我们提出了一个无人监督的模型知识图形自动编码器(KGAE),它接受独立的图像集和报告。 KGAE由预构建的知识图形,知识驱动的编码器和知识驱动的解码器组成。知识图形作为桥接视觉和文本域的共享潜在空间;知识驱动的编码器将医学图像和报告报告到该潜在空间中的相应坐标,并且知识驱动的解码器在此空间中给出了坐标的医疗报告。由于知识驱动的编码器和解码器可以用独立的图像和报告培训,因此kgae是无监督的。实验表明,未经审计的KGAE在不使用任何图像报告培训对的情况下产生所需的医疗报告。此外,KGAE还可以在半监督和监督的环境中工作,并在培训中接受配对图像和报告。通过使用图像报告对进行进一步微调,KGAE始终如一地优于两个数据集上的当前最先进的模型。
translated by 谷歌翻译
在诊所,放射学报告对于指导患者的治疗至关重要。不幸的是,报告写作对放射科医师造成了沉重的负担。为了有效地减少这种负担,在此提出了一种从胸部X射线的报告生成的自动,多模态方法。我们的方法,通过观察到放射学报告的描述与X射线图像高度相关,具有两个不同的模块:(i)学习知识库。为了吸收嵌入上述相关性的知识,我们根据文本嵌入自动构建知识库。 (ii)多模态对齐。为了促进报告,疾病标签和图像之间的语义对齐,我们明确地利用文本嵌入来指导视觉特征空间的学习。我们评估所提出的模型的表现,使用来自公共IU和模拟 - CXR数据集的自然语言生成和临床疗效。我们的消融研究表明,每个模块都有助于提高所生成的报告的质量。此外,借助两种模块,我们的方法显然优于最先进的方法。
translated by 谷歌翻译
每年医生对患者的基于形象的诊断需求越来越大,是最近的人工智能方法可以解决的问题。在这种情况下,我们在医学图像的自动报告领域进行了调查,重点是使用深神经网络的方法,了解:(1)数据集,(2)架构设计,(3)解释性和(4)评估指标。我们的调查确定了有趣的发展,也是留下挑战。其中,目前对生成的报告的评估尤为薄弱,因为它主要依赖于传统的自然语言处理(NLP)指标,这不准确地捕获医疗正确性。
translated by 谷歌翻译
使用深度学习对胸部射线照相的自动分析具有巨大的潜力,可以增强患者疾病的临床诊断。但是,深度学习模型通常需要大量的带注释的数据来实现高性能 - 通常是医疗领域适应的障碍。在本文中,我们构建了一个利用放射学报告来通过有限的标记数据(少于1000个示例)来改善医学图像分类性能,以提高医学图像分类性能。具体而言,我们检查了捕获图像预告片,以学习以更少的例子进行训练的高质量医学图像表示。在对卷积编码器和变压器解码器进行联合预测之后,我们将学习的编码器转移到各种分类任务中。平均9多种病理学,我们发现我们的模型在标记培训数据受到限制时,比参见和内域监督的预处理的分类性能更高。
translated by 谷歌翻译
放射学报告生成旨在产生计算机辅助诊断,以缓解放射科医生的工作量,并最近引起了越来越长的关注。然而,之前的深度学习方法倾向于忽视医学发现之间的相互影响,这可以是限制所生成的报告质量的瓶颈。在这项工作中,我们建议在信息知识图表中提出和代表医学发现的协会,并将此事先知识纳入放射学报告,以帮助提高所生成的报告质量。实验结果证明了我们在IU X射线数据集上的提出方法的优越性,Rouge-L为0.384 $ \ PM $ 0.007和0.340 $ \ PM $ 0.011。与以前的作品相比,我们的模型平均实现了1.6%(苹果酒和Rouge-L的增加2.0%和1.5%)。实验表明,先验知识可以为准确的放射学报告生成表现收益。我们将在https://github.com/bionlplab/report_generation_amia2022中公开公开可用的代码。
translated by 谷歌翻译
图像标题是自动生成句子的任务,以最好的方式生成描述输入图像。最近用于自动生成图像标题的最成功的技术最近使用了细心的深度学习模型。设计了深入学习模型的设计方式有变化。在本调查中,我们为图像标题的细心深度学习模型提供了相关的文献述评。而不是对深度图像标题模型的所有先前工作进行全面审查,我们解释了用于深度学习模型中的图像标题任务的各种类型的注意机制。用于图像标题的最成功的深度学习模型遵循编码器解码器架构,尽管这些模型采用注意机制的方式存在差异。通过分析图像标题的不同细节深层模型的性能结果,我们的目标是在图像标题中找到深度模型中最成功的注意机制。柔软的关注,自下而上的关注和多主题是一种广泛应用于图像标题的最先进的深度学习模型的关注机构的类型。在当前时,最佳结果是从多针关注的变体实现的,以自下而上的关注。
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
除了主要的诊断目的之外,放射学报告一直是医学研究中的宝贵信息来源。鉴于放射学报告的语料,研究人员往往有兴趣识别描述特定医疗发现的报告子集。由于放射学报告中的医学发现的空间是巨大的并且可能是无限的,最近的研究提出了在放射学报告中的自由文本陈述,从有限词汇中采取的半结构化串。本文旨在提出一种方法,用于自动生成放射学报告的半结构化表示。该方法包括匹配从放射学报告的句子来手动创建半结构化表示,然后学习序列到序列神经模型,将匹配的句子映射到它们的半结构化表示。我们在手动注释的胸部X射线放射学报告的Openi语料上进行了评估了所提出的方法。结果表明,所提出的方法优于几个基线,无论如何(1)诸如BLEU,RUEGE和流星等定量措施和放射科学家的定性判断。结果还表明,培训的模型对来自不同医疗提供者的胸X射线放射学报告的样本型语料库产生合理的半结构化表示。
translated by 谷歌翻译
深度学习的显着成功引起了人们对医学成像诊断的应用的兴趣。尽管最新的深度学习模型在分类不同类型的医学数据方面已经达到了人类水平的准确性,但这些模型在临床工作流程中几乎不采用,这主要是由于缺乏解释性。深度学习模型的黑盒子性提出了制定策略来解释这些模型的决策过程的必要性,从而导致了可解释的人工智能(XAI)主题的创建。在这种情况下,我们对应用于医学成像诊断的XAI进行了详尽的调查,包括视觉,基于示例和基于概念的解释方法。此外,这项工作回顾了现有的医学成像数据集和现有的指标,以评估解释的质量。此外,我们还包括一组基于报告生成的方法的性能比较。最后,还讨论了将XAI应用于医学成像以及有关该主题的未来研究指示的主要挑战。
translated by 谷歌翻译
Inspired by recent work in machine translation and object detection, we introduce an attention based model that automatically learns to describe the content of images. We describe how we can train this model in a deterministic manner using standard backpropagation techniques and stochastically by maximizing a variational lower bound. We also show through visualization how the model is able to automatically learn to fix its gaze on salient objects while generating the corresponding words in the output sequence. We validate the use of attention with state-of-theart performance on three benchmark datasets: Flickr8k, Flickr30k and MS COCO.
translated by 谷歌翻译
生物医学中的多模式数据遍布,例如放射学图像和报告。大规模解释这些数据对于改善临床护理和加速临床研究至关重要。与一般领域相比,具有复杂语义的生物医学文本在视觉建模中提出了其他挑战,并且先前的工作使用了缺乏特定领域语言理解的适应性模型不足。在本文中,我们表明,有原则的文本语义建模可以大大改善自我监督的视力 - 语言处理中的对比度学习。我们发布了一种实现最先进的语言模型,从而通过改进的词汇和新颖的语言预测客观的客观利用语义和话语特征在放射学报告中获得了自然语言推断。此外,我们提出了一种自我监督的联合视觉 - 语言方法,重点是更好的文本建模。它在广泛的公开基准上建立了新的最新结果,部分是通过利用我们新的特定领域的语言模型。我们释放了一个新的数据集,该数据集具有放射科医生的局部对齐短语接地注释,以促进生物医学视觉处理中复杂语义建模的研究。广泛的评估,包括在此新数据集中,表明我们的对比学习方法在文本语义建模的帮助下,尽管仅使用了全球对准目标,但在细分任务中的表现都优于细分任务中的先验方法。
translated by 谷歌翻译
医疗报告的生成是一项具有挑战性的任务,因为它耗时,需要经验丰富的放射科医生的专业知识。医疗报告生成的目的是准确捕获和描述图像发现。先前的作品在不同域中使用大型数据集预处理其视觉编码神经网络,这些数据集无法在特定的医疗领域中学习一般的视觉表示。在这项工作中,我们提出了一个医学报告生成框架,该框架使用对比度学习方法来预处理视觉编码器,并且不需要其他元信息。此外,我们在对比度学习框架中采用肺部分割作为增强方法。该分割指导网络专注于编码肺部区域内的视觉特征。实验结果表明,所提出的框架可以在定量和定性上提高生成的医疗报告的性能和质量。
translated by 谷歌翻译
通过分析医学图像来编写报告对于缺乏经验的从业者和经验丰富的医生来说是错误的。在这项工作中,我们介绍了改编预先训练的视力和语言模型来解释医学图像并以自然语言生成自动报告的Repsnet。 repsnet由一个编码器模型组成:编码器通过对比度学习将图像与自然语言描述对齐,而解码器则通过对编码图像进行调节和通过最近的邻居搜索检索的描述的先验上下文来预测答案。我们在视觉问题回答设置中提出问题,以处理分类和描述性的自然语言答案。我们在放射学图像数据集的两个医学视觉问题回答(VQA-RAD)和报告生成(IU-XRAR)的两个具有挑战性的任务上进行实验。结果表明,REPNET优于最先进的方法,在VQA-RAD 2018上具有81.08%的分类精度和IU-XRAY的0.58 BLEU-1得分。补充详细信息可从https://sites.google.com/view/repsnet获得
translated by 谷歌翻译
最近,胸部X射线报告生成,旨在自动生成给定的胸部X射线图像的描述,已得到越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下,普通区域主导整个胸部X射线图像,并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差,基于学习的模型可能无法参加异常区域。在这项工作中,为了有效地捕获和描述异常区域,我们提出了对比的注意(CA)模型。 CA模型而不是仅专注于电流输入图像,而是将电流输入图像与正常图像进行比较以蒸馏对比信息。获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU-X射线和模仿-CXR数据集的实验,将我们的CA纳入几个现有型号可以在大多数指标上提升它们的性能。此外,根据分析,CA型号可以帮助现有的模型更好地参加异常区域,并提供更准确的描述,这对可解释的诊断至关重要。具体而言,我们在两个公共数据集上实现最先进的结果。
translated by 谷歌翻译