在诊所,放射学报告对于指导患者的治疗至关重要。不幸的是,报告写作对放射科医师造成了沉重的负担。为了有效地减少这种负担,在此提出了一种从胸部X射线的报告生成的自动,多模态方法。我们的方法,通过观察到放射学报告的描述与X射线图像高度相关,具有两个不同的模块:(i)学习知识库。为了吸收嵌入上述相关性的知识,我们根据文本嵌入自动构建知识库。 (ii)多模态对齐。为了促进报告,疾病标签和图像之间的语义对齐,我们明确地利用文本嵌入来指导视觉特征空间的学习。我们评估所提出的模型的表现,使用来自公共IU和模拟 - CXR数据集的自然语言生成和临床疗效。我们的消融研究表明,每个模块都有助于提高所生成的报告的质量。此外,借助两种模块,我们的方法显然优于最先进的方法。
translated by 谷歌翻译
自动放射学报告生成在诊所至关重要,可以缓解来自繁重的工作量的经验丰富的放射科医师,并提醒缺乏误诊或错过诊断的缺乏经验的放射科学家。现有方法主要将放射学报告生成作为图像标题任务,采用编码器解码器框架。但是,在医学领域,这种纯数据驱动方法遭受以下问题:1)视觉和文本偏差问题; 2)缺乏专家知识。在本文中,我们提出了一种知识增强的放射学报告生成方法,介绍了两种类型的医学知识:1)一般知识,这是输入的独立知识,并为报告生成提供了广泛的知识; 2)特定知识,其输入依赖并为报告生成提供了细粒度的知识。为了充分利用一般和具体知识,我们还提出了一种知识增强的多主题注意机制。通过利用一般知识和特定知识来利用放射线图像的视觉特征,所提出的模型可以提高所生成的报告的质量。两种公共数据集IU-X射线和模拟CXR的实验结果表明,所提出的知识增强方法优于基于最先进的图像标题的方法。消融研究还表明,一般和具体知识都可以有助于提高放射学报告生成的表现。
translated by 谷歌翻译
医疗报告生成,旨在自动产生对特定医学形象的长期和连贯的报告,一直受到越来越多的研究兴趣。现有方法主要采用受监督的方式和大量依赖耦合图像报告对。但是,在医疗领域,建立大规模的图像报告配对数据集既耗时又昂贵。为了放宽对配对数据的依赖性,我们提出了一个无人监督的模型知识图形自动编码器(KGAE),它接受独立的图像集和报告。 KGAE由预构建的知识图形,知识驱动的编码器和知识驱动的解码器组成。知识图形作为桥接视觉和文本域的共享潜在空间;知识驱动的编码器将医学图像和报告报告到该潜在空间中的相应坐标,并且知识驱动的解码器在此空间中给出了坐标的医疗报告。由于知识驱动的编码器和解码器可以用独立的图像和报告培训,因此kgae是无监督的。实验表明,未经审计的KGAE在不使用任何图像报告培训对的情况下产生所需的医疗报告。此外,KGAE还可以在半监督和监督的环境中工作,并在培训中接受配对图像和报告。通过使用图像报告对进行进一步微调,KGAE始终如一地优于两个数据集上的当前最先进的模型。
translated by 谷歌翻译
最近,胸部X射线报告生成,旨在自动生成给定的胸部X射线图像的描述,已得到越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下,普通区域主导整个胸部X射线图像,并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差,基于学习的模型可能无法参加异常区域。在这项工作中,为了有效地捕获和描述异常区域,我们提出了对比的注意(CA)模型。 CA模型而不是仅专注于电流输入图像,而是将电流输入图像与正常图像进行比较以蒸馏对比信息。获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU-X射线和模仿-CXR数据集的实验,将我们的CA纳入几个现有型号可以在大多数指标上提升它们的性能。此外,根据分析,CA型号可以帮助现有的模型更好地参加异常区域,并提供更准确的描述,这对可解释的诊断至关重要。具体而言,我们在两个公共数据集上实现最先进的结果。
translated by 谷歌翻译
从X射线图像中自动生成医疗报告可以帮助放射科医生执行耗时但重要的报告任务。然而,实现临床准确的生成报告仍然具有挑战性。发现使用知识图方法对潜在异常进行建模有望在提高临床准确性方面。在本文中,我们介绍了一种新型的罚款颗粒知识图结构,称为属性异常图(ATAG)。 ATAG由互连的异常节点和属性节点组成,使其可以更好地捕获异常细节。与手动构建异常图的现有方法相反,我们提出了一种方法,以根据注释,X射线数据集中的医疗报告和Radlex放射线词典自动构建细粒度的图形结构。然后,我们将使用深层模型与用编码器架构结构进行报告的ATAG嵌入。特别是,探索了图表网络以编码异常及其属性之间的关系。采用门控机制并将其与各种解码器整合在一起。我们根据基准数据集进行了广泛的实验,并表明基于ATAG的深层模型优于SOTA方法,并可以提高生成报告的临床准确性。
translated by 谷歌翻译
放射学报告生成旨在产生计算机辅助诊断,以缓解放射科医生的工作量,并最近引起了越来越长的关注。然而,之前的深度学习方法倾向于忽视医学发现之间的相互影响,这可以是限制所生成的报告质量的瓶颈。在这项工作中,我们建议在信息知识图表中提出和代表医学发现的协会,并将此事先知识纳入放射学报告,以帮助提高所生成的报告质量。实验结果证明了我们在IU X射线数据集上的提出方法的优越性,Rouge-L为0.384 $ \ PM $ 0.007和0.340 $ \ PM $ 0.011。与以前的作品相比,我们的模型平均实现了1.6%(苹果酒和Rouge-L的增加2.0%和1.5%)。实验表明,先验知识可以为准确的放射学报告生成表现收益。我们将在https://github.com/bionlplab/report_generation_amia2022中公开公开可用的代码。
translated by 谷歌翻译
放射学报告产生(RRG)旨在用类似人类的语言描述自动放射学图像,并有可能支持放射科医生的工作,从而减轻手动报告的负担。先前的方法通常采用编码器架构,并专注于单模式特征学习,而很少的研究探索了跨模式特征交互。在这里,我们提出了一个跨模式原型驱动网络(XPRONET),以促进跨模式模式学习并利用它以改善放射学报告生成的任务。这是通过三个精心设计,完全可区分和互补的模块来实现的:共享的跨模式原型矩阵来记录跨模式原型;一个跨模式原型网络,可学习跨模式原型,并将交叉模式信息嵌入视觉和文本特征中;以及改进的多标签对比度损失,以实现和增强多标签原型学习。 Xpronet在IU-XRAR和MIMIC-CXR基准方面取得了重大改进,其性能超过了最新的最新方法,从IU-XRAY上的差距很大,并且在Mimic-CXR上的性能可比性。
translated by 谷歌翻译
最近,许多研究表明,通过使用多模式的训练预训练目标扩展BERT体系结构,在各种视觉语言多模式任务(例如图像字幕和视觉问题)上进行了令人印象深刻的表现。在这项工作中,我们探讨了医学领域中的一系列多模式表示任务,专门使用放射学图像和非结构化报告。我们提出了医学视觉语言学习者(MEDVILL),该语言学习者采用基于BERT的建筑与一种新型的多模式注意掩盖方案相结合,以最大程度地提高概括性能,以实现视力语言理解任务(诊断分类,医疗图像报告,医学视觉,医疗视觉效果问答)和视觉生成任务(放射学报告生成)。通过统计和严格评估四个下游任务的拟议模型,该模型具有三个X光摄影图像报告数据集(Mimic-CXR,Open-I和VQA-RAD),我们从经验上凭经验证明了MEDVILL的卓越下游任务,包括各种基准,包括任务 - 特定体系结构。源代码可公开可用:https://github.com/supersupermoon/medvill
translated by 谷歌翻译
自动放射学报告生成对于计算机辅助诊断至关重要。通过图像字幕的成功,可以实现医疗报告的生成。但是,缺乏注释的疾病标签仍然是该地区的瓶颈。此外,图像文本数据偏差问题和复杂的句子使生成准确的报告变得更加困难。为了解决这些差距,我们预定了一个自我引导的框架(SGF),这是一套无监督和监督的深度学习方法,以模仿人类的学习和写作过程。详细说明,我们的框架从具有额外的疾病标签的医学报告中获得了域知识,并指导自己提取与文本相关的罚款谷物视觉特征。此外,SGF通过纳入相似性比较机制,成功地提高了医疗报告生成的准确性和长度,该机制通过比较实践模仿了人类自我完善的过程。广泛的实验证明了我们在大多数情况下我们的SGF的实用性,表明其优于最先进的甲基动物。我们的结果突出了提议的框架的能力,以区分单词之间有罚的粒度视觉细节并验证其在生成医疗报告中的优势。
translated by 谷歌翻译
自动临床标题生成问题被称为建议模型,将额叶X射线扫描与放射学记录中的结构化患者信息结合在一起。我们将两种语言模型结合在一起,即表演 - 泰尔和GPT-3,以生成全面和描述性的放射学记录。这些模型的建议组合产生了文本摘要,其中包含有关发现的病理,其位置以及将每个病理定位在原始X射线扫描中的每个病理的2D热图。提出的模型在两个医学数据集(Open-I,Mimic-CXR和通用MS-Coco)上进行了测试。用自然语言评估指标测量的结果证明了它们对胸部X射线图像字幕的有效适用性。
translated by 谷歌翻译
观察一组图像及其相应的段落限制,一个具有挑战性的任务是学习如何生成语义连贯的段落来描述图像的视觉内容。受到将语义主题纳入此任务的最新成功的启发,本文开发了插件的层次结构引导图像段落生成框架,该框架将视觉提取器与深层主题模型相结合,以指导语言模型的学习。为了捕获图像和文本在多个抽象层面上的相关性并从图像中学习语义主题,我们设计了一个变异推理网络,以构建从图像功能到文本字幕的映射。为了指导段落的生成,学习的层次主题和视觉特征被整合到语言模型中,包括长期的短期记忆(LSTM)和变压器,并共同优化。公共数据集上的实验表明,在标准评估指标方面具有许多最先进的方法竞争的拟议模型可用于提炼可解释的多层语义主题并产生多样的和相干的标题。我们在https://github.com/dandanguo1993/vtcm aseal-image-image-paragraph-caption.git上发布代码
translated by 谷歌翻译
人类利用先验知识来描述图像,并能够使其解释适应特定的上下文信息,即使在上下文信息和图像不匹配时,也可以在发明合理的解释的范围内。在这项工作中,我们提出了通过整合上下文知识来字幕Wikipedia图像的新颖任务。具体而言,我们制作的模型共同推理了Wikipedia文章,Wikimedia图像及其相关描述以产生上下文化的标题。特别是,可以使用类似的Wikimedia图像来说明不同的文章,并且所产生的标题需要适应特定的上下文,因此使我们能够探索模型的限制以调整标题为不同的上下文信息。该领域中的一个特殊挑战性的任务是处理量不多的单词和命名实体。为了解决这个问题,我们提出了一个预训练目标,掩盖了命名实体建模(MNEM),并表明与基线模型相比,此借口任务可以改善。此外,我们验证了Wikipedia中使用MNEM目标预先训练的模型可以很好地推广到新闻字幕数据集。此外,我们根据字幕任务的难度定义了两种不同的测试拆分。我们提供有关每种方式的作用和重要性的见解,并突出我们模型的局限性。接受时,代码,模型和数据拆分可公开可用。
translated by 谷歌翻译
在序列到序列学习中,例如,自然语言生成,解码器依赖于注意机制,以有效地从编码器中提取信息。虽然常见的做法是从最后一个编码器层绘制信息,但最近的工作已经提出用于使用来自不同编码器层的表示,以进行多样化的信息。尽管如此,解码器仍然仅获得源序列的单个视图,这可能导致由于层级绕过问题而导致编码器层堆栈的训练不足。在这项工作中,我们提出了层次的多视图解码,其中对于每个解码器层以及来自最后一个编码器层的表示,它作为全局视图,来自其他编码器层的那些是用于立体视图的源序列。系统实验和分析表明,我们成功地解决了层次结构绕过问题,需要几乎可忽略的参数增加,并大大提高了五种不同任务的深度表示的序列到序列学习的性能,即机器翻译,抽象总结,图像标题,视频字幕和医疗报告生成。特别是,我们的方法在八个基准数据集中实现了新的最先进的结果,包括低资源机器转换数据集和两个低资源医疗报告生成数据集。
translated by 谷歌翻译
每年医生对患者的基于形象的诊断需求越来越大,是最近的人工智能方法可以解决的问题。在这种情况下,我们在医学图像的自动报告领域进行了调查,重点是使用深神经网络的方法,了解:(1)数据集,(2)架构设计,(3)解释性和(4)评估指标。我们的调查确定了有趣的发展,也是留下挑战。其中,目前对生成的报告的评估尤为薄弱,因为它主要依赖于传统的自然语言处理(NLP)指标,这不准确地捕获医疗正确性。
translated by 谷歌翻译
医疗报告的生成是一项具有挑战性的任务,因为它耗时,需要经验丰富的放射科医生的专业知识。医疗报告生成的目的是准确捕获和描述图像发现。先前的作品在不同域中使用大型数据集预处理其视觉编码神经网络,这些数据集无法在特定的医疗领域中学习一般的视觉表示。在这项工作中,我们提出了一个医学报告生成框架,该框架使用对比度学习方法来预处理视觉编码器,并且不需要其他元信息。此外,我们在对比度学习框架中采用肺部分割作为增强方法。该分割指导网络专注于编码肺部区域内的视觉特征。实验结果表明,所提出的框架可以在定量和定性上提高生成的医疗报告的性能和质量。
translated by 谷歌翻译
通过分析医学图像来编写报告对于缺乏经验的从业者和经验丰富的医生来说是错误的。在这项工作中,我们介绍了改编预先训练的视力和语言模型来解释医学图像并以自然语言生成自动报告的Repsnet。 repsnet由一个编码器模型组成:编码器通过对比度学习将图像与自然语言描述对齐,而解码器则通过对编码图像进行调节和通过最近的邻居搜索检索的描述的先验上下文来预测答案。我们在视觉问题回答设置中提出问题,以处理分类和描述性的自然语言答案。我们在放射学图像数据集的两个医学视觉问题回答(VQA-RAD)和报告生成(IU-XRAR)的两个具有挑战性的任务上进行实验。结果表明,REPNET优于最先进的方法,在VQA-RAD 2018上具有81.08%的分类精度和IU-XRAY的0.58 BLEU-1得分。补充详细信息可从https://sites.google.com/view/repsnet获得
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
图像标题是自动生成句子的任务,以最好的方式生成描述输入图像。最近用于自动生成图像标题的最成功的技术最近使用了细心的深度学习模型。设计了深入学习模型的设计方式有变化。在本调查中,我们为图像标题的细心深度学习模型提供了相关的文献述评。而不是对深度图像标题模型的所有先前工作进行全面审查,我们解释了用于深度学习模型中的图像标题任务的各种类型的注意机制。用于图像标题的最成功的深度学习模型遵循编码器解码器架构,尽管这些模型采用注意机制的方式存在差异。通过分析图像标题的不同细节深层模型的性能结果,我们的目标是在图像标题中找到深度模型中最成功的注意机制。柔软的关注,自下而上的关注和多主题是一种广泛应用于图像标题的最先进的深度学习模型的关注机构的类型。在当前时,最佳结果是从多针关注的变体实现的,以自下而上的关注。
translated by 谷歌翻译
自动射线照相报告生成是一项具有挑战性的跨域任务,旨在自动生成准确和语义辅助报告以描述医学图像。尽管该领域最近取得了进展,但至少在以下方面仍然存在许多挑战。首先,射线照相图像彼此非常相似,因此很难像许多现有方法一样,使用CNN作为视觉特征提取器捕获细粒度的视觉差异。此外,语义信息已被广泛应用以提高发电任务的性能(例如图像字幕),但现有方法通常无法提供有效的医学语义功能。为了解决这些问题,在本文中,我们提出了一个记忆启动的稀疏注意区块,利用双线性池来捕获输入细粒图像特征之间的高阶相互作用,同时产生稀疏的注意力。此外,我们介绍了一个新颖的医学概念生成网络(MCGN),以预测细粒的语义概念,并将其纳入报告生成过程中。我们提出的方法在最近发布的最大基准Mimic-CXR上显示出有希望的性能。它的表现优于图像字幕和医疗报告生成中的多种最新方法。
translated by 谷歌翻译
基于多模式方面的情感分类(MABSC)是一项新兴的分类任务,旨在将给定目标的情感分类,例如具有不同模式的数据中提到的实体。在带有文本和图像的典型多模式数据中,以前的方法不能充分利用图像的细颗粒语义,尤其是与文本的语义结合在一起,并且不完全考虑对细粒图像之间的关系进行建模信息和目标,这导致图像的使用不足和不足以识别细粒度的方面和意见。为了应对这些局限性,我们提出了一个新的框架SEQCSG,包括一种构建顺序跨模式语义图和编码器模型的方法。具体而言,我们从原始图像,图像标题和场景图中提取细粒度的信息,并将它们视为跨模式语义图的元素以及文本的令牌。跨模式语义图表示为具有多模式可见矩阵的序列,指示元素之间的关系。为了有效地利用跨模式语义图,我们建议使用目标提示模板的编码器解码器方法。实验结果表明,我们的方法优于现有方法,并在两个标准数据集MABSC上实现了最新方法。进一步的分析证明了每个组件的有效性,我们的模型可以隐含地学习图像的目标和细粒度信息之间的相关性。
translated by 谷歌翻译