自动放射学报告生成对于计算机辅助诊断至关重要。通过图像字幕的成功,可以实现医疗报告的生成。但是,缺乏注释的疾病标签仍然是该地区的瓶颈。此外,图像文本数据偏差问题和复杂的句子使生成准确的报告变得更加困难。为了解决这些差距,我们预定了一个自我引导的框架(SGF),这是一套无监督和监督的深度学习方法,以模仿人类的学习和写作过程。详细说明,我们的框架从具有额外的疾病标签的医学报告中获得了域知识,并指导自己提取与文本相关的罚款谷物视觉特征。此外,SGF通过纳入相似性比较机制,成功地提高了医疗报告生成的准确性和长度,该机制通过比较实践模仿了人类自我完善的过程。广泛的实验证明了我们在大多数情况下我们的SGF的实用性,表明其优于最先进的甲基动物。我们的结果突出了提议的框架的能力,以区分单词之间有罚的粒度视觉细节并验证其在生成医疗报告中的优势。
translated by 谷歌翻译
放射学报告生成旨在产生计算机辅助诊断,以缓解放射科医生的工作量,并最近引起了越来越长的关注。然而,之前的深度学习方法倾向于忽视医学发现之间的相互影响,这可以是限制所生成的报告质量的瓶颈。在这项工作中,我们建议在信息知识图表中提出和代表医学发现的协会,并将此事先知识纳入放射学报告,以帮助提高所生成的报告质量。实验结果证明了我们在IU X射线数据集上的提出方法的优越性,Rouge-L为0.384 $ \ PM $ 0.007和0.340 $ \ PM $ 0.011。与以前的作品相比,我们的模型平均实现了1.6%(苹果酒和Rouge-L的增加2.0%和1.5%)。实验表明,先验知识可以为准确的放射学报告生成表现收益。我们将在https://github.com/bionlplab/report_generation_amia2022中公开公开可用的代码。
translated by 谷歌翻译
自动放射学报告生成在诊所至关重要,可以缓解来自繁重的工作量的经验丰富的放射科医师,并提醒缺乏误诊或错过诊断的缺乏经验的放射科学家。现有方法主要将放射学报告生成作为图像标题任务,采用编码器解码器框架。但是,在医学领域,这种纯数据驱动方法遭受以下问题:1)视觉和文本偏差问题; 2)缺乏专家知识。在本文中,我们提出了一种知识增强的放射学报告生成方法,介绍了两种类型的医学知识:1)一般知识,这是输入的独立知识,并为报告生成提供了广泛的知识; 2)特定知识,其输入依赖并为报告生成提供了细粒度的知识。为了充分利用一般和具体知识,我们还提出了一种知识增强的多主题注意机制。通过利用一般知识和特定知识来利用放射线图像的视觉特征,所提出的模型可以提高所生成的报告的质量。两种公共数据集IU-X射线和模拟CXR的实验结果表明,所提出的知识增强方法优于基于最先进的图像标题的方法。消融研究还表明,一般和具体知识都可以有助于提高放射学报告生成的表现。
translated by 谷歌翻译
在诊所,放射学报告对于指导患者的治疗至关重要。不幸的是,报告写作对放射科医师造成了沉重的负担。为了有效地减少这种负担,在此提出了一种从胸部X射线的报告生成的自动,多模态方法。我们的方法,通过观察到放射学报告的描述与X射线图像高度相关,具有两个不同的模块:(i)学习知识库。为了吸收嵌入上述相关性的知识,我们根据文本嵌入自动构建知识库。 (ii)多模态对齐。为了促进报告,疾病标签和图像之间的语义对齐,我们明确地利用文本嵌入来指导视觉特征空间的学习。我们评估所提出的模型的表现,使用来自公共IU和模拟 - CXR数据集的自然语言生成和临床疗效。我们的消融研究表明,每个模块都有助于提高所生成的报告的质量。此外,借助两种模块,我们的方法显然优于最先进的方法。
translated by 谷歌翻译
放射学报告产生(RRG)旨在用类似人类的语言描述自动放射学图像,并有可能支持放射科医生的工作,从而减轻手动报告的负担。先前的方法通常采用编码器架构,并专注于单模式特征学习,而很少的研究探索了跨模式特征交互。在这里,我们提出了一个跨模式原型驱动网络(XPRONET),以促进跨模式模式学习并利用它以改善放射学报告生成的任务。这是通过三个精心设计,完全可区分和互补的模块来实现的:共享的跨模式原型矩阵来记录跨模式原型;一个跨模式原型网络,可学习跨模式原型,并将交叉模式信息嵌入视觉和文本特征中;以及改进的多标签对比度损失,以实现和增强多标签原型学习。 Xpronet在IU-XRAR和MIMIC-CXR基准方面取得了重大改进,其性能超过了最新的最新方法,从IU-XRAY上的差距很大,并且在Mimic-CXR上的性能可比性。
translated by 谷歌翻译
从X射线图像中自动生成医疗报告可以帮助放射科医生执行耗时但重要的报告任务。然而,实现临床准确的生成报告仍然具有挑战性。发现使用知识图方法对潜在异常进行建模有望在提高临床准确性方面。在本文中,我们介绍了一种新型的罚款颗粒知识图结构,称为属性异常图(ATAG)。 ATAG由互连的异常节点和属性节点组成,使其可以更好地捕获异常细节。与手动构建异常图的现有方法相反,我们提出了一种方法,以根据注释,X射线数据集中的医疗报告和Radlex放射线词典自动构建细粒度的图形结构。然后,我们将使用深层模型与用编码器架构结构进行报告的ATAG嵌入。特别是,探索了图表网络以编码异常及其属性之间的关系。采用门控机制并将其与各种解码器整合在一起。我们根据基准数据集进行了广泛的实验,并表明基于ATAG的深层模型优于SOTA方法,并可以提高生成报告的临床准确性。
translated by 谷歌翻译
观察一组图像及其相应的段落限制,一个具有挑战性的任务是学习如何生成语义连贯的段落来描述图像的视觉内容。受到将语义主题纳入此任务的最新成功的启发,本文开发了插件的层次结构引导图像段落生成框架,该框架将视觉提取器与深层主题模型相结合,以指导语言模型的学习。为了捕获图像和文本在多个抽象层面上的相关性并从图像中学习语义主题,我们设计了一个变异推理网络,以构建从图像功能到文本字幕的映射。为了指导段落的生成,学习的层次主题和视觉特征被整合到语言模型中,包括长期的短期记忆(LSTM)和变压器,并共同优化。公共数据集上的实验表明,在标准评估指标方面具有许多最先进的方法竞争的拟议模型可用于提炼可解释的多层语义主题并产生多样的和相干的标题。我们在https://github.com/dandanguo1993/vtcm aseal-image-image-paragraph-caption.git上发布代码
translated by 谷歌翻译
自动射线照相报告生成是一项具有挑战性的跨域任务,旨在自动生成准确和语义辅助报告以描述医学图像。尽管该领域最近取得了进展,但至少在以下方面仍然存在许多挑战。首先,射线照相图像彼此非常相似,因此很难像许多现有方法一样,使用CNN作为视觉特征提取器捕获细粒度的视觉差异。此外,语义信息已被广泛应用以提高发电任务的性能(例如图像字幕),但现有方法通常无法提供有效的医学语义功能。为了解决这些问题,在本文中,我们提出了一个记忆启动的稀疏注意区块,利用双线性池来捕获输入细粒图像特征之间的高阶相互作用,同时产生稀疏的注意力。此外,我们介绍了一个新颖的医学概念生成网络(MCGN),以预测细粒的语义概念,并将其纳入报告生成过程中。我们提出的方法在最近发布的最大基准Mimic-CXR上显示出有希望的性能。它的表现优于图像字幕和医疗报告生成中的多种最新方法。
translated by 谷歌翻译
医疗报告生成,旨在自动产生对特定医学形象的长期和连贯的报告,一直受到越来越多的研究兴趣。现有方法主要采用受监督的方式和大量依赖耦合图像报告对。但是,在医疗领域,建立大规模的图像报告配对数据集既耗时又昂贵。为了放宽对配对数据的依赖性,我们提出了一个无人监督的模型知识图形自动编码器(KGAE),它接受独立的图像集和报告。 KGAE由预构建的知识图形,知识驱动的编码器和知识驱动的解码器组成。知识图形作为桥接视觉和文本域的共享潜在空间;知识驱动的编码器将医学图像和报告报告到该潜在空间中的相应坐标,并且知识驱动的解码器在此空间中给出了坐标的医疗报告。由于知识驱动的编码器和解码器可以用独立的图像和报告培训,因此kgae是无监督的。实验表明,未经审计的KGAE在不使用任何图像报告培训对的情况下产生所需的医疗报告。此外,KGAE还可以在半监督和监督的环境中工作,并在培训中接受配对图像和报告。通过使用图像报告对进行进一步微调,KGAE始终如一地优于两个数据集上的当前最先进的模型。
translated by 谷歌翻译
在序列到序列学习中,例如,自然语言生成,解码器依赖于注意机制,以有效地从编码器中提取信息。虽然常见的做法是从最后一个编码器层绘制信息,但最近的工作已经提出用于使用来自不同编码器层的表示,以进行多样化的信息。尽管如此,解码器仍然仅获得源序列的单个视图,这可能导致由于层级绕过问题而导致编码器层堆栈的训练不足。在这项工作中,我们提出了层次的多视图解码,其中对于每个解码器层以及来自最后一个编码器层的表示,它作为全局视图,来自其他编码器层的那些是用于立体视图的源序列。系统实验和分析表明,我们成功地解决了层次结构绕过问题,需要几乎可忽略的参数增加,并大大提高了五种不同任务的深度表示的序列到序列学习的性能,即机器翻译,抽象总结,图像标题,视频字幕和医疗报告生成。特别是,我们的方法在八个基准数据集中实现了新的最先进的结果,包括低资源机器转换数据集和两个低资源医疗报告生成数据集。
translated by 谷歌翻译
最近,胸部X射线报告生成,旨在自动生成给定的胸部X射线图像的描述,已得到越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下,普通区域主导整个胸部X射线图像,并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差,基于学习的模型可能无法参加异常区域。在这项工作中,为了有效地捕获和描述异常区域,我们提出了对比的注意(CA)模型。 CA模型而不是仅专注于电流输入图像,而是将电流输入图像与正常图像进行比较以蒸馏对比信息。获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU-X射线和模仿-CXR数据集的实验,将我们的CA纳入几个现有型号可以在大多数指标上提升它们的性能。此外,根据分析,CA型号可以帮助现有的模型更好地参加异常区域,并提供更准确的描述,这对可解释的诊断至关重要。具体而言,我们在两个公共数据集上实现最先进的结果。
translated by 谷歌翻译
每年医生对患者的基于形象的诊断需求越来越大,是最近的人工智能方法可以解决的问题。在这种情况下,我们在医学图像的自动报告领域进行了调查,重点是使用深神经网络的方法,了解:(1)数据集,(2)架构设计,(3)解释性和(4)评估指标。我们的调查确定了有趣的发展,也是留下挑战。其中,目前对生成的报告的评估尤为薄弱,因为它主要依赖于传统的自然语言处理(NLP)指标,这不准确地捕获医疗正确性。
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
自动临床标题生成问题被称为建议模型,将额叶X射线扫描与放射学记录中的结构化患者信息结合在一起。我们将两种语言模型结合在一起,即表演 - 泰尔和GPT-3,以生成全面和描述性的放射学记录。这些模型的建议组合产生了文本摘要,其中包含有关发现的病理,其位置以及将每个病理定位在原始X射线扫描中的每个病理的2D热图。提出的模型在两个医学数据集(Open-I,Mimic-CXR和通用MS-Coco)上进行了测试。用自然语言评估指标测量的结果证明了它们对胸部X射线图像字幕的有效适用性。
translated by 谷歌翻译
自动在自然语言中自动生成图像的描述称为图像字幕。这是一个积极的研究主题,位于人工智能,计算机视觉和自然语言处理中两个主要领域的交集。图像字幕是图像理解中的重要挑战之一,因为它不仅需要识别图像中的显着对象,还需要其属性及其相互作用的方式。然后,系统必须生成句法和语义上正确的标题,该标题描述了自然语言的图像内容。鉴于深度学习模型的重大进展及其有效编码大量图像并生成正确句子的能力,最近已经提出了几种基于神经的字幕方法,每种方法都试图达到更好的准确性和标题质量。本文介绍了一个基于编码器的图像字幕系统,其中编码器使用以RESNET-101作为骨干为骨干来提取图像中每个区域的空间和全局特征。此阶段之后是一个精致的模型,该模型使用注意力进行注意的机制来提取目标图像对象的视觉特征,然后确定其相互作用。解码器由一个基于注意力的复发模块和一个反思性注意模块组成,该模块会协作地将注意力应用于视觉和文本特征,以增强解码器对长期顺序依赖性建模的能力。在两个基准数据集(MSCOCO和FLICKR30K)上进行的广泛实验显示了提出的方法和生成的字幕的高质量。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
Mainstream image caption models are usually two-stage captioners, i.e., calculating object features by pre-trained detector, and feeding them into a language model to generate text descriptions. However, such an operation will cause a task-based information gap to decrease the performance, since the object features in detection task are suboptimal representation and cannot provide all necessary information for subsequent text generation. Besides, object features are usually represented by the last layer features that lose the local details of input images. In this paper, we propose a novel One-Stage Image Captioner (OSIC) with dynamic multi-sight learning, which directly transforms input image into descriptive sentences in one stage. As a result, the task-based information gap can be greatly reduced. To obtain rich features, we use the Swin Transformer to calculate multi-level features, and then feed them into a novel dynamic multi-sight embedding module to exploit both global structure and local texture of input images. To enhance the global modeling of encoder for caption, we propose a new dual-dimensional refining module to non-locally model the interaction of the embedded features. Finally, OSIC can obtain rich and useful information to improve the image caption task. Extensive comparisons on benchmark MS-COCO dataset verified the superior performance of our method.
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
图像标题是自动生成句子的任务,以最好的方式生成描述输入图像。最近用于自动生成图像标题的最成功的技术最近使用了细心的深度学习模型。设计了深入学习模型的设计方式有变化。在本调查中,我们为图像标题的细心深度学习模型提供了相关的文献述评。而不是对深度图像标题模型的所有先前工作进行全面审查,我们解释了用于深度学习模型中的图像标题任务的各种类型的注意机制。用于图像标题的最成功的深度学习模型遵循编码器解码器架构,尽管这些模型采用注意机制的方式存在差异。通过分析图像标题的不同细节深层模型的性能结果,我们的目标是在图像标题中找到深度模型中最成功的注意机制。柔软的关注,自下而上的关注和多主题是一种广泛应用于图像标题的最先进的深度学习模型的关注机构的类型。在当前时,最佳结果是从多针关注的变体实现的,以自下而上的关注。
translated by 谷歌翻译
审议是人类日常生活中的一种共同自然行为。例如,在撰写论文或文章时,我们通常会首先编写草稿,然后迭代地擦亮它们,直到满足为止。鉴于这种人类的认知过程,我们提出了Decom,这是自动评论生成的多通审议框架。 DECOM由多个审议模型和一个评估模型组成。给定代码段,我们首先从代码中提取关键字,然后从预定义的语料库中检索类似的代码片段。然后,我们将检索到的代码的评论视为初始草案,并将其用代码和关键字输入到DETOM中,以开始迭代审议过程。在每次审议时,审议模型都会抛光草案并产生新的评论。评估模型衡量了新生成的评论的质量,以确定是否结束迭代过程。终止迭代过程后,将选择最佳的评论作为目标评论。我们的方法在Java(87K)和Python(108K)的两个现实世界数据集上进行了评估,实验结果表明,我们的方法表现优于最先进的基准。人类评估研究还证实,DECOM产生的评论往往更可读性,信息性和有用。
translated by 谷歌翻译