基因本体论(GO)是能够在生物医学中实现计算任务的主要基因功能知识基础。 GO的基本元素是一个术语,其中包括一组具有相同功能的基因。 GO的现有研究工作主要集中于预测基因术语关联。很少追求其他任务,例如生成新术语的描述。在本文中,我们提出了一项新颖的任务:GO术语描述生成。该任务旨在自动生成一个句子,该句子描述了属于这三个类别之一的GO术语的功能,即分子功能,生物过程和细胞分量。为了解决此任务,我们提出了一个可以有效利用GO结构信息的图形网络。提出的网络引入了两层图:第一层是GO术语的图形,每个节点也是一个图(基因图)。这样的图形网络可以得出GO术语的生物学功能并生成适当的描述。为了验证拟议网络的有效性,我们构建了三个大规模基准数据集。通过合并所提出的图形网络,可以在所有评估指标中显着提高七个不同序列与序列模型的性能,其中BLEU,Rouge-rouge-相对改善高达34.7%,14.5%和39.1% L和流星。
translated by 谷歌翻译
在序列到序列学习中,例如,自然语言生成,解码器依赖于注意机制,以有效地从编码器中提取信息。虽然常见的做法是从最后一个编码器层绘制信息,但最近的工作已经提出用于使用来自不同编码器层的表示,以进行多样化的信息。尽管如此,解码器仍然仅获得源序列的单个视图,这可能导致由于层级绕过问题而导致编码器层堆栈的训练不足。在这项工作中,我们提出了层次的多视图解码,其中对于每个解码器层以及来自最后一个编码器层的表示,它作为全局视图,来自其他编码器层的那些是用于立体视图的源序列。系统实验和分析表明,我们成功地解决了层次结构绕过问题,需要几乎可忽略的参数增加,并大大提高了五种不同任务的深度表示的序列到序列学习的性能,即机器翻译,抽象总结,图像标题,视频字幕和医疗报告生成。特别是,我们的方法在八个基准数据集中实现了新的最先进的结果,包括低资源机器转换数据集和两个低资源医疗报告生成数据集。
translated by 谷歌翻译
医疗报告生成,旨在自动产生对特定医学形象的长期和连贯的报告,一直受到越来越多的研究兴趣。现有方法主要采用受监督的方式和大量依赖耦合图像报告对。但是,在医疗领域,建立大规模的图像报告配对数据集既耗时又昂贵。为了放宽对配对数据的依赖性,我们提出了一个无人监督的模型知识图形自动编码器(KGAE),它接受独立的图像集和报告。 KGAE由预构建的知识图形,知识驱动的编码器和知识驱动的解码器组成。知识图形作为桥接视觉和文本域的共享潜在空间;知识驱动的编码器将医学图像和报告报告到该潜在空间中的相应坐标,并且知识驱动的解码器在此空间中给出了坐标的医疗报告。由于知识驱动的编码器和解码器可以用独立的图像和报告培训,因此kgae是无监督的。实验表明,未经审计的KGAE在不使用任何图像报告培训对的情况下产生所需的医疗报告。此外,KGAE还可以在半监督和监督的环境中工作,并在培训中接受配对图像和报告。通过使用图像报告对进行进一步微调,KGAE始终如一地优于两个数据集上的当前最先进的模型。
translated by 谷歌翻译
从X射线图像中自动生成医疗报告可以帮助放射科医生执行耗时但重要的报告任务。然而,实现临床准确的生成报告仍然具有挑战性。发现使用知识图方法对潜在异常进行建模有望在提高临床准确性方面。在本文中,我们介绍了一种新型的罚款颗粒知识图结构,称为属性异常图(ATAG)。 ATAG由互连的异常节点和属性节点组成,使其可以更好地捕获异常细节。与手动构建异常图的现有方法相反,我们提出了一种方法,以根据注释,X射线数据集中的医疗报告和Radlex放射线词典自动构建细粒度的图形结构。然后,我们将使用深层模型与用编码器架构结构进行报告的ATAG嵌入。特别是,探索了图表网络以编码异常及其属性之间的关系。采用门控机制并将其与各种解码器整合在一起。我们根据基准数据集进行了广泛的实验,并表明基于ATAG的深层模型优于SOTA方法,并可以提高生成报告的临床准确性。
translated by 谷歌翻译
考虑到RDF三元组的集合,RDF到文本生成任务旨在生成文本描述。最先前的方法使用序列到序列模型或使用基于图形的模型来求解此任务以编码RDF三维并生成文本序列。然而,这些方法未能明确模拟RDF三元组之间的本地和全球结构信息。此外,以前的方法也面临了生成文本的低信任问题的不可忽略的问题,这严重影响了这些模型的整体性能。为了解决这些问题,我们提出了一种组合两个新的图形增强结构神经编码器的模型,共同学习输入的RDF三元组中的本地和全局结构信息。为了进一步改进文本忠诚,我们创新地根据信息提取(即)引进了强化学习(RL)奖励。我们首先使用佩带的IE模型从所生成的文本中提取三元组,并将提取的三级的正确数量视为额外的RL奖励。两个基准数据集上的实验结果表明,我们所提出的模型优于最先进的基线,额外的加强学习奖励确实有助于改善所生成的文本的忠诚度。
translated by 谷歌翻译
自动放射学报告生成在诊所至关重要,可以缓解来自繁重的工作量的经验丰富的放射科医师,并提醒缺乏误诊或错过诊断的缺乏经验的放射科学家。现有方法主要将放射学报告生成作为图像标题任务,采用编码器解码器框架。但是,在医学领域,这种纯数据驱动方法遭受以下问题:1)视觉和文本偏差问题; 2)缺乏专家知识。在本文中,我们提出了一种知识增强的放射学报告生成方法,介绍了两种类型的医学知识:1)一般知识,这是输入的独立知识,并为报告生成提供了广泛的知识; 2)特定知识,其输入依赖并为报告生成提供了细粒度的知识。为了充分利用一般和具体知识,我们还提出了一种知识增强的多主题注意机制。通过利用一般知识和特定知识来利用放射线图像的视觉特征,所提出的模型可以提高所生成的报告的质量。两种公共数据集IU-X射线和模拟CXR的实验结果表明,所提出的知识增强方法优于基于最先进的图像标题的方法。消融研究还表明,一般和具体知识都可以有助于提高放射学报告生成的表现。
translated by 谷歌翻译
代码摘要可帮助开发人员理解程序并减少在软件维护过程中推断程序功能的时间。最近的努力诉诸深度学习技术,例如序列到序列模型,以生成准确的代码摘要,其中基于变压器的方法已实现了有希望的性能。但是,在此任务域中,有效地将代码结构信息集成到变压器中的情况不足。在本文中,我们提出了一种名为SG-Trans的新方法,将代码结构属性纳入变压器。具体而言,我们将局部符号信息(例如,代码令牌和语句)和全局句法结构(例如,数据流程图)注入变压器的自我发项模块中。为了进一步捕获代码的层次结构特征,局部信息和全局结构旨在分布在下层和变压器高层的注意力头中。广泛的评估表明,SG-trans的表现优于最先进的方法。与表现最佳的基线相比,SG-Trans在流星评分方面仍然可以提高1.4%和2.0%,这是一个广泛用于测量发电质量的度量,分别在两个基准数据集上。
translated by 谷歌翻译
放射学报告在向医生宣传医学发现方面发挥着关键作用。在每次报告中,印象部分总结了基本放射学结果。在临床实践中,写入印象是非常需要的,耗时且易于放射科学家的错误。因此,自动印象生成被出现为有吸引力的研究方向,以促进这种临床实践。现有研究主要集中在将突出词信息引入普通文本摘要框架,以指导放射学发现中的关键内容的选择。但是,对于此任务,模型不仅需要捕获调查结果中的重要词语,而且还可以准确地描述它们的关系,以便产生高质量的印象。在本文中,我们提出了一种用于自动印象生成的新方法,其中单词图是从调查结果创建临界词汇的研究,然后设计了一个单词图引导摘要模型(WGSUM),旨在通过帮助生成印象字形图。两个数据集,OpenI和MIMIC-CXR的实验结果证实了我们所提出的方法的有效性和有效性,在两个数据集上实现了最先进的结果。还进行了进一步的实验,以分析不同图表设计对我们方法性能的影响。
translated by 谷歌翻译
多文件摘要(MDS)是信息聚合的有效工具,它从与主题相关文档集群生成信息和简洁的摘要。我们的调查是,首先,系统地概述了最近的基于深度学习的MDS模型。我们提出了一种新的分类学,总结神经网络的设计策略,并进行全面的最先进的概要。我们突出了在现有文献中很少讨论的各种客观函数之间的差异。最后,我们提出了与这个新的和令人兴奋的领域有关的几个方向。
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
审议是人类日常生活中的一种共同自然行为。例如,在撰写论文或文章时,我们通常会首先编写草稿,然后迭代地擦亮它们,直到满足为止。鉴于这种人类的认知过程,我们提出了Decom,这是自动评论生成的多通审议框架。 DECOM由多个审议模型和一个评估模型组成。给定代码段,我们首先从代码中提取关键字,然后从预定义的语料库中检索类似的代码片段。然后,我们将检索到的代码的评论视为初始草案,并将其用代码和关键字输入到DETOM中,以开始迭代审议过程。在每次审议时,审议模型都会抛光草案并产生新的评论。评估模型衡量了新生成的评论的质量,以确定是否结束迭代过程。终止迭代过程后,将选择最佳的评论作为目标评论。我们的方法在Java(87K)和Python(108K)的两个现实世界数据集上进行了评估,实验结果表明,我们的方法表现优于最先进的基准。人类评估研究还证实,DECOM产生的评论往往更可读性,信息性和有用。
translated by 谷歌翻译
放射学报告的印象部分总结了调查结果部分中最突出的观察结果,是放射科医生与医生进行交流的最重要部分。总结发现很耗时,对于缺乏经验的放射科医生可能会出错,因此自动印象产生引起了很大的关注。通过编码器框架,大多数先前的研究都探讨了纳入额外知识(例如,静态预定义的临床本体或额外的背景信息)。然而,他们通过单独的编码器对这种知识进行编码,以将其视为其模型的额外输入,这在利用其与原始发现的关系方面受到限制。为了解决限制,我们提出了一个统一的框架,以综合的方式利用额外的知识和原始发现,以便可以以适当的方式提取关键信息(即关键词及其关系),以促进印象产生。详细说明,对于每个输入发现,它是由文本编码器编码的,并且图形是通过其实体和依赖树构造的。然后,采用图形编码器(例如,图形神经网络(GNNS))在构造的图中模拟关系信息。最后,为了强调调查结果中的关键词,引入了对比度学习以映射正面样本(通过掩盖非钥匙单词构建)更紧密,并将负面的样本推开(通过掩盖关键词构建)。 Openi和Mimic-CXR的实验结果证实了我们提出的方法的有效性。
translated by 谷歌翻译
与自然语言相反,源代码理解受到令牌之间的语法关系的影响,无论其标识符名称如何。源代码的图表表示诸如抽象语法树(AST)可以从源代码中捕获不明显的令牌之间的关系。我们提出了一种新颖的方法,GN变压器在融合序列和图形模型上学习端到端我们调用语法代码图(SCG)。 GN变压器使用自我关注机制在图形网络(GN)框架上展开。 SCG是源代码片段和AST表示之间的早期融合的结果。我们对SCG的结构进行了实验,对模型设计的消融研究,以及结论性能优势来自融合表示的超参数。所提出的方法在两个代码摘要数据集中实现最先进的性能,并跨越三个自动编码摘要度量(BLEU,Meteor,Rouge-L)。我们进一步评估了我们模型的人类感知质量和以前的工作与专家用户学习。我们的模型以人类的质量和准确性高出现有技术。
translated by 谷歌翻译
由于知识图(kgs)的不完整,旨在预测kgs中未观察到的关系的零照片链接预测(ZSLP)引起了研究人员的最新兴趣。一个常见的解决方案是将关系的文本特征(例如表面名称或文本描述)用作辅助信息,以弥合所见关系和看不见的关系之间的差距。当前方法学习文本中每个单词令牌的嵌入。这些方法缺乏稳健性,因为它们遭受了量不足(OOV)的问题。同时,建立在字符n-grams上的模型具有为OOV单词生成表达式表示的能力。因此,在本文中,我们提出了一个为零链接预测(HNZSLP)的层次N-gram框架,该框架考虑了ZSLP的关系n-gram之间的依赖项。我们的方法通过首先在表面名称上构造层次n-gram图来进行起作用,以模拟导致表面名称的N-gram的组织结构。然后,将基于变压器的革兰amtransformer呈现,以建模层次n-gram图,以构建ZSLP的关系嵌入。实验结果表明,提出的HNZSLP在两个ZSLP数据集上实现了最先进的性能。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
大多数图形之间的作品都是在具有交叉注意机制的编码器框架上构建的。最近的研究表明,对输入图结构进行明确建模可以显着改善性能。但是,香草结构编码器无法在所有解码步骤的单个正向通道中捕获所有专业信息,从而导致语义表示不准确。同时,输入图在交叉注意中作为无序序列被扁平,忽略了原始图形结构。结果,解码器中获得的输入图上下文向量可能存在缺陷。为了解决这些问题,我们提出了一种结构感知的交叉注意(SACA)机制,以在每个解码步骤中以结构意识的方式重新编码在新生成的上下文上的输入图表示条件。我们进一步调整SACA,并引入其变体动态图修剪(DGP)机制,以在解码过程中动态下降无关的节点。我们在两个图形数据集(LDC2020T02和ENT-DESC)上实现了新的最新结果,但计算成本仅略有增加。
translated by 谷歌翻译
多文件科学摘要(MDSS)旨在为与主题相关的科学论文群生成连贯和简洁的摘要。此任务需要精确理解纸张内容以及对交叉纸关系的准确建模。知识图为文档传达了紧凑且可解释的结构化信息,这使其非常适合内容建模和关系建模。在本文中,我们提出了KGSUM,这是一个MDSS模型,以编码和解码过程中的知识图为中心。具体而言,在编码过程中,提出了两个基于图的模块,以将知识图信息纳入纸张编码,而在解码过程中,我们通过以描述性句子的形式首先生成摘要的知识图,提出了一个两阶段解码器。 ,然后生成最终摘要。经验结果表明,所提出的体系结构对多XSCIENCE数据集的基准进行了实质性改进。
translated by 谷歌翻译
Nowadays, time-stamped web documents related to a general news query floods spread throughout the Internet, and timeline summarization targets concisely summarizing the evolution trajectory of events along the timeline. Unlike traditional document summarization, timeline summarization needs to model the time series information of the input events and summarize important events in chronological order. To tackle this challenge, in this paper, we propose a Unified Timeline Summarizer (UTS) that can generate abstractive and extractive timeline summaries in time order. Concretely, in the encoder part, we propose a graph-based event encoder that relates multiple events according to their content dependency and learns a global representation of each event. In the decoder part, to ensure the chronological order of the abstractive summary, we propose to extract the feature of event-level attention in its generation process with sequential information remained and use it to simulate the evolutionary attention of the ground truth summary. The event-level attention can also be used to assist in extracting summary, where the extracted summary also comes in time sequence. We augment the previous Chinese large-scale timeline summarization dataset and collect a new English timeline dataset. Extensive experiments conducted on these datasets and on the out-of-domain Timeline 17 dataset show that UTS achieves state-of-the-art performance in terms of both automatic and human evaluations.
translated by 谷歌翻译
最近,胸部X射线报告生成,旨在自动生成给定的胸部X射线图像的描述,已得到越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下,普通区域主导整个胸部X射线图像,并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差,基于学习的模型可能无法参加异常区域。在这项工作中,为了有效地捕获和描述异常区域,我们提出了对比的注意(CA)模型。 CA模型而不是仅专注于电流输入图像,而是将电流输入图像与正常图像进行比较以蒸馏对比信息。获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU-X射线和模仿-CXR数据集的实验,将我们的CA纳入几个现有型号可以在大多数指标上提升它们的性能。此外,根据分析,CA型号可以帮助现有的模型更好地参加异常区域,并提供更准确的描述,这对可解释的诊断至关重要。具体而言,我们在两个公共数据集上实现最先进的结果。
translated by 谷歌翻译
代码搜索目标是根据自然语言查询检索相关的代码片段,以提高软件生产力和质量。但是,由于源代码和查询之间的语义间隙,自动代码搜索是具有挑战性的。大多数现有方法主要考虑嵌入的顺序信息,其中文本背后的结构信息不完全考虑。在本文中,我们设计了一个名为GraphsearchNet的新型神经网络框架,通过共同学习源代码和查询的富集语义来启用有效和准确的源代码搜索。具体地,我们建议将源代码和查询编码为两个图,其中双向GGNN以捕获图表的本地结构信息。此外,我们通过利用有效的多主题来增强BigGNN,以补充BigGNN错过的全球依赖。关于Java和Python数据集的广泛实验说明了GraphSearchNet优于当前最先进的工作原位。
translated by 谷歌翻译