生物重建VII Track-2挑战包括命名实体识别,实体链接(或实体 - 归一化),主题索引任务 - 与实体和主题限制为这项挑战的化学品。命名实体识别是一个完善的问题,我们通过基于Bert的生物群体模型实现了我们的最佳性能。我们将基于BERT的方法扩展到实体链接任务。在预先预订Biobert的第二阶段,通过称为自对准预先训练(SAP)的度量学习损失策略,我们将基于其SAP-Biobert Word Embeddings之间的余弦相似性链接实体。尽管我们的命名实体识别实验取得了成功,但我们发现化学指数任务一般更具挑战性。除了传统的NER方法之外,我们还尝试使用基于新颖的文本或“提示”方法的命名实体识别和实体链接,该方法使用生成语言模型,例如T5和GPT。我们通过这种新方法实现了令人鼓舞的结果。
translated by 谷歌翻译
生物医学研究正在以这种指数速度增长,科学家,研究人员和从业者不再能够应对该领域发表的文献的数量。文献中提出的知识需要以这种方式系统化,可以轻松找到声明和假设,访问和验证。知识图可以为文献提供这样的语义知识表示框架。然而,为了构建知识图形,有必要以生物医学实体之间的关系形式提取知识并使两个实体和关系类型进行正常化。在本文中,我们展示并比较了少数基于规则和基于机器学习的(天真的贝叶斯,随机森林作为传统机器学习方法和T5基础的示例,作为现代深层学习的示例)可扩展关系从生物医学中提取的方法集成到知识图中的文献。我们研究了如何为不平衡和相当小的数据集进行弹性,显示T5模型,由于其在大型C4数据集以及不平衡数据上进行预培训,因此T5模型处理得好的小型数据集。最佳执行模型是T5模型在平衡数据上进行微调,报告F1分数为0.88。
translated by 谷歌翻译
社交媒体帖子包含有关医疗条件和与健康相关行为的潜在有价值的信息。生物重建VII任务3专注于通过识别推文中的药物和膳食补充剂的提及来挖掘这些信息。我们通过精细调整多个BERT样式语言模型来执行此任务以执行令牌级分类,并将它们组合成集合以生成最终预测。我们最好的系统由五个Megatron-Bert-345M型号组成,在看不见的测试数据上实现了0.764的严格F1得分。
translated by 谷歌翻译
在这项研究中,我们展示了我们的工作参与BioCreative VII挑战的药物支持。药物靶靶相互作用(DTI)对于药物发现和重新施加至关重要,其通常从实验制品中手动提取。有关PubMed的32M生物医学文章和手动提取来自这种巨大的知识库的DTI是具有挑战性的。为了解决这个问题,我们为赛道1提供了一种解决方案,旨在提取药物和蛋白质实体之间的10种类型的相互作用。我们应用了一个组合生物向罗伯塔,艺术语言模型的艺术状态的集合类模型,卷积神经网络(CNN)来提取这些关系。尽管Biocreative VII药物测试语料库中的阶级失衡,但我们的模型与挑战中其他提交的平均值相比实现了良好的性能,微F1分数为55.67%(生物重建VI Chemprot测试语料库)。结果表明,深入学习在提取各种类型的DTIS方面的潜力。
translated by 谷歌翻译
动机:生物医学研究人员和临床从业者的常年挑战是随着出版物和医疗票据的快速增长而待的。自然语言处理(NLP)已成为驯服信息超载的有希望的方向。特别是,大型神经语言模型通过预先绘制的文本预测,通过各种NLP应用中的BERT模型的成功示例,便于通过预先绘制的预先来进行学习。然而,用于结束任务的微调此类模型仍然具有挑战性,特别是具有小标记数据集,这些数据集是生物医学NLP的常见。结果:我们对生物医学NLP的微调稳定性进行了系统研究。我们表明FineTuning性能可能对预先预订的设置敏感,尤其是在低资源域中。大型型号有可能获得更好的性能,但越来越多的模型大小也加剧了FineTuning不稳定性。因此,我们对解决微调不稳定的技术进行了全面的探索。我们表明,这些技术可以大大提高低源生物医学NLP应用的微调性能。具体地,冻结下层有助于标准伯特基型号,而完整的衰减对于BERT-LARD和Electra型号更有效。对于低资源文本相似性任务,如生物,重新初始化顶层是最佳策略。总体而言,占星型词汇和预制促进更强大的微调模型。基于这些调查结果,我们在广泛的生物医学NLP应用方面建立了新的技术。可用性和实施​​:为了促进生物医学NLP的进展,我们释放了我们最先进的预订和微调模型:https://aka.ms/blurb。
translated by 谷歌翻译
生物医学文献中的自动关系提取(RE)对于研究和现实世界中的许多下游文本挖掘应用至关重要。但是,用于生物医学的大多数现有基准测试数据集仅关注句子级别的单一类型(例如蛋白质 - 蛋白质相互作用)的关系,从而极大地限制了生物医学中RE系统的开发。在这项工作中,我们首先审查了常用的名称实体识别(NER)和RE数据集。然后,我们提出了Biored,这是一种具有多种实体类型(例如,基因/蛋白质,疾病,化学)和关系对(例如,基因 - 疾病;化学化学化学化学)的首个生物医学RE语料库,在文档水平上,在一组600个PubMed摘要中。此外,我们将每个关系标记为描述一种新颖的发现或先前已知的背景知识,使自动化算法能够区分新颖和背景信息。我们通过基准在NER和RE任务上对几种现有的最新方法(包括基于BERT的模型)进行基准测试来评估Biored的实用性。我们的结果表明,尽管现有方法可以在NER任务上达到高性能(F-评分为89.3%),但重新任务的改进空间很大,尤其是在提取新颖的关系时(F-评分为47.7%)。我们的实验还表明,如此丰富的数据集可以成功地促进生物医学更准确,高效和健壮的RE系统的开发。 Biored数据集和注释指南可在https://ftp.ncbi.nlm.nih.gov/pub/lu/biored/中免费获得。
translated by 谷歌翻译
我们提出了一个新的框架,在增强的自然语言(TANL)之间的翻译,解决了许多结构化预测语言任务,包括联合实体和关系提取,嵌套命名实体识别,关系分类,语义角色标记,事件提取,COREREFED分辨率和对话状态追踪。通过培训特定于特定于任务的鉴别分类器来说,我们将其作为一种在增强的自然语言之间的翻译任务,而不是通过培训问题,而不是解决问题,而是可以轻松提取任务相关信息。我们的方法可以匹配或优于所有任务的特定于任务特定模型,特别是在联合实体和关系提取(Conll04,Ade,NYT和ACE2005数据集)上实现了新的最先进的结果,与关系分类(偶尔和默示)和语义角色标签(Conll-2005和Conll-2012)。我们在使用相同的架构和超参数的同时为所有任务使用相同的架构和超级参数,甚至在培训单个模型时同时解决所有任务(多任务学习)。最后,我们表明,由于更好地利用标签语义,我们的框架也可以显着提高低资源制度的性能。
translated by 谷歌翻译
我们提供了从文本到文本变换器(T5)的第一次探索句子嵌入式。句子嵌入式广泛适用于语言处理任务。虽然T5在作为序列到序列映射问题的语言任务上实现令人印象深刻的性能,但目前尚不清楚如何从编码器解码器模型生成陈列嵌入的句子。我们调查三种方法提取T5句子嵌入方法:两个仅利用T5编码器,一个使用全T5编码器解码器模型。为了支持我们的调查,我们建立了一个新的句子代表转移基准,SentGlue,它将Senteval Toolkit扩展到粘合基准的九个任务。我们的编码器的型号优于Senteval和SentGlue传输任务的句子 - BERT和SIMCSE句子嵌入,包括语义文本相似性(STS)。发现从数百万到数十亿参数的缩放T5产生一致的进一步改进。最后,我们的编码器 - 解码器方法在使用句子嵌入时在STS上实现了新的最先进的。我们的模型在https://tfhub.dev/google/collections/sentence-t5/1发布。
translated by 谷歌翻译
学术知识图(KGS)提供了代表科学出版物编码的知识的丰富的结构化信息来源。随着出版的科学文学的庞大,包括描述科学概念的过多的非均匀实体和关系,这些公斤本质上是不完整的。我们呈现Exbert,一种利用预先训练的变压器语言模型来执行学术知识图形完成的方法。我们将知识图形的三元组模型为文本并执行三重分类(即,属于KG或不属于KG)。评估表明,在三重分类,链路预测和关系预测的任务中,Exbert在三个学术kg完成数据集中表现出其他基线。此外,我们将两个学术数据集作为研究界的资源,从公共公共公报和在线资源中收集。
translated by 谷歌翻译
问题答案(QA)是自然语言处理中最具挑战性的最具挑战性的问题之一(NLP)。问答(QA)系统试图为给定问题产生答案。这些答案可以从非结构化或结构化文本生成。因此,QA被认为是可以用于评估文本了解系统的重要研究区域。大量的QA研究致力于英语语言,调查最先进的技术和实现最先进的结果。然而,由于阿拉伯QA中的研究努力和缺乏大型基准数据集,在阿拉伯语问答进展中的研究努力得到了很大速度的速度。最近许多预先接受的语言模型在许多阿拉伯语NLP问题中提供了高性能。在这项工作中,我们使用四个阅读理解数据集来评估阿拉伯QA的最先进的接种变压器模型,它是阿拉伯语 - 队,ArcD,AQAD和TYDIQA-GoldP数据集。我们微调并比较了Arabertv2基础模型,ArabertV0.2大型型号和ARAElectra模型的性能。在最后,我们提供了一个分析,了解和解释某些型号获得的低绩效结果。
translated by 谷歌翻译
循证医学,医疗保健专业人员在做出决定时提到最佳证据的实践,形成现代医疗保健的基础。但是,它依赖于劳动密集型系统评论,其中域名专家必须从数千个出版物中汇总和提取信息,主要是随机对照试验(RCT)结果转化为证据表。本文通过对两个语言处理任务分解的问题来调查自动化证据表生成:\ texit {命名实体识别},它标识文本中的关键实体,例如药物名称,以及\ texit {关系提取},它会映射它们的关系将它们分成有序元组。我们专注于发布的RCT摘要的句子的自动制表,报告研究结果的结果。使用转移学习和基于变压器的语言表示的原则,开发了两个深度神经网络模型作为联合提取管道的一部分。为了培训和测试这些模型,开发了一种新的金标语,包括来自六种疾病区域的近600个结果句。这种方法表现出显着的优势,我们的系统在多种自然语言处理任务和疾病区域中表现良好,以及在训练期间不均匀地展示疾病域。此外,我们显示这些结果可以通过培训我们的模型仅在200个例句中培训。最终系统是一个概念证明,即证明表的产生可以是半自动的,代表全自动系统评论的一步。
translated by 谷歌翻译
预先训练的语言模型(LMS)通常逻辑地扭转或以组成方式概括。最近的工作表明,结合外部实体知识可以提高LMS的能力和推广。然而,明确提供实体抽象的效果仍然不清楚,特别是在最近的研究表明,预先训练的LMS已经在其参数中编码了一些知识。我们研究将实体型抽象的实用程序融入预先训练的变压器,并在需要不同形式的逻辑推理的四个NLP任务上测试这些方法:(1)与基于文本的关系推理(CLUTRR)的组成语言理解,(2)绑架推理(校对者),(3)多跳问题应答(HotpotQA),和(4)会话问题应答(COQA)。我们提出并经验探索了三种方法来添加此类抽象:(i)作为附加输入嵌入式,(ii)作为编码的单独序列,(iii)作为模型的辅助预测任务。总体而言,我们的分析表明,具有抽象实体知识的模型比没有它更好。然而,我们的实验还表明,强烈的益处取决于所使用的技术和手头的任务。与基线模型相比,最佳抽象意识模型分别达到了88.8%和91.8%的总精度,分别在CLUTRR和校对者上实现了62.3%和89.8%。此外,抽象感知模型在插值和外推设置中显示出改善的组成概括。然而,对于热杆菌和CoQA,我们发现F1分数平均仅提高0.5%。我们的结果表明,明确抽象的好处在正式定义的逻辑推理设置中需要许多推理跳跃,但指向它对具有较少正式逻辑结构的NLP任务不利的概念。
translated by 谷歌翻译
最近的自然语言理解进展(NLU)已经被驱动,部分是由胶水,超级格,小队等的基准。事实上,许多NLU模型现在在许多任务中匹配或超过“人类水平”性能这些基准。然而,大多数这些基准测试都提供模型访问相对大量的标记数据进行培训。因此,该模型提供了比人类所需的更多数据,以实现强大的性能。这有动机侧重于侧重于改善NLU模型的少量学习性能。然而,缺乏少量射门的标准化评估基准,导致不同纸张中的不同实验设置。为了帮助加速这一工作的工作,我们介绍了线索(受限制的语言理解评估标准),这是评估NLU模型的几次拍摄学习功能的基准。我们证明,虽然最近的模型在获得大量标记数据时达到人类性能,但对于大多数任务,少量拍摄设置中的性能存在巨大差距。我们还展示了几个拍摄设置中替代模型家族和适应技术之间的差异。最后,我们讨论了在设计实验设置时讨论了评估真实少量学习绩效的实验设置,并提出了统一的标准化方法,以获得少量学习评估。我们的目标是鼓励对NLU模型的研究,可以概括为具有少数示例的新任务。线索的代码和数据可以在https://github.com/microsoft/clues提供。
translated by 谷歌翻译
对于自然语言处理中的许多任务,将知识从一个域转移到另一个领域至关重要,尤其是当目标域中的可用数据量受到限制时。在这项工作中,我们在指定实体识别(NER)的背景下提出了一种新颖的域适应方法。我们提出了一种两步方法,该方法由可变基本模块和模板模块组成,该模块在简单的描述模式的帮助下利用了预训练的语言模型中捕获的知识。我们的方法简单而通用,可以在几次射击和零拍设置中应用。评估我们在许多不同数据集中的轻量级方法表明,它可以将最新基准的性能提高2-5%的F1分数。
translated by 谷歌翻译
培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集,并具有清晰的出处。自然语言提示最近通过将现有的,有监督的数据集转换为多种新颖的预处理任务,突出了元数据策划的好处,从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功,但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足,因此仍然具有挑战性。为了应对这一挑战,我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库,目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划,并与当前的平台兼容,以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调,数据审核,贡献指南的过程,并概述了两个说明性用例:生物医学提示和大规模,多任务学习的零射门评估。 BigBio是一项持续的社区努力,可在https://github.com/bigscience-workshop/biomedical上获得。
translated by 谷歌翻译
大型审慎的语言模型最近征服了自然语言处理领域。作为BERT中引入的主要掩盖语言建模的替代方案,T5模型引入了更通用的训练目标,即序列转换的顺序,其中包括蒙版语言模型,但自然地适合文本生成任务,例如机器翻译,摘要,开放 - 开放 - 域问题回答,文本简化,对话系统等。T5模型的单语变体仅限于资源良好的语言,而大量的多语言T5模型则支持101种语言。相比之下,我们训练了两个不同尺寸的T5型序列,以使用较少的资源并分析其行为的形态丰富的斯洛文尼语的序列模型。关于分类任务,SLOT5模型主要落后于单语Slovene Sloberta模型,但应考虑生成任务。
translated by 谷歌翻译
来自变压器(BERT)的双向编码器表示显示了各种NLP任务的奇妙改进,并且已经提出了其连续的变体来进一步提高预先训练的语言模型的性能。在本文中,我们的目标是首先介绍中国伯特的全文掩蔽(WWM)策略,以及一系列中国预培训的语言模型。然后我们还提出了一种简单但有效的型号,称为Macbert,这在几种方面提高了罗伯塔。特别是,我们提出了一种称为MLM作为校正(MAC)的新掩蔽策略。为了展示这些模型的有效性,我们创建了一系列中国预先培训的语言模型,作为我们的基线,包括BERT,Roberta,Electra,RBT等。我们对十个中国NLP任务进行了广泛的实验,以评估创建的中国人托管语言模型以及提议的麦克白。实验结果表明,Macbert可以在许多NLP任务上实现最先进的表演,我们还通过几种可能有助于未来的研究的调查结果来消融细节。我们开源我们的预先培训的语言模型,以进一步促进我们的研究界。资源可用:https://github.com/ymcui/chinese-bert-wwm
translated by 谷歌翻译
本文是关于我们的系统提交给生物重建VII轨道2挑战的化学识别任务的技术报告。这一挑战的主要特点是数据包括全文文章,而当前数据集通常由只有标题和摘要组成。为了有效解决该问题,我们的目的是使用各种方法改进标记一致性和实体覆盖,例如在与命名实体识别(ner)的相同文章中的多数投票和组合字典和神经模型进行归一化的混合方法。在NLM-Chem数据集的实验中,我们表明我们的方法改善了模型的性能,特别是在召回方面。最后,在对挑战的官方评估中,我们的系统通过大幅表现出基线模型和来自16支队伍的超过80个提交来排名第一。
translated by 谷歌翻译
本文着重于几次NLP任务的文本数据增强。现有的数据增强算法要么使用一个小型培训集来生成新的合成数据,要么利用与任务无关的启发式规则(例如,同义词替代)或微调通用预训练的语言模型(例如GPT2)。因此,这些方法具有特定于任务的知识,并且仅限于在简单任务中为弱基线产生低质量的合成数据。为了解决这个问题,我们提出了知识混合数据增强模型(KNOWDA):使用知识混合培训(KOMT)在不同的NLP任务的混合物上预测的编码器LM。 KOMT是一种培训程序,将各种异质NLP任务的输入示例重新定义为统一的文本到文本格式,并采用不同粒度的目标,以学习生成部分或完整的样本。在KOMT的帮助下,Knowda可以隐含地将所需的特定于任务的知识从任务的混合中隐含地结合在一起,并通过一些给定的实例迅速掌握目标任务的固有综合定律。据我们所知,我们是首次尝试将任务数量扩展到多任务共同培训以进行数据扩展。广泛的实验表明,i)Knowda成功地通过少量基准的基准成功地提高了Albert和Deberta的表现,表现优于先前的最新数据增强基线; ii)KNOWDA还可以改善少数弹药任务的模型性能,这是KOMT中未包含的固定任务类型。
translated by 谷歌翻译
一种有效的横向传输方法是在一种语言中微调在监督数据集上的双语或多语言模型,并以零拍方式在另一种语言上进行评估。在培训时间或推理时间翻译例子也是可行的替代方案。然而,存在与文献中很少有关的这些方法相关的成本。在这项工作中,我们在其有效性(例如,准确性),开发和部署成本方面分析交叉语言方法,以及推理时间的延迟。我们的三个任务的实验表明最好的交叉方法是高度任务依赖性的。最后,通过结合零射和翻译方法,我们在这项工作中使用的三个数据集中实现了最先进的。基于这些结果,我们对目标语言手动标记的培训数据有所了解。代码和翻译的数据集可在https://github.com/unicamp-dl/cross-lingsual-analysis上获得
translated by 谷歌翻译