本文是关于我们的系统提交给生物重建VII轨道2挑战的化学识别任务的技术报告。这一挑战的主要特点是数据包括全文文章,而当前数据集通常由只有标题和摘要组成。为了有效解决该问题,我们的目的是使用各种方法改进标记一致性和实体覆盖,例如在与命名实体识别(ner)的相同文章中的多数投票和组合字典和神经模型进行归一化的混合方法。在NLM-Chem数据集的实验中,我们表明我们的方法改善了模型的性能,特别是在召回方面。最后,在对挑战的官方评估中,我们的系统通过大幅表现出基线模型和来自16支队伍的超过80个提交来排名第一。
translated by 谷歌翻译
生物重建VII Track-2挑战包括命名实体识别,实体链接(或实体 - 归一化),主题索引任务 - 与实体和主题限制为这项挑战的化学品。命名实体识别是一个完善的问题,我们通过基于Bert的生物群体模型实现了我们的最佳性能。我们将基于BERT的方法扩展到实体链接任务。在预先预订Biobert的第二阶段,通过称为自对准预先训练(SAP)的度量学习损失策略,我们将基于其SAP-Biobert Word Embeddings之间的余弦相似性链接实体。尽管我们的命名实体识别实验取得了成功,但我们发现化学指数任务一般更具挑战性。除了传统的NER方法之外,我们还尝试使用基于新颖的文本或“提示”方法的命名实体识别和实体链接,该方法使用生成语言模型,例如T5和GPT。我们通过这种新方法实现了令人鼓舞的结果。
translated by 谷歌翻译
在Bircocrive VII的Track-1中,要求参与者识别药物/化学品和蛋白质之间的相互作用。提供每个药物/化学和蛋白质的内部名称实体注释,必须自动预测14个不同的相互作用中的一种。对于此关系提取任务,我们尝试两种基于BERT的句子分类方法,以及使用T5模型的更新文本到文本方法。我们发现基于BERT的模型一般表现更好,我们的生物综太基模型实现了所有指标的最高分,实现了0.74 F1得分。虽然我们的小说T5文本到文本方法没有表现出基于BERT的大多数模型,但它表现出在类似数据上培训的那些,呈现出有希望的结果,实现0.65 F1得分。我们认为,与关系提取的文本文本方法有一些竞争优势,并且有很多研究进步的空间。
translated by 谷歌翻译
生物医学文献中的自动关系提取(RE)对于研究和现实世界中的许多下游文本挖掘应用至关重要。但是,用于生物医学的大多数现有基准测试数据集仅关注句子级别的单一类型(例如蛋白质 - 蛋白质相互作用)的关系,从而极大地限制了生物医学中RE系统的开发。在这项工作中,我们首先审查了常用的名称实体识别(NER)和RE数据集。然后,我们提出了Biored,这是一种具有多种实体类型(例如,基因/蛋白质,疾病,化学)和关系对(例如,基因 - 疾病;化学化学化学化学)的首个生物医学RE语料库,在文档水平上,在一组600个PubMed摘要中。此外,我们将每个关系标记为描述一种新颖的发现或先前已知的背景知识,使自动化算法能够区分新颖和背景信息。我们通过基准在NER和RE任务上对几种现有的最新方法(包括基于BERT的模型)进行基准测试来评估Biored的实用性。我们的结果表明,尽管现有方法可以在NER任务上达到高性能(F-评分为89.3%),但重新任务的改进空间很大,尤其是在提取新颖的关系时(F-评分为47.7%)。我们的实验还表明,如此丰富的数据集可以成功地促进生物医学更准确,高效和健壮的RE系统的开发。 Biored数据集和注释指南可在https://ftp.ncbi.nlm.nih.gov/pub/lu/biored/中免费获得。
translated by 谷歌翻译
在生物医学自然语言处理中,命名实体识别(NER)和命名实体归一化(NEN)是能够从不断增长的生物医学文献中自动提取生物医学实体(例如,疾病和化学品)的关键任务。在本文中,我们展示了伯尔尼(高级生物医学实体识别和归一化),这是一种改善以前的基于神经网络的NER工具的工具(Kim等,2019),采用多任务NER模型和基于神经网络的NEN模型实现更快,更准确的推理。我们希望我们的工具可以帮助为各种任务等诸如生物医学知识图形建设等各种任务来诠释大规模生物医学文本。
translated by 谷歌翻译
电子医疗记录(EMRS)包含对医学研究人员具有巨大潜在价值的临床叙述文本。但是,将该信息与个人身份信息(PII)混合,这会给患者和临床医生机密的风险带来风险。本文介绍了端到端的去除识别框架,以自动从医院排放摘要中删除PII。我们的语料库包括600名医院出院摘要,该摘要是从澳大利亚悉尼的两家主要推荐医院的EMRS中提取的。我们的端到端去识别框架由三个组件组成:1)注释:使用五个预定类别的600家医院放电摘要标记PII:人,地址,出生日期,识别号码,电话号码; 2)建模:培训六个命名实体识别(NER)深度学习基础 - 平衡和不平衡数据集;并评估组合所有六种基础型号的合奏,这三种基础模型,具有最佳的F1分数和三种基础型号,分别使用令牌级多数投票和堆叠方法分别具有最佳的召回分数; 3)去鉴定:从医院排放摘要中移除PII。我们的研究结果表明,使用堆叠支持向量机(SVM)方法在三种基础上使用最佳F1分数的堆栈模型实现了优异的结果,在我们的语料库的测试组上的F1得分为99.16%。我们还评估了2014年I2B2去识别数据集上的建模组件的稳健性。我们在所有六种基础型号上使用令牌级多数投票方法的集合模型,在严格的实体匹配中实现了96.24%的最高F1得分,并且在二进制令牌级匹配中的最高F1得分为98.64%,而二进制符合两个州-Of-最现实的方法。该框架提供了一种强大的解决方案,可以安全地去识别临床叙述文本。
translated by 谷歌翻译
Biomedical named entity recognition (BioNER) seeks to automatically recognize biomedical entities in natural language text, serving as a necessary foundation for downstream text mining tasks and applications such as information extraction and question answering. Manually labeling training data for the BioNER task is costly, however, due to the significant domain expertise required for accurate annotation. The resulting data scarcity causes current BioNER approaches to be prone to overfitting, to suffer from limited generalizability, and to address a single entity type at a time (e.g., gene or disease). We therefore propose a novel all-in-one (AIO) scheme that uses external data from existing annotated resources to improve generalization. We further present AIONER, a general-purpose BioNER tool based on cutting-edge deep learning and our AIO schema. We evaluate AIONER on 14 BioNER benchmark tasks and show that AIONER is effective, robust, and compares favorably to other state-of-the-art approaches such as multi-task learning. We further demonstrate the practical utility of AIONER in three independent tasks to recognize entity types not previously seen in training data, as well as the advantages of AIONER over existing methods for processing biomedical text at a large scale (e.g., the entire PubMed data).
translated by 谷歌翻译
命名实体识别(ner)是从文本中提取特定类型的命名实体的任务。当前的NER模型往往依赖于人类注释的数据集,要求在目标领域和实体上广泛参与专业知识。这项工作介绍了一个询问生成的方法,它通过询问反映实体类型的需求的简单自然语言问题来自动生成NER数据集(例如,哪种疾病?)到开放式域问题应答系统。不使用任何域中资源(即,培训句子,标签或域名词典),我们的模型在我们生成的数据集上仅培训了,这在很大程度上超过了四个不同域的六个基准测试的弱势监督模型。令人惊讶的是,在NCBI疾病中,我们的模型达到75.5 F1得分,甚至优于以前的最佳弱监督模型4.1 F1得分,它利用域专家提供的丰富的域名词典。制定具有自然语言的NER的需求,也允许我们为诸如奖项等细粒度实体类型构建NER模型,其中我们的模型甚至优于完全监督模型。在三个少量的NER基准测试中,我们的模型实现了新的最先进的性能。
translated by 谷歌翻译
生物医学研究正在以这种指数速度增长,科学家,研究人员和从业者不再能够应对该领域发表的文献的数量。文献中提出的知识需要以这种方式系统化,可以轻松找到声明和假设,访问和验证。知识图可以为文献提供这样的语义知识表示框架。然而,为了构建知识图形,有必要以生物医学实体之间的关系形式提取知识并使两个实体和关系类型进行正常化。在本文中,我们展示并比较了少数基于规则和基于机器学习的(天真的贝叶斯,随机森林作为传统机器学习方法和T5基础的示例,作为现代深层学习的示例)可扩展关系从生物医学中提取的方法集成到知识图中的文献。我们研究了如何为不平衡和相当小的数据集进行弹性,显示T5模型,由于其在大型C4数据集以及不平衡数据上进行预培训,因此T5模型处理得好的小型数据集。最佳执行模型是T5模型在平衡数据上进行微调,报告F1分数为0.88。
translated by 谷歌翻译
Motivation: Biomedical text mining is becoming increasingly important as the number of biomedical documents rapidly grows. With the progress in natural language processing (NLP), extracting valuable information from biomedical literature has gained popularity among researchers, and deep learning has boosted the development of effective biomedical text mining models. However, directly applying the advancements in NLP to biomedical text mining often yields unsatisfactory results due to a word distribution shift from general domain corpora to biomedical corpora. In this article, we investigate how the recently introduced pre-trained language model BERT can be adapted for biomedical corpora. Results: We introduce BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining), which is a domain-specific language representation model pre-trained on large-scale biomedical corpora. With almost the same architecture across tasks, BioBERT largely outperforms BERT and previous state-of-the-art models in a variety of biomedical text mining tasks when pre-trained on biomedical corpora. While BERT obtains performance comparable to that of previous state-of-the-art models, BioBERT significantly outperforms them on the following three representative biomedical text mining tasks: biomedical named entity recognition (0.62% F1 score improvement), biomedical relation extraction (2.80% F1 score improvement) and biomedical question answering (12.24% MRR improvement). Our analysis results show that pre-training BERT on biomedical corpora helps it to understand complex biomedical texts.
translated by 谷歌翻译
生物重建VII轨道3挑战重点是在Twitter用户时间表中识别药物名称。对于我们提交这一挑战,我们通过使用多种数据增强技术扩展了可用的培训数据。然后,增强数据用于微调在一般域推特内容上预先培训的语言模型的集合。拟议的方法优于先前的最先进的算法Kusuri,并在竞争中排名高,为我们所选择的客观函数重叠F1分数。
translated by 谷歌翻译
执行命名实体识别(ner)时,实体长度是可变的,并且依赖于特定域或数据集。预先训练的语言模型(PLM)用于解决NER任务,并且倾向于偏向于数据集模式,例如长度统计,表面形式和偏斜类分布。这些偏差阻碍了PLMS的泛化能力,这对于在现实世界情况下解决许多看不见的提及是必要的。我们提出了一种新型的脱叠方法雷鬼,以改善不同长度的实体的预测。要缩小评估与实际情况之间的差距,我们在包含看不见组的分区基准数据集上评估了PLMS。在这里,Regler对长期目的进行了重大改进,可以通过在实体内的结合或特殊字符上进行扩展来预测。此外,大多数ner数据集中存在严重的类别不平衡,导致易消极的例子在训练期间支配,例如“”。我们的方法通过降低易消极的例子的影响来减轻偏斜阶级分布。关于生物医学和一般域的广泛实验证明了我们方法的泛化能力。为了促进可重复性和未来的工作,我们发布了我们的代码。“https://github.com/minstar/regler”
translated by 谷歌翻译
In order to assist the drug discovery/development process, pharmaceutical companies often apply biomedical NER and linking techniques over internal and public corpora. Decades of study of the field of BioNLP has produced a plethora of algorithms, systems and datasets. However, our experience has been that no single open source system meets all the requirements of a modern pharmaceutical company. In this work, we describe these requirements according to our experience of the industry, and present Kazu, a highly extensible, scalable open source framework designed to support BioNLP for the pharmaceutical sector. Kazu is a built around a computationally efficient version of the BERN2 NER model (TinyBERN2), and subsequently wraps several other BioNLP technologies into one coherent system. KAZU framework is open-sourced: https://github.com/AstraZeneca/KAZU
translated by 谷歌翻译
对于指定的实体识别(NER),基于序列标签和基于跨度的范例大不相同。先前的研究表明,这两个范式具有明显的互补优势,但是据我们所知,很少有模型试图在单个NER模型中利用这些优势。在我们以前的工作中,我们提出了一种称为捆绑学习(BL)的范式来解决上述问题。 BL范式将两个NER范式捆绑在一起,从而使NER模型通过加权总结每个范式的训练损失来共同调整其参数。但是,三个关键问题仍未解决:BL何时起作用? BL为什么工作? BL可以增强现有的最新(SOTA)NER模型吗?为了解决前两个问题,我们实施了三个NER模型,涉及一个基于序列标签的模型-Seqner,Seqner,一个基于跨度的NER模型 - 机器人,以及将Seqner和Spanner捆绑在一起的BL-NER。我们根据来自五个域的11个NER数据集的实验结果得出两个关于这两个问题的结论。然后,我们将BL应用于现有的五个SOTA NER模型,以研究第三期,包括三个基于序列标签的模型和两个基于SPAN的模型。实验结果表明,BL始终提高其性能,表明可以通过将BL纳入当前的SOTA系统来构建新的SOTA NER系统。此外,我们发现BL降低了实体边界和类型预测错误。此外,我们比较了两种常用的标签标签方法以及三种类型的跨度语义表示。
translated by 谷歌翻译
事实证明,将先验知识纳入预训练的语言模型中对知识驱动的NLP任务有效,例如实体键入和关系提取。当前的培训程序通常通过使用知识掩盖,知识融合和知识更换将外部知识注入模型。但是,输入句子中包含的事实信息尚未完全开采,并且尚未严格检查注射的外部知识。结果,无法完全利用上下文信息,并将引入额外的噪音,或者注入的知识量受到限制。为了解决这些问题,我们提出了MLRIP,该MLRIP修改了Ernie-Baidu提出的知识掩盖策略,并引入了两阶段的实体替代策略。进行全面分析的广泛实验说明了MLRIP在军事知识驱动的NLP任务中基于BERT的模型的优势。
translated by 谷歌翻译
在这项研究中,我们展示了我们的工作参与BioCreative VII挑战的药物支持。药物靶靶相互作用(DTI)对于药物发现和重新施加至关重要,其通常从实验制品中手动提取。有关PubMed的32M生物医学文章和手动提取来自这种巨大的知识库的DTI是具有挑战性的。为了解决这个问题,我们为赛道1提供了一种解决方案,旨在提取药物和蛋白质实体之间的10种类型的相互作用。我们应用了一个组合生物向罗伯塔,艺术语言模型的艺术状态的集合类模型,卷积神经网络(CNN)来提取这些关系。尽管Biocreative VII药物测试语料库中的阶级失衡,但我们的模型与挑战中其他提交的平均值相比实现了良好的性能,微F1分数为55.67%(生物重建VI Chemprot测试语料库)。结果表明,深入学习在提取各种类型的DTIS方面的潜力。
translated by 谷歌翻译
由于结构化数据通常不足,因此在开发用于临床信息检索和决策支持系统模型时,需要从电子健康记录中的自由文本中提取标签。临床文本中最重要的上下文特性之一是否定,这表明没有发现。我们旨在通过比较荷兰临床注释中的三种否定检测方法来改善标签的大规模提取。我们使用Erasmus医疗中心荷兰临床语料库比较了基于ContextD的基于规则的方法,即使用MEDCAT和(Fineted)基于Roberta的模型的BilstM模型。我们发现,Bilstm和Roberta模型都在F1得分,精度和召回方面始终优于基于规则的模型。此外,我们将每个模型的分类错误系统地分类,这些错误可用于进一步改善特定应用程序的模型性能。在性能方面,将三个模型结合起来并不有益。我们得出的结论是,尤其是基于Bilstm和Roberta的模型在检测临床否定方面非常准确,但是最终,根据手头的用例,这三种方法最终都可以可行。
translated by 谷歌翻译
社交媒体的重要性在过去几十年中增加了流畅,因为它帮助人们甚至是世界上最偏远的角落保持联系。随着技术的出现,数字媒体比以往任何时候都变得更加相关和广泛使用,并且在此之后,假冒新闻和推文的流通中有一种复兴,需要立即关注。在本文中,我们描述了一种新的假新闻检测系统,可自动识别新闻项目是“真实的”或“假”,作为我们在英语挑战中的约束Covid-19假新闻检测中的工作的延伸。我们使用了一个由预先训练的模型组成的集合模型,然后是统计特征融合网络,以及通过在新闻项目或推文中的各种属性,如源,用户名处理,URL域和作者中的各种属性结合到统计特征中的各种属性。我们所提出的框架还规定了可靠的预测性不确定性以及分类任务的适当类别输出置信水平。我们在Covid-19假新闻数据集和Fakenewsnet数据集上评估了我们的结果,以显示所提出的算法在短期内容中检测假新闻以及新闻文章中的算法。我们在Covid-19数据集中获得了0.9892的最佳F1分,以及Fakenewsnet数据集的F1分数为0.9073。
translated by 谷歌翻译
与伯特(Bert)等语言模型相比,已证明知识增强语言表示的预培训模型在知识基础构建任务(即〜关系提取)中更有效。这些知识增强的语言模型将知识纳入预训练中,以生成实体或关系的表示。但是,现有方法通常用单独的嵌入表示每个实体。结果,这些方法难以代表播出的实体和大量参数,在其基础代币模型之上(即〜变压器),必须使用,并且可以处理的实体数量为由于内存限制,实践限制。此外,现有模型仍然难以同时代表实体和关系。为了解决这些问题,我们提出了一个新的预培训模型,该模型分别从图书中学习实体和关系的表示形式,并分别在文本中跨越跨度。通过使用SPAN模块有效地编码跨度,我们的模型可以代表实体及其关系,但所需的参数比现有模型更少。我们通过从Wikipedia中提取的知识图对我们的模型进行了预训练,并在广泛的监督和无监督的信息提取任务上进行了测试。结果表明,我们的模型比基线学习对实体和关系的表现更好,而在监督的设置中,微调我们的模型始终优于罗伯塔,并在信息提取任务上取得了竞争成果。
translated by 谷歌翻译
自然语言处理领域(NLP)最近看到使用预先接受训练的语言模型来解决几乎任何任务的大量变化。尽管对各种任务的基准数据集显示了很大的改进,但这些模型通常在非标准域中对临床领域的临床域进行次优,其中观察到预训练文件和目标文件之间的巨大差距。在本文中,我们的目标是通过对语言模型的域特定培训结束这种差距,我们调查其对多种下游任务和设置的影响。我们介绍了预先训练的Clin-X(临床XLM-R)语言模型,并展示了Clin-X如何通过两种语言的十个临床概念提取任务的大幅度优于其他预先训练的变压器模型。此外,我们展示了如何通过基于随机分裂和交叉句子上下文的集合来利用我们所提出的任务和语言 - 无人机模型架构进一步改善变压器模型。我们在低资源和转移设置中的研究显​​示,尽管只有250个标记的句子,但在只有250个标记的句子时,缺乏带注释数据的稳定模型表现。我们的结果突出了专业语言模型作为非标准域中的概念提取的Clin-X的重要性,但也表明我们的任务 - 无人机模型架构跨越测试任务和语言是强大的,以便域名或任务特定的适应不需要。 Clin-Xlanguage模型和用于微调和传输模型的源代码在https://github.com/boschresearch/clin\_x/和Huggingface模型集线器上公开使用。
translated by 谷歌翻译