与生物医学命名实体识别任务有关的挑战是:现有方法考虑了较少数量的生物医学实体(例如疾病,症状,蛋白质,基因);这些方法不考虑健康的社会决定因素(年龄,性别,就业,种族),这是与患者健康有关的非医学因素。我们提出了一条机器学习管道,该管道通过以下方式改善了以前的努力:首先,它认识到标准类型以外的许多生物医学实体类型;其次,它考虑了与患者健康有关的非临床因素。该管道还包括阶段,例如预处理,令牌化,映射嵌入查找和命名实体识别任务,以从自由文本中提取生物医学命名实体。我们提出了一个新的数据集,我们通过策划COVID-19案例报告来准备。所提出的方法的表现优于五个基准数据集上的基线方法,其宏观和微平均F1得分约为90,而我们的数据集则分别为95.25和93.18的宏观和微平均F1得分。
translated by 谷歌翻译
虽然罕见疾病的特征在于患病率低,但大约3亿人受到罕见疾病的影响。对这些条件的早期和准确诊断是一般从业者的主要挑战,没有足够的知识来识别它们。除此之外,罕见疾病通常会显示各种表现形式,这可能会使诊断更加困难。延迟的诊断可能会对患者的生命产生负面影响。因此,迫切需要增加关于稀有疾病的科学和医学知识。自然语言处理(NLP)和深度学习可以帮助提取有关罕见疾病的相关信息,以促进其诊断和治疗。本文探讨了几种深度学习技术,例如双向长期内存(BILSTM)网络或基于来自变压器(BERT)的双向编码器表示的深层语境化词表示,以识别罕见疾病及其临床表现(症状和症状) Raredis语料库。该毒品含有超过5,000名罕见疾病和近6,000个临床表现。 Biobert,基于BERT和培训的生物医学Corpora培训的域特定语言表示,获得了最佳结果。特别是,该模型获得罕见疾病的F1分数为85.2%,表现优于所有其他模型。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
非结构化的文本数据是卫生系统的核心:医生之间的联络信,操作报告,根据ICD-10标准编码的程序等。这些文件中包含的详细信息使得更好地了解患者,更好地管理他或她,以更好地研究病理,以准确地偿还相关的医学行为\ ldots,这似乎(至少在部分)被人工智能技术触及了。但是,出于明显的隐私保护原因,这些AIS的设计师只要包含识别数据,就没有合法权利访问这些文件。取消识别这些文档,即检测和删除它们中存在的所有识别信息,是在两个互补世界之间共享此数据的法律必要步骤。在过去的十年中,已经提出了一些建议,主要是用英语来识别文件。虽然检测分数通常很高,但替代方法通常不是很健壮。在法语中,很少有基于任意检测和/或替代规则的方法。在本文中,我们提出了一种专门针对法语医学文件的新的综合识别方法。识别要素(基于深度学习)的检测方法及其替代(基于差异隐私)的方法都是基于最有效的现有方法。结果是一种方法,可以有效保护患者的隐私,这是这些医疗文件的核心。整个方法已经在法国公立医院的法语医学数据集上进行了评估,结果非常令人鼓舞。
translated by 谷歌翻译
电子医疗记录(EMRS)包含对医学研究人员具有巨大潜在价值的临床叙述文本。但是,将该信息与个人身份信息(PII)混合,这会给患者和临床医生机密的风险带来风险。本文介绍了端到端的去除识别框架,以自动从医院排放摘要中删除PII。我们的语料库包括600名医院出院摘要,该摘要是从澳大利亚悉尼的两家主要推荐医院的EMRS中提取的。我们的端到端去识别框架由三个组件组成:1)注释:使用五个预定类别的600家医院放电摘要标记PII:人,地址,出生日期,识别号码,电话号码; 2)建模:培训六个命名实体识别(NER)深度学习基础 - 平衡和不平衡数据集;并评估组合所有六种基础型号的合奏,这三种基础模型,具有最佳的F1分数和三种基础型号,分别使用令牌级多数投票和堆叠方法分别具有最佳的召回分数; 3)去鉴定:从医院排放摘要中移除PII。我们的研究结果表明,使用堆叠支持向量机(SVM)方法在三种基础上使用最佳F1分数的堆栈模型实现了优异的结果,在我们的语料库的测试组上的F1得分为99.16%。我们还评估了2014年I2B2去识别数据集上的建模组件的稳健性。我们在所有六种基础型号上使用令牌级多数投票方法的集合模型,在严格的实体匹配中实现了96.24%的最高F1得分,并且在二进制令牌级匹配中的最高F1得分为98.64%,而二进制符合两个州-Of-最现实的方法。该框架提供了一种强大的解决方案,可以安全地去识别临床叙述文本。
translated by 谷歌翻译
指定的实体识别(NER)或从临床文本中提取概念是识别文本中的实体并将其插入诸如问题,治疗,测试,临床部门,事件(例如录取和出院)等类别的任务。 NER构成了处理和利用电子健康记录(EHR)的非结构化数据的关键组成部分。尽管识别概念的跨度和类别本身是一项具有挑战性的任务,但这些实体也可能具有诸如否定属性,即否定其含义暗示着指定实体的消费者。几乎没有研究致力于将实体及其合格属性一起确定。这项研究希望通过将NER任务建模为有监督的多标签标记问题,为检测实体及其相应属性做出贡献。在本文中,我们提出了3种架构来实现此多标签实体标签:Bilstm N-CRF,Bilstm-Crf-Smax-TF和Bilstm N-CRF-TF。我们在2010 I2B2/VA和I2B2 2012共享任务数据集上评估了这些方法。我们的不同模型分别在I2B2 2010/VA和I2B2 2012上获得最佳NER F1分数为0. 894和0.808。在I2B2 2010/VA和I2B2 2012数据集上,获得的最高跨度微积的F1极性得分分别为0.832和0.836,获得的最高宏观平均F1极性得分分别为0.924和0.888。对I2B2 2012数据集进行的模态研究显示,基于SPAN的微平均F1和宏观平均F1的高分分别为0.818和0.501。
translated by 谷歌翻译
识别危机推文中的细粒度位置提到是将从社交媒体提取的情境意识信息转换为可行信息的核心。大多数事先作业都集中在识别通用地点,而不考虑其特定类型。为了促进细粒度的位置识别任务的进步,我们组装了两个推文危机数据集,并用特定的位置类型手动注释它们。第一个数据集包含来自混合危机事件的推文,而第二个数据集包含来自全球Covid-19大流行的推文。我们在域内和交叉域设置中调查在这些数据集上的序列标记的最先进的深度学习模型的性能。
translated by 谷歌翻译
生物医学文献中的自动关系提取(RE)对于研究和现实世界中的许多下游文本挖掘应用至关重要。但是,用于生物医学的大多数现有基准测试数据集仅关注句子级别的单一类型(例如蛋白质 - 蛋白质相互作用)的关系,从而极大地限制了生物医学中RE系统的开发。在这项工作中,我们首先审查了常用的名称实体识别(NER)和RE数据集。然后,我们提出了Biored,这是一种具有多种实体类型(例如,基因/蛋白质,疾病,化学)和关系对(例如,基因 - 疾病;化学化学化学化学)的首个生物医学RE语料库,在文档水平上,在一组600个PubMed摘要中。此外,我们将每个关系标记为描述一种新颖的发现或先前已知的背景知识,使自动化算法能够区分新颖和背景信息。我们通过基准在NER和RE任务上对几种现有的最新方法(包括基于BERT的模型)进行基准测试来评估Biored的实用性。我们的结果表明,尽管现有方法可以在NER任务上达到高性能(F-评分为89.3%),但重新任务的改进空间很大,尤其是在提取新颖的关系时(F-评分为47.7%)。我们的实验还表明,如此丰富的数据集可以成功地促进生物医学更准确,高效和健壮的RE系统的开发。 Biored数据集和注释指南可在https://ftp.ncbi.nlm.nih.gov/pub/lu/biored/中免费获得。
translated by 谷歌翻译
命名实体识别是一项信息提取任务,可作为其他自然语言处理任务的预处理步骤,例如机器翻译,信息检索和问题答案。命名实体识别能够识别专有名称以及开放域文本中的时间和数字表达式。对于诸如阿拉伯语,阿姆哈拉语和希伯来语之类的闪族语言,由于这些语言的结构严重变化,指定的实体识别任务更具挑战性。在本文中,我们提出了一个基于双向长期记忆的Amharic命名实体识别系统,并带有条件随机字段层。我们注释了一种新的Amharic命名实体识别数据集(8,070个句子,具有182,691个令牌),并将合成少数群体过度采样技术应用于我们的数据集,以减轻不平衡的分类问题。我们命名的实体识别系统的F_1得分为93%,这是Amharic命名实体识别的新最新结果。
translated by 谷歌翻译
Motivation: Biomedical text mining is becoming increasingly important as the number of biomedical documents rapidly grows. With the progress in natural language processing (NLP), extracting valuable information from biomedical literature has gained popularity among researchers, and deep learning has boosted the development of effective biomedical text mining models. However, directly applying the advancements in NLP to biomedical text mining often yields unsatisfactory results due to a word distribution shift from general domain corpora to biomedical corpora. In this article, we investigate how the recently introduced pre-trained language model BERT can be adapted for biomedical corpora. Results: We introduce BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining), which is a domain-specific language representation model pre-trained on large-scale biomedical corpora. With almost the same architecture across tasks, BioBERT largely outperforms BERT and previous state-of-the-art models in a variety of biomedical text mining tasks when pre-trained on biomedical corpora. While BERT obtains performance comparable to that of previous state-of-the-art models, BioBERT significantly outperforms them on the following three representative biomedical text mining tasks: biomedical named entity recognition (0.62% F1 score improvement), biomedical relation extraction (2.80% F1 score improvement) and biomedical question answering (12.24% MRR improvement). Our analysis results show that pre-training BERT on biomedical corpora helps it to understand complex biomedical texts.
translated by 谷歌翻译
不良药物反应/事件(ADR / ADE)对患者健康和医疗费用产生重大影响。尽早检测ADR并与监管机构,制药公司和医疗保健提供者分享他们可以防止发病率并挽救许多生命。虽然大多数ADR都没有通过正式渠道报告,但它们通常在各种非结构化对话中记录,例如患者的社交媒体帖子,客户支持调用记录人或医疗保健提供者和制药商销售代表之间的会议注意事项。在本文中,我们提出了一种自然语言处理(NLP)解决方案,可在这种非结构化的自由文本对话中检测ADR,这在三种方面提高了先前的工作。首先,新的命名实体识别(NER)模型为ADR,CADEC和SMM4H基准数据集(分别为91.75%,78.76%和83.41%F1分数)获得新的最新的准确性)。其次,介绍了两个新的关系提取(RE)模型 - 基于Biobert,而另一个利用完全连接的神经网络(FCNN)的制作功能 - 显示与现有最先进的模型相提并论,在用补充诊所注释的RE DataSet培训时擅长它们。三是新的文本分类模型,用于决定对话是否包括ADR,在CADEC数据集中获得新的最先进的准确性(86.69%F1分数)。完整的解决方案在Apache Spark的顶部构建的生产级文库中实施了完整的解决方案,使其本身可扩展,并能够处理商品集群上的数百万批次或流媒体记录。
translated by 谷歌翻译
循证医学,医疗保健专业人员在做出决定时提到最佳证据的实践,形成现代医疗保健的基础。但是,它依赖于劳动密集型系统评论,其中域名专家必须从数千个出版物中汇总和提取信息,主要是随机对照试验(RCT)结果转化为证据表。本文通过对两个语言处理任务分解的问题来调查自动化证据表生成:\ texit {命名实体识别},它标识文本中的关键实体,例如药物名称,以及\ texit {关系提取},它会映射它们的关系将它们分成有序元组。我们专注于发布的RCT摘要的句子的自动制表,报告研究结果的结果。使用转移学习和基于变压器的语言表示的原则,开发了两个深度神经网络模型作为联合提取管道的一部分。为了培训和测试这些模型,开发了一种新的金标语,包括来自六种疾病区域的近600个结果句。这种方法表现出显着的优势,我们的系统在多种自然语言处理任务和疾病区域中表现良好,以及在训练期间不均匀地展示疾病域。此外,我们显示这些结果可以通过培训我们的模型仅在200个例句中培训。最终系统是一个概念证明,即证明表的产生可以是半自动的,代表全自动系统评论的一步。
translated by 谷歌翻译
Biomedical named entity recognition (BioNER) seeks to automatically recognize biomedical entities in natural language text, serving as a necessary foundation for downstream text mining tasks and applications such as information extraction and question answering. Manually labeling training data for the BioNER task is costly, however, due to the significant domain expertise required for accurate annotation. The resulting data scarcity causes current BioNER approaches to be prone to overfitting, to suffer from limited generalizability, and to address a single entity type at a time (e.g., gene or disease). We therefore propose a novel all-in-one (AIO) scheme that uses external data from existing annotated resources to improve generalization. We further present AIONER, a general-purpose BioNER tool based on cutting-edge deep learning and our AIO schema. We evaluate AIONER on 14 BioNER benchmark tasks and show that AIONER is effective, robust, and compares favorably to other state-of-the-art approaches such as multi-task learning. We further demonstrate the practical utility of AIONER in three independent tasks to recognize entity types not previously seen in training data, as well as the advantages of AIONER over existing methods for processing biomedical text at a large scale (e.g., the entire PubMed data).
translated by 谷歌翻译
指定的实体识别任务是信息提取的核心任务之一。单词歧义和单词缩写是命名实体低识别率的重要原因。在本文中,我们提出了一种名为“实体识别模型WCL-BBCD”(与Bert-Bilstm-Crf-Dbpedia的单词对比学习),结合了对比度学习的概念。该模型首先在文本中训练句子对,计算句子对通过余弦的相似性中的单词对之间的相似性,以及通过相似性通过相似性来命名实体识别任务的BERT模型,以减轻单词歧义。然后,将微调的BERT模型与Bilstm-CRF模型相结合,以执行指定的实体识别任务。最后,将识别结果与先验知识(例如知识图)结合使用,以减轻单词缩写引起的低速问题的识别。实验结果表明,我们的模型在Conll-2003英语数据集和Ontonotes V5英语数据集上优于其他类似的模型方法。
translated by 谷歌翻译
自动言论(POS)标记是许多自然语言处理(NLP)任务的预处理步骤,例如名称实体识别(NER),语音处理,信息提取,单词sense sisse disampigation和Machine Translation。它已经在英语和欧洲语言方面取得了令人鼓舞的结果,但是使用印度语言,尤其是在Odia语言中,由于缺乏支持工具,资源和语言形态丰富性,因此尚未得到很好的探索。不幸的是,我们无法为ODIA找到一个开源POS标记,并且仅尝试为ODIA语言开发POS标记器的尝试。这项研究工作的主要贡献是介绍有条件的随机场(CRF)和基于深度学习的方法(CNN和双向长期短期记忆)来开发ODIA的语音部分。我们使用了一个公开访问的语料库,并用印度标准局(BIS)标签设定了数据集。但是,全球的大多数语言都使用了带有通用依赖项(UD)标签集注释的数据集。因此,要保持统一性,odia数据集应使用相同的标签集。因此,我们已经构建了一个从BIS标签集到UD标签集的简单映射。我们对CRF模型进行了各种特征集输入,观察到构造特征集的影响。基于深度学习的模型包括BI-LSTM网络,CNN网络,CRF层,角色序列信息和预训练的单词向量。通过使用卷积神经网络(CNN)和BI-LSTM网络提取角色序列信息。实施了神经序列标记模型的六种不同组合,并研究了其性能指标。已经观察到具有字符序列特征和预训练的单词矢量的BI-LSTM模型取得了显着的最新结果。
translated by 谷歌翻译
Named Entity Recognition and Intent Classification are among the most important subfields of the field of Natural Language Processing. Recent research has lead to the development of faster, more sophisticated and efficient models to tackle the problems posed by those two tasks. In this work we explore the effectiveness of two separate families of Deep Learning networks for those tasks: Bidirectional Long Short-Term networks and Transformer-based networks. The models were trained and tested on the ATIS benchmark dataset for both English and Greek languages. The purpose of this paper is to present a comparative study of the two groups of networks for both languages and showcase the results of our experiments. The models, being the current state-of-the-art, yielded impressive results and achieved high performance.
translated by 谷歌翻译
计算文本表型是从临床注释中鉴定出患有某些疾病和特征的患者的实践。由于很少有用于机器学习的案例和域专家的数据注释需求,因此难以识别的罕见疾病要确定。我们提出了一种使用本体论和弱监督的方法,并具有来自双向变压器(例如BERT)的最新预训练的上下文表示。基于本体的框架包括两个步骤:(i)文本到umls,通过上下文将提及与统一医学语言系统(UMLS)中的概念链接到命名的实体识别和链接(NER+L)工具,SemeHR中提取表型。 ,以及具有自定义规则和上下文提及表示的弱监督; (ii)UMLS-to-to-ordo,将UMLS概念与孤子罕见疾病本体论(ORDO)中的罕见疾病相匹配。提出了弱监督的方法来学习一个表型确认模型,以改善链接的文本对umls,而没有域专家的注释数据。我们评估了来自美国和英国两个机构的三个出院摘要和放射学报告的临床数据集的方法。我们最好的弱监督方法获得了81.4%的精度和91.4%的召回,从模仿III出院摘要中提取罕见疾病UMLS表型。总体管道处理临床笔记可以表面罕见疾病病例,其中大部分在结构化数据(手动分配的ICD代码)中没有受到平衡。关于模仿III和NHS Tayside的放射学报告的结果与放电摘要一致。我们讨论了弱监督方法的有用性,并提出了未来研究的方向。
translated by 谷歌翻译
确保适当的标点符号和字母外壳是朝向应用复杂的自然语言处理算法的关键预处理步骤。这对于缺少标点符号和壳体的文本源,例如自动语音识别系统的原始输出。此外,简短的短信和微博的平台提供不可靠且经常错误的标点符号和套管。本调查概述了历史和最先进的技术,用于恢复标点符号和纠正单词套管。此外,突出了当前的挑战和研究方向。
translated by 谷歌翻译
放射学报告含有在其解释图像中被放射科学家记录的多样化和丰富的临床异常。放射发现的综合语义表示将使广泛的次要使用应用来支持诊断,分类,结果预测和临床研究。在本文中,我们提出了一种新的放射学报告语料库,注释了临床调查结果。我们的注释模式捕获了可观察到的病理发现的详细说明(“病变”)和其他类型的临床问题(“医学问题”)。该模式使用了基于事件的表示来捕获细粒细节,包括断言,解剖学,特征,大小,计数等。我们的黄金标准语料库包含总共500个注释的计算机断层扫描(CT)报告。我们利用两个最先进的深度学习架构提取了触发器和论证实体,包括伯特。然后,我们使用基于BERT的关系提取模型预测触发器和参数实体(称为参数角色)之间的连接。我们使用预先从我们的机构的300万放射学报告预先培训的BERT模型实现了最佳提取性能:90.9%-93.4%f1用于查找触发器的触发器72.0%-85.6%f1,用于参数角色。为了评估型号的概括性,我们使用了从模拟胸部X射线(MIMIC-CXR)数据库中随机采样的外部验证。该验证集的提取性能为95.6%,用于发现触发器和参数角色的79.1%-89.7%,表明模型与具有不同的成像模型的跨机构数据一致。我们从模拟CXR数据库中的所有放射学报告中提取了查找事件,并为研究界提供了提取。
translated by 谷歌翻译
使用现实世界数据的背景临床研究可能会受益于利用临床报告,这是一种特别丰富的非结构化培养基。为此,自然语言处理可以提取相关信息。使用预训练的语言模型基于转移学习的方法已在大多数NLP应用程序中实现了最先进的方法;但是,公开可用的模型缺乏接触专业语言,尤其是在医学领域。目标我们旨在评估将语言模型适应法国临床报告对下游医疗NLP任务的影响。方法我们利用从2017年8月至2021年7月在大巴黎大学医院(APHP)收集的2100万临床报告的语料库,以生产两种有关专业语言的卡梅蒙德体系结构:一项从Scratch中进行了再培训,另一个以Cammembert作为其初始化。我们使用两个法国注释的医学数据集将我们的语言模型与原始的Camembert网络进行比较,从而评估了Wilcoxon测试改进的统计意义。结果我们在临床报告上预估计的模型将APMED(APHP特定任务)的平均F1分数提高了3个百分点,达到91%,这是统计学上显着的改善。他们还达到了与Quaero上的原始Camembert相当的性能。这些结果适用于很少的预训练样品开始,从而对微调和划痕版本构成了这些结果。结论我们确认以前的文献表明,适应通才培训的语言模型(例如Camenbert on Specialty Corpora)改善了其下游临床NLP任务的性能。我们的结果表明,与微调相比,从头开始进行重新培训不会引起统计学上显着的性能增长。
translated by 谷歌翻译