痴呆症是一种神经退行性疾病,导致认知下降,并影响全世界超过5000万人。痴呆症是由医疗保健专业人士诊断的 - 只有患有痴呆症的四个人中只有一名诊断出来。即使制造诊断,也可能无法作为患者图表中的疾病(ICD)诊断码的结构化国际分类。与认知障碍(CI)有关的信息通常在电子健康记录(EHR)中发现,但专家临床医生票据的手工审查既耗时,往往容易出错。本票据的自动化挖掘为在EHR数据中标记有认知障碍患者的机会。我们开发了自然语言处理(NLP)工具,以识别具有认知障碍的患者,并证明语言背景提高了认知障碍分类任务的性能。我们微调我们的注意力深入学习模型,可以从复杂的语言结构中学习,并且相对于基线NLP模型的精度(0.93)大大提高(0.84)。此外,我们表明深度学习NLP可以成功识别没有痴呆相关的ICD代码或药物的痴呆症患者。
translated by 谷歌翻译
与痴呆症相关的认知障碍(CI)在全球范围内影响超过5500万人,并且每3秒钟以一个新病例的速度迅速增长。随着临床试验反复出现的失败,早期诊断至关重要,但是在低水平和中等收入国家中,全球75%的痴呆症病例未被诊断为90%。众所周知,当前的诊断方法是复杂的,涉及对医学笔记,大量认知测试,昂贵的脑部扫描或脊柱液体测试的手动审查。与CI相关的信息经常在电子健康记录(EHR)中找到,并且可以为早期诊断提供重要线索,但是专家的手动审查是繁琐的,并且容易发生。该项目开发了一种新型的最新自动筛选管道,用于可扩展和高速发现EHR中的CI。为了了解EHR中复杂语言结构的语言环境,构建了一个8,656个序列的数据库,以训练基于注意力的深度学习自然语言处理模型以对序列进行分类。使用序列级别分类器开发了基于逻辑回归的患者级别预测模型。深度学习系统的精度达到了93%,AUC = 0.98,以识别其EHR中没有较早诊断,与痴呆有关的诊断代码或与痴呆有关的药物的患者。否则,这些患者将未被发现或检测到太晚。 EHR筛选管道已部署在Neurahealthnlp中,这是一种用于自动化和实时CI筛选的Web应用程序,只需将EHR上传到浏览器中即可。 Neurahealthnlp更便宜,更快,更容易获得,并且胜过当前的临床方法,包括基于文本的分析和机器学习方法。它使得早期诊断可在稀缺的医疗服务中可行,但可访问的互联网或蜂窝服务。
translated by 谷歌翻译
Systemic Lupus红斑(SLE)是一种罕见的自身免疫疾病,其特征是令人无法预测的耀斑和缓解的速度,具有不同的表现形式。狼疮性肾炎,SLE用于器官损伤和死亡率的主要疾病表现之一,是卢布斯分类标准的关键组成部分。因此,准确地鉴定电子健康记录(EHRS)中的狼疮性肾炎将使大型队列观察研究和临床试验有益于患者人口的表征对于招聘,研究设计和分析至关重要。可以通过程序代码和结构化数据来认可狼疮肾炎,例如实验室测试。然而,记录狼疮肾炎的其他关键信息,例如来自肾脏活检和先前的医学史叙事的组织学报告,需要复杂的文本处理,以从病理报告和临床笔记中挖掘信息。在这项研究中,我们开发了使用EHR数据识别鉴定狼疮肾炎的血管肾炎,而不使用自然语言处理(NLP)。我们开发了四种算法:仅使用结构化数据(基线算法)和使用不同NLP模型的三种算法的规则的算法。这三种NLP模型基于正则化逻辑回归,并使用不同的特征集,包括积极提及概念独特标识符(Cue),耐备的外观数量,以及三个部件的混合物。基线算法和最佳执行的NLP算法在Vanderbilt University Center(VUMC)的数据集上验证了外部验证。我们最佳地执行来自结构化数据,正则表达式概念和映射的特征的NLP模型,与基线狼疮性肾炎算法相比,在NMEDW(0.41 VS 0.79)和VUMC(0.62 VS 0.96)数据集中有所改善。
translated by 谷歌翻译
Objective: We aim to develop an open-source natural language processing (NLP) package, SODA (i.e., SOcial DeterminAnts), with pre-trained transformer models to extract social determinants of health (SDoH) for cancer patients, examine the generalizability of SODA to a new disease domain (i.e., opioid use), and evaluate the extraction rate of SDoH using cancer populations. Methods: We identified SDoH categories and attributes and developed an SDoH corpus using clinical notes from a general cancer cohort. We compared four transformer-based NLP models to extract SDoH, examined the generalizability of NLP models to a cohort of patients prescribed with opioids, and explored customization strategies to improve performance. We applied the best NLP model to extract 19 categories of SDoH from the breast (n=7,971), lung (n=11,804), and colorectal cancer (n=6,240) cohorts. Results and Conclusion: We developed a corpus of 629 cancer patients notes with annotations of 13,193 SDoH concepts/attributes from 19 categories of SDoH. The Bidirectional Encoder Representations from Transformers (BERT) model achieved the best strict/lenient F1 scores of 0.9216 and 0.9441 for SDoH concept extraction, 0.9617 and 0.9626 for linking attributes to SDoH concepts. Fine-tuning the NLP models using new annotations from opioid use patients improved the strict/lenient F1 scores from 0.8172/0.8502 to 0.8312/0.8679. The extraction rates among 19 categories of SDoH varied greatly, where 10 SDoH could be extracted from >70% of cancer patients, but 9 SDoH had a low extraction rate (<70% of cancer patients). The SODA package with pre-trained transformer models is publicly available at https://github.com/uf-hobiinformatics-lab/SDoH_SODA.
translated by 谷歌翻译
医疗领域通常会受到信息超负荷的约束。医疗保健的数字化,在线医疗存储库的不断更新以及生物医学数据集的可用性增加使得有效分析数据变得具有挑战性。这为严重依赖医疗数据的医疗专业人员创造了其他工作,以完成研究并咨询患者。本文旨在展示不同的文本突出显示技术如何捕获相关的医疗环境。这将通过促进更快的决定,从而改善在线医疗服务的整体质量,从而减少医生对患者的认知负担和反应时间。实施和评估了三个不同的单词级文本突出显示方法。第一个方法使用TF-IDF分数直接突出文本的重要部分。第二种方法是TF-IDF分数的组合以及将局部可解释的模型 - 静态解释应用于分类模型。第三种方法直接使用神经网络来预测是否应突出显示单词。我们的实验结果表明,神经网络方法成功地突出了医学上的术语,并且随着输入段的大小的增加,其性能得到了提高。
translated by 谷歌翻译
这项研究提出了一个多模式的机器学习模型,以预测ICD-10诊断代码。我们开发了单独的机器学习模型,可以处理来自不同模式的数据,包括非结构化文本,半结构化文本和结构化表格数据。我们进一步采用了合奏方法来集成所有模式特异性模型以生成ICD-10代码。还提取了主要证据,以使我们的预测更具说服力和可解释。我们使用医学信息集市进行重症监护III(模拟-III)数据集来验证我们的方法。对于ICD代码预测,我们的表现最佳模型(Micro-F1 = 0.7633,Micro-AUC = 0.9541)显着超过其他基线模型,包括TF-IDF(Micro-F1 = 0.6721,Micro-AUC = 0.7879)和Text-CNN模型(Micro-F1 = 0.6569,Micro-AUC = 0.9235)。为了解释性,我们的方法在文本数据上实现了JACCARD相似性系数(JSC)为0.1806,在表格数据上分别获得了0.3105,训练有素的医生分别达到0.2780和0.5002。
translated by 谷歌翻译
The application of natural language processing (NLP) to cancer pathology reports has been focused on detecting cancer cases, largely ignoring precancerous cases. Improving the characterization of precancerous adenomas assists in developing diagnostic tests for early cancer detection and prevention, especially for colorectal cancer (CRC). Here we developed transformer-based deep neural network NLP models to perform the CRC phenotyping, with the goal of extracting precancerous lesion attributes and distinguishing cancer and precancerous cases. We achieved 0.914 macro-F1 scores for classifying patients into negative, non-advanced adenoma, advanced adenoma and CRC. We further improved the performance to 0.923 using an ensemble of classifiers for cancer status classification and lesion size named entity recognition (NER). Our results demonstrated the potential of using NLP to leverage real-world health record data to facilitate the development of diagnostic tests for early cancer prevention.
translated by 谷歌翻译
与生物医学命名实体识别任务有关的挑战是:现有方法考虑了较少数量的生物医学实体(例如疾病,症状,蛋白质,基因);这些方法不考虑健康的社会决定因素(年龄,性别,就业,种族),这是与患者健康有关的非医学因素。我们提出了一条机器学习管道,该管道通过以下方式改善了以前的努力:首先,它认识到标准类型以外的许多生物医学实体类型;其次,它考虑了与患者健康有关的非临床因素。该管道还包括阶段,例如预处理,令牌化,映射嵌入查找和命名实体识别任务,以从自由文本中提取生物医学命名实体。我们提出了一个新的数据集,我们通过策划COVID-19案例报告来准备。所提出的方法的表现优于五个基准数据集上的基线方法,其宏观和微平均F1得分约为90,而我们的数据集则分别为95.25和93.18的宏观和微平均F1得分。
translated by 谷歌翻译
Question: Can an encoder-decoder architecture pretrained on a large dataset of longitudinal electronic health records improves patient outcome predictions? Findings: In this prognostic study of 6.8 million patients, our denoising sequence-to-sequence prediction model of multiple outcomes outperformed state-of-the-art models scuh pretrained BERT on a broad range of patient outcomes, including intentional self-harm and pancreatic cancer. Meaning: Deep bidirectional and autoregressive representation improves patient outcome prediction.
translated by 谷歌翻译
尽管变压器语言模型(LMS)是信息提取的最新技术,但长文本引入了需要次优的预处理步骤或替代模型体系结构的计算挑战。稀疏注意的LMS可以代表更长的序列,克服性能障碍。但是,目前尚不清楚如何解释这些模型的预测,因为并非所有令牌都在自我发项层中相互参加,而在运行时,长序列对可解释性算法提出了计算挑战,而当运行时取决于文档长度。这些挑战在文档可能很长的医学环境中是严重的,机器学习(ML)模型必须是审核和值得信赖的。我们介绍了一种新颖的蒙版抽样程序(MSP),以识别有助于预测的文本块,将MSP应用于预测医学文本诊断的背景下,并通过两位临床医生的盲目审查来验证我们的方法。我们的方法比以前的最先进的临床信息块高约1.7倍,速度更快100倍,并且可用于生成重要的短语对。 MSP特别适合长LMS,但可以应用于任何文本分类器。我们提供了MSP的一般实施。
translated by 谷歌翻译
医疗保健提供者通常会记录给每位患者提供临床,研究和计费目的的临床护理的详细说明。由于这些叙述的非结构性性质,提供者使用专门的员工使用国际疾病(ICD)编码系统为患者的诊断分配诊断代码。此手动过程不仅耗时,而且昂贵且容易出错。先前的工作证明了机器学习(ML)方法在自动化此过程中的潜在效用,但它依靠大量手动标记数据来训练模型。此外,诊断编码系统随着时间的流逝而演变,这使得传统的监督学习策略无法推广到本地应用程序之外。在这项工作中,我们引入了一个普遍的弱监督文本分类框架,该框架仅从类标签描述中学习,而无需使用任何人类标记的文档。它利用预先训练的语言模型中存储的语言领域知识和数据编程框架将代码标签分配给单个文本。我们通过将方法与四个现实世界文本分类数据集中的最先进的弱文本分类器进行比较,除了将ICD代码分配给公开可用的模拟MIMIC-III数据库中的医疗注释外,我们证明了我们的方法的功效和灵活性。
translated by 谷歌翻译
计算文本表型是从临床注释中鉴定出患有某些疾病和特征的患者的实践。由于很少有用于机器学习的案例和域专家的数据注释需求,因此难以识别的罕见疾病要确定。我们提出了一种使用本体论和弱监督的方法,并具有来自双向变压器(例如BERT)的最新预训练的上下文表示。基于本体的框架包括两个步骤:(i)文本到umls,通过上下文将提及与统一医学语言系统(UMLS)中的概念链接到命名的实体识别和链接(NER+L)工具,SemeHR中提取表型。 ,以及具有自定义规则和上下文提及表示的弱监督; (ii)UMLS-to-to-ordo,将UMLS概念与孤子罕见疾病本体论(ORDO)中的罕见疾病相匹配。提出了弱监督的方法来学习一个表型确认模型,以改善链接的文本对umls,而没有域专家的注释数据。我们评估了来自美国和英国两个机构的三个出院摘要和放射学报告的临床数据集的方法。我们最好的弱监督方法获得了81.4%的精度和91.4%的召回,从模仿III出院摘要中提取罕见疾病UMLS表型。总体管道处理临床笔记可以表面罕见疾病病例,其中大部分在结构化数据(手动分配的ICD代码)中没有受到平衡。关于模仿III和NHS Tayside的放射学报告的结果与放电摘要一致。我们讨论了弱监督方法的有用性,并提出了未来研究的方向。
translated by 谷歌翻译
Objective: Social Determinants of Health (SDOH) influence personal health outcomes and health systems interactions. Health systems capture SDOH information through structured data and unstructured clinical notes; however, clinical notes often contain a more comprehensive representation of several key SDOH. The objective of this work is to assess the SDOH information gain achievable by extracting structured semantic representations of SDOH from the clinical narrative and combining these extracted representations with available structured data. Materials and Methods: We developed a natural language processing (NLP) information extraction model for SDOH that utilizes a deep learning entity and relation extraction architecture. In an electronic health record (EHR) case study, we applied the SDOH extractor to a large existing clinical data set with over 200,000 patients and 400,000 notes and compared the extracted information with available structured data. Results: The SDOH extractor achieved 0.86 F1 on a withheld test set. In the EHR case study, we found 19\% of current tobacco users, 10\% of drug users, and 32\% of homeless patients only include documentation of these risk factors in the clinical narrative. Conclusions: Patients who are at-risk for negative health outcomes due to SDOH may be better served if health systems are able to identify SDOH risk factors and associated social needs. Structured semantic representations of text-encoded SDOH information can augment existing structured, and this more comprehensive SDOH representation can assist health systems in identifying and addressing social needs.
translated by 谷歌翻译
Importance: Social determinants of health (SDOH) are known to be associated with increased risk of suicidal behaviors, but few studies utilized SDOH from unstructured electronic health record (EHR) notes. Objective: To investigate associations between suicide and recent SDOH, identified using structured and unstructured data. Design: Nested case-control study. Setting: EHR data from the US Veterans Health Administration (VHA). Participants: 6,122,785 Veterans who received care in the US VHA between October 1, 2010, and September 30, 2015. Exposures: Occurrence of SDOH over a maximum span of two years compared with no occurrence of SDOH. Main Outcomes and Measures: Cases of suicide deaths were matched with 4 controls on birth year, cohort entry date, sex, and duration of follow-up. We developed an NLP system to extract SDOH from unstructured notes. Structured data, NLP on unstructured data, and combining them yielded seven, eight and nine SDOH respectively. Adjusted odds ratios (aORs) and 95% confidence intervals (CIs) were estimated using conditional logistic regression. Results: In our cohort, 8,821 Veterans committed suicide during 23,725,382 person-years of follow-up (incidence rate 37.18 /100,000 person-years). Our cohort was mostly male (92.23%) and white (76.99%). Across the six common SDOH as covariates, NLP-extracted SDOH, on average, covered 84.38% of all SDOH occurrences. All SDOH, measured by structured data and NLP, were significantly associated with increased risk of suicide. The SDOH with the largest effects was legal problems (aOR=2.67, 95% CI=2.46-2.89), followed by violence (aOR=2.26, 95% CI=2.11-2.43). NLP-extracted and structured SDOH were also associated with suicide. Conclusions and Relevance: NLP-extracted SDOH were always significantly associated with increased risk of suicide among Veterans, suggesting the potential of NLP in public health studies.
translated by 谷歌翻译
临床文本注释(CTN)包含医生的推理过程,以非结构化的自由文本格式编写,他们检查和采访患者。近年来,已经发表了几项研究,这些研究为机器学习的实用性提供了证据,以预测CTN的医生诊断,这是一项称为ICD编码的任务。数据注释很耗时,尤其是在需要一定程度的专业化时,就像医疗数据一样。本文提出了一种以半自我监督的方式增强冰岛CTN的稀疏注释数据集的方法。我们在一小部分带注释的CTN上训练神经网络,并使用它从一组未通畅的CTN中提取临床特征。这些临床特征包括对医生可能会在患者咨询期间找到答案的大约一千个潜在问题的答案。然后,这些功能用于训练分类器以诊断某些类型的疾病。我们报告了对医生的三个数据可用性评估该数据增强方法的评估结果。我们的数据增强方法显示出显着的积极作用,当检查患者和诊断的临床特征时,这会减少。我们建议使用基于不包括考试或测试的临床特征做出决策的系统增强稀缺数据集的方法。
translated by 谷歌翻译
临床笔记是临床医生在患者遭遇期间产生的非结构化文本。临床票据通常伴随着来自疾病的国际分类(ICD)的一组元数据代码。 ICD代码是各种操作中使用的重要代码,包括保险,报销,医学诊断等,因此,重要的是快速准确地分类ICD代码。但是,注释这些代码是昂贵且耗时的。因此,我们使用用于自动ICD代码分配的序列注意方法,提出基于来自变压器(BERT)的双向编码器表示的模型。我们评估我们对重症监护III(MIMIC-III)基准数据集的医疗信息MART的方法。我们的模型实现了宏观平均为F1:0.62898和微平均F1:0.68555的性能,并且使用MIMIC-III数据集执行优于最先进模型的性能。本研究的贡献提出了一种使用伯特的方法,该方法可以应用于文档和序列注意方法,该方法可以捕获在文档中出现的重要序列形式。
translated by 谷歌翻译
临床数据管理系统和人工智能方法的快速进展使个性化药物的时代能够。重症监护单位(ICU)是这种发展的理想临床研究环境,因为它们收集了许多临床数据,并且是高度计算机化的环境。我们在使用临床自然语言的前瞻性ICU数据库中设计了一种回顾性临床研究,帮助早期诊断严重生病的儿童心力衰竭。该方法包括学习算法的实证实验,以了解法国临床票据数据的隐藏解释和呈现。本研究包括1386名患者的临床票据,符合5444行票据。有1941个阳性案件(总计36%)和3503个使用标准方法的独立医生分类的负案件。多层的感知者神经网络优于其他判别和生成的分类器。因此,所提出的框架产生了总体分类性能,精度为89%,召回88%和89%的精度。本研究成功地应用了学习代表和机器学习算法,以检测单一法国机构中的临床自然语言的心力衰竭。需要进一步的工作来在其他机构和其他语言中使用相同的方法。
translated by 谷歌翻译
症状检查已成为收集症状和诊断患者的重要工具,最大限度地减少临床人员的参与。我们开发了一种机器学习支持的系统,智能曲线,超越传统症状,通过与电子医疗记录(EMR)紧密的双向集成。在EMR衍生的患者历史上,我们的系统将患者的首席投诉识别自由文本条目,然后询问一系列离散问题以获得相关的症状学。患者特定数据用于预测详细的ICD-10-CM代码以及药物,实验室和成像订单。然后将患者的反应和临床决策支持(CDS)预测插入EMR。要培训机器学习组件的智能路程,我们使用了超过2500万级初级保健遭遇的新型数据集和100万患者的自由文本原因的参赛作品。这些数据集用于构建:(1)基于长的短期存储器(LSTM)的患者历史表示,(2)用于首发投诉提取的微调变压器模型,(3)一个用于问题测序的随机林模型, (4)用于CDS预测的前馈网络。我们的系统总共支持337名患者的首席投诉,该投诉共同组成了Kaiser Permanente的所有初级保健费用。
translated by 谷歌翻译
误诊率是医院医疗错误的主要原因之一,影响了美国超过1200万成年人。为了解决误诊的高率,本研究利用4种基于NLP的算法根据非结构化转录报告来确定适当的健康状况。从逻辑回归,随机森林,LSTM和CNNLSTM模型中,CNN-LSTM模型的精度为97.89%,表现最好。我们将该模型打包到了经过身份验证的网络平台中,以便为临床医生提供可访问的援助。总体而言,通过标准化医疗保健诊断和结构转录报告,我们的NLP平台极大地提高了全球医院的临床效率和准确性。
translated by 谷歌翻译
虽然罕见疾病的特征在于患病率低,但大约3亿人受到罕见疾病的影响。对这些条件的早期和准确诊断是一般从业者的主要挑战,没有足够的知识来识别它们。除此之外,罕见疾病通常会显示各种表现形式,这可能会使诊断更加困难。延迟的诊断可能会对患者的生命产生负面影响。因此,迫切需要增加关于稀有疾病的科学和医学知识。自然语言处理(NLP)和深度学习可以帮助提取有关罕见疾病的相关信息,以促进其诊断和治疗。本文探讨了几种深度学习技术,例如双向长期内存(BILSTM)网络或基于来自变压器(BERT)的双向编码器表示的深层语境化词表示,以识别罕见疾病及其临床表现(症状和症状) Raredis语料库。该毒品含有超过5,000名罕见疾病和近6,000个临床表现。 Biobert,基于BERT和培训的生物医学Corpora培训的域特定语言表示,获得了最佳结果。特别是,该模型获得罕见疾病的F1分数为85.2%,表现优于所有其他模型。
translated by 谷歌翻译