智能论文笔记

Leveraging Natural Language Processing to Augment Structured Social Determinants of Health Data in the Electronic Health Record

Kevin Lybarger , Nicholas J Dobbins , Ritche Long , Angad Singh , Patrick Wedgeworth , Ozlem Ozuner , Meliha Yetisgen

分类：自然语言处理

2022-12-14

Objective: Social Determinants of Health (SDOH) influence personal health outcomes and health systems interactions. Health systems capture SDOH information through structured data and unstructured clinical notes; however, clinical notes often contain a more comprehensive representation of several key SDOH. The objective of this work is to assess the SDOH information gain achievable by extracting structured semantic representations of SDOH from the clinical narrative and combining these extracted representations with available structured data. Materials and Methods: We developed a natural language processing (NLP) information extraction model for SDOH that utilizes a deep learning entity and relation extraction architecture. In an electronic health record (EHR) case study, we applied the SDOH extractor to a large existing clinical data set with over 200,000 patients and 400,000 notes and compared the extracted information with available structured data. Results: The SDOH extractor achieved 0.86 F1 on a withheld test set. In the EHR case study, we found 19\% of current tobacco users, 10\% of drug users, and 32\% of homeless patients only include documentation of these risk factors in the clinical narrative. Conclusions: Patients who are at-risk for negative health outcomes due to SDOH may be better served if health systems are able to identify SDOH risk factors and associated social needs. Structured semantic representations of text-encoded SDOH information can augment existing structured, and this more comprehensive SDOH representation can assist health systems in identifying and addressing social needs.

translated by 谷歌翻译

Generalizing through Forgetting -- Domain Generalization for Symptom Event Extraction in Clinical Notes

Sitong Zhou , Kevin Lybarger , Meliha Yetisgen Mari Ostendorf

分类：自然语言处理

2022-09-20

症状信息主要记录在自由文本临床笔记中，并且无法直接用于下游应用。为了应对这一挑战，需要采用可以处理不同机构和专业的临床语言变化的信息提取方法。在本文中，我们使用预处理和微调数据介绍了症状提取的领域概括，这些数据在机构和/或专业和患者人群方面与目标领域不同。我们使用基于变压器的联合实体和关系提取方法提取症状事件。为了减少对域特异性特征的依赖，我们提出了一种域的概括方法，该方法可以动态掩盖源域中的频繁症状单词。此外，我们将变压器语言模型（LM）预先限定在与任务相关的无标记文本上，以更好地表示。我们的实验表明，当源域与目标域更遥远时，掩盖和自适应预处理方法可以显着提高性能。

translated by 谷歌翻译

Extracting Medication Changes in Clinical Narratives using Pre-trained Language Models

Giridhar Kaushik Ramachandran , Kevin Lybarger , Yaya Liu , Diwakar Mahajan , Jennifer J. Liang , Ching-Huei Tsou , Meliha Yetisgen , Özlem Uzuner

分类：自然语言处理

2022-08-17

对于医疗保健提供者提供适当的患者护理的准确和详细说明，包括患者时间表中的药物变化，至关重要。医疗保健提供者或患者本身可能会引发患者药物的改变。用药更改采用多种形式，包括处方药和相关剂量修饰。这些更改提供了有关患者整体健康以及导致当前护理的理由的信息。然后，未来的护理可以基于患者的最终状态。这项工作探讨了从自由文本临床注释中自动提取药物变化信息。上下文药物事件数据集（CMED）是临床注释的语料库，其注释可以通过多种变化相关的属性来表征药物变化，包括更改的类型（启动，停止，增加等），更改，时间性，时间性，时间性，时间性，时间性，时间。改变可能性和否定。使用CMED，我们确定了临床文本中的药物提及，并提出了三个新型的基于BERT的新型基于BERT的系统，以解决注释的药物变化特征。我们证明，我们建议的体系结构改善了对CMED的初始工作改善药物变更分类的性能。我们确定了0.959 F1的高性能的药物提及，我们提出的系统将药物变化及其属性分类为0.827 F1。

translated by 谷歌翻译

The Leaf Clinical Trials Corpus: a new resource for query generation from clinical trial eligibility criteria

Nicholas J Dobbins , Tony Mullen , Ozlem Uzuner , Meliha Yetisgen

分类：自然语言处理

2022-07-27

根据诸如医疗条件，程序和药物使用之类的资格标准，识别患者队列对于临床试验的招募至关重要。这种标准通常是在自由文本中最自然地描述的，使用临床医生和研究人员熟悉的语言。为了大规模识别潜在参与者，必须首先将这些标准转换为临床数据库的查询，这可能是劳动密集型且容易出错的。自然语言处理（NLP）方法提供了一种可能自动转换为数据库查询的潜在手段。但是，必须首先使用Corpora对其进行培训和评估，该语料库详细列出临床试验标准。在本文中，我们介绍了叶片临床试验（LCT）语料库，该语料库是一种使用高度颗粒状结构化标签，捕获一系列生物医学现象的人类向超过1000个临床试验资格标准描述。我们提供了我们的模式，注释过程，语料库质量和统计数据的详细信息。此外，我们提出了该语料库的基线信息提取结果，作为未来工作的基准。

translated by 谷歌翻译

Event-based clinical findings extraction from radiology reports with pre-trained language model

Wilson Lau , Kevin Lybarger , Martin L. Gunn , Meliha Yetisgen

分类：自然语言处理

2021-12-27

放射学报告含有在其解释图像中被放射科学家记录的多样化和丰富的临床异常。放射发现的综合语义表示将使广泛的次要使用应用来支持诊断，分类，结果预测和临床研究。在本文中，我们提出了一种新的放射学报告语料库，注释了临床调查结果。我们的注释模式捕获了可观察到的病理发现的详细说明（“病变”）和其他类型的临床问题（“医学问题”）。该模式使用了基于事件的表示来捕获细粒细节，包括断言，解剖学，特征，大小，计数等。我们的黄金标准语料库包含总共500个注释的计算机断层扫描（CT）报告。我们利用两个最先进的深度学习架构提取了触发器和论证实体，包括伯特。然后，我们使用基于BERT的关系提取模型预测触发器和参数实体（称为参数角色）之间的连接。我们使用预先从我们的机构的300万放射学报告预先培训的BERT模型实现了最佳提取性能：90.9％-93.4％f1用于查找触发器的触发器72.0％-85.6％f1，用于参数角色。为了评估型号的概括性，我们使用了从模拟胸部X射线（MIMIC-CXR）数据库中随机采样的外部验证。该验证集的提取性能为95.6％，用于发现触发器和参数角色的79.1％-89.7％，表明模型与具有不同的成像模型的跨机构数据一致。我们从模拟CXR数据库中的所有放射学报告中提取了查找事件，并为研究界提供了提取。

translated by 谷歌翻译

The NLP Sandbox: an efficient model-to-data system to enable federated and unbiased evaluation of clinical NLP models

Yao Yan , Thomas Yu , Kathleen Muenzen , Sijia Liu , Connor Boyle , George Koslowski , Jiaxin Zheng , Nicholas Dobbins , Clement Essien , Hongfang Liu

分类：自然语言处理 | 人工智能

2022-06-28

目的是对临床文本去识别的自然语言处理（NLP）模型的评估取决于临床注释的可用性，临床注释通常由于隐私问题而受到限制。 NLP沙盒是一种通过采用联合模型到数据的方法来减轻NLP模型缺乏数据和评估框架的方法。这使得无偏见的联合模型评估无需共享多个机构的敏感数据。材料和方法我们利用Synapse协作框架，容器化软件和OpenAPI Generator来构建NLP沙盒（NLPSANDBOX.IO）。我们使用来自三个机构的数据评估了两个最先进的NLP去识别注释模型Philter和Neuroner。我们使用来自外部验证站点的数据进一步验证了模型性能。结果我们通过去识别临床模型评估证明了NLP沙箱的有用性。外部开发人员能够将其模型纳入NLP沙盒模板中，并提供用户体验反馈。讨论我们证明了使用NLP沙箱对临床文本去识别模型进行多站点评估的可行性，而无需共享数据。标准化模型和数据模式可以使模型传输和实现平稳。为了概括NLP沙箱，数据所有者和模型开发人员需要进行工作，以开发合适和标准化的模式，并调整其数据或模型以适合模式。结论NLP沙箱降低了利用临床数据进行NLP模型评估的障碍，并促进了联合会的NLP模型的联合，多站点，无偏见的评估。

translated by 谷歌翻译