智能论文笔记

NeuraHealth: An Automated Screening Pipeline to Detect Undiagnosed Cognitive Impairment in Electronic Health Records with Deep Learning and Natural Language Processing

Tanish Tyagi , Colin G. Magdamo , Ayush Noori , Zhaozhi Li , Xiao Liu , Mayuresh Deodhar , Zhuoqiao Hong , Wendong Ge , Elissa M. Ye , Yi-han Sheu

分类：自然语言处理

2022-01-12

与痴呆症相关的认知障碍（CI）在全球范围内影响超过5500万人，并且每3秒钟以一个新病例的速度迅速增长。随着临床试验反复出现的失败，早期诊断至关重要，但是在低水平和中等收入国家中，全球75％的痴呆症病例未被诊断为90％。众所周知，当前的诊断方法是复杂的，涉及对医学笔记，大量认知测试，昂贵的脑部扫描或脊柱液体测试的手动审查。与CI相关的信息经常在电子健康记录（EHR）中找到，并且可以为早期诊断提供重要线索，但是专家的手动审查是繁琐的，并且容易发生。该项目开发了一种新型的最新自动筛选管道，用于可扩展和高速发现EHR中的CI。为了了解EHR中复杂语言结构的语言环境，构建了一个8,656个序列的数据库，以训练基于注意力的深度学习自然语言处理模型以对序列进行分类。使用序列级别分类器开发了基于逻辑回归的患者级别预测模型。深度学习系统的精度达到了93％，AUC = 0.98，以识别其EHR中没有较早诊断，与痴呆有关的诊断代码或与痴呆有关的药物的患者。否则，这些患者将未被发现或检测到太晚。 EHR筛选管道已部署在Neurahealthnlp中，这是一种用于自动化和实时CI筛选的Web应用程序，只需将EHR上传到浏览器中即可。 Neurahealthnlp更便宜，更快，更容易获得，并且胜过当前的临床方法，包括基于文本的分析和机器学习方法。它使得早期诊断可在稀缺的医疗服务中可行，但可访问的互联网或蜂窝服务。

translated by 谷歌翻译

Using Deep Learning to Identify Patients with Cognitive Impairment in Electronic Health Records

Tanish Tyagi , Colin G. Magdamo , Ayush Noori , Zhaozhi Li , Xiao Liu , Mayuresh Deodhar , Zhuoqiao Hong , Wendong Ge , Elissa M. Ye , Yi-han Sheu

分类：自然语言处理 | 机器学习

2021-11-13

痴呆症是一种神经退行性疾病，导致认知下降，并影响全世界超过5000万人。痴呆症是由医疗保健专业人士诊断的 - 只有患有痴呆症的四个人中只有一名诊断出来。即使制造诊断，也可能无法作为患者图表中的疾病（ICD）诊断码的结构化国际分类。与认知障碍（CI）有关的信息通常在电子健康记录（EHR）中发现，但专家临床医生票据的手工审查既耗时，往往容易出错。本票据的自动化挖掘为在EHR数据中标记有认知障碍患者的机会。我们开发了自然语言处理（NLP）工具，以识别具有认知障碍的患者，并证明语言背景提高了认知障碍分类任务的性能。我们微调我们的注意力深入学习模型，可以从复杂的语言结构中学习，并且相对于基线NLP模型的精度（0.93）大大提高（0.84）。此外，我们表明深度学习NLP可以成功识别没有痴呆相关的ICD代码或药物的痴呆症患者。

translated by 谷歌翻译

Word-level Text Highlighting of Medical Texts for Telehealth Services

Ozan Ozyegen , Devika Kabe , Mucahit Cevik

分类：机器学习

2021-05-21

医疗领域通常会受到信息超负荷的约束。医疗保健的数字化，在线医疗存储库的不断更新以及生物医学数据集的可用性增加使得有效分析数据变得具有挑战性。这为严重依赖医疗数据的医疗专业人员创造了其他工作，以完成研究并咨询患者。本文旨在展示不同的文本突出显示技术如何捕获相关的医疗环境。这将通过促进更快的决定，从而改善在线医疗服务的整体质量，从而减少医生对患者的认知负担和反应时间。实施和评估了三个不同的单词级文本突出显示方法。第一个方法使用TF-IDF分数直接突出文本的重要部分。第二种方法是TF-IDF分数的组合以及将局部可解释的模型 - 静态解释应用于分类模型。第三种方法直接使用神经网络来预测是否应突出显示单词。我们的实验结果表明，神经网络方法成功地突出了医学上的术语，并且随着输入段的大小的增加，其性能得到了提高。

translated by 谷歌翻译

Improving Clinical Efficiency and Reducing Medical Errors through NLP-enabled diagnosis of Health Conditions from Transcription Reports

Krish Maniar , Shafin Haque , Kabir Ramzan

分类：机器学习

2022-06-27

误诊率是医院医疗错误的主要原因之一，影响了美国超过1200万成年人。为了解决误诊的高率，本研究利用4种基于NLP的算法根据非结构化转录报告来确定适当的健康状况。从逻辑回归，随机森林，LSTM和CNNLSTM模型中，CNN-LSTM模型的精度为97.89％，表现最好。我们将该模型打包到了经过身份验证的网络平台中，以便为临床医生提供可访问的援助。总体而言，通过标准化医疗保健诊断和结构转录报告，我们的NLP平台极大地提高了全球医院的临床效率和准确性。

translated by 谷歌翻译

Extend and Explain: Interpreting Very Long Language Models

Joel Stremmel , Brian L. Hill , Jeffrey Hertzberg , Jaime Murillo , Llewelyn Allotey , Eran Halperin

分类：自然语言处理

2022-09-02

尽管变压器语言模型（LMS）是信息提取的最新技术，但长文本引入了需要次优的预处理步骤或替代模型体系结构的计算挑战。稀疏注意的LMS可以代表更长的序列，克服性能障碍。但是，目前尚不清楚如何解释这些模型的预测，因为并非所有令牌都在自我发项层中相互参加，而在运行时，长序列对可解释性算法提出了计算挑战，而当运行时取决于文档长度。这些挑战在文档可能很长的医学环境中是严重的，机器学习（ML）模型必须是审核和值得信赖的。我们介绍了一种新颖的蒙版抽样程序（MSP），以识别有助于预测的文本块，将MSP应用于预测医学文本诊断的背景下，并通过两位临床医生的盲目审查来验证我们的方法。我们的方法比以前的最先进的临床信息块高约1.7倍，速度更快100倍，并且可用于生成重要的短语对。 MSP特别适合长LMS，但可以应用于任何文本分类器。我们提供了MSP的一般实施。

translated by 谷歌翻译

Auto Response Generation in Online Medical Chat Services

Hadi Jahanshahi , Syed Kazmi , Mucahit Cevik

分类：自然语言处理 | 机器学习

2021-04-26

通过为患者启用远程医疗服务，远程医疗有助于促进医疗专业人员的机会。随着必要的技术基础设施的出现，这些服务已逐渐流行。自从Covid-19危机开始以来，远程医疗的好处就变得更加明显，因为人们在大流行期间倾向于亲自探望医生。在本文中，我们专注于促进医生和患者之间的聊天课程。我们注意到，随着对远程医疗服务的需求的增加，聊天体验的质量和效率可能至关重要。因此，我们为医学对话开发了一种智能的自动反应生成机制，该机制可帮助医生有效地对咨询请求做出反应，尤其是在繁忙的课程中。我们探索了9个月内收集的医生和患者之间的900,000多个匿名的历史在线信息。我们实施聚类算法，以确定医生最常见的响应，并相应地手动标记数据。然后，我们使用此预处理数据来训练机器学习算法以生成响应。所考虑的算法有两个步骤：过滤（即触发）模型，以滤除不可行的患者消息和一个响应发生器，以建议成功通过触发阶段的响应前3位医生响应。该方法为Precision@3提供了83.28 \％的精度，并显示出其参数的鲁棒性。

translated by 谷歌翻译

Progress and Challenges for the Application of Machine Learning for Neglected Tropical Diseases

Chung Yuen Khew , Rahmad Akbar , Norfarhan Mohd. Assaad

分类：机器学习

2022-12-02

Neglected tropical diseases (NTDs) continue to affect the livelihood of individuals in countries in the Southeast Asia and Western Pacific region. These diseases have been long existing and have caused devastating health problems and economic decline to people in low- and middle-income (developing) countries. An estimated 1.7 billion of the world's population suffer one or more NTDs annually, this puts approximately one in five individuals at risk for NTDs. In addition to health and social impact, NTDs inflict significant financial burden to patients, close relatives, and are responsible for billions of dollars lost in revenue from reduced labor productivity in developing countries alone. There is an urgent need to better improve the control and eradication or elimination efforts towards NTDs. This can be achieved by utilizing machine learning tools to better the surveillance, prediction and detection program, and combat NTDs through the discovery of new therapeutics against these pathogens. This review surveys the current application of machine learning tools for NTDs and the challenges to elevate the state-of-the-art of NTDs surveillance, management, and treatment.

translated by 谷歌翻译

Detecting of a Patient's Condition From Clinical Narratives Using Natural Language Representation

Thanh-Dung Le , Rita Noumeir , Jerome Rambaud , Guillaume Sans , Philippe Jouvet

分类：自然语言处理

2021-04-08

临床数据管理系统和人工智能方法的快速进展使个性化药物的时代能够。重症监护单位（ICU）是这种发展的理想临床研究环境，因为它们收集了许多临床数据，并且是高度计算机化的环境。我们在使用临床自然语言的前瞻性ICU数据库中设计了一种回顾性临床研究，帮助早期诊断严重生病的儿童心力衰竭。该方法包括学习算法的实证实验，以了解法国临床票据数据的隐藏解释和呈现。本研究包括1386名患者的临床票据，符合5444行票据。有1941个阳性案件（总计36％）和3503个使用标准方法的独立医生分类的负案件。多层的感知者神经网络优于其他判别和生成的分类器。因此，所提出的框架产生了总体分类性能，精度为89％，召回88％和89％的精度。本研究成功地应用了学习代表和机器学习算法，以检测单一法国机构中的临床自然语言的心力衰竭。需要进一步的工作来在其他机构和其他语言中使用相同的方法。

translated by 谷歌翻译

Modelling Patient Trajectories Using Multimodal Information

João Figueira Silva , Sérgio Matos

分类：机器学习

2022-09-09

电子健康记录（EHRS）在患者级别汇总了多种信息，并保留了整个时间内患者健康状况进化的轨迹代表。尽管此信息提供了背景，并且可以由医生利用以监控患者的健康并进行更准确的预后/诊断，但患者记录可以包含长期跨度的信息，这些信息与快速生成的医疗数据速率相结合，使临床决策变得更加复杂。患者轨迹建模可以通过以可扩展的方式探索现有信息来帮助，并可以通过促进预防医学实践来增强医疗保健质量。我们为建模患者轨迹提出了一种解决方案，该解决方案结合了不同类型的信息并考虑了临床数据的时间方面。该解决方案利用了两种不同的架构：一组支持灵活的输入功能集，以将患者的录取转换为密集的表示；以及在基于复发的架构中进行的第二次探索提取的入院表示，其中使用滑动窗口机制在子序列中处理患者轨迹。使用公开可用的模仿III临床数据库评估了开发的解决方案，以两种不同的临床结果，意外的患者再入院和疾病进展。获得的结果证明了第一个体系结构使用单个患者入院进行建模和诊断预测的潜力。虽然临床文本中的信息并未显示在其他现有作品中观察到的判别能力，但这可以通过微调临床模型来解释。最后，我们使用滑动窗口机制来表示基于序列的体系结构的潜力，以表示输入数据，从而获得与其他现有解决方案的可比性能。

translated by 谷歌翻译

Multimodal Attention-based Deep Learning for Alzheimer's Disease Diagnosis

Michal Golovanevsky , Carsten Eickhoff , Ritambhara Singh

分类：机器学习 | 计算机视觉

2022-06-17

阿尔茨海默氏病（AD）是最常见的神经退行性疾病，具有最复杂的病原体之一，使有效且临床上可行的决策变得困难。这项研究的目的是开发一个新型的多模式深度学习框架，以帮助医疗专业人员进行AD诊断。我们提出了一个多模式的阿尔茨海默氏病诊断框架（MADDI），以准确检测成像，遗传和临床数据中的AD和轻度认知障碍（MCI）。 Maddi是新颖的，因为我们使用跨模式的注意力，它捕获了模态之间的相互作用 - 这种域中未探讨的方法。我们执行多级分类，这是一项艰巨的任务，考虑到MCI和AD之间的相似之处。我们与以前的最先进模型进行比较，评估注意力的重要性，并检查每种模式对模型性能的贡献。 Maddi在持有的测试集中对MCI，AD和控件进行了96.88％的精度分类。在检查不同注意力方案的贡献时，我们发现跨模式关注与自我注意力的组合表现出了最佳状态，并且模型中没有注意力层表现最差，而F1分数差异为7.9％。我们的实验强调了结构化临床数据的重要性，以帮助机器学习模型将其背景化和解释其余模式化。广泛的消融研究表明，未访问结构化临床信息的任何多模式混合物都遭受了明显的性能损失。这项研究证明了通过跨模式的注意组合多种输入方式的优点，以提供高度准确的AD诊断决策支持。

translated by 谷歌翻译

The Prominence of Artificial Intelligence in COVID-19

MD Abdullah Al Nasim , Aditi Dhali , Faria Afrin , Noshin Tasnim Zaman , Nazmul Karim

分类：机器学习 | 人工智能

2021-11-18

2019年12月，一个名为Covid-19的新型病毒导致了迄今为止的巨大因果关系。与新的冠状病毒的战斗在西班牙语流感后令人振奋和恐怖。虽然前线医生和医学研究人员在控制高度典型病毒的传播方面取得了重大进展，但技术也证明了在战斗中的重要性。此外，许多医疗应用中已采用人工智能，以诊断许多疾病，甚至陷入困境的经验丰富的医生。因此，本调查纸探讨了提议的方法，可以提前援助医生和研究人员，廉价的疾病诊断方法。大多数发展中国家难以使用传统方式进行测试，但机器和深度学习可以采用显着的方式。另一方面，对不同类型的医学图像的访问已经激励了研究人员。结果，提出了一种庞大的技术数量。本文首先详细调了人工智能域中传统方法的背景知识。在此之后，我们会收集常用的数据集及其用例日期。此外，我们还显示了采用深入学习的机器学习的研究人员的百分比。因此，我们对这种情况进行了彻底的分析。最后，在研究挑战中，我们详细阐述了Covid-19研究中面临的问题，我们解决了我们的理解，以建立一个明亮健康的环境。

translated by 谷歌翻译

Natural language processing to identify lupus nephritis phenotype in electronic health records

Yu Deng , Jennifer A. Pacheco , Anh Chung , Chengsheng Mao , Joshua C. Smith , Juan Zhao , Wei-Qi Wei , April Barnado , Chunhua Weng , Cong Liu

分类：机器学习

2021-12-20

Systemic Lupus红斑（SLE）是一种罕见的自身免疫疾病，其特征是令人无法预测的耀斑和缓解的速度，具有不同的表现形式。狼疮性肾炎，SLE用于器官损伤和死亡率的主要疾病表现之一，是卢布斯分类标准的关键组成部分。因此，准确地鉴定电子健康记录（EHRS）中的狼疮性肾炎将使大型队列观察研究和临床试验有益于患者人口的表征对于招聘，研究设计和分析至关重要。可以通过程序代码和结构化数据来认可狼疮肾炎，例如实验室测试。然而，记录狼疮肾炎的其他关键信息，例如来自肾脏活检和先前的医学史叙事的组织学报告，需要复杂的文本处理，以从病理报告和临床笔记中挖掘信息。在这项研究中，我们开发了使用EHR数据识别鉴定狼疮肾炎的血管肾炎，而不使用自然语言处理（NLP）。我们开发了四种算法：仅使用结构化数据（基线算法）和使用不同NLP模型的三种算法的规则的算法。这三种NLP模型基于正则化逻辑回归，并使用不同的特征集，包括积极提及概念独特标识符（Cue），耐备的外观数量，以及三个部件的混合物。基线算法和最佳执行的NLP算法在Vanderbilt University Center（VUMC）的数据集上验证了外部验证。我们最佳地执行来自结构化数据，正则表达式概念和映射的特征的NLP模型，与基线狼疮性肾炎算法相比，在NMEDW（0.41 VS 0.79）和VUMC（0.62 VS 0.96）数据集中有所改善。

translated by 谷歌翻译

SmartTriage: A system for personalized patient data capture, documentation generation, and decision support

Ilya Valmianski , Nave Frost , Navdeep Sood , Yang Wang , Baodong Liu , James J. Zhu , Sunil Karumuri , Ian M. Finn , Daniel S. Zisook

分类：自然语言处理

2020-10-19

症状检查已成为收集症状和诊断患者的重要工具，最大限度地减少临床人员的参与。我们开发了一种机器学习支持的系统，智能曲线，超越传统症状，通过与电子医疗记录（EMR）紧密的双向集成。在EMR衍生的患者历史上，我们的系统将患者的首席投诉识别自由文本条目，然后询问一系列离散问题以获得相关的症状学。患者特定数据用于预测详细的ICD-10-CM代码以及药物，实验室和成像订单。然后将患者的反应和临床决策支持（CDS）预测插入EMR。要培训机器学习组件的智能路程，我们使用了超过2500万级初级保健遭遇的新型数据集和100万患者的自由文本原因的参赛作品。这些数据集用于构建：（1）基于长的短期存储器（LSTM）的患者历史表示，（2）用于首发投诉提取的微调变压器模型，（3）一个用于问题测序的随机林模型，（4）用于CDS预测的前馈网络。我们的系统总共支持337名患者的首席投诉，该投诉共同组成了Kaiser Permanente的所有初级保健费用。

translated by 谷歌翻译

A Comparison Study of Deep CNN Architecture in Detecting of Pneumonia

Al Mohidur Rahman Porag , Md. Mahedi Hasan , Dr. Md Taimur Ahad

分类：计算机视觉 | 机器学习

2022-12-30

Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.

translated by 谷歌翻译

Bayesian Network Models of Causal Interventions in Healthcare Decision Making: Literature Review and Software Evaluation

Artem Velikzhanin , Benjie Wang , Marta Kwiatkowska

分类：人工智能 | 机器学习

2022-11-28

This report summarises the outcomes of a systematic literature search to identify Bayesian network models used to support decision making in healthcare. After describing the search methodology, the selected research papers are briefly reviewed, with the view to identify publicly available models and datasets that are well suited to analysis using the causal interventional analysis software tool developed in Wang B, Lyle C, Kwiatkowska M (2021). Finally, an experimental evaluation of applying the software on a selection of models is carried out and preliminary results are reported.

translated by 谷歌翻译

Natural Language Processing Methods to Identify Oncology Patients at High Risk for Acute Care with Clinical Notes

Claudio Fanconi , Marieke van Buchem , Tina Hernandez-Boussard

分类：自然语言处理 | 机器学习

2022-09-28

临床笔记是健康记录的重要组成部分。本文评估了如何使用自然语言处理（NLP）来确定肿瘤患者急性护理使用（ACU）的风险，一旦化疗开始。使用结构化健康数据（SHD）的风险预测现在是标准的，但是使用自由文本格式的预测很复杂。本文探讨了自由文本注释用于预测ACU而不是SHD的使用。将深度学习模型与手动设计的语言功能进行了比较。结果表明，SHD模型最少胜过NLP模型。具有SHD的L1型逻辑回归的C统计量为0.748（95％-CI：0.735，0.762），而具有语言功能的相同模型达到0.730（95％-CI：0.717，0.745）和基于变形金属的模型模型达到了0.702（95％-CI：0.688，0.717）。本文展示了如何在临床应用中使用语言模型，并强调了不同患者群体的风险偏见如何不同，即使仅使用自由文本数据。

translated by 谷歌翻译

Project Achoo: A Practical Model and Application for COVID-19 Detection from Recordings of Breath, Voice, and Cough

Alexander Ponomarchuk , Ilya Burenko , Elian Malkin , Ivan Nazarov , Vladimir Kokh , Manvel Avetisian , Leonid Zhukov

分类：机器学习

2021-07-12

Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中，我们提出了一种机器学习方法，可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合，提供了信号去噪，咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序，使用症状检查器与语音，呼吸和咳嗽信号一起使用，以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。

translated by 谷歌翻译

Foresight -- Deep Generative Modelling of Patient Timelines using Electronic Health Records

Zeljko Kraljevic , Dan Bean , Anthony Shek , Rebecca Bendayan , Joshua Au Yeung , Alexander Deng , Alfie Baston , Jack Ross , Esther Idowu , James T Teo

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-13

Electronic Health Records (EHRs) hold detailed longitudinal information about each patient's health status and general clinical history, a large portion of which is stored within the unstructured text. Temporal modelling of this medical history, which considers the sequence of events, can be used to forecast and simulate future events, estimate risk, suggest alternative diagnoses or forecast complications. While most prediction approaches use mainly structured data or a subset of single-domain forecasts and outcomes, we processed the entire free-text portion of EHRs for longitudinal modelling. We present Foresight, a novel GPT3-based pipeline that uses NER+L tools (i.e. MedCAT) to convert document text into structured, coded concepts, followed by providing probabilistic forecasts for future medical events such as disorders, medications, symptoms and interventions. Since large portions of EHR data are in text form, such an approach benefits from a granular and detailed view of a patient while introducing modest additional noise. On tests in two large UK hospitals (King's College Hospital, South London and Maudsley) and the US MIMIC-III dataset precision@10 of 0.80, 0.81 and 0.91 was achieved for forecasting the next biomedical concept. Foresight was also validated on 34 synthetic patient timelines by 5 clinicians and achieved relevancy of 97% for the top forecasted candidate disorder. Foresight can be easily trained and deployed locally as it only requires free-text data (as a minimum). As a generative model, it can simulate follow-on disorders, medications and interventions for as many steps as required. Foresight is a general-purpose model for biomedical concept modelling that can be used for real-world risk estimation, virtual trials and clinical research to study the progression of diseases, simulate interventions and counterfactuals, and for educational purposes.

translated by 谷歌翻译

Ontology-Based and Weakly Supervised Rare Disease Phenotyping from Clinical Notes

Hang Dong , Víctor Suárez-Paniagua , Huayu Zhang , Minhong Wang , Arlene Casey , Emma Davidson , Jiaoyan Chen , Beatrice Alex , William Whiteley , Honghan Wu

分类：自然语言处理

2022-05-11

计算文本表型是从临床注释中鉴定出患有某些疾病和特征的患者的实践。由于很少有用于机器学习的案例和域专家的数据注释需求，因此难以识别的罕见疾病要确定。我们提出了一种使用本体论和弱监督的方法，并具有来自双向变压器（例如BERT）的最新预训练的上下文表示。基于本体的框架包括两个步骤：（i）文本到umls，通过上下文将提及与统一医学语言系统（UMLS）中的概念链接到命名的实体识别和链接（NER+L）工具，SemeHR中提取表型。，以及具有自定义规则和上下文提及表示的弱监督；（ii）UMLS-to-to-ordo，将UMLS概念与孤子罕见疾病本体论（ORDO）中的罕见疾病相匹配。提出了弱监督的方法来学习一个表型确认模型，以改善链接的文本对umls，而没有域专家的注释数据。我们评估了来自美国和英国两个机构的三个出院摘要和放射学报告的临床数据集的方法。我们最好的弱监督方法获得了81.4％的精度和91.4％的召回，从模仿III出院摘要中提取罕见疾病UMLS表型。总体管道处理临床笔记可以表面罕见疾病病例，其中大部分在结构化数据（手动分配的ICD代码）中没有受到平衡。关于模仿III和NHS Tayside的放射学报告的结果与放电摘要一致。我们讨论了弱监督方法的有用性，并提出了未来研究的方向。

translated by 谷歌翻译

Classifying Unstructured Clinical Notes via Automatic Weak Supervision

Chufan Gao , Mononito Goswami , Jieshi Chen , Artur Dubrawski

分类：自然语言处理 | 机器学习

2022-06-24

医疗保健提供者通常会记录给每位患者提供临床，研究和计费目的的临床护理的详细说明。由于这些叙述的非结构性性质，提供者使用专门的员工使用国际疾病（ICD）编码系统为患者的诊断分配诊断代码。此手动过程不仅耗时，而且昂贵且容易出错。先前的工作证明了机器学习（ML）方法在自动化此过程中的潜在效用，但它依靠大量手动标记数据来训练模型。此外，诊断编码系统随着时间的流逝而演变，这使得传统的监督学习策略无法推广到本地应用程序之外。在这项工作中，我们引入了一个普遍的弱监督文本分类框架，该框架仅从类标签描述中学习，而无需使用任何人类标记的文档。它利用预先训练的语言模型中存储的语言领域知识和数据编程框架将代码标签分配给单个文本。我们通过将方法与四个现实世界文本分类数据集中的最先进的弱文本分类器进行比较，除了将ICD代码分配给公开可用的模拟MIMIC-III数据库中的医疗注释外，我们证明了我们的方法的功效和灵活性。

translated by 谷歌翻译