这项研究提出了一个多模式的机器学习模型,以预测ICD-10诊断代码。我们开发了单独的机器学习模型,可以处理来自不同模式的数据,包括非结构化文本,半结构化文本和结构化表格数据。我们进一步采用了合奏方法来集成所有模式特异性模型以生成ICD-10代码。还提取了主要证据,以使我们的预测更具说服力和可解释。我们使用医学信息集市进行重症监护III(模拟-III)数据集来验证我们的方法。对于ICD代码预测,我们的表现最佳模型(Micro-F1 = 0.7633,Micro-AUC = 0.9541)显着超过其他基线模型,包括TF-IDF(Micro-F1 = 0.6721,Micro-AUC = 0.7879)和Text-CNN模型(Micro-F1 = 0.6569,Micro-AUC = 0.9235)。为了解释性,我们的方法在文本数据上实现了JACCARD相似性系数(JSC)为0.1806,在表格数据上分别获得了0.3105,训练有素的医生分别达到0.2780和0.5002。
translated by 谷歌翻译
医疗保健自动化的机会可以改善临床医生的吞吐量。一个这样的例子是辅助工具记录诊断代码时,当临床医生写笔记时。我们使用课程学习研究了医学法规预测的自动化,这是机器学习模型的培训策略,可逐渐将学习任务的硬度从易于到困难提高。课程学习的挑战之一是课程的设计 - 即,在逐渐增加难度的任务设计中。我们提出了分层课程学习(HICU),这是一种在输出空间中使用图形结构的算法,以设计用于多标签分类的课程。我们为多标签分类模型创建课程,以预测患者自然语言描述的ICD诊断和程序代码。通过利用ICD代码的层次结构,该层次基于人体的各种器官系统进行诊断代码,我们发现我们的建议课程改善了基于反复,卷积和基于变压器的体系结构的基于神经网络的预测模型的概括。我们的代码可在https://github.com/wren93/hicu-icd上找到。
translated by 谷歌翻译
医疗保健提供者通常会记录给每位患者提供临床,研究和计费目的的临床护理的详细说明。由于这些叙述的非结构性性质,提供者使用专门的员工使用国际疾病(ICD)编码系统为患者的诊断分配诊断代码。此手动过程不仅耗时,而且昂贵且容易出错。先前的工作证明了机器学习(ML)方法在自动化此过程中的潜在效用,但它依靠大量手动标记数据来训练模型。此外,诊断编码系统随着时间的流逝而演变,这使得传统的监督学习策略无法推广到本地应用程序之外。在这项工作中,我们引入了一个普遍的弱监督文本分类框架,该框架仅从类标签描述中学习,而无需使用任何人类标记的文档。它利用预先训练的语言模型中存储的语言领域知识和数据编程框架将代码标签分配给单个文本。我们通过将方法与四个现实世界文本分类数据集中的最先进的弱文本分类器进行比较,除了将ICD代码分配给公开可用的模拟MIMIC-III数据库中的医疗注释外,我们证明了我们的方法的功效和灵活性。
translated by 谷歌翻译
自动化医疗编码,医疗保健操作和交付的基本任务,通过从临床文献预测医学代码来实现非结构化数据。自然语言处理中深入学习模型的最新进展已被广泛应用于此任务。然而,它缺乏对医学编码的神经网络架构设计的统一视图。本综述提出了一个统一的框架,为医疗编码模型的构建块提供了一般性的理解,并概述了近期框架下的最新模型。我们的统一框架将医疗编码分解为四个主要组件,即文本特征提取的编码器模块,为构建深编码器架构的机制,解码器模块,用于将隐藏的表示转换为医学代码,以及辅助信息的使用。最后,我们讨论了关键的研究挑战和未来方向。
translated by 谷歌翻译
人类编码人员将标准化的医疗法规分配给患者住院期间产生的临床文件,该文件容易出错且劳动力密集。使用机器学习方法(例如深神经网络)开发了自动化的医学编码方法。然而,由于冗长的文档中的班级问题,复杂的代码关联和噪音,自动化的医疗编码仍然具有挑战性。为了解决这些问题,我们提出了一个新型的神经网络,称为多任务和重新校准的神经网络。值得注意的是,多任务学习方案共享不同代码分支之间的关系知识以捕获代码关联。重新校准的聚合模块是通过级联卷积块来提取高级语义特征来开发的,从而减轻噪声在文档中的影响。同样,重新校准的模块的级联结构可以从冗长的音符中受益。为了解决类不平衡的问题,我们部署了焦点损失,以重新分布低频和高频医疗法规的注意力。实验结果表明,我们提出的模型在现实世界中的临床数据集模拟于III上优于竞争基线。
translated by 谷歌翻译
医疗领域通常会受到信息超负荷的约束。医疗保健的数字化,在线医疗存储库的不断更新以及生物医学数据集的可用性增加使得有效分析数据变得具有挑战性。这为严重依赖医疗数据的医疗专业人员创造了其他工作,以完成研究并咨询患者。本文旨在展示不同的文本突出显示技术如何捕获相关的医疗环境。这将通过促进更快的决定,从而改善在线医疗服务的整体质量,从而减少医生对患者的认知负担和反应时间。实施和评估了三个不同的单词级文本突出显示方法。第一个方法使用TF-IDF分数直接突出文本的重要部分。第二种方法是TF-IDF分数的组合以及将局部可解释的模型 - 静态解释应用于分类模型。第三种方法直接使用神经网络来预测是否应突出显示单词。我们的实验结果表明,神经网络方法成功地突出了医学上的术语,并且随着输入段的大小的增加,其性能得到了提高。
translated by 谷歌翻译
背景:电子健康记录(EHRS)包含丰富的患者健康历史信息,这通常包括结构化和非结构化数据。已经有许多研究专注于从结构化数据中蒸馏有价值的信息,例如疾病代码,实验室测试结果和治疗方法。但是,依托结构化数据可能不足反映患者的综合信息,此类数据可能偶尔含有错误的记录。目的:随着机器学习(ML)和深度学习(DL)技术的最近进步,越来越多的研究通过纳入非结构化的自由文本数据,寻求获得更准确的结果。本文评论了使用多模式数据的研究,即结构化和非结构化数据的组合,从EHRS作为传统ML或DL模型的输入来解决目标任务。材料和方法:我们在电气和电子工程师(IEEE)数字图书馆(IEEE)数字图书馆,PubMed和Compution Machion(ACM)数字文章中搜索了与基于ML的多模式EHR研究相关的制品。结果与讨论:最后94项包括研究,我们专注于如何使用常规ML和DL技术合并和互动的数据来自不同方式的数据,以及如何在与EHR相关的任务中应用这些算法。此外,我们研究了这些融合方法的优点和局限,并表明了基于ML的多模式EHR研究的未来方向。
translated by 谷歌翻译
电子健康记录(EHRS)在患者级别汇总了多种信息,并保留了整个时间内患者健康状况进化的轨迹代表。尽管此信息提供了背景,并且可以由医生利用以监控患者的健康并进行更准确的预后/诊断,但患者记录可以包含长期跨度的信息,这些信息与快速生成的医疗数据速率相结合,使临床决策变得更加复杂。患者轨迹建模可以通过以可扩展的方式探索现有信息来帮助,并可以通过促进预防医学实践来增强医疗保健质量。我们为建模患者轨迹提出了一种解决方案,该解决方案结合了不同类型的信息并考虑了临床数据的时间方面。该解决方案利用了两种不同的架构:一组支持灵活的输入功能集,以将患者的录取转换为密集的表示;以及在基于复发的架构中进行的第二次探索提取的入院表示,其中使用滑动窗口机制在子序列中处理患者轨迹。使用公开可用的模仿III临床数据库评估了开发的解决方案,以两种不同的临床结果,意外的患者再入院和疾病进展。获得的结果证明了第一个体系结构使用单个患者入院进行建模和诊断预测的潜力。虽然临床文本中的信息并未显示在其他现有作品中观察到的判别能力,但这可以通过微调临床模型来解释。最后,我们使用滑动窗口机制来表示基于序列的体系结构的潜力,以表示输入数据,从而获得与其他现有解决方案的可比性能。
translated by 谷歌翻译
尽管变压器语言模型(LMS)是信息提取的最新技术,但长文本引入了需要次优的预处理步骤或替代模型体系结构的计算挑战。稀疏注意的LMS可以代表更长的序列,克服性能障碍。但是,目前尚不清楚如何解释这些模型的预测,因为并非所有令牌都在自我发项层中相互参加,而在运行时,长序列对可解释性算法提出了计算挑战,而当运行时取决于文档长度。这些挑战在文档可能很长的医学环境中是严重的,机器学习(ML)模型必须是审核和值得信赖的。我们介绍了一种新颖的蒙版抽样程序(MSP),以识别有助于预测的文本块,将MSP应用于预测医学文本诊断的背景下,并通过两位临床医生的盲目审查来验证我们的方法。我们的方法比以前的最先进的临床信息块高约1.7倍,速度更快100倍,并且可用于生成重要的短语对。 MSP特别适合长LMS,但可以应用于任何文本分类器。我们提供了MSP的一般实施。
translated by 谷歌翻译
Transformer models have achieved great success across many NLP problems. However, previous studies in automated ICD coding concluded that these models fail to outperform some of the earlier solutions such as CNN-based models. In this paper we challenge this conclusion. We present a simple and scalable method to process long text with the existing transformer models such as BERT. We show that this method significantly improves the previous results reported for transformer models in ICD coding, and is able to outperform one of the prominent CNN-based methods.
translated by 谷歌翻译
深度学习的显着成功引起了人们对医学成像诊断的应用的兴趣。尽管最新的深度学习模型在分类不同类型的医学数据方面已经达到了人类水平的准确性,但这些模型在临床工作流程中几乎不采用,这主要是由于缺乏解释性。深度学习模型的黑盒子性提出了制定策略来解释这些模型的决策过程的必要性,从而导致了可解释的人工智能(XAI)主题的创建。在这种情况下,我们对应用于医学成像诊断的XAI进行了详尽的调查,包括视觉,基于示例和基于概念的解释方法。此外,这项工作回顾了现有的医学成像数据集和现有的指标,以评估解释的质量。此外,我们还包括一组基于报告生成的方法的性能比较。最后,还讨论了将XAI应用于医学成像以及有关该主题的未来研究指示的主要挑战。
translated by 谷歌翻译
自动化医学编码是将临床注释编码为适当诊断和程序代码的一个过程,该过程会自动从ICD(国际疾病国际分类)和CPT(当前程序术语)中自动制定。手动编码过程涉及从临床注释中识别实体,然后查询遵循Medicare和Medicaid Services中心(CMS)指南的商业或非商业医学法规信息检索(IR)系统。我们建议通过使用从临床注释自动提取的实体自动构造IR系统的查询来自动化此手动过程。我们提出\ textbf {grabqc},a \ textbf {gra} ph \ textbf {b} ased \ textbf {q} uery \ textbf {c} onTextualization方法,该方法自动从临床文本中提取查询,从而使用临床文本提取质量,并在图形上提取质量网络(GNN)模型并使用外部IR系统获得ICD代码。我们还提出了一种标记用于训练模型的数据集的方法。我们在三个不同的设置中对两个临床文本数据集进行实验,以主张我们方法的有效性。实验结果表明,我们所提出的方法比所有三个设置中的基准都更好。
translated by 谷歌翻译
临床编码是将患者健康记录中的医疗信息转换为结构化代码的任务,以便它们可用于统计分析。这是一项认知且耗时的任务,遵循标准过程,以达到高水平的一致性。自动化系统可以支持临床编码,以提高该过程的效率和准确性。我们介绍了自动临床编码的想法,并从人工智能(AI)和自然语言处理(NLP)(NLP)的角度总结了挑战,该文献是根据文献,我们在过去两年半(2019年末 - 2022年初)的项目经验),以及与苏格兰和英国的临床编码专家的讨论。我们的研究揭示了应用于临床编码的当前基于深度学习的方法与现实世界实践中的解释性和一致性之间的差距。基于知识的方法代表和推理了标准,可以解释的任务过程,可能需要将其纳入基于深度学习的临床编码方法中。尽管面临技术和组织的挑战,但自动化的临床编码是AI的一项有前途的任务。编码人员需要参与开发过程。在未来五年及以后,开发和部署基于AI的自动化系统需要实现很多目标。
translated by 谷歌翻译
International Classification of Diseases (ICD) is a set of classification codes for medical records. Automated ICD coding, which assigns unique International Classification of Diseases codes with each medical record, is widely used recently for its efficiency and error-prone avoidance. However, there are challenges that remain such as heterogeneity, label unbalance, and complex relationships between ICD codes. In this work, we proposed a novel Bidirectional Hierarchy Framework(HieNet) to address the challenges. Specifically, a personalized PageRank routine is developed to capture the co-relation of codes, a bidirectional hierarchy passage encoder to capture the codes' hierarchical representations, and a progressive predicting method is then proposed to narrow down the semantic searching space of prediction. We validate our method on two widely used datasets. Experimental results on two authoritative public datasets demonstrate that our proposed method boosts state-of-the-art performance by a large margin.
translated by 谷歌翻译
大量的电子健康记录(EHR)在改善医疗保健方面产生了巨大的潜力。临床代码(结构化数据)和临床叙述(非结构化数据)是EHR中的两个重要文本模式。临床代码传达医院期间的诊断和治疗信息,临床注释带有患者遭遇的临床提供者的叙述。它们不孤立地存在,并且可以在大多数现实生活中的临床情况下相互补充。但是,大多数现有的面向EHR的研究要么集中于特定模式,要么以直接方式整合来自不同模态的数据,这忽略了它们之间的内在相互作用。为了解决这些问题,我们提出了一个名为MEDM-PLM的医学多模式预训练的语言模型,以了解对结构化和非结构化数据的增强EHR表示。在MEDM-PLM中,首先采用了两个基于变压器的神经网络组件来从每种模式中学习代表性特征。然后引入跨模块模块以建模其相互作用。我们在模拟III数据集上预先训练MEDM-PLM,并验证了该模型对三个下游临床任务的有效性,即药物建议,30天的再入院预测和ICD编码。与最先进的方法相比,广泛的实验证明了MEDM-PLM的功率。进一步的分析和可视化表明了我们的模型的鲁棒性,这有可能为临床决策提供更全面的解释。
translated by 谷歌翻译
目的:疾病知识图是一种连接,组织和访问有关疾病的不同信息的方式,对人工智能(AI)有很多好处。为了创建知识图,有必要以疾病概念之间的关系形式从多模式数据集中提取知识,并使概念和关系类型正常化。方法:我们介绍了Remap,这是一种多式模式提取和分类的方法。重新启动机器学习方法将部分不完整的知识图和医学语言数据集嵌入紧凑的潜在矢量空间中,然后将多模式嵌入以进行最佳疾病关系提取。结果:我们将重新映射方法应用于具有96,913个关系的疾病知识图和124万个句子的文本数据集。在由人类专家注释的数据集中,Remap通过将疾病知识图与文本信息融合,将基于文本的疾病关系提取提高了10.0%(准确性)和17.2%(F1分数)。此外,重建利用文本信息以推荐知识图中的新关系,优于基于图的方法,高于8.4%(准确性)和10.4%(F1得分)。结论:重塑是通过融合结构化知识和文本信息来提取和分类疾病关系的多模式方法。重映提供了灵活的神经体系结构,可轻松找到,访问和验证疾病概念之间的AI驱动关系。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
虽然罕见疾病的特征在于患病率低,但大约3亿人受到罕见疾病的影响。对这些条件的早期和准确诊断是一般从业者的主要挑战,没有足够的知识来识别它们。除此之外,罕见疾病通常会显示各种表现形式,这可能会使诊断更加困难。延迟的诊断可能会对患者的生命产生负面影响。因此,迫切需要增加关于稀有疾病的科学和医学知识。自然语言处理(NLP)和深度学习可以帮助提取有关罕见疾病的相关信息,以促进其诊断和治疗。本文探讨了几种深度学习技术,例如双向长期内存(BILSTM)网络或基于来自变压器(BERT)的双向编码器表示的深层语境化词表示,以识别罕见疾病及其临床表现(症状和症状) Raredis语料库。该毒品含有超过5,000名罕见疾病和近6,000个临床表现。 Biobert,基于BERT和培训的生物医学Corpora培训的域特定语言表示,获得了最佳结果。特别是,该模型获得罕见疾病的F1分数为85.2%,表现优于所有其他模型。
translated by 谷歌翻译
尽管有无数的同伴审查的论文,证明了新颖的人工智能(AI)基于大流行期间的Covid-19挑战的解决方案,但很少有临床影响。人工智能在Covid-19大流行期间的影响因缺乏模型透明度而受到极大的限制。这种系统审查考察了在大流行期间使用可解释的人工智能(Xai)以及如何使用它可以克服现实世界成功的障碍。我们发现,Xai的成功使用可以提高模型性能,灌输信任在最终用户,并提供影响用户决策所需的值。我们将读者介绍给常见的XAI技术,其实用程序以及其应用程序的具体例子。 XAI结果的评估还讨论了最大化AI的临床决策支持系统的价值的重要步骤。我们说明了Xai的古典,现代和潜在的未来趋势,以阐明新颖的XAI技术的演变。最后,我们在最近出版物支持的实验设计过程中提供了建议的清单。潜在解决方案的具体示例也解决了AI解决方案期间的共同挑战。我们希望本次审查可以作为提高未来基于AI的解决方案的临床影响的指导。
translated by 谷歌翻译
每年医生对患者的基于形象的诊断需求越来越大,是最近的人工智能方法可以解决的问题。在这种情况下,我们在医学图像的自动报告领域进行了调查,重点是使用深神经网络的方法,了解:(1)数据集,(2)架构设计,(3)解释性和(4)评估指标。我们的调查确定了有趣的发展,也是留下挑战。其中,目前对生成的报告的评估尤为薄弱,因为它主要依赖于传统的自然语言处理(NLP)指标,这不准确地捕获医疗正确性。
translated by 谷歌翻译