智能论文笔记

Automated Clinical Coding: What, Why, and Where We Are?

Hang Dong , Matúš Falis , William Whiteley , Beatrice Alex , Joshua Matterson , Shaoxiong Ji , Jiaoyan Chen , Honghan Wu

分类：自然语言处理 | 人工智能

2022-03-21

临床编码是将患者健康记录中的医疗信息转换为结构化代码的任务，以便它们可用于统计分析。这是一项认知且耗时的任务，遵循标准过程，以达到高水平的一致性。自动化系统可以支持临床编码，以提高该过程的效率和准确性。我们介绍了自动临床编码的想法，并从人工智能（AI）和自然语言处理（NLP）（NLP）的角度总结了挑战，该文献是根据文献，我们在过去两年半（2019年末 - 2022年初）的项目经验），以及与苏格兰和英国的临床编码专家的讨论。我们的研究揭示了应用于临床编码的当前基于深度学习的方法与现实世界实践中的解释性和一致性之间的差距。基于知识的方法代表和推理了标准，可以解释的任务过程，可能需要将其纳入基于深度学习的临床编码方法中。尽管面临技术和组织的挑战，但自动化的临床编码是AI的一项有前途的任务。编码人员需要参与开发过程。在未来五年及以后，开发和部署基于AI的自动化系统需要实现很多目标。

translated by 谷歌翻译

Ontology-Based and Weakly Supervised Rare Disease Phenotyping from Clinical Notes

Hang Dong , Víctor Suárez-Paniagua , Huayu Zhang , Minhong Wang , Arlene Casey , Emma Davidson , Jiaoyan Chen , Beatrice Alex , William Whiteley , Honghan Wu

分类：自然语言处理

2022-05-11

计算文本表型是从临床注释中鉴定出患有某些疾病和特征的患者的实践。由于很少有用于机器学习的案例和域专家的数据注释需求，因此难以识别的罕见疾病要确定。我们提出了一种使用本体论和弱监督的方法，并具有来自双向变压器（例如BERT）的最新预训练的上下文表示。基于本体的框架包括两个步骤：（i）文本到umls，通过上下文将提及与统一医学语言系统（UMLS）中的概念链接到命名的实体识别和链接（NER+L）工具，SemeHR中提取表型。，以及具有自定义规则和上下文提及表示的弱监督；（ii）UMLS-to-to-ordo，将UMLS概念与孤子罕见疾病本体论（ORDO）中的罕见疾病相匹配。提出了弱监督的方法来学习一个表型确认模型，以改善链接的文本对umls，而没有域专家的注释数据。我们评估了来自美国和英国两个机构的三个出院摘要和放射学报告的临床数据集的方法。我们最好的弱监督方法获得了81.4％的精度和91.4％的召回，从模仿III出院摘要中提取罕见疾病UMLS表型。总体管道处理临床笔记可以表面罕见疾病病例，其中大部分在结构化数据（手动分配的ICD代码）中没有受到平衡。关于模仿III和NHS Tayside的放射学报告的结果与放电摘要一致。我们讨论了弱监督方法的有用性，并提出了未来研究的方向。

translated by 谷歌翻译

A Unified Review of Deep Learning for Automated Medical Coding

Shaoxiong Ji , Wei Sun , Hang Dong , Honghan Wu , Pekka Marttinen

分类：自然语言处理

2022-01-08

自动化医疗编码，医疗保健操作和交付的基本任务，通过从临床文献预测医学代码来实现非结构化数据。自然语言处理中深入学习模型的最新进展已被广泛应用于此任务。然而，它缺乏对医学编码的神经网络架构设计的统一视图。本综述提出了一个统一的框架，为医疗编码模型的构建块提供了一般性的理解，并概述了近期框架下的最新模型。我们的统一框架将医疗编码分解为四个主要组件，即文本特征提取的编码器模块，为构建深编码器架构的机制，解码器模块，用于将隐藏的表示转换为医学代码，以及辅助信息的使用。最后，我们讨论了关键的研究挑战和未来方向。

translated by 谷歌翻译

Survey of NLP in Pharmacology: Methodology, Tasks, Resources, Knowledge, and Tools

Dimitar Trajanov , Vangel Trajkovski , Makedonka Dimitrieva , Jovana Dobreva , Milos Jovanovik , Matej Klemen , Aleš Žagar , Marko Robnik-Šikonja

分类：自然语言处理 | 机器学习

2022-08-22

自然语言处理（NLP）是一个人工智能领域，它应用信息技术来处理人类语言，在一定程度上理解并在各种应用中使用它。在过去的几年中，该领域已经迅速发展，现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样，NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用，从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别，以调查现代NLP方法论，常见的任务，相关的文本数据，知识库和有用的编程库。我们将这五个类别分为适当的子类别，描述其主要属性和想法，并以表格形式进行总结。最终的调查介绍了该领域的全面概述，对从业者和感兴趣的观察者有用。

translated by 谷歌翻译

Classifying Unstructured Clinical Notes via Automatic Weak Supervision

Chufan Gao , Mononito Goswami , Jieshi Chen , Artur Dubrawski

分类：自然语言处理 | 机器学习

2022-06-24

医疗保健提供者通常会记录给每位患者提供临床，研究和计费目的的临床护理的详细说明。由于这些叙述的非结构性性质，提供者使用专门的员工使用国际疾病（ICD）编码系统为患者的诊断分配诊断代码。此手动过程不仅耗时，而且昂贵且容易出错。先前的工作证明了机器学习（ML）方法在自动化此过程中的潜在效用，但它依靠大量手动标记数据来训练模型。此外，诊断编码系统随着时间的流逝而演变，这使得传统的监督学习策略无法推广到本地应用程序之外。在这项工作中，我们引入了一个普遍的弱监督文本分类框架，该框架仅从类标签描述中学习，而无需使用任何人类标记的文档。它利用预先训练的语言模型中存储的语言领域知识和数据编程框架将代码标签分配给单个文本。我们通过将方法与四个现实世界文本分类数据集中的最先进的弱文本分类器进行比较，除了将ICD代码分配给公开可用的模拟MIMIC-III数据库中的医疗注释外，我们证明了我们的方法的功效和灵活性。

translated by 谷歌翻译

GrabQC: Graph based Query Contextualization for automated ICD coding

Jeshuren Chelladurai , Sudarsun Santhiappan , Balaraman Ravindran

分类：机器学习

2022-07-14

自动化医学编码是将临床注释编码为适当诊断和程序代码的一个过程，该过程会自动从ICD（国际疾病国际分类）和CPT（当前程序术语）中自动制定。手动编码过程涉及从临床注释中识别实体，然后查询遵循Medicare和Medicaid Services中心（CMS）指南的商业或非商业医学法规信息检索（IR）系统。我们建议通过使用从临床注释自动提取的实体自动构造IR系统的查询来自动化此手动过程。我们提出\ textbf {grabqc}，a \ textbf {gra} ph \ textbf {b} ased \ textbf {q} uery \ textbf {c} onTextualization方法，该方法自动从临床文本中提取查询，从而使用临床文本提取质量，并在图形上提取质量网络（GNN）模型并使用外部IR系统获得ICD代码。我们还提出了一种标记用于训练模型的数据集的方法。我们在三个不同的设置中对两个临床文本数据集进行实验，以主张我们方法的有效性。实验结果表明，我们所提出的方法比所有三个设置中的基准都更好。

translated by 谷歌翻译

Foresight -- Deep Generative Modelling of Patient Timelines using Electronic Health Records

Zeljko Kraljevic , Dan Bean , Anthony Shek , Rebecca Bendayan , Joshua Au Yeung , Alexander Deng , Alfie Baston , Jack Ross , Esther Idowu , James T Teo

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-13

Electronic Health Records (EHRs) hold detailed longitudinal information about each patient's health status and general clinical history, a large portion of which is stored within the unstructured text. Temporal modelling of this medical history, which considers the sequence of events, can be used to forecast and simulate future events, estimate risk, suggest alternative diagnoses or forecast complications. While most prediction approaches use mainly structured data or a subset of single-domain forecasts and outcomes, we processed the entire free-text portion of EHRs for longitudinal modelling. We present Foresight, a novel GPT3-based pipeline that uses NER+L tools (i.e. MedCAT) to convert document text into structured, coded concepts, followed by providing probabilistic forecasts for future medical events such as disorders, medications, symptoms and interventions. Since large portions of EHR data are in text form, such an approach benefits from a granular and detailed view of a patient while introducing modest additional noise. On tests in two large UK hospitals (King's College Hospital, South London and Maudsley) and the US MIMIC-III dataset precision@10 of 0.80, 0.81 and 0.91 was achieved for forecasting the next biomedical concept. Foresight was also validated on 34 synthetic patient timelines by 5 clinicians and achieved relevancy of 97% for the top forecasted candidate disorder. Foresight can be easily trained and deployed locally as it only requires free-text data (as a minimum). As a generative model, it can simulate follow-on disorders, medications and interventions for as many steps as required. Foresight is a general-purpose model for biomedical concept modelling that can be used for real-world risk estimation, virtual trials and clinical research to study the progression of diseases, simulate interventions and counterfactuals, and for educational purposes.

translated by 谷歌翻译

A Survey on Medical Document Summarization

Raghav Jain , Anubhav Jangra , Sriparna Saha , Adam Jatowt

分类：自然语言处理

2022-12-03

The internet has had a dramatic effect on the healthcare industry, allowing documents to be saved, shared, and managed digitally. This has made it easier to locate and share important data, improving patient care and providing more opportunities for medical studies. As there is so much data accessible to doctors and patients alike, summarizing it has become increasingly necessary - this has been supported through the introduction of deep learning and transformer-based networks, which have boosted the sector significantly in recent years. This paper gives a comprehensive survey of the current techniques and trends in medical summarization

translated by 谷歌翻译

Healthcare Knowledge Graph Construction: State-of-the-art, open issues, and opportunities

Bilal Abu-Salih , Muhammad AL-Qurishi , Mohammed Alweshah , Mohammad AL-Smadi , Reem Alfayez , Heba Saadeh

分类：人工智能

2022-07-08

由于对高效有效的大数据分析解决方案的需求，医疗保健行业中数据分析的合并已取得了重大进展。知识图（KGS）已在该领域证明了效用，并且植根于许多医疗保健应用程序，以提供更好的数据表示和知识推断。但是，由于缺乏代表性的kg施工分类法，该指定领域中的几种现有方法不足和劣等。本文是第一个提供综合分类法和鸟类对医疗kg建筑的眼光的看法。此外，还对与各种医疗保健背景相关的学术工作中最新的技术进行了彻底的检查。这些技术是根据用于知识提取的方法，知识库和来源的类型以及合并评估协议的方法进行了严格评估的。最后，报道和讨论了文献中的一些研究发现和现有问题，为这个充满活力的地区开放了未来研究的视野。

translated by 谷歌翻译

Law Informs Code: A Legal Informatics Approach to Aligning Artificial Intelligence with Humans

John J. Nay

分类：人工智能 | 机器学习

2022-09-14

We are currently unable to specify human goals and societal values in a way that reliably directs AI behavior. Law-making and legal interpretation form a computational engine that converts opaque human values into legible directives. "Law Informs Code" is the research agenda capturing complex computational legal processes, and embedding them in AI. Similar to how parties to a legal contract cannot foresee every potential contingency of their future relationship, and legislators cannot predict all the circumstances under which their proposed bills will be applied, we cannot ex ante specify rules that provably direct good AI behavior. Legal theory and practice have developed arrays of tools to address these specification problems. For instance, legal standards allow humans to develop shared understandings and adapt them to novel situations. In contrast to more prosaic uses of the law (e.g., as a deterrent of bad behavior through the threat of sanction), leveraged as an expression of how humans communicate their goals, and what society values, Law Informs Code. We describe how data generated by legal processes (methods of law-making, statutory interpretation, contract drafting, applications of legal standards, legal reasoning, etc.) can facilitate the robust specification of inherently vague human goals. This increases human-AI alignment and the local usefulness of AI. Toward society-AI alignment, we present a framework for understanding law as the applied philosophy of multi-agent alignment. Although law is partly a reflection of historically contingent political power - and thus not a perfect aggregation of citizen preferences - if properly parsed, its distillation offers the most legitimate computational comprehension of societal values available. If law eventually informs powerful AI, engaging in the deliberative political process to improve law takes on even more meaning.

translated by 谷歌翻译

The Development and Applications of Food Knowledge Graphs in the Food Science and Industry

Weiqing Min , Chunlin Liu , Leyi Xu , Shuqiang Jiang

分类：计算机视觉

2021-07-13

各种网络的部署（例如，事物互联网（IOT）和移动网络），数据库（例如，营养表和食品组成数据库）和社交媒体（例如，Instagram和Twitter）产生大量的多型食品数据，这在食品科学和工业中起着关键作用。然而，由于众所周知的数据协调问题，这些多源食品数据显示为信息孤岛，导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系，因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知，这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍，然后主要从食物分类，食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发，食品可追溯性，食物数据可视化，个性化饮食推荐，食品搜索和质询回答，视觉食品对象识别，食品机械智能制造方面来概述。我们还讨论了该领域的未来方向，例如食品供应链系统和人类健康的食品知识图，这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力，将食物知识图形应用于食品科学和工业领域。

translated by 谷歌翻译

Entity Anchored ICD Coding

Jay DeYoung , Han-Chin Shing , Luyang Kong , Christopher Winestock , Chaitanya Shivade

分类：机器学习 | 自然语言处理

2022-08-15

医疗编码是一项复杂的任务，需要将超过72,000个ICD代码的子集分配给患者的笔记。对这些任务的现代自然语言处理方法已受到输出空间的输入和大小的长度挑战。我们将模型输入限制在文档中发现的医疗实体周围的一个小窗口中。从这些本地上下文中，我们构建了ICD代码和实体的上下文化表示，并汇总这些表示形式以形成文档级预测。与现有的方法相反，该方法使用使用大小或训练中的代码固定的表示形式，我们通过用本地上下文编码代码描述来表示ICD代码。我们讨论适合在实践中部署编码系统的指标。我们表明，我们的方法优于标准和可部署措施的现有方法，包括在稀有和看不见的代码上的性能。

translated by 谷歌翻译

Explainable AI for clinical and remote health applications: a survey on tabular and time series data

Flavio Di Martino , Franca Delmastro

分类：机器学习 | 人工智能

2022-09-14

如今，人工智能（AI）已成为临床和远程医疗保健应用程序的基本组成部分，但是最佳性能的AI系统通常太复杂了，无法自我解释。可解释的AI（XAI）技术被定义为揭示系统的预测和决策背后的推理，并且在处理敏感和个人健康数据时，它们变得更加至关重要。值得注意的是，XAI并未在不同的研究领域和数据类型中引起相同的关注，尤其是在医疗保健领域。特别是，许多临床和远程健康应用程序分别基于表格和时间序列数据，而XAI并未在这些数据类型上进行分析，而计算机视觉和自然语言处理（NLP）是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述，本文提供了过去5年中文献的审查，说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言，我们确定临床验证，一致性评估，客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后，我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。

translated by 谷歌翻译

Deep Learning -- A first Meta-Survey of selected Reviews across Scientific Disciplines, their Commonalities, Challenges and Research Impact

Jan Egger , Antonio Pepe , Christina Gsaxner , Yuan Jin , Jianning Li , Roman Kern

分类：计算机视觉 | 机器学习 | 神经与进化计算

2020-11-16

深度学习属于人工智能领域，机器执行通常需要某种人类智能的任务。类似于大脑的基本结构，深度学习算法包括一种人工神经网络，其类似于生物脑结构。利用他们的感官模仿人类的学习过程，深入学习网络被送入（感官）数据，如文本，图像，视频或声音。这些网络在不同的任务中优于最先进的方法，因此，整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如，只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集，用于搜索术语“深度学习”，其中大约90％来自过去三年。因此，对深度学习领域的完全概述已经不可能在不久的将来获得，并且在不久的将来可能会难以获得难以获得子场的概要。但是，有几个关于深度学习的综述文章，这些文章专注于特定的科学领域或应用程序，例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础，这一贡献的目的是提供对不同科学学科的深度学习的第一个高级，分类的元调查。根据底层数据来源（图像，语言，医疗，混合）选择了类别（计算机愿景，语言处理，医疗信息和其他工程）。此外，我们还审查了每个子类别的常见架构，方法，专业，利弊，评估，挑战和未来方向。

translated by 谷歌翻译

DataWords: Getting Contrarian with Text, Structured Data and Explanations

Stephen I. Gallant , Mirza Nasir Hossain

分类：机器学习 | 人工智能 | 自然语言处理

2021-11-09

我们的目标是使用自由文本和结构数据的组合构建分类模型。为此，我们通过文本句子，DataWords表示结构化数据，使类似的数据项映射到同一个句子中。这允许通过仅使用文本建模算法来建立文本和结构化数据的混合。有几个例子说明了通过首先运行的提取工具（命名实体识别）来提高文本分类性能，然后将输出转换为DataWords，并将DataWords添加到原始文本 - 在模型构建和分类之前。这种方法还允许我们在自由文本和结构化数据方面为推断产生解释。

translated by 谷歌翻译

Developing Future Human-Centered Smart Cities: Critical Analysis of Smart City Security, Interpretability, and Ethical Challenges

Kashif Ahmad , Majdi Maabreh , Mohamed Ghaly , Khalil Khan , Junaid Qadir , Ala Al-Fuqaha

分类：人工智能

2020-12-14

随着全球人口越来越多的人口驱动世界各地的快速城市化，有很大的需要蓄意审议值得生活的未来。特别是，随着现代智能城市拥抱越来越多的数据驱动的人工智能服务，值得记住技术可以促进繁荣，福祉，城市居住能力或社会正义，而是只有当它具有正确的模拟补充时（例如竭尽全力，成熟机构，负责任治理）;这些智能城市的最终目标是促进和提高人类福利和社会繁荣。研究人员表明，各种技术商业模式和特征实际上可以有助于极端主义，极化，错误信息和互联网成瘾等社会问题。鉴于这些观察，解决了确保了诸如未来城市技术基岩的安全，安全和可解释性的哲学和道德问题，以为未来城市的技术基岩具有至关重要的。在全球范围内，有能够更加人性化和以人为本的技术。在本文中，我们分析和探索了在人以人为本的应用中成功部署AI的安全，鲁棒性，可解释性和道德（数据和算法）挑战的关键挑战，特别强调这些概念/挑战的融合。我们对这些关键挑战提供了对现有文献的详细审查，并分析了这些挑战中的一个可能导致他人的挑战方式或帮助解决其他挑战。本文还建议了这些域的当前限制，陷阱和未来研究方向，以及如何填补当前的空白并导致更好的解决方案。我们认为，这种严谨的分析将为域名的未来研究提供基准。

translated by 谷歌翻译

Negation detection in Dutch clinical texts: an evaluation of rule-based and machine learning methods

Bram van Es , Leon C. Reteig , Sander C. Tan , Marijn Schraagen , Myrthe M. Hemker , Sebastiaan R. S. Arends , Miguel A. R. Rios , Saskia Haitjema

分类：自然语言处理 | 机器学习 | (统计)机器学习

2022-09-01

由于结构化数据通常不足，因此在开发用于临床信息检索和决策支持系统模型时，需要从电子健康记录中的自由文本中提取标签。临床文本中最重要的上下文特性之一是否定，这表明没有发现。我们旨在通过比较荷兰临床注释中的三种否定检测方法来改善标签的大规模提取。我们使用Erasmus医疗中心荷兰临床语料库比较了基于ContextD的基于规则的方法，即使用MEDCAT和（Fineted）基于Roberta的模型的BilstM模型。我们发现，Bilstm和Roberta模型都在F1得分，精度和召回方面始终优于基于规则的模型。此外，我们将每个模型的分类错误系统地分类，这些错误可用于进一步改善特定应用程序的模型性能。在性能方面，将三个模型结合起来并不有益。我们得出的结论是，尤其是基于Bilstm和Roberta的模型在检测临床否定方面非常准确，但是最终，根据手头的用例，这三种方法最终都可以可行。

translated by 谷歌翻译

HTML版本

INTRPRT: A Systematic Review of and Guidelines for Designing and Validating Transparent AI in Medical Image Analysis

Haomin Chen , Catalina Gomez , Chien-Ming Huang , Mathias Unberath

分类：计算机视觉 | 机器学习

2021-12-21

机器学习透明度（ML），试图揭示复杂模型的工作机制。透明ML承诺推进人为因素在目标用户中以人为本的人体目标的工程目标。从以人为本的设计视角，透明度不是ML模型的属性，而是一种能力，即算法与用户之间的关系;因此，与用户的迭代原型和评估对于获得提供透明度的充足解决方案至关重要。然而，由于有限的可用性和最终用户，遵循了医疗保健和医学图像分析的人以人为本的设计原则是具有挑战性的。为了调查医学图像分析中透明ML的状态，我们对文献进行了系统审查。我们的评论在医学图像分析应用程序的透明ML的设计和验证方面揭示了多种严重的缺点。我们发现，大多数研究到达迄今为止透明度作为模型本身的属性，类似于任务性能，而不考虑既未开发也不考虑最终用户也不考虑评估。此外，缺乏用户研究以及透明度声明的偶发验证将当代研究透明ML的医学图像分析有可能对用户难以理解的风险，因此临床无关紧要。为了缓解即将到来的研究中的这些缺点，同时承认人以人为中心设计在医疗保健中的挑战，我们介绍了用于医学图像分析中的透明ML系统的系统设计指令。 Intrult指南建议形成的用户研究作为透明模型设计的第一步，以了解用户需求和域要求。在此过程之后，会产生支持设计选择的证据，最终增加了算法提供透明度的可能性。

translated by 谷歌翻译

Natural Language Processing for Smart Healthcare

Binggui Zhou , Guanghua Yang , Zheng Shi , Shaodan Ma

分类：自然语言处理 | 人工智能

2021-10-19

近年来，Smart Healthcare取得了重大进展。新兴人工智能（AI）技术可以在各种医疗保健方案中实现各种智能应用程序。作为由AI提供支持的基本技术，自然语言处理（NLP）由于其分析和理解人类语言的能力而在智能医疗保健中起关键作用。在这项工作中，我们回顾了现有的研究，这些研究从技术和应用的角度涉及NLP智能医疗保健。我们首先详细介绍了不同的NLP方法和NLP管道，从技术角度来看。然后，在采用NLP技术的智能医疗保健应用程序的背景下，我们介绍了代表性的智能医疗保健方案，包括临床实践，医院管理，个人护理，公共卫生和药物开发。我们进一步讨论了两个特定的医学问题，即2019年冠状病毒病（COVID-19）大流行和心理健康，其中NLP驱动的智能医疗保健发挥了重要作用。最后，我们讨论当前作品的局限性，并确定未来作品的方向。

translated by 谷歌翻译

DR.BENCH: Diagnostic Reasoning Benchmark for Clinical Natural Language Processing

Yanjun Gao , Dmitriy Dligach , Timothy Miller , John Caskey , Brihat Sharma , Matthew M Churpek , Majid Afshar

分类：自然语言处理 | 人工智能

2022-09-29

The meaningful use of electronic health records (EHR) continues to progress in the digital era with clinical decision support systems augmented by artificial intelligence. A priority in improving provider experience is to overcome information overload and reduce the cognitive burden so fewer medical errors and cognitive biases are introduced during patient care. One major type of medical error is diagnostic error due to systematic or predictable errors in judgment that rely on heuristics. The potential for clinical natural language processing (cNLP) to model diagnostic reasoning in humans with forward reasoning from data to diagnosis and potentially reduce the cognitive burden and medical error has not been investigated. Existing tasks to advance the science in cNLP have largely focused on information extraction and named entity recognition through classification tasks. We introduce a novel suite of tasks coined as Diagnostic Reasoning Benchmarks, DR.BENCH, as a new benchmark for developing and evaluating cNLP models with clinical diagnostic reasoning ability. The suite includes six tasks from ten publicly available datasets addressing clinical text understanding, medical knowledge reasoning, and diagnosis generation. DR.BENCH is the first clinical suite of tasks designed to be a natural language generation framework to evaluate pre-trained language models. Experiments with state-of-the-art pre-trained generative language models using large general domain models and models that were continually trained on a medical corpus demonstrate opportunities for improvement when evaluated in DR. BENCH. We share DR. BENCH as a publicly available GitLab repository with a systematic approach to load and evaluate models for the cNLP community.

translated by 谷歌翻译