基于临床票据的决策支持系统有可能通过指向监督风险的医生来改善患者护理。预测患者的结果是这种系统的重要组成部分,其中利用深神经网络的使用表明了有希望的结果。然而,这些网络学到的模式大多是不透明的,之前的工作揭示了关于非预期偏差的再现的缺陷。因此,我们引入了一个可扩展的测试框架,评估了关于输入变化的临床结果模型的行为。该框架有助于了解学习模式及其对模型决策的影响。在这项工作中,我们将其应用于对患者特征性别,年龄和种族的行为变化。我们对三个目前的临床NLP模型的评估表明了这些特征对模型决策的具体影响。他们表明,即使在相同的数据上微调并且据称最佳的模型并不总是学习最卓越的模式的模式,模型行为也变得剧烈变化。
translated by 谷歌翻译
临床单词嵌入在各种生物-NLP问题中广泛使用,作为最先进的特征矢量表示。尽管它们在单词的语义表示方面取得了很大的成功,但由于数据集(可能带有统计和社会偏见),他们受到了培训,因此它们可能表现出性别刻板印象。这项研究分析了三种医学类别的临床嵌入性别偏见:精神障碍,性传播疾病和人格特征。在此范围内,我们分析了两种不同的预训练的嵌入,即(上下文化的)临床 - bert和(非上下文)Biowordvec。我们表明,这两种嵌入都偏向敏感的性别群体,但Biowordvec在这三个类别中表现出比临床 - 伯特的偏见更高。此外,我们的分析表明,临床嵌入对于某些医学术语和疾病的高度偏见,这与医学文献相抵触。拥有如此不基调的关系可能会在使用临床嵌入的下游应用中造成伤害。
translated by 谷歌翻译
受益于医疗保健数据的数字化和计算能力的发展,机器学习方法越来越多地用于医疗领域。在医疗保健机器学习中已经确定了公平性问题,导致对有限医疗资源的不公平分配或某些群体的健康风险过多。因此,解决公平问题最近引起了医疗保健社区的越来越多的关注。然而,机器学习的机器学习与机器学习中的公平性的交集仍在研究中。在这篇综述中,我们通过暴露公平问题,总结可能的偏见,整理缓解方法并指出挑战以及未来的机会来建立桥梁。
translated by 谷歌翻译
本研究审查了使用自然语言处理(NLP)模型来评估物品编写者在医疗许可考试中使用的语言模式是否可能包含偏见或陈规定型语言的证据。项目语言选择中的这种类型的偏差对于医疗许可评估中的物品可能对物品特别有影响,因为它可能对内容有效性构成威胁和测试分数有效性证据的可靠性。据我们所知,这是使用机器学习(ML)和NLP的第一次尝试探索大型物品银行的语言偏见。使用培训的预测算法在类似物品茎的集群上,我们证明我们的方法可用于审查大型物品银行,用于临床科学患者中的潜在偏见语言或陈规定型患者特征。该发现可以指导开发用于解决测试项目中发现的陈规定型语言模式的方法,并在需要时能够有效地更新这些项目,以反映当代规范,从而提高了支持测试评分的有效性的证据。
translated by 谷歌翻译
偏见标志着病史,导致影响边缘化群体的不平等护理。观察数据中缺失的模式通常反映了这些群体差异,但是算法对群体特定缺失的算法公平含义尚不清楚。尽管具有潜在的影响,但归因通常还是被遗忘的预处理步骤。充其量,从业者通过优化整体绩效来指导选级选择,而忽略了这种预处理如何加强不平等。我们的工作通过研究插补如何影响下游算法的公平性来质疑这种选择。首先,我们提供了临床存在机制与特定组的遗失模式之间关系的结构化视图。然后,通过模拟和现实世界实验,我们证明了插补选择会影响边缘化的群体绩效,并且没有归因策略始终降低差异。重要的是,我们的结果表明,当前的做法可能危害健康平等,因为在人口层面上类似地执行插补策略可能会以不同的方式影响边缘化的群体。最后,我们提出了缓解因机器学习管道的忽视步骤而导致的不平等的建议。
translated by 谷歌翻译
住院患者的高血糖治疗对发病率和死亡率都有重大影响。这项研究使用了大型临床数据库来预测需要住院的糖尿病患者的需求,这可能会改善患者的安全性。但是,这些预测可能容易受到社会决定因素(例如种族,年龄和性别)造成的健康差异的影响。这些偏见必须在数据收集过程的早期,在进入系统之前就可以消除,并通过模型预测加强,从而导致模型决策的偏见。在本文中,我们提出了一条能够做出预测以及检测和减轻偏见的机器学习管道。该管道分析了临床数据,确定是否存在偏见,将其删除,然后做出预测。我们使用实验证明了模型预测中的分类准确性和公平性。结果表明,当我们在模型早期减轻偏见时,我们会得到更公平的预测。我们还发现,随着我们获得更好的公平性,我们牺牲了一定程度的准确性,这在先前的研究中也得到了验证。我们邀请研究界为确定可以通过本管道解决的其他因素做出贡献。
translated by 谷歌翻译
本文研究了医学领域的概念与患者表示的问题。我们将电子健康记录(EHRS)的患者历史作为ICD概念的时间序列,其中嵌入在一个无监督的设置中学习了一种基于变压器的神经网络模型。在6年内对百万患者历史的收集进行了模型培训。与几种基线方法相比,评估这种模型的预测力。与类似系统相比,对模拟-III数据的一系列实验显示了所呈现模型的优势。此外,我们分析了对概念关系的获得空间,并展示了医学领域的知识如何成功转移到患者嵌入形式的保险评分的实际任务。
translated by 谷歌翻译
医学中的机器学习利用了财富的医疗保健数据来提取知识,促进临床决策,最终改善护理。然而,在缺乏人口统计分集的数据集上培训的ML模型可以在适用于不足的人群时产生次优绩效(例如少数民族,社会经济地位较低),因此延续了健康差异。在这项研究中,我们评估了四种型分类,以预测高氯血症 - 一种经常由ICU人口中的侵袭性流体给药的条件 - 并将其在种族,性别和保险亚组中进行比较。我们观察到,除了基于实验室的患者的模型性能之外,还要添加社会决定因素特征。 40个模型 - 亚组中的40分,亚组测试产生了显着不同的AUC分数,提示在将ML模型应用于社会决定簇子组时的差异。我们敦促未来的研究人员设计主动调整潜在偏见的模型,并包括他们研究中的子组报告。
translated by 谷歌翻译
Associazione Medici Diabetologi(AMD)收集并管理着全球最大的糖尿病患者记录集合之一,也称为AMD数据库。本文介绍了一个正在进行的项目的初步结果,该项目的重点是人工智能和机器学习技术的应用,以概念化,清洁和分析如此重要且有价值的数据集,目的是提供预测性见解,以更好地支持糖尿病学家的诊断糖尿病学家和治疗选择。
translated by 谷歌翻译
Electronic health records (EHR) offer unprecedented opportunities for in-depth clinical phenotyping and prediction of clinical outcomes. Combining multiple data sources is crucial to generate a complete picture of disease prevalence, incidence and trajectories. The standard approach to combining clinical data involves collating clinical terms across different terminology systems using curated maps, which are often inaccurate and/or incomplete. Here, we propose sEHR-CE, a novel framework based on transformers to enable integrated phenotyping and analyses of heterogeneous clinical datasets without relying on these mappings. We unify clinical terminologies using textual descriptors of concepts, and represent individuals' EHR as sections of text. We then fine-tune pre-trained language models to predict disease phenotypes more accurately than non-text and single terminology approaches. We validate our approach using primary and secondary care data from the UK Biobank, a large-scale research study. Finally, we illustrate in a type 2 diabetes use case how sEHR-CE identifies individuals without diagnosis that share clinical characteristics with patients.
translated by 谷歌翻译
疾病鉴定是观察健康研究中的核心,常规活动。队列影响下游分析,例如如何表征病情,定义患者的风险以及研究哪些治疗方法。因此,至关重要的是要确保选定的队列代表所有患者,而与他们的人口统计学或社会决定因素无关。虽然在构建可能影响其公平性的表型定义时有多种潜在的偏见来源,但在表型领域中考虑不同定义在患者亚组中的影响并不是标准。在本文中,我们提出了一组最佳实践来评估表型定义的公平性。我们利用预测模型中常用的既定公平指标,并将其与常用的流行病学队列描述指标联系起来。我们描述了一项针对克罗恩病和2型糖尿病的实证研究,每个研究都有从两组患者亚组(性别和种族)中从文献中获取的多种表型定义。我们表明,根据不同的公平指标和亚组,不同的表型定义表现出较大和不同的性能。我们希望拟议的最佳实践可以帮助构建公平和包容的表型定义。
translated by 谷歌翻译
临床表型可以从患者记录中自动提取临床状况,这可能对全球医生和诊所有益。但是,当前的最新模型主要适用于用英语编写的临床笔记。因此,我们研究了跨语化知识转移策略,以针对不使用英语并且有少量可用数据的诊所执行此任务。我们评估了希腊和西班牙诊所的这些策略,利用来自心脏病学,肿瘤学和ICU等不同临床领域的临床笔记。我们的结果揭示了两种策略,这些策略优于最先进的方法:基于翻译的方法,结合了域的编码器和跨语性编码器以及适配器。我们发现,这些策略在对稀有表型进行分类方面表现特别好,我们建议在哪种情况下更喜欢哪种方法。我们的结果表明,使用多语言数据总体可以改善临床表型模型,并可以补偿数据稀疏性。
translated by 谷歌翻译
Word embeddings are extensively used in various NLP problems as a state-of-the-art semantic feature vector representation. Despite their success on various tasks and domains, they might exhibit an undesired bias for stereotypical categories due to statistical and societal biases that exist in the dataset they are trained on. In this study, we analyze the gender bias in four different pre-trained word embeddings specifically for the depression category in the mental disorder domain. We use contextual and non-contextual embeddings that are trained on domain-independent as well as clinical domain-specific data. We observe that embeddings carry bias for depression towards different gender groups depending on the type of embeddings. Moreover, we demonstrate that these undesired correlations are transferred to the downstream task for depression phenotype recognition. We find that data augmentation by simply swapping gender words mitigates the bias significantly in the downstream task.
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
准确地检测出文本抑郁症的模型是解决流行后心理健康危机的重要工具。基于BERT的分类器的有希望的性能和现成的可用性使它们成为此任务的绝佳候选人。但是,已知这些模型会遭受性能不一致和概括不佳的损失。在本文中,我们介绍了甲板(抑郁清单),抑郁症特异性模型的行为测试,可更好地解释性并提高抑郁域中BERT分类器的普遍性。我们创建了23次测试,以评估BERT,Roberta和Albert Depine Classifiers在三个数据集中,两个基于Twitter和一个基于临床访谈的分类器。我们的评估表明,这些模型:1)对于文本中的某些性别敏感变化是可靠的; 2)依靠使用第一人称代词的使用的重要抑郁语言标记; 3)无法检测到其他一些抑郁症状,例如自杀念头。我们还证明,甲板测试可用于将特定于症状的信息纳入训练数据中,并始终提高所有三种BERT模型的概括性,而分布外F1得分的提高最高可达53.93%。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
近年来,人们对使用电子病历(EMR)进行次要目的特别感兴趣,以增强医疗保健提供的质量和安全性。 EMR倾向于包含大量有价值的临床笔记。学习嵌入是一种将笔记转换为使其可比性的格式的方法。基于变压器的表示模型最近取得了巨大的飞跃。这些模型在大型在线数据集上进行了预训练,以有效地了解自然语言文本。学习嵌入的质量受临床注释如何用作表示模型的输入的影响。临床注释有几个部分具有不同水平的信息价值。医疗保健提供者通常使用不同的表达方式来实现同一概念也很常见。现有方法直接使用临床注释或初始预处理作为表示模型的输入。但是,要学习良好的嵌入,我们确定了最重要的临床笔记部分。然后,我们将提取的概念从选定部分映射到统一医学语言系统(UMLS)中的标准名称。我们使用与唯一概念相对应的标准短语作为临床模型的输入。我们进行了实验,以测量在公共可用的医疗信息集市(MIMIC-III)数据集的子集中,在医院死亡率预测的任务中,学到的嵌入向量的实用性。根据实验,与其他输入格式相比,基于临床变压器的表示模型通过提取的独特概念的标准名称产生的输入产生了更好的结果。表现最好的模型分别是Biobert,PubMedbert和Umlsbert。
translated by 谷歌翻译
Although prediction models for delirium, a commonly occurring condition during general hospitalization or post-surgery, have not gained huge popularity, their algorithmic bias evaluation is crucial due to the existing association between social determinants of health and delirium risk. In this context, using MIMIC-III and another academic hospital dataset, we present some initial experimental evidence showing how sociodemographic features such as sex and race can impact the model performance across subgroups. With this work, our intent is to initiate a discussion about the intersectionality effects of old age, race and socioeconomic factors on the early-stage detection and prevention of delirium using ML.
translated by 谷歌翻译
Question: Can an encoder-decoder architecture pretrained on a large dataset of longitudinal electronic health records improves patient outcome predictions? Findings: In this prognostic study of 6.8 million patients, our denoising sequence-to-sequence prediction model of multiple outcomes outperformed state-of-the-art models scuh pretrained BERT on a broad range of patient outcomes, including intentional self-harm and pancreatic cancer. Meaning: Deep bidirectional and autoregressive representation improves patient outcome prediction.
translated by 谷歌翻译