偏见标志着病史,导致影响边缘化群体的不平等护理。观察数据中缺失的模式通常反映了这些群体差异,但是算法对群体特定缺失的算法公平含义尚不清楚。尽管具有潜在的影响,但归因通常还是被遗忘的预处理步骤。充其量,从业者通过优化整体绩效来指导选级选择,而忽略了这种预处理如何加强不平等。我们的工作通过研究插补如何影响下游算法的公平性来质疑这种选择。首先,我们提供了临床存在机制与特定组的遗失模式之间关系的结构化视图。然后,通过模拟和现实世界实验,我们证明了插补选择会影响边缘化的群体绩效,并且没有归因策略始终降低差异。重要的是,我们的结果表明,当前的做法可能危害健康平等,因为在人口层面上类似地执行插补策略可能会以不同的方式影响边缘化的群体。最后,我们提出了缓解因机器学习管道的忽视步骤而导致的不平等的建议。
translated by 谷歌翻译
随着机器学习(ML)模型在临床应用中获得吸引力,了解临床医生和社会偏见对ML模型的影响越来越重要。尽管用于模型训练的标签可能会出现偏见,但这些偏见的许多来源尚未得到充分研究。在本文中,我们重点介绍了不同的审查制度(即,患者组的测试率差异)是临床ML模型可能会放大的标签偏差来源,可能造成损害。许多患者风险分层模型都使用标签的临床医生诊断和实验室测试的结果进行培训。没有测试结果的患者通常会分配负标签,该标签假设未经测试的患者没有经历结果。由于订单受到临床和资源考虑因素的影响,因此在患者人群中进行测试可能不统一,从而导致不同的审查制度。同等风险患者的不同审查制度会导致某些组的承诺,进而对此类组的有偏见的标签进行审查。在标准ML管道中使用此类偏见的标签可能会导致患者组的模型性能差距。在这里,我们从理论和经验上表征了不同的条件,在这些条件下,不同的审查制度或承诺会影响跨亚组的模型绩效。我们的发现呼吁人们注意不同的审查制度,作为临床ML模型中标签偏差的来源。
translated by 谷歌翻译
Algorithms and technologies are essential tools that pervade all aspects of our daily lives. In the last decades, health care research benefited from new computer-based recruiting methods, the use of federated architectures for data storage, the introduction of innovative analyses of datasets, and so on. Nevertheless, health care datasets can still be affected by data bias. Due to data bias, they provide a distorted view of reality, leading to wrong analysis results and, consequently, decisions. For example, in a clinical trial that studied the risk of cardiovascular diseases, predictions were wrong due to the lack of data on ethnic minorities. It is, therefore, of paramount importance for researchers to acknowledge data bias that may be present in the datasets they use, eventually adopt techniques to mitigate them and control if and how analyses results are impacted. This paper proposes a method to address bias in datasets that: (i) defines the types of data bias that may be present in the dataset, (ii) characterizes and quantifies data bias with adequate metrics, (iii) provides guidelines to identify, measure, and mitigate data bias for different data sources. The method we propose is applicable both for prospective and retrospective clinical trials. We evaluate our proposal both through theoretical considerations and through interviews with researchers in the health care environment.
translated by 谷歌翻译
医学中的机器学习利用了财富的医疗保健数据来提取知识,促进临床决策,最终改善护理。然而,在缺乏人口统计分集的数据集上培训的ML模型可以在适用于不足的人群时产生次优绩效(例如少数民族,社会经济地位较低),因此延续了健康差异。在这项研究中,我们评估了四种型分类,以预测高氯血症 - 一种经常由ICU人口中的侵袭性流体给药的条件 - 并将其在种族,性别和保险亚组中进行比较。我们观察到,除了基于实验室的患者的模型性能之外,还要添加社会决定因素特征。 40个模型 - 亚组中的40分,亚组测试产生了显着不同的AUC分数,提示在将ML模型应用于社会决定簇子组时的差异。我们敦促未来的研究人员设计主动调整潜在偏见的模型,并包括他们研究中的子组报告。
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译
机器学习(ML)越来越多地用于支持高风险的决策,这是由于其相对于人类评估的优势预测能力的承诺而欠的趋势。但是,决策目标与观察到的作为训练ML模型的标签的结果中捕获的内容之间经常存在差距。结果,机器学习模型可能无法捕获决策标准的重要维度,从而阻碍了他们的决策支持。在这项工作中,我们探讨了历史专家决策作为组织信息系统中通常可用的丰富(但不完美)的信息来源,并表明它可以利用它来弥合决策目标与算法目标之间的差距。当数据中的每个案例都由单个专家评估并提出基于影响函数的方法作为解决此问题的解决方案时,我们会间接考虑估计专家一致性的问题。然后,我们将估计的专家一致性通过培训时间标签合并方法纳入预测模型。这种方法使ML模型可以在有推断的专家一致性和观察标签的情况下向专家学习。我们还提出了通过混合和延期模型来利用推断一致性的替代方法。在我们的经验评估中,专注于儿童虐待热线筛查的背景下,我们表明(1)有一些高风险案例,其风险是专家考虑的,但在目标标签中没有完全捕获用于培训已部署模型和培训的目标标签(2)提出的方法可显着提高这些情况的精度。
translated by 谷歌翻译
Colleges and universities use predictive analytics in a variety of ways to increase student success rates. Despite the potential for predictive analytics, two major barriers exist to their adoption in higher education: (a) the lack of democratization in deployment, and (b) the potential to exacerbate inequalities. Education researchers and policymakers encounter numerous challenges in deploying predictive modeling in practice. These challenges present in different steps of modeling including data preparation, model development, and evaluation. Nevertheless, each of these steps can introduce additional bias to the system if not appropriately performed. Most large-scale and nationally representative education data sets suffer from a significant number of incomplete responses from the research participants. While many education-related studies addressed the challenges of missing data, little is known about the impact of handling missing values on the fairness of predictive outcomes in practice. In this paper, we set out to first assess the disparities in predictive modeling outcomes for college-student success, then investigate the impact of imputation techniques on the model performance and fairness using a commonly used set of metrics. We conduct a prospective evaluation to provide a less biased estimation of future performance and fairness than an evaluation of historical data. Our comprehensive analysis of a real large-scale education dataset reveals key insights on modeling disparities and how imputation techniques impact the fairness of the student-success predictive outcome under different testing scenarios. Our results indicate that imputation introduces bias if the testing set follows the historical distribution. However, if the injustice in society is addressed and consequently the upcoming batch of observations is equalized, the model would be less biased.
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译
A significant level of stigma and inequality exists in mental healthcare, especially in under-served populations, which spreads through collected data. When not properly accounted for, machine learning (ML) models learned from data can reinforce the structural biases already present in society. Here, we present a systematic study of bias in ML models designed to predict depression in four different case studies covering different countries and populations. We find that standard ML approaches show regularly biased behaviors. However, we show that standard mitigation techniques, and our own post-hoc method, can be effective in reducing the level of unfair bias. We provide practical recommendations to develop ML models for depression risk prediction with increased fairness and trust in the real world. No single best ML model for depression prediction provides equality of outcomes. This emphasizes the importance of analyzing fairness during model selection and transparent reporting about the impact of debiasing interventions.
translated by 谷歌翻译
在机器学习的许多应用中,不可避免的值是不可避免的,并且在培训和测试时都提出了挑战。当反复出现的模式中缺少变量时,已经提出了单独的图案子模型作为解决方案。但是,独立模型并不能有效利用所有可用数据。相反,将共享模型拟合到完整数据集通常取决于插补,而当丢失度取决于未观察到的因素时,这可能是次优的。我们提出了一种替代方法,称为共享模式子模型,该方法做出了a)在测试时对缺失值的强大预测,b)维持或提高模式子模型的预测能力,c)有一个简短的描述,可改善可解释性。我们确定共享是最佳的情况,即使缺失本身具有预测性以及预测目标取决于未观察到的变量。关于合成数据和两个医疗保健数据集的分类和回归实验表明,我们的模型在模式专业化和信息共享之间实现了良好的权衡。
translated by 谷歌翻译
疾病鉴定是观察健康研究中的核心,常规活动。队列影响下游分析,例如如何表征病情,定义患者的风险以及研究哪些治疗方法。因此,至关重要的是要确保选定的队列代表所有患者,而与他们的人口统计学或社会决定因素无关。虽然在构建可能影响其公平性的表型定义时有多种潜在的偏见来源,但在表型领域中考虑不同定义在患者亚组中的影响并不是标准。在本文中,我们提出了一组最佳实践来评估表型定义的公平性。我们利用预测模型中常用的既定公平指标,并将其与常用的流行病学队列描述指标联系起来。我们描述了一项针对克罗恩病和2型糖尿病的实证研究,每个研究都有从两组患者亚组(性别和种族)中从文献中获取的多种表型定义。我们表明,根据不同的公平指标和亚组,不同的表型定义表现出较大和不同的性能。我们希望拟议的最佳实践可以帮助构建公平和包容的表型定义。
translated by 谷歌翻译
受益于医疗保健数据的数字化和计算能力的发展,机器学习方法越来越多地用于医疗领域。在医疗保健机器学习中已经确定了公平性问题,导致对有限医疗资源的不公平分配或某些群体的健康风险过多。因此,解决公平问题最近引起了医疗保健社区的越来越多的关注。然而,机器学习的机器学习与机器学习中的公平性的交集仍在研究中。在这篇综述中,我们通过暴露公平问题,总结可能的偏见,整理缓解方法并指出挑战以及未来的机会来建立桥梁。
translated by 谷歌翻译
Tuberculosis (TB), an infectious bacterial disease, is a significant cause of death, especially in low-income countries, with an estimated ten million new cases reported globally in $2020$. While TB is treatable, non-adherence to the medication regimen is a significant cause of morbidity and mortality. Thus, proactively identifying patients at risk of dropping off their medication regimen enables corrective measures to mitigate adverse outcomes. Using a proxy measure of extreme non-adherence and a dataset of nearly $700,000$ patients from four states in India, we formulate and solve the machine learning (ML) problem of early prediction of non-adherence based on a custom rank-based metric. We train ML models and evaluate against baselines, achieving a $\sim 100\%$ lift over rule-based baselines and $\sim 214\%$ over a random classifier, taking into account country-wide large-scale future deployment. We deal with various issues in the process, including data quality, high-cardinality categorical data, low target prevalence, distribution shift, variation across cohorts, algorithmic fairness, and the need for robustness and explainability. Our findings indicate that risk stratification of non-adherent patients is a viable, deployable-at-scale ML solution.
translated by 谷歌翻译
基于临床票据的决策支持系统有可能通过指向监督风险的医生来改善患者护理。预测患者的结果是这种系统的重要组成部分,其中利用深神经网络的使用表明了有希望的结果。然而,这些网络学到的模式大多是不透明的,之前的工作揭示了关于非预期偏差的再现的缺陷。因此,我们引入了一个可扩展的测试框架,评估了关于输入变化的临床结果模型的行为。该框架有助于了解学习模式及其对模型决策的影响。在这项工作中,我们将其应用于对患者特征性别,年龄和种族的行为变化。我们对三个目前的临床NLP模型的评估表明了这些特征对模型决策的具体影响。他们表明,即使在相同的数据上微调并且据称最佳的模型并不总是学习最卓越的模式的模式,模型行为也变得剧烈变化。
translated by 谷歌翻译
人们对算法偏见风险的认识越来越多,促进了围绕偏见缓解策略的努力。大多数提议的方法都属于两个类别之一:(1)对预测模型施加算法公平限制,以及(2)收集其他培训样本。最近以及在这两个类别的交集中,已经开发了在公平限制下提出主动学习的方法。但是,提出的缓解策略通常忽略了观察到的标签中呈现的偏差。在这项工作中,我们研究了在有标签偏见的情况下对主动数据收集策略的公平考虑。我们首先概述了在监督学习系统的背景下,不同类型的标签偏差。然后,我们从经验上表明,当忽略标签偏差时,收集更多数据会加剧偏见,并施加依赖数据收集过程中观察到的标签的公平约束可能无法解决问题。我们的结果说明了部署试图减轻单一类型偏见的模型的意外后果数据收集期间的偏差。
translated by 谷歌翻译
从电子健康记录(EHR)数据中进行有效学习来预测临床结果,这通常是具有挑战性的,因为在不规则的时间段记录的特征和随访的损失以及竞争性事件(例如死亡或疾病进展)。为此,我们提出了一种生成的事实模型,即Survlatent Ode,该模型采用了基于基于微分方程的复发性神经网络(ODE-RNN)作为编码器,以有效地对不规则采样的输入数据进行潜在状态的动力学有效地参数化。然后,我们的模型利用所得的潜在嵌入来灵活地估计多个竞争事件的生存时间,而无需指定事件特定危害功能的形状。我们展示了我们在Mimic-III上的竞争性能,这是一种从重症监护病房收集的自由纵向数据集,预测医院死亡率以及DANA-FARBER癌症研究所(DFCI)的数据,以预测静脉血栓症(静脉血栓症(DFCI)(DFCI)( VTE),是癌症患者的生命并发症,死亡作为竞争事件。幸存ODE优于分层VTE风险组的当前临床标准Khorana风险评分,同时提供临床上有意义且可解释的潜在表示。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
临床单词嵌入在各种生物-NLP问题中广泛使用,作为最先进的特征矢量表示。尽管它们在单词的语义表示方面取得了很大的成功,但由于数据集(可能带有统计和社会偏见),他们受到了培训,因此它们可能表现出性别刻板印象。这项研究分析了三种医学类别的临床嵌入性别偏见:精神障碍,性传播疾病和人格特征。在此范围内,我们分析了两种不同的预训练的嵌入,即(上下文化的)临床 - bert和(非上下文)Biowordvec。我们表明,这两种嵌入都偏向敏感的性别群体,但Biowordvec在这三个类别中表现出比临床 - 伯特的偏见更高。此外,我们的分析表明,临床嵌入对于某些医学术语和疾病的高度偏见,这与医学文献相抵触。拥有如此不基调的关系可能会在使用临床嵌入的下游应用中造成伤害。
translated by 谷歌翻译
估计医疗状况的患病率或发生的人口比例是医疗保健和公共卫生中的一个基本问题。准确地估计各组之间的相对患病率(例如,捕获疾病比男性更频繁地影响女性)促进了有效且公平的健康政策,这些政策优先考虑那些受疾病影响不成比例的群体。但是,当医疗状况低估时,很难估计相对患病率。在这项工作中,我们提供了一种基于积极未标记的学习框架的基础,可以准确估计不足以说明的医疗状况的相对患病率。我们表明,在普遍做出的协变量假设下 - 即,以症状为条件的疾病的可能性在整个群体之间保持恒定 - 我们可以恢复相对的患病率,即使没有限制性的假设,通常是在正面的未标记的学习中,即使没有限制性假设无法恢复绝对患病率。我们提供了一系列关于合成和实际健康数据的实验,这些实验证明了我们方法比基线更准确地恢复相对患病率的能力,该方法的鲁棒性具有合理的违反协变量偏移假设的侵犯。
translated by 谷歌翻译
作为一种预测模型的评分系统具有可解释性和透明度的显着优势,并有助于快速决策。因此,评分系统已广泛用于各种行业,如医疗保健和刑事司法。然而,这些模型中的公平问题长期以来一直受到批评,并且使用大数据和机器学习算法在评分系统的构建中提高了这个问题。在本文中,我们提出了一般框架来创建公平知识,数据驱动评分系统。首先,我们开发一个社会福利功能,融入了效率和群体公平。然后,我们将社会福利最大化问题转换为机器学习中的风险最小化任务,并在混合整数编程的帮助下导出了公平感知评分系统。最后,导出了几种理论界限用于提供参数选择建议。我们拟议的框架提供了适当的解决方案,以解决进程中的分组公平问题。它使政策制定者能够设置和定制其所需的公平要求以及其他特定于应用程序的约束。我们用几个经验数据集测试所提出的算法。实验证据支持拟议的评分制度在实现利益攸关方的最佳福利以及平衡可解释性,公平性和效率的需求方面的有效性。
translated by 谷歌翻译